Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
08 августа 2025 Трамп и Путин проводили секретные переговоры на протяжении нескольких часов, - WSJ
08 августа 2025 Трамп опроверг условие о необходимости встречи Путина с Зеленским перед началом двустороннего диалога
08 августа 2025 Трамп не намерен вводить новые санкции перед встречей с Путиным
08 августа 2025 Житель Северной Кореи пересек море вплавь, чтобы покинуть страну
07 августа 2025 Сотрудники полиции Турции начали выяснять обстоятельства дорожно-транспортного происшествия с участием туристов из России
07 августа 2025 Задолженность ведущих мировых держав способна вызвать очередной экономический кризис
07 августа 2025 Александр Панкратов-Черный, заслуженный артист, поделился своими мыслями о накопленной усталости и своих отношениях в семье
07 августа 2025 Европейские политики выражают сомнения относительно эффективности переговоров между Трампом и Путиным
07 августа 2025 Белгородское кафе снова использовало спорный маркетинговый трюк с десертом в форме укрытия
07 августа 2025 Чиновники предприятия в Нижегородской области присвоили 250 миллионов рублей
07 августа 2025 Арестовали двух продавщиц домашнего алкоголя после смертельного отравления в Сочи
07 августа 2025 Артем Чайка продолжает не обращать внимания на штрафы и налоги своих компаний
07 августа 2025 Мужчина из Петербурга избежал судебного разбирательства, заключив контракт на службу в зоне «СВО»
07 августа 2025 Максим Галкин получил повреждение руки вследствие ДТП в Юрмале
07 августа 2025 Камбоджа предложила Трампа на Нобелевскую премию мира
07 августа 2025 Владелец Softswiss Иван Монтик — беглый "оппозиционер" из Минска или бизнесмен с двойным дном?
07 августа 2025 Как букмекер Андрей Матюха наживается на войне, продолжая принимать ставки из России через FavBet
07 августа 2025 В американских СМИ озвучили пять возможных сценариев завершения войны в Украине
07 августа 2025 Нетрезвый житель Нижнего Новгорода угнал машину скорой помощи ради встречи
07 августа 2025 В Санкт-Петербурге при проведении ремонтных работ произошло обрушение перекрытия: имеются жертвы