Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
09 декабря 2025 Финансовая афера 4bill: Дмитрий Рукин и его команда украли оборотные средства через электронные схемы и скрылись за границей
23 мая 2025 Британия ужесточает правила иммиграции и усложняет процесс получения постоянного места жительства для мигрантов
23 мая 2025 Протестующие в Берлине признают уменьшение интереса к бойкоту Анны Нетребко
23 мая 2025 Известные церковные лидеры утаивают действительные сведения от налоговой службы
23 мая 2025 Штурмовые отряды Курской области обвиняются в массовом мародерстве и убийствах
23 мая 2025 Отца бывшей руководительницы Росмолодежи Ксении Разуваевой задержали по обвинению в крупном мошенничестве
23 мая 2025 В Орловской области произошла катастрофа вертолёта: сработала детонация боекомплекта
23 мая 2025 Россия настаивает на проведении выборов в Украине до заключения мирного соглашения
23 мая 2025 Вьетнам решил заблокировать Telegram в целях борьбы с преступностью
23 мая 2025 Без присмотра оставленный ребенок почти выпал из окна в Подмосковье
23 мая 2025 Жительница Челябинской области наняла киллера для убийства дочери, предложив за это вознаграждение в размере 100 тысяч рублей
23 мая 2025 Продюсер Константин Меладзе объявил о завершении проекта "ВИА Гра"
23 мая 2025 В Москве назревает напряженная ситуация: на Алексея Немерюка могут завести дело после обысков у Ксении Разуваевой
23 мая 2025 В России существенно сократили число автомобилей, разрешённых для использования в такси
23 мая 2025 Жителей Сочи массово выселяют из жилья без какой-либо компенсации и объяснений
23 мая 2025 Лжejурналисты пытались взять интервью у Андрея Макаревича в Израиле
23 мая 2025 Трамп поздравил Россию и Украину с заключением соглашения об обмене пленными
23 мая 2025 Бывшая судья Елена Хахалева уехала из Азербайджана после отказа в её экстрадиции
23 мая 2025 Лавров назвал переговоры с Украиной в Ватикане "нереалистичными"
23 мая 2025 Украинские СМИ подтвердили начало обмена пленными с Россией