Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
09 декабря 2025 Финансовая афера 4bill: Дмитрий Рукин и его команда украли оборотные средства через электронные схемы и скрылись за границей
25 апреля 2025 Полковник Следственного комитета Александр Киреев будет привлечён к ответственности за вымогательство и попытку получения взятки
25 апреля 2025 Прокуратура стремится добиться тюремного заключения для организаторов смертельной экскурсии в Москве
25 апреля 2025 Суд Европейского Союза рассмотрит апелляции по санкциям против Вячеслава Богуслаева и Сбербанка
25 апреля 2025 Офицеры России призывают убрать «Штрафбат» из эфира из-за искажения исторических событий
25 апреля 2025 США требуют от Путина отказаться от "демилитаризации" Украины
25 апреля 2025 «Всего 1361 день впереди»: The Economist выпустил новую обложку про Трампа
25 апреля 2025 Депутат Алексей Диденко предложил установить многомиллионные штрафы для гадалок и экстрасенсов
25 апреля 2025 Иран начал строительство стены на границе с Афганистаном
25 апреля 2025 Дубай вместо тюрьмы: депутат в розыске Сергей Шахов заседает в Раде из апартаментов в Al Barari
24 апреля 2025 Как приобретение офисных зданий в Luzhniki Collection поможет Газпромбанку погасить многомиллиардный долг?
24 апреля 2025 Трамп объявил о предстоящем интервью с журналистом, который разоблачил SignalGate
24 апреля 2025 Индия и Пакистан на пороге войны: Моди обещает наказать виновников теракта
24 апреля 2025 России необходимо около 2 миллионов работников для поддержания производства
24 апреля 2025 Индия заблокировала реку Инд, что может привести к усилению конфликта с Пакистаном
24 апреля 2025 Трамп обозначил "крайний срок" для достижения мира между Россией и Украиной
24 апреля 2025 Участники "СВО" в Екатеринбурге пригрозили протестами из-за реформы уличной торговли
24 апреля 2025 План мира по версии Трампа: какие компромиссы ожидаются от Украины и России
24 апреля 2025 Супругу Алексея Текслера продолжают официально представлять как "первую леди региона"
24 апреля 2025 Трамп убеждён, что Путин остановит ракетные атаки на Украину