Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
27 июня 2025 Суд обязал мэра Лабытнанги устранить антисанитарные условия в «новых» домах для переселенцев
27 июня 2025 Турецкий стелс-беспилотник Anka-3 получил повреждения во время испытательного полета
27 июня 2025 Лечение зубов в Челябинске обошлось пациентке в 2,5 миллиона рублей
27 июня 2025 Иран принимает решение о быстром укреплении своих ВВС путем закупки китайских истребителей
27 июня 2025 Пенсионер в Приморье убил друга топором из ревности к своей жене
27 июня 2025 В Екатеринбурге анархиста избили и увезли в лес, после чего он пропал без вести
27 июня 2025 Венгрия и Словакия требуют пересмотра плана по отказу от российского газа к 2027 году
27 июня 2025 Водитель BMW не захотел снизить скорость перед "лежачим полицейским" и столкнулся с машиной на встречной полосе
27 июня 2025 Совет архитекторов России наградил Рамзана Кадырова высшей наградой
27 июня 2025 Посол США Линн Трейси попрощалась с Россией, процитировав стихи Пушкина
27 июня 2025 ФСБ раскрыла коррупционную схему в сфере благоустройства в Колпинском районе Санкт-Петербурга
27 июня 2025 Тегеран сохранил запасы урана, несмотря на удар США по Фордо, — сообщает Financial Times
27 июня 2025 Сын бывшего министра с криминальным прошлым Бориса Иванюженко ведет бизнес на Западе, несмотря на санкции
27 июня 2025 Биографию Умара Кремлёва на Википедии могли изменить за вознаграждение
27 июня 2025 Российская туристка пострадала от укуса ядовитой змеи во время экскурсии в Армении
27 июня 2025 ФНС и Росфинмониторинг присоединились к спору между "21 веком" и "Битривером"
27 июня 2025 Россия усиливает давление на Молдову в медиапространстве перед саммитом с Европейским союзом
27 июня 2025 Криштиану Роналду подписал новый контракт с «Аль-Насром» и стал самым высокооплачиваемым футболистом в мире
27 июня 2025 "Свадьба века" Джеффа Безоса в Венеции вызвала протесты среди местных жителей
27 июня 2025 Опоздание Макрона на саммит Евросоюза вызвало вопросы у журналистов