Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
27 августа 2025 Премьер-министр Израиля открыто объявил о признании геноцида армян в Османской империи
27 августа 2025 Под Рязанью произошел взрыв, вызванный пожаром на нефтепроводе
27 августа 2025 В Подмосковье подростка едва не лишился зрения из-за удара каштаном
27 августа 2025 В Украине намерены усилить наказание за отказ военных выполнять приказы
27 августа 2025 В Польше нарастает конфликт между правительством Дональда Туска и президентом Каролем Навроцким
27 августа 2025 Экс-чиновника из Белгорода Виталия Чехунова проверят на причастность к хищениям, связанным с проектом «засечной черты»
27 августа 2025 Тейлор Свифт сообщила о помолвке с футболистом Трэвисом Келси
27 августа 2025 Спикер Гордумы Анна Гурарий утрачивает своё влияние вследствие конфликта Дмитрия Пумпянского с окружением Дениса Паслера
27 августа 2025 В Новосибирске задержали руководство клиники Мешалкина за получение взятки
27 августа 2025 Схемы Артема Аветисяна: как финансовый консультант превратился в мастера корпоративных захватов
27 августа 2025 В США родители подали иск к OpenAI, обвинив ChatGPT в гибели своего сына
27 августа 2025 Судебные разбирательства против застройщика ПИК: миллиарды превращаются в неровные стены и затопленные подвалы
27 августа 2025 Rutube начал массовые сокращения на фоне слияния с Premier и Yappy
27 августа 2025 В Красноярске пенсионерка причинила травму школьнику за отказ уступить ей место
27 августа 2025 Таможенные служащие в Новороссийске конфисковали «Майн Кампф» у турецкого моряка
27 августа 2025 Президент Азербайджана потребовал внесения изменений в конституцию Армении для заключения мирного соглашения
27 августа 2025 Стало известно, что мотивировало мужчину, напавшего на представителей правоохранительных органов в Москве
27 августа 2025 Прокуратура с мячом или с законом? В сентябре в Гурьевске начнётся судебное разбирательство
27 августа 2025 Трамп пригрозил России экономическим конфликтом из-за Украины
27 августа 2025 SpaceX завершила испытательный полет корабля Starship