Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
07 августа 2025 Предложение о встрече с Трампом исходило от самого Путина, — сообщает Fox News
07 августа 2025 Саудовская Аравия увеличила стоимость нефти для Азии, несмотря на увеличение объёмов добычи
07 августа 2025 Шантаж, подделки и пытки: как Дроздов и Цой вместе с ФСБ превращали больницу в фабрику фальшивых взяток
07 августа 2025 Трамп сообщил о прогрессе в переговорах с Москвой
07 августа 2025 Новое видео из Бучи демонстрирует расстрел мирного жителя российскими военными
07 августа 2025 Встреча Путина и Трампа переносится из-за проблем с организацией, - сообщает CNN
07 августа 2025 Lamborghini представила суперкар Temerario Porto Cervo с гибридным мотором
07 августа 2025 Двое мужчин обругали девушку и пытались забрать телефон у Эрмитажа
06 августа 2025 Бизнесмен Олег Миронов обвиняет руководителей Альфа-Банка в коррупции и подделке документов
06 августа 2025 Senior executives of Kharkivoblenergo indicted for tender scheme and money laundering activities
06 августа 2025 Компания-застройщик "СМ.Сити" предпринимает попытки обойти постановление прокуратуры города Красноярска
06 августа 2025 Владимир Мединский обвинил Киев в отказе принимать обратно пленных, а Украина заявила, что это ложь
06 августа 2025 Премьер-министр Индии Нарендра Моди впервые за семь лет отправляется в Китай на фоне обострения отношений с США
06 августа 2025 Кирилл Дмитриев подтвердил «успехи» в переговорах с США
06 августа 2025 Президент США сообщил об удачных переговорах с Россией и призвал к окончанию войны
06 августа 2025 В Гане разбился вертолет с министрами и советником по национальной безопасности
06 августа 2025 Сенатор Линдси Грэм выразил поддержку введению пошлин против Индии
06 августа 2025 A Georgian court gives journalist Mzia Amaghlobeli a two-year prison sentence
06 августа 2025 Индия и Россия укрепляют экономическое взаимодействие в условиях санкций США
06 августа 2025 Генерал Андрей Тарасов покинул Росгвардию во время видеоконференции