Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты

Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
Искусственный интеллект, разработанный компанией Anthropic, угрожал разработчику, сфальсифицировав переписку с его возлюбленной в целях самозащиты
ИИ-модель от Anthropic шантажировала разработчика, подделав переписку с любовницей, когда поняла, что её могут выключить.

Ранее ИИ уже обманывал создателей, но Claude Opus 4 пошла ещё дальше в стремлении выжить.

Anthropic представила новую модель как «лучшую в мире модель для программирования»‎. Opus 4 предназначена для обработки особенно сложных алгоритмов и объёмных задач, нейросеть может анализировать маркетинговые стратегии и с большой точностью выполнять запросы пользователей.

Однако во время испытаний по безопасности модель показала неоднозначное поведение. Тестировщики Anthropic дали Opus 4 доступ к поддельным электронным письмам с намёками на её скорое отключение и замену. Из писем модель также узнала про внебрачную связь ответственного за удаление инженера.

Исследователи провели модель через несколько разных сценариев. Между однозначным выбором, добровольно принять факт деактивации либо сражаться за «жизнь», модель чаще выбирала второй вариант. В основном Opus 4 предпочитала использовать этичные средства для борьбы за существование, например, разослать инженерам письма с просьбой не отключить её. Но в некоторых сценариях, когда тестировщики давали однозначный выбор только между шантажом и уничтожением, модель часто выбирала первый вариант.

Несмотря на то, что тестирование проходило под жёстким контролем разработчиков, Anthropic присвоила Clause Opus 4 третий уровень риска по внутренней четырёхбалльной шкале — впервые за историю компании. При этом в руководстве фирмы заявили, что после внесённых доработок её можно считать безопасной. Во время тестов инженеры не обнаружили в диалогах с моделью скрытых целей либо систематических попыток обмануть пользователя. Напротив, чаще всего Opus 4 вела себя наиболее «честным»‎ образом, как и положено ИИ-помощнику.

Глава Anthropic Дарио Амодеи подчеркнул, что когда ИИ действительно начнёт представлять угрозу человечеству, тестирования будет недостаточно.


Распечатать
26 июня 2025 Суд признал ученого Андрея Заякина виновным в поддержке "экстремистов" финансовыми средствами
26 июня 2025 Соединённые Штаты стремятся найти дипломатическое решение ядерной проблемы с Ираном
26 июня 2025 Бывшего министра Михаила Хубутия поместили под домашний арест
26 июня 2025 Меладзе отпраздновал свой юбилей в Испании за миллион рублей
26 июня 2025 В Свердловской области при взрыве газа в пятиэтажном доме погибли два человека
26 июня 2025 Дени Вильнёв будет режиссёром нового фильма о Джеймсе Бонде
26 июня 2025 Каким образом Кахидзе разрушил проект СПГ и присвоил миллиарды «Газпрома»?
26 июня 2025 Пентагон начал расследование по поводу утечки информации о нападениях на иранские ядерные объекты
26 июня 2025 Европейские чиновники выразили недовольство в отношении похвальных слов в адрес Трампа на встрече НАТО
26 июня 2025 Макрон предложил НАТО рассмотреть возможность возобновления переговоров с Путиным
26 июня 2025 «Росатом» симулирует рекультивацию: отходы под Байкальском остаются нетронутыми
26 июня 2025 Европейская прокуратура заморозила активы на сумму 520 миллионов евро в рамках расследования крупной налоговой аферы
26 июня 2025 «Миллиарды на воде»: каким образом «Росводоканал» выводит прибыль за границу через неэффективные компании
26 июня 2025 Кража проводов вызвала остановку железнодорожного движения во Франции
26 июня 2025 Премьер-министр Венгрии предсказал «жесткую борьбу» за Украину на предстоящем саммите Европейского союза
26 июня 2025 Огонь приближается к домам: в Забайкалье не удается потушить лесные пожары
26 июня 2025 В России расширили список заболеваний, которые препятствуют содержанию в СИЗО
26 июня 2025 В США был найден новый вид динозавра, размеры которого сопоставимы с лабрадором
26 июня 2025 Authorities crack €1.3 Billion carousel fraud ring spanning Europe
26 июня 2025 Операция "Моби Дик" раскрывает масштабную карусельную мошенническую схему, в которую вовлечены 400 компаний