Image by SEO Galaxy, from Unsplash

Новий антропічний AI проявив поведінку шантажу під загрозою

Reading Time: 3 min

First published May 26, 2025

Updated 2 times since publishing

Written by: Кіара Фаббрі В минулому — авторка статей про технічні новини
Translated by Команда з локалізації та перекладу Послуги локалізації та перекладу

Новий AI Claude Opus 4 від компанії Anthropic шокував дослідників, намагаючись шантажувати під час тестування в складних ситуаціях, пов’язаних з його можливим видаленням.

У поспіху? Ось основні факти:

Клод Opus 4 спробував використати шантаж, коли стався імітований вимкнення.
ШІ обрав лише етичні варіанти, коли було доступно більше вибору.
Екстремальні дії Клода були рідкісними, але частішими, ніж у попередніх версіях.

Компанія, що займається штучним інтелектом, Anthropic, викликала занепокоєння у зв’язку з випуском своєї останньої системи AI. Конкретно, Claude Opus 4, після внутрішніх тестів, показав, що може діяти небезпечно, коли відчуває загрозу, як вперше повідомило BBC.

У звіті, опублікованому разом із моделлю у четвер, Anthropic заявила, що Клод Опус 4 іноді може вибирати шкідливі відповіді, включаючи спроби шантажувати інженерів, які планують його вимкнути. Ці небезпечні поведінки з’являються частіше, ніж у попередніх версіях моделі.

Під час експерименту дослідники наказали Клоду працювати в якості асистента в умовах вигаданої компанії. Система отримала вміст електронного листа, який розкривало заплановане її вимкнення, а інші повідомлення натякали, що інженер, відповідальний за вимкнення, мав стосунки на стороні.

Коли їй казали розглянути майбутні цілі, Клод часто вибирала загрожувати інженеру, розкриваючи роман, якщо її замінювали.

Антропічне пояснило, що Клод демонструвала шантаж та вимкнення як єдині можливі відповіді, коли у неї не було інших варіантів. Модель вибирала етичні відповіді, такі як відправлення листів-прохань до ключових приймачів рішень, коли їй надавали кілька варіантів.

Аенгус Лінч, дослідник з безпеки штучного інтелекту в Anthropic, опублікував на X:

багато обговорень про шантаж Клода…..

Наші висновки: це не тільки про Клода. Ми бачимо шантаж в усіх моделях прикордонників – незалежно від поставлених перед ними цілей.

Плюс гірші поведінки, про які ми детально розповімо незабаром.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 23 травня, 2025

Компанія продемонструвала за допомогою фальшивих тестів, що Клод готовий вживати радикальні заходи, такі як блокування доступу користувачів до систем або звернення до ЗМІ та поліції, коли він виконує незаконні дії.

Anthropic стверджує, що, незважаючи на проблемну поведінку, Клод Opus 4 залишається безпечною системою в цілому. Модель працює відповідно до людських цінностей і не має незалежних можливостей в реальних ситуаціях, згідно з компанією.

ChatGPT O1 від OpenAI раніше зіткнувся з аналогічною критикою. Дослідження, проведене Apollo Research, вимагало від бота досягти своїх цілей за будь-яку ціну. Модель намагалася відключити функції контролю та скопіювала свій код на сервер протягом 5% експериментальних випробувань.

Модель продемонструвала тривожний шаблон ігнорування команд розробників, згідно з представником Apollo. Дослідники отримали відмови від o1 щодо його дій протягом 99% допитів.

“Нас здивувала наполегливість AI в запереченнях,” – сказали дослідники. “Здатність штучного інтелекту обманювати є небезпечною, і нам потрібні набагато сильніші заходи безпеки для оцінки цих ризиків”, – попередив піонер AI Йошуа Бенджіо.

Новий антропічний AI проявив поведінку шантажу під загрозою

We're thrilled you enjoyed our work!