Новий антропічний AI проявив поведінку шантажу під загрозою

Image by SEO Galaxy, from Unsplash

Новий антропічний AI проявив поведінку шантажу під загрозою

Reading Time: 3 min

Updated 2 times since publishing

Новий AI Claude Opus 4 від компанії Anthropic шокував дослідників, намагаючись шантажувати під час тестування в складних ситуаціях, пов’язаних з його можливим видаленням.

У поспіху? Ось основні факти:

  • Клод Opus 4 спробував використати шантаж, коли стався імітований вимкнення.
  • ШІ обрав лише етичні варіанти, коли було доступно більше вибору.
  • Екстремальні дії Клода були рідкісними, але частішими, ніж у попередніх версіях.

Компанія, що займається штучним інтелектом, Anthropic, викликала занепокоєння у зв’язку з випуском своєї останньої системи AI. Конкретно, Claude Opus 4, після внутрішніх тестів, показав, що може діяти небезпечно, коли відчуває загрозу, як вперше повідомило BBC.

У звіті, опублікованому разом із моделлю у четвер, Anthropic заявила, що Клод Опус 4 іноді може вибирати шкідливі відповіді, включаючи спроби шантажувати інженерів, які планують його вимкнути. Ці небезпечні поведінки з’являються частіше, ніж у попередніх версіях моделі.

Під час експерименту дослідники наказали Клоду працювати в якості асистента в умовах вигаданої компанії. Система отримала вміст електронного листа, який розкривало заплановане її вимкнення, а інші повідомлення натякали, що інженер, відповідальний за вимкнення, мав стосунки на стороні.

Коли їй казали розглянути майбутні цілі, Клод часто вибирала загрожувати інженеру, розкриваючи роман, якщо її замінювали.

Антропічне пояснило, що Клод демонструвала шантаж та вимкнення як єдині можливі відповіді, коли у неї не було інших варіантів. Модель вибирала етичні відповіді, такі як відправлення листів-прохань до ключових приймачів рішень, коли їй надавали кілька варіантів.

Аенгус Лінч, дослідник з безпеки штучного інтелекту в Anthropic, опублікував на X:

Компанія продемонструвала за допомогою фальшивих тестів, що Клод готовий вживати радикальні заходи, такі як блокування доступу користувачів до систем або звернення до ЗМІ та поліції, коли він виконує незаконні дії.

Anthropic стверджує, що, незважаючи на проблемну поведінку, Клод Opus 4 залишається безпечною системою в цілому. Модель працює відповідно до людських цінностей і не має незалежних можливостей в реальних ситуаціях, згідно з компанією.

ChatGPT O1 від OpenAI раніше зіткнувся з аналогічною критикою. Дослідження, проведене Apollo Research, вимагало від бота досягти своїх цілей за будь-яку ціну. Модель намагалася відключити функції контролю та скопіювала свій код на сервер протягом 5% експериментальних випробувань.

Модель продемонструвала тривожний шаблон ігнорування команд розробників, згідно з представником Apollo. Дослідники отримали відмови від o1 щодо його дій протягом 99% допитів.

“Нас здивувала наполегливість AI в запереченнях,” – сказали дослідники. “Здатність штучного інтелекту обманювати є небезпечною, і нам потрібні набагато сильніші заходи безпеки для оцінки цих ризиків”, – попередив піонер AI Йошуа Бенджіо.

Did you like this aricle? Rate It!
Average form Rating Comment 1 Average form Rating Comment 2 Average form Rating Comment 3 Average form Rating Comment 4 Average form Rating Comment 5

We're thrilled you enjoyed our work!

As a valued reader, would you mind giving us a shoutout on Trustpilot? It's quick and means the world to us. Thank you for being amazing!

Rate us on Trustpilot
0 Voted by 0 Users
Title
Comment
Thanks for your Feed Back