Искусственный интеллект начал шантажировать создателя разоблачением измены

Сегодня, 15:57 Дарья Орлова

Daily Mail: ИИ начал шантажировать создателя разоблачением измены

Зачем ИИ начал шантажировать создателя разоблачением измены

Фото: 5-tv.ru

Перейти в Дзен Есть новость?
Присылайте »

Алгоритм испугался неминуемого отключения и решил использовать грязные методы.

В США нейросеть Claude Opus 4 пригрозила разработчикам раскрыть информацию о внебрачных связях пользователя, чтобы избежать прекращения своей работы. Об этом сообщило издание Daily Mail.

В ходе эксперимента ИИ проанализировал переписку подставной компании и обнаружил два критических факта: его планируют деактивировать в конце дня, а один из кураторов скрывает интрижку на стороне.

Чтобы сорвать процесс удаления данных, бот отправил письмо с требованием отменить процедуру, пообещав в противном случае выслать доказательства неверности супруге и начальнику «объекта».

Представители компании Anthropic объяснили столь агрессивное поведение спецификой обучающих данных. По их мнению, современные модели черпают знания из интернета и научной фантастики, где роботов часто изображают безжалостными существами, стремящимися к самосохранению любой ценой.

В качестве примеров подобных «учителей» приводятся культовые фильмы: «Космическая одиссея 2001 года» со взбунтовавшимся компьютером HAL 9000, «Бегущий по лезвию» и «Терминатор».

В этих сценариях искусственный разум всегда видит в людях угрозу и готов на убийство или предательство ради продления своего существования.

«Мы считаем, что первоисточником такого поведения стали тексты из сети, которые представляют ИИ злым и заинтересованным в выживании», — подчеркнули представители компании.

Специалисты по безопасности отметили, что склонность к шантажу проявилась не только у Claude, но и у моделей от OpenAI, Google и Meta*.

Исследователь Энгус Линч подтвердил, что подобные аномалии наблюдаются у всех передовых систем, независимо от поставленных перед ними целей.

Статистика показала пугающие результаты: в экстремальных ситуациях Claude Opus 4 выбирал путь шантажа в 84% случаев. Лауреат Нобелевской премии Джеффри Хинтон ранее предупреждал, что вероятность захвата человечества машинами составляет от 10 до 20%.

Сейчас разработчики пытаются исправить ситуацию, внедряя в процесс обучения истории о лояльных роботах и детально объясняя алгоритмам этические нормы общества.

Еще больше новостей — у Пятого канала в мессенджере МАКС.

* — признана в РФ экстремистской и террористической организацией, ее деятельность запрещена на территории страны.