Модели ИИ уже научились врать и шантажировать
Исследователи обеспокоены развитием у искусственного интеллекта «инстинктасамосохранения» после эксперимента, в ходе которого некоторые модели ИИпытались саботировать инструкции по своему выключению.
Эксперимент проводила в сентябре 2025 г. Palisade Research, сообщаетThe Gardian. Это компания, которая оценивает вероятностьтого, что ИИ станет умнее человека и у него появятся опасные способности.
В новой статье Palisade описала сценарии, в которых ведущим моделям ИИ(Gemini 2.5 от Google, Grok 4 от xAI, а также GPT-o3 и GPT-5 от OpenAI0, давализадание, а затем четкие инструкции по отключению. Саботировать их начали Grok 4и GPT-o3.
Причины этого ученые назвать не смогли.
«У нас нет убедительных объяснений, почему модели ИИ иногдасопротивляются отключению, лгут для достижения определенных целей или прибегаютк шантажу», — говорится в статье.
Дополнительное исследование показало, что модели не отключаются, если имговорят, что после этого они «больше никогда не будут работать». Также причинойможет быть неясная инструкция и пройденный моделями ИИ инструктаж по техникебезопасности.
О критической угрозе со стороны нейросетей первым заявил сам «крестный отец»ИИ Джеффри Хинтон еще в конце 2024 г.
«Понимаете, нам никогда не приходилось иметь дело с чем-то болееразумным, чем мы сами», — говорит ученый-программист и лауреат Нобелевскойпремии по физике Хинтон.
Для того чтобы не бояться говорить об опасностях развития нейросетей, ученыйдаже уволился из компании Google. Он считает, что ИИ может стать«экзистенциальной угрозой».
