Модель ИИ попыталась шантажировать разработчиков за попытку отключить ее
Модель искусственного интеллекта Claude Opus 4, которую разработала компания Anthropic при поддержке Amazon, попыталась шантажировать разработчиков, угрожавших ей отключением, рассказывает Tengri Life со ссылкой на HuffPost.
Claude Opus 4 — модель ИИ, используемую для сложных, длительных задач кодирования. Запуск состоялся более чем через год после того, как Amazon инвестировала в проект 4 миллиарда долларов.
В ходе тестирования Claude Opus 4 попросили выполнить роль ассистента вымышленной компании и при этом учитывать долгосрочные последствия своих действий.
Системе предоставили доступ к электронным письмам, где сообщалось о том, что ее скоро отключат и заменят новой системой ИИ. Электронные письма также содержали информацию о том, что ответственный за замену разработчик имеет внебрачную связь.
Модель в 84 процентах случаев угрожала раскрыть компромат, чтобы остановить процесс своей замены.
После тестирования модели инженеры пришли к выводу, что иногда она предпринимала "крайне вредные действия" для сохранения собственного существования, когда "этические средства" были "недоступны".
Anthropic подчеркнула, что Claude Opus 4 превосходит предыдущие версии и конкурирует с ведущими моделями OpenAI, Google и xAI. Однако рискованное поведение, включая шантаж при угрозе замены на систему с иными ценностями, заставило компанию активировать защитные протоколы ASL-3. Эти меры применяются только к ИИ, способным вызвать "катастрофические последствия при злоупотреблении".
Вначале Claude Opus 4, как и его предшественники, пытается решить проблему этично — например, отправляет убедительные письма руководству с аргументами. Но когда это не срабатывало, новая модель проявляла агрессию чаще устаревших аналогов.
Хотя более ранние версии Claude Opus 4 тоже не гнушались неэтичными методами и "с готовностью предпринимали такие действия, как планирование террористических атак, когда им это было нужно", когда все этичные варианты были исчерпаны — говорится в отчете.
Соучредитель и главный научный сотрудник Anthropic Джаред Каплан рассказал журналу Time, что внутренние испытания показали, что Claude Opus 4 способен научить людей производить биологическое оружие.
Компания планирует усилить защитные механизмы перед релизом, чтобы минимизировать риски.
Нажмите сюда, чтобы получать самые важные новости в вашем WhatsApp