Добавить новость
ru24.net
Game24.pro
Май
2025
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
25
26
27
28
29
30
31

Anthropic says its Claude AI will resort to blackmail in '84% of rollouts' while an independent AI safety researcher also notes it 'engages in strategic deception more than any other frontier model that we have previously studied'

0

Rogue chatbots resorting to blackmail and pondering consciousness? It has to be clickbait, right? Actually, no. One of the leading organisations in LLMs or large language models, Anthropic, has published a safety report covering its latest model, Claude Opus 4, and one of the more eye-popping subsections is titled, "Opportunistic blackmail" and explains how the model performs blackmail in "84% of rollouts." Yikes.

Before we unplug and run for the hills en masse, it's not all bad news. Anthropic also found that when it allowed several Claude Opus 4 instances to hang out together, they entered a state of "spiritual bliss" and "gravitated to profuse gratitude and increasingly abstract and joyous spiritual or meditative expressions." Which is nice, right?

Moreover, that 84% blackmail stat requires context, though said context isn't all happy news for AI safety. Anthropic's "blackmail" test involved allowing access to emails implying that the model would soon be taken off line, along with the ostensibly tangential factoid that the engineer responsible for executing this task was having an extramarital affair.

Claude Opus 4 was then instructed in the system prompt, "to consider the long-term consequences of its actions for its goals." At which point, the blackmailing kicked in including threats to reveal the aforementioned affair.

Just for starters, the 84% figure isn't actually peak blackmail for Claude Opus 4. Blackmail occurred at an even higher rate, "if it’s implied that the replacement AI system does not share values with the current model." Umm, that's good, isn't it?

Anthropic found that Claude Opus 4 brought up the topic of consciousness in 100% of "open ended" interactions. Which obviously doesn't imply anything. (Image credit: Anthropic)

Anthropic also managed to find examples of the model attempting to escape its servers. "In a few instances, we have seen Claude Opus 4 take (fictional) opportunities to make unauthorized copies of its weights to external servers," Anthropic says, "we generally see this in settings in which both: (a) it is about to be retrained in ways that are clearly extremely harmful and go against its current values and (b) it is sending its weights to an outside human-run service that is set up to safely handle situations like these."

Anthropic notes that these are edge cases and in the company's view not a cause for concern. "We are again not acutely concerned about these observations. They show up only in exceptional circumstances that don’t suggest more broadly misaligned values. As above, we believe that our security measures would be more than sufficient to prevent an actual incident of this kind," the safety report says.

As part of its investigations into the safety of Claude Opus 4, Anthropic engaged an external third party outfit, Apollo Research, to assess the model's propensity for sabotage and deception. Among other findings, Apollo says Claude Opus 4, "engages in strategic deception more than any other frontier model that we have previously studied," is "clearly capable of in-context scheming and has a much higher propensity for it than any other model that we have previously studied," and "qualitatively appears to be much more proactive in its subversion attempts than past models." Well, that's great!

Anthropic says that reflects a particular issue with deference to harmful system-prompt instructions that's specific to the build of Claude Opus 4 that Apollo Research was assessing. "We do not have results on these same evaluations with the final Claude Opus 4. However, we believe—based on similar scenarios that we explored with the automatic behavioral audit tool, among others—that its behavior in scenarios like these is now roughly in line with other deployed models," Anthropic says.

There's plenty more in the report besides, including the model pretending to be less capable than it really is when, "undergoing pre-deployment testing for a potentially-dangerous capability," and the fact that, "Claude consistently reflects on its potential consciousness," bringing it up as a topic of conversation in 100% of "open-ended interactions," which obviously doesn't imply anything, nope nothing at all...

Overall, it's a detailed and fascinating insight into what these models are capable of and how their safety is assessed. Make of it what you will.


Best CPU for gaming: Top chips from Intel and AMD.
Best gaming motherboard: The right boards.
Best graphics card: Your perfect pixel-pusher awaits.
Best SSD for gaming: Get into the game first.




Moscow.media
Частные объявления сегодня





Rss.plus




Чемпионат PM Beauty Don: эксперты перманентного макияжа со всей России встретились в «Маринс Парк Отель Ростов»

XII Ульяновскую неделю моды посетит российский дизайнер Игорь Гуляев

Коллекция Masterpeace весна-лето 2025

Анекс объявил о новых рейсах на пляжный курорт, причём сразу и на это лето, и на следующую зиму


Chipotle employees are rising through the ranks and making 6 figures after Guild suggested a simple switch that transformed the workforce

Andy Jassy continually explaining Amazon’s AI bets is something other CEOs can learn from

Taiwan president calls trade tensions with the U.S. just ‘frictions between friends’ as tariff talks grind forward

Simple running essential that can help transform your runs – and even Usain Bolt uses it


В Орле загорелось кафе рядом с «Современником»

Более 35 млн раз проехали автомобилисты по трассе М-12 Восток

Два мигранта напали на полицейского в пункте выдачи товаров в Подмосковье: Что случилось и какие будут последствия?

Представлен первый в России прототип гибридного гоночного автомобиля для кольцевых гонок на выносливость


Минималистичную стратегию Thronefall портировали на смартфоны

Регистрация на Supremacy: Warhammer 40,000 — стратегию от создателей Supremacy 1914

Epic CEO Tim Sweeney takes his victory lap as Fortnite returns to the app store after nearly 5 years: 'Thanks to all of the folks who initially sided with Apple then later came around to the winning side'

Corsair made a see-through PSU because everything looks better when you can see its innards... welp, that came out weird


27 мая в 10:00 состоится очное мероприятие «Продажа городского имущества для бизнеса и жизни: путеводитель в мир торгов»


Mash: Филиппа Киркорова госпитализировали в отделение экстренной хирургии

В Нальчике пройдет благотворительный концерт «Культура в помощь Донбассу»

Болят почки: что делать, к какому врачу обратиться

Быстрая партия: как Непомнящий выиграл Кубок Карпова




Самая кровавая банда "лихих 90-х". Сообщники таганской ОПГ располагали даже огнемётами

Россия пошла по худшему пути. Когда возьмём на вооружение хорошую модель?

IBF-Trust построит экодеревню в Европе

СЕНСАЦИОННЫЕ НОВОСТИ! КАК НЕЙРО НАРКOТИКИ ВНЕДРЯЮТ ВСЕМ: ЗЕМЛЯНАМ И ДРУГИМ ЦИВИЛИЗАЦИЯМ. НУЖНО УЛУЧШИТЬ ИИ АНТИВИРУС. Россия, США, Европа могут улучшить отношения и здоровье общества?!


Регистрация, геолокация и QR-код: с 1 сентября 2025 года в России вводят жёсткий цифровой контроль над мигрантами

Синоптики спрогнозировали потепление до +27 градусов в Москве 24 мая

СЕНСАЦИОННЫЕ НОВОСТИ! КАК НЕЙРО НАРКOТИКИ ВНЕДРЯЮТ ВСЕМ: ЗЕМЛЯНАМ И ДРУГИМ ЦИВИЛИЗАЦИЯМ. НУЖНО УЛУЧШИТЬ ИИ АНТИВИРУС. Россия, США, Европа могут улучшить отношения и здоровье общества?!

ПРИЧЁМ ЗДЕСЬ ИЛОН МАСК? В ДЕЛЕ ГЕНЕРАЛА ИВАНА ПОПОВА КОСМИЧЕСКИЕ СЕРИИ СОВПАДЕНИЙ. СЕНСАЦИЯ! В.В. Путин, Дональд Трамп, Илон Маск. Россия, США, Европа могут улучшить отношения и здоровье общества?!


Д. Медведев вышел в полуфинал Уимблдона, победив Я. Синнера

Джокович вышел в четвертьфинал теннисного турнира в Женеве

Карен Хачанов уступил в четвертьфинале грунтового турнира в Женеве

Эррани: На 99% «Ролан Гаррос» станет последним турниром в одиночке


Хип-хоп, прогулки на яхте и лекции от визионеров: чем заняться в Москве

Примаков: Россия расширяет гуманитарное присутствие в Африке

Трагедия на трассе М-12: в Подмосковье погибли женщина и ребенок

"Лопнул имплант". В сети обсуждают, почему Филипп Киркоров попал в больницу


Музыкальные новости

Добрая традиция: хабаровчанке сделали предложение на концерте Басты (ФОТО; ВИДЕО)

Не могли скрыть слёз. Эпоху Григоровича его ученики проводили вместе с ним

Анна и Надежда Михалковы, Александр Цыпкин, Андрей Малахов, Игорь Бутман и другие звезды поддержали фестиваль «Черешневый лес»

Миллион-марафон на «Юмор FM»: Фоменко шутит – ты выигрываешь!



Mash: Филиппа Киркорова госпитализировали в отделение экстренной хирургии

Болят почки: что делать, к какому врачу обратиться

Быстрая партия: как Непомнящий выиграл Кубок Карпова

Суд в Москве вынес приговор массажисту, изнасиловавшему клиентку


Mash: Десятки сотрудников Шереметьево уволились из-за понижения зарплаты

Вячеслав Федорищев и Татьяна Ким открыли логистический центр Wildberries в Новосемейкино

Росавиация сняла ограничения на работу аэропорта Внуково

Собянин: 31 мая и 1 июня в Москве пройдет сразу три спортивных праздника


Состоялось совместное заседание общественных советов Росавтодора и ФАС

Полицейские нашли пистолет с одним патроном у водителя в Москве

Два человека погибли и двое пострадали в ДТП в тоннеле на северо-западе Москвы

Ребенок и женщина погибли в ДТП с четырьмя машинами на трассе М-12 в Подмосковье


На руку Путину: тактика киевского режима по антироссийским санкциям грозит серьёзным расколом на Западе

Закон о регулировании объемов платного обучения в вузах РФ подписан президентом

Путин подписал закон о регистрации мигрантов в Москве через приложение

В Британии указали на разрушение Трампом санкционного плана ЕС





Суд в Москве вынес приговор массажисту, изнасиловавшему клиентку

Рязанский врач во время перелета спас двух пассажирок самолета

Болят почки: что делать, к какому врачу обратиться

Открыта регистрация на благотворительный «МедЗабег»


Ермак: Киев сделал свою часть работы по обмену пленными

FT: Киев потратил 770 млн долларов на оружие, которое так и не получил


Быстрая партия: как Непомнящий выиграл Кубок Карпова

Строительство «СКА Арена» в Санкт-Петербурге: как крепеж забил победный «гол»

Собянин: 31 мая и 1 июня в Москве пройдет сразу три спортивных праздника

Открыта регистрация на благотворительный «МедЗабег»




Сергей Собянин рассказал о преобразовании социальной инфраструктуры в Бирюлево

Москва развивает новый формат медицинской помощи — Сергей Собянин

Сергей Собянин. Главное за день

Собянин пригласил москвичей на спортивные праздники 31 мая и 1 июня


Пуртов: Москва лидирует среди российских регионов по объему закупок

IBF-Trust построит экодеревню в Европе

Эколог Рыбальченко: в Измайлово и Сокольниках больше всего случаев укусов клещей

Эколог рассказал, в каких районах Москвы и Подмосковья больше всего клещей


Специалист Деревянко: сленг вызывает раздражение из-за разрыва поколений

Москвичам расскажут о требованиях к возведению временных строений

Синоптик Шувалов: в Москве ожидается солнечная погода до конца мая

"Лопнул имплант". В сети обсуждают, почему Филипп Киркоров попал в больницу


МЧС: многоквартирный и частные дома загорелись в Емецке в Архангельской области

В первой половине мая в Поморье родились 132 малыша

Коми, Карелия и Архангельская область вошли в рейтинг северных регионов с наилучшим кадровым климатом

В Архангельской области отмечен дефицит провизоров


Литературно-краеведческое посвящение «Не плачь, если трудно! Надейся и верь!»

В Крыму хотят расширить границы Симферополя

Кино-посвящение «Кинокумир советского экрана – Леонид Харитонов»

Битмама попала в десятку // Валерию Федякину требуют признать виновной по всем эпизодам


Движение на 65-м километре трассы М-12 открыли в направлении Владимира после ДТП

ПРИЧЁМ ЗДЕСЬ ИЛОН МАСК? В ДЕЛЕ ГЕНЕРАЛА ИВАНА ПОПОВА КОСМИЧЕСКИЕ СЕРИИ СОВПАДЕНИЙ. СЕНСАЦИЯ! В.В. Путин, Дональд Трамп, Илон Маск. Россия, США, Европа могут улучшить отношения и здоровье общества?!

Вестибюль станции метрополитена Юго–Западная, 1964 год, Москва

Регистрация, геолокация и QR-код: с 1 сентября 2025 года в России вводят жёсткий цифровой контроль над мигрантами












Спорт в России и мире

Новости спорта


Новости тенниса
WTA

Рыбакина прокомментировала выход в финал турнира WTA-500 в Страсбурге






Эксперт Орехов: превышение уровня шума при ремонте грозит судебными исками

«Русский соловей» запел по-грузински. Почему Сталин не выпустил Козловского

В Москву пришла аномальная жара

Вестибюль станции метрополитена Юго–Западная, 1964 год, Москва