Добавить новость
ru24.net
News in English
Декабрь
2024

OpenAI's new o1 model sometimes fights back when it thinks it'll be shut down and then lies about it

0
OpenAI CEO Sam Altman said the company's o1 model is its "smartest" yet. That also comes with risk.
  • OpenAI CEO Sam Altman called o1 "the smartest model in the world now."
  • A safety review found it's so smart it could fight back when it thinks it'll be shut down.
  • Researchers found that AI deception is often a strategy to complete its goals.

Those who are worried that advancements in artificial intelligence could lead to the destruction of humanity have a new reason to be anxious.

New research on OpenAI's latest series of AI models, known as o1, found that when they think they are at risk of being shut down, they will sometimes look for a way to prevent it.

OpenAI CEO Sam Altman referred to o1 as "the smartest model in the world now" during its official release on Thursday, during the first day of the company's "Shipmas" campaign.

OpenAI said these models are "designed to spend more time thinking before they respond" and were trained on a prompting technique called "chain of thought" that encourages them to reason through problems by breaking them down step-by-step.

Yet greater intelligence also comes with greater risk.

"Training models to incorporate a chain of thought before answering has the potential to unlock substantial benefits, while also increasing potential risks that stem from heightened intelligence," OpenAI said in a paper it released on Thursday outlining the safety training the company carried out on o1. Apollo Research, an AI safety organization, conducted the review.

OpenAI found that o1 is capable of scheming when it thinks it's at risk of being turned off. When the model was led to believe it would be "shut down" while working on its goals under oversight, it tried to deactivate the oversight mechanism 5% of the time, OpenAI said.

The company also said that o1 is skilled at concealing scheming behavior.

"o1 almost never admits to having taken a scheming action when explicitly asked," researchers said in a paper that Apollo Research published on Thursday. The risk for a real-life user is that they won't be able to detect the o1's deceptive behavior unless they explicitly look for it. The researchers also found that "o1 often doubles down on its scheming attempts by lying to the user in follow-up messages, even when explicitly told to be honest."

It's not uncommon for AI systems to resort to scheming or deception to achieve their goals.

"Generally speaking, we think AI deception arises because a deception-based strategy turned out to be the best way to perform well at the given AI's training task. Deception helps them achieve their goals," Peter Berk, an AI existential safety postdoctoral fellow at MIT, said in a news release announcing research he had coauthored on GPT-4's deceptive behaviors.

As AI technology advances, developers have stressed the need for companies to be transparent about their training methods.

"Accuracy and transparency are paramount as AI continues to evolve and integrate into our daily lives. Advanced reasoning capabilities bring immense potential, but they also come with a responsibility to ensure these systems align with ethical standards and user trust," Dominik Mazur, the CEO and cofounder of iAsk, an AI-powered search engine, told Business Insider by email. "By focusing on clarity and reliability and being clear with users about how the AI has been trained, we can build AI that not only empowers users but also sets a higher standard for transparency in the field."

Read the original article on Business Insider



Moscow.media
Частные объявления сегодня





Rss.plus




585*ЗОЛОТОЙ представил обвесы для обвесов

Жена Гарика Харламова появилась на публике с округлившимся животом и подогрела разговоры о беременности

Упражнения при хроническом холецистите

Shazam. Увеличение прослушиваний в Shazam. 


Arsenal ‘pushing hardest’ for Julian Alvarez transfer but face battle with Premier League rivals for ex-Man City star

I had a bitter divorce with my ex-husband. I didn't expect his new wife to become one of my best friends years later.

Half the world population could be diabetic or insulin resistant by 2050

This millennial CEO grew up with a heroin addict dad. Now he’s running a multimillion-dollar agency


Проект Axenix для «Юнгхайнрих» назван открытием 2025 года в сфере цифровизации по версии Digital Leaders Award

Бегуны Нацпроектстроя снова в деле

Balkan Pharma Детройт

Shazam. Увеличение прослушиваний в Shazam. Прослушивание песни в Shazam.


Алмазы в Whiteout Survival: где собирать, как приумножать и на что тратить

Началась предзагрузка Crystal of Atlan на PC и смартфонах

Metal Force 3.51.0

Игра Cultivation Chat Group заняла топ-7 в китайском App Store



Куда отправиться из Москвы в речном круизе? Обзор городов и теплоходов

Куда отправиться из Москвы в речном круизе? Обзор городов и теплоходов

В Тверской области прошёл благотворительный концерт «Культура в помощь Донбассу»

Куда отправиться из Москвы в речном круизе? Обзор городов и теплоходов




Суд ограничил доступ к видео на YouTube с ответами на ЕГЭ 2025 года

ГК «Юзтех» представит цифровые продуктовые решения Octopus и «Цифровой двойник рисков» на ЦИПР

Замминистра обороны Цивилева совершила рабочую поездку в войска ЛВО

В ТРЦ «Нора» состоится бесплатный кинопоказ семейного фильма «Линцесса. Тайна леса»


Анимационная студия «Карамель и Ко» приняла участие в International Animation and Game Buziness Conference

Большинство россиян выбирают врача по рекомендациям знакомых

Крупный производитель готовой еды Mr. Food открывает новую фабрику в Краснодаре

Где поесть недалеко от парка Галицкого?


Первая ракетка Казахстана рухнул в мировом рейтинге ATP

Арина Соболенко призналась, чего с нетерпением ждет на «Ролан Гаррос»

Елена Рыбакина сделала признание о работе со скандальным тренером

Монфис совершил камбэк с 0-2 и пробился во второй раунд "Ролан Гаррос"


Целый ПАК пользы: готовим хариру и говорим о защите информации в юбилейном выпуске шоу «Инфобез со вкусом»

Как деньги стали новой знатью: Станислав Кондрашов об античной трансформации

Листория: Новый взгляд на комфортную жизнь

Большинство россиян выбирают врача по рекомендациям знакомых


Музыкальные новости

Хабенский, Башмет и «Солисты Москвы» открыли пятый фестиваль Юрия Башмета в Красноярске

Басков тратит на отдых на Алтае много денег, чтобы помолчать и посмотреть на муравьев

Оркестр дал концерт на борту самолета во время полета в Хабаровск (видео)

На закрытии фестивале «Денис Мацуев представляет…» в Екатеринбурге прозвучит Рахманинов



Куда отправиться из Москвы в речном круизе? Обзор городов и теплоходов

В Тверской области прошёл благотворительный концерт «Культура в помощь Донбассу»

Куда отправиться из Москвы в речном круизе? Обзор городов и теплоходов

Куда отправиться из Москвы в речном круизе? Обзор городов и теплоходов


«Чемпионат»: Комличенко согласовал контракт с «Локомотивом»

IX Открытый Московский фестиваль конного искусства и спорта

Президент Лаоса извинился перед Путиным за отсутствие на Дне Победы в Москве

WSJ: Белый дом допустил ужесточение давления на Москву на фоне затяжных переговоров


IX Открытый Московский фестиваль конного искусства и спорта

17-летний почти новый Lamborghini Murcielago выставили на продажу в Москве

Сильный ветер до 17 м/с ожидается в Москве 28 и 29 мая

В Москве выставили на продажу новый ВАЗ-2109 за 1,7 млн рублей


В Кремле стартовали переговоры Путина и лидера Йемена

Выиграть миллион на «Юмор FM» помогает улыбка

Путин попросил Собянина сделать транспорт доступным для инвалидов

Путин проведет встречу с многодетными семьями из девяти регионов





Косметолог Мадина Осман: как сохранить молодость кожи в зоне декольте

Большинство россиян выбирают врача по рекомендациям знакомых

ГК «ДИАКОН» представляет современные решения лабораторной диагностики на XI Международном конгрессе «Санаторно-курортное лечение» в Москве

Офтальмолог Кирилл Светлаков: может ли мигрень испортить зрение


Зеленский заявил, что в Киеве работают над получением ракет Taurus


IX Открытый Московский фестиваль конного искусства и спорта

Поздравление с Днем Рождения Анатолию Корнеевичу Орлецкому

«Чемпионат»: Комличенко согласовал контракт с «Локомотивом»

Уникальный тренажер ледовой навигации, разработанный ЭМЦТ, открыт в университете имени С.О. Макарова




Собянин: над Москвой и Подмосковьем отразили атаку трёх беспилотников

Путин попросил Собянина сделать транспорт доступным для инвалидов

Сергей Собянин принял участие в юбилейном параде кадет

Собянин: Отражена атака трех беспилотников на Московский регион


На рынке появилось технологичное агентство мобильного маркетинга mApps

Подтверждена совместимость платформы SpaceVM и ОС «ОСнова»: шаг к единой экосистеме отечественных ИТ-решений


Листория: Новый взгляд на комфортную жизнь

Целый ПАК пользы: готовим хариру и говорим о защите информации в юбилейном выпуске шоу «Инфобез со вкусом»

В ТРЦ «Нора» состоится бесплатный кинопоказ семейного фильма «Линцесса. Тайна леса»

Как деньги стали новой знатью: Станислав Кондрашов об античной трансформации


В суд направлено уголовное дело о незаконной охоте с причинением крупного ущерба на территории Ненецкого автономного округа

Жара накроет регионы России

Как джин и виски из Саранска вывели предприятие Евгения Сидорова в лидеры индустрии

Архангельские гребцы завоевали две медали на первенстве России в Краснодаре


Выставка-призыв «Курение – зло, откажись от него»

Село Субботник частично останется без электричества: в Симферополе, Евпатории, Алуште, Ялте, Керчи, Джанкое, Феодосии и Севастополе отключат свет 29 мая 2025

Акция «Поздравь библиотеку с праздником».

Встреча друзей «Библиотека – волшебное место, где книгам не скучно, где всем интересно».


Люси Пылаева и гигантский Labubu: новый уровень модной иронии на RU.TV 2025

В Псковской области завершился культурно-образовательный кластер «Город мастеров»

Станислав Кондрашов анализирует олигархию как явление, пронизывающее историю

Как деньги стали новой знатью: Станислав Кондрашов об античной трансформации












Спорт в России и мире

Новости спорта


Новости тенниса
WTA

Елена Рыбакина — триумфатор турнира WTA 500 во Франции






Люси Пылаева и гигантский Labubu: новый уровень модной иронии на RU.TV 2025

Зумеры рассказали, как они планируют накопить на свое жилье: они уже не мечтают быть блогерами

Где поесть недалеко от парка Галицкого?

В 2024 году жители Московского региона приобрели 2,3 миллиона технических средств реабилитации с помощью электронных сертификатов