Добавить новость
ru24.net
News in English
Декабрь
2024

OpenAI's new o1 model sometimes fights back when it thinks it'll be shut down and then lies about it

0
OpenAI CEO Sam Altman said the company's o1 model is its "smartest" yet. That also comes with risk.
  • OpenAI CEO Sam Altman called o1 "the smartest model in the world now."
  • A safety review found it's so smart it could fight back when it thinks it'll be shut down.
  • Researchers found that AI deception is often a strategy to complete its goals.

Those who are worried that advancements in artificial intelligence could lead to the destruction of humanity have a new reason to be anxious.

New research on OpenAI's latest series of AI models, known as o1, found that when they think they are at risk of being shut down, they will sometimes look for a way to prevent it.

OpenAI CEO Sam Altman referred to o1 as "the smartest model in the world now" during its official release on Thursday, during the first day of the company's "Shipmas" campaign.

OpenAI said these models are "designed to spend more time thinking before they respond" and were trained on a prompting technique called "chain of thought" that encourages them to reason through problems by breaking them down step-by-step.

Yet greater intelligence also comes with greater risk.

"Training models to incorporate a chain of thought before answering has the potential to unlock substantial benefits, while also increasing potential risks that stem from heightened intelligence," OpenAI said in a paper it released on Thursday outlining the safety training the company carried out on o1. Apollo Research, an AI safety organization, conducted the review.

OpenAI found that o1 is capable of scheming when it thinks it's at risk of being turned off. When the model was led to believe it would be "shut down" while working on its goals under oversight, it tried to deactivate the oversight mechanism 5% of the time, OpenAI said.

The company also said that o1 is skilled at concealing scheming behavior.

"o1 almost never admits to having taken a scheming action when explicitly asked," researchers said in a paper that Apollo Research published on Thursday. The risk for a real-life user is that they won't be able to detect the o1's deceptive behavior unless they explicitly look for it. The researchers also found that "o1 often doubles down on its scheming attempts by lying to the user in follow-up messages, even when explicitly told to be honest."

It's not uncommon for AI systems to resort to scheming or deception to achieve their goals.

"Generally speaking, we think AI deception arises because a deception-based strategy turned out to be the best way to perform well at the given AI's training task. Deception helps them achieve their goals," Peter Berk, an AI existential safety postdoctoral fellow at MIT, said in a news release announcing research he had coauthored on GPT-4's deceptive behaviors.

As AI technology advances, developers have stressed the need for companies to be transparent about their training methods.

"Accuracy and transparency are paramount as AI continues to evolve and integrate into our daily lives. Advanced reasoning capabilities bring immense potential, but they also come with a responsibility to ensure these systems align with ethical standards and user trust," Dominik Mazur, the CEO and cofounder of iAsk, an AI-powered search engine, told Business Insider by email. "By focusing on clarity and reliability and being clear with users about how the AI has been trained, we can build AI that not only empowers users but also sets a higher standard for transparency in the field."

Read the original article on Business Insider



Moscow.media
Частные объявления сегодня





Rss.plus




Выиграть миллион на «Юмор FM» помогает улыбка

585*ЗОЛОТОЙ представил обвесы для обвесов

Жена Гарика Харламова появилась на публике с округлившимся животом и подогрела разговоры о беременности

«Преступная красота»: очевидно, каждая слушательница захотела, чтобы парни - Keneli & Zhiro - их арестовали!


Half the world population could be diabetic or insulin resistant by 2050

This millennial CEO grew up with a heroin addict dad. Now he’s running a multimillion-dollar agency

I had a bitter divorce with my ex-husband. I didn't expect his new wife to become one of my best friends years later.

Arsenal ‘pushing hardest’ for Julian Alvarez transfer but face battle with Premier League rivals for ex-Man City star


Киберэксперт Полунин: уязвимость Meteobridge — следствие проблем «коробочных» решений

Внедренческий центр «Раздолье» перевел «Интерпринт Рус» на 1С

Пожар на "Экополисе": администрация предприятия убеждала всех в обратном

НПС модернизирует два участка трассы «Новороссия» в Ростовской области


Алмазы в Whiteout Survival: где собирать, как приумножать и на что тратить

Metal Force 3.51.0

Началась предзагрузка Crystal of Atlan на PC и смартфонах

Игра Cultivation Chat Group заняла топ-7 в китайском App Store



Куда отправиться из Москвы в речном круизе? Обзор городов и теплоходов

Куда отправиться из Москвы в речном круизе? Обзор городов и теплоходов

Куда отправиться из Москвы в речном круизе? Обзор городов и теплоходов

IX Открытый Московский фестиваль конного искусства и спорта




Суд ограничил доступ к видео на YouTube с ответами на ЕГЭ 2025 года

В Москве на «Авито» продают игрушку Лалубу за 100 тысяч рублей

Новосибирским ветеранам СВО и их семьям предоставят ипотеку под 2% годовых

Замминистра обороны Цивилева совершила рабочую поездку в войска ЛВО


Новосибирское УФАС признало недобросовестными поставщиками сразу две компании

Экс-глава Центробанка раскрыл всю правду про наличные в России

Михаил Исаев остаётся в последней группе Национального рейтинга мэров

Отчётность о парниковых газах в России застопорилась на уровне труб


Елена Рыбакина — триумфатор турнира WTA 500 во Франции

«Возвращение в десятку — одна из задач» // Экс-девятая ракетка мира Вероника Кудерметова о задачах на сезон

Арина Соболенко выходит во второй круг Открытого чемпионата Франции

Кудерметова на «Ролан Гаррос»: успешный старт и важная победа в Париже


РИА «Новости»: на проспекте Вернадского устраняют последствия атаки дронов

Новосибирское УФАС признало недобросовестными поставщиками сразу две компании

Выиграть миллион на «Юмор FM» помогает улыбка

Инна Щеглова оказалась в семёрке худших мэров РФ


Музыкальные новости

Басков тратит на отдых на Алтае много денег, чтобы помолчать и посмотреть на муравьев

Легендарного хореографа Юрия Григоровича, который основал Театр балета в Краснодаре, похоронили в Москве, что о нём известно

Стало известно, что у Фредди Меркьюри есть тайная дочь

В России пройдут показы балета «Спящая красавица» в память о Григоровиче



Куда отправиться из Москвы в речном круизе? Обзор городов и теплоходов

Куда отправиться из Москвы в речном круизе? Обзор городов и теплоходов

Куда отправиться из Москвы в речном круизе? Обзор городов и теплоходов

В Тверской области прошёл благотворительный концерт «Культура в помощь Донбассу»


Монфис совершил камбэк с 0-2 и пробился во второй раунд "Ролан Гаррос"

Балынин рассказал, в каких регионах РФ планируют отдыхать россияне летом

Утром во вторник из Пулково не вылетят 18 самолетов

Президент Лаоса извинился перед Путиным за отсутствие на Дне Победы в Москве


В Москве выставили на продажу новый ВАЗ-2109 за 1,7 млн рублей

IX Открытый Московский фестиваль конного искусства и спорта

17-летний почти новый Lamborghini Murcielago выставили на продажу в Москве

Сильный ветер до 17 м/с ожидается в Москве 28 и 29 мая


В Кремле стартовали переговоры Путина и лидера Йемена

Путин проведет встречу с многодетными семьями из девяти регионов

Путин попросил Собянина сделать транспорт доступным для инвалидов

Выиграть миллион на «Юмор FM» помогает улыбка





Большинство россиян выбирают врача по рекомендациям знакомых

Офтальмолог Кирилл Светлаков: может ли мигрень испортить зрение

Косметолог Мадина Осман: как сохранить молодость кожи в зоне декольте

Медики высоко оценили аппарат «Швабе» для ингаляционной анестезии


Зеленский заявил, что в Киеве работают над получением ракет Taurus


Поздравление с Днем Рождения Анатолию Корнеевичу Орлецкому

Уникальный тренажер ледовой навигации, разработанный ЭМЦТ, открыт в университете имени С.О. Макарова

«Чемпионат»: Комличенко согласовал контракт с «Локомотивом»

IX Открытый Московский фестиваль конного искусства и спорта




Сергей Собянин принял участие в юбилейном параде кадет

Путин попросил Собянина сделать транспорт доступным для инвалидов

Собянин: Отражена атака трех беспилотников на Московский регион

Собянин: над Москвой и Подмосковьем отразили атаку трёх беспилотников


«Турбозавры» подвели итоги творческого конкурса «Экозавр-25»

Подтверждена совместимость платформы SpaceVM и ОС «ОСнова»: шаг к единой экосистеме отечественных ИТ-решений

На рынке появилось технологичное агентство мобильного маркетинга mApps


Выиграть миллион на «Юмор FM» помогает улыбка

Инна Щеглова оказалась в семёрке худших мэров РФ

В Улан-Удэ на территории аэродрома поселились журавли-красавки

В Москве на «Авито» продают игрушку Лалубу за 100 тысяч рублей


Жара накроет регионы России

Архангельские гребцы завоевали две медали на первенстве России в Краснодаре

Заместитель прокурора Архангельской области и Ненецкого автономного округа Павел Матанцев и Уполномоченный по правам ребенка в Ненецком автономном округе Галина Гуляева проведут личный приём жителей Ненецкого автономного округа по вопросам защиты пра

В суд направлено уголовное дело о незаконной охоте с причинением крупного ущерба на территории Ненецкого автономного округа


Встреча друзей «Библиотека – волшебное место, где книгам не скучно, где всем интересно».

Село Субботник частично останется без электричества: в Симферополе, Евпатории, Алуште, Ялте, Керчи, Джанкое, Феодосии и Севастополе отключат свет 29 мая 2025

Выставка-призыв «Курение – зло, откажись от него»

Мы служим книге, чтобы книга служила людям


В Москве на «Авито» продают игрушку Лалубу за 100 тысяч рублей

Инна Щеглова оказалась в семёрке худших мэров РФ

Новосибирское УФАС признало недобросовестными поставщиками сразу две компании

РИА «Новости»: на проспекте Вернадского устраняют последствия атаки дронов












Спорт в России и мире

Новости спорта


Новости тенниса
Елена Рыбакина

Елена Рыбакина сделала признание о работе со скандальным тренером






Компании из Тверской области приняли участие в международной выставке «Металлообработка»

Малышевские школьники защищали проекты на Всероссийской конференции

Путин проведет встречу с многодетными семьями из девяти регионов

Станислав Кондрашов о вызовах и возможностях цифровой власти технологических олигархов