На шаг ближе к AGI: OpenAI анонсировала новые модели о3
Причиной выбора названия «o3» для семейства моделей вместо «o2» стало стремление избежать юридических споров с британским оператором связи O2 из-за сходства товарных знаков. В новых моделях используется разработанный OpenAI метод, получивший название «приватная цепочка рассуждений». Суть его заключается в том, что перед формированием ответа модель делает своего рода паузу для анализа своего «внутреннего диалога» и планирования дальнейших действий. Этот процесс можно охарактеризовать как «имитацию рассуждений» (SR) — подход, представляющий собой более продвинутую форму искусственного интеллекта по сравнению с базовыми большими языковыми моделями (БЯМ).
На практике, получив запрос, o3 перед выдачей ответа делает паузу, в течение которой анализирует ряд связанных запросов и попутно «разъясняет» ход своих рассуждений. После этого модель формулирует итоговый ответ, который считает наиболее точным. Предыдущая версия, o1, была первой крупной моделью, способной к рассуждениям. По сути, она представляет собой большую языковую модель, обученную с использованием метода обучения с подкреплением (RL). В основе o3 лежит дальнейшее масштабирование обучения с подкреплением по сравнению с o1.
Главное отличие o3 от o1 — возможность настройки времени рассуждения (низкое, среднее, высокое). Чем больше времени модель «думает», тем лучше результат. Однако даже o3 не застрахована от ошибок и «галлюцинаций», как, например, o1 в крестиках-ноликах.
OpenAI с осторожностью предполагает, что o3 может приближаться к общему искусственному интеллекту (AGI) при соблюдении ряда условий. В тесте ARC-AGI, разработанном для оценки способности системы ИИ приобретать новые навыки вне данных, на которых она была обучена, o3 достигла результата 87,5% при использовании высоких вычислительных мощностей. Даже в худшем случае (при низких вычислительных мощностях) модель показала результат в три раза лучше, чем o1. Вместе с тем, o3 не справляется с «очень простыми задачами» в ARC-AGI, что указывает на «фундаментальные различия» между этой моделью и человеческим интеллектом.
В тесте SWE-Bench Verified, оценивающем навыки программирования, o3 превзошла o1 на 22,8 процентных пункта, достигая рейтинга Codeforces 2727 (2400 соответствуют 99,2 процентилю инженеров). На Американском пригласительном экзамене по математике 2024 года o3 набрала 96,7% (одна ошибка), а в GPQA Diamond (биология, физика, химия, университетский уровень) — 87,7%. В бенчмарке Frontier Math от EpochAI o3 установила новый рекорд — 25,2% решенных задач (у других моделей менее 2%).
Главный вопрос заключался в том, объявит ли OpenAI о приближении своих новых моделей к общему искусственному интеллекту. AGI обычно определяется как ИИ, способный выполнять любые человеческие задачи. OpenAI дает собственное определение: «высокоавтономные системы, превосходящие людей в большинстве экономически значимых видов деятельности». Заявление о достижении AGI стало бы важным событием, имеющим и договорные https://hightech.plus/2024/12/11/sem-altman-obshii-ii-poyavi... для OpenAI: по соглашению с Microsoft, после достижения AGI компания не обязана предоставлять Microsoft доступ к своим самым передовым технологиям, соответствующим этому определению. Выпуск новой модели OpenAI произошел на фоне разработки аналогичных инструментов другими компаниями, включая Google (Gemini 2.0 Flash Thinking Experimental), DeepSeek (DeepSeek-R1) и Alibaba (QwQ, первая «открытая» альтернативой o1).