Добавить новость
ru24.net
Новости по-русски
Ноябрь
2024

Alibaba представила «рассуждающую» модель Marco-o1

Модель OpenAI o1 хорошо решала задачи со стандартными ответами в математике, физике и программировании. Этого удалось достичь благодаря применению техники «масштабирования во время вывода». Суть метода заключается в том, что модели предоставляется дополнительное «время на подумать» за счет увеличения количества вычислительных циклов во время генерации. Это позволяет ей выдавать более развернутые и обоснованные ответы, тщательно проверяя каждый шаг рассуждения. Однако многие реальные проблемы не имеют однозначных решений и требуют более гибкого подхода. Исследователи Alibaba стремились преодолеть эти ограничения и расширить возможности больших языковых моделей для решения сложных, нестандартных задач.

Marco-o1 — это усовершенствованная модель искусственного интеллекта на базе Alibaba Qwen2-7B-Instruct. В нее интегрированы современные методы машинного обучения — обучение с цепочкой рассуждений (CoT), поиск по дереву Монте-Карло (MCTS) и специальные алгоритмы для улучшения логического мышления. Модель тренировалась на специально разработанных наборах данных для задач, требующих глубокого анализа и рассуждений.

Marco-o1 применяет алгоритм поиска MCTS для генерации ответов, рассматривая множество потенциальных вариантов. Оценивая вероятность каждого исхода, модель строит «дерево» решений, изучая различные ветви. Это позволяет ей принимать более взвешенный и нюансированный выбор, особенно в неопределенных ситуациях.

Исследователи также разработали гибкую стратегию, которая позволяет им регулировать гранулярность шагов MCTS — определять количество токенов, генерируемых в каждом узле дерева. Это оптимизирует баланс между точностью и вычислительными затратами.

Marco-o1 оснащена механизмом самопроверки. В процессе рассуждения модель периодически останавливается и задает себе вопрос: «А правильно ли я мыслю? Не допустил ли я ошибку?». Это позволяет ИИ пересмотреть свои логические цепочки, выявить возможные недочеты и скорректировать ход мыслей. Как отмечают исследователи, такой подход делает модель похожей на внутреннего критика, который постоянно проверяет правильность своих рассуждений.

Для оценки Marco-o1 исследователи провели ряд экспериментов, в том числе на бенчмарке MGSM — наборе задач по математике начальной школы на нескольких языках. ИИ превзошел базовую модель Qwen2-7B, особенно при настройке компонента MCTS на точность одного токена. Однако основной целью создания ИИ-инструмента было решение задач, требующих глубокого осмысления в условиях неопределенности.

Для проверки этих возможностей Marco-o1 протестировали на переводе разговорных выражений и сленга, что требует понимания тонких нюансов языка, культуры и контекста. Модель справилась лучше традиционных систем перевода в этой области.

Например, она перевела китайское идиоматическое выражение на английский язык. В процессе рассуждений она оценивала различные варианты перевода и выбрала наиболее подходящий.

Команда Alibaba выпустила Marco-o1 на Hugging Face вместе с частичным набором данных, который исследователи могут использовать для тренировки собственных моделей рассуждений. После https://hightech.plus/2024/09/13/openai-predstavila-novuyu-m... o1 ИИ-компании соревнуются за создание «рассуждающих» моделей. Ранее китайская DeepSeek https://hightech.plus/2024/11/21/predstavlen-kitaiskii-analo... R1-Lite-Preview — аналог o1. Выпуск этих инструментов происходит на фоне неопределенности относительно перспектив масштабирования ИИ. Некоторые исследования показывают, что эффективность обучения моделей с увеличением их размера начинает снижаться и может достичь предела.




Moscow.media
Частные объявления сегодня





Rss.plus




Спорт в России и мире

Новости спорта


Новости тенниса
Новак Джокович

Джокович: Это был один из самых эпичных матчей, которые я проводил






ЦСКА потерпел поражение от «Северстали» в матче КХЛ

В Москве из-за сломавшегося аттракциона люди 15 минут висели вниз головой

ДЕЛА ЯНИСА ТИММЫ, ГЕНЕРАЛА КИРИЛЛОВА И... SHAMAN СОВПАЛИ НЕ СЛУЧАЙНО?! Shaman (Шаман), Янис Тимма, Игорь Кириллов. Новости. Россия, США, Европа могут улучшить отношения и здоровье общества?!

Газовый принцип: ученые создали ПО для мониторинга токсичных паров мазута