DeepMind нашла способ оптимизации БЯМ без увеличения размера модели

27.08.2024 16:29

Главный способ повышения производительности БЯМ до сих пор был связан с увеличением размера модели и ее переобучением. Однако у этого подхода есть несомненные минусы: тренировать крупные модели дорого, их работа расходует много ресурсов, поэтому в ряде случаев применять больше БЯМ оказывается невыгодно.

Альтернативой могут стать более активные вычисления на этапе логических выводов для повышения точности ответов БЯМ на сложные запросы. Этот подход позволяет создавать БЯМ меньшего размера, но с производительностью, сравнимой с более крупными и ресурсоемкими моделями.

Проблема этого подхода заключается в выборе оптимального способа использования фиксированного количества выводов на отрезок времени. Ученые из DeepMind исследовали две главных стратегии оптимизации производительности БЯМ, https://venturebeat.com/ai/deepmind-and-uc-berkeley-shows-ho... Venture Beat. Первая модифицирует распределение заявок и относится к процессу генерации ответов, вторая повышает качество работы верификатора, механизма выбора наилучшего ответа.

Для оценки методов они провели эксперименты с моделью PaLM-2. И обнаружили, что эффективность отдельной стратегии зависит и от природы конкретной проблемы, и от базовой БЯМ, которая используется для ее решения. Для более простых проблем эффективнее предоставлять модели возможность итеративно исправлять первоначальный ответ. Для более сложных проблем, требующих более сложных решений, лучше подходит параллельная перевыборка множества ответов или древовидный поиск по модели вознаграждения.

Применение верного метода позволило существенно повысить производительность и достичь исходного показателя, используя всего 25% вычислительных ресурсов. Также ученые установили, насколько вычисление на этапе тестирования заменяет дополнительное предварительное обучение. Сравнение показало, что меньшие модели с вычислением на этапе тестирования работали с той же производительностью, что и в 14 раз большие модели с предобучением.

«Эти результаты говорят о том, что вместо того чтобы сосредоточиться исключительно на масштабировании предобучения, в некоторых обстоятельствах эффективнее предварительно обучить модели меньшего размера, а затем применить вычисление на этапе тестирования», — говорится в статье. С другой стороны, для ответов на самые сложные вопросы лучше работает предобучение.

По меньшей мере 200 сотрудников исследовательского подразделения Google по искусственному интеллекту, DeepMind, https://hightech.plus/2024/08/23/sotrudniki-deepmind-virazil... свое несогласие с военными контрактами компании. В мае они направили внутреннее письмо, в котором выразили обеспокоенность сотрудничеством Google с военными организациями, включая поставки ИИ и облачных сервисов израильской армии.

Moscow.media

Частные объявления сегодня

Rss.plus

Все новости за 24 часа

DeepMind нашла способ оптимизации БЯМ без увеличения размера модели

Новости спорта

Касаткина вылетела из топ‑10 рейтинга WTA, Павлюченкова поднялась на девять позиций

После скандала в Мытищах власти Подмосковье хотят ужесточить условия получения жилищных сертификатов

Суд в Екатеринбурге оставил под арестом рок-музыканта Бурдина

"Русские люди не плодятся в неволе": Красивые слова разошлись с делами – чиновников поймали на лукавстве

Более 600 жителей Клина поучаствовали во всероссийской акции «Блокадный хлеб»