Добавить новость
ru24.net
Все новости
Апрель
2024

В DeepMind обнаружили, что БЯМ способны к "многократному" обучению

Многие популярные БЯМ способны усваивать новые задачи, используя примеры, представленные во время вывода и обладают способностью обучаться "в контексте". Это означает, что для обучения модели достаточно предоставить ей примеры решенных задач и новую задачу для решения — не нужно менять внутренние параметры. Такой подход упрощает обучение ИИ и делает его доступнее для широкого круга пользователей. Однако, способность модели к обучению ограничена размером окна контекста. Например, у модели GPT-3 это окно составляет всего 2000 токенов, поэтому ей все же нужно менять параметры.

Нынешние модели, такие как Gemini 1.5 Pro, способны работать с более чем миллионом токенов, что позволяет использовать тысячи примеров в каждом запросе. Это расширение возможностей значительно улучшает производительность моделей в различных задачах, таких как перевод малораспространенных языков, решение математических задач, понимание тона текста и другие. По результатам исследований, производительность модели продолжает расти с увеличением количества примеров в запросе.

Тем не менее, существует ограничение, связанное с необходимостью создания большого количества качественных примеров, что особенно затруднительно в задачах, требующих рассуждений. Исследователи предложили две https://venturebeat.com/ai/deepmind-researchers-discover-imp... для уменьшения зависимости от данных, созданных человеком: усиленное ICL (многоразовое обучения в контексте), которое использует примеры, сгенерированные другой моделью, и неконтролируемое ICL, которое опирается на внутренние знания модели о задаче.

В своем исследовании они также обнаружили, что методика ICL помогает модели преодолевать стереотипы мышления, закрепившиеся из-за прежнего обучения. Таким образом можно даже натренировать модель решать задачи, которые не связаны с естественным языком, где обычное обучение на нескольких примерах оказывается неэффективным.

Исследователи полагают, что ICL станет важным инструментом разработки и тестирования новых приложений на основе БЯМ на начальной стадии. Однако на этапе масштабирования проектов важно будет использовать все доступные техники для сокращения токенов. На этой стадии наиболее перспективно задействовать https://hightech.plus/2024/04/23/super-kompaktnaya-ii-model-... .




Moscow.media
Частные объявления сегодня





Rss.plus




Спорт в России и мире

Новости спорта


Новости тенниса
Australian Open

Касаткина победила Томову и прошла во второй круг Открытого чемпионата Австралии






Московский арбитраж вновь признал лишь малую часть долга Ракитянского арматурного завода перед контрагентом

Что ждет нефтяной рынок после санкций США против «теневого флота» РФ – сценарии

Песков: Россия не приглашала никого из США на празднование 80-летия Победы

Сергей Собянин. Главное за день