Языковая модель на 8 млрд параметров запускается на смартфоне: прорыв от Яндекса

09.12.2024 11:00

Trashbox.ru

Сегодня, 9 декабря, пресс-служба компании Яндекс сообщила, что Владимир Малиновский, исследователь из научного отдела Yandex Research, сумел создать уникальный сервис, позволяющий запускать большие языковые модели с 8 миллиардами параметров на компьютере, ноутбуке или даже смартфоне. Для этого используется интерфейс браузера (любого, не только фирменного от Яндекса) и, по словам автора проекта, новый сервис предоставит возможность корпорациям, стартапам и исследователям существенно сократить свои расходы на необходимые для работы LLM вычислительные мощности. Кроме того, свои труды автор опубликовал в открытом доступе на GitHub — пользоваться может любой желающий.

Российский разработчик объяснил, что ему удалось перенести все необходимые вычислительные процессы непосредственно на устройство, а также полностью нивелировать необходимость задействовать крайне дорогое аппаратное обеспечение вроде графических ускорителей, благодаря технологии сжатия нейросетей под названием AQLM. Эту систему команда специалистов из Yandex Research совместно с университетами ISTA и KAUST разработала летом 2024 года, а теперь посредством комбинации методов AQLM и PV-tuning разработчику удалось «уменьшить» нейросеть, позволив запускать её практически на любом современном устройстве.

Суть в том, что за счёт AQLM господин Малиновский сумел сжать размер большой языковой модели до восьми раз, попутно ускорив её, а метод PV-tuning исправил различного рода ошибки, которые обычно возникают в процессе сжатия нейросети. В результате специалисту удалось существенно уменьшить вес языковой модели Llama3.1-8B, сохранив при этом примерно 80% от изначального качества ответов.

«Программа написана на языке программирования Rust с помощью технологии WebAssembly, позволяющей запускать проект на любом языке внутри браузера», — заявили в пресс-службе Яндекса.

Изучить возможности новой системы можно уже сейчас — при запуске платформы на устройство пользователя из облака будет загружена большая языковая модель Llama3.1-8B, сжатая в шесть раз (конечный вес нейросети около 2,5 ГБ). И после того, как LLM будет установлена, работать с нейросетью можно даже без подключения к интернету, но скорость ответов, по информации Яндекса, напрямую зависит от производительности конкретного устройства. К примеру, на ноутбуке MacBook Pro с процессором M1 скорость достигает 1,5 токена (3-4 символа) в секунду.

Moscow.media

Частные объявления сегодня

Rss.plus

Все новости за 24 часа

Языковая модель на 8 млрд параметров запускается на смартфоне: прорыв от Яндекса

Новости спорта

Елена Веснина: «Для меня Шарапова всегда будет эталоном российской теннисистки. Неправильно сравнивать с ней Андрееву и Шнайдер»

В День Героев Отечества росгвардейцы почтили память погибшего коллеги

Что такое АвтоУСН, расскажут представители налоговой службы в пресс-центре ПЛН

Нет сбережений на старость: стоит ли надеяться на государственные выплаты?

Москвичей предупредили о мошенниках, присылающих ссылки на «пополнение» «Тройки»