Для эффективной работы больших языковых моделей обычно требуется множество дорогостоящих графических процессоров. Решение от Яндекса позволяет уменьшить размер моделей в несколько раз, что снижает потребность в вычислительных мощностях и позволяет запускать модели на устройствах с меньшими вычислительными ресурсами. Это делает внедрение и обслуживание нейросетей более доступным для бизнеса. В отличие от других методов, которые существенно снижают качество ответов нейросетей при сжатии, метод Яндекса сохраняет до 95% качества.
Разработанное https://yandex.ru/company/news/02-23-07-2024 включает два инструмента. Первый уменьшает размер модели до 8 раз, что ускоряет её работу и позволяет запускать её на одном графическом процессоре вместо 4. Второй инструмент исправляет ошибки, возникающие в процессе сжатия, что обеспечивает высокое качество работы модели.
Эффективность методов была проверена на популярных моделях с открытым исходным кодом, таких как Llama 2, Llama 3 и Mistral. В ходе тестирования на англоязычных бенчмарках, метод Яндекса показал лучший результат среди всех существующих методов сжатия, сохранив в среднем 95% качества ответов нейросети, в то время как другие инструменты сохраняют от 59% до 90%.
Код новых методов сжатия уже опубликован на https://github.com/vahe1994/aqlm, что позволяет специалистам начать его использовать. Также доступны для скачивания уже сжатые модели и обучающие материалы, которые помогут разработчикам адаптировать уменьшенные нейросети под свои задачи.
Статья Yandex Research о методе сжатия AQLM вошла в программу одной из самых престижных конференций по машинному обучению — ICML. Работа была подготовлена в сотрудничестве с экспертами из ISTA и ИИ-стартапа Neural Magic.
Более 40 тысяч семей в Москве и области получают ежемесячные выплаты из средств материнского капитала
Столичные росгвардейцы задержали мужчину, подозреваемого в грабеже
Филиал № 4 ОСФР по Москве и Московской области информирует:
За полгода 14,9 тысячи жителей Московского региона оформили страховую пенсию в автоматическом режиме на портале госуслуг
Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу
Conscript is an old school survival horror game where the horror is just that you're in World War 1
Игра Legend of Goddess: The Last War с откровенными скинами персонажей появилась на Android
A Google Doodle animator is my new favorite Elden Ring lore theorist thanks to this cartoon retelling of Shadow of the Erdtree set to a Taylor Swift song
Гайд по регистрации, установке и входу в Throne and Liberty для игроков из России и СНГ
Столичные росгвардейцы задержали мужчину, подозреваемого в грабеже
Филиал № 4 ОСФР по Москве и Московской области информирует:
За полгода 14,9 тысячи жителей Московского региона оформили страховую пенсию в автоматическом режиме на портале госуслуг
Филиал № 4 ОСФР по Москве и Московской области информирует:
Более 12 тысяч жителей Москвы и Московской области получают повышенную пенсию за работу в сельском хозяйстве
Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу
Столичные росгвардейцы задержали мужчину, подозреваемого в грабеже
Филиал № 4 ОСФР по Москве и Московской области информирует:
Более 12 тысяч жителей Москвы и Московской области получают повышенную пенсию за работу в сельском хозяйстве
Начальник Главного управления вневедомственной охраны Росгвардии вручил ключи от автомобиля многодетному отцу-росгвардейцу
Филиал № 4 ОСФР по Москве и Московской области информирует:
За полгода 14,9 тысячи жителей Московского региона оформили страховую пенсию в автоматическом режиме на портале госуслуг