Mistral AI и NVIDIA запустили корпоративную ИИ-модель со «здравым смыслом»
Mistral NeMo представляет собой модель с 12 млрд параметров. Обладая контекстным окном в 128 тыс. токенов, она более «осмысленно» и точно обрабатывает обширную и сложную информацию, гарантируя релевантные контексту результаты. Модель использует формат данных FP8 для вывода, что сокращает объем памяти и ускоряет развертывание без ущерба для точности. Благодаря этому модель эффективнее обучается решать задачи и лучше справляется с разнообразными ситуациями, что делает ее идеальным решением для корпоративного использования.
Модель обучалась с использованием библиотеки Megatron-LM, входящей в состав платформы NVIDIA NeMo. В процессе обучения было задействовано 3072 ускорителя NVIDIA H100 на базе DGX Cloud. Заявлено, что Mistral NeMo 12B прекрасно справляется с многоходовыми диалогами, решением математических задач, программированием и другими задачами. Модель обладает «здравым смыслом» и «мировыми знаниями», обеспечивая точную и надежную работу в широком диапазоне приложений.
Mistral NeMo распространяется под лицензией Apache 2.0 и доступна в формате NIM-контейнера, предлагающего оптимизированный по производительности вывод с использованием движков NVIDIA TensorRT-LLM. По заявлению разработчиков, внедрение БЯМ занимает всего несколько минут вместо нескольких дней. Для запуска модели достаточно одного из следующих ускорителей: NVIDIA L40S, GeForce RTX 4090 или RTX 4500. Основные преимущества использования NIM-контейнера включают высокую эффективность, низкие вычислительные затраты, а также безопасность и конфиденциальность.
Совместный опыт инженеров Mistral AI и NVIDIA позволил оптимизировать обучение и вывод для Mistral NeMo. Экспертиза Mistral AI в области многоязычности, работы с кодом и обработки многоходовых диалогов легла в основу обучения модели. Платформа NVIDIA ускорила процесс за счет использования полного стека технологий.
Открытая лицензия модели позволяет компаниям без ограничений интегрировать Mistral NeMo 12B в коммерческие приложения. Модель может работать где угодно: в облаке, дата-центре или на RTX-станции.