Как продвигается разработка национальной языковой модели KAZ-LLM
Искусственный интеллект открывает новые возможности для бизнеса, однако не все пользователи могут в полной мере воспользоваться его преимуществами. Большинство ИИ-систем разработаны для языков с высоким уровнем ресурсов, таких как английский, испанский или русский, что создает серьезный языковой разрыв и лишает многих, в том числе казахстанцев, доступа к передовым технологиям на их родном языке, необходимым для развития и улучшения жизни в странах с малоресурсными языками.
В Казахстане проблему языкового разрыва в ИИ решает научная рабочая группа под руководством Института умных систем и искусственного интеллекта при Назарбаев Университете (ISSAI NU). Они работают над созданием большой языковой модели KAZ-LLM, которая охватит ключевые для казахстанцев языки: казахский, русский и английский, чтобы каждый мог использовать цифровые технологии на своем родном языке. Эта фундаментальная модель станет основой для разработки местных сервисов и продуктов, так как будет опубликована в открытом доступе.
Партнером в создании национальной большой языковой модели KAZ-LLM участвует цифровой оператор Beeline Казахстан и его дочерняя ИТ-компания QazCode. Это далеко не первый опыт оператора по разработке ИИ. Так, в прошлом году Beeline запустил и выложил в открытый доступ для всех разработчиков модель Kaz-RoBERTA-conversational, которая активно используется для обслуживания абонентов на цифровых платформах. На платформе Hugging Face ее скачали более трех тысяч раз.
Такие инициативы особенно актуальны на фоне важности цифровизации, которую подчеркивает руководство страны. Президент Казахстана Касым-Жомарт Токаев подчеркнул важность укрепления цифровой инфраструктуры страны и выразил готовность лично курировать создание системы ИИ в Казахстане.
"Перед нашими глазами разворачивается новая эра. Воздействие технологий ИИ столь же революционно, как открытие электричества и интернета. И развитие ИИ должно опережать потребности IT-разработчиков. В первую очередь необходимо нарастить наши вычислительные мощности", — заявил Президент, подчеркивая важность развития отечественных технологий.
Благодаря Beeline Казахстан и QazCode проект по созданию KAZ-LLM, курируемый ISSAI, обеспечен необходимой инфраструктурой. Компанией были предоставлены облачные вычислительные мощности объемом 8 DGX H100, что позволило существенно увеличить объем тренировочных данных и возможности обучения модели. Компания также предоставила собранные открытые данные, а дата-сайентисты QazCode присоединились к совместной рабочей группе по обучению модели.
"KAZ-LLM сможет создавать контент на языках, наиболее актуальных для Казахстана: казахском, русском и английском. Модель будет играть решающую роль в сохранении национального культурного наследия и будет охватывать исторический контекст, специализированные области и разговорные данные, представляющие Казахстан. Адаптируя генеративный ИИ к местным потребностям, KAZ-LLM продемонстрирует, как национальные проекты могут устранить языковые пробелы и внести свой вклад в глобальный ландшафт инноваций в области ИИ.
Наиболее важным является то, что проект KAZ-LLM способствует созданию передовых специалистов в области генеративного ИИ. Благодаря практическому подходу к подготовке данных, обучению и внедрению модели, Казахстан поддерживает новую волну передовых научных кадров, способных создавать модели и инструменты генеративного ИИ", - прокомментировали в ISSAI NU.
Этот вклад в развитие национальной большой языковой модели KAZ-LLM отражает стратегию цифрового оператора Beeline, а также стремление преодолеть языковой разрыв в ИИ-технологиях. С этой целью оператор подписал меморандум с Суперкомпьютерным центром Барселоны, который специализируется на развитии ИИ разных языковых групп, а также анонсировал создание первого в Центральной Азии GPU облака для разработки AI-продуктов на базе технологии NVIDIA.
Сегодня в портфеле компании множество успешных ИИ-проектов для бизнеса: видеоаналитика для продаж, компьютерное зрение, видеонаблюдение на производстве, маркетинговые решения и другие продукты.
"Наш накопленный опыт, знания и сотрудничество с Суперкомпьютерным центром Барселоны позволяют сосредоточиться на трех ключевых направлениях. Во-первых, это создание отечественного суперкомпьютера для обработки больших объемов данных и предоставление доступа к этим вычислительным мощностям специалистам Назарбаев Университета для обучения моделей. Во-вторых, мы продолжаем развивать казахскую языковую модель Kaz-LLM, чтобы интегрировать ее в цифровое пространство. И, наконец, мы уделяем особое внимание развитию профессионалов в области Data Science, чтобы они могли успешно работать над сложными проектами и конкурировать на международной ИТ-арене", — отметил Алексей Шаравар, CEO QazCode.
Развитие больших языковых моделей в таких сложных проектах, как KAZ-LLM, играет ключевую роль в формировании и подготовке сильных кадров в области Data Science для Казахстана. Эти специалисты не только получают уникальный опыт работы с передовыми технологиями, но и закладывают основу для дальнейшего прогресса в национальной ИИ-индустрии.
Совместные усилия Beeline Казахстан, QazCode, Назарбаев Университета, консорциума ведущих университетов страны, а также Министерства цифрового развития, инноваций и аэрокосмической промышленности РК и Министерства науки и высшего образования РК не только продвигают технологии ИИ на казахском языке, но и способствуют дальнейшему развитию цифровой экономики страны.