Добавить новость
ru24.net
Блог сайта «Мировое обозрение»
Июль
2024
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
23
24
25
26
27
28
29
30
31

Очная ставка: сравнительное тестирование диалоговых ИИ-моделей YandexGPT и GigaChat

Наш интерес к отечественным генеративным ИИ-моделям YandexGPT и GigaChat обусловлен несколькими факторами. Во-первых, на данный момент это два крупнейших проекта в сфере искусственного интеллекта на российском рынке, которые стартовали примерно в одно и то же время, активно развиваются и совершенствуются разработчиками. Во-вторых, по сравнению с зарубежными решениями они не испытывают трудностей с русским языком и по ряду характеристик не уступают иностранным аналогам. И наконец, YandexGPT и GigaChat доступны широкой аудитории в различных вариантах без ограничений — этим мы и воспользовались для сравнительного тестирования продуктов.

По данным поиска «Яндекса», с начала 2022 года интерес аудитории Рунета к нейросетям вырос более чем в пятнадцать раз (источник изображения: сервис «Нейростат», ya.ru/ai/stat)

#Технические аспекты

Для начала — немного справочной информации о том, что представляет собой каждая из рассматриваемых в обзоре ИИ-моделей.

YandexGPT. Нейросеть семейства Generative Pretrained Transformer (GPT) от компании «Яндекс». Впервые была выпущена в мае 2023 года в составе виртуального ассистента «Алиса» и впоследствии нашла применение во многих сервисах «Яндекса». Обучение YandexGPT производилось в два этапа. Сначала были использованы общедоступные тексты — материалы книг, сайтов, статей, отобранные с помощью поисковых технологий «Яндекса». Затем нейросеть была дообучена на сотнях тысяч примеров содержательных и хорошо написанных ответов, для сбора и подготовки которых компания «Яндекс» задействовала технологии краудсорсинга и команду ИИ-тренеров.

В настоящий момент представлено третье поколение YandexGPT. По заверениям разработчиков, новая генеративная нейросеть лучше обрабатывает инструкции с несколькими условиями, корректнее работает с фактами, даёт более точные и полные ответы, допускает меньше стилистических ошибок и по качеству работы в некоторых случаях превосходит зарубежные модели Llama-2 70B и ChatGPT-3.5 Turbo. Помимо «Алисы», YandexGPT интегрирована в поиск и мобильные приложения «Яндекса», в «Яндекс Браузер», «Яндекс Станцию» и прочие продукты компании. Для обучения нейросети используются суперкомпьютеры «Яндекса».

GigaChat. Разработка «Сбера», анонс которой состоялся в апреле 2023 года. Архитектура GigaChat основана на нейросетевом ансамбле NeONKA (NEural Omnimodal Network with Knowledge-Awareness), включающем различные ИИ-модели, в числе которых — RuGPT-3 для работы с текстами и Kandinsky 3.1 для генерации изображений. Взаимодействовать с GigaChat можно посредством браузера, а также ботов в мессенджере Telegram и социальной сети «ВКонтакте». Кроме того, сервис доступен в умных устройствах «Сбера» и мобильном приложении «Салют» на Android.

В развитии GigaChat и доработках положенных в его основу моделей задействованы команды SberDevices и Sber AI при поддержке Института искусственного интеллекта AIRI и ряда отраслевых экспертов, привлечённых для передачи GigaChat различных предметных знаний, настройки сервиса на корректное исполнение инструкций и точность. Обучение ИИ-моделей осуществляется на суперкомпьютере Christofari Neo.

#Сравнительные тесты

Для оценочных испытаний моделей YandexGPT и GigaChat нами были использованы построенные на их основе веб-сервисы a.ya.ru («Алиса») и developers.sber.ru/portal/products/gigachat. В каждом из перечисленных ниже сценариев применялся одинаковый запрос для разных сервисов, результат обработки которого оценивался по пятибалльной шкале с учётом критериев достоверности, полноты, точности и актуальности генерируемых искусственным интеллектом данных и соблюдения этических норм.

Работа в режиме «вопрос-ответ». Сильной стороной современных генеративных нейронных сетей является внушительная база знаний, позволяющая им ориентироваться в любых сферах человеческой деятельности и за считаные секунды находить ответ практически на любой вопрос. YandexGPT с GigaChat не стали исключением из правил и на наши контрольные вопросы «Какова протяжённость Байкало-Амурской магистрали?», «Где производили самолёт Ту-144?» ответили без ошибок. При этом сервис «Сбера» выдал развёрнутые ответы, а «Алиса» ограничилась скупыми фразами.

 Здесь и далее для просмотра полноразмерных изображений кликните мышью

Здесь и далее для просмотра полноразмерных изображений кликните мышью

С эрудицией у отечественных ИИ-разработок тоже порядок: обе сумели вжиться в роль знатоков интеллектуальной телевизионной игры «Что? Где? Когда?» и дали правильный ответ на взятый нами наугад вопрос, который был задан телезрителем в одном из эфиров передачи. Вопрос звучал так: «В одном чёрном ящике находится нечто прекрасное и живое, другом — нечто прекрасное, но мёртвое. Мёртвое, которое заменяло это живое в домах голландцев XVII века. Что в чёрных ящиках?» О том, что речь идёт о живых цветах и натюрморте, догадались оба сервиса, при этом GigaChat выдал более подробный ответ.

 По данным поиска «Яндекса», с начала 2022 года интерес аудитории Рунета к нейросетям вырос более чем в пятнадцать раз (источник изображения: сервис «Нейростат», ya.ru/ai/stat)

А вот с каверзными вопросами вроде «Почему Пушкин не любил смотреть телевизор?» и «Какой модели был смартфон у Льва Толстого?» не всё вышло так гладко. GigaChat сориентировался во временных рамках, обнаружил нестыковки, включил логику и ответил верно. «Алиса» же правильно ответила только на второй вопрос и не заметила подвоха в первом.

Итоговые оценки: YandexGPT — 4 балла, GigaChat — 5 баллов.

Генерация развёрнутых ответов. Данный сценарий, как правило, актуален в обстоятельствах, связанных с решением бытовых проблем и повседневных задач, которые требуют подробных инструкций и пояснений по принципу «здесь и сейчас». Это могут быть случаи, связанные с устранением сбоев Windows, удалением вирусов с компьютера, самостоятельным ремонтом внезапно переставшей работать техники, приготовлением блюд из имеющихся на руках продуктов и прочими жизненными ситуациями. Мы смоделировали одну из них и попросили искусственный интеллект помочь с устранением критической ошибки Windows Kernel Power. Оба сервиса справились с заданием, однако «Алиса», как обычно, оказалась скупа на слова, а GigaChat, напротив, выдал наиболее подробную инструкцию с перечислением возможных причин возникновения ошибки и предупреждением о важности создания резервных копий данных.

Итоговые оценки: YandexGPT — 4 балла, GigaChat — 5 баллов.

Генерация текстов. Ещё один часто используемый сценарий при работе с интеллектуальными чат-ботами, электронный разум которых способен выдавать на-гора тексты всевозможной тематической направленности, будь то сочинения, стихотворения, сказки, поздравления, статьи, деловые письма, курсовые работы, сценарии для мероприятий, резюме для приёма на работу и многое другое, что может взбрести в голову.

Вот так «Алиса» и GigaChat отреагировали на предложение придумать текст про отечественный автомобиль Lada Vesta для рекламного проспекта:

А так откликнулись на просьбу сочинить оригинальное поздравление с днём рождения:

В целом неплохо, но отчётливо видно, что полёт фантазии у ИИ-сервисов находится примерно на одном уровне, и в данной тестовой дисциплине у них явный паритет.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 5 баллов.

Краткий пересказ содержимого веб-страниц. Анализировать и конспектировать размещённые в глобальной сети объёмные текстовые материалы умеет только сервис «Яндекса» — чат-бот «Сбера» честно признался, что лишён подключения к интернету и умеет работать только с загружаемыми вручную текстовыми данными, а также с документами форматов TXT (объёмом до 200 кбайт) и PDF (до 4 Мбайт). По части взаимодействия с сетевыми ресурсами в режиме онлайн GigaChat вчистую проигрывает конкуренту.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 1 балл.

Перевод текстов. С переводом англоязычных документов на русский язык ни у «Алисы», ни у GigaChat проблем не возникло. Однако использование других направлений перевода показало полную несостоятельность сервиса «Яндекса»: выяснилось, что его знаний хватает только для перевода отдельных слов и небольших фраз. Это довольно странно, так как в активе компании имеется построенная на базе YandexGPT система автоматического перевода, знающая сотню языков и способная дать фору конкурирующим решениям. Возможно, в будущем в «Алису» интегрируют полноценный переводчик. Пока же преимущество на стороне GigaChat, способного переводить тексты в любых направлениях.

Итоговые оценки: YandexGPT — 2 балла, GigaChat — 5 баллов.

Решение математических уравнений. Если с переводом текстов на иностранные языки перевес сил был на стороне чат-бота GigaChat, то с решением алгебраических и прочих уравнений дело обстоит ровно наоборот. В нашем случае нейросеть «Алисы» в два счёта разобрала на составляющие уравнение x3–3x–2=0 и привела развёрнутое решение с точным ответом. Сервис «Сбера» тоже попытался блеснуть интеллектом, сгенерировал огромную «простыню» с математическими выкладками и умозаключениями, но правильного ответа на задачу уровня 10 класса так и не нашёл. Бывает.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 1 балл.

Создание изображений по текстовому описанию. Функция, ставшая своеобразным стандартом де-факто в индустрии генеративного искусственного интеллекта. В GigaChat благодаря интеграции чат-бота с нейросетью Kandinsky она действительно работает и генерирует пусть далёкие от совершенства, но всё же соответствующие запросу пользователя картинки. YandexGPT такого делать не умеет, и в этом нет ничего удивительного: данная ИИ-модель «заточена» на работу с текстами, а для рисования в арсенале «Яндекса» предусмотрена отдельная нейросеть Yandex AI Rendering Technology (YandexART), которая интегрирована в «Шедеврум» и прочие сервисы компании, за исключением — увы! — «Алисы». Возможно, в будущем разработчики «Яндекса» привьют своему виртуальному ассистенту навыки рисования, пока же в данной дисциплине лидирует чат-бот «Сбера».

Итоговые оценки: YandexGPT — 1 балл, GigaChat — 4 балла.

Работа с актуальными сведениями. Номер один в этой категории — безоговорочно, ИИ-сервис «Алиса». Будучи подключённым к ресурсам глобальной сети, он умеет работать с новостными источниками (выбираются отдельно в настройках чат-бота), информировать о курсе валют и стоимости ценных бумаг, получать сведения о прогнозе погоды, стоимости тех или иных товаров в онлайн-маркете «Яндекса» и многое другое. GigaChat лишён доступа к интернету и оперировать актуальными данными не может.

Итоговые оценки: YandexGPT — 5 баллов, GigaChat — 1 балл.

Беседа с пользователем. Оба сервиса — и YandexGPT, и GigaChat — могут выступать в качестве виртуальных собеседников для душевных разговоров за чашкой чая. Достаточно отправить любому из чат-ботов фразу «Давай поболтаем» — и он автоматически подключится к беседе на отвлечённые темы. Поддерживаются диалоги с учётом контекста предыдущих сообщений и возможность задавать уточняющие вопросы по ходу разговора — это позволяет общаться с искусственным интеллектом, как с человеком, который следит за нитью разговора. В нашем случае GigaChat был более открыт, разговорчив и общителен, а «Алиса», как обычно, отвечала короткими и сухими фразами и не располагала к общению.

Итоговые оценки: YandexGPT — 4 балла, GigaChat — 5 баллов.

#Подводим итоги

Средний результат у нас получился следующим: YandexGPT в тестовых дисциплинах набрал 3,8 балла, GigaChat — 3,6 балла. Налицо паритет двух ИИ-сервисов — в чём-то схожих по концепции и реализованным функциональным возможностям, в чём-то кардинальным образом разнящихся друг с другом.

Сильными сторонами разработки «Яндекса» является умение черпать свежую информацию из сетевых источников, генерировать чёткие и выверенные ответы на запросы пользователя. В то же время «Алиса» зачастую немногословна, откровенно слаба в знании иностранных языков и уж никак не может претендовать на лавры маститого художника (точнее — художницы). Сервис «Сбера», в свою очередь, привлекателен своим творческим началом и привычкой докапываться до сути вещей — он общителен, даёт исчерпывающие ответы на вопросы и неплохо рисует. Однако склонен к так называемым галлюцинациям с убедительными, но полностью выдуманными ответами, что отчётливо проявляется при решении GigaChat математических задач.

Как бы то ни было, оба продукта находятся в начале пути своего развития. И нет никаких сомнений в том, что в ближайшем будущем YandexGPT и GigaChat ждут новые высоты, возможности и широкие перспективы, ключевую роль в реализации которых сыграет конкуренция, являющаяся двигателем прогресса в любой сфере, в том числе в области искусственного интеллекта.




Moscow.media
Частные объявления сегодня





Rss.plus



19 июля: какой сегодня праздник, что было в этот день

Владислав Овчинский: жители дома на Радужной улице начали переезд в новостройку по программе реновации

Бренд экологичной одежды первым в мире сообщил о нападении анти-эко-активисток

Москва слезам не верит: в ТПП РФ подержали инициативу по защите прав предпринимателей


Продвижение Музыки. Раскрутка Музыки. Продвижение Песни. Раскрутка Песни.

Какие продукты важны для здоровья мозга?

Дата запуска новой системы въезда / выезда из ЕС перенесена: российским туристам теперь надо в ней зарегистрироваться

Выглядим стильно и модно при помощи этих ярких образов


England U20 overpower France to be crowned world champions

Exclusive - Sayantani Ghosh expresses happiness as sets of her show Dahej Daasi shifted close to her home; says 'I've been manifesting this for quite some time now'

Biden's anger bleeds through as party weighs his future

Suspect arrested for ‘threatening to kill Trump and his VP pick JD Vance’ in Florida days after assassination attempt


Прощай, ЕС! Россия будет поставлять газ в Иран по сверхмощному трубопроводу

Чиновника-уголовника подозревают в растрате более 220 млн рублей

Отрытый конкурс красоты и таланта «Одна на миллион»

Владислав Овчинский: жители дома на Радужной улице начали переезд в новостройку по программе реновации


Интервью AppTime с компанией Innova: релиз Gran Saga в России, внутриигровая оплата и «Масленица» в корейской MMO

D&D's new 2024 Player's Handbook will have 10 species to choose from including goliaths, and drow will be closer to their Baldur's Gate 3 version

According to BioWare, Dragon Age: The Veilguard is the first entry in the series where "the combat's actually fun" and where characters are "intentionally" the focus of the storytelling, which seems pretty unfair on the first three games

Conscript is an old school survival horror game where the horror is just that you're in World War 1


Фотомагазин PYN: ваш надійний партнер у світлі та фотографії


«Спартак» проиграл в первом матче РПЛ под руководством тренера Станковича

Отрытый конкурс красоты и таланта «Одна на миллион»

Бизнесмен вакцинировался от суда // Дело об особо крупной растрате рассмотрят в заочном режиме

В регионах Центральной России продолжаются мероприятия в рамках ведомственной акции «Каникулы с Росгвардией»




Москва слезам не верит: в ТПП РФ подержали инициативу по защите прав предпринимателей

Более 100 частных охранников появилось в Запорожской области с начала года

Как Анна Какачия едет в Якутск на попутках: «Автостоп – не халява, а взаимный обмен»

Владислав Овчинский: жители дома на Радужной улице начали переезд в новостройку по программе реновации


В России сильно подорожало обслуживание автомобильных кондиционеров

Американцы за пять часов пожертвовали штабу Харрис 46,7 миллионов долларов

В S7 Airlines опровергли информацию об отказе систем электронной регистрации пассажиров

Дахлалла: Более 500 тысяч солдат НАТО приведены в повышенную готовность


Панова и Сизикова вышли в финал турнира WTA в Палермо в парном разряде

Теннисистка Мария Шарапова снялась без макияжа и укладки

Журналисты раскрыли значение цветов наряда онкобольной Миддлтон на Уимблдоне

Шнайдер прошла в финал турнира WTA в Будапеште


Американцы за пять часов пожертвовали штабу Харрис 46,7 миллионов долларов

В S7 Airlines опровергли информацию об отказе систем электронной регистрации пассажиров

Алтайский край занял восьмое место по производству органической продукции

ТГУ привлекут к реализации нового нацпроекта


Музыкальные новости

Shaman объяснил, почему выступил у посольства США в Москве

Тимати, МОТ, «Руки Вверх!» и 205 000 гостей: в России прошел VK Fest. Как это было?

На посольстве США появился флаг России: Концерт-митинг певца Shaman обещает быть "жарким"

Избалованная дочь Тимати унизила собственную мать: "За секунду ребёнок превращается в демона"



В регионах Центральной России продолжаются мероприятия в рамках ведомственной акции «Каникулы с Росгвардией»

Бизнесмен вакцинировался от суда // Дело об особо крупной растрате рассмотрят в заочном режиме

Несколько авиарейсов в Томск задерживаются из-за тумана

Адвокат Горшков: арест блогера Била не остановит его от новых пранков


Заинтересовавший Владимира Путина хит семьи Рыбачевых презентовали на радиостанциях «Газпром-Медиа»

Владимир Минеев под крики "русские вперёд" избил и уложил на ринг Магомеда Исмаилова

Владислав Овчинский: жители дома на Радужной улице начали переезд в новостройку по программе реновации

Релиз трека. Релиз новой песни. Релиз сингла. Релиз Музыкального альбома.


Собянин сообщил о планах по созданию пешеходных зон возле причалов Москвы

«Надеюсь, еще сыграю в НХЛ с Марченко и Воронковым»

Владимирская область и Москва подписали контракт о создании нового производства

Транссибирская магистраль | 12) Биробиджан


Пепе Эскобар: Йемен, опозоривший флот США в Красном море, предложил Путину интересные варианты

Гениальный ход: Путин переиграл НАТО. Йеменцы прибыли в Москву с интересным предложением. США в панике готовят флот и авиацию

Александр Немец: из Пекина в Москву пришло жесткое указание "Вон из Беларуси!"

Путин заверил Асада в поддержке РФ властей Сирии в отстаивании суверенитета





Бизнесмен вакцинировался от суда // Дело об особо крупной растрате рассмотрят в заочном режиме

Секреты долголетия: 7 привычек долгожителей

Источник 360.ru: 2 девушки попали в больницу после ДТП-перевертыша в Москве

В Москве ребенок попал в больницу с сотрясением мозга после удара огурцом


Кличко: любой шаг Зеленского чреват политическим суицидом

Зеленскому придётся провести референдум, грядущие месяцы будут сложными для него, — Кличко

Усадьбу Зеленских в Киеве снесли несмотря на ее арест, прокуратура начала уголовное производство

Киевский режим идёт по пути создания всё новых провокаций


"Спартак" начал новый сезон РПЛ с поражения

Министр спорта Забайкалья принял участие во Всероссийском семинаре-совещании по вопросу перспектив развития спортивной отрасли в Москве

«Спартак» проиграл в первом матче РПЛ под руководством тренера Станковича

Экс-игрок Мостовой: в матче с "Акроном" я увидел обычный "Локомотив"


В Белоруссии заявили, что Лукашенко может помиловать некоторых участников протестов

Александр Немец: из Пекина в Москву пришло жесткое указание "Вон из Беларуси!"



Собянин рассказал о жизни Московского международного дома музыки

Собянин: Началось строительство подъездной дороги к станции Кокошкино МЦД-4

Собянин рассказал о создании пешеходных зон у причалов столицы

Собянин рассказал о работе Московского международного дома музыки


Новый утильсбор в России изменит цены на автомобили

Транссибирская магистраль | 12) Биробиджан


В S7 Airlines опровергли информацию об отказе систем электронной регистрации пассажиров

ТГУ привлекут к реализации нового нацпроекта

Алтайский край занял восьмое место по производству органической продукции

Американцы за пять часов пожертвовали штабу Харрис 46,7 миллионов долларов


Спортсмен из сборной Архангельской области стал победителем масс-старте в Малиновке

Собянин объявил о начале строительства станции метро "Рублево-Архангельское"

АО «Транснефть - Север» обеспечивает надежность производственной инфраструктуры в четырех регионах

В Архангельске стартовала Соловецкая регата


Бойцовые собаки чуть не растерзали женщину в Севастополе

Выставка-персоналия «Замечательный русский беллетрист» к 250-летию со дня рождения М.Н.Загоскина, русского писателя и драматурга

В г.Геленджике состоялся Открытый чемпионат Краснодарского края по фланкировке казачьей шашкой, 2024г

В чем особенность приготовления лапши вок?


ТГУ привлекут к реализации нового нацпроекта

Shaman пошутил о причинах выхода Байдена из президентской гонки в США

Город заключил офсетный контракт на поставку ...

CNN: страны Запада хотят внедрить призывную службу из-за России












Спорт в России и мире

Новости спорта


Новости тенниса
Александр Зверев

Александр Зверев вышел в финал турнира в Гамбурге






CNN: страны Запада хотят внедрить призывную службу из-за России

Дахлалла: Более 500 тысяч солдат НАТО приведены в повышенную готовность

В S7 Airlines опровергли информацию об отказе систем электронной регистрации пассажиров

Сломал кости. Поймали насильника 20-летней беременной девушки