В исследовании надежности чат-бот Grok получил самый низкий показатель галлюцинаций
Компания Relum провела исследование надежности ИИ, в котором оценивались чат-боты по таким параметрам, как частота возникновения галлюцинаций, рейтинг клиентов, стабильность ответов и частота простоев. Были протестированы 10 основных ИИ-моделей. Чат-ботам присваивался балл риска надежности от 0 до 99, причем более высокие баллы указывали на более серьезные проблемы.
По результатам исследования, Grok, от компании Илона Маска xAI, признан одним из самых надежных чат-ботов с искусственным интеллектом для использования на рабочем месте. Нейросеть показывает самый низкий уровень ложных срабатываний — всего 8%. Для сравнения, у Gemini от Google, этот показатель составил 38%, у ChatGPT от OpenAI — 35%.
«Зависимость от инструментов искусственного интеллекта, вероятно будет расти, поэтому компаниям следует выбирать чат-ботов, исходя из их надежности и соответствия конкретным потребностям бизнеса. Чат-бот, которым пользуются все, не обязательно является лучшим вариантом для вашей отрасли или дает точные ответы на ваши задачи», — отметил директор по продуктам компании Relum Разван-Лучиан Хайдук.
Остальные параметры Grok — рейтинг клиентов 4,5, стабильность 3,5 и время простоя 0,07%, что привело к общему показателю риска всего 6 баллов. DeepSeek занял второе место с 14% случаев возникновения галлюцинаций и нулевым временем простоя, получив показатель риска 4. Высокие показатели галлюцинаций и времени простоя ChatGPT обеспечили ему наивысший балл показатель риска 99.
The post В исследовании надежности чат-бот Grok получил самый низкий показатель галлюцинаций appeared first on InfoCity.
