Миллионы ошибок в час: почему ИИ-поисковик Google AI Overviews генерирует некорректные ответы
Исследование, проведённое журналистами The New York Times совместно со стартапом Oumi, показало, что функция «Режим ИИ» (AI Overviews) в поисковой системе Google может допускать миллионы ошибок ежедневно из-за огромного масштаба поискового трафика. При общей точности около 90 процентов даже небольшой процент некорректных ответов трансформируется в десятки миллионов ошибочных результатов в час.Об этом сообщает The New York Times со ссылкой на результаты тестирования, опубликованные 9 апреля 2026 года.Работающий на базе ИИ Gemini инструмент оценивали с помощью бенчмарка SimpleQA от OpenAI, включающего более 4 тысяч вопросов с проверяемыми ответами, а также собственных инструментов анализа Oumi.При использовании модели Gemini 2.5 точность составляла около 85 процентов, а после перехода на Gemini 3 показатель вырос до 91 процента.В ходе исследования были выявлены случаи некорректной агрегации информации из источников.В одном из примеров система неверно определила дату преобразования дома Боба Марли в музей, несмотря на наличие корректных данных в первоисточниках.Это указывает на проблемы с интерпретацией и выбором фактов, а не на отсутствие информации в сети.В Google оспорили выводы исследования.Представитель компании Нед Адрианс заявил, что используемый бенчмарк SimpleQA может содержать ошибки и не отражает реальные пользовательские сценарии.По его словам, более релевантной метрикой является тест SimpleQA Verified с меньшим, но тщательно проверенным набором вопросов.Кроме того, в компании считают, что методология исследования не учитывает специфику реальных поисковых запросов.