[Перевод] Почти все бенчмарки для измерения ИИ — ужасны. Колонка MIT Technology Review

28.11.2024 10:45

Habr.com

Многие из наиболее известных тестов для оценки работы моделей искусственного интеллекта устарели или недостаточно продуманы.

Когда появляется новая модель искусственного интеллекта, её обычно рекламируют как лучшую по результатам тестов. Например, модель GPT-4o от OpenAI была представлена в мае с результатами, которые показали, что её производительность превосходит другие модели искусственного интеллекта в нескольких тестах.

Однако проблема в том, что эти тесты плохо продуманы, их результаты сложно воспроизвести, а используемые в них метрики часто не имеют чёткого определения. Это было отмечено в новом исследовании. Это важно, потому что оценки моделей искусственного интеллекта по этим показателям будут определять уровень их проверки и регулирования.

[Перевод] Почти все бенчмарки для измерения ИИ — ужасны. Колонка MIT Technology Review

Новости спорта

Самсонова одержала победу над Касаткиной на турнире WTA 1000

«Заносчивый тип»: в ГД предложили пересмотреть финансирование фильмов Андреасяна

“Проснулся от сильной боли в левом плече”: раненый житель Подмосковья рассказал о налете БПЛА

«На троечку с плюсом»: как россиянки оценивают уровень «женского счастья»?

В центре Москвы открылась выставка посвященная легендамотечественного балета