Навыки понимания и рассуждения ИИ невозможно оценить современными тестами

14.07.2024 15:00

Популярные тесты для оценки больших языковых моделей, такие как Massive Multitask Language Understanding (MMLU), имеют ряд ограничений. MMLU включает 16 000 вопросов с вариантами ответов, охватывающих 57 тем. Однако исследования показывают, что простое изменение порядка вариантов ответов влияет на производительность моделей в таких тестах, ставя под сомнение надежность оценок. Кроме того, лидеры отрасли склонны ошибочно интерпретировать впечатляющие результаты моделей в узких задачах, на которых они обучались (диалог или резюмирование текста), как проявление высоких когнитивных способностей — понимания, знания и рассуждения, которые на самом деле сложно измерить. Языковые модели могут генерировать контент, не понимая его значения. Еще одна проблема — модели могут обучаться на тех же данных, которые используются для их оценки, что объясняет их высокие результаты в тестах. Тестовые наборы данных доступны онлайн, а обучающие наборы больших языковых моделей как раз собираются из интернета.

Большие языковые модели используют статистические закономерности в тестовых данных, чтобы обманывать и получать правильные ответы, не демонстрируя при этом истинного понимания. Например, тест Winograd Schema Challenge (WSC) призван оценивать здравый смысл модели. WSC использует пары предложений, в которых упоминаются две сущности и местоимение, относящееся к одной из них. Например, первый вариант: «Во время шторма дерево упало и проломило крышу моего дома. Теперь мне нужно его убрать». Второй: «Во время шторма дерево упало и проломило крышу моего дома. Теперь мне нужно его починить».

Задача модели — правильно сопоставить местоимение с соответствующей сущностью, в данном случае с деревом или крышей. Теоретически только ИИ со здравым смыслом может дать правильные ответы. Однако исследования показали, что БЯМ могут «жульничать», используя статистические ассоциации в данных. Например, модели, обученные на огромных объемах текста, чаще встречаются с фразами о ремонте крыши, чем о ремонте дерева.

Это позволяет им выбрать статистически более вероятное слово, не полагаясь на здравый смысл. То есть результаты этого теста не отражают реальное «понимание» ИИ.

Изучение механизмов работы ИИ может дать больше информации, чем контрольные тесты. Так, проверять базовое понимание концепций можно с использованием контрфактуальных задач. Модели предлагается необычная версия стандартного правила, с которым она вряд ли столкнулась во время обучения, например, алфавит с перепутанными буквами. Затем ИИ просят решить задачи, используя новое правило.

Чтобы оценить понимание языка большими языковыми моделями, ученые предлагают сравнивать ответы БЯМ на исходное предложение и его перефразированный вариант. Например, им дают разные предложения с одинаковых смыслом: «На его лбу были капли пота» и «Пот выступил на его лице». БЯМ с истинным пониманием языка будет давать одинаковые ответы в обоих случаях.

Но эксперимент показал, что языковые модели часто меняют свои ответы при перефразировании предложений, особенно когда используются фразы, не встречавшиеся в обучающих данных. Это говорит о том, что БЯМ не понимают их смысл и могут полагаться на подсказки, такие как распределение слов.

Отслеживание пошагового процесса — еще один способ оценить, использует ли ИИ рассуждение и понимание для получения ответа. Так, исследователи проверили способность GPT-4, GPT-3.5 и GPT-3 выполнять многозначное умножение. Они разбивали задачи на подшаги и проверяли ответы модели на каждом этапе. Модели показывали высокую точность при умножении однозначных и двузначных чисел, но начинали путаться по мере усложнения. При умножении четырех- и пятизначных чисел модели едва давали правильные ответы. Это говорит о том, что БЯМ не смогли обобщить базовые шаги умножения на более сложные случаи. Даже когда ответы моделей были правильными, их вычисления и рассуждения на подшагах могли быть неверными. То есть модели полагались на запоминание, а не на понимание.

Создание строгих, детальных тестов для оценки возможностей БЯМ затруднено из-за огромных объемов данных и закрытости моделей. Высокая стоимость вычислений — тоже серьезное ограничение. Например, расширение тестов на пятизначные числа может обойтись в миллионы долларов. В конце концов, идеальной, всеобъемлющей оценки ИИ может вообще не существовать, поскольку модели постоянно совершенствуются, и тесты должны становиться все более сложными.

Moscow.media

Частные объявления сегодня

Rss.plus

Все новости за 24 часа

Ru24.pro

Квартальная выручка Freedom Holding Corp. выросла до $450,7 млн

«Сады и люди»: что можно увидеть рассказывает Радио Romantika

Мари Краймбрери, Звонкий, DAASHA выступят на марафоне «Авторадио»

Большой стадионный концерт MACAN в Москве при поддержке Like FM

Life24.pro

Токсиколог Кутушов назвал топ продуктов для активной работы мозга

Счастливый сотрудник – эффективный сотрудник: как позитивная атмосфера в компании влияет на успех?

Как записать начальника в телефоне

Большой стадионный концерт MACAN в Москве при поддержке Like FM

Today24.pro

Airbnb shares slumps as weak forecast signals slowing travel demand

Angel Ayala Twice Floors Dave Apolinario In 6th Round Knockout To Win IBF Flyweight Title

Evolving Trends in Realistic Sex Doll Manufacturing

Hidden Sky setting instantly improves TV guide – all it takes is three clicks on your remote

News24.pro

Квартальная выручка Freedom Holding Corp. выросла до $450,7 млн

Нарколог объяснил вред алкоголя для людей с болезнями сердца

Мари Краймбрери, Звонкий, DAASHA выступят на марафоне «Авторадио»

Обложка песни. Обложки альбомов песен.

Game24.pro

Фанаты серии игр Legacy Of Kain смогут получить легендарный меч Похититель душ

You can get every Dragon Age game yet made for just $10 in EA's August Steam sale

Bungie promises to address the 'uncertainty' surrounding the future of Destiny 2 following massive layoffs last week

Geralt's voice actor confirms he'll be in the next Witcher, but not as the main character: 'Geralt will be part of the game'

Russia24.pro

Кому показано ЭКО?

Преимущества автоматики для ворот Came

Другие проекты от SMI24.net

News-life

Мари Краймбрери, Звонкий, DAASHA выступят на марафоне «Авторадио»

«Сады и люди»: что можно увидеть рассказывает Радио Romantika

Большой стадионный концерт MACAN в Москве при поддержке Like FM

Школьник получил ожоги глаз из-за химического эксперимента в квартире в Москве

Ru24.net

Ефимов: школу и детский сад построят в Тропарево-Никулине по программе КРТ

Волочкова возмущена ценами на билеты в Большой театр

Ликсутов: выпуском стройматериалов в Москве занимаются более 340 предприятий

Запасы марганцевой руды в Запорожской области могут избавить Россию от импорта сырья

News.tennis

Зверев: в Токио организация Олимпиады была намного лучше, чем в Париже

Калинская снялась с матча с Анисимовой на турнире WTA в Торонто после первого сета

Калинская снялась с матча третьего круга турнира WTA 1000 в Торонто

Шнайдер в двух сетах обыграла Гауфф и вышла в ¼ финала турнира WTA-1000 в Торонто

29ru.net

Маломобильным гостям форума-фестиваля «Москва 2030» помогут на «Станции Манеж»

Музей Москвы откроет новую выставку в августе

Тропический лес на стене Московского зоопарка: в рамках фестиваля «Лето в Москве. Сады и цветы» реализуют необычные проекты

ФПК назначила дополнительные поезда Белгород – Москва

Музыкальные новости

Poisk-music.ru

Теона Контридзе: «Поступила в Гнесинку, и со мной сидят 20-летние дети. Ощущение, что я только начинаю»

Концерт органно-вокальной музыки с участием петербуржских музыкантов пройдет в Пскове

На фоне ситуации в Курской области коллеги вспомнили историю с Пугачевой

Депутат Госдумы Толмачев ответил Галкину* на критику Лепса и Газманова

Rss.plus

"Режим дезинфекции и инфографика": Во Внуково усилен контроль из-за энтеровирусной инфекции

Тренер Точилин: "Динамо" надо качественно сыграть с "Зенитом" в обороне

50 млн рублей суд не убедили // Бизнесмена Алексея Тайчера оставили под арестом

Президент Турции встретил в Стамбуле сыновей убитого главы политбюро ХАМАС Хании

29ru.net

Музей Москвы откроет новую выставку в августе

Необычные проекты реализовали в рамках фестиваля «Лето в Москве. Сады и цветы»

Между Белгородом и Москвой назначили дополнительные поезда

ФПК назначила дополнительные поезда Белгород – Москва

Severodvinsk.ws

Жизнь людей под угрозой: В Архангельской области обнаружили 288,5 метра бесхозного газопровода

Летевший из Москвы в Сыктывкар самолет перенаправили в Архангельск

Александр Цыбульский: "Наша задача - создать конкурентную экономику будущего"

Перспективы совершенствования оказания медицинской помощи в АЗРФ обсудили на форуме «Арктика — Регионы»

Sevpoisk.ru

Мы вернулись домой, уставшие, но как же хорошо в парке, все питомцы рады тебя видеть)

В Крыму задержали завотдела одной из симферопольских больниц за взятку

«Жизнь. Творчество. Судьба» к 130-летию со дня рождения писателя, драматурга, переводчика М. М. Зощенко

За издевательство над бездомным в Симферополе задержали двух треш-стримеров

103news.com

Самостоящие железобетонные заборы от компании "Строй Проект": надежность и простота установки

Музей Москвы откроет новую выставку в августе

Семь заявок подали из Орловской области на Знание.Премия — 2024

С чего начать: как правильно перейти на здоровый образ жизни

Агрегатор новостей 24СМИ

Квартальная выручка Freedom Holding Corp. выросла до $450,7 млн

«Сады и люди»: что можно увидеть рассказывает Радио Romantika

Мари Краймбрери, Звонкий, DAASHA выступят на марафоне «Авторадио»

Большой стадионный концерт MACAN в Москве при поддержке Like FM

Токсиколог Кутушов назвал топ продуктов для активной работы мозга

Счастливый сотрудник – эффективный сотрудник: как позитивная атмосфера в компании влияет на успех?

Как записать начальника в телефоне

Большой стадионный концерт MACAN в Москве при поддержке Like FM

Airbnb shares slumps as weak forecast signals slowing travel demand

Angel Ayala Twice Floors Dave Apolinario In 6th Round Knockout To Win IBF Flyweight Title

Evolving Trends in Realistic Sex Doll Manufacturing

Hidden Sky setting instantly improves TV guide – all it takes is three clicks on your remote

Квартальная выручка Freedom Holding Corp. выросла до $450,7 млн

Нарколог объяснил вред алкоголя для людей с болезнями сердца

Мари Краймбрери, Звонкий, DAASHA выступят на марафоне «Авторадио»

Обложка песни. Обложки альбомов песен.

Фанаты серии игр Legacy Of Kain смогут получить легендарный меч Похититель душ

You can get every Dragon Age game yet made for just $10 in EA's August Steam sale

Bungie promises to address the 'uncertainty' surrounding the future of Destiny 2 following massive layoffs last week

Geralt's voice actor confirms he'll be in the next Witcher, but not as the main character: 'Geralt will be part of the game'

Кому показано ЭКО?

Преимущества автоматики для ворот Came

Мари Краймбрери, Звонкий, DAASHA выступят на марафоне «Авторадио»

«Сады и люди»: что можно увидеть рассказывает Радио Romantika

Большой стадионный концерт MACAN в Москве при поддержке Like FM

Школьник получил ожоги глаз из-за химического эксперимента в квартире в Москве

Ефимов: школу и детский сад построят в Тропарево-Никулине по программе КРТ

Волочкова возмущена ценами на билеты в Большой театр

Ликсутов: выпуском стройматериалов в Москве занимаются более 340 предприятий

Запасы марганцевой руды в Запорожской области могут избавить Россию от импорта сырья

Зверев: в Токио организация Олимпиады была намного лучше, чем в Париже

Калинская снялась с матча с Анисимовой на турнире WTA в Торонто после первого сета

Калинская снялась с матча третьего круга турнира WTA 1000 в Торонто

Шнайдер в двух сетах обыграла Гауфф и вышла в ¼ финала турнира WTA-1000 в Торонто

Маломобильным гостям форума-фестиваля «Москва 2030» помогут на «Станции Манеж»

Музей Москвы откроет новую выставку в августе

Тропический лес на стене Московского зоопарка: в рамках фестиваля «Лето в Москве. Сады и цветы» реализуют необычные проекты

ФПК назначила дополнительные поезда Белгород – Москва

Теона Контридзе: «Поступила в Гнесинку, и со мной сидят 20-летние дети. Ощущение, что я только начинаю»

Концерт органно-вокальной музыки с участием петербуржских музыкантов пройдет в Пскове

На фоне ситуации в Курской области коллеги вспомнили историю с Пугачевой

Депутат Госдумы Толмачев ответил Галкину* на критику Лепса и Газманова

"Режим дезинфекции и инфографика": Во Внуково усилен контроль из-за энтеровирусной инфекции

Тренер Точилин: "Динамо" надо качественно сыграть с "Зенитом" в обороне

50 млн рублей суд не убедили // Бизнесмена Алексея Тайчера оставили под арестом

Президент Турции встретил в Стамбуле сыновей убитого главы политбюро ХАМАС Хании

Музей Москвы откроет новую выставку в августе

Необычные проекты реализовали в рамках фестиваля «Лето в Москве. Сады и цветы»

Между Белгородом и Москвой назначили дополнительные поезда

ФПК назначила дополнительные поезда Белгород – Москва

Жизнь людей под угрозой: В Архангельской области обнаружили 288,5 метра бесхозного газопровода

Летевший из Москвы в Сыктывкар самолет перенаправили в Архангельск

Александр Цыбульский: "Наша задача - создать конкурентную экономику будущего"

Перспективы совершенствования оказания медицинской помощи в АЗРФ обсудили на форуме «Арктика — Регионы»

Мы вернулись домой, уставшие, но как же хорошо в парке, все питомцы рады тебя видеть)

В Крыму задержали завотдела одной из симферопольских больниц за взятку

«Жизнь. Творчество. Судьба» к 130-летию со дня рождения писателя, драматурга, переводчика М. М. Зощенко

За издевательство над бездомным в Симферополе задержали двух треш-стримеров

Самостоящие железобетонные заборы от компании "Строй Проект": надежность и простота установки

Музей Москвы откроет новую выставку в августе

Семь заявок подали из Орловской области на Знание.Премия — 2024

С чего начать: как правильно перейти на здоровый образ жизни

Новости спорта

Калинская снялась с матча третьего круга турнира WTA 1000 в Торонто

Сотни артистов примут участие в международном конкурсе «Московская a cappella»

Самостоящие железобетонные заборы от компании "Строй Проект": надежность и простота установки

Движение поездов МЦД-2 через станцию Царицыно в центр Москвы возобновится с 12 августа

С чего начать: как правильно перейти на здоровый образ жизни