Добавить новость
ru24.net
Блог сайта «Хайтек+»
Июль
2024
1 2 3 4 5
6
7 8 9 10 11 12
13
14 15 16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

Навыки понимания и рассуждения ИИ невозможно оценить современными тестами

Популярные тесты для оценки больших языковых моделей, такие как Massive Multitask Language Understanding (MMLU), имеют ряд ограничений. MMLU включает 16 000 вопросов с вариантами ответов, охватывающих 57 тем. Однако исследования показывают, что простое изменение порядка вариантов ответов влияет на производительность моделей в таких тестах, ставя под сомнение надежность оценок. Кроме того, лидеры отрасли склонны ошибочно интерпретировать впечатляющие результаты моделей в узких задачах, на которых они обучались (диалог или резюмирование текста), как проявление высоких когнитивных способностей — понимания, знания и рассуждения, которые на самом деле сложно измерить. Языковые модели могут генерировать контент, не понимая его значения. Еще одна проблема — модели могут обучаться на тех же данных, которые используются для их оценки, что объясняет их высокие результаты в тестах. Тестовые наборы данных доступны онлайн, а обучающие наборы больших языковых моделей как раз собираются из интернета.

Большие языковые модели используют статистические закономерности в тестовых данных, чтобы обманывать и получать правильные ответы, не демонстрируя при этом истинного понимания. Например, тест Winograd Schema Challenge (WSC) призван оценивать здравый смысл модели. WSC использует пары предложений, в которых упоминаются две сущности и местоимение, относящееся к одной из них. Например, первый вариант: «Во время шторма дерево упало и проломило крышу моего дома. Теперь мне нужно его убрать». Второй: «Во время шторма дерево упало и проломило крышу моего дома. Теперь мне нужно его починить».

Задача модели — правильно сопоставить местоимение с соответствующей сущностью, в данном случае с деревом или крышей. Теоретически только ИИ со здравым смыслом может дать правильные ответы. Однако исследования показали, что БЯМ могут «жульничать», используя статистические ассоциации в данных. Например, модели, обученные на огромных объемах текста, чаще встречаются с фразами о ремонте крыши, чем о ремонте дерева.

Это позволяет им выбрать статистически более вероятное слово, не полагаясь на здравый смысл. То есть результаты этого теста не отражают реальное «понимание» ИИ.

Изучение механизмов работы ИИ может дать больше информации, чем контрольные тесты. Так, проверять базовое понимание концепций можно с использованием контрфактуальных задач. Модели предлагается необычная версия стандартного правила, с которым она вряд ли столкнулась во время обучения, например, алфавит с перепутанными буквами. Затем ИИ просят решить задачи, используя новое правило.

Чтобы оценить понимание языка большими языковыми моделями, ученые предлагают сравнивать ответы БЯМ на исходное предложение и его перефразированный вариант. Например, им дают разные предложения с одинаковых смыслом: «На его лбу были капли пота» и «Пот выступил на его лице». БЯМ с истинным пониманием языка будет давать одинаковые ответы в обоих случаях.

Но эксперимент показал, что языковые модели часто меняют свои ответы при перефразировании предложений, особенно когда используются фразы, не встречавшиеся в обучающих данных. Это говорит о том, что БЯМ не понимают их смысл и могут полагаться на подсказки, такие как распределение слов.

Отслеживание пошагового процесса — еще один способ оценить, использует ли ИИ рассуждение и понимание для получения ответа. Так, исследователи проверили способность GPT-4, GPT-3.5 и GPT-3 выполнять многозначное умножение. Они разбивали задачи на подшаги и проверяли ответы модели на каждом этапе. Модели показывали высокую точность при умножении однозначных и двузначных чисел, но начинали путаться по мере усложнения. При умножении четырех- и пятизначных чисел модели едва давали правильные ответы. Это говорит о том, что БЯМ не смогли обобщить базовые шаги умножения на более сложные случаи. Даже когда ответы моделей были правильными, их вычисления и рассуждения на подшагах могли быть неверными. То есть модели полагались на запоминание, а не на понимание.

Создание строгих, детальных тестов для оценки возможностей БЯМ затруднено из-за огромных объемов данных и закрытости моделей. Высокая стоимость вычислений — тоже серьезное ограничение. Например, расширение тестов на пятизначные числа может обойтись в миллионы долларов. В конце концов, идеальной, всеобъемлющей оценки ИИ может вообще не существовать, поскольку модели постоянно совершенствуются, и тесты должны становиться все более сложными.

 




Moscow.media
Частные объявления сегодня





Rss.plus



Заведующий рефракционным отделением клиники микрохирургии глаза АйМед Кирилл Светлаков: как снизить нагрузку на глаза при работе с гаджетами

РОССИЯ ПРОВЕРИТ ЦРУ И СЕКРЕТНУЮ СЛУЖБУ США?!

Покушение на Дональда Трампа в США. Могут проверить "Секретные службы".

"Матрица" от ShantiOlga активирует изобилие


Заведующий рефракционным отделением клиники микрохирургии глаза АйМед Кирилл Светлаков: как снизить нагрузку на глаза при работе с гаджетами

Спасти всех от всего: краткий курс помощи при вывихе, обмороке, ожоге и прочих неприятностях

Итоги конкурса красоты «Miss World Russian Beauty 2024»

Топ-5 мест в России, куда можно сбежать от жары


‘He walked just fine’: Pros react to Abdul Razak Alhassan vs. Cody Brundage ending in controversial no-contest

See the $10M New Orleans mansion with a grisly past that lured a potential new buyer in less than a day

Warner will not be considered for 2025 Champions Trophy: Bailey

The Faculty of International Journalism and Mass Communications of the Eurasian International University conducts an additional set of applicants!


Студия звукозаписи в Москве. Студия звукозаписи цена.

Два участка ремонтируют на автодороге Называевск – Исилькуль в Омской области

Каменный город

Интервью для ливанской газеты «Аль-Ахед»


Ash of Gods: The Way перенесут на смартфоны — появилась страница в Play Market

Former Bungie lead counsel explains how the studio nailed one of Destiny 2's most infamous leakers

I didn't expect my favorite cozy MMO to do a crossover with a Finnish children's series

How well does XCOM: Enemy Within hold up today?



Лучшие Анекдоты из Питера за 13.07.2024

Заведующий рефракционным отделением клиники микрохирургии глаза АйМед Кирилл Светлаков: как снизить нагрузку на глаза при работе с гаджетами

Складной Motorola Razr 50 рассекречен официальным источником

Финалист шоу “Голос” Сергей Арутюнов остался без голоса. Артист находится в больнице, состояние тяжёлое.




Заведующий рефракционным отделением клиники микрохирургии глаза АйМед Кирилл Светлаков: как снизить нагрузку на глаза при работе с гаджетами

"Матрица" от ShantiOlga активирует изобилие

СК возбудил уголовное дело после массового отравления в хостеле в Москве

Свыше 14 тысяч жителей использовали водный транспорт в Подмосковье с начала сезона


Россиянка приехала туристкой в Москву и развенчала три мифа: оказалось, что там дешевле, чем в Турции

Новый туристический маршрут запустили в Коломне

Новый фильм «Баба Яга спасает мир» показали в парке «Пехорка» в Балашихе

В столице за первую половину 2024 года установили более 2 тысяч указателей


Елена Рыбакина получила новую конкурентку после Уимблдона-2024

Крейчикова выиграла второй турнир «Большого шлема» и вернется в топ-10

Алькарас уверенно переиграл Джоковича и выиграл Уимблдон

«Исхудавшая, но с сияющей улыбкой»: онкобольная Кейт Миддлтон появилась на финале Уимблдона


Жительница Омска боится ареста счетов из-за ошибочных долгов восьмилетней дочери

«Вместе и навсегда»: в сети «585*ЗОЛОТОЙ» стартовал новый конкурс для пар

Эсхатология и геополитика: в преддверии первой русско-турецкой войны

В Москве обсудили нацпроект «Молодежь и дети»


Музыкальные новости

Заключительный день VK Fest прошел в «Лужниках»

Красноярск не-орденоносный, пришествие Глюкозы и потерянный на СВО боец: читаемые новости недели

Модель Анастасия Решетова не подтвердила роман с мужем Алсу

Mia Boyka рассказала самый абсурдный слух о себе



Складной Motorola Razr 50 рассекречен официальным источником

Лучшие Анекдоты из Питера за 13.07.2024

Заведующий рефракционным отделением клиники микрохирургии глаза АйМед Кирилл Светлаков: как снизить нагрузку на глаза при работе с гаджетами

Росгвардия завершила весеннюю призывную кампанию в Кузбассе


Мишустин сообщил о старте работ по строительству высокоскоростной железнодорожной магистрали Москва — Санкт-Петербург

Катя Адушкина, AdrenalinHouse, Jazzdauren и другие артисты и блогеры зажгли на сцене Академии Игоря Крутого на VK Fest

В России начали продавать Hyundai i35 китайской сборки

СК: Бастрыкин потребовал доклад по делу жарившей сосиски на Вечном огне девушки


Почти 250 человек пострадали в ДТП в Москве 8-14 июля

В Москве впервые конфисковали электросамокат за наезд на пешехода

В Москве впервые изъяли электросамокат за пьяное вождение и ДТП с пешеходом

Летний туристический проект «Умные путешествия» запущен в Подмосковье


Владимир Путин открыл последний участок трассы М-11 Москва – Петербург

Путин открыл последний участок трассы М-11 Москва-Петербург

Путинскую трассу в следующем году продлят от Екатеринбурга до Тюмени

Путин открыл последний участок трассы М-11 из Москвы в Санкт-Петербург




Адвокаты Навальной обжаловали ее заочный арест в России

Басманный суд: защита обжаловала заочный арест Юлии Навальной

Юлия Навальная обжаловала заочный арест по делу об участии в экстремистском сообществе


Финалист шоу “Голос” Сергей Арутюнов остался без голоса. Артист находится в больнице, состояние тяжёлое.

Заведующий рефракционным отделением клиники микрохирургии глаза АйМед Кирилл Светлаков: как снизить нагрузку на глаза при работе с гаджетами

Компания ICDMC приняла участие в XIV Фармацевтической конференции «Зелёный крест»

Остап Стужев изучает историю Карадагского змея с точки зрения квантовой физики


Окружение Зеленского рассказало о разочаровании саммитом НАТО

СМИ узнали об отчаянии в окружении Зеленского

Киевский политолог: Запад предлагал «убрать Зеленского» и давал РФ координаты

Сам придумал наступление, сам отразил: пресс-конференция Зеленского превратилась в сеанс одновременного вранья, шантажа и гипноза


Верховая езда, сап-серфинг и йога: летний досуг долголетов в Ленинском округе

Экс-футболист «Манчестер Юнайтед» Канчельскис прокомментировал инцидент с дракой

Долгожданный хоккейный кемп школы Дедова Ивана «РФ Хоккей» победил в Москве!

Культурные центры Москвы проведут мероприятия в рамках летнего фестиваля


Чувашия и Беларусь — крепкий союз



Собянин объявил о начале строительства станции метро «Достоевская»

Собянин: Москва создает одну из крупнейших в мире цифровых диагностических сетей

Сергей Собянин: Развиваем умные сервисы

Собянин: Три дороги будут построены в Москве по концессионным соглашениям


Посмотрите, каким станет климат по всей планете через 60 лет. Петербург станет как Адыгея, а Москва — как Краснодар

Новая эра фарминга с приложением Tonique от создателей "Смешариков"

Жара, наводнения, нашествие слизней: шаманский заговор или климатическое оружие против России?

В Крыму потушили четыре природных пожара


Псковичей приглашают принять участие в отборочном турнире Кубка России по интерактивному футболу

Жительница Омска боится ареста счетов из-за ошибочных долгов восьмилетней дочери

В сторону экватора: как изменение климата повлияло на продолжительность дня

Названы причины скачка цен на жилье в новостройках в июне


АО «Транснефть - Север» в I полугодии 2024 года выполнило диагностику более 1 тыс. км трубопроводов в 4 регионах

Многолетнюю мерзлоту будут изучать в Амурской области

АО «Транснефть – Север» за 6 месяцев 2024 г. выполнило 26 тыс. экологических исследований

Дни рождения


Случайно убивший журналистку Бабаеву инструктор получил год исправительных работ

Дорогу, в провале которой в 2014 году погибли 6 человек, снова закрыли

«Падает цена там, где она уже перегрета». В Симферополе цена на квартиры-малютки снизилась, в Севастополе — стабильно высокая

Круиз-викторина "Твоей истории негромкой мне дорог каждый уголок"


В столице за первую половину 2024 года установили более 2 тысяч указателей

Песков: Россия не вмешивалась во внутриполитические дела США

Дональд Трамп с перевязанным ухом впервые появился на публике после покушения

Британия ищет способ усилить контроль за «теневым флотом», перевозящим российскую нефть












Спорт в России и мире

Новости спорта


Новости тенниса
Уимблдон

Карлос Алькарас за день до финала Уимблдона играл в гольф






Случай на улице

Владимир Ефимов: 30 новостроек по реновации передали под заселение с начала года

Россиянка приехала туристкой в Москву и развенчала три мифа: оказалось, что там дешевле, чем в Турции

Осторожно! На Белоусова начали охоту, а вашим мнением пытаются манипулировать…