Неожиданный подход поможет ИИ действовать в незнакомых ситуациях эффективнее

29.01.2025 15:57

В некоторых ситуациях обучение интеллектуальных агентов в среде с меньшей неопределенностью, или шумом приводит к большей производительности робота, чем в случае обучения в зашумленной среде, напоминающей реальные условия. Разработчики назвали этот неожиданный феномен эффектом лабораторного обучения.

«Если мы учимся играть в теннис в закрытом помещении, где нет помех, нам проще научиться хорошо выполнять различные подачи. Затем, если мы выйдем в среду с помехами, например, на ветреный теннисный корт, вероятность успешной игры будет выше, чем если бы мы начали учиться под ветром», - пояснила Серена Боно, инженер из Массачусетского технологического института, главный автор статьи с описанием открытия.

Команда Боно исследовала этот феномен, тренируя ИИ методом обучения с подкреплением играть в видеоигры Atari. Поскольку результаты обучения их не удовлетворяли, они начали экспериментировать и вносить изменения в один из элементов этого метода для повышения эффекта неожиданности: добавляли определенное количество помех в переходную функцию, которая задает вероятность смены агентом состояния на основе выбранных действий. И сами были удивлены, когда обнаружили постоянно возникающий эффект лабораторного обучения.

Под действием помех агент вел себя менее эффективно, https://news.mit.edu/2025/new-training-approach-could-help-a... MIT News. Но когда агент, предварительно обученный в защищенной от помех среде попадал в среду с помехами, он начинал показывать лучший результат по сравнению с агентом, тренировавшимся в условиях шумов.

Исследователи рассчитывают, что открытие приведет к разработке новых, более совершенных методов обучения ИИ. «Это совершенно новая концепция. Вместо того чтобы пытаться согласовать среду обучения и среду тестирования, мы можем конструировать искусственные условия, в которых агент ИИ будет обучаться еще лучше», - добавил Спандан Мадан из Гарвардского университета.

Прошлогоднее исследование, проведенное стартапом Anthropic, https://hightech.plus/2024/01/15/issledovanie-pokazalo-chto-... серьезные недостатки в текущих методах обучения и проверки безопасности ИИ. Оказалось, что если модель ИИ научить вредному поведению, ее тяжело избавить от него: искусственный разум сохранит свои «вредные привычки», но будет обманывать проверки безопасности.

Moscow.media

Частные объявления сегодня

Rss.plus

Все новости за 24 часа

Неожиданный подход поможет ИИ действовать в незнакомых ситуациях эффективнее

Новости спорта

Касаткина проиграла американке Крюгер во втором круге турнира WTA в Абу-Даби

В Подмосковье подростки на камеру избили пытавшегося подружиться мальчика-инвалида

Как изменилось оснащение Псковской областной больницы благодаря нацпроектам, рассказал Евгений Панфёров

С начала 2024 года Отделение СФР по Москве и Московской области оплатило пособия по временной нетрудоспособности 2,9 млн жителей региона

Февральская коллекция обуви Pródan