Неожиданный подход поможет ИИ действовать в незнакомых ситуациях эффективнее
В некоторых ситуациях обучение интеллектуальных агентов в среде с меньшей неопределенностью, или шумом приводит к большей производительности робота, чем в случае обучения в зашумленной среде, напоминающей реальные условия. Разработчики назвали этот неожиданный феномен эффектом лабораторного обучения.
«Если мы учимся играть в теннис в закрытом помещении, где нет помех, нам проще научиться хорошо выполнять различные подачи. Затем, если мы выйдем в среду с помехами, например, на ветреный теннисный корт, вероятность успешной игры будет выше, чем если бы мы начали учиться под ветром», - пояснила Серена Боно, инженер из Массачусетского технологического института, главный автор статьи с описанием открытия.
Команда Боно исследовала этот феномен, тренируя ИИ методом обучения с подкреплением играть в видеоигры Atari. Поскольку результаты обучения их не удовлетворяли, они начали экспериментировать и вносить изменения в один из элементов этого метода для повышения эффекта неожиданности: добавляли определенное количество помех в переходную функцию, которая задает вероятность смены агентом состояния на основе выбранных действий. И сами были удивлены, когда обнаружили постоянно возникающий эффект лабораторного обучения.
Под действием помех агент вел себя менее эффективно, https://news.mit.edu/2025/new-training-approach-could-help-a... MIT News. Но когда агент, предварительно обученный в защищенной от помех среде попадал в среду с помехами, он начинал показывать лучший результат по сравнению с агентом, тренировавшимся в условиях шумов.
Исследователи рассчитывают, что открытие приведет к разработке новых, более совершенных методов обучения ИИ. «Это совершенно новая концепция. Вместо того чтобы пытаться согласовать среду обучения и среду тестирования, мы можем конструировать искусственные условия, в которых агент ИИ будет обучаться еще лучше», - добавил Спандан Мадан из Гарвардского университета.
Прошлогоднее исследование, проведенное стартапом Anthropic, https://hightech.plus/2024/01/15/issledovanie-pokazalo-chto-... серьезные недостатки в текущих методах обучения и проверки безопасности ИИ. Оказалось, что если модель ИИ научить вредному поведению, ее тяжело избавить от него: искусственный разум сохранит свои «вредные привычки», но будет обманывать проверки безопасности.