Пионеры искусственного интеллекта получили премию Тьюринга
Эндрю Барто и Ричард Саттон, два выдающихся ученых, получили престижную премию Тьюринга за их новаторский вклад в развитие обучения с подкреплением – ключевого метода, лежащего в основе многих современных систем искусственного интеллекта, включая популярные чат-боты, сообщает The New York Times.
Что такое премия Тьюринга? Премия Тьюринга, учрежденная в 1966 году, является высшей наградой в области информатики и часто называется «Нобелевской премией в области вычислительной техники». Она присуждается Ассоциацией вычислительной техники за выдающиеся достижения в области информатики и вычислительной техники. В этом году лауреаты разделят денежный приз в размере 1 миллиона долларов.
В 1977 году Эндрю Барто, работая в Массачусетском университете в Амхерсте, начал изучать теорию, согласно которой нейроны действуют подобно гедонистам, то есть стремятся к максимизации удовольствия и минимизации боли. Год спустя к нему присоединился Ричард Саттон, и вместе они начали разрабатывать концепцию, объясняющую человеческий интеллект с помощью этого простого принципа, а затем применили ее к искусственному интеллекту. Результатом стало «обучение с подкреплением» – метод, позволяющий системам искусственного интеллекта учиться на основе цифрового эквивалента удовольствия и боли.
Как это работает? Представьте, что вы учите собаку команде «сидеть». Вы даете ей лакомство (положительное подкрепление) каждый раз, когда она выполняет команду правильно. Со временем собака учится связывать команду «сидеть» с получением лакомства и начинает выполнять ее чаще. Обучение с подкреплением в искусственном интеллекте работает по аналогичному принципу. Система выполняет определенные действия в среде и получает «награду» (положительное подкрепление) за успешные действия и «штраф» (отрицательное подкрепление) за неудачные. Путем многократных проб и ошибок система учится выбирать действия, которые максимизируют награду.
Работа Барто и Саттона заложила основу для таких прорывных технологий, как AlphaGo от Google и чат-боты, основанные на больших языковых моделях. В частности, команда, создавшая AlphaGo, использовала принципы обучения с подкреплением, чтобы научить систему играть в Го на уровне, превосходящем лучших игроков мира.
Премия Тьюринга, присужденная Барто и Саттону, подчеркивает огромное значение обучения с подкреплением в развитии современного искусственного интеллекта. Их работа не только привела к созданию новых технологий, но и вдохновила целое поколение ученых и инженеров на дальнейшие исследования в этой области. Их книга «Reinforcement Learning: An Introduction» остается фундаментальным трудом в этой области. Орен Этциони, профессор информатики, назвал их «бесспорными пионерами обучения с подкреплением».