Добавить новость
ru24.net
Все новости
Январь
2025
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
26
27
28
29
30
31

Краткая история интеллекта (3)

Продолжаем знакомиться с книгами Макса Беннета.
Предыдущие части были опубликованы в этой серии.

Аббревиатура от LL: Мозг позвоночных приспособился использовать дофамин для обучения с подкреплением. Их мозг работает на принципах нейронных сетей, которые также используются системами искусственного интеллекта. Это дает возможность распознавать закономерности и обобщать информацию в процессе построения модели внешнего мира.

Следующий скачок в эволюции мозга произошел 50 миллионов лет спустя, во время кембрийского взрыва, самого драматического расширения биоразнообразия животных. Животные с мозгом стали властителями фауны. Членистоногие, маргинальные черви и наши хордовые предки развили независимый мозг. Строение мозга хордовых уже похоже на наше. В ходе эмбрионального развития он формируется за счет трех пузырей, которые становятся основой формирования переднего мозга, среднего мозга и ромбовидного мозга. После этого передний мозг развивается в две подсистемы. Одна формирует кору и базальные ганглии, другая — таламус и гипоталамус. Все это имеется у всех позвоночных. Простой протомозг двустороннего животного становится сложной машиной, состоящей из субмодулей, слоев и систем обработки.

Структура мозга позвоночных

Примерно в то же время, что и Павлов, Эдвард Торндайк проводил эксперименты на животных. Он наблюдал за курами, кошками и собаками, держа их в клетках, из которых они могли выйти только в том случае, если выполняли определенные задачи: нажимали на рычаг, облизывались или выполняли определенную последовательность действий. Торндайк задавался вопросом, учатся ли кошки, подражая. Да, учатся, но не кошки, а другие животные. Торндайку в этом отношении не повезло. Но он обнаружил механизм обучения, общий для всех позвоночных. Его кошки учатся методом проб и ошибок. Используя этот подход, вы можете разработать очень сложное поведение, основанное на усилении положительно оцениваемого поведения и ослаблении отрицательно оцениваемого поведения. Рыбы также способны к обучению с подкреплением, оттачивая свое поведение в зависимости от результатов. Эта способность стала вторым эволюционным прорывом.

Первый алгоритм обучения с подкреплением назывался SNARC и был разработан пионером искусственного интеллекта Марвином Мински. Его нейронная сеть находит выход из лабиринта, укрепляет активированные синапсы и успешно выполняет задачу. Это работает не очень хорошо, и чем длиннее лабиринт, тем хуже. Проблема здесь в том, что если вам нужно предпринять несколько действий, чтобы выбраться из лабиринта или выиграть игру, трудно сказать, какое из них является решающим. Вопрос распределения заслуг в чистом виде. Мински пришел к выводу, что необходима стратегия распределения кредитов во времени. То есть мы имеем дело с временной проблемой распределения заслуг. Очевидным решением является усиление или ослабление действий, которые предшествуют победе или поражению. Именно так работает SNARC, но не очень хорошо, потому что даже в игре в шашки не всегда имеет значение последний ход. Вы можете усилить все ходы в игре, надеясь, что со временем ИИ выяснит, какие ходы хороши, а какие плохи. Но и это не работает: слишком много вариантов решения этой проблемы за приемлемое время.

Эта проблема оставалась нерешенной в течение десятилетий, пока Ричард Саттон не предложил метод обучения временным разностям (TD-обучение) в 1984 году. Он рекомендует подкреплять не те действия, которые приводят к победе, а те, которые повышают вероятность победы (по мнению самой системы ИИ). Это позволяет вам учиться в любое время и в любом месте. Несмотря на интуитивность, эффективность этого подхода не очевидна. При этом критик зависит от исполнителя, а исполнитель от критика. Однако со временем все они учатся, совершенствуют способности друг друга и помогают системе принимать очень разумные решения.

Первым, кто интегрировал метод Саттона в свою систему, был молодой физик Джеральд Тезауро, который научил компьютеры играть в нарды. До этого его неврологическая игра была средней. Вместо того, чтобы учиться на успешных игровых примерах знаменитостей, новая программа TD-Gammon учится всему на собственном опыте, методом проб и ошибок. Это сработало! TD-Gammon стал игроком мирового уровня. Сегодня метод смены часовых поясов реализован не только в игровых автоматах, но и используется во многих других программах, включая системы автономного вождения.

Что это такое? Просто одна из успешных идей или что-то фундаментальное? Во втором случае можно надеяться найти нечто подобное в биологическом мире. Коллеги Саттона во главе с Питером Даяном начали поиски. Они знают, что в этой истории задействован дофамин. У всех позвоночных глубоко в мозгу есть группа дофаминовых нейронов, стимуляция которых заставляет мышей даже забывать о еде. Алкоголь, кокаин и никотин действуют за счет высвобождения дофамина. Понятно, что дофамин улучшает обучение, но механизмы этого процесса остаются под вопросом. Первоначально считалось, что этот гормон вызывает чувство удовольствия, но мы знаем, что это не так.

Единственный способ выяснить это — измерить активность дофаминовых нейронов. К восьмидесятым годам возможности такой технологии появились, и немец Вольфрам Шульц воспользовался ею. Он дал обезьянам сладкую воду после того, как показал им определенные картинки. Оказывается, изначально в ответ на вознаграждение высвобождается дофамин. Но во время обучения всплеск дофамина сдвигается во времени к моменту появления «сахарной» картинки. Если после показа уже заученной картинки сладкой воды нет, наблюдается скачок активности дофаминовых нейронов в противоположном направлении (в нормальных условиях они щелкают два раза в секунду). Шульц не мог себе представить, что бы это значило, если бы это не было сюрпризом или угощением.

Три сценария эксперимента Шульца

В первом случае дофамин вырабатывался сразу после получения неожиданной дозы сахара, во втором случае сразу после предъявления «сахарной» картинки, а в третьем случае то же самое было, но когда обезьяны этого не делали он получает сахар, он получает сахар. Отрицательные пики дофамина.

Десять лет спустя вмешалась команда Даяна. Они обнаружили, что всплеск дофамина у Шульца совпал с сигналом TD у Саттона. Дофаминовые нейроны обезьян возбуждаются предсказательными сигналами, поскольку они приводят к увеличению ожидаемого вознаграждения. Наоборот, создается отрицательная обратная связь. Сопоставление настолько точное, что даже усиливает сигнал для прогнозов с более близкими временными рамками.

Следовательно, дофамин — это не сигнал вознаграждения, а сигнал подкрепления. Саттон обнаружил, что это делает обучение более эффективным. Эволюция сделала этот нейромедиатор сигналом обучения. У позвоночных дофамин сочетает в себе функции желания и подкрепления. Обучение с подкреплением приводит к знакомым психологическим состояниям, таким как разочарование и облегчение. Даже у рыб есть такое явление: они реагируют на прикосновение, переплывая в другое место после включения света. Так они получают облегчение, т е отсутствие наказания. Верно и обратное: когда мы не получаем ожидаемого вознаграждения, мы расстраиваемся. Нематоды этого сделать не могут. Она даже не умеет следить за временем. Напротив, обезьяны могли отсчитать пять секунд после того, как им показали картинку. Что естественно: во время обучения с подкреплением необходимо чувство времени.

Это достигается с помощью базальных ганглиев (ганглиев), расположенных между корой и таламусом. Они также связаны со средним мозгом, что позволяет им реагировать на поведение животного и внешнюю среду. В свою очередь, их тормозные нейроны соединяются с двигательными центрами в стволе мозга, регулируя их активацию. Без базальных ганглиев мы не можем двигаться, как показывают пациенты с болезнью Паркинсона.

базальные ганглии

Исследователи определили, что базальные ганглии учатся повторяющимся движениям, которые максимизируют высвобождение дофамина из дофаминовых нейронов. Почти нет необходимости упоминать, что эта структура мозга присутствует у нас, рыб и других позвоночных животных, а также в гипоталамусе, валентные нейроны которого (сигналы добра и зла) унаследованы от билатерий. Когда он чувствует себя хорошо, его базальные ганглии наполняются дофамином. Он сообщает нам, когда шахматная партия выиграна, но не когда сделан успешный ход. Сигналы TD реализуются через параллельные цепи внутри базальных ганглиев, функции и способы действия которых до конца не изучены и сделать прогнозы и оценки перспектив этого шага.

Мозг позвоночных также обладает способностью распознавания образов. Такие важные и сложные вещи, как запах, звук, свет, можно и нужно анализировать более тщательно, чем просто определять, превышен ли порог. Для различения разных запахов необходимы тысячи обонятельных нейронов разных типов, которые уже имеются у рыб. Чем больше нейронов, тем больше комбинаций их возбуждений можно составить и тем сложнее идентифицировать запахи. Конечно, все это имеет смысл, если ароматы можно выучить, а не жестко запрограммировать в ходе эволюции.

Опознать изображения непросто. Ведь перекрывающиеся изображения могут использовать общие группы нейронов. Кроме того, необходимо различать сходство и тождество. В системах технического зрения стандартным подходом является использование многослойных нейронных сетей, при помощи которых сенсорный вход можно сопоставить с интерпретацией на выходе путем корректировки весовых коэффициентов связей между нейронами в каждом слое. Проблема в том, как найти правильную комбинацию коэффициентов. Для этого нейронную сеть необходимо обучить.

Обратите внимание: История атомной промышленности СССР. Военные против ученых..

Стандартный подход обучения заключается в представлении различных версий исходных данных и их готовых интерпретаций. Машине давали различные комбинации запахов яиц, и каждый раз ей говорили, что это яйцо. Ей заранее сказали правильные ответы. Она сверяет результаты с выводом и при необходимости корректирует коэффициенты, начиная с последнего уровня. Таким образом, сигнал ошибки распространяется в направлении, противоположном потоку сигнала: так называемый метод обратного распространения ошибки).

многослойный персептрон

Этот тип контролируемого обучения является стандартным подходом для систем зрения, распознавания речи и автономного вождения. Но биологический мозг работает не так. У него нет учителя, он учится сам.

Обонятельные нейроны рыбы связаны с тремя корковыми слоями ее мозга. Слоистые пирамидальные нейроны имеют сотни дендритов и получают сигналы от тысяч синапсов. Каждый обонятельный нейрон возбуждает одновременно множество корковых нейронов, но не все. Следовательно, для разных запахов характер коркового возбуждения будет разным, что позволяет различать изображения. При этом пирамидный нейрон связан как сам с собой, так и со многими соседними нейронами слоя. Мы уже знаем, что связи между нейронами укрепляются, когда они срабатывают синхронно. Эта автоматическая корреляция обеспечивает распознавание похожих изображений. Это говорит нам о том, что биологический мозг не извлекает содержимое из адресуемых ячеек памяти, как это делают компьютеры, а скорее восстанавливает целые изображения из фрагментов. Он не боится потерять адресную информацию. Но вы можете случайно перезаписать память новым содержимым.

С проблемой катастрофического забывания впервые столкнулись исследователи Института Джонса Хопкинса в конце 1980-х годов. Нейронные сети пытались научить сложению. Им удалось уговорить ее добавить еще один. Затем добавьте еще два. Но в то же время их сеть забыла добавить одного! Во время обратного распространения ошибки перезаписывается память, ответственная за решение более ранних проблем. Как это решается? Ну, пока нет: вам придется заморозить систему ИИ после завершения обучения. Умные автомобили учатся раз и навсегда. У нас, как говорится: живи до старости и учись до старости. Даже рыбы могут страдать катастрофической забывчивостью. Даже спустя год она все же нашла уязвимости в сети. Как она это делает, мы не уверены.

но существует также проблема неизменности. Хотя зрительные образы в каждом случае могут быть совершенно разными, мы узнаем изображения под разными углами. Мы понимаем речь разных голосов. Эта проблема изучалась в том же институте еще в пятидесятые годы. Ученые имплантировали электроды в разные области мозга кошек, чтобы определить, как активируются области коры при представлении различных изображений. Зона V1 заволновалась первой. Оказывается, его нейроны удивительно избирательны в своем восприятии: они реагируют только на линии определенного направления в определенных областях. Таким образом, все поле зрения отображается областью V1. Эти распознанные линии и углы служат входными данными для соседней области коры V2, затем вступает в действие область V4 и, наконец, возбуждаются нейроны IT-области. По мере продвижения вверх по этой иерархии нейроны на каждом уровне реагируют на все более сложные визуальные стимулы: от линий до форм и объектов и конкретных лиц.

иерархическая модель обработки информации

В конце 1970-х годов японец Кунихико Фукусима усердно работал над решением проблемы использования нейронных сетей для визуального распознавания изображений. Что он сделал не так: поверните картинку и она перестает распознаваться. Он был осведомлен о результатах вышеупомянутого исследования и решил применить в своем проекте стратификацию и однородность на каждом региональном уровне. Поэтому он изобрел новую когнитивную машинно-сверточную нейронную сеть (CNN). В нем информация, распознанная на одном уровне, в сжатом виде передается на следующий уровень, отвечающий за идентификацию более крупных участков изображения. Линии и углы сливаются в более сложные формы. Все как у млекопитающего. Это сработало! Конечно, природа все же устроена немного по-другому. Его иерархия не так ясна. В отличие от CNN, он прекрасно определяет вращение объектов. И у него нет обратного распространения ошибок. Лучше всего то, что он также работает с более простым рыбьим мозгом, который также может распознавать изображения. Как она это делает, остается только догадываться.

Эволюция чувств ускорила эволюцию обработки информации, и наоборот. Со временем они постепенно становились более сложными. В результате кора головного мозга чудесным образом решает задачу распознавания образов. Параллельное развитие обучения также не является совпадением. Положительная обратная связь работает: чем лучше мозг учится, тем больше он получает пользы от новой информации.

После успеха TD-Gammon Саттона исследователи достигли уровня экспертов в тогда еще «неразрешимых» видеоиграх, таких как пинбол, звездные стрелки или роботы-танки, но оставалась еще одна игрушка Atari, которую еще предстояло покорить: месть Монте-Зумы. Там вам нужно найти выход из одной комнаты с препятствиями в другую. Решение может быть найдено не раньше 2018 года. Чтобы успешно учиться методом проб и ошибок, нужно часто пробовать.

Скриншот «Месть Монтесумы

Ранние алгоритмы пытались сделать это совершенно случайно в определенном проценте случаев. Но для большого количества вариантов это не работает. Другой подход — привить системе любопытство, вознаграждая ее за исследование новых мест и пробуние новых вещей. Подобные алгоритмы начинают действовать как мы, обыскивая все уголки и закоулки в поисках полезных вещей. Как вы могли догадаться, это работает.

Эффективность алгоритма также поднимает вопросы о любопытстве как факторе обучения мозга позвоночных. На самом деле: научные данные говорят нам, что самые ранние хордовые отличались от своих предков, в том числе своим любопытством. Сюрпризы дают нам новую дозу дофамина. Любопытство может объяснить нашу привлекательность азартных игр. Игрок знает, что у него есть 48% шанс выиграть в рулетку. Но это не помешало ему принять участие. Поэтому крыса продолжала нажимать на рычаг, ожидая случайной награды. Итак, листаем Инстаграм в поисках интересного.

Еще одна вещь, которая отличает позвоночных от остального мира, — это их уникальная способность строить модели мира. Когда свет погаснет, мы сможем найти панель, где повреждена вилка. Так рыбы находят пищу, ориентируясь по меткам на стенках аквариума. В отличие от пчел и муравьев, они не могут решать пространственные задачи, а только свои маршруты. Если вы поместите муравья, идущего с добычей спиной к выходу из муравейника, он начнет свой цикл заново, а не просто развернется, как рыба. Если у вас есть карта, вы должны уметь ориентироваться. Для этого эволюция дала нам вестибулярный аппарат, от которого на каруселях кружится голова. Визуальная и вестибулярная информация, а также сигналы о положении головы передаются в мезокортекс позвоночных (который в нашем случае становится гиппокампом). Там они смешиваются и преобразуются в пространственные карты. Фактически, рыбы с повреждением гиппокампа перестали запоминать ориентиры. Они могут плыть к объекту или от него, но не могут найти выход из любого случайного места лабиринта. То же самое происходит с ящерицами и мышами.

Функция и строение гиппокампа унаследованы от наших далеких предков позвоночных. В нашем гиппокампе есть нейроны места, которые срабатывают только тогда, когда мы находимся в определенном месте. Возможно, способность нашего мозга распознавать объекты (несмотря на их вращение) также связана с пространственной ориентацией. Такая ориентация, несомненно, стала огромным преимуществом для наших предков в эволюционном процессе. Они могут запомнить, где спрятаться, как спастись и где найти еду. Они также способны отличить себя от внешнего мира. В своей модели они представляли себя маленьким пешеходом, ищущим способ добраться из точки А в точку Б. Но эта внутренняя модель стала основой для дальнейшей эволюции, очередного прорыва.

[Мои] Рецензии на книги Книги «Эволюция» Нейронные сети Искусственный интеллект Гормоны мозга Обучение естественным наукам Наука Популярная документальная литература Длинная статья 5

Больше интересных статей здесь: Новости науки и техники.

Источник статьи: Краткая история интеллекта (3).




Moscow.media
Частные объявления сегодня





Rss.plus




Спорт в России и мире

Новости спорта


Новости тенниса
Стефанос Циципас

Стефанос Циципас философски прокомментировал поражение Бадосы от Соболенко на AO-2025






25 января – День студента, или Всё врут календари

Встреча на Холме Славы

Сотрудники НКО Москвы получают поддержку: подача заявок до 9 февраля

Лесные хорьки возвращаются в Москву: новые жители столичного зоопарка