Хотя давно известно, что обучение посредством подкрепления — это эффективный метод для формирования нужного поведения, механизмы этого воздействия до недавнего времени оставались скрытыми в нейронных структурах мозга. Каким образом обучение способствует преодолению инстинктов и сильных желаний? Как удается с его помощью выработать поведенческие навыки, не предусмотренные эволюционным развитием, такие как вождение машины?
Среди поразительных событий в нейронауке в последние три десятилетия — последовательное открытие механизмов обучения с помощью вознаграждения (или обучения с подкреплением). Судя по всему, те же самые механизмы действуют и при усвоении социальных и внесоциальных норм: как вести себя, когда заседаешь в жюри присяжных, как поменять колесо у машины, как предложить помощь оказавшемуся в затруднительном положении, как поставить на ровный киль перевернувшуюся байдарку. В игру могут вступать самые разные фоновые навыки и воспоминания, однако механизмы вознаграждения одни и те же.
Ключевую роль в обучении с подкреплением у млекопитающих играют гомологи тех нейронных структур, которые возникли задолго до появления не только мозга млекопитающих, но и рептильного. В основе — первобытные механизмы с их древней структурой и древним способом функционирования
[99]. Они контролируют базовые функции выживания, включая питание, спаривание и избегание хищников. Они позволяют научиться отыскивать надежные источники корма и при необходимости менять способы добывания пищи. У млекопитающих эти нейронные сети расположены в среднем мозге и скоординированы с комплексом структур под названием «базальные ядра»
[100] (илл. 3.1). Кора головного мозга, особенно ее лобные доли, взаимодействует с базальными ядрами, расширяя и модифицируя радиус своего действия, и тем самым обеспечивает высокоуровневое управление.
Плотно связанные с корой гиппокампальные структуры отвечают за запоминание конкретных событий и особенностей людей (дядя Хэмиш раздражителен, тетя Марта рассказывает пошлые анекдоты). При участии гиппокампа повседневные события, воспринимаемые как достойные запоминания, собираются в хранилище фоновых знаний, тем самым расширяя способности ориентироваться в окружающем мире.
Илл. 3.1. Упрощенная схема, демонстрирующая главные составляющие и связи системы вознаграждения в человеческом мозге. Вид от срединной линии мозга, показано только одно (левое) полушарие. Связи между подкорковыми ядрами, а также между этими ядрами и префронтальной корой в действительности очень многочисленны, но на схеме они представлены одиночным нейроном для каждого из главных путей. Концевые участки аксонов (терминали) изображены в виде разветвления. Проводящие пути показаны разными видами линий в зависимости от выделяемого нейрохимического вещества: пунктирная соответствует возбуждающему нейромедиатору глутамату, жирная черная — тормозному медиатору ГАМК (гамма-аминомасляная кислота), а жирная серая — дофамину, нейромодулятору, играющему ключевую роль в обучении с подкреплением. Области прилежащего ядра и вентрального паллидума, заштрихованные сплошными горизонтальными линиями, — это «горячие точки» наслаждения, содержащие опиоидные и каннабиноидные рецепторы, их стимуляция подкрепляет реакцию предпочтения. Области, заштрихованные пунктиром, — это «холодные точки» наслаждения, где реакции предпочтения подавляются. Гипоталамус на схеме отсутствует, поскольку его загораживает вентральный паллидум.
Данные о «горячих» и «холодных» точках прилежащего ядра и вентрального паллидума приводятся по материалам: D. C. Castro and K. C. Berridge, «Advances In the Neurobiological Bases For Food ’Liking’ Versus ’Wanting,’» Physiology of Behavior 136 (2014): 22–30
Чем больше кора по отношению к базальным ядрам, тем более масштабным и сложным будет обучение на опыте. Чем больше кора, тем выше способность воспринимать абстрактные модели устройства мира, обращаться к этим моделям при необходимости и обновлять их по мере получения нового опыта.
У млекопитающих с крупным мозгом, включая и нас, намеченная цель может отодвигаться довольно далеко в будущее. Процесс достижения подобной цели разбивается на множество промежуточных шагов
[101]. Представьте, сколько таких шагов подразумевает строительство дома или удаление воспалившегося аппендикса. Для достижения многих целей необходимо выстроить четкую последовательность необходимых действий, особенно подразумевающих участие других умных животных. Что именно будет предпринято, зависит в том числе и от непредвиденных обстоятельств, когда нам приходится решать, как поступить, если вдруг случается что-то неожиданное.
Человек не единственное млекопитающее, способное решать многоходовые задачи. Сколько хитроумных решений должна принять медведица гризли, чтобы добыть северного оленя и накормить своих голодных медвежат?
[102] У нее явно есть генеральный план — заманить немолодого оленя в речку, где у нее будет преимущество. Медведица дразнит оленя, раз за разом подступая к нему и вынуждая его атаковать, а сама тем временем неуклонно пятится к реке. Наконец ей удается вынудить его войти в воду, и теперь олень в ее власти. Старику трудно устоять на скользком каменистом дне, его песенка почти спета. Самое главное для медведицы — не дать оленю удержаться на ногах, поэтому она устремляется всей своей массивной тушей прямо на грозные рога и опрокидывает старика на глубину. Он тонет, отчаянно брыкаясь. На каждом этапе жертва отчаянно сопротивляется, поэтому медведица должна быть готова в любую секунду изменить стратегию.