Ознакомившись с полученными Шульцем результатами, Монтегю и Дайан поняли, что изменение частоты импульсов нейронов ВОП, когда обезьяна неожиданно получает порцию сока, выглядит как сигнал об ошибке. Скачок активности, судя по всему, подсказывает другой нейронной сети, что привычные ожидания были ложными. Поскольку получение сока — это ошибка в положительную сторону, нейроны, по сути, кричат «Ура!» и фоновый уровень возбуждения повышается. Если подача сока регулярно предваряется включением света, интенсивность реакции на загорающуюся лампочку возрастает: «Ура! Сейчас будет сок»
[105]. После нескольких повторов связки «сначала свет, затем сок» подача сока начинает восприниматься как норма и становится ожидаемой. Поэтому нейроны возвращаются к фоновому состоянию, даже когда сок поступает. «Все как обычно, ничего нового», — как бы приговаривают они. Важно иметь в виду, что базовая частота импульсов не равносильна полному отсутствию сигнала, это сообщение о том, что ничего неожиданного не происходит. Таким образом, если предположить, что нейроны реагируют на ожидания, все встает на свои места, и результаты, озадачившие группу Шульца, уже не кажутся загадочными. Нейроны фактически строят предположения о том, что случится, и откликаются на то, что происходит в действительности (илл. 3.3).
Когда свет загорался, а сока не давали, нейроны снова сигналили об ошибке. Частота импульсов нейронов ненадолго падала ниже фоновой, поскольку действительность не оправдывала ожиданий: «У-у-у, зажали угощение».
Монтегю и Дайан, постоянно штудировавшие научную литературу, знали о существовании вычислительной модели использования сигналов об ошибке в машинном обучении, разработанной Ричардом Саттоном и Энди Барто
[106]. Как они довольно скоро убедились, полученные Шульцем данные в эту модель вполне укладывались. И чем внимательнее Монтегю и Дайан присматривались, тем очевиднее было соответствие.
Вот как они соотнесли вычислительную модель и нейробиологические данные. Монтегю, Дайан и Сейновски
[107] предположили, что для нейронов в ВОП самое главное — разница между тем, что ожидалось в определенный момент, и тем, что происходит в этот момент на самом деле. Нейроны реагируют на изменение, и с технической точки зрения это вполне логично, поскольку перемены подталкивают процесс познания
[108]. Соответственно колебания частоты импульсов нейронов — это сигналы к обучению. Достаточно понять это, и проясняется базовый механизм спайковой активности в данных Шульца.
Илл. 3.3. Каждый из 12 рядов, изображенных на трех частях рисунка, представляет собой серию точек, и каждая точка отображает пик импульсной активности нейрона. Верхняя линия — это обобщенное изображение (гистограмма) спайков, возникающих в каждом из 12 рядов, выстроенных ниже. Вверху: нейрон находится в состоянии фоновой активности, пока обезьяна не получит награду в виде сока. Частота импульсов сразу же резко повышается, а затем возвращается к исходному значению. Посередине: после нескольких экспериментов, в которых сначала моргает лампочка, а затем через несколько секунд подается сок, нейроны реагируют увеличением частоты импульсов только на вспышку света и ожидание награды, а не на саму подачу сока. Внизу: если свет моргает, но сок в предполагаемый момент не поступает, импульсы нейронов опускаются ниже базового уровня. Вспышка света в данном примере — условный стимул (УС), а сок — награда (Н). Временной диапазон показан на нижней схеме в секундах, в целом он составляет около трех секунд.
Wolfram Schultz, Peter Dayan, and P. Read Montague, «A Neural Substrate of Prediction and Reward», Science 275, No. 5306 (1997): 1593–99
Но, увы, без проблем у Монтегю и Дайана не обошлось. В духе привычных представлений Шульц и его коллеги пришли в своей публикации к выводу, что нейроны, активность которых они зарегистрировали в ВОП, не отображали ожидания награды. Почему? Потому что рост интенсивности возбуждения у нейронов ВОП не распространялся на весь временной интервал между вспышкой света и подачей сока
[109]. В момент включения света наблюдался короткий подъем, а затем все возвращалось к базовому уровню (см. илл. 3.3). В чем же проблема? Шульц с коллегами исходили из того, что нейроны ВОП «знают», когда ожидать сока, лишь в том случае, если спайковая активность удерживается на всем протяжении времени между вспышкой света и подачей сока. А значит, рассудили они, при отсутствии спайковой активности нейроны не могут сигнализировать ни об ожидании награды, ни о том, что ожидания обмануты. Значит, они делают что-то другое, например привлекают внимание к происходящему.
Общепринятые представления, обусловившие этот вывод, тормозили процесс. Монтегю и Дайан знали, что возвращение к исходным параметрам в промежутке между вспышкой и вознаграждением полностью соответствует модели Саттона и Барто, поскольку в этом промежутке ничего неожиданного для нейронов не происходит. Поэтому в своей статье они подробно и обстоятельно объясняли, откуда нейроны ВОП «знают», когда поступит награда.