Журнал высшей нервной деятельности им. И.П. Павлова, 2021, T. 71, № 2, стр. 202-212

Модель нейронного механизма инструментализации движений, вызванных стимуляцией двигательной коры

В. И. Майоров *

Кафедра высшей нервной деятельности Московского государственного университета им. М.В. Ломоносова
Москва, Россия

* E-mail: vimaiorov@mail.ru

Поступила в редакцию 04.09.2020
После доработки 18.10.2020
Принята к публикации 22.12.2020

Полный текст (PDF)

Аннотация

Представлена модель нейронного механизма инструментализации (спонтанного воспроизведения) движений, вызываемых подкрепляемой стимуляцией двигательной коры. Инструментализация основана на усилении возбудительных связей пирамидных нейронов коры: 1) с дофаминовыми нейронами, 2) между собой в условиях “дофаминовой модуляции”. Правильное изменение связей между пирамидными нейронами критически зависит от ослабления модуляции сразу после достижения целевого состояния нейронной активности.

Ключевые слова: условный рефлекс, мотивация, подкрепление, кора, дофамин, НМДА-рецепторы, двунаправленная синаптическая пластичность

Стимуляция двигательной коры вызывает координированные движения по направлению к конечному положению, заданному точкой стимуляции, независимо от исходного положения (Graziano et al., 2002). Если такие движения подкреплять пищей, животное начинает повторять их самостоятельно без внешней подсказки (Конорски, 1970).

Опыт паркинсонизма указывает на необходимость активации дофаминовой системы для инициации и выполнения движений. Например, активация дофаминовых нейронов условным сигналом в результате выработки Павловского условного рефлекса вызывает реакцию приближения к источнику условного сигнала (“Pavlovian approach”) (Павлов, 1923 (1973); Zellner, Ranaldi, 2010; Flagel et al., 2011; Fanselow,Wassum, 2016; Saunders et al., 2018). В работе показано, что такой же механизм ассоциации между программирующими движение к финальной позе нейронами двигательной коры и дофаминовыми нейронами обеспечивает инструментализацию (самостоятельное воспроизведение) корковых движений.

Опыт паркинсонизма также показывает, что сложные автоматизированные навыки, привычки (например, жонглирование мячом профессиональным футболистом) могут выполняться больными, большую часть времени находящимися в неподвижности из-за повреждения дофаминовых нейронов среднего мозга (Лис, 2020). Выработка привычки требует долгих тренировок, когда дофаминовые нейроны не реагируют возбуждением на ожидаемую награду (Waelti et al., 2001; Glimcher, 2011; Schultz et al., 2017; Watabe-Uchida et al., 2017).

В работе предложена модель физиологического механизма подкрепляющей функции снижения дофаминовой активности (редукции дофаминового драйва), основанная на свойствах дофаминовой модуляции и двунаправленной синаптической пластичности.

МЕТОДИКА

Первый вариант модели состоит из 512 “пирамидных” нейронов (ПН), случайно связанных друг с другом с вероятностью ~0.4 нормально распределенными по величине возбудительными (w) и тормозными (g) связями, и “дофаминового” нейрона (ДН), активность которого модулирует эффективность возбудительных связей между ПН (рис. 1 (а)). Величина возбудительных связей (среднее и стандартное отклонение) ~0.004 ± 0.0004, тормозных ~0.2 ± 0.02. ПН разделены на непересекающиеся группы по 64 нейрона в каждой, с более сильными внутригрупповыми возбудительными связями (×25w). Подразумевается, что возбуждение каждой группы (GR) внешним стимулом (SG) вызывает движение (RG) к определенному конечному положению. ПН связаны тормозными синапсами (~0.0025 ± ± 0.00025) с ДН с вероятностью ~0.3. Дополнительно одна или две группы ПН связаны с ДН также возбудительными синапсами (~0.075 ± 0.0075) с вероятностью ~0.48 (как если бы эти синапсы потенциировались при подкреплении движений). Все связи между нейронами установлены заранее и не менялись в процессе работы модели.

Рис. 1.

(а) – схема модели, пирамидные нейроны – светлые, дофаминовый (D) – темный. GR – группа нейронов, запускающих реакцию RG, SG – активирующий их стимул, С – условный сигнал. (б) – зависимость синаптической пластичности (p – коэффициент в уравнениях 9, 1416) от активности постсинаптического нейрона (v)). (в) – зависимость коэффициента модуляции (m) синаптического возбуждения от активности дофаминового нейрона (vD, уравнение 6). (г) – зависимость величины активности, исходящей по аксону (r) от потенциала нейрона (v, уравнения 7, 13) при пороговых значениях потенциала (^), v > 0.01 (черная) и v > 0.5 (серая).

Fig. 1. (а) – model scheme, pyramidal neurons light, dopamine (D) dark. GR – a group of neurons that trigger a reaction RG, SG – stimulus activating them, С – conditional signal. (б) – dependence of synaptic plasticity (p – coefficient in equations 9, 1416) on the activity of postsynaptic neuron (v). (в) – dependence of the modulation coefficient (m) of presynaptic excitation on the activity of the dopamine neuron (vD, equation 6). (г) – dependence of the magnitude of activity emanating along the axon on the potential of the neuron (v, equation 7, 13) at threshold values of potential (^), v > 0.01 (black) and v > 0.5 (gray).

В начале каждой пробы состояние нейронов инициировалось нормально-распределенным случайным шумом. Каждая проба состояла из t интервалов (шагов), динамика активности в которых рассчитывалась функцией решения дифференциальных уравнений MATLAB ode45. Поведение нейронов описывается системой дифференциальных уравнений (в векторно-матричных обозначениях):

(1)
$\begin{gathered} d{\mathbf{v}}{\text{/}}dt = - 0.01{\mathbf{v}} + (1 - {\mathbf{v}})(m{\mathbf{we}}) - \\ - \;(1 + {\mathbf{v}})({\mathbf{gi}}) + (1 - {\mathbf{v}}){{{\mathbf{S}}}_{{\mathbf{g}}}} + (1 - {\mathbf{v}}){\mathbf{c}} - 10{\mathbf{h}} \\ \end{gathered} $
(2)
$d{\mathbf{e}}{\text{/}}dt = - 0.01{\mathbf{e}} + \left( {1 - e} \right){\mathbf{r}}$
(3)
$d{\mathbf{i}}{\text{/}}dt = - 0.1{\mathbf{i}} + \left( {1 - {\mathbf{i}}} \right){\mathbf{r}}$
(4)
$d{\mathbf{h}}{\text{/}}dt = - 0.05{\mathbf{h}} + 0.001{\mathbf{v}}$
(5)
$\begin{gathered} dD{\text{/}}dt = - 0.01D + \left( {1 - D} \right){{{\mathbf{w}}}_{D}}\left( {{\mathbf{v}} + \left| {\mathbf{v}} \right|} \right) - \\ - \;\left( {1 + D} \right){{{\mathbf{g}}}_{D}}\left( {{\mathbf{v}} + \left| {\mathbf{v}} \right|} \right) - 0.00075 \\ \end{gathered} $
(6)
$m = 1.0(0.5 + \left( {1{\text{/}}\pi } \right){{\operatorname{tg} }^{{ - 1}}}\left( {100\left( {D - 0.0} \right)} \right))$
(7)
$r = \left( {\frac{1}{{1 + {\text{exp}}\left( {5 - 10{\mathbf{v}}} \right)}}} \right) \times ({\mathbf{v}} > 0.01)$

Условные обозначения: ${\mathbf{v}}$ – уровень активности (мембранный потенциал) нейрона; w, g – величина возбуждающих и тормозных связей между ПН; wD, gD – величина возбуждающих и тормозных связей между ПН и ДН; r – активность на выходе нейрона после преобразования (рис. 1 (г)), в соответствии с обозначениями, принятыми в MATLAB, в уравнении 7 выражение в скобках, заключающих неравенство $({\mathbf{v}} > 0.01)$, принимает значение 1 при выполнении неравенства, значение 0 в ином случае; e, i – “синаптическое” возбуждение и торможение под влиянием r, более медленное снижение возбуждения по сравнению с торможением отражает длительность NMDA-компонента ВПСП; SG – активация, адресованная к группе ПН (соответствует стимуляции коры, вызывающей движение); c – условный (обстановочный) сигнал (УС); h – постактивационное торможение, посттормозное возбуждение; D – уровень активности ДН; m – коэффициент модуляции возбудительных связей между пирамидными нейронами в зависимости от уровня активности ДН (рис. 1 (в)). Как видно из уравнений, мембранный потенциал ПН (${\mathbf{v}}$) без генерации потенциалов действия преобразуется в сигнал на выходе (r), он же – пресинаптический для других нейронов. Пресинаптическим сигналом для ДН является непосредственно активность ПН (${\mathbf{v}}$ > 0).

Второй вариант модели состоит из 64 полностью связанных друг с другом ПН, среди которых произвольно выделялись (без изменения связей) одна или несколько групп по 8 нейронов в каждой. Поведение модели описывается системой дифференциальных уравнений:

(8)
$\begin{gathered} d{\mathbf{v}}{\text{/}}dt = - 0.01{\mathbf{v}} + \left( {1 - {\mathbf{v}}} \right)({\mathbf{we}}) - \left( {1 + {\mathbf{v}}} \right)\left( {{\mathbf{gi}}} \right) + \\ + \;\left( {1 - {\mathbf{v}}} \right){{{\mathbf{S}}}_{{\mathbf{g}}}} + \left( {1 - {\mathbf{v}}} \right){\mathbf{c}} - 20{\mathbf{h}}; \\ \end{gathered} $
(9)
$d{\mathbf{w}}{\text{/}}dt = 0.005\left( {0.1 - {\mathbf{w}}} \right){{{\mathbf{P}}}^{ + }} + 0.25{\mathbf{w}}{{{\mathbf{P}}}^{ - }}$
(10)
$d{\mathbf{e}}{\text{/}}dt = - m{\mathbf{e}} + \left( {1 - {\mathbf{e}}} \right){\mathbf{r}}$
(11)
$d{\mathbf{i}}{\text{/}}dt = - 0.25{\mathbf{i}} + \left( {1 - {\mathbf{i}}} \right){\mathbf{r}}$
(12)
$d{\mathbf{h}}{\text{/}}dt = - 0.05{\mathbf{h}} + 0.001{\mathbf{v}}$
(13)
$r = \left( {\frac{1}{{1 + {\text{exp}}\left( {5 - 10{\mathbf{v}}} \right)}}} \right) \times ({\mathbf{v}} > 0.01)$
(14)
${\mathbf{P}} = 1.83\left( {\frac{{{\text{exp}}\left( {20{\mathbf{v}}} \right)}}{{1 + {\text{exp}}\left( {20{\mathbf{v}}} \right)}} - \frac{{0.5{\text{exp}}\left( {20{\mathbf{v}} + 6} \right)}}{{1 + {\text{exp}}\left( {20{\mathbf{v}} + 6} \right)}}} \right)$
(15)
${{{\mathbf{P}}}^{ + }} = {\mathbf{P}} \times ({\mathbf{e}} > 0.1~\& {\mathbf{~P}} > 0.5)$
(16)
${{{\mathbf{P}}}^{ - }} = {\mathbf{P}} \times ({\mathbf{e}} > 0.1~\& ~{\mathbf{P}} < - 0.3)$
wпеременная величина возбуждающих связей между ПН. Начальная величина связей ~0.0002 ± 0.00002. Связи изменяются в соответствии с правилом двунаправленной синаптической пластичности (уравнение 14, рис. 1. (б)), когда значения функции P удовлетворяют условиям, установленным уравнениями 15, 16 (по (Shouval et al., 2010), с изменениями), в соответствии с обозначениями, принятыми в MATLAB, в уравнениях 13, 15, 16 выражения в скобках, заключающих неравенства, принимают значение 1 при выполнении (обоих) неравенств, значение 0 в ином случае, & – знак логического умножения; m – характеризует влияние дофаминовой модуляции на синаптическое возбуждение (e) (Cepeda, Levine, 2006; Chen et al., 2004; Flores-Hernández et al., 2002; Stewart, Plenz, 2006; Wang et al., 2015); в отличие от первого варианта здесь уровень модуляции не вычислялся, а устанавливался в качестве входного параметра для отдельных временных интервалов: m = 0.05 подразумевает присутствие, а m = 5 – отсутствие модуляции. Все тормозные связи постоянны (~0.025 ± 0.0025). Остальные обозначения те же, что и в первом варианте модели.

Значения числовых коэффицентов в уравнениях 116 те, при которых были получены представленные на рисунках результаты. Вычисления производились в системе MATLAB, m-коды программ можно получить у автора.

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ

В первой части работы изучалось влияние возбудительных связей от одной или двух групп ПН к ДН на динамику активности нейронной модели. Примеры на рис. 2 (а, б) показывают, что та группа локально связанных ПН, которая активирует ДН, после более или менее длительной случайной задержки спонтанно переходит в возбужденное состояние вместе с ДН (стрелка 1), а активность остальных ПН подавляется. Рисунок 2 (ж) показывает распределение латентных периодов спонтанных вспышек возбуждения ПН и вероятность вспышек в зависимости от силы связей с ДН. Разброс латентных периодов остается большим даже при оптимальной силе связей, гарантирующей высокую вероятность реакции. Если с ДН связаны 2 группы ПН, то даже вдвое большая сила связи от одной группы не делает ее активацию более вероятной по сравнению с другой, слабее связанной с ДН. Для избирательного возбуждения одной из двух одинаково связанных с ДН групп ПН (A, B на рис. 2 (в–е)) достаточно слабой дополнительной активации этой группы (стрелка 2; a+, b+ на рис. 2 (з)), заметной только по кривым накопления разности между средним уровнем активности нейронов группы и остальных (стрелка 3).

Рис. 2.

(а, б) – cпонтанное возбуждение групп ПН (отмечены серой лентой внизу), активирующих ДН (стрелка 1), t – время, n, v – номер и уровень активности нейронов. (в–е) – возбуждение групп (A, B) при дополнительной активации (a+, b+). Разность между средним уровнем активности группы и остальных (2 и оттенки серого на лентах). Накопление разницы (3). (ж) – зависимость (в интервале t ≤ 1025) латентного периода (точки, t) и вероятности возбуждения (линия, p) группы ПН от связи с ДН (wD). (з) – вероятность (p, столбики) и латентный период (t, точки) возбуждения в зависимости от дополнительной активации (a+, b+).

Fig. 2. (а, б) – spontaneous excitation of groups of PNs (marked with a gray ribbon) that activate the DN (arrow 1), t – time, n, v – number and activity level of neurons. (в–е) – the excitation of groups (A, B) during their weak additional activation (a+, b+). The difference between the average level of activity of the group and the rest (2 and shades of gray on the tapes). Difference accumulation (3). (ж) – dependence (in the interval t ≤ 1025) of the latent period (points, t) and the probability of excitation (line, p) of a group of PNs on the strength of link with the DN. (з) – dependence of the probability (bars) and latent period (t, points) of excitation on weak additional activity (a+, b+).

Во второй части работы изучались изменения эффективности связей между ПН в зависимости от условий модуляции, которая здесь поддерживала возбуждение (e) в связях между ПН в соответствии с уравнением 10.

Все пробы на рис. 3 (а–г) начинались одновременно с включением модуляции (m = = 0.05). В интервале t 25–34 добавлялась стимуляция группы ПН (n 25–32), которая выключалась после 34-го шага одновременно с выключением модуляции (m = 5). После нескольких сочетаний уровень возбуждения в выделенной группе ПН постепенно повышается (рис. 3 (б–г) за счет усиления внутри-групповых связей между ПН (A⊃, рис. 3 (л)).

Рис. 3.

(а–г) – спонтанное возбуждение группы ПН (n 25–32), стимуляция (SG) в интервале t 25–34, модуляция (t 1–34), 1, 5, 7, 10-я пробы. (д–з) – реакции группы (n 17–24). (д) – 30-я проба УС (с, n 41) на фоне модуляции. (е–з) – УС и модуляция (t 1–30), SG (t 21–30), 5, 7, 30-я пробы. (и) – задержка выключения модуляции и УС на 5 шагов, 30-я проба. (к) – задержка на 15 шагов, 30-я проба, группа B (n 49–64). (л) – динамика связей между ПН (⊃ внутригрупповые связи) в примерах (а–г, е–з), те же связи без изменений (указаны стрелкой) в примере (и). (м) – динамика связей при задержке в 15 шагов в примере (к).

Fig. 3. (а–г) – spontaneous excitation of a group of PNs (n 25–32), stimulaton (SG) in the interval t 25–34, modulation (t 1–34), 1, 5, 7, 10th trials. (д–з) – reactions of a group (n 17–24). (д) – 30th trial of CS (с, n 41) on the background of modulation. (е–з) – CS and modulation (t 1–30), SG (t 21–30), 5, 7, 30th trials. (и) – 5 steps delay off modulation and CS, 30th trial. (к) – 15 steps delay, 30th trial, group B (n 49–64). (л) – link strength dynamics between PNs (⊃ intra-group links) in examples (а–г, е–з), no changes of the same link’s weights (marked by the arrow) for example (и). (м) – link strength dynamics for example (к) (15 steps delay).

Пробы на рисунке 3 (д–к) начинались с одновременного включения УС (c) и модуляции (m = 0.05, как будто УС уже приобрел способность вызывать активацию ДН). Многократное предъявление УС в условиях модуляции не вызывало заметных изменений в нейронной сети (рис. 3 (д)). В пробах на рисунках 3 (е–з) добавляется стимуляция группы ПН (A, n 17–24, t 21–30), которая выключалась одновременно с выключением УС и модуляции. После нескольких сочетаний уровень возбуждения ПН в выделенной группе А в ответ на УС постепенно повышается за счет усиления внутригрупповых связей между ПН и усиления влияния на них нейрона, активируемого УС (рис. 3 (л) A⊃, с → A). Рис. 4 (а) показывает, как это происходит. При стимуляции ПН группы А величина пресинаптического возбуждения (Аe, ce) и постсинаптический потенциал (Аv) попадают в область кривой синаптической пластичности, которая соответствует усилению связей (слева на рис. 4 (а)). Под влиянием усиления связей от А-нейронов к с-нейрону может увеличиваться и ответ на УС (отмечено стрелкой на рис. 3 (е–з)), но только при слабом уровне торможения между ПН. При усилении торможения ответ не увеличивается.

Рис. 4.

Активность (а – в) и изменения связей в первой (г–е) и второй (д) пробах. (а, г) – при нулевой задержке, как в примерах на рис. 3 (е–з), (г) – стиль линий как на рис. 3 (л), (б, д) – при задержке в 5 шагов, как на рис. 3 (и), (д) – стиль линий как на рис. 3 (л), (в, е) – при задержке в 15 шагов, как на рис. 3 (к), (е) – стиль линий как на рис. 3 (м), кривые в разном масштабе. Пояснения в тексте.

Fig. 4. Activity (а – в) and link’s weight changes in first (г–е) and second (д) trials. (а, г) – at zero delay, as in examples on the figure 3 (е–з), (г) – the line style as on the figure 3 (л), (б, д) – at 5 step delay as on the figure 3 (и), (д) – the line style as on the figure 3 (л), (в, е) – at 15 step delay as in examples on the figure 3 (к), (е) – the line style as on the figure 3 (м), different scale curves. Explanations in the text.

Но уже при небольшой задержке выключения модуляции и УС – на 5 шагов после выключения стимуляции ПН – обучение не происходит (рис. 3 (и), (л), рис. 4 (б), (д)). Окончание пресинаптического возбуждения (Ае, се) попадает на фазу следового постактивационного торможения А-нейронов (Av, рис. 4 (б)), и в соответствии с кривой пластичности происходит снижение весов связей (рис. 4 (д)).

Если в сети присутствует вторая группа ПН с сильными внутригрупповыми связями (B на рис. 3 (к)), то при увеличении задержки выключения модуляции и УС возбуждаются ПН этой группы. Рисунок 4 (в) показывает, что в начале B-нейроны активируются под влиянием посттормозной отдачи (Bv, первая и вторая пробы), в результате чего усиливаются внутригрупповые связи (так же как между А-нейронами на рис. 4 (а)). Совпадение посттормозного возбуждения B-нейронов со следовым пресинаптическим возбуждением, вызванным активностью А- и с-нейронов (Аe, сe), вызывает усиление связей от А- и c- к B-нейронам (рис. 3 (м), рис. 4 (в, е)).

Рис. 5 показывает, что сигналы, совпадающие с возбуждением определенной группы ПН (аА, bB), приобретают способность вызывать возбуждение своей группы нейронов (рис. 5 (а, б)) за счет избирательного усиления связей с ними (рис. 5 (в)). Однако сигнал (c), совпадающий с возбуждением обеих групп (по отдельности), не приобретает связей ни с одной из них. Механизм этого эффекта показан на рис. 5 (г, д), а динамика связей – на рис. 5 (е). Например, усиление связей между сигналом c (n41) и группой А при возбуждении А-нейронов (рис. 5 (г)) стирается при возбуждении нейронов группы B, вызывающем реципрокное торможение А-нейронов (рис. 5 (д)), и наоборот. Эффект может зависеть от порядка и числа каждого из сочетаний.

Рис. 5.

(а, б) – Возбуждение нейронных групп A, B под влиянием ассоциированных с ними сигналов (a + c) → A, (b + c) → B. (в, е) – динамика связей: a A, b B (в) и c → A, c → B (е). (г, д) – верхний ряд – активность, нижний – усиление связей c → A в первой (a + c) → A (г) и ослабление во второй (b + c) → B (д) пробах. Пояснения в тексте.

Fig. 5. (а, б) – Excitation of neural groups A, B under the influence of signals associated with them (a + c) → A, (b +c) → B. (в, е) – Link strength dynamics: a → A, b → B (в) and c → A, c → B (е). (г, д) – Top row – activity, bottom row – strengthening and weakening of bonds c → A in first (a + c) → A (г), and second (b + c) → B (д) trials. More explanations in the text.

Рисунок 6 показывает механизм формирования системы пересекающихся групп ПН, активируемых каждая своим специфическим УС. Каждая группа, состоящая из 8 нейронов, имеет по 3 общих элемента с двумя другими (соседними по номерам нейронов), и 2 нейрона, принадлежащих только ей (“ядро” группы, рис. 6 (б)). Во время обучения группы ПН активировались в случайном порядке одинаковое число раз. Перед переключением сигналов состояние нейронной сети возвращалось к исходному фоновому уровню, в тестовых пробах синаптическая пластичность блокировалась. Картина избирательной активации каждой группы под влиянием своего условного сигнала после обучения представлена на рис. 6 (а). Изменения связей между ПН показаны на рис. 6 (в, г). Условный сигнал (С) устанавливает связи со всеми ПН своей группы – как с ядром (С,4), так и с крайними элементами, которые входят также в состав других групп (С,5), но не с другими группами (С,6). Внутренние межнейронные связи усиливаются между ПН ядра (1) и между краевыми элементами (1). Усиливаются связи от ПН ядра к периферии (2), но связи в противоположном направлении, от периферии к ядру (3), остаются на низком уровне (механизм этого тот же, что и механизм ослабления связей общего элемента (c) нейронных групп на рис. 4).

Рис. 6.

Выработка УР в пересекающихся группах ПН. (а) – нейроны с 1 по 53 (сверху вниз) сгруппированы в 10 групп по 8, нейроны 55–64 передают УС. (б) – схема связей в группах a и b, отмеченных на рис. 6 (а). (в, г) – динамика связей в ходе обучения. Пояснения в тексте.

Fig. 6. Elaboration of CR in intersected groups of PNs. (а) – neurons from 1 to 53 are combined in 10 groups of 8, neurons 55–64 broadcast CS. (б). The schema of inter neuronal links in a, b groups, marked on the figure 6 (а). (в, г) – the link’s weight dynamics in the course of training. More explanations in the text.

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

Представлена нейронная модель механизма выработки инструментального УР, мотивированная физиологическим пониманием. Ядром процесса выработки условной реакции приближения к внешнему источнику условного сигнала (“Pavlovian approach”) является Павловский дофаминовый УР (вполне аналогичный условному слюнному рефлексу), делающий источник УС “дофаминовым магнитом” (Berridge, 2007), побудительной причиной (“incentive”) движения (Павлов, 1923 (1973); Bolles, 1972; Хекхаузен, 2003; Berridge, 2007; Zellner, Ranaldi, 2010; Flagel et al., 2011; Ilango et al., 2014; Fanselow, Wassum, 2016; Майоров, 2018; Saunders et al., 2018). Движения во внутренней координатной системе схемы тела программируются по конечному положению (“end-point”) (Фельдман, 1979; Giszter et al., 1993; Graziano et al., 2002). В работе показано, что такой же механизм ассоциации между нейронами, программирующими движение к финальной позе, и дофаминовыми нейронами обеспечивает инструментализацию движений, вызванных стимуляцией двигательной коры. Здесь финальная поза движения становится “дофаминовым магнитом”, побудительной причиной движения. Прямые проекции к дофаминовым нейронам среднего мозга установлены из медиальной префронтальной (Sesack, Carr, 2002; Ballard et al., 2011; Lodge, 2011; Moreines et al., 2017) и двигательной коры (Watabe-Uchida et al., 2012).

Спонтанные вспышки активности ПН, если у них сформированы возбудительные связи с ДН, генерируются с большим разбросом латентных периодов относительно начала пробы, когда случайный шум активности в группе ПН и вызываемое им возбуждение ДН вместе достигнут критического уровня, достаточного для запуска регенеративного процесса. Другие группы ПН, если у них не сформированы возбудительные связи с ДН, не могут генерировать вспышку активности. Такие реакции слабо избирательны в отношении силы связи ПН с ДН – две группы ПН, сильно различающиеся по силе связи с ДН, не различаются по вероятности спонтанного возбуждения. Для избирательного возбуждения одной из групп ПН, одинаково связанных с ДН, достаточно небольшой затравки со стороны специфического для этой группы внешнего (обстановочного) сигнала.

Связи между ПН в модели изменяются в соответствии с правилом двунаправленной синаптической пластичности в условиях “дофаминовой” модуляции, необходимой для индукции пластичности, так же как для инициации и выполнения движения (Майоров, 1977; Tsai et al., 2009; Pawlak et al., 2010; Hong, Hikosaka, 2011; Lisman et al., 2011; Yagishita et al., 2014; He et al., 2015; Kim et al., 2015; Frémaux, Gerstner, 2016; Bittner et al., 2017). Дофамин регулирует синаптическую пластичность путем модуляции функции NMDA-рецепторов, в частности, активация D1R усиливает ток через NMDA-канал (Flores-Hernández et al., 2002; G. Chen, P. Greengard, Yan, 2004; Cepeda, Levine, 2006; Stewart, Plenz, 2006; Wang et al., 2015). В соответствии с правилами выработки инструментальных условных рефлексов, обучение модели (правильное изменение связей между ПН) критически зависит от ослабления модуляции (редукции “дофаминового драйва”) вскоре после достижения целевого состояния – некоторого критического уровня активности в целевой группе ПН. Дофаминовые нейроны реагируют редукцией “дофаминового драйва” в ответ на ожидаемую награду, каковой она является во время выработки привычки (Hamid et al., 2016; Mohebi et al., 2019; Roitman et al., 2004). В работе показан физиологический механизм “подкрепляющего” действия редукции драйва, предохраняющий от ослабления найденных правильных и от усиления ложных связей. Не будь редукции дофаминового драйва, долгое сохранение активности (NMDA-рецепторов) в коллатеральных связях после понижения мебранного потенциала нейронов-мишеней приводило бы к депрессии синаптической передачи (как на рис. 4 (б)). Хотя существование такого механизма в той или иной форме выглядит вполне правдоподобным (Pawlak et al., 2010; Lisman et al., 2011; Yagishita et al., 2014; He et al., 2015; Frémaux, Gerstner, 2016; Lisman, 2017), прямые доказательства отсутствуют. В частности, как заметила Н.Ю. Ивлиева (Институт ВНД и НФ РАН), не ясно, согласуется ли реальная динамика снижения NMDA- и дофаминовой активации с принятыми здесь допущениями. Возможность “редукции драйва” в том или ином виде выполнять функцию подкрепления также показана в работах (Shahaf, Marom, 2001; Sinapayen et al., 2017).

ЗАКЛЮЧЕНИЕ

Представлена нейронная модель механизма выработки инструментального УР, мотивированная исторически сложившимся физиологическим пониманием (Павлов, 1923 (1973); Конорски, 1970; Bolles, 1972; Rescorla, 1988; Хекхаузен, 2003; Yin, Knowlton, 2006; De Wit, Dickinson, 2009). Выработка инструментального условного рефлекса начинается с того, что цель движения (внешняя – рычаг или место в лабиринте, или внутренняя – поза) на основе Павловского ассоциативного механизма становится привлекательной или отталкивающей, приобретает побудительное значение (“incentive salience attribution” (Berridge, 2007)), движущей силой которого является “дофаминовый драйв”. Отдельный механизм для “склеивания” (“glue” (Walker, 1969)) связей на основе дофаминового подкрепления на этой стадии, может быть, и не нужен (Walker, 1969; Конорски, 1970; Хекхаузен, 2003; Robinson et al., 2005). “Если рассматривать классический условный рефлекс просто как частный случай ассоциации,…то можно прийти к выводу, что термин “подкрепление” является лишним… Термин “подкрепление”… употребляется в разном смысле в системе Павлова и в системе Халла…” (Конорски, 1970, с. 210–211).

При выполнении инструментального условного рефлекса функциями “одного окна” дофамина являются “активация центральной двигательной системы поведения” (Конорски, 1970) (‘oil in the machine’ (Wise, Koob, 2014)) и модуляция пластичности синаптических связей на основе дофаминовой модуляции NMDA-рецепторов (Cepeda, Levine, 2006; Chen et al., 2004; Flores-Hernández et al., 2002; Stewart, Plenz, 2006; Wang et al., 2015) для формирования привычки (“внутренний фактор подкрепления” (Анохин, 1970; Ашмарин и др., 2007; Майоров, 2018), “glue” (Walker, 1969)). Правильное изменение связей между нейронами критически зависит от редукции дофаминового драйва вскоре после достижения целевого состояния нейронной активности.

Благодарю Н.Ю. Ивлиеву (Институт ВНД и НФ РАН) и рецензентов журнала за труд внимательного прочтения рукописи и многочисленные полезные замечания как по существу, так и по форме представления работы.

Список литературы

  1. Анохин П.К. Предисловие к книге: Конорски Ю. Интегративная деятельность мозга. М. Изд-во “Мир”. 1970. 412 с.

  2. Ашмарин И.П., Ещенко Н.Д., Каразеева Е.П. Нейрохимия в таблицах и схемах. М. Изд-во “Экзамен”. 2007. 143 с.

  3. Конорски Ю. Интегративная деятельность мозга. М. Изд-во “Мир”. 1970. 412 с.

  4. Лис Э. Дж. По наставлениям сумасшедшего. Эксперимент Уильяма Берроуза. М. 2020. 255 с.

  5. Майоров В.И. Пластические свойства синаптической передачи как возможный механизм обучения. В кн.: Пластичность нервных клеток. М. Изд-во МГУ. 1977: 70–97.

  6. Майоров В.И. Функции дофамина в инструментальном условном рефлексе. Журнал высшей нервной деятельности им. И.П. Павлова. 2018. 68 (4): 404–414.

  7. Павлов И.П. Физиологический механизм так называемых произвольных движений. В кн.: Двадцатилетний опыт объективного изучения высшей нервной деятельности (поведения) животных. М. Изд-во “Наука”. 1973: 481–485.

  8. Фельдман А.Г. Центральные и рефлекторные механизмы управления движениями. 1979. М.: “Наука”. 184 с.

  9. Хекхаузен Х. Мотивация и деятельность. 2003. СПб.: “Питер”. М.: “Смысл”. 859 с.

  10. Ballard I.C., Murty V.P., Carter R.M., MacInnes J.J., Huettel S.A., Adcock R.A. Dorsolateral prefrontal cortex drives mesolimbic dopaminergic regions to initiate motivated behavior. J. Neurosci., 2011. 31 (28): 10340–10346.

  11. Berridge K.C. The debate over dopamine’s role in reward: the case for incentive salience. Psychopharmacology. 2007. 191: 391–431.

  12. Bittner K.C., Milstein A.D., Grienberger C., Romani S., Magee J.C. Behavioral time scale synaptic plasticity underlies CA1 place fields. Science. 2017. 357: 1033–1036.

  13. Bolles R.C. Reinforcement, expectancy, and learning. Psychological Review. 1972. 79 (5): 394–409.

  14. Cepeda C., Levine M.S. Where do you think you are going? The NMDA-D1 receptor trap. Science’s stke. 2006: 1–5.

  15. Chen G., Greengard P., Yan Z. Potentiation of NMDA receptor currents by dopamine D1 receptors in prefrontal cortex. PNAS. 2004. 101 (8): 2596–2600.

  16. De Wit S., Dickinson A. Associative theories of goal-directed behavior: A case for animal-human translational models. Psychological Research (2009) 73 (4): 463–476.

  17. Fanselow M.S.,Wassum K.M. The origins and organization of vertebrate Pavlovian conditioning. 2016. Cold Spring Harb Perspect Biol. 2016. 8: a021717.

  18. Flagel S.B., Clark J.J., Robinson T.E., Mayo L., Czuj A., Willuhn I., Akers C.A., Clinton S.M., Phillips P.E., Akil H. A selective role for dopamine in stimulus-reward learning. Nature. 2011. 469 (7328): 53–57.

  19. Flores-Hernández J., Cepeda K., Hernández-Echeagaray E., Calvert C.R., Jokel E.S., Fienberg A.A., Greengard P., Levine M.S. Dopamine Enhancement of NMDA Currents in Dissociated Medium-Sized Striatal Neurons: Role of D1 Receptors and DARPP-32. J. Neurophysiol. 2002. 88: 3010–3020.

  20. Frémaux N., Gerstner W. Neuromodulated spike-timing-dependent plasticity, and theory of three-factor learning rules. Frontiers in Neural Circuits. 2016. 9 (85): 1–19.

  21. Giszter S.F., Mussa-lvaldi F.A., Emilio Bizzi E. Convergent Force Fields Organized in the Frog’s Spinal Cord. J. Neurosci. 1993. 73 (2): 467–491.

  22. Glimcher P.W. Understanding dopamine and reinforcement learning – the dopamine reward prediction error hypothesis. Proc Natl Acad Sci U S A. 2011. 108 (Suppl 3): 15647–54.

  23. Graziano M.S.A., Taylor C.S.R., Moore T. Complex Movements Evoked by Microstimulation of Precentral Cortex. Neuron. 2002. 34 (5): 841–851.

  24. Hamid A.A., Pettibone J.R., Mabrouk O.S., Hetrick V.L., Schmidt R., Vander Weele C.M., Kennedy R.T., Aragona B.J., Berke J.D. Mesolimbic dopamine signals the value of work. Nat Neurosci. 2016. 19 (1):117–126.

  25. He K., Huertas M., Hong S.Z., Tie X.X., Hell J.W, Shouval H., Kirkwood A. Distinct Eligibility Traces for LTP and LTD in Cortical Synapses. Neuron. 2015. 88: 1–11.

  26. Hong S., Hikosaka O. Dopamine-mediated learning and switching in cortico-striatal circuit explain behavioral changes in reinforcement learning. Front. Behav. Neurosci. 2011. 5 (15): 1–17.

  27. Ilango A., Kesner A.J., Broker C.J., Wang D.V., Ikemoto S. Phasic excitation of ventral tegmental dopamine neurons potentiates the initiation of conditioned approach behavior: parametric and reinforcement-schedule analyses. Front. Behav. Neurosci. 2014. 8 (155): 1–13.

  28. Kim H.F., Ghazizadeh A., Hikosaka O. Dopamine Neurons Encoding Long-Term Memory of Object Value for Habitual Behavior. Cell. 2015. 163: 1165–1175.

  29. Lisman J. Glutamatergic synapses are structurally and biochemically complex because of multiple plasticity processes: long-term potentiation, long-term depression, short-term potentiation and scaling. Philos. Trans. R. Soc. Lond. B. Biol. Sci. 2017. 372: 1–11.

  30. Lisman J., Grace A.A., Duzel E. A neoHebbian framework for episodic memory; role of dopamine-dependent late LTP. Trends Neurosci. 2011. 34 (10): 536–547.

  31. Lodge D.J. The Medial Prefrontal and Orbitofrontal Cortices Differentially Regulate Dopamine System Function. Neuropsychopharmacology. 2011. 36: 1227–1236.

  32. Mohebi A., Pettibone J.R., Hamid A.A., Wong J.T., Vinson L.T., Patriarchi T., Tian L., Kennedy R.T., Berke J.D. Dissociable dopamine dynamics for learning and motivation. Nature. 2019. 570 (7759): 65–70.

  33. Moreines J.L., Owrutsky Z.L., Grace A.A. Involvement of Infralimbic Prefrontal Cortex but not Lateral Habenula in Dopamine Attenuation after Stress. Neuropsychopharmacology. 2017. 42: 904–913.

  34. Pawlak V., Wickens J.R., Kirkwood A., Kerr J.D. Timing is not everything: neuromodulation opens the STDP gate. Frontiers in Synaptic Neuroscience. 2010. 2: Article 146.

  35. Rescorla R.A. Pavlovian conditioning. It’s not what you think it is. Am. Psychol. 1988. 43 (3): 151–160.

  36. Robinson S., Sandstrom S.M., Denenberg V.H., Palmiter R.D. Distinguishing Whether Dopamine Regulates Liking, Wanting, and/or Learning About Rewards. Behav. Neurosci. 2005. 119 (1): 5–15.

  37. Roitman M.F., Stuber G.D., Phillips P.E., Wightman R.M., Carelli R.M. Dopamine operates as a subsecond modulator of food seeking. J Neurosci. 2004. 24 (6):1265–1271.

  38. Saunders B.T., Richard J.M., Margolis E.B., Janak P.H. Dopamine neurons create Pavlovian conditioned stimuli with circuit-defined motivational properties. Nature Neuroscience. 2018. 21: 1072–1083.

  39. Schultz W., Stauffer W.R., Lak A. The phasic dopamine signal maturing: from reward via behavioural activation to formal economic utility. Curr. Opin. Neurobiol. 2017. 43: 139–148.

  40. Sesack S.R., Carr D.B. Selective prefrontal cortex inputs to dopamine cells: implications for schizophrenia. Physiology & Behavior. 2002. 77: 513–517.

  41. Shahaf G., Marom S. Learning in networks of cortical neurons. J. Neurosci. 2001. 21 (22): 8782–8788.

  42. Shouval H.Z., Wang S.S.-H., Wittenberg G.M. Spike timing dependent plasticity: a consequence of more fundamental learning rules. Frontiers in Computational Neuroscience. 2010. Vol. 4. Article 19. P. 1–13.

  43. Sinapayen L., Masumori A., Ikegami T. Learning by stimulation avoidance: A principle to control spiking neural networks dynamics. PLoS One. 2017. 12 (2): e0170388.

  44. Stewart C.V., Plenz D. Inverted-U profile of dopamine-NMDA – mediated spontaneous avalanche recurrence in superficial layers of rat prefrontal cortex. The Journal of Neuroscience. 2006. 26 (31): 8148–8159.

  45. Tsai H.C., Zhang F., Adamantidis A., Stuber G.D., Bonci A., de Lecea L., Deisseroth K. Phasic firing in dopaminergic neurons is sufficient for behavioral conditioning. Science. 2009. 324: 1080–1084.

  46. Waelti P., Dickinson A., Schultz W. Dopamine responses comply with basic assumptions of formal learning theory. Nature. 2001. 412 (6842): 43–48.

  47. Walker E.L. Reinforcement – The one ring. In J.T. Trapp (Ed.), Reinforcement and behavior (pp. 47–62). New York: Academic Press, 1969. (цит. по Хекхаузен, 2003).

  48. Wang S., Liao C., Meng W., Huang Q., Li D. Activation of D1-like dopamine receptors increases the NMDA-induced gain modulation through a PKA-dependent pathway in the premotor nucleus of adult zebra finches. Neuroscience Letters. 2015. 589: 37–41.

  49. Watabe-Uchida M., Eshel N., Uchida N. Neural circuitry of reward prediction error. Annu. Rev. Neurosci. 2017. 40: 373–394.

  50. Watabe-Uchida M., Zhu L., Ogawa S.K., Vamanrao A., Uchida N. Whole-brain mapping of direct inputs to midbrain dopamine neurons. Neuron. 2012. 74 (5): 858–73.

  51. Wise R.A., Koob G.F. The development and maintenance of drug addiction. Neuropsychopharmacology. 2014. 39: 254–262.

  52. Yagishita S., Hayashi-Takagi A., Ellis-Davies G.S.R., Urakubo H., Ishii S., Kasai H. A critical time window for dopamine actions on the structural plasticity of dendritic spines. Science. 2014. 345 (6204): 1616–1620.

  53. Yin H.H., Knowlton B.J. The role of the basal ganglia in habit formation. Nat. Rev. Neurosci. 2006. 7 (6): 464–476.

  54. Zellner M.R., Ranaldi R. How conditioned stimuli acquire the ability to activate VTA dopamine cells: A proposed neurobiological component of reward-related learning. Neurosci. Biobehav. Rev. 2010. 34 (5): 769–780.

Дополнительные материалы отсутствуют.