Журнал высшей нервной деятельности им. И.П. Павлова, 2022, T. 72, № 5, стр. 678-689
Транскраниальная электростимуляция постоянным током модулирует компонент негативности результата действия в монетарной игре
А. А. Горин 1, 2, *, В. А. Ключников 1, И. И. Дутов 1, В. В. Моисеева 1, В. А. Ключарев 1, А. Н. Шестакова 1
1 Институт когнитивных нейронаук, Национальный исследовательский университет
Высшая школа экономики
Москва, Россия
2 Центр нейробиологии и нейрореабилитации имени В. Зельмана,
Сколковский институт науки и технологий
Москва, Россия
* E-mail: gorinspbu@gmail.com
Поступила в редакцию 15.03.2022
После доработки 10.05.2022
Принята к публикации 27.06.2022
- EDN: RPXSMP
- DOI: 10.31857/S0044467722050069
Аннотация
Настоящее исследование было направлено на изучение нейрофизиологических эффектов транскраниальной стимуляции постоянным электрическим током (tDCS) в отношении компонента вызванных потенциалов, называемого “негативность результата действия” (feedback-related negativity, FRN). Испытуемые выполняли задачу на отложенное денежное подкрепление, во время которой пытались избежать денежных потерь различной величины. Мы сравнили амплитуду FRN в ответ на информацию о денежной потере в контрольной группе с группой, получавшей катодную стимуляцию вентромедиальной префронтальной коры. Основываясь на имеющихся в литературе данных, мы предположили, что катодная tDCS будет подавлять амплитуду компонента FRN. Вопреки нашей гипотезе, величина компонента в группе стимуляции была значимо выше, чем в контрольной группе. Данные результаты могут служить как дополнительным свидетельством усиливающего действия катодной tDCS, так и привести к предположению о том, что нейросети, участвующие в генерации сигнала при обработке денежной потери, отличаются от таковых при игре, не связанной с денежным вознаграждением.
Глоссарий:
ERN – error related negativity, негативность, связанная с ошибкой
FRN – feedback-related negativity, негативность результата действия
MID – monetary incentive delay task, задача на отложенное денежное подкрепление
MMN – mismatch negativity, негативность рассогласования
RewP – reward positivity, связанная с наградой позитивность
RPE – reward prediction error, ошибка предсказания подкрепления
tDCS – transcranial direct current stimulation, транскраниальная стимуляция постоянным током
ВП – вызванный потенциал
ОЦ – ожидаемая ценность
ТЭС – транскраниальная электростимуляция
фМРТ – функциональная магнитно-резонансная томография
ЭОГ – электроокулограмма
ЭЭГ – электроэнцефалограмма
ВВЕДЕНИЕ
Обучение с подкреплением является одним из основных механизмов адаптации организма к меняющейся окружающей среде. Реакция на обратную связь является важнейшим элементом обучения, а изучение нейрональных механизмов, связанных с обработкой обратной связи, в последнее время оказалось в фокусе исследований о принятии решений человеком, во многом благодаря развитию неинвазивных технологий и искусственного интеллекта (теория обучения с подкреплением, позволившая транслировать выдающиеся результаты, полученные на животных моделях (Glimcher, 2003), на поведение человека). Для исследований в области нейроэкономики изучение физиологических данных, связанных с обработкой ошибок предсказания, величины подкрепления и адаптации поведения являются исключительно важными. Получение новой информации о биологии принятия решений позволяет прийти к оптимизации и построению новых математических моделей поведения и приблизиться к пониманию фундаментальных механизмов, определяющих экономическое поведение человека.
Для того чтобы связать изменения в поведении с данными о работе мозга, используются различные неинвазивные методы, наиболее распространенными среди которых являются функциональная магнитно-резонансная томография (фМРТ) и электроэнцефалография (ЭЭГ). В исследованиях ЭЭГ, посвященных обработке результата действия, реакция на обратную связь связывается с компонентом вызванных потенциалов (ВП), который называют негативностью результата действия (feedback-related negativity, FRN). FRN манифестирует примерно через 200 мс после предъявления негативной обратной связи: в пробах с неудачным результатом негативное отклонение ВП существенно выше, чем в успешных (Gehring, Willoughby, 2002; Miltner et al., 1997; Potts et al., 2006; Ruchsow et al., 2002; Nieuwenhuis et al., 2005; Zhou et al., 2010). Данный компонент ВП часто интерпретируют как коррелят сигнала о необходимости скорректировать поведение и связывают с влиянием на структуры стриатума, отвечающие за подкрепление (для обзора см. (Krigolson, 2018; Glazier et al., 2018)).
Среди множества экспериментальных задач (часто – экономических игр), используемых в нейробиологических исследованиях принятия решений человеком, задача на отложенное денежное подкрепление (англ. monetary incentive delay task, MID) является широко используемой парадигмой. С ее помощью изучаются нейрональные механизмы, обеспечивающие ассоциацию “стимул-подкрепление”. Первоначально MID-задача была описана в исследованиях обработки выигрышей и потерь с помощью фМРТ (Knutson et al., 2000). В последующих исследованиях методами с более высоким временным разрешением (ЭЭГ и МЭГ) MID-задача использовалась для изучения динамики обработки вознаграждения (Broyd et al., 2012; Doñamayor et al., 2012; Thomas et al., 2013). Данная парадигма подразумевает использование стимулов, которые кодируют как величину, так и вероятность предполагаемого подкрепления, и позволяет исследовать влияние этих компонентов ожидаемой ценности (ОЦ) на нейронную активность, связанную с обработкой как самих стимулов, так и обратной связи (Knutson et al., 2005). В первоначальном исследовании с использованием фМРТ (Knutson et al., 2000) зрительный стимул предсказывал вероятность и величину денежной выгоды, то есть кодировал ожидаемую ценность, связанную с конкретным изображением. Результаты исследования показали, что прилежащее ядро активировалось пропорционально ОЦ в ответ на предъявление соответствующего изображения, что свидетельствует о быстром появлении связи между стимулом и денежным подкреплением. Дальнейшие исследования с использованием метода ЭЭГ, где определенное денежное подкрепление было связано со звуковыми стимулами, показали, что во время MID-задачи FRN, который является кандидатом на роль нейрофизиологического коррелята сигнала ошибки предсказания вознаграждения (reward prediction error, RPE), мог наблюдаться как в игре на избегание денежных потерь, так и в игре на увеличение приобретений (Walsh, Anderson, 2012; Sambrook, Goslin, 2014).
Более того, ЭЭГ-результаты, продемонстрированные нами в ранее опубликованных работах, показали, что амплитуда этого компонента ВП была чувствительна к вероятности и величине вознаграждения в версии задачи, ориентированной на получение прибыли, и к величине денежных потерь в версии MID-задачи, направленной на предотвращение денежных потерь (Krugliakova et al., 2018; Gorin et al., 2020).
В серии исследований, проведенных нашей группой, было установлено, что ассоциация ранее нейтрального звукового стимула с конкретной ОЦ вызывает изменения компонентов ВП, наблюдаемых в пассивной “оддболл-задаче” (англ. oddball – странный мяч; (Näätänen et al., 2004)), где респонденты не реагируют на стимулы, слушая ряды звуковых сигналов. Выполнение MID-задачи на избегание потерь и установление ассоциации между ранее нейтральными звуковыми стимулами и определенной суммой потерь приводили к пластическим изменениям слуховой коры, что отражалось в росте негативности рассогласования (англ. mismatch-negativity, MMN), компонента слуховых вызванных потенциалов (ВП), наблюдаемого во время оддболл-задачи (Garrido et al., 2008; Näätänen et al., 2004). Кроме того, было установлено, что на индивидуальном уровне такие изменения амплитуды MMN коррелировали с чувствительностью компонента FRN к величинам потерь (Krugliakova et al., 2019; Gorin et al., 2020). Однако такая корреляция не может прямо указать на наличие причинно-следственной связи между пластичностью сенсорной коры и активностью областей, обрабатывающих обратную связь.
С другой стороны, неинвазивные методы стимуляции мозга, такие как транскраниальная электрическая или магнитная стимуляции (ТЭС и ТМС соответственно), известны как подходы, которые могут напрямую влиять на активность коры головного мозга, что дает исследователям возможность относительно избирательной модуляции фоновой возбудимости коры (Been et al., 2007; Hanley et al., 2016; Boroda et al., 2020; Rahimi et al., 2019; Gordon et al., 2018; Matsushita et al., 2021; Noreika et al., 2020; Schaworonkow et al., 2019). Такой подход был использован в комбинированном ТЭС-ЭЭГ-исследовании (Reinhart, Woodman, 2014), посвященном изучению изменений амплитуды компонента негативности, связанного с ошибкой (англ. error-related negativity, ERN), который наблюдается вскоре после совершения ошибочного действия (Falkenstein et al., 1990), и компонента, связанного с обработкой негативной обратной связи, проявляющегося вскоре после появления информации о результате действия (Miltner et al., 1997), негативности результата действия (англ. feedback-related negativity, FRN). Исследователи показали, что с помощью ТЭС постоянным током (англ. transcranial direct current stimulation, tDCS) возможно воздействовать на источники ERN и FRN. Предполагается, что источники электрической активности, генерирующие эти компоненты, лежат в медиальной префронтальной коре и отражают вовлечение механизмов контроля исполнительных функций, отвечающих за распознавание ошибки (Gehring et al., 1993, 2012) и, в общем и целом, обеспечивающих обучение с подкреплением (Holroyd, Coles, 2002; Alexander, Brown, 2011). Исследователи установили, что анодная tDCS усиливает, тогда как катодная tDCS подавляет величину вызванных ответов как в компоненте ERN, так и в FRN по сравнению с фиктивной (плацебо) стимуляцией (Reinhart, Woodman, 2014). Наличие способа эффективно и избирательно модулировать ответ корковых структур, генерирующих FRN, открывает возможность к изучению причинно-следственных связей между чувствительностью данного компонента к величине ОЦ и пластическими изменениями в компоненте НР, которые наша группа наблюдала в предыдущих экспериментах. Однако необходимо принимать во внимание, что исследований, посвященных влиянию tDCS на амплитуду FRN, весьма немного, а парадигмы, которые в них используются, до сих пор не позволяли изучать нейробиологические механизмы денежного подкрепления. Таким образом, перед тем как проводить исследование, направленное на изучение причинно-следственных связей между изменениями MMN и свойствами FRN, было принято решение проверить эффективность влияния tDCS на амплитуду FRN в контексте MID-задачи. Чтобы оценить влияние tDCS на амплитуду FRN, мы воспроизвели монтаж стимуляции, описанный в (Reinhart, Woodman, 2014), и использовали катодную tDCS для модуляции величины FRN в версии задачи MID для предотвращения потерь (Gorin et al., 2020).
Данное исследование посвящено изучению tDCS-модуляции амплитуды компонента FRN во время выполнения MID-задачи, где в качестве негативного подкрепления использовались денежные потери. Мы предположили, что эффект катодной tDCS будет отражаться в значительном подавлении амплитуды FRN по сравнению с плацебо-стимуляцией. Результаты этого исследования могут открыть перспективу для более подробного изучения механизмов сенсорной пластичности в результате ассоциации стимулов и денежных результатов.
МЕТОДИКА
В эксперименте приняли участие 30 здоровых правшей (18 женщин в возрасте 23 ± 2 года). Половина участников сформировала группу катодной стимуляции (из них 10 женщин), тогда как другая получила фиктивную (плацебо) стимуляцию (из них 8 женщин). Все испытуемые имели нормальное или скорректированное до нормального зрение и перед экспериментом прочитали и подписали информированное согласие. Исследование было одобрено комитетом НИУ ВШЭ по этике.
Во время MID-задания участников просили как можно быстрее нажимать кнопку (одинаковую для всех условий), когда в центре экрана на короткое время появлялась мишень (белый квадрат). После задержки они получали обратную связь: если испытание прошло успешно, на экране появлялась зеленая цифра “0”; в противном случае программа информировала участников о сумме, которую они потеряли (например, 50). Денежное подкрепление кодировалось звуковым сигналом, который предшествовал появлению цели на 2000–2500 мс. Выполнение задания считалось успешным, если кнопка была нажата до того, как цель исчезла. Вероятностью исхода управляли, регулируя длительность целевого стимула с помощью адаптивного алгоритма, который следовал за результатами участников таким образом, чтобы для каждого типа испытаний они преуспели в 60% случаев, таким образом, для каждого звука набиралось 60 ± 5 эпох с успешными исходами и 40 ± 5 с неудачными (подобный подход использовался в оригинальном исследовании (Knutson et al., 2000)). Чтобы обнаружить изменения в ответах коры головного мозга, связанных с ожидаемым подкреплением, мы организовали три различных контекста игры: малые, большие и сильно различающиеся потери (МП, БП, СРП соответственно), когда можно было потерять 1 или 2, 50 или 51 и 1 или 50 рублей соответственно. Задача была разбита на шесть блоков, по два блока на каждый. В каждом блоке использовались только два стимула и два соответствующих им денежных подкрепления. Если участник нажимал кнопку несколько раз или нажимал кнопку до появления цели, экран обратной связи возвращал изображение трех восклицательных знаков “!!!” красного цвета, что указывало на ошибку в выполнении задачи. Впоследствии данная проба не считалась завершенной и повторялась во время игры, чтобы сохранить соотношение в 50 проб на стимул. Перед MID-сессией участники получали сумму денег в размере 4000 рублей. Их инструктировали, что они могут потерять часть этих денег во время игры, а их компенсация за участие зависит от оставшейся суммы. Важно отметить, что шесть слуховых стимулов (325, 381, 440, 502, 568 и 637 Гц) составляли три пары стимулирующих сигналов, которые предсказывали низкие и высокие потери: –1 или –2, −50 или –51, –1 или –50 рублей (МП, БП, СРП соответственно). Таким образом, в МП- и ВП-контекстах разница между исходами равнялась 1 рубль, что не имело значения в контексте начальной суммы (4000 рублей), тогда как в СРП-контексте разница между исходами составляла 49 рублей. Следовательно, участники были более мотивированы различать сигналы для максимизации денежных результатов в контексте СРП. Этот дизайн позволил нам отделить влияние контекста игры от влияния размера подкрепления. Каждая пара звуковых подсказок была случайным образом представлена в блоках из 50 испытаний. В целом каждая сессия MID-задачи состояла из шести блоков, так что каждый из трех типов контекста появлялся дважды в ходе эксперимента. Размер выборки был слишком мал для полной рандомизации, поэтому мы уравновешивали акустическое соответствие стимула и результата, используя шесть основных комбинаций (см. дополнительные материалы, табл. 1 ). Таким образом, сопоставление сигнал-результат между более низкой/высокой частотой и более низкой/высокой величиной результата было уравновешено среди участников (подробнее см. сопровождающие материалы). Длительность предъявления первого целевого стимула в основном эксперименте была основана на среднем времени реакции в коротком предварительном тесте, когда участники быстро реагировали на ту же мишень, которая появлялась в центре экрана в течение 400 мс. Каждому блоку предшествовала обучающая часть, где участники ассоциировали слуховые сигналы с денежными результатами. На экране выводились два числа, обозначающих размер потерь в данном блоке. После звукового сигнала они выбирали соответствующую сумму с помощью одной из двух кнопок (стрелки влево и вправо) и получали обратную связь. Если участник был успешен в последних 8 из 10 испытаний, обучение прекращалось и запускалась MID-задача. Электростимуляция проводилась заранее, до обучения и собственно монетарной игры (схемы, иллюстрирующие особенности проведения эксперимента, представлены в дополнительных материалах).
tDCS
tDCS проводили с помощью электростимулятора StarStim и пары проводящих резиновых электродов. Прямоугольные электроды помещали в пропитанные физиологическим раствором синтетические губки (активный электрод, 19.25 см2; референтный, 52 см2) и фиксировали в нужных позициях с помощью шапочки и бандажа. Положения электродов были аналогичны работе Рейнхарта и Вудмана (Reinhart, Woodman, 2014). Активный электрод помещали в положение FCz по системе 10–10; референт располагался на щеке, слева или справа (одинаковое количество раз для каждой группы; модель распределения тока см. в дополнительных материалах). Сила тока составляла 1 мА; продолжительность эффекта была увеличена с помощью модифицированного паттерна tDCS: 9 минут стимуляции – 3 минуты отдыха – 9 минут стимуляции, чтобы гарантировать, что постэффект стимуляции будет длиться в течение всей MID-задачи (Monte-Silva et al., 2010).
ЭЭГ
Регистрация ЭЭГ осуществлялась с использованием системы BrainProducts ActiChamp с 60 активными электродами, расположенными в соответствии с расширенной версией системы 10–20. Активные электроды реферировали к усредненному сигналу от пары электродов, расположенных на сосцевидных отростках. Электроокулограмму (ЭОГ) регистрировали с помощью электродов, расположенных под правым глазом и на левой скуле, таким образом, получая 2 канала, содержащих информацию о горизонтальных и вертикальных движениях глаз. Заземляющий электрод располагался в позиции Fpz. Импеданс электродов перед началом записи поддерживался на уровне ниже 5 кОм. Мы провели анализ ЭЭГ с помощью программного обеспечения Brainstorm (Tadel et al., 2004). Сначала записи были визуально проверены на наличие артефактов. Шумные сегменты исключались из дальнейшего анализа. Затем данные ЭЭГ фильтровались в диапазоне от 1 до 40 Гц. Чтобы скорректировать артефакты движения глаз, мы использовали анализ независимых компонент JADE (ICA). Компоненты движения глаз удалялись в соответствии с их топографией и корреляцией с ЭОГ. После предварительной обработки мы импортировали эпохи от −200 до 800 мс с поправкой на базовую линию (от −100 до 0 мс), привязанные к появлению обратной связи. Полученные эпохи сортировались по значению звуковой подсказки и результату пробы, то есть на каждый тип звуковой подсказки приходилось два варианта – положительный (60 ± 5 эпох) и негативный (40 ± 5 эпох) исход. Для получения индивидуальных ВП эпохи усреднялись согласно типу пробы.
Статистическая обработка
Мы сравнили разностные ВП (проигрыш минус выигрыш) между экспериментальной и плацебо группами попарно для каждого типа денежных потерь, фокусируясь на временном окне 200–300 мс. Для получения общей картины мы также сравнили усредненные по состояниям ВП между группами. В обоих случаях проводилась серия парных перестановочных тестов на всех электродах. Результаты были скорректированы на множественные сравнения методом контроля ожидаемой доли ложных отклонений гипотез (false discovery rate, FDR).
Для проверки влияния других факторов на FRN мы усреднили сигнал, наблюдаемый на отведении Cz во временном окне 200–260 мс (согласно Gorin et al., 2020). Влияние стимуляции на результаты измерений амплитуд ВП в зависимости от условий и контекста экспериментальной задачи оценивалось методом дисперсионного анализа с факторами Стимуляция (катодная или плацебо), Контекст (МП, БП или СРП) и Величина потерь (меньшая или большая). Дисперсионный анализ был выполнен в программном обеспечении STATISTICA 12.
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ
Для получения общей картины мы также сравнили усредненные по состояниям ВП между двумя группами (FRN выражен существенно больше у группы, получавшей стимуляцию, см. рис. 1). На рис. 1 (слева) представлены кривые ВП для двух групп, усредненные по условиям стимуляции, и разница между ними. На правой панели представлена изопотенциальная карта разностного ВП, латентность 230 мс. Видно, что амплитуда FRN существенно выше у группы, получившей катодную стимуляцию. Распределение поля для разностной кривой демонстрирует фронто-центральную выраженность компонента, характерную для FRN. Далее мы сравнили разностные ВП (проигрыш минус выигрыш) между экспериментальной и плацебо группами попарно для каждого типа денежных потерь, фокусируясь на временном окне 200–300 мс. Статистический анализ показал, что компонент FRN был значительно более выражен в группе, получавшей стимуляцию, по сравнению с плацебо-группой в контексте СРП, в следующих временных интервалах: 200–270 мс, меньшая сумма; 200–260 мс, большая сумма (см. рис. 2), а также в контексте БП, меньшая сумма (220–242 мс). Результаты были скорректированы на множественные сравнения методом FDR (false discovery rate).
Для проверки влияния других факторов на FRN мы усреднили сигнал, наблюдаемый на отведении Cz во временном окне 200–260 мс (согласно (Gorin et al., 2020)), и использовали дисперсионный анализ с факторами Стимуляция (катодная или плацебо), Контекст (МП, БП или СРП) и Величина потерь (меньшая или большая). Анализ выявил значимый эффект Стимуляции (F (2, 28) = 6.99, p = 0.013, η2p = 0.2), где катодная стимуляция приводила к значительно более выраженному сигналу FRN, чем ложная (3.24 и −1.03 мкВ соответственно; см. рис. 2, 3). Влияние факторов Контекст и Величина потерь было незначимым, равно как и их взаимодействие (p > 0.13) (рис. 3).
ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ
Настоящее исследование было посвящено проверке гипотезы о том, что катодная стимуляция постоянным током префронтальной коры приведет к подавлению амплитуды FRN в задаче на отложенное денежное вознаграждение. В предыдущих исследованиях с использованием ЭЭГ мы показали, что эта нейроэкономическая задача вызывает пластические изменения в слуховой коре для звуков, кодирующих большие потери в контексте малых (Gorin et al., 2021). Вопреки первоначальной гипотезе о том, что катодная стимуляция вызывает ослабление FRN, в нашем исследовании катодная стимуляция способствовала значительно более выраженному FRN-сигналу по сравнению с плацебо: амплитуда FRN у группы, получившей катодную стимуляцию, была на 2.2 мкВ выше, нежели в контрольном условии (плацебо-стимуляция). Таким образом, результат действия катодной tDCS оказался прямо противоположным тому, который наблюдали в своей работе Reinhart и Woodman (2014). Напомним, что Reinhart и Woodman установили, что анодная tDCS усиливает, тогда как катодная tDCS подавляет величину вызванных ответов как в компонентах ERN, так и в FRN (по сравнению с плацебо). Тем не менее, наши данные подтверждают, что транскраниальная электростимуляция позволяет эффективно влиять на вызванную активность, ассоциированную с обработкой обратной связи в игре с отложенным денежным подкреплением.
Рассогласование полученных результатов с первоначальной гипотезой и данными литературы может быть трактовано несколькими путями. Как неоднократно отмечается в литературе (см. обзор (Miniussi et al., 2013)), постулирование полярности эффектов катодной и анодной ТЭС – облегчающей и подавляющей соответственно – справедливо только для моторной системы (Nitsche et al., 2008). Для других типов заданий, к примеру, когнитивных или нейроэкономических, эффекты ТЭС, как катодной, так и анодной, являются нестабильными, могут менять знак воздействия или не проявляться вовсе. Волатильности эффектов ТЭС посвящена работа (Wiethoff et al., 2014), в которой был проведен и описан эксперимент, направленный на выявление индивидуальных различий в чувствительности к tDCS, позволяющий сделать заключение о подобной специфике метода: например, в 21% случаев анодная стимуляция приводила к ингибированию, тогда как катодная – к усилению моторных вызванных потенциалов, а в 38% случаев эффект усиления был продемонстрирован независимо от типа стимуляции. Еще ранее Миниусси (Miniussi et al., 2013) отмечает невозможность однозначной интерпретации модуляции поведенческих эффектов когнитивных задач под воздействием ТЭС исключительно с точки зрения нейрофизиологических процессов, протекающих на мембранах нервных клеток, приводящих к эффектам нейромодуляции, но не потенциала действия, как в ТМС. Миниусси пишет о том, что в случае ТЭC точнее говорить о катодной стимуляции как о фильтре, уменьшающем шум, по аналогии с процессами латерального ингибирования, подавляющего неспецифическую для задачи активность и выделяющую специфическую. К примеру, было показано, что направление ТЭС-индуцированного изменения поведения в задаче на зрительно-моторную координацию было связано со стадией обучения – эффект анодной фасилитации проявлялся только на ранней стадии обучения, на поздней же катодная стимуляция оказывала аналогичный эффект (Аntal et al., 2004). Аналогично, реверсия направления эффекта наблюдалась и в когнитивных задачах, как, например, в исследовании (Dockery et al., 2009), в зависимости от стадии обучения.
В этой связи необходимо напомнить, что в своей парадигме мы использовали модифицированный протокол стимуляции, который основан на данных, полученных в эксперименте (Monte-Silva et al., 2010), который показал пролонгированный эффект катодной стимуляции моторной коры в том случае, если стимуляция состоит из двух блоков с небольшой паузой между ними. Несмотря на возможность того, что причина различий может заключаться в особенностях самого протокола, необходимо принять во внимание, что парадигма, в которой были получены наши данные, существенно отличается от эксперимента Рейнхарта и Вудмана (Reinhart, Woodman, 2014), в котором была использована игра, не связанная с денежным подкреплением. Кроме того, в отличие от наиболее распространенных версий монетарных игр, где респонденты выигрывают или не выигрывают некоторую сумму, в нашем эксперименте использовалась пара подкреплений “проигрыш – отсутствие проигрыша”, что также могло повлиять на результат. Кроме того, важно учитывать тот факт, что компонент FRN является производным от вычитания ВП на положительное подкрепление из ВП на отрицательное подкрепление. В этой связи в литературе долгое время ведется дискуссия о том, что этот компонент вызванной активности является более положительным в случае положительной же обратной связи и описывается, таким образом, как связанная с наградой позитивность (reward positivity, RewP; Holroyd et al., 2008; Baker, Holroyd, 2011; Carlson et al., 2011; Walsh, Anderson, 2012). Несмотря на то, что обозначения FRN и RewP часто используются в литературе как синонимичные, некоторая разница между ними есть в топографии распределения: RewP проецируется более центрально, чем FRN (Holroyd et al., 2011; Holroyd et al., 2008). Анализ источников дает основание предположить, что помимо передней части поясной извилины, являющейся общим генератором для компонентов, в генерацию RewP дополнительно вовлечены области стриатума, связанные с обработкой вознаграждения (Carlson et al., 2015; Foti et al., 2014), что подтверждается и данными эксперимента с использованием комбинированного ЭЭГ-фМРТ-подхода (Becker et al., 2014). Таким образом, результаты, полученные нами в игре на проигрыш, должны сравниваться с прочими результатами, полученными в исследованиях, где использовались задания на выигрыш, с осторожностью. В будущем представляется важным подробнее исследовать разницу ТЭС-стимуляции (катодной или анодной) между двумя типами обратной связи: потерями и выигрышами.
Кроме того, латентность FRN/RewP такова, что этот компонент практически неизбежно смешивается с более поздним компонентом P3, который также чувствителен к типу и свойствам обратной связи, демонстрируя более высокую амплитуду при получении вознаграждения и при появлении редких исходов игры (San Martín, 2012; Hajcak et al., 2007; Watts et al., 2017); P3 чувствителен как к потерям, так и к выигрышам, что было показано в разнообразных экспериментальных контекстах (Goyer et al., 2008; Wu, Zhou, 2009; Zhou et al., 2010; Hajcak et al., 2005, 2007). В нашем исследовании мы сфокусировались на относительно раннем окне при анализе данных, тогда как пиковые различия, описанные в предшествующем исследовании (Reinhart and Woodman, 2014), приходятся на относительно более поздний период ВП.
Стоит отметить, что в нашем исследовании испытуемые не обучались давать верный ответ на верный стимул, то есть парадигма была нацелена на ассоциацию стимула-подсказки с денежным подкреплением, но не на построение наиболее выигрышной линии поведения. В исследовании Рейнхарта и Вудмана (Reinhart, Woodman, 2014) испытуемые, напротив, учились давать верный ответ и ассоциировать конкретный поведенческий акт с результатом. В текущем же исследовании, вероятно, обучение смещалось в сторону получения наилучшего результата в наиболее рискованном контексте игры. В пользу этого говорит то, что попарное сравнение кривых ВП в окне FRN выявило наибольший эффект именно в контексте, где разница между суммами подкрепления была наиболее значительной. Тем не менее в рамках имеющейся парадигмы проверить эту гипотезу напрямую нельзя, что, в свою очередь, говорит о целесообразности использования в экономических играх как негативного, так и положительного подкрепления наравне с нейтральным результатом.
Обобщая, можно предположить, что полученные нами данные не противоречат, а скорее существенно дополняют имеющуюся картину знаний о влиянии tDCS на вызванную активность головного мозга в контексте обработки обратной связи. С учетом того, что результаты стимуляции на физиологическом уровне существенно отличаются в зависимости от контекста и типа обратной связи, транскраниальная электростимуляция представляется исключительно перспективным инструментом для глубокого изучения причинно-следственных связей и нейродинамических процессов, обеспечивающих обучение с подкреплением.
ЗАКЛЮЧЕНИЕ
Резюмируя: мы провели сочетанное tDCS-ЭЭГ-исследование, в котором воспроизвели паттерн электростимуляции эксперимента, который привел к подавлению проявления компонента FRN. Наши результаты показали значимое увеличение амплитуды FRN, что на первый взгляд противоречит ранее опубликованным сведениям. Однако, если принимать во внимание сложность структуры ВП, связанных с обработкой обратной связи, и их зависимость от параметров таковой, равно как и от условий задачи, можно прийти к выводу о том, что использованный в исследованиях протокол стимуляции влияет на ряд структур, напрямую участвующих в обработке результата действия, которые, однако, играют неодинаковую роль в монетарных и немонетарных играх. С другой стороны, полученные результаты с долей вероятности можно объяснить нестабильностью эффектов транскраниальной стимуляции, о которой рапортуют в литературе. Тем не менее полученные результаты подтверждают возможность использования методов неинвазивной нейростимуляции для изучения причинно-следственных связей, обеспечивающих ассоциацию “стимул-подкрепление” и нейрональных механизмов обучения с подкреплением в целом.
Список литературы
Alexander W.H., Brown J.W. Medial prefrontal cortex as an action-outcome predictor. Nature neuroscience. 2011. 14(10): 1338–1344.
Baker T.E., Holroyd C.B. Dissociated roles of the anterior cingulate cortex in reward and conflict processing as revealed by the feedback error-related negativity and N200. Biological psychology. 2011. 87(1): 25–34.
Becker M.P., Nitsch A.M., Miltner W.H., Straube T. A single-trial estimation of the feedback-related negativity and its relation to BOLD responses in a time-estimation task. Journal of Neuroscience. 2014. 34(8): 3005–3012.
Been G., Ngo T.T., Miller S.M., Fitzgerald P.B. The use of tDCS and CVS as methods of non-invasive brain stimulation. Brain research reviews. 2007. 56(2): 346–36.
Boroda E., Sponheim S.R., Fiecas M., Lim K.O. Transcranial direct current stimulation (tDCS) elicits stimulus-specific enhancement of cortical plasticity. Neuroimage. 2020. 211: 116598.
Broyd S.J., Richards H.J., Helps S.K., Chronaki G., Bamford S., Sonuga-Barke E.J. An electrophysiological monetary incentive delay (e-MID) task: a way to decompose the different components of neural response to positive and negative monetary reinforcement. Journal of neuroscience methods. 2012. 209(1): 40–49.
Carlson J.M., Foti D., Mujica-Parodi L.R., Harmon-Jones E., Hajcak G. Ventral striatal and medial prefrontal BOLD activation is correlated with reward-related electrocortical activity: a combined ERP and fMRI study.Neuroimage. 2011. 57(4): 1608–1616.
Carlson J.M., Foti D., Harmon-Jones E., Proudfit G.H. Midbrain volume predicts fMRI and ERP measures of reward reactivity. Brain Structure and Function. 2015. 220(3): 1861–1866.
Dockery C.A., Hueckel-Weng R., Birbaumer N., Plewnia C. Enhancement of planning ability by transcranial direct current stimulation. Journal of Neuroscience, 2009. 29(22): 7271–7277.
Doñamayor N., Schoenfeld M.A., Münte T.F. Magneto-and electroencephalographic manifestations of reward anticipation and delivery. Neuroimage. 2012. 62(1): 17–29.
Falkenstein M. Effects of errors in choice reaction tasks on the ERP under focused and divided attention. Psychophysiological brain research. 1990.
Foti D., Carlson J.M., Sauder C.L., Proudfit G.H. Reward dysfunction in major depression: Multimodal neuroimaging evidence for refining the melancholic phenotype.NeuroImage. 2014. 101: 50–58.
Garrido M.I., Friston K.J., Kiebel S.J., Stephan K.E., Baldeweg T., Kilner J.M. The functional anatomy of the MMN: a DCM study of the roving paradigm. .Neuroimage. 2008. 42(2): 936–944.
Gehring W.J., Willoughby A.R. The medial frontal cortex and the rapid processing of monetary gains and losses. Science. 2002. 295(5563): 2279–2282.
Gehring W.J., Goss B., Coles M.G., Meyer D.E., Donchin E. A neural system for error detection and compensation. Psychological science. 1993. 4(6): 385–390.
Gehring W.J., Liu Y., Orr J.M., Carp J. The error-related negativity (ERN/Ne). The Oxford handbook of event-related potential components. 2012. 231–291.
Glazer J.E., Kelley N.J., Pornpattananangkul N., Mittal V.A., Nusslock R. Beyond the FRN: Broadening the time-course of EEG and ERP components implicated in reward processing. International Journal of Psychophysiology. 2018. 132: 184–202.
Glimcher P.W. Decisions, uncertainty, and the brain: The science of neuroeconomics. MIT Press. 2003.
Gordon P.C., Zrenner C., Desideri D., Belardinelli P., Zrenner B., Brunoni A.R., Ziemann U. Modulation of cortical responses by transcranial direct current stimulation of dorsolateral prefrontal cortex: A resting-state EEG and TMS-EEG study. Brain Stimulation. 2018. 11(5): 1024–1032
Gorin A., Krugliakova E., Nikulin V., Kuznetsova A., Moiseeva V., Klucharev V., Shestakova A. Cortical plasticity elicited by acoustically cued monetary losses: an ERP study. Scientific reports. 2020. 10(1): 1–14.
Goyer J.P., Woldorff M.G., Huettel S.A. Rapid electrophysiological brain responses are influenced by both valence and magnitude of monetary rewards. Journal of cognitive neuroscience. 2008. 20(11): 2058–2069.
Hajcak G., Holroyd C.B., Moser J.S., Simons R.F. Brain potentials associated with expected and unexpected good and bad outcomes. Psychophysiology. 2005. 42(2): 161–170.
Hajcak G., Moser J.S., Holroyd C.B., Simons R.F. It’s worse than you thought: The feedback negativity and violations of reward prediction in gambling tasks. Psychophysiology. 2007 44(6): 905–912.
Hanley C.J., Singh K.D., McGonigle D.J. Transcranial modulation of brain oscillatory responses: A concurrent tDCS–MEG investigation. Neuroimage. – 2016. 140: 20–32.
Holroyd C.B., Coles M.G.H. The neural basis of human error processing: reinforcement learning, dopamine, and the error-related negativity. Psychological review. 2002. 109(4): 679.
Holroyd C.B., Pakzad-Vaezi K.L., Krigolson O.E. The feedback correct-related positivity: Sensitivity of the event-related brain potential to unexpected positive feedback. Psychophysiology. 2008. 45(5): 688–697.
Holroyd C.B., Krigolson O.E., Lee S. Reward positivity elicited by predictive cues. Neuroreport. 2011. 22(5): 249–252.
Knutson B., Taylor J., Kaufman M., Peterson R., Glover G. Distributed neural representation of expected value. Journal of Neuroscience. 2005. 25(19): 4806–4812.
Knutson B., Westdorp A., Kaiser E., Hommer D. FMRI visualization of brain activity during a monetary incentive delay task. Neuroimage. 2000. 12(1): 20–27.
Krigolson O.E. Event-related brain potentials and the study of reward processing: Methodological considerations. International Journal of Psychophysiology. 2018. 132, 175–183.
Krugliakova E., Klucharev V., Fedele T., Gorin A., Kuznetsova A., Shestakova A. Correlation of cue-locked FRN and feedback-locked FRN in the auditory monetary incentive delay task. Experimental Brain Research. 2018. 236(1): 141–151.
Krugliakova E., Gorin A., Fedele T., Shtyrov Y., Moiseeva V., Klucharev V., Shestakova A. The monetary incentive delay (MID) task induces changes in sensory processing: ERP evidence. Frontiers in Human Neuroscience. 2019. 13: 382.
Matsushita R., Puschmann S., Baillet S., Zatorre R.J. Inhibitory effect of tDCS on auditory evoked response: Simultaneous MEG-tDCS reveals causal role of right auditory cortex in pitch learning. NeuroImage. 2021. 233: 117915.
Miltner W.H.R., Braun C.H., Coles M.G.H. Event-related brain potentials following incorrect feedback in a time-estimation task: evidence for a “generic” neural system for error detection. Journal of cognitive neuroscience. 1997. 9(6): 788–798.
Miniussi C., Harris J.A., Ruzzoli M. Modelling non-invasive brain stimulation in cognitive neuroscience. Neuroscience & Biobehavioral Reviews, 2013. 37(8), 1702–1712.
Näätänen R., Pakarinen S., Rinne T., Takegata R. The mismatch negativity (MMN): towards the optimal paradigm. Clinical neurophysiology. 2004. 115(1): 140–144.
Nieuwenhuis S., Heslenfeld D.J., von Geusau N.J.A., Mars R.B., Holroyd C.B., Yeung N. Activity in human reward-sensitive brain areas is strongly context dependent. Neuroimage. 2005. 25(4): 1302–1309.
Noreika V., Kamke M.R., Canales-Johnson A., Chennu S., Bekinschtein T.A., Mattingley J.B. Alertness fluctuations when performing a task modulate cortical evoked responses to transcranial magnetic stimulation. NeuroImage. 2020. 223, 117305.
Potts G.F., Martin L.E., Burton P., Montague P.R. When things are better or worse than expected: the medial frontal cortex and the allocation of processing resources. Journal of cognitive neuroscience. 2006. 18(7): 1112–1119.
Rahimi V., Mohamadkhani G., Alaghband-Rad J., Kermani F.R., Nikfarjad H., Marofizade S. Modulation of temporal resolution and speech long-latency auditory-evoked potentials by transcranial direct current stimulation in children and adolescents with dyslexia. Experimental Brain Research. 2019. 237(3): 873–882.
Reinhart R.M.G., Woodman G.F. Causal control of medial–frontal cortex governs electrophysiological and behavioral indices of performance monitoring and learning. Journal of Neuroscience. 2014. 34(12): 4214–4227.
Ruchsow M., Grothe J., Spitzer M., Kiefer M. Human anterior cingulate cortex is activated by negative feedback: evidence from event-related potentials in a guessing task. Neuroscience letters. 2002. 325(3): 203–206.
Sambrook T.D., Goslin J. Mediofrontal event-related potentials in response to positive, negative and unsigned prediction errors. Neuropsychologia. 2014. 61: 1–10.
San Martín R. Event-related potential studies of outcome processing and feedback-guided learning. Frontiers in human neuroscience. 2012. 6: 304.
Schaworonkow N., Triesch J., Ziemann U., Zrenner C. EEG-triggered TMS reveals stronger brain state-dependent modulation of motor evoked potentials at weaker stimulation intensities. Brain stimulation. 2019. 12(1): 110–118.
Tadel F., Baillet S., Mosher J.C., Pantazis D., Leahy R.M. Brainstorm: a user-friendly application for MEG/EEG analysis. Computational intelligence and neuroscience. 2011.
Thomas J., Vanni-Mercier G., Dreher J.C. Neural dynamics of reward probability coding: a Magnetoencephalographic study in humans. Frontiers in neuroscience. 2013. 7: 214.
Walsh M.M., Anderson J.R. Learning from experience: event-related potential correlates of reward processing, neural adaptation, and behavioral choice. Neuroscience & Biobehavioral Reviews. 2012. 36(8): 1870–1884.
Watts A.T.M., Bachman M.D., Bernat E.M. Expectancy effects in feedback processing are explained primarily by time-frequency delta not theta. Biological psychology. 2017. 129: 242–252.
Wiethoff S., Hamada M., Rothwell J.C. Variability in response to transcranial direct current stimulation of the motor cortex. Brain stimulation. 20147(3), 468–475.
Wu Y., Zhou X. The P300 and reward valence, magnitude, and expectancy in outcome evaluation. Brain research. 2009. 1286: 114–122.
Zhou Z., Yu R., Zhou X. To do or not to do? Action enlarges the FRN and P300 effects in outcome evaluation. Neuropsychologia. 2010. 48(12) : 3606–3613.
Дополнительные материалы отсутствуют.
Инструменты
Журнал высшей нервной деятельности им. И.П. Павлова