Журнал высшей нервной деятельности им. И.П. Павлова, 2023, T. 73, № 6, стр. 800-808

Распознавание устной речи по данным МЭГ с использованием ковариационных фильтров

В. М. Верхлютов 1*, Е. О. Бурлаков 2, К. Г. Гуртовой 3, В. Л. Введенский 3

1 Лаборатория высшей нервной деятельности человека, ФГБУН Институт Высшей Нервной Деятельности и Нейрофизиологии РАН
Москва, Россия

2 ФГБОУ ВО Тамбовский государственный университет им. Г.Р. Державина
Тамбов, Россия

3 Национальный Исследовательский Центр “Курчатовский Институт”
Москва, Россия

* E-mail: verkhlyutov@ihna.ru

Поступила в редакцию 02.07.2023
После доработки 28.07.2023
Принята к публикации 31.08.2023

Аннотация

Распознавание устной речи по данным ЭЭГ и МЭГ является первым шагом разработки систем МКИ и ИИ для дальнейшего использования их при декодировании воображаемой речи. Большие достижения в этом направлении были сделаны с использованием ЭКоГ и стерео-ЭЭГ. В то же время существует мало работ на эту тему по анализу данных, полученных неинвазивными методами регистрации активности мозга. Наш подход основан на оценке связей в пространстве сенсоров с выделением специфического для данного отрезка речи паттерна связанности МЭГ. Мы проверили свой метод на 7 испытуемых. Во всех случаях наш конвейер обработки был достаточно надежен и работал либо без ошибок распознавания, либо с небольшим количеством ошибок. После “обучения” алгоритм способен распознавать фрагмент устной речи при единственном предъявлении. Для распознавания мы использовали отрезки записи МЭГ 50–1200 мс от начала звучания слова. Для качественного распознавания требовался отрезок не менее 600 мс. Интервалы больше 1200 мс ухудшали качество распознавания. Полосовая фильтрация МЭГ показала, что качество распознавания одинаково эффективно во всем диапазоне частот. Некоторое снижение уровня распознавания наблюдается только в диапазоне 9–14 Гц.

Ключевые слова: декодирование речи, связанность в пространстве сенсоров, МЭГ, ЭЭГ, МКИ, ИИ, тета-ритм, альфа-ритм, гамма-ритм

Список литературы

  1. Anumanchipalli G.K., Chartier J., Chang E.F. Speech synthesis from neural decoding of spoken sentences. Nature. 2019. 568 (7753): 493–498. https://doi.org/10.1038/s41586-019-1119-1

  2. Anurova I., Vetchinnikova S., Dobrego A., Williams N., Mikusova N., Suni A., Palva S. Event-related responses reflect chunk boundaries in natural speech. NeuroImage, 2022. 255 (April), 119203. https://doi.org/10.1016/j.neuroimage.2022.119203

  3. Arnulfo G., Wang S.H., Myrov V., Toselli B., Hirvonen J., Fato M.M., Palva J.M. Long-range phase synchronization of high-frequency oscillations in human cortex. Nature Communications, 2020. 11 (1): 5363. https://doi.org/10.1038/s41467-020-18975-8

  4. Che B., Ciria L.F., Hu C., Ivanov P.C. Ensemble of coupling forms and networks among brain rhythms as function of states and cognition. Communications Biology, 2022. 5 (1): 82. https://doi.org/10.1038/s42003-022-03017-4

  5. Dash D., Ferrari P., Wang J. Decoding Imagined and Spoken Phrases From Non-invasive Neural (MEG) Signals. Frontiers in Neuroscience. 2020. 14: 290. https://doi.org/10.3389/fnins.2020.00290

  6. Défossez A., Caucheteux C., Rapin J., Kabeli O., King J.-R. Decoding speech from non-invasive brain recordings. ArXiv. 2022. 2208. 12266: 1–15. http://arxiv.org/abs/2208.12266

  7. Huth A.G., De Heer W.A., Griffiths T.L., Theunissen F.E., Gallant J.L. Natural speech reveals the semantic maps that tile human cerebral cortex. Nature. 2016. 532 (7600): 453–458. https://doi.org/10.1038/nature17637

  8. Liaukovich K., Ukraintseva Y., Martynova O. Implicit auditory perception of local and global irregularities in passive listening condition. Neuropsychologia, 2022. 165 (July 2020): 108129. https://doi.org/10.1016/j.neuropsychologia.2021.1-08129

  9. Lizarazu M., Carreiras M., Molinaro N. Theta-gamma phase-amplitude coupling in auditory cortex is modulated by language proficiency. Human Brain Mapping, 2023. 44 (7): 2862–2872. https://doi.org/10.1002/hbm.26250

  10. Neymotin S.A., Tal I., Barczak A., O’Connell M.N., McGinnis T., Markowitz N., Lakatos P. Detecting Spontaneous Neural Oscillation Events in Primate Auditory Cortex. Eneuro. 2022. 9 (4), ENEURO.0281-21.2022. https://doi.org/10.1523/ENEURO.0281-21.2022

  11. Norman-Haignere S.V., Long L.K., Devinsky O., Doyle W., Irobunda I., Merricks E.M., Mesgarani N. Multiscale temporal integration organizes hierarchical computation in human auditory cortex. Nature Human Behaviour. 2022. 6 (3): 455–469. https://doi.org/10.1038/s41562-021-01261-y

  12. Proix T., Delgado Saa J., Christen A., Martin S., Pasley B.N., Knight R.T., Giraud A.-L. Imagined speech can be decoded from low- and cross-frequency intracranial EEG features. Nature Communications, 2022. 13 (1), 48. https://doi.org/10.1038/s41467-021-27725-3

  13. Rolls E.T., Deco G., Huang C.-C., Feng J. The human language effective connectome. NeuroImage, 2022. 258: 119352.

  14. Sato N. Cortical traveling waves reflect state-dependent hierarchical sequencing of local regions in the human connectome network. Scientific Reports, 2022. 12 (1): 334. https://doi.org/10.1038/s41598-021-04169-9

  15. Tang J., LeBel A., Jain S., Huth A.G. Semantic reconstruction of continuous language from non-invasive brain recordings. Nature Neuroscience. 2023. https://doi.org/10.1038/s41593-023-01304-9

  16. Verkhlyutov V. MEG data during the presentation of Gabor patterns and word sets. Zenodo, 2022. https://zenodo.org/record/7458233

  17. Vvedensky V., Filatov I., Gurtovoy K., Sokolov M. Alpha Rhythm Dynamics During Spoken Word Recognition. Studies in Computational Intelligence, 2023. 1064: 65–70.https://doi.org/10.1007/978-3-031-19032-2_7

Дополнительные материалы отсутствуют.