Распознавание устной речи по данным МЭГ с использованием ковариационных фильтров

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Только для подписчиков

Аннотация

Распознавание устной речи по данным ЭЭГ и МЭГ является первым шагом разработки систем МКИ и ИИ для дальнейшего использования их при декодировании воображаемой речи. Большие достижения в этом направлении были сделаны с использованием ЭКоГ и стерео-ЭЭГ. В то же время существует мало работ на эту тему по анализу данных, полученных неинвазивными методами регистрации активности мозга. Наш подход основан на оценке связей в пространстве сенсоров с выделением специфического для данного отрезка речи паттерна связанности МЭГ. Мы проверили свой метод на 7 испытуемых. Во всех случаях наш конвейер обработки был достаточно надежен и работал либо без ошибок распознавания, либо с небольшим количеством ошибок. После “обучения” алгоритм способен распознавать фрагмент устной речи при единственном предъявлении. Для распознавания мы использовали отрезки записи МЭГ 50–1200 мс от начала звучания слова. Для качественного распознавания требовался отрезок не менее 600 мс. Интервалы больше 1200 мс ухудшали качество распознавания. Полосовая фильтрация МЭГ показала, что качество распознавания одинаково эффективно во всем диапазоне частот. Некоторое снижение уровня распознавания наблюдается только в диапазоне 9–14 Гц.

Об авторах

В. М. Верхлютов

Лаборатория высшей нервной деятельности человека, ФГБУН Институт Высшей Нервной Деятельности
и Нейрофизиологии РАН

Автор, ответственный за переписку.
Email: verkhliutov@ihna.ru
Россия, Москва

Е. О. Бурлаков

ФГБОУ ВО Тамбовский государственный университет им. Г.Р. Державина

Email: verkhliutov@ihna.ru
Россия, Тамбов

К. Г. Гуртовой

Национальный Исследовательский Центр “Курчатовский Институт”

Email: verkhliutov@ihna.ru
Россия, Москва

В. Л. Введенский

Национальный Исследовательский Центр “Курчатовский Институт”

Email: verkhliutov@ihna.ru
Россия, Москва

Список литературы

  1. Anumanchipalli G.K., Chartier J., Chang E.F. Speech synthesis from neural decoding of spoken sentences. Nature. 2019. 568 (7753): 493–498. https://doi.org/10.1038/s41586-019-1119-1
  2. Anurova I., Vetchinnikova S., Dobrego A., Williams N., Mikusova N., Suni A., Palva S. Event-related responses reflect chunk boundaries in natural speech. NeuroImage, 2022. 255 (April), 119203. https://doi.org/10.1016/j.neuroimage.2022.119203
  3. Arnulfo G., Wang S.H., Myrov V., Toselli B., Hirvonen J., Fato M.M., Palva J.M. Long-range phase synchronization of high-frequency oscillations in human cortex. Nature Communications, 2020. 11 (1): 5363. https://doi.org/10.1038/s41467-020-18975-8
  4. Che B., Ciria L.F., Hu C., Ivanov P.C. Ensemble of coupling forms and networks among brain rhythms as function of states and cognition. Communications Biology, 2022. 5 (1): 82. https://doi.org/10.1038/s42003-022-03017-4
  5. Dash D., Ferrari P., Wang J. Decoding Imagined and Spoken Phrases From Non-invasive Neural (MEG) Signals. Frontiers in Neuroscience. 2020. 14: 290. https://doi.org/10.3389/fnins.2020.00290
  6. Défossez A., Caucheteux C., Rapin J., Kabeli O., King J.-R. Decoding speech from non-invasive brain recordings. ArXiv. 2022. 2208. 12266: 1–15. http://arxiv.org/abs/2208.12266
  7. Huth A.G., De Heer W.A., Griffiths T.L., Theunissen F.E., Gallant J.L. Natural speech reveals the semantic maps that tile human cerebral cortex. Nature. 2016. 532 (7600): 453–458. https://doi.org/10.1038/nature17637
  8. Liaukovich K., Ukraintseva Y., Martynova O. Implicit auditory perception of local and global irregularities in passive listening condition. Neuropsychologia, 2022. 165 (July 2020): 108129. https://doi.org/10.1016/j.neuropsychologia.2021.1-08129
  9. Lizarazu M., Carreiras M., Molinaro N. Theta-gamma phase-amplitude coupling in auditory cortex is modulated by language proficiency. Human Brain Mapping, 2023. 44 (7): 2862–2872. https://doi.org/10.1002/hbm.26250
  10. Neymotin S.A., Tal I., Barczak A., O’Connell M.N., McGinnis T., Markowitz N., Lakatos P. Detecting Spontaneous Neural Oscillation Events in Primate Auditory Cortex. Eneuro. 2022. 9 (4), ENEURO.0281-21.2022. https://doi.org/10.1523/ENEURO.0281-21.2022
  11. Norman-Haignere S.V., Long L.K., Devinsky O., Doyle W., Irobunda I., Merricks E.M., Mesgarani N. Multiscale temporal integration organizes hierarchical computation in human auditory cortex. Nature Human Behaviour. 2022. 6 (3): 455–469. https://doi.org/10.1038/s41562-021-01261-y
  12. Proix T., Delgado Saa J., Christen A., Martin S., Pasley B.N., Knight R.T., Giraud A.-L. Imagined speech can be decoded from low- and cross-frequency intracranial EEG features. Nature Communications, 2022. 13 (1), 48. https://doi.org/10.1038/s41467-021-27725-3
  13. Rolls E.T., Deco G., Huang C.-C., Feng J. The human language effective connectome. NeuroImage, 2022. 258: 119352.
  14. Sato N. Cortical traveling waves reflect state-dependent hierarchical sequencing of local regions in the human connectome network. Scientific Reports, 2022. 12 (1): 334. https://doi.org/10.1038/s41598-021-04169-9
  15. Tang J., LeBel A., Jain S., Huth A.G. Semantic reconstruction of continuous language from non-invasive brain recordings. Nature Neuroscience. 2023. https://doi.org/10.1038/s41593-023-01304-9
  16. Verkhlyutov V. MEG data during the presentation of Gabor patterns and word sets. Zenodo, 2022. https://zenodo.org/record/7458233
  17. Vvedensky V., Filatov I., Gurtovoy K., Sokolov M. Alpha Rhythm Dynamics During Spoken Word Recognition. Studies in Computational Intelligence, 2023. 1064: 65–70.https://doi.org/10.1007/978-3-031-19032-2_7

Дополнительные файлы


© В.М. Верхлютов, Е.О. Бурлаков, К.Г. Гуртовой, В.Л. Введенский, 2023

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах