Технология распознавания речи в лучевой диагностике

Обложка

Цитировать

Аннотация

Устройства, способные распознавать речь, являются перспективным инструментом для системы здравоохранения. Технология распознавания речи имеет довольно длинную историю применения в западных системах здравоохранения (с 1970-х годов), однако широкое распространение она получила лишь в начале XXI века, заменив медицинских транскрипционистов. Для отечественного здравоохранения данная технология относительно новая. Её активная разработка началась лишь в начале 2010-х годов, а повсеместное внедрение в здравоохранение ― в конце 2010-х годов. Такая задержка связана с особенностями русского языка и ограничением вычислительных мощностей, присутствующих в начале XXI века.

В настоящее время комплексы устройств и программного обеспечения для распознавания речи используются в голосовом заполнении медицинской документации и позволяют сократить время подготовки протоколов рентгенологических исследований при сравнении с традиционным (клавиатурным) вводом текста.

В литературном обзоре отражена краткая история развития и применения технологии распознавания речи в лучевой диагностике. Отражены ключевые научные исследования, подтверждающие эффективность её использования в западных системах здравоохранения. Продемонстрирован отечественный опыт применения технологии распознавания речи и оценена её эффективность. Описаны перспективы дальнейшего развития данной технологии в российском здравоохранении.

Об авторах

Никита Дмитриевич Кудрявцев

Научно-практический клинический центр диагностики и телемедицинских технологий

Email: KudryavtsevND@zdrav.mos.ru
ORCID iD: 0000-0003-4203-0630
SPIN-код: 1125-8637
Россия, Москва

Кристина Алексеевна Бардасова

Уральский государственный медицинский университет

Email: bardasovakris@mail.ru
ORCID iD: 0009-0002-4310-1357
SPIN-код: 1156-7627
Россия, Екатеринбург

Анна Николаевна Хоружая

Научно-практический клинический центр диагностики и телемедицинских технологий

Автор, ответственный за переписку.
Email: KhoruzhayaAN@zdrav.mos.ru
ORCID iD: 0000-0003-4857-5404
SPIN-код: 7948-6427
Россия, Москва

Список литературы

  1. Вечорко В.И. Распределение рабочего времени на амбулаторном приеме врача-терапевта участкового с медицинской сестрой в поликлинике города Москвы (фотохронометражное наблюдение) // Социальные аспекты здоровья населения. 2016. № 6. С. 4.
  2. Каплиева О.В., Марега Л.А., Воробьева Л.П. Хронометраж рабочего времени врачей детского консультативно-диагностического отделения // Дальневосточный медицинский журнал. 2018. № 4. С. 72–76.
  3. Ryabchikov I.V., Zagafarov R.R., Mukhina V.V., et al. Distribution of the traumatologist-orthopaedician’s working time with outpatients // Моscоw Sur J. 2018. N 6. P. 38–43. doi: 10.17238/issn2072-3180.2018.6.38-43
  4. Kudryavtsev N.D., Sergunova K.A., Ivanova G.V., et al. Evaluation of the effectiveness of the implementation of speech recognition technology for the preparation of radiological protocols // VIT. 2020. Vol. 6, N S1. P. 58–64. doi: 10.37690/1811-0193-2020-S1-58-64
  5. Blackley S.V., Huynh J., Wang L., et al. Speech recognition for clinical documentation from 1990 to 2018: A systematic review // J Am Med Inf Association. 2019. Vol. 26, N 4. P. 324–338. doi: 10.1093/jamia/ocy179
  6. Motyer R.E., Liddy S., Torreggiani W.C., Buckley O. Frequency and analysis of non-clinical errors made in radiology reports using the National Integrated Medical Imaging System voice recognition dictation software // Ir J Med Sci. 2016. Vol. 185, N 4. P. 921–927. doi: 10.1007/s11845-016-1507-6
  7. Hodgson T., Coiera E. Risks and benefits of speech recognition for clinical documentation: A systematic review // J Am Med Inf Association. 2016. Vol. 23, N e1. P. e169–e179. doi: 10.1093/jamia/ocv152
  8. Itakura F. Minimum prediction residual principle applied to speech recognition // IEEE Trans Acoust Speech Signal Process. 1975. Vol. 23, N 1. P. 67–72. doi: 10.1109/TASSP.1975.1162641
  9. Leeming W., Porter D., Jackson J.D., et al. Computerized radiologic reporting with voice data-entry // Radiology. 1981. Vol. 138, N 3. P. 585–588. doi: 10.1148/radiology.138.3.7465833
  10. Simon M., Leeming B.W., Bleich H.L., et al. Computerized radiology reporting using coded language // Radiology. 1974. Vol. 113, N 2. P. 343–349. doi: 10.1148/113.2.343
  11. Vogel M., Kaisers W., Wassmuth R., Mayatepek E. Analysis of documentation speed using web-based medical speech recognition technology: Randomized controlled trial // J Med Internet Res. 2015. Vol. 17, N 11. P. e247. doi: 10.2196/jmir.5072
  12. Ramaswamy M.R., Chaljub G., Esch O., et al. Continuous speech recognition in MR imaging reporting // Am J Roentgenol. 2000. Vol. 174, N 3. P. 617–622. doi: 10.2214/ajr.174.3.1740617
  13. Poder T.G., Fisette J.F., Déry V. Speech recognition for medical dictation: Overview in quebec and systematic review // J Med Systems. 2018. Vol. 42, N 5. P. 89. doi: 10.1007/s10916-018-0947-0
  14. Sankaranarayanan B., David G., Vishwanath K.R., et al. Would technology obliterate medical transcription? // Proceedings of the 2017 ACM SIGMIS Conference on Computers and People Research. New York, NY, USA: ACM, 2017. P. 97–104. doi: 10.1145/3084381.3084414
  15. Houston J.D., Rupp F.W. Experience with implementation of a radiology speech recognition system // J Digital Imaging. 2000. Vol. 13, N 3. P. 124–128. doi: 10.1007/BF03168385
  16. Saxena K., Diamond R., Conant R.F., et al. Provider adoption of speech recognition and its impact on satisfaction, documentation quality, efficiency, and cost in an inpatient EHR // AMIA Jt Summits Transl Sci Proc. 2018. Vol. 2017. P. 186–195.
  17. Schwartz L.H., Kijewski P., Hertogen H., et al. Voice recognition in radiology reporting // Am J Roentgenol. 1997. Vol. 169, N 1. P. 27–29. doi: 10.2214/ajr.169.1.9207496
  18. Vogel M., Kaisers W., Wassmuth R., Mayatepek E. Analysis of documentation speed using web-based medical speech recognition technology: Randomized controlled trial // J Med Int Research. 2015. Vol. 17, N 11. P. e247. doi: 10.2196/jmir.5072
  19. Hammana I., Lepanto L., Poder T., et al. Speech recognition in the radiology department: A systematic review // Health Inf Manag. 2015. Vol. 44, N 2. P. 4–10. doi: 10.1177/183335831504400201
  20. Mohr D.N., Turner D.W., Pond G.R., et al. Speech recognition as a transcription aid: A randomized comparison with standard transcription // J Am Med Inf Association. 2003. Vol. 10, N 1. P. 85–93. doi: 10.1197/jamia.m1130
  21. Singh M., Pal T.R. Voice recognition technology implementation in surgical pathology: Advantages and limitations // Arch Pathol Laboratory Med. 2011. Vol. 135, N 11. P. 1476–1481. doi: 10.5858/arpa.2010-0714-OA
  22. Goss F.R., Blackley S.V., Ortega C.A., et al. A clinician survey of using speech recognition for clinical documentation in the electronic health record // Int J Med Inf. 2019. N 130. P. 103938. doi: 10.1016/j.ijmedinf.2019.07.017
  23. Blackley S.V., Schubert V.D., Goss F.R., et al. Physician use of speech recognition versus typing in clinical documentation: A controlled observational study // Int J Med Inform. 2020. N 141. P. 104178. doi: 10.1016/j.ijmedinf.2020.104178
  24. Yang L., Ene I.C., Belaghi R.A., et al. Stakeholders’ perspectives on the future of artificial intelligence in radiology: A scoping review // Eur Radiol. 2022. Vol. 32, N 3. P. 1477–1495. doi: 10.1007/s00330-021-08214-z
  25. European Society of Radiology (ESR). Impact of artificial intelligence on radiology: A EuroAIM survey among members of the European Society of Radiology // Insights Imaging. 2019. Vol. 10, N 1. P. 105. doi: 10.1186/s13244-019-0798-3
  26. Szymański P., Żelasko P., Morzyet M., et al. WER we are and WER we think we are // arXiv. arXiv:2010.03432.2020. doi: 10.48550/arXiv.2010.03432
  27. Li J. Recent advances in end-to-end automatic speech recognition // arXiv. arXiv:2111.01690. 2022. doi: 10.48550/arXiv.2111.01690
  28. Juang B.H., Rabiner L.R. Hidden markov models for speech recognition // Technometrics. 1991. Vol. 33, N 3. P. 251–272.
  29. Graves A., Mohamed A., Hinton G. Speech recognition with deep recurrent neural networks // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, BC, Canada: IEEE, 2013. P. 6645–6649. doi: 10.48550/arXiv.1303.5778
  30. Deng L., Li X. Machine learning paradigms for speech recognition: An overview // IEEE Trans Audio Speech Lang Process. 2013. Vol. 21, N 5. P. 1060–1089.
  31. Казачкин А.Е. Методы распознавания речи, современные речевые технологии // Молодой ученый. 2019. № 39. С. 6–8.
  32. Kamath U., Liu J., Whitaker J. Deep learning for NLP and speech recognition. Cham: Springer International Publishing, 2019. 621 р.
  33. Wang D., Wang X., Lv S. An overview of end-to-end automatic speech recognition // Symmetry. 2019. Vol. 11, N 8. P. 1018. doi: 10.3390/sym11081018
  34. Zhozhikashvili V.A., Farkhadov M.P., Petukhova N.V., Zhozhikashvili A.V. The first voice recognition applications in Russian language for use in The Interactive Information Systems // Speech and Computer. Saint-Petersburg, SPECOM, 2004. Р. 304–307.
  35. Карпов А.А., Ронжин А.А., Ли И.В. SIRIUS система дикторнезависимого распознавания слитной русской речи // Известия Южного федерального университета. Технические науки. 2005. Т. 54, № 10. С. 44–54.
  36. Ирзаев М.Г. Использование голосового ввода информации в медицинских учреждениях для заполнения электронных карт и историй болезней пациентов // Новые технологии и техника в медицине, биологии и экологии: сборник научных трудов. 2013. № 3. С. 149–154.
  37. Vazhenina D., Markov K., Karpov A., et al. State-of-the-art speech recognition technologies for Russian language // Proceedings of the 2012 Joint International Conference on Human-Centered Computer Environments. Aizu-Wakamatsu Japan: ACM, 2012. P. 59–63. doi: 10.1145/2160749.2160763
  38. Kamvar M., Chelba C. Optimal size, freshness and time-frame for voice search vocabulary // arXiv. arXiv:1210.8436.2012.
  39. Kipyatkova I.S., Karpov A.A. An analytical survey of large vocabulary Russian speech recognition systems // SPIIRAS Proceedings. 2014. Vol. 1, N 12. P. 7. doi: 10.15622/sp.12.1
  40. Kudryavtsev N.D., Semenov D.S., Kozhikhina D.D., Vladzymyrskyy A.V. Speech recognition technology: Results of a survey of radiologists at the Moscow reference center for diagnostic radiology // Healthcare Management. 2022. Vol. 8, N 3. P. 95–104. doi: 10.33029/2411-8621-2022-8-3-95-104
  41. Синицын В.Е., Комарова М.А., Мершина Е.А. Протокол рентгенологического описания: прошлое, настоящее, будущее // Вестник рентгенологии и радиологии. 2014. № 3. С. 35–40.
  42. Sobez L.M., Kim S.H., Angstwurm M., et al. Creating high-quality radiology reports in foreign languages through multilingual structured reporting // Eur Radiol. 2019. Vol. 29, N 11. P. 6038–6048. doi: 10.1007/s00330-019-06206-8
  43. Ganeshan D., Duong P.A., Probyn L., et al. Structured reporting in radiology // Academic Radiology. 2018. Vol. 25, N 1. P. 66–73. doi: 10.1016/j.acra.2017.08.005
  44. Dos Santos P.D., Hempel J.M., Mildenberger P., et al. Structured reporting in clinical routine // Rofo. 2019. Vol. 191, N 01. P. 33–39. doi: 10.1055/a-0636-3851
  45. Андрианова М.Г., Кудрявцев Н.Д., Петряйкин А.В. Разработка тезауруса рентгенологических терминов для голосового заполнения протоколов диагностических исследований // Digital Diagnostics. 2022. Т. 3, № S1. С. 21–22. doi: 10.17816/DD105703

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Упрощённая схема работы классической системы распознавания речи. Представлен алгоритм распознавания фразы «Признаки остеохондроза».

Скачать (139KB)
3. Рис. 2. Рабочее место врача-рентгенолога в Московском референс-центре лучевой диагностики, оснащённое системой распознавания речи. Процесс заполнения медицинской документации.

Скачать (139KB)

© Эко-вектор, 2023

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах