Possibilities and limitations of using machine text-processing tools in Russian radiology reports

Daria Yu. Kokina; Кокина Дарья Юрьевна; Daria Yu. Kokina; Victor A. Gombolevskiy; Гомболевский Виктор Александрович; Victor A. Gombolevskiy; Kirill M. Arzamasov; Арзамасов Кирилл Михайлович; Kirill M. Arzamasov; Anna E. Andreychenko; Андрейченко Анна Евгеньевна; Anna E. Andreychenko; Sergey P. Morozov; Морозов Сергей Павлович; Sergey P. Morozov

doi:10.17816/DD101099

Возможности и ограничения использования инструментов машинной обработки текстов в лучевой диагностике

Авторы: Кокина Д.Ю.¹, Гомболевский В.А.¹, Арзамасов К.М.¹, Андрейченко А.Е.¹, Морозов С.П.¹
Учреждения:
1. Научно-практический клинический центр диагностики и телемедицинских технологий
Выпуск: Том 3, № 4 (2022)
Страницы: 374-383
Раздел: Оригинальные исследования
URL: https://journals.rcsi.science/DD/article/view/146865
DOI: https://doi.org/10.17816/DD101099
ID: 146865

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Статистика

Аннотация

Обоснование. В радиологии важную информацию содержат не только медицинские изображения, но и сопровождающие их текстовые описания, создаваемые врачами-рентгенологами. Идентификация протоколов исследований, содержащих определённые данные, и извлечение этих данных может быть полезным в первую очередь для клинических задач, однако, учитывая большой объём таких данных, необходима разработка машинных алгоритмов анализа.

Цель ― оценить возможности и ограничения использования инструментов машинной обработки текстов для поиска патологий в протоколах лучевых исследований.

Материалы и методы. Для создания первого прототипа алгоритма автоматического анализа протоколов были выбраны исследования молочных желёз (маммография) и органов грудной клетки (рентгенография, флюорография, компьютерная томография и низкодозная компьютерная томография), выполненные в лечебно-профилактических учреждениях Москвы, которые участвовали в эксперименте по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений. Для каждого вида исследований был первоначально составлен словарь ключевых слов, соответствующий наличию или отсутствию целевых патологий. После первичной автоматической разметки протоколов разработанным инструментом производились выборочная оценка и валидация результатов врачом-рентгенологом. Количество протоколов, проанализированных врачом для обучения и валидации алгоритмов, составило 977 для маммографии, 3196 для рентгенографии, 1608 для флюорографии, 4074 для компьютерной и 398 для низкодозной компьютерной томографии органов грудной клетки. Для окончательного тестирования разработанных алгоритмов были дополнительно размечены тестовые датасеты из 1032 исследований для маммографии, 544 для флюорографии/рентгенографии, 5000 для компьютерной и 1082 для низкодозной компьютерной томографии органов грудной клетки.

Результаты. Наилучшие результаты достигнуты в поиске признаков вирусной пневмонии по протоколам компьютерной томографии органов грудной клетки (точность 0,996, чувствительность 0,998, специфичность 0,989) и рака молочной железы по протоколам маммографии (точность 1,0, чувствительность 1,0, специфичность 1,0). При поиске алгоритмом признаков рака лёгкого метрики получились следующими: точность 0,895, чувствительность 0,829, специфичность 0,936, а при поиске патологических изменений органов грудной клетки в протоколах рентгенографии и флюорографии точность составила 0,912, чувствительность ― 1,000, специфичность ― 0,844.

Заключение. Машинные методы с высокой точностью могут быть использованы с целью автоматической классификации текстов рентгенологических протоколов маммографии и компьютерной томографии органов грудной клетки для поиска вирусной пневмонии. Для поиска признаков рака лёгкого в модальности компьютерной и низкодозной компьютерной томографии, а также патологических изменений в протоколах рентгенографии и флюорографии органов грудной клетки достигнутой точности достаточно для успешного применения в целях автоматизированного сравнения работы врачей и моделей искусственного интеллекта.

Ключевые слова

протоколы рентгенологических исследований, COVID-19-пневмония, рак лёгкого, рак молочной железы, обработка естественного языка