Применение больших языковых моделей в лучевой диагностике: обзор предметного поля
- Авторы: Васильев Ю.А.1, Решетников Р.В.1, Нанова О.Г.1, Владзимирский А.В.1, Арзамасов К.М.1, Омелянская О.В.1, Коденко М.Р.1, Ерижоков Р.А.1, Памова А.П.1, Сераджи С.Р.1, Блохин И.А.1, Гончар А.П.1,2, Гележе П.Б.1, Ахмедзянова Д.А.1, Шумская Ю.Ф.1
-
Учреждения:
- Научно-практический клинический центр диагностики и телемедицинских технологий
- Городская клиническая больница им. С.С. Юдина
- Выпуск: Том 6, № 2 (2025)
- Страницы: 268-285
- Раздел: Систематические обзоры
- URL: https://journals.rcsi.science/DD/article/view/310215
- DOI: https://doi.org/10.17816/DD678373
- EDN: https://elibrary.ru/QSANCA
- ID: 310215
Цитировать
Полный текст
Аннотация
Обоснование. Современные большие языковые модели обладают потенциалом использования в лучевой диагностике для решения широкого спектра рутинных задач.
Цель исследования. Провести обзор предметного поля применения больших языковых моделей в лучевой диагностике с анализом возможных сценариев их использования и оценкой качества методологии соответствующих исследований.
Методы. Провели два варианта поиска — первичный (PubMed и eLibrary), ориентированный на выявление полнотекстовых публикаций с максимально проработанной методологией, и дополнительный (PubMed), направленный на широкий охват сценариев применения больших языковых моделей в лучевой диагностике за период 2023–2025 гг. Извлекали библиометрические данные, формулировку исследовательской задачи, сценарий применения больших языковых моделей, нозологический профиль, ключевые методологические параметры, а также количественные и качественные показатели диагностической эффективности как моделей, так и участвующих специалистов, включая их число и опыт. Качество исследований оценивали с использованием модифицированного опросника QUADAS-CAD.
Результаты. При первичном поиске для анализа отобрано 9 публикаций, при дополнительном — 216. Найдено 9 основных сценариев применения больших языковых моделей в лучевой диагностике. Наиболее распространёнными из них было переформулирование рентгенологических заключений с целью повышения их доступности восприятия пациентами. Преимущественно использовали модели GPT-4 и BERT, а также GPT-3.5, Llama 2, Med42, GPT-4V и Gemini Pro. Большая языковая модель GPT-4 продемонстрировала высокую точность при диагностике опухолей головного мозга (73,0%), миокардитов (83,0%), а также в случае принятия решений о проведении инвазивной процедуры при остром коронарном синдроме (86,0%). В свою очередь, она продемонстрировала низкую диагностическую точность в отношении патологий нервной системы различной этиологии (50,0%) и заболеваний опорно-двигательной системы (43,0%). Модель BERT показала высокую диагностическую точность в задачах детекции лёгочных узелков (99,0%) и признаков внутричерепного кровоизлияния (чувствительность и специфичность — 97,0 и 90,0% соответственно), а также при классификации заключений (точность 84,3%).
Большинство работ (88,9%) содержат вероятность систематической ошибки. Основные причины этого: маленький объём и несбалансированность выборок, пересечение обучающих и тестовых наборов данных, недостаточно аккуратная подготовка и описание референсных стандартов.
Заключение. Показатели диагностической точности больших языковых моделей сильно варьируют между разными исследованиями. Для их внедрения в клиническую практику необходимо проведение стандартизированных и методологически качественных исследований, включающих увеличение объёма и сбалансированности выборок, оптимизацию структуры и объёма наборов данных, формирование неперекрывающихся обучающих и тестовых выборок, тщательную подготовку и описание референсных стандартов, а также накопление эмпирических данных по отдельным задачам лучевой диагностики.
Полный текст
Открыть статью на сайте журналаОб авторах
Юрий Александрович Васильев
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: npcmr@zdrav.mos.ru
ORCID iD: 0000-0002-5283-5961
SPIN-код: 4458-5608
канд. мед. наук
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1Роман Владимирович Решетников
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: ReshetnikovRV1@zdrav.mos.ru
ORCID iD: 0000-0002-9661-0254
SPIN-код: 8592-0558
канд. физ.-мат. наук
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1Ольга Геннадьевна Нанова
Научно-практический клинический центр диагностики и телемедицинских технологий
Автор, ответственный за переписку.
Email: nanova@mail.ru
ORCID iD: 0000-0001-8886-3684
SPIN-код: 6135-4872
канд. биол. наук
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1Антон Вячеславович Владзимирский
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: VladzimirskijAV@zdrav.mos.ru
ORCID iD: 0000-0002-2990-7736
SPIN-код: 3602-7120
д-р мед. наук
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1Кирилл Михайлович Арзамасов
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: ArzamasovKM@zdrav.mos.ru
ORCID iD: 0000-0001-7786-0349
SPIN-код: 3160-8062
д-р мед. наук
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1Ольга Васильевна Омелянская
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: o.omelyanskaya@npcmr.ru
ORCID iD: 0000-0002-0245-4431
SPIN-код: 8948-6152
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1
Мария Романовна Коденко
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: KodenkoMR@zdrav.mos.ru
ORCID iD: 0000-0002-0166-3768
SPIN-код: 5789-0319
канд. техн. наук
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1Рустам Арсеньевич Ерижоков
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: ErizhokovRA@zdrav.mos.ru
ORCID iD: 0009-0007-3636-2889
SPIN-код: 2274-6428
MD
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1Анастасия Петровна Памова
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: PamovaAP@zdrav.mos.ru
ORCID iD: 0000-0002-0041-3281
SPIN-код: 5146-4355
канд. мед. наук
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1Сеал Рахмануддин Сераджи
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: SeradzhiSR@zdrav.mos.ru
ORCID iD: 0009-0000-3990-6668
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1
Иван Андреевич Блохин
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: BlokhinIA@zdrav.mos.ru
ORCID iD: 0000-0002-2681-9378
SPIN-код: 3306-1387
канд. мед. наук
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1Анна Павловна Гончар
Научно-практический клинический центр диагностики и телемедицинских технологий; Городская клиническая больница им. С.С. Юдина
Email: GoncharAP@zdrav.mos.ru
ORCID iD: 0000-0001-5161-6540
SPIN-код: 3513-9531
канд. мед. наук
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1; МоскваПавел Борисович Гележе
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: GelezhePB@zdrav.mos.ru
ORCID iD: 0000-0003-1072-2202
SPIN-код: 4841-3234
канд. мед. наук
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1Дина Альфредовна Ахмедзянова
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: AkhmedzyanovaDA@zdrav.mos.ru
ORCID iD: 0000-0001-7705-9754
SPIN-код: 6983-5991
MD
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1Юлия Федоровна Шумская
Научно-практический клинический центр диагностики и телемедицинских технологий
Email: shumskayayf@zdrav.mos.ru
ORCID iD: 0000-0002-8521-4045
SPIN-код: 3164-5518
MD
Россия, 127051, г. Москва, ул. Петровка, д. 24, стр. 1Список литературы
- Cherif H, Moussa C, Missaoui AM, et al. Appraisal of ChatGPT’s aptitude for medical education: comparative analysis with third-year medical students in a pulmonology examination. JMIR Medical Education. 2024;10:e52818. doi: 10.2196/52818 EDN: OFMTDE
- Kim W, Kim BC, Yeom HG. Performance of large language models on the Korean Dental licensing examination: a comparative study. International Dental Journal. 2025;75(1):176–184. doi: 10.1016/j.identj.2024.09.002 EDN: JDFMDL
- Busch F, Hoffmann L, dos Santos DP, et al. Large language models for structured reporting in radiology: past, present, and future. European Radiology. 2024;35(5):2589–2602. doi: 10.1007/s00330-024-11107-6 EDN: PNFKNR
- Lecler A, Duron L, Soyer P. Revolutionizing radiology with GPT-based models: Current applications, future possibilities and limitations of ChatGPT. Diagnostic and Interventional Imaging. 2023;104(6):269–274. doi: 10.1016/j.diii.2023.02.003EDN: FGMMTY
- Tricco AC, Lillie E, Zarin W, et al. PRISMA Extension for Scoping Reviews (PRISMA-ScR): Checklist and Explanation. Annals of Internal Medicine. 2018;169(7):467–473. doi: 10.7326/M18-0850
- Vasilev YuA, Vladzymyrskyy AV, Omelyanskaya OV, et al. Methodological recommendations for preparing a systematic review. Moscow: Research and Practical Clinical Center for Diagnostics and Telemedicine Technologies; 2023. (In Russ.) EDN: XKXHDA
- Kodenko MR, Vasilev YA, Vladzymyrskyy AV, et al. Diagnostic accuracy of ai for opportunistic screening of abdominal aortic aneurysm in CT: a systematic review and narrative synthesis. Diagnostics. 2022;12(12):3197. doi: 10.3390/diagnostics12123197 EDN: ERWYPX
- Horiuchi D, Tatekawa H, Oura T, et al. ChatGPT’s diagnostic performance based on textual vs. visual information compared to radiologists’ diagnostic performance in musculoskeletal radiology. European Radiology. 2024;35(1):506–516. doi: 10.1007/s00330-024-10902-5 EDN: JAHWFM
- Mitsuyama Y, Tatekawa H, Takita H, et al. Comparative analysis of GPT-4-based ChatGPT’s diagnostic performance with radiologists using real-world radiology reports of brain tumors. European Radiology. 2024;35(4):1938–1947. doi: 10.1007/s00330-024-11032-8 EDN: UHMLBQ
- Kaya K, Gietzen C, Hahnfeldt R, et al. Generative Pre-trained Transformer 4 analysis of cardiovascular magnetic resonance reports in suspected myocarditis: A multicenter study. Journal of Cardiovascular Magnetic Resonance. 2024;26(2):101068. doi: 10.1016/j.jocmr.2024.101068 EDN: TSRLJX
- Grolleau E, Couraud S, Jupin Delevaux E, et al. Incidental pulmonary nodules: Natural language processing analysis of radiology reports. Respiratory Medicine and Research. 2024;86:101136. doi: 10.1016/j.resmer.2024.101136 EDN: DHDPIX
- Khoruzhaya AN, Kozlov DV, Arzamasov KM, Kremneva EI. Comparison of an ensemble of machine learning models and the BERT language model for analysis of text descriptions of brain CT reports to determine the presence of intracranial hemorrhage. Sovremennye tehnologii v medicine. 2024;16(1):27–36. doi: 10.17691/stm2024.16.1.03 EDN: AXXVVD
- Han T, Adams LC, Bressem KK, et al. Comparative analysis of multimodal large language model performance on clinical vignette questions. JAMA. 2024;331(15):1320–1321. doi: 10.1001/jama.2023.27861 EDN: KPFLZG
- Horiuchi D, Tatekawa H, Shimono T, et al. Accuracy of ChatGPT generated diagnosis from patient's medical history and imaging findings in neuroradiology cases. Neuroradiology. 2023;66(1):73–79. doi: 10.1007/s00234-023-03252-4 EDN: SRFGAA
- Wataya T, Miura A, Sakisuka T, et al. Comparison of natural language processing algorithms in assessing the importance of head computed tomography reports written in Japanese. Japanese Journal of Radiology. 2024;42(7):697–708. doi: 10.1007/s11604-024-01549-9 EDN: VAKPBV
- Cagnina A, Salihu A, Meier D, et al. Assessing the need for coronary angiography in high-risk non-ST-elevation acute coronary syndrome patients using artificial intelligence and computed tomography. The International Journal of Cardiovascular Imaging. 2024;41(1):55–61. doi: 10.1007/s10554-024-03283-9 EDN: JMBFSX
- Gallifant J, Afshar M, Ameen S, et al. The TRIPOD-LLM reporting guideline for studies using large language models. Nature Medicine. 2025;31(1):60–69. doi: 10.1038/s41591-024-03425-5 EDN: KAPIXF
- Tripathi S, Alkhulaifat D, Doo FX, et al. Development, evaluation, and assessment of large language models (DEAL) checklist: a technical report. NEJM AI. 2025;2(6). doi: 10.1056/AIp2401106
- Benjamini Y, Hochberg Y. Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society Series B: Statistical Methodology. 1995;57(1):289–300. doi: 10.1111/j.2517-6161.1995.tb02031.x
- Hollestein LM, Lo SN, Leonardi-Bee J, et al. MULTIPLE ways to correct for MULTIPLE comparisons in MULTIPLE types of studies. British Journal of Dermatology. 2021;185(6):1081–1083. doi: 10.1111/bjd.20600 EDN: QQWVVP
- Collins GS, Moons KGM, Dhiman P, et al. TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods. BMJ. 2024;385:e078378. doi: 10.1136/bmj-2023-078378 EDN: WSTQKK
- Cohen JF, Korevaar DA, Altman DG, et al. STARD 2015 guidelines for reporting diagnostic accuracy studies: explanation and elaboration. BMJ Open. 2016;6(11):e012799. doi: 10.1136/bmjopen-2016-012799
- Bossuyt PM, Reitsma JB, Bruns DE, et al. STARD 2015: an updated list of essential items for reporting diagnostic accuracy studies. BMJ. 2015;351:h5527. doi: 10.1136/bmj.h5527
- Vasiliev YuA, Vlazimirsky AV, Omelyanskaya OV, et al. Methodology for testing and monitoring artificial intelligence-based software for medical diagnostics. Digital Diagnostics. 2023;4(3):252–267. doi: 10.17816/DD321971 EDN: UEDORU
- Vasilev YuA, Bobrovskaya TM, Arzamasov KM, et al. Medical datasets for machine learning: fundamental principles of standartization and systematization. Manager Zdravookhranenia. 2023; (4):28–41. doi: 10.21045/1811-0185-2023-4-28-41 EDN: EPGAMD
- Vinogradova IA, Nizovtsova LA, Omelyanskaya OV. Innovative strategic session in the scientific activity of the Center for Diagnostics and Telemedicine. Digital Diagnostics. 2022;3(4):414–420. doi: 10.17816/DD111833 EDN: DLRLVI
- Kalinina ML, Svitachev AP, Biswas D, Vishnu P. Comparison of awareness and attitudes toward artificial intelligence among Russian- and English-speaking students at Orenburg State Medical University. Digital Diagnostics. 2023;4(1S):62–65. doi: 10.17816/DD430346 EDN: DIKOYA
Дополнительные файлы
