Inter-observer variability between readers of CT images: all for one and one for all

Nikolas S. Kulberg; Кульберг Николай Сергеевич; Nikolas S. Kulberg; Roman V. Reshetnikov; Решетников Роман Владимирович; Roman V. Reshetnikov; Vladimir P. Novik; Новик Владимир Петрович; Vladimir P. Novik; Alexey B. Elizarov; Елизаров Алексей Борисович; Alexey B. Elizarov; Maxim A. Gusev; Гусев Максим Александрович; Maxim A. Gusev; Victor A. Gombolevskiy; Гомболевский Виктор Александрович; Victor A. Gombolevskiy; Anton V. Vladzymyrskyy; Владзимирский Антон Вячеславович; Anton V. Vladzymyrskyy; Sergey P. Morozov; Морозов Сергей Павлович; Sergey P. Morozov

doi:10.17816/DD60622

Вариабельность заключений при интерпретации КТ-снимков: один за всех и все за одного

Авторы: Кульберг Н.С.¹^,2, Решетников Р.В.¹^,3, Новик В.П.¹, Елизаров А.Б.¹, Гусев М.А.¹^,4, Гомболевский В.А.¹, Владзимирский А.В.¹, Морозов С.П.¹
Учреждения:
1. Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы
2. Федеральный исследовательский центр «Информатика и управление» Российской академии наук
3. Первый Московский государственный медицинский университет имени И.М. Сеченова (Сеченовский Университет)
4. Московский политехнический университет
Выпуск: Том 2, № 2 (2021)
Страницы: 105-118
Раздел: Оригинальные исследования
URL: https://journals.rcsi.science/DD/article/view/60622
DOI: https://doi.org/10.17816/DD60622
ID: 60622

Цитировать

Полный текст

Аннотация
Полный текст
Об авторах
Список литературы
Дополнительные файлы
Статистика

Аннотация

Обоснование. Разметка наборов медицинских изображений во многом полагается на субъективную интерпретацию наблюдаемых подозрительных структур. На настоящий момент не существует рекомендованного протокола по определению эталонных данных (ground truth), основанных на врачебных описаниях.

Цель ― анализ правильности и согласованности оценок рентгенологов, принимавших участие в подготовке общедоступного набора данных CTLungCa-500; определение взаимосвязи этих показателей с количеством специалистов, проводящих независимую интерпретацию изображений, полученных при компьютерно-томографическом (КТ) исследовании.

Материал и методы. Набор данных, в разметке которого принимали участие 34 рентгенолога, включает 536 КТ-исследований пациентов из группы риска развития рака лёгкого. Каждое КТ-исследование было независимо интерпретировано шестью специалистами, после чего обнаруженные ими подозрительные структуры проходили арбитраж другим экспертом. Для каждого эксперта подсчитывали количество истинно положительных, ложноположительных, истинно отрицательных и ложноотрицательных находок, на основании которых проводили оценку диагностической точности рентгенологов. Для анализа согласованности между заключениями рентгенологов использовали метрику процентного показателя.

Результаты. Увеличение количества специалистов, проводящих независимую интерпретацию КТ-исследований, ведёт к росту правильности их оценок при снижении согласованности. Среди факторов, влияющих на согласованность заключений между парами исследователей, выделяется расхождение мнений по поводу наличия лёгочного очага в конкретном участке КТ-снимка.

Заключение. Увеличение числа независимых первичных интерпретаций способно повысить их комбинированную правильность при условии проведения арбитража, причём квалификация рентгенологов не имеет определяющего значения для качества анализа. Проведение первичной разметки силами четырёх рентгенологов является оптимальным с точки зрения сочетания правильности интерпретации и её стоимости.

Ключевые слова

компьютерная томография, набор данных, эталонные данные, согласованность между заключениями

Полный текст

Открыть статью на сайте журнала

Об авторах

Николай Сергеевич Кульберг

Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы; Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Автор, ответственный за переписку.
Email: kulberg@npcmr.ru
ORCID iD: 0000-0001-7046-7157
SPIN-код: 2135-9543

кандидат физико-математических наук

Россия, 127051, Москва, ул. Петровка, д. 24; Москва

Роман Владимирович Решетников

Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы; Первый Московский государственный медицинский университет имени И.М. Сеченова (Сеченовский Университет)

Email: reshetnikov@fbb.msu.ru
ORCID iD: 0000-0002-9661-0254
SPIN-код: 8592-0558

кандидат физико-математических наук

Россия, 127051, Москва, ул. Петровка, д. 24; Москва

Владимир Петрович Новик

Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы

Email: v.novik@npcmr.ru
ORCID iD: 0000-0002-6752-1375
SPIN-код: 2251-1016
Россия, 127051, Москва, ул. Петровка, д. 24

Алексей Борисович Елизаров

Email: a.elizarov@npcmr.ru
ORCID iD: 0000-0003-3786-4171
SPIN-код: 7025-1257

кандидат физико-математических наук

Россия, 127051, Москва, ул. Петровка, д. 24

Максим Александрович Гусев

Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения г. Москвы; Московский политехнический университет

Email: m.gusev@npcmr.ru
ORCID iD: 0000-0001-8864-8722
SPIN-код: 1526-1140
Россия, 127051, Москва, ул. Петровка, д. 24; Москва

Виктор Александрович Гомболевский

Email: g_victor@mail.ru
ORCID iD: 0000-0003-1816-1315
SPIN-код: 6810-3279

кандидат медицинских наук

Россия, 127051, Москва, ул. Петровка, д. 24

Антон Вячеславович Владзимирский

Email: a.vladzimirsky@npcmr.ru
ORCID iD: 0000-0002-2990-7736
SPIN-код: 3602-7120

доктор медицинских наук, профессор

Россия, 127051, Москва, ул. Петровка, д. 24

Сергей Павлович Морозов

Email: morozov@npcmr.ru
ORCID iD: 0000-0001-6545-6170
SPIN-код: 8542-1720

доктор медицинских наук, профессор

Россия, 127051, Москва, ул. Петровка, д. 24

Список литературы

Морозов С.П., Кульберг Н.С., Гомболевский В.А., и др. Датасет радиологии Москвы CTLungCa-500. 2018. Режим доступа: https://mosmed.ai/datasets/ct_lungcancer_500/. Дата обращения: 11.02.2021.
Morozov S.P., Gombolevskiy V.A., Elizarov A.B., et al. A simplified cluster model and a tool adapted for collaborative labeling of lung cancer CT Scans//Comput Methods Programs Biomed. 2021. Vol. 206. Р. 106111. doi: 10.1016/j.cmpb.2021.106111
Kulberg N.S., Gusev M.A., Reshetnikov R.V., et al. Methodology and tools for creating training samples for artificial intelligence systems for recognizing lung cancer on CT images//Heal Care Russ Fed. 2020. Vol. 64, N 6. Р. 343–350. doi: 10.46563/0044-197X-2020-64-6-343-350
Hessel S.J., Herman P.G., Swensson R.G. Improving performance by multiple interpretations of chest radiographs: effectiveness and cost//Radiology. 1978. Vol. 127, N 3. Р. 589–594. doi: 10.1148/127.3.589
Herman P.G., Hessel S.J. Accuracy and its relationship to experience in the interpretation of chest radiographs//Invest Radiol. 1975. Vol. 10, N 1. Р. 62–67. doi: 10.1097/00004424-197501000-00008
MacMahon H., Naidich D.P., Goo J.M., et al. Guidelines for management of incidental pulmonary nodules detected on ct images: from the fleischner society 2017//Radiology. 2017. Vol. 284, N 1. Р. 228–243. doi: 10.1148/radiol.2017161659
Gerke O., Vilstrup M.H., Segtnan E.A., et al. How to assess intra- and inter-observer agreement with quantitative PET using variance component analysis: a proposal for standardisation//BMC Med Imaging. 2016. Vol. 16, N 1. Р. 54. doi: 10.1186/s12880-016-0159-3
Rasheed K., Rabinowitz Y.S., Remba D., Remba M.J. Interobserver and intraobserver reliability of a classification scheme for corneal topographic patterns//Br J Ophthalmol. 1998. Vol. 82, N 12. Р. 1401–1406. doi: 10.1136/bjo.82.12.1401
Van Riel S.J., Sánchez C.I., Bankier A.A., et al. Observer variability for classification of pulmonary nodules on low-dose ct images and its effect on nodule management//Radiology. 2015. Vol. 277, N 3. Р. 863–871. doi: 10.1148/radiol.2015142700
Wickham H., François R., Henry L., Müller K. dplyr: A Grammar of Data Manipulation. R package version 1.0.4. 2021.
Gamer M, Lemon J, Fellows I, Singh P. irr: Various Coefficients of Interrater Reliability and Agreement. 2019.
Wickham H. ggplot2: elegant Graphics for Data Analysis. Springer-Verlag New York; 2016. 260 р.
R Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. 2020. Режим доступа: http://www.r-project.org/index.html. Дата обращения: 11.02.2021.
Van Rossum G., Drake F.L. Python 3 Reference Manual. CreateSpace, Scotts Valley, CA; 2009.
Ardila D., Kiraly A.P., Bharadwaj S., et al. End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography//Nat Med. 2019. Vol. 25, N 6. Р. 954–961. doi: 10.1038/s41591-019-0447-x
Peters R., Heuvelmans M., Brinkhof S., et al. Prevalence of pulmonary multi-nodularity in CT lung cancer screening. 2015.
Creative Research Systems. The survey systems: Sample size calculator. 2012.
Hugo G.D., Weiss E., Sleeman W.C., et al. A longitudinal four-dimensional computed tomography and cone beam computed tomography dataset for image-guided radiation therapy research in lung cancer//Med Phys. 2017. Vol. 44, N 2. Р. 762–771. doi: 10.1002/mp.12059
Bakr S., Gevaert O., Echegaray S., et al. A radiogenomic dataset of non-small cell lung cancer//Sci Data. 2018. Vol. 5. Р. 180202. doi: 10.1038/sdata.2018.202
Armato S.G., McLennan G., Bidaut L., et al. The lung image database consortium (LIDC) and image database resource initiative (IDRI): a completed reference database of lung nodules on ct scans//Med Phys. 2011. Vol. 38, N 2. Р. 915–931. doi: 10.1118/1.3528204.

Дополнительные файлы

Доп. файлы

Действие

1. JATS XML

Скачать

2. Рис. 1. Правильность и согласованность оценок как функция от числа рентгенологов, принимающих участие в первичной разметке. Серым цветом показан 95% доверительный интервал. Точки соответствуют разным выборкам первичных экспертов. Для экспериментов с двумя, тремя и четырьмя экспертами отбирали по три различающихся выборки из исходных шести рентгенологов; для пяти ― по две.

Скачать (103KB)

Метаданные

3. Рис. 3. Согласие между первичными экспертами: а ― для представителей исходной когорты из 15 рентгенологов; b ― для рентгенологов, пришедших им на замену. Данные для эксперта с ID 000++ не приведены по причине малого количества отмеченных очагов. Для каждого рентгенолога первый столбец соответствует числу очагов, уникально размеченных этим специалистом (ни один из пяти других экспертов не распознал данную находку). Далее следуют столбцы, соответствующие случаям, когда выявленный рентгенологом очаг отмечали один, два, три, четыре и пять других первичных экспертов. При построении графика не учитывали одобрение арбитра, а также расхождения во мнениях между рентгенологами по поводу типа очага.

Скачать (179KB)

Метаданные

4. Рис. 2. Примеры КТ-исследований с существенным несогласием (а, b, CTLungCa-500 AN RLADD02000018919, ID RLSDD02000018855) и полным согласием (c, d, CTLungCa-500 AN RLAD42D007-25151, ID RLSD42D007-25151) между экспертами. Исследования приведены во фронтальной проекции в лёгочном (а, с) и мягкотканном (b, d) режимах. Отметки рентгенологов показаны различающимися цветами: а, b ― очаг разметили пять первичных экспертов из шести, четверо присвоили ему солидный тип и один ― полусолидный. Арбитр не согласился с их мнением, признав находку доброкачественным кальцинатом; c, d ― все шестеро первичных экспертов и арбитр классифицировали очаг как потенциально злокачественный солидный.

Скачать (389KB)

Метаданные

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация

Имя пользователя
Пароль
Запомнить меня

Забыли пароль?	Регистрация