Диагноз из машины

Когда искусственный интеллект станет безошибочно определять болезни

Анна Новокрещенова

Коммерческие решения на основе искусственного интеллекта (ИИ) почти 20 лет как вошли в клиническую практику и помогают врачам в диагностике заболеваний, ведении документации и наблюдении за пациентами. Причем тенденция усиливается: с 2015 по 2019 год количество ИИ-продуктов, ежегодно допускаемых для использования в клинике, выросло в 7,5 раза в Европе и в 8,5 раза в США. С 2018 года мировой объем рынка ИИ для медицинской диагностики вырос более чем в три раза, и аналитические фирмы прогнозируют 48-процентный среднегодовой рост до 2029 года. Тренд можно наблюдать и в России: первый диагностический алгоритм применили в московской клинике в 2020 году, в 2022-м еще 11 регионов страны внедрили ИИ в работу медучреждений.

При этом точность сегодняшних диагностических алгоритмов варьируется от 75 до 99 процентов, в то время как в персонализированной онкологии стандартный порог качества генетического тестирования — это чувствительность от 98 до 100 процентов при обнаружении соматических мутаций. Поэтому у одной части людей внедрение высоких технологий вызывает оптимизм, у другой — скепсис и сомнения. Разберемся, можно ли полностью доверять ИИ-системам, как оценивают их эффективность и можно ли ее повысить.

Этот текст написан в партнерстве с OpenBio. 25 февраля 2025 года на площадке стартует второй поток курса, в котором эксперты из области биоинформатики и машинного обучения, работающие в международных IT-компаниях, расскажут о базовых и продвинутых подходах к разработке моделей, в том числе в области анализа изображений и мультиомиксных данных для биомедицины. Приходите, чтобы узнать больше о тонкостях работы в этой сфере и научиться создавать эффективные и полезные модели машинного обучения для ваших задач. Промокод PLUS даст вам скидку 15 процентов на тариф для физических лиц.

Реклама: АНО «ИЦК», ИНН 5433141963, erid: LjN8K8hEJ

Недостаточно точно?

Уровень точности современных медицинских систем на основе ИИ легче всего оценить на примере систем компьютерного зрения, которые уже применяются медучреждениями в России. Как правило, метрики их качества публикуются в рецензируемых статьях или в виде технической документации на сайте продукта.

Так, инструмент Chest-IRA компании IRA Labs для анализа радиологических изображений грудной полости диагностирует рак легких с коэффициентом качества около 90 процентов. Платформа «Третье мнение» предлагает похожее решение для маммографии с точностью 89 процентов, установленной на внутреннем тестированииВо внутреннем тестировании анализ проводят на данных, полученных из близких к разработчикам источников. Например из партнерской клиники, участвующей в создании алгоритма. Внешнее тестирование предполагает использование независимых данных, которых алгоритм точно никогда «не видел». Внешнее исследование добавило бы веса, но в данном случае внутреннее тестирование довольно авторитетно, поскольку проводилось на большом числе разных пациентов.. ИИ-инструмент для обработки данных флюорографии от «Цельса» в сравнительном исследовании со схожими решениями показал чувствительность в 87,5 процента.

В мировой практике результаты аналогичны: например, инструмент для диагностики диабетической ретинопатии IDx-DR от Healthvisors получил одобрение для применения в клинике на основании валидационного исследования, которое показало чувствительность 87 процентов и специфичность 90 процентов.

Пока такие значения не могут соревноваться с высокой точностью генетического тестирования для онкологии (это уже упомянутые 98–100 процентов), которую демонстрируют в технических описаниях продуктов такие гиганты индустрии, как Foundation Medicine и Tempus. Задача этих тестов — обнаружить генетические события, которые помогут уточнить диагноз или назначить эффективное таргетное лечение, а так как противоопухолевые препараты — дорогое удовольствие, необходимо быть на 100 процентов уверенным, что подходящая мишень действительно есть в опухоли. Этого, в частности, требуют страховые компании, которые оплачивают лечение. Отсюда и высокие требования к метрикам.

На фоне высоких стандартов в генетическом тестировании показатели качества диагностических ИИ-систем выглядят удручающе. Например, для рака легких 90-процентная чувствительность означает, что у одного из десяти действительно больных пациентов опухоль пропустят при обследовании, а такая же специфичность говорит о том, что одному из десяти здоровых людей ошибочно диагностируют рак. Это же кошмар! Или нет?..

Машинное обучение в сегодняшней медицине

В Европе и США почти каждый второй врач использует ИИ в своей практике. Не без проблем, но новые технологии уже преображают многие медицинские сферы.

Так, алгоритмы для диагностики по изображениям, включая анализ гистологических срезов, рентгеновских снимков, КТ и МРТ, европейские врачи считают самым полезным применением ИИ в медицине. В частности, обученные модели помогают сэкономить время обследования, по разным оценкам, на 10–40 процентов по сравнению с традиционными методами.

В мультиомиксных технологиях — подходе к анализу больших данных о живых системах, сочетающих знания о геноме, белках, эпигенетических и метаболических особенностях — машинное обучение помогает предсказывать эффективность терапии, разрабатывать прогностические модели и классификаторы диагнозов. Такой подход применяется в онкологии, пульмонологии и при нейродегенеративных заболеваниях.

В разработке лекарств машинное обучение позволяет анализировать большие объемы данных для выявления новых терапевтических мишеней. ИИ также упрощает дизайн новых молекул и помогает оптимизировать их свойства.

Наконец, ИИ преображает лабораторный анализ. В клинической микробиологии алгоритмы выявляют микроорганизмы, диагностируют инфекционные заболевания и прогнозируют клинические исходы по показателям в крови и кале.

Все это помогает врачам не только ставить более точные диагнозы, но и тратить меньше времени на изучение и написание документов, снижает стоимость медицинских услуг. Например, парное чтение маммографических данных врачом и алгоритмом на треть дешевле, чем чтение двумя рентгенологами.

Как оценить?

Фактически диагностика заболеваний на основе медицинских изображений относится к задачам классификации, и ее эффективность можно измерять подсчетом случаев, когда классификатор был «прав» или «неправ» при обработке новых данных: результат работы модели сравнивают с ground truth — принятыми за истину значениями разметки изображений группой экспертов.

Для оценки классификационных моделей используют множество метрик: от простых, вроде процента ложноположительных случаев, до более комплексных, таких как коэффициент сходства Сёренсена — Дайса. Но чаще всего это:

Точность (accuracy) — общий показатель, который отражает долю правильно классифицированных случаев (и больных, и здоровых) от общего числа случаев в наборе данных. Точность 0,9 означает, что 90 процентов всех случаев классифицированы верно.
Чувствительность (sensitivity) — показывает, насколько хорошо классификатор способен выявлять случаи заболевания. Она рассчитывается как отношение числа правильно классифицированных случаев заболевания к общему числу случаев заболевания.
Специфичность (specificity) — демонстрирует, насколько точно классификатор распознает отсутствие заболевания. Она определяется как отношение числа правильно классифицированных здоровых индивидов к общему числу здоровых индивидов.
Кривая ROC (receiver operating characteristic) — график, который визуализирует компромисс между чувствительностью и специфичностью при различных порогах классификации. По оси x откладывается специфичность, а по оси y — чувствительность. Этот инструмент позволяет выбирать оптимальный порог для классификации, обеспечивая баланс между ложноотрицательными и ложноположительными результатами.

Оценка только по одной метрике может создать ложное представление о реальной производительности модели и привести к неожиданным результатам при ее внедрении в практику, поэтому разработчики используют комбинацию различных метрик и комплексно интерпретируют их результаты.

Как улучшить?

Показатели производительности в медицинских алгоритмах неточны по нескольким причинам, и часть их относится к качеству материалов, на которых модель обучалась.

Во-первых, нет единого «золотого» стандарта. Все, что мы имеем, — это «истина», установленная экспертами, с которой мы сравниваем решения модели. И она остается субъективным мнением врачей, а значит может содержать ошибки. Во-вторых, мнения экспертов варьируются, а значит и модели, обученные на референсах от разных врачей, могут решать одни и те же задачи по-разному. В-третьих, по мере получения новых клинических данных у пациентов, включенных в тренировочную выборку, меняются диагнозы, что тоже вносит неопределенность, ведь алгоритмы обучаются на ошибочных данных «недообследованных» случаев. Наконец, разные медицинские центры имеют свои практики, популяции пациентов и оборудование, что ограничивает репрезентативность результатов. Алгоритмы, разработанные и протестированные на данных из одного учреждения, могут показать низкие метрики качества при обследовании пациентов из другой клиники.

Помимо этого, производительность модели зависит от выбора параметров распознаваемого объекта (например, размера, формы, текстуры и плотности опухоли), на которых алгоритм будет основывать решение, и от технической сложности самой модели. Учитывая общие советы по валидации, тонкой настройке и перепроверке алгоритма, пока что модели достигают оптимальной производительности только в конкретных задачах.

Машина или врач?

Чтобы ответить на вопрос, кто лучше справляется с диагностикой — человек или компьютер, проводят клинические исследования. Сравнивают, насколько успешно анализируют изображения пара врачей, которые приходят к консенсусному решению, и модели ИИ, действующие самостоятельно либо в паре с врачом. Референсами выступают наборы снимков, проверенные и размеченные консилиумом экспертов.

Так, в диагностике переломов по рентгеновским изображениям врачи с ИИ-ассистентом превзошли результаты своих коллег без цифрового помощника по всем исследованным показателям. Чувствительность анализа была на 10,4 процента [95-процентный доверительный интервал — от 6,9 до 13,9Здесь и далее в квадратных скобках после значения величины указан диапазон 95-процентного доверительного интервала.] выше при использовании ИИ (75,2 процента — 4331 из 5760 правильно установленных случаев переломов), чем без него (64,8 процента — 3732 из 5760 выявленных случаев), а специфичность с помощью ИИ выросла на 5 процентов [2,0–8,0]. ИИ также сократил среднее время чтения одного изображения на 6,3 секунды.

При выявлении рака молочной железы использование ИИ в парном чтении с врачом увеличило количество корректно установленных случаев рака: 261 из 269 случаев против 250 из 269, соотношение правильно распознанных патологий — 1,04 [1,00–1,09], а одиночное чтение ИИ не проиграло в качестве парному чтению врачами (246 из 269 против 250 из 269 выявленных случаев, соотношение — 0,98 [0,93–1,04]). Тройное чтение двумя врачами и ИИ превзошло стандартное двойное чтение врачей (269 из 269 против 250 из 269 случаев, соотношение — 1,08 [1,04–1,11]), однако потребовало больше обсуждений для достижения врачами консенсуса.

Китайские исследователи научили алгоритм распознавать метастазы на срезах ткани лимфатических узлов, взятых у пациентов с раком мочевого пузыря после радикальной цистэктомии. Модель продемонстрировала чувствительность в 98,3 процента [94,1–99,8] при выявлении метастазов, превзойдя как младших, так и старших патологов (чувствительность 90,6 процента [87,1–93,4] и 94,7 процента [91,9–96,8] соответственно). Кроме того, у 13 пациентов модель обнаружила микрометастазы опухоли, которые были пропущены патологами.

Но не все так однозначно с сегментацией изображений молочной железы на МРТ: модель на базе глубокого обучения во внешнем тестировании показала более высокую специфичность (87,5 процента [80,6–93,6]) и площадь под ROC кривой (88,5 процента [84,2–89,2]) по сравнению с врачебной оценкой при использовании двух разных порогов для определения наличия рака (специфичность — 57,1 процента [47,3–66,7] и 80,4 процента [72,3–87,9]. ROC у врачей составила 76,7 процента [71,7–81,3] и 84,1 процента [79,2–88,5]). Однако чувствительность во всех сравнениях была лучше у рентгенологов.

Исследование диагностики рака по цифровой маммографии с томосинтезом — технологией послойной съемки молочной железы — показало лучший результат при интерпретации изображений врачом с поддержкой ИИ: чувствительность возросла по сравнению с самостоятельной врачебной оценкой (86 процентов против 81), хотя не было отмечено различий в специфичности или времени анализа.

Окончательный диагноз

Все эти примеры показывают, что системы на базе ИИ в целом справляются с диагностикой по изображениям не хуже врачей и даже улучшают показатели производительности, хотя тоже делают ошибки. Чувствительность моделей из приведенных статей варьируется от 75,2 до 98,3 процента.

Главный вывод, который можно из этого сделать: точность моделей на базе ИИ неидеальна, но это не значит, что модель с чувствительностью 80 процентов заведомо плоха и от нее стоит отказаться. Вероятно, ее оценка так же хороша, как мнение настоящего врача.

Может быть, дело в том, что именно анализ изображений вызывает трудности, а в других областях, где применяется ИИ, результаты еще лучше? Не совсем: диагностические модели, применяющие ИИ для анализа мультиомиксных данных, также имеют не стопроцентную точность, как и модели для анализа медицинских изображений. Например, платформа MI GPSai от компании Caris определяет происхождение опухоли на основании ее геномных и транскриптомных характеристик и на реальных данных показывает точность в 71,7 процента. Аналогичные модели от онкологического центра Memorial Sloan Kettering и консорциума ICGC/TCGA Pan-Cancer Analysis of Whole Genomes (PCAWG) демонстрируют высокие, но не идеальные показатели точности — 71 и 91 процент соответственно.

По сравнению с «простым» генетическим тестированием, нацеленным на обнаружение отдельных мутаций, где требуется чувствительность, близкая к 100 процентам, задача диагностических моделей значительно сложнее. Они агрегируют огромное количество разнородной информации, тогда как обнаружение мутаций основывается только на анализе текстовых последовательностей. Поэтому для генетических тестов и комплексной диагностики по изображениям или мультиомиксным данным пороги качества неизбежно будут разными, и это нормально.

Модели на основе ИИ и машинного обучения еще не достигли идеальной точности, но уже могут соперничать с опытными врачами в диагностике по изображениям. И чем шире эти алгоритмы будут внедряться в клиническую практику как помощники медиков, тем лучшие результаты они покажут. Потому что не делает ошибок тот, кто не учится.