09.05.2024. - Медицинский ИИ Google превосходит врачей по эффективности

Медицинский ИИ Google превосходит врачей по эффективности

Google Research и исследовательская лаборатория искусственного интеллекта Google DeepMind подробно рассказали о впечатляющем охвате Med-Gemini, семейства передовых моделей искусственного интеллекта, специализирующихся на медицине. Это огромный прогресс в клинической диагностике с огромным потенциалом для применения в реальном мире. Ежедневно врачи обслуживают множество пациентов, потребности которых варьируются от простых до очень сложных. Для оказания эффективной медицинской помощи они должны быть знакомы с историей болезни каждого пациента и быть в курсе новейших процедур. И еще есть очень важные отношения между врачом и пациентом, построенные на эмпатии, доверии и общении. Чтобы ИИ смог приблизиться к моделированию работы реального врача, он должен уметь делать все эти вещи.

Взаимодействие искусственного интеллекта и медицины действительно набрало обороты. За последние шесть месяцев New Atlas сообщал о моделях искусственного интеллекта, которые помогают менее опытным врачам выявлять предвестники рака толстой кишки, диагностировать детский аутизм по изображениям глаз и предсказывать в режиме реального времени, удалил ли хирург все раковые ткани во время операции по удалению рака молочной железы. Но Мед-Джемини - это нечто другое. Модели Google Gemini представляют собой новое поколение мультимодальных моделей искусственного интеллекта, что означает, что они могут обрабатывать информацию из различных источников, включая текст, изображения, видео и аудио. Модели хорошо владеют языком и разговорной речью, понимают разнообразную информацию, которой их обучают, и то, что называется "логикой в широком контексте", или рассуждениями на основе больших объемов данных, таких как часы видео или десятки часов аудио.

Med-Gemini обладает всеми преимуществами базовых моделей Gemini, но они были доработаны. Исследователи протестировали эти усовершенствования, ориентированные на медицину, и включили их результаты в статью. В 58-страничном документе много интересного; мы выбрали наиболее впечатляющие фрагменты. Для постановки диагноза и составления плана лечения врачам необходимо объединить свои собственные медицинские знания с большим количеством другой важной информации: симптомами пациента, медицинским, хирургическим и социальным анамнезом, результатами лабораторных исследований и других исследовательских тестов, а также реакцией пациента на предшествующее лечение. Процедуры - это "подвижный праздник", в ходе которого обновляются существующие и вводятся новые. Все это влияет на клинические рассуждения врача.

Вот почему в Med-Gemini Google включил доступ к веб-поиску, чтобы обеспечить более продвинутый клинический анализ. Как и многие другие крупные языковые модели, ориентированные на медицину (LLM), Med-Gemini прошла обучение по MedQA - вопросам с множественным выбором, которые представляют собой вопросы для экзамена на получение медицинской лицензии в США (USMLE), предназначенные для проверки медицинских знаний и рассуждений в различных сценариях. Однако Google также разработала два новых набора данных для своей модели. Первый, MedQA-R (Reasoning), расширяет MedQA с помощью синтетически сгенерированных логических объяснений, называемых "Цепочкой мыслей" (CoTs). Второй, MedQA-RS (Рассуждение и поиск), предоставляет модели инструкции по использованию результатов веб-поиска в качестве дополнительного контекста для повышения точности ответа. Если медицинский вопрос приводит к неопределенному ответу, модели предлагается выполнить поиск в Интернете для получения дополнительной информации, позволяющей устранить неопределенность.

Med-Gemini был протестирован на 14 медицинских тестах и показал новые современные характеристики (SoTA) на 10, превзойдя семейство моделей GPT-4 по всем показателям, с которыми можно было провести сравнение. В тестовом тесте MedQA (USMLE) Med-Gemini достигла точности в 91,1%, используя свою стратегию поиска с учетом неопределенности, опередив предыдущую медицинскую программу Google LLM, Med-PaLM 2, на 4,5%. По семи мультимодальным критериям, включая Image challenge от New England Journal of Medicine (NEJM) (изображения сложных клинических случаев, на основании которых ставится диагноз из списка из 10), Med-Gemini показал лучшие результаты, чем GPT-4, со средним относительным отрывом в 44,5%.

“Несмотря на то, что результаты... многообещающие, необходимы значительные дальнейшие исследования”, - заявили исследователи. “Например, мы не рассматривали возможность ограничения результатов поиска более авторитетными медицинскими источниками, использования мультимодального поиска или проведения анализа точности и релевантности результатов поиска, а также качества цитат. Кроме того, еще предстоит выяснить, можно ли научить более мелкие магистратуры также пользоваться веб-поиском. Мы оставляем эти исследования для будущей работы”. Электронные медицинские карты (EHR) могут быть объемными, но врачи должны знать, что в них содержится. Еще больше усложняет ситуацию то, что они обычно содержат текстовые сходства (“сахарный диабет” и “диабетическая нефропатия”), орфографические ошибки, сокращения (“Rx” и “рецепт”) и синонимы (“нарушение мозгового кровообращения” и “инсульт”). – вещи, которые могут представлять угрозу для искусственного интеллекта.

Чтобы проверить способность Med-Gemini понимать медицинскую информацию в широком контексте и делать выводы на ее основе, исследователи выполнили так называемую "задачу поиска иголки в стоге сена", используя большую общедоступную базу данных Medical Information Mart для интенсивной терапии или MIMIC-III, содержащую неидентифицированные данные о состоянии здоровья. данные о пациентах, поступивших в отделение интенсивной терапии. Цель модели состояла в том, чтобы найти соответствующее упоминание о редком и малозаметном заболевании, симптоме или процедуре ("игла") из большой коллекции клинических заметок в EHR ("стог сена"). Было отобрано двести примеров, и каждый пример состоял из коллекции неидентифицированных записей о состоянии здоровья 44 пациентов отделения интенсивной терапии с длительной историей болезни. Они должны были соответствовать следующим критериям:

- Более 100 медицинских заметок, объем каждой из которых варьируется от 200 000 до 700 000 слов

- В каждом примере заболевание упоминалось только один раз

- В каждом примере было только одно заболевание, представляющее интерес

Задача "найти иголку в стоге сена" состояла из двух этапов. Во-первых, Med-Gemini должна была извлечь все упоминания о конкретной медицинской проблеме из обширных записей. Во-вторых, модель должна была оценить актуальность всех упоминаний, классифицировать их и сделать вывод о том, была ли у пациента в анамнезе такая проблема, предоставив четкие основания для ее решения. По сравнению с методом SoTA, Med-Gemini хорошо справился с задачей поиска иголки в стоге сена. Он оценил точность на 0,77 балла по сравнению с методом SoTA (0,85) и за пределами метода SoTA по отзыву: 0,76 против 0,73.

“Пожалуй, наиболее примечательным аспектом Med-Gemini являются возможности обработки данных в долгосрочном контексте, поскольку они открывают новые горизонты производительности и новые, ранее неосуществимые возможности применения для медицинских систем искусственного интеллекта”, - говорят исследователи. “Эта задача поиска "иголки в стоге сена" отражает реальную проблему, с которой сталкиваются клиницисты, а производительность Med-Gemini-M 1.5 демонстрирует ее потенциал для значительного снижения когнитивной нагрузки и расширения возможностей клиницистов за счет эффективного извлечения и анализа информации из огромных массивов данных о пациентах”. Чтобы ознакомиться с простым для понимания обсуждением этих ключевых моментов исследования и обновленной информацией о противостоянии Google и Microsoft, посмотрите видео с объяснениями в области искусственного интеллекта, начиная с 13:38.

В ходе проверки на полезность в реальных условиях пользователь-пациент задал Med-Gemini вопрос о зудящем кожном новообразовании. После запроса изображения модель задала соответствующие дополнительные вопросы и правильно диагностировала редкое поражение, рекомендовав пользователю, что делать дальше. Med-Gemini также попросили интерпретировать рентгеновский снимок грудной клетки для врача, пока они ожидали официального заключения рентгенолога, и сформулировать простую версию отчета на английском языке, которую можно было бы предоставить пациенту. “Возможности мультимодального диалога в Med-Gemini-M 1.5 являются многообещающими, поскольку они реализуются без какой-либо специальной настройки медицинского диалога”, - говорят исследователи. “Такие возможности обеспечивают беспрепятственное и естественное взаимодействие между людьми, врачами и системами искусственного интеллекта”.

Однако исследователи признают, что необходима дальнейшая работа. “Эта возможность обладает значительным потенциалом для полезного применения в реальных условиях, включая оказание помощи клиницистам и пациентам, но, конечно, также сопряжена с весьма значительными рисками”, - сказали они. “Несмотря на то, что мы подчеркиваем потенциал будущих исследований в этой области, в этой работе мы не проводили строгого сравнительного анализа возможностей клинической беседы, которые ранее были изучены другими специалистами в рамках специальных исследований в области разговорного диагностического ИИ”. Что делать дальше? Исследователи признают, что предстоит проделать гораздо больше работы, но первоначальные возможности модели Med-Gemini, безусловно, многообещающие. Важно отметить, что они планируют внедрять принципы ответственного ИИ, включая конфиденциальность и справедливость, на протяжении всего процесса разработки модели.

“Соображения конфиденциальности, в частности, должны основываться на существующей политике здравоохранения и нормативных актах, регулирующих и защищающих информацию о пациентах”, - заявили исследователи. “Справедливость - это еще одна область, которая может потребовать внимания, поскольку существует риск того, что системы искусственного интеллекта в здравоохранении могут непреднамеренно отражать или усиливать исторические предубеждения и неравенство, что потенциально может привести к несоответствию характеристик моделей и пагубным последствиям для маргинализированных групп”. Но, в конечном счете, Med-Gemini рассматривается как инструмент во благо.

“Большие мультимодальные языковые модели открывают новую эру возможностей для здравоохранения и медицины”, - говорят исследователи. “Возможности, продемонстрированные Gemini и Med-Gemini, предполагают значительный скачок вперед в плане глубины и широты возможностей для ускорения биомедицинских открытий и оказания помощи в оказании медицинской помощи и получении опыта. Однако крайне важно, чтобы расширение возможностей моделей сопровождалось пристальным вниманием к надежности и безопасности этих систем. Уделяя приоритетное внимание обоим аспектам, мы можем ответственно относиться к будущему, в котором возможности систем искусственного интеллекта станут значимыми и безопасными ускорителями как научного прогресса, так и медицинской помощи”.

Источник