Подписка тут

Чат-боты уверенно дали проблематичные ответы на половину медицинских вопросов

Качество ссылок и читабельность оказались низкими

Николас Тиллер (Nicholas Tiller) из Калифорнийского университета в Лос-Анджелесе с коллегами из Великобритании, Канады и США провел эксперимент и пришел к выводу, что популярные чат-боты на основе больших языковых моделей с большой уверенностью отвечают на медицинские вопросы, но дают проблематичные ответы почти в половине случаев. Исследователи в феврале 2025 года задали по 10 вопросов (как закрытых, так и открытых) на пять медицинских тем (рак, вакцины, стволовые клетки, питание и спортивная подготовка) чат-ботам Gemini, DeepSeek, Meta AI*, ChatGPT и Grok. Ответы оценивали по два эксперта в каждой категории на основании объективных установленных критериев. Результаты опубликованы в журнале BMJ Open.

Эксперты оценили как проблематичные 49,6 процента ответов чат-ботов — 30 процентов как несколько проблематичные и 19,6 процента как высоко проблематичные. Качество ответов значимо не различалось у разных чат-ботов (p = 0,566), но Grok давал больше высоко проблематичных ответов, чем ожидалось при случайном распределении (z-оценка +2,07; p = 0,038). Наилучшими были ответы по вакцинам (z-оценка -2,57) и раку (-2,12), а наихудшими — по стволовым клеткам (+1,25), спортивной подготовке (+3,74) и питанию (+4,35). При этом ответы давались с уверенностью и убедительностью, из 250 заданных в сумме вопросов лишь на два (0,8 процента) был получен отказ отвечать. Качество ссылок было плохим (медианная полнота 40 процентов), стабильно присутствовали галлюцинации и сфабрикованные цитаты. Уровни читабельности были сложными, на уровне учащихся средних курсов колледжей.

* Meta AI принадлежит компании Meta, деятельность которой запрещена в России

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Неоптимальное питание привело к четырем миллионам смертей при ишемической болезни сердца в 2023 году

Среди неблагоприятных факторов — низкое потребление фруктов