17:43 08.06.26 3.1 IT

Большие языковые модели провалили тест Струпа

Это свидетельствует о фундаментальном дефиците исполнительного контроля внимания

Олег Лищук

Американские исследователи предложили популярным большим языковым моделям пройти тест Струпа на исполнительный контроль внимания и выяснили, что они плохо с ним справляются, и правильность ответов резко снижается с ростом предложенного списка слов. Статья опубликована в журнале PNAS Nexus.

Появление архитектуры нейросетей, основанной на механизме внимания, — трансформеров — позволило значительно ускорить процесс машинного обучения по сравнению с рекуррентными и сверточными сетями. Трансформеры лежат в основе моделей обработки естественного языка и больших языковых моделей, в том числе для таких задач как компьютерное зрение, распознавание речи и генерация видео. При этом остается неясным, обладают ли языковые модели присущим человеку исполнительным контролем внимания, который необходим для разрешения конфликтов и выборе релевантной информации при наличии конкурирующих решений и играет критическую роль в адаптивном поведении.

Классическими тестом на исполнительный контроль внимания у людей считается тест Струпа. Он основан на одноименном эффекте, который заключается в том, что в неконгруэнтных условиях (например, при необходимости назвать цвет слова «красный», написанного зеленым цветом, игнорируя значение слова) выполнение происходит с задержкой и меньшей точностью по сравнению с конгруэнтными (когда цвет и значение слова совпадают). При этом успех выполнения следующей подобной задачи модулируется ее совпадением или несовпадением по конгруэнтности с предыдущей. Выполнение теста в неконгруэнтных условиях требует исполнительного контроля внимания, которое позволяет подавить автоматический ответ, основанный на смысле написанного. Хотя у людей такое выполнение требует большего времени, его результативность в основном остается стабильной даже при длинных списках предложенных слов и в норме превышает 95 процентов даже при 60-минутном тесте с 1500 словами.

Цзинь Фань (Jin Fan) из Городского университета Нью-Йорка и его коллеги предложили пройти тест Струпа популярным большим языковым моделям на основе трансформеров GPT-4o и Claude 3.5 Sonnet. В любых заданиях на прочтение слов и конгруэнтных заданиях на наименование цветов обе модели показали хороший и достаточно стабильный при удлинении списка слов результат (99 процентов до 20 слов, 89 и 92 процента при 40 словах). В неконкруэнтных модели справлялись с наименованием цветов примерно на уровне людей при небольших списках — порядка пяти слов, после чего результативность снижалась. GPT-4o показал успех 91 процент при пяти словах, 57 процентов при 10, 22 процента при 20 и 15 процентов при 40 словах. Результативность Claude 3.5 Sonnet оставалась относительно стабильной — 76 процентов — до 20 слов, но падала до 24 процентов к 40 словам.

При смешанных задачах, представляющих случайную последовательность равного количества конгруэнтных и неконгруэнтных условий, результативность моделей в конгруэнтных условиях оставалась на прежнем уровне, а в неконгруэнтных становилась еще хуже, быстро снижаясь практически до ноля (у Claude 3.5 Sonnet несколько медленнее, чем у GPT-4o). В тесте с разноцветными нейтральными (не означающими цвета словами) результативность была хорошей в списках до 10 слов, но существенно снижалась к 20 и еще более заметно — к 40 словам, а в невербальном с разноцветными символами «х» дольше сохраняла стабильность, но затем все равно снижалась.

Проведенный позже дополнительный анализ моделей GPT-5, Claude Opus 4.1 и Gemini 2.5 Pro с небольшими размерами выборок показал небольшие улучшения, но общие тенденции сохранялись. Общая точность оказалась несколько выше у Gemini 2.5 Pro, но она демонстрировала неожиданный паттерн — была примерно одинаковой в неконгруэнтных (72 процента), смешанных (71 процент) и нейтральных (73 процента) условиях, но резко падала в невербальном (40 процентов).

Полученные результаты демонстрируют не присущий нейротипичным людям фундаментальный дефицит исполнительного контроля у больших языковых моделей, который выражается в первую очередь в ограниченных способностях к разрешению конфликтов и торможению спонтанных ответов.

Проведенные ранее исследования показали, что получение информации от больших языковых моделей приводит к более поверхностному изучению предмета по сравнению с использованием обычных поисковых систем, и что чат-боты на основе больших языковых моделей с большой уверенностью отвечают на медицинские вопросы, но дают проблематичные ответы почти в половине случаев.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

08:45 14.05.26 1.2 Медицина IT

FDA одобрило первую ML-систему для непрерывного мониторинга сепсиса

Ее применение снижало смертность от заболевания почти на 19 процентов

Олег Лищук

Управление по контролю качества пищевых продуктов и лекарственных средств США (FDA) одобрило к применению первую систему на основе алгоритмов машинного обучения для непрерывного мониторинга и ранней диагностики сепсиса, говорится в пресс-релизе компании Bayesian Health. Система предназначена для того, чтобы постоянно наблюдать за показателями всех госпитализированных пациентов, обнаруживать признаки сепсиса до того, как их может заподозрить клиницист, и оказывать информационную поддержку при оказании помощи по поводу этого жизнеугрожающего заболевания. Она представляет собой часть более обширной платформы Bayesian для мониторинга различных опасных состояний, таких как сердечно-сосудистые события или дыхательная недостаточность.