Результаты удалось воспроизвести в четырех лабораториях
Исследователи из лабораторий Калифорнийского университета в Санта-Барбаре, Калифорнийского университета в Беркли, Стэнфордского университета и Университета Вирджинии несколько раз воспроизвели 16 результатов социально-поведенческих исследований. Воспроизводимость достигла 86 процентов, а величина эффектов была сопоставима в разных повторениях. Это может говорить о том, что проблемы с повторением ранее полученных результатов иногда связаны с недостаточно строгим подходом к эксперименту. Результаты опубликованы в Nature Human Behaviour.
Более 10 лет назад ученые обнаружили, что результаты многих крупномасштабных исследований — даже тех, что опубликованы в самых авторитетных журналах, — невозможно воспроизвести. Попытки повторить результаты приводили либо к тому, что ученые вовсе не обнаруживали описанных эффектов, или обнаруживали заметно более низкий размер эффектов. Это явление назвали кризисом воспроизводимости, и особенно он касался социальных и психологических исследований. Так, в 2015 году группа психологов под руководством Брайана Нозека (Brian Nosek) попыталась повторить сотню психологических исследований — и лишь 39 из них удалось воспроизвести. Затем команда Нозека пробовала повторить результаты экономических и социальных исследований — и среди них воспроизводимыми оказалось чуть больше 60 процентов. Ученые задались вопросом, связано ли это с самими методами или с них неоптимальной реализацией.
Теперь четыре лаборатории из США объединились, чтобы выяснить, можно ли избежать низкой воспроизводимости в социально-поведенческих исследованиях, если повысить методическую строгость. Руководили исследованием Брайан Нозек (Brian Nosek) из Университета Вирджинии, Джонатан Скулер (Jonathan Schooler) из Калифорнийского университета в Санта-Барбаре, Джон Кросник (Jon Krosnick) из Стэндфордского университета, Лейф Нельсон (Leif Nelson) из Калифорнийского университета в Беркли. Лаборатории должны были исследовать любой социально-поведенческий аспект и получить результаты — новые и неочевидные. На этом этапе особенно строгих требований к выполнению экспериментов не было. В итоге четыре лаборатории провели по четыре пилотных исследования (все они представляли собой онлайн-опрос) и получили в сумме 16 гипотез. К примеру, одно исследование говорило, что если людей принудить быстро отвечать на вопросы, они будут давать более социально-одобряемые ответы. Краткие описания остальных результатов можно найти в таблице внутри статьи. Все исследования представляли собой онлайн-опросы.
Затем исследователи проверили свои результаты самостоятельно на большой выборке в 1500 или более человек (участниками были взрослые жители США). После этого для каждого исследования они зарегистрировали дизайн и подробный план анализа данных. Затем максимально подробно описали методы, чтобы другие лаборатории могли повторить их. Далее четыре лаборатории независимо заново провели каждое из 16 исследований — включая четыре собственных на таких же больших выборках. Если инструкций не хватало, можно было обратиться к авторам за разъяснением или уточнением. Таким образом, все эксперименты были придуманы и проведены однократно, один раз проверены их авторами на большой выборке (16 подтверждающих исследований) и еще по четыре раза — авторами и тремя другими исследовательскими группами на новых выборках того же размера (64 воспроизведения на 16 открытий). Важно, что все исследования повторили независимо от того, положительными или отрицательными были результаты. Это устранило научную предвзятость: обычно публикуют и пытаются производить лишь положительные результаты.
Когда авторы повторили свои же эксперименты на больших выборках, воспроизвести удалось 13 результатов из 16 — 81 процент (p < 0,005). Другим командам удалось воспроизвести результаты в 86 процентах случаев — 55 из 64 раз (p < 0,001). Средние размеры эффекта почти во всех случаях были сопоставимы с размерами эффекта, которые наблюдались в самоподтверждающих тестах. Когда ученые проанализировали повторения только тех 13 исследований, результаты которых удалось подтвердить самим авторам, воспроизводимость увеличилась до 90 процентов.
Таким образом ученые выявили высокую степень воспроизводимости результатов социально-поведенческих исследований и не обнаружили во время повторений снижений размера эффекта, о которых сообщалось ранее. Авторы отметили, что успех повторения не был связан с тем, что лаборатории проверяли очевидные результаты, которые непременно должны воспроизводиться. Для того, чтобы это доказать, они предлагали независимым участникам прочитать краткие описания экспериментов и предположить, к каким результатам они должны привести. Предсказуемость этих экспериментов была сопоставима с предсказуемостью ранних исследований, которые не всегда успешно воспроизводились.
Ученые заключили, что низкая воспроизводимость результатов подобных исследований и снижение эффектов — не что-то неизбежное. Совершенствование методов (предварительная регистрация, большой размер выборки и открытость материалов) может быть стратегией, которая повысит воспроизводимость.
Невозможность воспроизвести результаты многочисленных научных экспериментов назвали кризисом воспроизводимости. Мы рассказывали о том, что это может значить для науки, в материалах «Не повторяется такое иногда» и «Попробуй повтори».
Обладатели среднего уровня физической активности стали главными двигателями ЗОЖ в массы
В исследовании, опубликованном в журнале PLoS One, американские психологи и математики показывают, как зависит заразительность массового спорта от изменения активности средне- и высокоактивных людей. Применение модели Кермака-Маккендрика показало, что самое важное звено распространения моды на ЗОЖ — люди со средним уровнем физической активности. Если не давать им прекращать заниматься спортом и повысить их социальную связь с неактивными людьми, то можно улучшить физическое здоровье общества в целом. В последние полвека было много исследований, показывающих, сколько и как надо человеку двигаться, чтобы защитить себя от болезней обмена веществ, сердца, сосудов и головного мозга. В целом, согласно этим исследованиям, перед большинством людей стоит более чем реальная цель в несколько десятков минут занятий в день. Тем не менее, лишь от четверти до половины взрослых людей в развитых странах в состоянии регулярно эту цель выполнять. Правительства и неправительственные организации пытаются стимулировать физическую активность людей, и эту социальную политику можно организовать по разному. Наряду с влиянием социальной рекламы и программ, важен пример, который показывают родственники, близкие знакомые и коллеги друг другу. Формирование и распространение новые социальных паттернов иногда подчиняется тем же законам, что и распространение инфекционных заболеваний в условиях эпидемии. Для прогнозирования эпидемий существует система дифференциальных уравнений Кермака-Маккендрика. В базовом варианте этой модели вся популяция состоит из трех частей: восприимчивые к инфекции (не болевшие), инфицированные и выздоровевшие (об этой SIR-модели мы рассказывали в материале «Зараза, гостья наша»). Математики и психологи из нескольких университетов США под руководством Дайаны Томас (Diana M.Thomas) из Военной академии США в Вест-Пойнте приложили законы развития эпидемий к повышению физической тренированности и попытались смоделировать заразительность здорового образа жизни. В случае эпидемий можно вычислить базовое репродуктивное число и сказать, сколько человек в среднем заразит один носитель. Заразительность идей и привычек (в том числе привычки к здоровому образу жизни) зависит от авторитета «апологета» идеи в глазах «внушаемого», но авторитет крайне сложно измерить. Чтобы обойти проблему, авторы исследования воспользовались данными замкнутого коллектива с выстроенной иерархией — армии. Они проанализировали результаты 372 курсантов Военной академии США в беге в условиях массового старта. Анализ результатов показал, что худшие результаты по подразделениям были довольно кучными — наихудшие бегуны добегали дистанцию вместе и не были мотивированы на улучшение своего результата. Таким образом, заключили доктор Томас с коллегами, есть социальное влияние, ухудшающее результаты испытуемых со средним уровнем активности. Авторы разработали модель на базе SIR, описывающую влияние физической активности людей в обществе друг на друга. Как и в исходной эпидемиологической модели, из людей сформировали три группы: малоактивные, среднеактивные и высокоактивные. В сценарии, когда нет социального влияния одних групп на другие, а все переходы между группами случайны, базовое репродуктивное число равно нулю. Следовательно, по логике авторов, сценарий, когда на физическую активность влияют только факторы объективной необходимости (например, поменялись условия работы, врач предписал физические упражнения или человек получил травму и не смог двигаться) не позволят поднять уровень физической активности населения. Во втором сценарии, когда мало- и высокоактивные люди не влияют социально друг на друга, а люди из средней группы не могут переходить в малоактивную группу, возможно два исхода. В зависимости от коэффициентов, количество людей, не занимающихся физическими упражнениями, может как расти, так и падать. Потом авторы изменили условия и «запретили» людям из высокоактивной группы становиться неактивными, но разрешили переходить туда людям из среднеактивной группы. (Авторы руководствовались логикой, что адепт ЗОЖ при получении травмы не прекратит заниматься спортом, а скорее поменяет активность, лишь немного ее снизив, а человек, не имеющий такого энтузиазма, после получения травмы может бросить занятия.) В результате заразительность идеи стала зависеть от числа неактивных людей в группе. Изменение коэффициентов, описывающих усиление социального взаимодействия между группами, дало снижение группы неактивных людей примерно на 20 процентов, а потеря активности людьми из средней группы — увеличивают ее почти на треть. В целом, наиболее сильно повлияли факторы социальных связей и предотвращение перехода среднеактивных к неактивному образу жизни. Его аналог исследователи увидели в группе военных, прибегавших последними в тесте: у них было недостаточно мотивации, чтобы следовать за более быстрыми курсантами, и они переходили в группу малоактивных. На основе составленных уравнений авторы разработали приложение, которое позволит оценить результаты социальных программ, меняя отдельные параметры, на которые нацелена та или иная программа. Моделирование социальных процессов позволяет предсказать динамику стоимости акций на бирже и выявлять закономерности в развитии коррупции в системе государственного управления.