Появляется всё больше свидетельств тому, что многие из опубликованных научных статей ошибаются. Правда ли это, почему так происходит и как можно с этим бороться? На эти и другие вопросы ответит Дерек Маллер, автор и ведущий канала Veritasium.

Перевод: Елизавета Полоцкая
Редактура: Алексей Малов
Озвучка: Вадим Казанцев
Монтаж видео: Джон Исмаилов
Обложка: Глеб Брайко

Источник

Разрешение на публикацию 

Скрытый текст
В две тысячи одиннадцатом году авторитетный журнал, посвященный вопросам личности и социальной психологии, опубликовал статью под названием: «Чувствовать будущее: экспериментальное подтверждение аномального ретроактивного воздействия на сознание и чувства”.
Другими словами: доказательство, что люди могут видеть будущее.
В статье приведено девять экспериментов. Участникам на экране показывали две шторы и просили угадать за какой из них скрывается изображение. За другой — просто белая стена.
Как только участник делал выбор, компьютер произвольно помещал изображение за одной из них, а затем отодвигал выбранную штору и показывал изображение, или стену.
Изображения случайным образом выбирались из трех категорий: нейтральные, отрицательные или эротические. Если участники выбирали нужную штору, это считалось успехом.
Так как у вас всего две шторы, за одной из которых есть изображение, логично, что вероятность успеха будет примерно пятьдесят процентов. Что и показали результаты опыта.
По крайней мере, для негативных и нейтральных изображений. Эротические, однако получили пятьдесят три процента. Значит ли это, что мы можем видеть будущее? Значимо ли это небольшое отклонение?
Оценить значимость данных, помогает пи-значение, определяющее, вероятность какого-либо результата, если верна нулевая гипотеза.
Здесь она заключалась в том, что люди на самом деле не заглядывали в будущее, а пятьдесят три процента — просто удачные совпадения.
В этом исследовании пи-значение было равно одной сотой, то есть, вероятность того, что пятьдесят три процента угадываний — случайность, равна одному проценту.
Если пи-значение меньше пяти сотых, данные обычно считают достоверными, и исследование публикуют. Но, может, стоит поднять планку, прежде чем признавать что люди могут предсказывать будущее и приглашать автора исследования на телевидение… но — эй — выбор за вами!
Сам порог в пять процентов был произвольно выбран Рональдом Фишером в книге тысяча девятьсот двадцать пятого года. В связи с этим встает вопрос: как много опубликованных исследований на самом деле врут?
Хочется ответить — пять процентов, ведь если все используют порог статистической значимости в пять процентов, то каждые пять из ста результатов будут ложноположительными. К сожалению, это сильная недооценка существующей проблемы. И вот почему.
Скажем, вы работаете в области где в данный момент существует тысяча гипотез. Предположим, что десять процентов из них отражают истинные зависимости, а остальные ошибаются, но никто не знает, какие — какие, в этом и смысл исследований.
Если эксперименты проведены качественно, можно достоверно выявить, скажем, восемьдесят из ста существующих зависимостей, то есть, статистическая мощность составит — восемьдесят процентов. Двадцать процентов — ложноотрицательны, из за слишком маленькой выборки или недостаточно точных измерений.
Используя пи-значения в пять процентов как порог достоверности, сорок пять из девятисот неверных гипотез мы все равно по ошибке будем считать истинными.
Другие эксперименты покажут ошибочность остальных гипотез, но такие работы редко попадают в печать. Лишь от десяти до тридцати процентов, в зависимости от области исследования.
А значит, среди опубликованных статей окажутся восемьдесят истинно положительных результатов, сорок пять ложно положительных и, около двадцати истинно отрицательных.
Почти треть результатов будет неверными, даже если система работает нормально.
Все становится еще хуже, если исследованиям не хватает статистической мощности (а обычно так и есть), если неверных гипотез гораздо больше, или исследователи предвзяты. 
На это обратила внимание работа от две тысячи пятого года: «Почему большинство опубликованных исследований врут?”
Недавно ученые из разных областей попытались оценить эту проблему, повторив самые выдающиеся работы. В рамках проекта воспроизвели сто исследований по психологии, но лишь тридцать шесть процентов показали статистически значимый результат во второй раз.
Да и обнаруженные закономерности оказались с среднем, в два раза слабее, чем в первый раз. Из пятидесяти трех исследований, на которых строится наше понимание рака, воспроизвести результаты удалось лишь шесть раз, даже работая совместно с авторами оригинальных исследований.
Эти результаты даже хуже, чем в моих расчетах. Причина тому хорошо понятна на примере работы две тысячи пятого года, о том, что немного шоколада каждый день помогает быстрее похудеть.
Участников исследования случайным образом разделили на три группы. Первая придерживалась низкоуглеводной диеты, вторая — той же диеты, плюс сорок грамм темного шоколада в день, а третья группа была контрольной, им сказали придерживаться обычного рациона.
Через три недели вес участников из контрольной группы не изменился, но обе группы, которые сидели на диете потеряли в среднем два килограмма на человека. Но группа, которая ела шоколад, теряла на десять процентов быстрее, чем те, кто его не употреблял.
Результат были статистически значимыми, а пи-значение менее пяти процентов. Как и следовало ожидать, эта новость разлетелась, как вирус. На первую страницу “Билд”, самого популярного ежедневника в Европе, а затем в “Дэйли Стар”, потом  “Айриш Экзаминер”, в “Хаффингтон Пост”. И даже в журнал “Шэйп”.
К сожалению, результаты оказались поддельными. В каком-то смысле. Исследователи действительно провели эксперимент, точно как описали, но они специально разработали его так, чтобы увеличить вероятность ложноположительного результата.
Размер выборки был невероятно маленьким — всего пять человек на группу, и для каждого отслеживалось восемнадцать различных параметров, включая вес, уровень холестерина, натрия, белка в крови, качества сна, самочувствия и так далее.
Если бы оказалось, что разницы в потере веса нет, можно было бы выбрать любой другой показатель. Заголовок мог бы быть: шоколад снижает уровень холестерина, повышает качество сна или что-то еще. 
Дело в том, что пи-значение имеет смысл, только при измерении одного показателя, а, если сравнивать множество переменных, вероятность, что хотя бы одна них даст ложноположительный результат, сильно возрастает.
Это называется «пи-хакинг”. Эксперимент можно провести так, чтобы уменьшить пи-значение. Предположим, после анализа данных оказалось, что до статистической значимости чуть-чуть не хватает.
Вы решаете собрать больше результатов, чтобы не сомневаться. И, если пи-значение падает ниже пяти процентов, прекращаете сбор, в уверенности, что любые новые данные лишь подтвердят вашу правоту, ведь вы однозначно идете по верному пути.
Но численное моделирование показывает, что можно перейти порог статистической значимости, в процессе сбора данных, даже если в конечном итоге окажется, что никакой зависимости на самом деле нет.
Повысить вероятность получения значимых результатов можно по-разному: использовать две зависимых переменных, проводить больше наблюдений, добавить различия по полу или исключить одно из трех условий.
Если использовать все стратегии, вероятность ложного положительного результата превысит шестьдесят процентов. И при этом пи остается меньше пяти.
Если вам кажется, что это проблема существует только в психологии, нейробиологии или медицине, вспомните пентакварк. Это редкая частица, состоящей из пяти кварков, в отличие от трех, как у протона или нейтрона. В физике элементарных частиц порог  статистической значимости — пять сигма. Это когда шанс ложноположительного результата один на три с половиной миллиона.
В две тысячи втором году японские ученые доказали существование тета плюс пентакварка. За два следующих года еще одиннадцать независимых экспериментов искали и нашли доказательства того же самого пентакварка с очень высоким уровнем статистической значимости.
С июля две тысячи третьего и до мая две тысячи четвертого теоретические работы о пентакварках выходили в среднем раз в два дня, но, увы, открытие оказалось ложным.
Дальнейшие экспериментальные попытки подтвердить его существование с большей статистической мощностью не обнаружили следов его существования. Проблема была в том, что авторы первой работы были предвзяты. Они знали, откуда беруться цифры, и какой результат хотят получить. Отбор и анализ данных привел к пи-хакингу и неверным выводам.
Как правило, подобное происходит не специально. Приходится принимать решения о том, как собирать и анализировать данные. И выбор влияет на статистическую значимость результатов.
Например, двадцать девять исследовательских групп получили одинаковые данные и задание: определить, вероятнее ли темнокожему футболисту получить красную карточку. При идентичных данных, одни группы не получили существенных результатов, а другие показали, что риск получить карточку для темнокожих игроков в три раза выше.
Дело в том, что данные не говорят сами за себя, их нужно интерпретировать. По этим результатам кажется, что темнокожие игроки с большей вероятностью получат красную карточку, но уж точно не три в раза.
В таком случае помогает метод консенсуса, но чаще всего исследование проводит только одна группа, и тогда встает проблема мотивации.
У ученых есть серьезно замотивированы публиковать статьи. От этого зависит их карьера. Как говорит Брайан Носек: “Ошибка в статье ничего вам не стоит. А вот отсутствие публикаций — еще как.” 
Журналы охотнее публикуют работы с достаточной статистической значимостью, поэтому, если какой-то метод дает пи-значение меньше пяти процентов, вы скорее будете пользоваться им.
Также вам проще опубликоваться, если результат получился новым и неожиданным. Это побуждает ученых проверять все менее и менее вероятные взаимосвязи что все сильнее уменьшает соотношение истинных и ложных гипотез.
А что насчет репликации? Разве наука не должна корректировать себя благодаря тому, что ученые перепроверяют друг друга? В теории — да, но на практике все сложнее.
Возьмем, например, исследование о предсказании будущего. Три исследователя попытались повторить один из этих экспериментов. И что они обнаружили?
Какая неожиданность! Полученный ими результат существенно не отличался от обычной случайности. Когда они пытались опубликовать выводы в том же журнале, где была оригинальная статья, им отказали. Причина — журнал отказался публиковать повторные исследования.
Так что, если вы ученый, стратегия успех ясна: даже не пытайтесь повторять исследования, потому что журналы не захотят их публиковать их, и есть очень большой шанс, что ваши результаты в любом случае не будут статистически значимыми, и тогда вы не убедите коллег в невозможности воспроизвести результаты, а получите обвинение, что просто проводили опыт неправильно
Выходит, более успешный подход — проверять новые неожиданные гипотезы, а затем использовать пи-хакинг для статистической значимости.
Я не хочу слишком сгущать краски: ведь последние десять лет ситуация становиться лучше. Многие ученые признают проблемы, которые я описал, и начинают что-то делать, для их устранения.
За десять лет проведено множество масштабных повторных исследований, а также появился сайт “Ретрэкш Вотч”, где публикуют статьи, которые были отозваны. 
Существуют онлайн-хранилища для неопубликованных отрицательных результатов, плюс ученые стали заранее предоставлять свои гипотезы и методы на рецензирование, еще до проведения опытов, чтобы выход публикации зависел от качества эксперимента, а не его результата.
Это устраняет предвзятость, увеличивает статистическую мощность и снижает мотивацию заниматься пи-хакингом. 
Больше всего в кризисе воспроизводимости меня поразило не количество неверной информации в опубликованных научных статьях. В конце концов, добраться до истины очень сложно и чисто математически не все, что публикуется оказывается верным.
Мне не дает покоя мысль, что даже изо всех сил стараясь найти правду, используя наши самые сложные и строгие математические инструменты, рецензирование и стандарты, мы все равно допускаем столько ошибок.
Только представьте, как часто мы заблуждаемся, когда не используем научный метод? Сколько бы изъянов не было в нашей науке, она гораздо надежнее, чем любой другой способ познания, который у нас есть.