Экзопланетологи искажают вероятность своих находок
Ничто так не возбуждает сердце ученого, как старые добрые статистические дебаты. Когда речь заходит о таких темах, как поиск аналогов Земли или намеков на биосигнатуры в атмосфере, эти статистические дебаты могут иметь реальные последствия как для выделения дополнительных ресурсов для наблюдений, так и для общего понимания человечеством себя во Вселенной.
В новой статье, опубликованной на сервере препринтов arXiv, от двух известных охотников за экзопланетами, Дэвида Киппинга из Колумбийского университета и Бьерна Беннеке из Калифорнийского университета в Лос-Анджелесе, утверждается, что их коллеги в области обнаружения экзопланет десятилетиями неправильно обрабатывали статистику, и приводятся аргументы в пользу того, как лучше представить свои результаты общественности.
Хотя статистика может показаться незначительной частью общего процесса освоения космоса, она абсолютно необходима для развития науки. Для того, чтобы доказать, что явление (или планета) существует без тени сомнения, необходимы данные, подтверждающие определенную степень "статистической значимости". Для этого существует математическая формула, известная как теорема Байеса, но также и базовое человеческое понимание, и, похоже, возникает путаница в том, как перевести математику во что-то, что общественность может понять и принять в отношении научного открытия.
Перевод, подробно описанный в статье, находится между байесовской (т.е. вероятностью того, что что-то произошло, и тем, что этого не произошло) и "частотной" статистикой (т.е. насколько удивительно, что это произошло). В частотных терминах это значение обычно называется "сигма", по названию греческой буквы, используемой в его математическом описании. И, согласно статье, это значение лежит в основе конфликта.
Sigma values получила известность благодаря своей роли в открытии бозона Хиггса на Большом адронном коллайдере в 2012 году. Его статистическая значимость, равная "пяти сигмам", ввела концепцию частотной статистики в публичный научный дискурс и с тех пор служит отправной точкой для этих разговоров.
Существует математическая формула для преобразования байесовской статистики в частотную статистику, и метод, обычно применяемый охотниками за экзопланетами, был изложен в статье, опубликованной в 2001 году группой статистиков. Последующая статья от 2013 года, более адаптированная к потребностям охотников за экзопланетами (и написанная в соавторстве с одним из авторов новой статьи - доктором Беннеке), еще больше закрепила использование этого преобразования в научной литературе. Однако типографская ошибка в документе 2013 года могла привести к неправильному толкованию значимости статистических данных — в нем было указано "как минимум" сигма-значение, тогда как следовало бы сказать "как максимум".
Какой бы ни была причина несоответствия, авторы утверждают, что с самых ранних дней поиска экзопланет его специалисты неверно представляли вероятность своих открытий, неверно истолковывая коэффициент преобразования с байесовского на частотный язык. Одним из конкретных примеров, который они отмечают, является недавнее (по общему признанию, уже противоречивое) обнаружение диметилсульфида (DMS) в атмосфере экзопланеты K2-18b. Они утверждают, что, учитывая ограниченность байесовских факторов, в названии статьи, в которой представлены доказательства этого вывода, должно было быть указано значение "менее 3 сигм".
Хотя это может показаться незначительной оговоркой, отчасти цель состоит в том, чтобы продемонстрировать, что значимость может быть значительно меньше трех сигм, что с самого начала ставит под сомнение весь вывод. Возможно, в данном конкретном случае это не так, но небрежная статистическая методология может привести к запутанным результатам в будущем.
Итак, что же делать? Существует несколько более строгих статистических методов для преобразования байесовской статистики в частотную, но, по мнению авторов, гораздо проще просто использовать сами байесовские коэффициенты. Предположение о том, что публика не привыкла к их использованию, неверно — азартные игры традиционно используют байесовские коэффициенты, хотя на этом языке они называются "коэффициентами вероятности".
Если ученые, изучающие экзопланеты, начнут использовать этот знакомый язык, возможно, их результаты получат более широкое признание. Или, возможно, другой лагерь или конкурирующие охотники за экзопланетами опубликуют в журнале статью, наполненную мемами, о необходимости частотной статистики. В любом случае, наука будет продолжать прогрессировать, собирая все больше данных, и споры о том, что означают эти данные, будут продолжаться до тех пор, пока есть ученые, которые могут спорить об этом.