Простая математика теоремы Байеса

Глава из книги Нейта Сильвера «Сигнал и шум». Объяснение теоремы Байеса на пальцах.

Если философская подоплека теоремы Байеса удивительно глубока, то её математика потрясающе проста. В своей базовой форме это всего лишь алгебраическое выражение с тремя известными переменными и одной неизвестной. Однако эта простая формула способна привести к инсайтам в предсказаниях.

Теорема Байеса прямо связана с условной вероятностью. Иными словами, она позволяет рассчитать вероятность какой-либо теории или гипотезы, если произойдет какое-либо событие. Представьте себе, что вы живете с партнером и, вернувшись домой из командировки, обнаруживаете незнакомую пару нижнего белья в своем гардеробе. Возможно, вы зададитесь вопросом: какова вероятность того, что ваш партнер вас обманывает? Условие состоит в том, вы найдете белье; гипотеза состоит в том, что вы заинтересованы оценить вероятность того, что вас обманывают. Хотите – верьте, хотите – нет, но теорема Байеса способна дать вам ответ на вопрос такого рода – при условии того, что вы знаете (или хотите оценить) три качества.

  • Прежде всего вы должны оценить вероятность появления белья как условие правильности гипотезы – то есть при условии того, что вам изменяют. Для решения этой проблемы давайте предположим, что вы женщина, а ваш партнер – мужчина, а предметом спора выступает пара трусиков. Если он вам изменяет, то несложно представить себе, как в ваш гардероб могли попасть чужие трусики. Но, даже если (или даже особенно в том случае если) он вам изменяет, вы можете ожидать, что он ведет себя достаточно осторожно. Давайте скажем, что вероятность появления трусиков при условии того, что он вас обманывает, составляет 50 %.
  • Во-вторых, вы должны оценить вероятность появления белья при условии того, что гипотеза неверна. Если муж вам не изменяет, должны быть другие, более невинные объяснения появления трусиков в вашем гардеробе. Некоторые из них могут оказаться довольно неприятными (например, это могли бы быть его собственные трусики). Возможно, что его багаж был по ошибке перепутан с чужим. Возможно, что в его доме по каким-то причинам вполне невинно заночевала какая-то ваша подруга, которой вы доверяете. Трусики могли бы быть подарком вам, который он забыл упаковать. Ни одна из этих теорий не лишена изъянов, хотя порой объяснения в стиле «мое домашнее задание съела собака» действительно оказываются правдой. Вы оцениваете их совокупную вероятность в 5 %.
  • Третье и самое важное, что вам нужно, – это то, что байесовцы называют априорной вероятностью (или просто априори). Как вы оценивали вероятность его измены до того, как нашли белье? Разумеется, вам сложно сохранять объективность оценки сейчас, после того как эти трусики появились в поле вашего зрения (в идеале вы оцениваете эту вероятность до того, как начинаете изучать свидетельства). Но иногда оценивать вероятность подобных событий можно эмпирически. Например, в ряде исследований было показано, что в течение любого случайным образом взятого года своим супругам изменяет около 4 % женатых партнеров, так что мы возьмем эту цифру за априорную вероятность.

Если вы произвели оценку всех этих значений, то можете применить теорему Байеса для оценки апостериорной вероятности. Именно в этой цифре мы и заинтересованы больше всего – насколько велика вероятность того, что нам изменяют, при условии что мы нашли чужое белье?

Расчёт и простая алгебраическая формула, позволяющая его сделать, приведены в следующей таблице.

bayes-rule-table1

Оказывается, что вероятность измены все равно достаточно мала – 29 %. Это может показаться нелогичным: разве трусики не являются достаточно весомой уликой? Возможно, такой результат связан с тем, что вы использовали слишком низкое априорное значение вероятности его измены.

Хотя у невиновного человека может быть значительно меньше вариантов разумных объяснений появления трусиков, чем у виновного, вы изначально посчитали его невиновным, и это оказало большое влияние на результат расчета по уравнению.

Когда мы априорно в чем-то уверены, мы можем проявить удивительную гибкость даже при появлении новых свидетельств. Одним из классических примеров таких ситуаций является выявление рака груди у женщин в возрасте старше 40 лет. К счастью, вероятность, что у женщины в возрасте после 40 лет разовьется рак груди, довольно невелика и составляет примерно 1,4 %. Однако чему равна вероятность положительного результата на ее маммограмме?

Исследования показывают, что даже если у женщины нет рака, то маммограмма ошибочно покажет его наличие в 10 % случаев. С другой стороны, если у нее есть рак, маммограмма выявит его примерно в 75 % случаев. Увидев эту статистику, вы можете решить, что положительный результат маммограммы означает, что все очень плохо. Однако расчет по теореме Байеса с использованием этих цифр позволяет сделать иное заключение: вероятность наличия рака груди у женщины в возрасте за 40 при условии, что у нее положительная маммограмма, все еще составляет примерно 10 %. В данном случае такой результат расчета по уравнению обусловлен тем, что довольно немного молодых женщин имеют рак груди. Именно поэтому многие врачи рекомендуют женщинам не начинать регулярно делать маммограммы до 50-летнего возраста, после достижения которого априорная вероятность рака груди значительно увеличивается.

Проблемы такого рода, вне всякого сомнения, сложны. Во время недавно проводимого исследования статистической грамотности американцев им приводили этот пример с раком груди. И оказалось, что всего 3 % из них смогли правильно рассчитать значения вероятности. Иногда, немного замедлившись и попробовав визуализировать эту проблему, мы можем легко проверить реальностью свои неточные аппроксимации. Визуализация помогает нам легче увидеть общую картину – поскольку рак груди встречается у молодых женщин крайне редко, сам факт положительного результата маммограммы еще ни о чем не говорит. Однако мы обычно склонны ориентироваться на самую новую или самую доступную информацию, и общая картина начинает теряться. Умные игроки вроде Боба Вулгариса научились умело пользоваться подобными недостатками нашего мышления. Вулгарис сделал выгодную ставку на Lakers отчасти потому, что букмекеры уделили слишком много внимания нескольким первым играм Lakers и изменили ставки на выигрыш командой титула с 4 к 1 до 65 к 1. Однако на самом деле команда играла ничуть не хуже, чем могла играть хорошая команда в случае травмы одного из её звездных игроков. Теорема Байеса требует от нас более внимательно продумывать проблемы такого рода. Она может оказаться крайне полезной для выявления случаев, когда наши аппроксимации, основанные на чутье, оказываются слишком грубыми.

Но я не хочу сказать, что наши априорные ожидания всегда доминируют над новыми свидетельствами или что теорема Байеса всегда приводит к нелогичным, на первый взгляд, результатам. Иногда новые свидетельства оказываются настолько значимыми для нас, что перевешивают все остальное, и мы можем практически моментально изменить свое мнение и стать полностью уверенными в событии, вероятность которого считали почти нулевой.

Давайте рассмотрим более мрачный пример – атаки 11 сентября. Большинство из нас, проснувшись в тот день утром, присваивало практически нулевое значение вероятности того, что террористы примутся разбивать самолеты о небоскребы на Манхэттене. Однако мы признали очевидную возможность террористической атаки после того, как первый самолет врезался во Всемирный торговый центр. И у нас исчезли любые сомнения в том, что на нас было произведено нападение, после того как самолет врезался во вторую башню. Теорема Байеса способна отобразить этот результат.

Допустим, до столкновения первого самолета с башней наши расчеты вероятности террористической атаки на высотные здания Манхэттена составляли лишь 1 шанс из 20 тыс., или 0,005 %. Однако мы также должны были считать достаточно низкой вероятность ситуации, при которой самолет столкнулся бы с башней Всемирного торгового центра по ошибке. Эта цифра может быть рассчитана эмпирически. За период длительностью 25 тыс. дней до событий 11 сентября, в течение которых осуществлялись полеты над Манхэттеном, произошло всего два подобных случая: столкновение с Эмпайр-стейт-билдинг в 1945 г. и с башней на Уолл-стрит, 40, в 1946 г. Следовательно, возможность подобного инцидента составляла примерно 1 шанс из 12 500 в любой случайный день. Если по этим цифрам сделать расчеты с использованием теоремы Байеса, то вероятность террористической атаки повышалась с 0,005 до 38 % в момент столкновения первого самолета со зданием. 

Однако идея, заложенная в теорему Байеса, заключается в том, что мы не корректируем свои расчеты вероятности только один раз. Мы делаем это постоянно по мере появления новых свидетельств. Таким образом, наша апостериорная вероятность террористической атаки после столкновения первого самолета, равная 38 %, становится нашей априорной возможностью столкновения со вторым.

И если вы ещё раз проведете расчеты после столкновения второго самолета с башней Всемирного торгового центра, то увидите, что вероятность террористической атаки 99,99 % сменяется почти полной уверенностью в этом событии. Один несчастный случай в яркий солнечный день в Нью-Йорке был крайне маловероятен, но второй практически не мог не произойти, как мы внезапно и с огромным ужасом поняли.

Я сознательно выбрал в качестве примеров довольно сложные случаи – террористические атаки, рак, супружеская измена, – поскольку хочу продемонстрировать масштаб проблем, к решению которых может быть применено байесовское мышление. Теорема Байеса – это не волшебная формула. В её самой простой формуле, которую мы приводим в этой книге, используются простые арифметические действия по сложению, вычитанию, делению и умножению. Но для того, чтобы она дала нам полезный результат, мы должны снабдить ее информацией, в частности нашими расчетами априорных вероятностей.

Однако теорема Байеса заставляет нас думать о вероятности событий, происходящих в мире, даже когда речь заходит о вопросах, которые мы не хотели бы считать проявлением случайности. Она не требует, чтобы мы воспринимали мир как внутренне, метафизически неопределенный: Лаплас считал, что всё, начиная от орбит планет и заканчивая движением мельчайших молекул, управляется упорядоченными ньютоновскими правилами. И тем не менее он сыграл важную роль в развитии теоремы Байеса. Скорее можно сказать, что эта теорема связана с эпистемологической неопределенностью – границами наших знаний.

Оставьте пару слов в комментариях:

avatar
  Подписаться  
Известить о