Это распределение было названо в честь Симеона Дени Пуассона – француза, который первым описал это явление в начале XIX века. Однако его работа делала акцент на математические уравнения, лежащие в основе распределения, не рассматривая его использование для моделирования на практике. В том смысле, в котором использую его я, распределение применял поляк Ладислав Борткевич, который работал в Германии в 1898 году
[6]. Он исследовал два набора данных. Первым был набор жутких статистических данных за 24 года о самоубийствах детей в возрасте до десяти лет. Второй (лишь немногим менее шокирующий) касался солдат, которые умерли после того, как их случайно лягнула или иным образом ударила лошадь. Борткевич в течение двадцати лет изучал по четырнадцать полков ежегодно, отмечая количество солдат, убитых таким образом. Очевидно, он не понял, что всего несколько лет назад была создана Футбольная лига Англии. Этот факт мог предоставить ему все нужные данные без необходимости вникать в статистику смерти Германии.
В обоих наборах данных Борткевич нашел значительное соответствие с распределением Пуассона. Смерти от ударов лошади были редкими. Из 280 полков, которые он изучал, в 144 не было ни одного смертельного случая. Но в двух невезучих полках были зафиксированы по четыре смерти за один год. Используя распределение Пуассона, Борткевич смог показать, что в этих полках не обращались с лошадьми хуже, чем в других, – в тот год им просто не повезло. Возможно (а возможно, и нет), футбол важнее вопросов жизни и смерти, но все три подчиняются одним и тем же правилам.
Сравнение с распределением Пуассона – одна из первых вещей, которые я делаю, когда получаю новые данные. Иногда коллега приходит в мой кабинет с недавно собранными экспериментальными результатами. «Странно, – говорит он. – Большая часть рыбы никогда не плавает вблизи хищника, но есть одна рыбина, которая проплыла мимо него четыре раза! Она должна быть очень смелой или что-то в этом роде». Спустя три минуты я черчу распределение Пуассона и накладываю его на данные моего коллеги. «Нет, твоя рыбина не была особенно смелой. Это была всего лишь статистическая необходимость». Быть преследуемым хищником раз за разом равносильно разгромному поражению со счетом 5:0. Плохо, когда это случается, но это может произойти с каждым.
Распределение Пуассона является нашим первым примером математической аналогии. Оно работает во многих контекстах. Оно работает для футбольных матчей, для лампочки и для смертей от удара лошади. Всякий раз, когда есть основания предположить, что события могут произойти неожиданно, в любое время и независимо от того, сколько событий уже произошло, следует ожидать распределения Пуассона.
Если отойти от футбола, современное использование распределения Пуассона в большинстве своем продолжает традицию, начало которой положил Борткевич. У статистиков, похоже, есть извращенное очарование смертью, травмами и несчастными случаями. Или, может быть, мы просто платим им за решение тех проблем, которые могут случиться с нами. Таким образом, нам не придется о них думать. Каковы бы ни были причины их интереса к неудачам, статистики обнаружили распределение Пуассона в автомобильных авариях, столкновениях с грузовиками, травмах головы, отказах двигателей в самолетах, банкротствах, самоубийствах, убийствах, несчастных случаях на работе и количестве опасных строительных объектов
[7]. Они даже обнаружили его в количестве войн с 1480 по 1940 год. И когда они заканчивают смертями и травмами, то ищут распределение Пуассона в опечатках, производственных дефектах, сбоях в сети, вирусных атаках на компьютеры и разводах. Будь то смерть или разрушение, невезение или ошибки – везде можно обнаружить одну и ту же закономерность.
В 2015 году Кристиан Томасетти, прикладной математик, и Берт Фогельштейн, доктор медицины, использовали статистическую аргументацию для доказательства того, что две трети случаев заболевания раком были вызваны «невезением»
[8]. Хотя некоторые виды рака могут быть связаны с выбором образа жизни (например, рак легких, вызванный курением), это еще не все. Более важная часть заключается в неизбежных клеточных делениях, которые происходят в наших телах. Каждый раз, когда клетка делится, существует малая вероятность генетической мутации, которая может вызвать рак. Кристиан и Берт обнаружили, что рак с большей вероятностью образуется в тех частях тела, где клетки делятся быстрее.
Это исследование вызвало некоторые споры. Если рак такой непредсказуемый, то почему мы должны тратить так много денег на исследование причин его появления? Чтобы оправдать использование термина «невезение» и лучше объяснить свои выводы, Кристиан и Берт провели аналогию с автомобильными авариями. Они сказали, что чем больше времени вы проводите в машине, тем больше вероятность того, что попадете в аварию. Стиль управления автомобилем влияет на вероятность, но время за рулем также очень важно.
Параллель с футболом работает так же хорошо, если не лучше. Вы можете думать о каждом делении клеток в вашем теле как об отдельной минуте футбольного матча. Когда ячейка делится, есть (очень) крошечный шанс случайной раковой мутации, так же как есть (гораздо больший) шанс пропустить гол в футбольном матче. Именно в этом смысле рак может считаться невезением. Иногда наша команда не пропускает ни одного мяча за игру; хотелось бы надеяться, что мы проживем нашу жизнь без того, чтобы заболеть раком. Хотя иногда мы проигрываем потому, что соперник был силен, никто не может отрицать, что удача играет важную роль в любом конкретном матче. Наше здоровье похоже на субботний день, когда вы наблюдаете за игрой с трибун – не все голы можно предотвратить.
Не все происходящее с нами сводится к случайности. Многие болезни можно предотвратить, если мы выберем здоровый образ жизни, а пропущенные голы часто случаются из-за плохой защиты. Но осознание того, что многое из происходящего с нами несет случайный характер, иногда может помочь смириться с вызовами, которые бросает нам жизнь. Не все в жизни можно предсказать.
Объясняется случайностью
Именно непредсказуемость футбольного матча от одной минуты к другой и создает распределение Пуассона по прошествии 90 минут. Мы знаем среднее количество голов, забитых в матче, но их время непредсказуемо. Как итог – некоторые результаты становятся намного более вероятными, чем другие. Парадокс здесь заключается в том, что эти итоги объясняются случайностью. Тот факт, что голы случаются произвольно во времени, делают возможным предсказание закономерности результатов. Эту идею очень сложно понять, но это правда. Факт случайности какого-либо события помогает нам объяснить это и предугадать, как часто оно будет происходить. Случайность позволяет нам делать всевозможные прогнозы о будущем.