Очевидно, это было все же слишком смелое обобщение. Конечно, Кетле открыл, что биологические характеристики, и физические, и психологические, распределяются по нормальной кривой частот, и это было необычайно важное открытие, однако нельзя ни считать его доказательством намерений матери-природы, ни рассматривать отдельные вариации просто как ошибки. Скажем, Кетле обнаружил, что средний рост французских призывников составляет пять футов четыре дюйма. Однако на левом конце кривой он обнаружил человека ростом в один фут пять дюймов. Очевидно, нельзя списывать это на ошибку в четыре фута, допущенную при измерении роста в пять футов четыре дюйма.
Даже если пренебречь идеей «законов», которые определяют создание людей по одному шаблону, уже одно то, что распределение самых разных свойств – от веса до IQ – следует одной и той же нормальной кривой, само по себе примечательно. Но этого мало – даже распределение среднего уровня успешных подач в высшей бейсбольной лиге и то более или менее нормально, равно как и доходность фондовых индексов (которые составляются из множества отдельных фондов). Более того, если распределение отклоняется от нормальной кривой, его, как правило, надо основательно проверить. Например, если распределение оценок по английскому языку в какой-то школе отличается от нормального, это наводит на мысль о проверке принятых там правил выставления оценок. Однако это не означает, что все распределения нормальны. Распределение длин слов, которые Шекспир употреблял в своих пьесах, не нормально. Слов из трех-четырех букв у него гораздо больше, чем слов из одиннадцати-двенадцати букв. Среднегодовой доход на семью в США тоже распределяется не в соответствии с нормальной кривой. Например, в 2006 году самые богатые 6,37 % домохозяйств получали примерно треть всего дохода. Это наталкивает на интересный вопрос: если и физические, и интеллектуальные качества людей (определяющие, надо думать, потенциальные способности получать доход) подчиняются нормальному распределению, почему с доходом все иначе? Ответы на подобные социально-экономические вопросы, к сожалению, выходят за рамки этой книги. С нашей нынешней – несколько ограниченной – точки зрения удивляться следует уже тому, что, похоже, все физически измеримые особенности людей, растений и животных (той или иной разновидности) распределяются по одной-единственной математической функции.
Исторически человеческие характеристики служили основой не только для изучения статистических частотных распределений, но и для формулировки математического понятия корреляции. Корреляция – это степень, в которой изменения значения одной переменной приводят к изменениям другой. Например, чем выше женщина, тем больше у нее должен быть размер обуви. Подобным же образом психологи обнаружили корреляцию между интеллектом родителей и школьной успеваемостью детей.
Понятие корреляции особенно полезно в ситуациях, когда между двумя переменными нет точной функциональной взаимозависимости. Например, представим себе, что одна переменная – максимальная дневная температура на юге Аризоны, а другая – количество лесных пожаров в том регионе. Невозможно предсказать, какое количество лесных пожаров возникает при данной температуре, поскольку количество пожаров зависит и от других переменных, в частности, от влажности воздуха и от количества костров, которые разжигают люди. Иначе говоря, любому значению температуры соответствует разное количество лесных пожаров и наоборот. И все же математическое понятие коэффициента корреляции позволяет нам количественно измерить прочность отношений между двумя подобными переменными.
Коэффициент корреляции ввел в арсенал математиков викторианский географ, метеоролог, антрополог и статистик сэр Фрэнсис Гальтон (1822–1911)
[88]. Гальтон – кстати, двоюродный брат Чарльза Дарвина – не был профессиональным математиком. Он был человек сугубо практического склада и обычно предоставлял другим математикам доводить свои новаторские понятия до совершенства; особенно ему помогал в этом статистик Карл Пирсон (1857–1936). Вот как Гальтон объяснял понятие корреляции.
Длина локтя коррелирует с телосложением, поскольку длинный локоть обычно предполагает высокий рост. Если корреляция между ними очень тесная, то очень длинный локоть обычно предполагает очень высокий рост, однако если бы она была не очень тесная, то очень длинный локоть в среднем связывался бы всего лишь с высоким, но не с очень высоким ростом, тогда как если бы она была нулевая, то очень длинный локоть не был бы связан ни с какими особенностями роста, а следовательно, в среднем, был бы связан с заурядным ростом.
В дальнейшем Пирсон дал точное математическое определение коэффициента корреляции. Этот коэффициент определяется таким образом, что когда корреляция очень высока – то есть когда колебания одной переменной очень точно следуют за взлетами и падениями другой, – коэффициент приобретает значение 1. Если же две величины антикоррелированы, то есть одна величина возрастает, когда другая уменьшается, и наоборот, коэффициент равен –1. Если две переменные ведут себя так, будто другой и вовсе не существует, коэффициент корреляции равен 0 (например, поведение иных правительств, к сожалению, демонстрирует практически нулевую корреляцию с пожеланиями народа, который они якобы представляют).
От выявления и вычисления корреляций в наши дни зависят и медицинские исследования, и экономические прогнозы. Например, связь между курением и раком легких и загаром и раком кожи изначально была выявлена благодаря обнаружению и вычислению корреляций. Биржевые аналитики постоянно пытаются найти и вычислить корреляции между поведением рынка и другими переменными – и любое подобное открытие приносит фантастические прибыли.
Как быстро выяснили некоторые первые статистики, и сбор статистических данных, и их интерпретация – дело непростое, и заниматься им надо с предельной осторожностью. Рыбак, который пользуется сетью с ячеей в десять дюймов, рискует сделать вывод, будто все рыбы в море больше десяти дюймов – просто потому, что более мелкая рыба к нему в сети не попадается. Это пример эффекта селекции, иначе называемого ошибкой отбора – предвзятости, которая влияет на результаты и вызвана либо используемым для сбора данных аппаратом, либо методами их анализа. Еще одна трудность – размер выборки. Например, современные опросы общественного мнения обычно охватывают не более нескольких тысяч человек. Откуда опрашивающие знают, что мнения, высказанные теми, кто попал в эту выборку, точно отражают мнения сотен миллионов человек? Кроме того, следует понимать, что корреляция не обязательно предполагает причинно-следственные связи. Иногда количество проданных тостеров растет одновременно с количеством проданных билетов на концерты классической музыки, но из этого не следует, что появление в доме нового тостера способствует улучшению музыкального вкуса. Скорее, и то и другое вызвано повышением уровня жизни.
Невзирая на все эти существенные оговорки, статистика превратилась в современном обществе в весьма действенный инструмент – именно она, в сущности, и делает социальные науки науками. Но почему она вообще дает осмысленные результаты? Ответ на этот вопрос дает математика вероятности, которая определяет самые разные стороны современной жизни. Когда инженеры решают, какими предохранительными устройствами снабдить пилотируемую исследовательскую капсулу для астронавтов, физики-ядерщики анализируют результаты экспериментов на ускорителе, психологи оценивают развитие детей по результатам тестов на IQ, фармацевтические компании оценивают действенность новых лекарств, а генетики изучают человеческую наследственность – все это непременно опирается на математическую теорию вероятности.