Почему. Руководство по поиску причин и принятию решений - читать онлайн книгу. Автор: Саманта Клейнберг cтр.№ 51

читать книги онлайн бесплатно
 
 

Онлайн книга - Почему. Руководство по поиску причин и принятию решений | Автор книги - Саманта Клейнберг

Cтраница 51
читать онлайн книги бесплатно

Есть множество методов тестирования причинности по Грэнджеру, однако самый простой из них – регрессия. Скажем, требуется выяснить, что было вначале – курица или яйцо. Следуя Турману и Фишеру [262] (1988), возьмем два временных ряда: один будет показывать ежегодное производство яиц, а другой – годовую популяцию кур. В итоге получим два уравнения: одно покажет зависимость значений по курам от предыдущих значений и кур, и яиц, а другое – зависимость яиц от предыдущих значений по курам и яйцам. Количество предыдущих значений (интервалов) – это параметр, который выбирает пользователь.

Здесь возможен тест на зависимость между производством яиц в определенный год и популяцией кур в предыдущий год, два и т. д. Для каждого года производства яиц и популяции кур существует коэффициент, показывающий, насколько значение текущего года зависит от показателя предыдущего. Нулевой коэффициент означает отсутствие зависимости вообще. Итак, если коэффициенты производства яиц в уравнении для яиц отличны от нуля в некоем временном интервале, тогда куры – это грэнджеровская причина яиц (если значение для предыдущего года – два, это значит, что яйца в два раза превышают популяцию кур за предыдущий год).

Чаще всего увеличение интервалов означает повышение сложности, также может устанавливаться практический предел для тестирования, помимо ограничений, связанных с данными, например количество точек данных и детализация измерений.

Вернемся в наш аэропорт. Скажем, при прогнозировании продаж кофе мы возьмем в качестве переменных погоду, задержки вылетов и предыдущие значения продаж кофе. Это будет многомерная причинность по Грэнджеру, когда мы включаем в каждый тест все имеющиеся переменные. Нет возможности принять во внимание все сведения в мире, но нетрудно проверить, будет ли информативна некоторая переменная, если учтены все остальные, оказавшиеся в нашем распоряжении. Скажем, истинная зависимость такова: погода вызывает задержки рейсов, а задержки рейсов вызывают рост продаж кофе, потому что людям приходится ждать в аэропорту. Тогда, после включения в кофейное уравнение задержки, погода не сможет дать никакой новой информации, и ее коэффициент будет стремиться к нулю (а значит, не повлияет на прогнозирование объема продаж кофе). Нельзя утверждать, что наблюдается причинная взаимосвязь, поскольку коэффициенты все же отличны от нуля, однако нетрудно провести тесты и проверить статистическую значимость этого отличия от нуля.

Здесь мы подходим ближе к причинности, но нет гарантии, что наши выводы истинны. Что еще важнее, даже если многомерная форма гораздо сильнее и точнее, она применяется намного реже, поскольку требует слишком интенсивных вычислений [263].

И что теперь

Возможно, вы носите «умные часы», которые месяцами регистрируют данные о вашем сне и физической активности; или у вас есть данные полицейских отчетов по своему району, и вы хотите найти причину преступлений; а возможно, вы прочли, что некто вывел локальные тренды заболеваемости гриппом из постов в соцсетях. Как будете справляться с анализом собственных сведений?

Главное, что следует осознать, – нет какого-то единственного способа решения всех проблем с причинными зависимостями. Ни один из существующих подходов не дает возможности в каждом случае безошибочно определить причины (что оставляет широкий простор действий ученым). Некоторые позволяют сделать более общие выводы, чем другие, но все зависит от допущений, которые в реальности не истинны. Вместо того чтобы досконально освоить один метод и использовать его для решения всех проблем, нужен набор инструментов. Большинство методов можно адаптировать под основную массу ситуаций, но это не будет простейшим или самым эффективным подходом.

С учетом того, что ни один метод не совершенен, возможно, самая важная вещь – осознать пределы каждого. К примеру, если ваши логические выводы базируются на двумерной причинности по Грэнджеру, не забывайте, что вы ищете своего рода направленную корреляцию и учитываете многомерный подход. Байесовская сеть может быть неплохим выбором, когда каузальная структура (связи между переменными) уже известна и вы хотите вывести ее параметры (вероятностные распределения) из некоторых данных. Но, если для решения проблемы важно время, динамические байесовские сети (или методы для нахождения временных паттернов причинных зависимостей на основе данных) могут оказаться более приемлемыми.

Зная, непрерывны ваши данные или дискретны, можно сузить область вариантов, так как многие методы работают либо с одними, либо с другими (но не с обоими видами сразу). Если данные включают большое число переменных или вам не нужна полная структура, методы расчета причинной силы окажутся эффективнее тех, что работают с моделями. При использовании их, однако, нужно учитывать необходимость конструирования взаимодействий между причинами с целью прогнозирования.

Таким образом, цель использования причин так же важна, как и имеющиеся в наличии данные для выбора методов. Наконец, уясните для себя, что любые предпочтения, сделанные в рамках сбора и подготовки данных, влияют на характер логических выводов.

7. Эксперимент. Как найти причины путем вмешательства в действия людей и систем

Многие утверждения относительно здоровья имеют обратимый характер, если выждать достаточное время. Один из самых поразительных сдвигов заметен в понимании связи между гормонозаместительной терапией (ГЗТ) и сердечными приступами: ранние исследования утверждали, что ГЗТ предотвращает их, а позднейшие эксперименты не подтвердили этого вообще или даже отметили увеличение количества приступов.

Первое доказательство преимуществ ГЗТ было предоставлено в рамках исследования здоровья медицинских сестер [264], когда огромная группа зарегистрированных медсестер (почти 122 000) обследовалась каждые два года с начала проекта в 1976 году. Анализ данных в 1997 году показал, что у пациенток в период постменопаузы, получающих ГЗТ, риск летального исхода был на 37 % ниже, и такой результат объяснялся в основном снижением смертности от ишемической болезни сердца.

После этого были изданы справочники, предписывающие применение ГЗТ для снижения риска сердечно-сосудистых заболеваний [265]. Но в работе, опубликованной всего через год после исследования здоровья медицинских сестер, говорилось, что гормонозаместительная терапия не оказывает никакого воздействия на ИБС. В отличие от исследования медсестер, где просто отслеживалось поведение участниц, в изучении влияния эстрогена/прогестерона на сердце [266] пациенткам выборочно давали ГЗТ или плацебо. Таким образом обследовались 2763 женщины в течение четырех лет, но проект вызвал вопросы, поскольку частота сердечных приступов в группе ГЗТ на самом деле возросла в первый год его проведения, а в следующие два года эффект обратился вспять.

Вернуться к просмотру книги Перейти к Оглавлению Перейти к Примечанию