В ожидании метода
Никогда не знаешь, сколько времени уйдет на формирование научных выводов о больших массивах данных. Наука жертвует знаковыми событиями, но поставляет их в совершенно произвольном порядке.
Большие массивы бизнес-данных появляются настолько быстро, насколько люди могут их принимать, но обычно даже быстрее. Благодаря ускоренным циклам обратной связи, значимость больших массивов бизнес-данных возрастает. Мы привыкли считать их обоснованными, несмотря на то что они могут всего лишь казаться таковыми из-за своего особого положения в сети. Подобные данные достоверны только за счет невероятного числа повторов.
Наука требует иного подхода к большим массивам данных, и мы его ищем. Для обработки этих массивов в области науки еще не выработана окончательно четкая процедура. И когда для работы с ними появятся проверенные практики, мы получим точные ответы на вопросы:
• Какие стандарты должны быть соблюдены для публикации тиражирования результата? До какой степени тиражирование должно требовать сбора разнообразных, но при этом похожих больших массивов данных, а не просто повторно использовать одни и те же данные, применяя к ним разные алгоритмы?
• Что такое публикация? Описание используемого кода? Сам код? Код в некой стандартной разновидности структуры, благодаря которой становится возможным использовать его повторно и вносить в него поправки?
• Должен ли анализ таких данных предполагать применение стандартных практик метаанализа?
• Какая документация в условиях непрерывного документального учета данных должна приводиться к единому стандарту?
Должны ли утверждаться новые практики, аналогичные двойному слепому методу или плацебо, помогающие ученым, работающим с большими массивами данных, не одурачить самих себя? Должны ли разработчики кода для получения независимых результатов работать небольшими группами, чтобы анализировать большие массивы данных, которые остаются в полной изоляции друг от друга?
В ближайшее время мы получим ответы на все эти вопросы, но пока что научные практики постоянно меняются. Но несмотря на то что детали еще не проработаны, ученых объединяет стремление проверять гипотезы, независимо от объемов данных, с которыми они работают.
Мудрые или внушающие страх?
В мире бизнеса большие массивы данных зачастую работают независимо от их достоверности. Люди платят деньги за пользование сайтами знакомств. Но алгоритмы, якобы подбирающие идеального партнера, на самом деле, скорее всего, не работают. Не имеет значения, права ли наука, пока клиенты за нее платят. А они платят.
Таким образом, нет нужды определять, достоверна ли статистика в собственно научном смысле, или кто-то лишь создал видимость достоверности, прибегнув к техникам социальной инженерии. Вот пример такого обмана: двое встречаются, зарегистрировавшись на сайте знакомств, потому что оба ожидают, что алгоритмы надежны. Люди адаптируются под информационные системы. Не важно, осознают ли они адаптацию и функционирует ли информационная система так, как ожидалось. Наука в этой системе ставится под сомнение.
Древний парадокс в новых обстоятельствах: сложно сказать, мудр ли правитель, или он просто внушает страх. Если то, что предсказывает правитель, действительно происходит, любое объяснение сгодится.
Предположим, некий продавец электронных книг рекламирует свой товар, и пользователь планшета проходит по ссылке для оплаты. В некоторой степени это может произойти, потому что продавец использует облачные сервисы, содержащие по-научному точный алгоритм прогноза, и составленная им модель целевой аудитории верна. Или же это может произойти, потому что пользователю сказали, что алгоритмы работают. Или потому что пользователь следует рекомендациям конкретного производителя планшетов. Возможно, пользователь в равной степени был готов купить сколько угодно других книг. Сложно сказать, какая причина важнее.
Инженеры решат, что роль сыграли умные программы. У них здорово получается дурачить себя верой в то, что это всегда так. В предыдущей книге я рассказывал о том, как сложно эмпирически отличить успех искусственного интеллекта от самовнушения, что программа работает.
Когда владельцы сервера-сирены убеждены в том, что этот сервер занимается научно обоснованными вычислениями – то есть анализом и прогнозированием событий, просвещающих человечество, – а сервер набирает все больше влияния, ничего полезного из этого не выйдет.
Иногда объективная проверка больших массивов бизнес-данных показывает, что эти замки в облаках никогда не существовали на самом деле. Поток хвастовства соцсетей, пытающихся продать рекламу, нескончаем. Продавцы громко заявляют, что их система способна создать подробнейшую модель целевой аудитории и выявить ее так же точно, как военный дрон – боевиков Талибана. Но эту же систему смогут легко и просто обмануть дети, выдающие себя за взрослых.
И все же фантазия о точности никуда не исчезает. В момент запуска сервера-сирены можно почти физически ощутить сладостное упоение властью. Это ваш пост перехвата информации. Информационное превосходство у вас в руках. Одна из сильнейших иллюзий нашего времени – считать, что это ты ведешь игру, а с тобой никто не играет.
Природа больших массивов данных бросает вызов человеческому восприятию
Говоря по-простому, стоит признать, что на Facebook существует две версии вас: на поддержание имиджа первой вы бросаете все усилия, вторая же – величайшая в мире тайна, а именно данные о вас, которые продаются третьим лицам, например рекламодателям. Этих данных о себе вы никогда не получите.
Но дело даже не в том, что их от вас скрывают. Сами по себе они не будут иметь никакого смысла. Они неотделимы от всех остальных глобальных данных, которые собирает Facebook. Исходя из поведения современных людей, самые ценные и охраняемые данные – это результаты статистических корреляций. Эта информация нужна для работы алгоритмов, но люди редко видят ее и еще реже могут ее осмыслить.
Возможно, люди с кустистыми бровями, которые осенью собирают мухоморы, действительно захотят добавить острый соус в картофельное пюре весной. Не исключено, что это правдивая информация, обладающая коммерческой ценностью, но никто и никогда не сообщит о подобном совпадении, если его обнаружит. Вместо этого продавец соуса теоретически сможет разместить рекламную ссылку прямо на виду у пользователя, повысив шанс, что она попадется правильному человеку, и никому не нужно знать, почему именно.
Коммерческие корреляции больших массивов данных почти всегда скрыты. Это крошечные математические составляющие программ, обеспечивающих прибыль или влияние тем или иным корпорациям – владельцам облачных серверов. Если ту или иную корреляцию отделить от остальных и раскрыть, какой от нее толк? В отличие от крупиц научных данных, это не компоненты четкой структуры, и они не обязательно сохранят смысл в отрыве от контекста.
Проблема с магией
Большие массивы данных, хотя и кажутся волшебством, запросто могут сбить с толку. Разве это не очевидно? Углядеть в чем-то магию – значит достигнуть пределов собственного понимания.