Совсем недавно за разработку системы, аккумулирующей информацию Twitter для трейдинга, взялась компания Titan Trading Analytics. В своей системе они используют 1500 ключевых слов и более 600 факторов. Как видим, создание и практическое использование программ прогнозирования, базирующихся на неструктурированных данных web 2 и прежде всего Twitter, стало сегодня повсеместной практикой инвестиционных, макроэкономических и политических аналитиков.
Огромную роль в современном геополитическом, военном и инвестиционном прогнозировании играют общедоступные данные, связанные с частотой поисковых запросов, которые постоянно публикуют главные поисковики мира, прежде всего, Google и Bing. В нынешней реальности любой поисковый запрос представляет собой фиксацию процесса мышления о чем-то. Он показывает нам объект этого мышления, его последовательность и многое другое. Когда интернет с одной стороны стал доступен для подавляющего большинства жителей в развитых странах в режиме онлайн нон-стоп, а с другой, пользователи приучились к интернету, как к источнику мгновенного получения любой интересующей информации, использование поисковиков для прогнозирования стало возможным.
К настоящему времени независимыми группами исследователей, использующих различные методы и алгоритмы обработки поисковых запросов в целях прогнозирования установлено, что особым образом обработанная статистика поисковых запросов может выполнять роль опережающих индикаторов для целого ряда рынков и экономических параметров. В частности, это относится к динамике безработицы в США, Германии, Франции; динамике потребительских расходов на рынках электроники США, странах ЕЭС, Канаде; ценам на недвижимость США и Великобритании; биржевым индексам на «голубые фишки» на Нью-Йоркской и Лондонской биржах и фьючерсам на биржевой индекс китайских акций на Гонконгской бирже.
Уже полгода Министерство здравоохранения США успешно использует систему, построенную на анализе поисковых запросов для опережающего мониторинга и прогнозирования различного рода эпидемий в стране. На сегодняшний день обнаружено более 50 показателей, относительно которых поисковая статистика Google может быть использована как опережающий индикатор.
Вторым, бурно развивающимся направлением прогнозных вооружений, являются так называемые рекомендательные системы. Эти системы базируются на тщательном анализе поведения человека в сети. При этом анализируются не только его желания, высказанные в виде различного рода поисковых запросах, но и поведение на сайтах крупных интернет-магазинов — например, что человек ищет, как долго рассматривает что-либо и т. п. Используется здесь так называемый неявный сбор данных, когда все действия человека в сети протоколируются. Затем, на основе сложных алгоритмов выдаются рекомендации, которые подталкивают человека к тому или иному выбору. Наиболее известные рекомендательные системы созданы Amazon для книг и других товаров, продаваемых на этой универсальной платформе, eBay, Cinemax.com (рекомендации в отношении фильмов, демонстрируемых в кинотеатрах), Videoguide (для потокового видео) и т. п.
Во время последней избирательной кампании команда Б. Обамы, договорившись с крупнейшими рекомендательными платформами, успешно использовала их опыт для рекомендации Б. Обамы в качестве лучшего выбора для выявленных опять же по специальным алгоритмам колеблющихся избирателей и людей, которые вообще не собирались идти на выборы. По оценкам американских экспертов использование этой системы сыграло едва ли не решающую роль в победе Б. Обамы в кампании 2012 года.
Сегодня крупнейшие банки являются клиентами рекомендательной германской компании Kreditech. Гамбургский стартап Kreditech использует во время принятия решений информацию, почерпнутую из Facebook. Людей, претендующих на получение кредита, просят на время предоставить доступ к их учётной записи в Facebook или других социальных сетях. По словам Александра Граубнера-Мюллера, одного из основателей фирмы, список ваших друзей выдаёт немало. Претендент, приятели которого прилично зарабатывают и живут в хороших районах, имеет больше шансов на кредит. Претендент, знакомый которого отказался возвращать деньги, занятые у Kreditech, ничего не получит.
В качестве одного из наиболее ярких примеров сложных прогнозных систем можно привести проект Recorded Future. В январе 2010 года проект Recorded Future был запущен за счет инвестиций Google, инвестиционного фонда американского разведывательного сообщества In-Q-Tel и собственных вложений К. Альберга — основателя проекта, в прошлом шведского разведчика и известного программиста.
Recorded Future базируется на трех основных блоках:
• Встроенном поисковике третьего поколения. В первом поколении были системы типа Yahoo и HotBot. Они искали просто те или иные слова в документах и выдавали документы в произвольном порядке. Поэтому такого рода поисковики сопровождались каталогами, формировавшимися в основном экспертами на основе поисковой выдачи. Нечто подобное можно до сих пор увидеть на первой странице Rambler. Вторым поколением стал Google. Революция Брина-Пейджа состояла в том, что поисковик стал искать не только по документам, но и в значительной степени по связям между документами или сайтами. Третье поколение ищет не только объекты, соответствующие поисковым запросам, не только связи между документами, но и взаимосвязи между объектами, их характеристиками и отношениями, содержащимися в различных документах. Сегодня это главное направление развития поиска. Оно в полной мере реализовано в Recorded Future.
• Разделении информационного поля на составляющие. В Recorded Future выделено три класса сообщений.
Первый — это сообщения о событиях. События — это длящиеся определенный, достаточно небольшой период времени устойчивые конфигурации, которые характеризуются единством времени, места, участников и т. п. К событиям Recorded Future относит то, что может быть интерпретировано как факты, то, что реально произошло или происходит в данный момент. Второй — это мнения. К мнениям относятся любые сообщения относительно прошлых, настоящих или будущих событий, высказанные в авторитетных источниках, либо авторитетными людьми. В системе есть специальные алгоритмы, которые позволяют для каждой области выделить большую выборку таких источников и персон. Наконец, третий — это реакции. Здесь принимаются во внимание любые спонтанные реакции людей на те или иные ожидаемые события, зафиксированные в различного рода текстовых сообщениях. Не обязательно, чтобы эти сообщения были из авторитетных источников. Главное, чтобы они имели отношение к событиям и мнениям, так или иначе рассматриваемым и высказываемым в авторитетных источниках. Такое разделение на три сегмента информационного поля, как выяснилось, позволяет достаточно хорошо улавливать как господствующие тенденции и опережающим образом реагировать на их изменения, так и выявлять слабые сигналы.
• Рассмотрении интернета, как огромной распределенной сетевой базы неструктурированных данных. Еще у древних греков были знаменитые Мойры, которые пряли нити судьбы, образующие ткань реальности. Сестер было три. Первая олицетворяла, как мы теперь говорим, тренды. Вторая — случайности. Третья — неотвратимость последствий поступков и решений. Собственно Recorded Future использует поисковик, работающий в сегментированном информационном пространстве в масштабе огромной сетевой базы данных. В сетевой базе данных разные объекты и их характеристики связаны друг с другом прямыми, обратными и опосредованными связями. Соответственно, такой подход позволяет выявлять не только явные и очевидные связи, но и вести так называемый латентный анализ, т. е. получать неочевидные, а иногда даже и абсолютно не предполагаемые связи и отношения. К тому же обрабатывать огромное количество информации в алгоритмическом режиме. Т. е. оперировать информационными массивами, непосильными для непосредственной обработки человеком.