BIG DATA. Вся технология в одной книге - читать онлайн книгу. Автор: Андреас Вайгенд cтр.№ 12

читать книги онлайн бесплатно
 
 

Онлайн книга - BIG DATA. Вся технология в одной книге | Автор книги - Андреас Вайгенд

Cтраница 12
читать онлайн книги бесплатно

Когда поисковик вроде Google выдает ответ на ваш запрос, перечень сайтов представляет не десятки одинаковых позиций, а предлагает различные варианты в рамках определенной степени релевантности предмету поиска. Иногда бывает понятно, что вам нужна информация о чем-то совершенно конкретном, например в случае, когда вы вводите в строку поиска словосочетание «Panthera onca». Но если вы введете в качестве предмета поиска просто «ягуар», то компьютер покажет вам не только то, что относится к представителю кошачьих, автомобилю или старой операционной системе компьютеров Mac [43]. Алгоритмы поисковой системы создают кластеры значений слова «ягуар» на основе количества слов на странице, связей между страницами и перемещениями пользователей между страницами и предлагают для изучения выборки из каждого такого кластера, чтобы обеспечить большую вероятность успеха вашего поиска.

Разновидностью задачи об «одноруком бандите» является задача «оптимального момента остановки», или «взыскательного ухажера». Впервые ее описал Мартин Гарднер в своей колонке «Математические игры» в журнале Scientific American. В его варианте на листках бумаги пишутся любые числа, «от мельчайших долей единицы до астрономически больших, вроде единицы со ста нулями» [44]. Листочки перетасовываются, а затем перебираются один за другим до тех пор, пока вы не останавливаетесь на том, где, как вы считаете, значится самое большое число. Со временем листочки бумаги в мысленном эксперименте превратились в ухажеров, идущих на свидание. Вы приходите на свидание, и вам надо решить: будете ли вы встречаться с остальными девушками или прекратите поиск, потому что это та самая? В реальной жизни выбор между исследованием и использованием может иметь критически важное значение.

Понятно, что пользователи приложений или сайтов знакомств решают задачу «взыскательного ухажера» в постоянном режиме. Самые первые сайты знакомств позволяли пользователям уточнять свои предпочтения по весу, росту или географическому положению потенциального партнера и соответственно этому ранжировали результаты поиска. Некий пользователь решил кликнуть фото потенциальной партнерши, которую мы назовем Сэм. Сайт не знал, что именно заставило его кликнуть фото Сэм. Может быть, то, что она была первой в списке? А может быть, то, что она брюнетка и носит очки? А может быть, это произошло потому, что она сфотографирована на фоне океана, а этого пользователя интересуют жительницы побережья или те, кто приезжает туда отдыхать? Пользователя могло заинтересовать все, что угодно, но ему все равно нужно было решать – послать Сэм сообщение или продолжать разглядывать фото. В отличие от традиционной свахи, которая всеми силами стремится найти идеальную пару для каждого клиента, сайт знакомств предоставляет пользователю самому решать, хочет ли он увеличить число рекомендаций от сайта, видеть в подборке вариантов нечто схожее с предыдущими или нечто совершенно другое.

В основном инфопереработчики решают вопрос баланса между исследованием и использованием исходя из того, насколько подробно пользователь изучает рекомендации и возвращается ли он к ним, если возвращается вообще. Однако оптимальная настройка часто зависит от предпочтений пользователя в данный конкретный момент. Взыскательный ухажер может искать как вечный идеал, так и партнера на ближайший вечер, и инфопереработчику трудно определить характер конкретного поиска.

Принцип прозрачности подразумевает, что пользователи понимают, как обрабатываются их данные; свобода выбора диктует право пользователей на определенное влияние на этот процесс.

Стартап музыкальных рекомендаций MoodLogic, сооснователем которого я являлся [45], предлагал своему пользователю определенную степень контроля над сочетанием использования и исследований, то есть между музыкой, которую он обычно слушает, и знакомством с чем-то новым. Мы анализировали коллекцию музыки в компьютере пользователя и создавали некую модель, позволяющую определить произведения, исполнителей, авторов, инструментальные составы, темпы и жанры, которые ему подойдут. Модель прогнозировала, насколько новое произведение может понравиться пользователю. Затем мы предлагали ему выбор из двух настроек. При выборе «безрискового» варианта система выдавала музыку примерно одного стиля, которая должна была, по нашему прогнозу, понравиться пользователю. «Зондирующая» настройка предлагала послушать музыку, которую, как мы считали, пользователь мог бы или полюбить, или возненавидеть. Выбор оставался за ним, но при этом аккумулировалась информация, которую мы могли использовать для совершенствования алгоритмов MoodLogic.

Хотя количество информации безгранично, этого нельзя сказать о времени. Решения приходится принимать. Феномен социальных данных в том, что результаты процесса их переработки могут становиться новым входящим потоком.

Работа над ошибками

Людям нравится считать свои решения обоснованными. Возможность перечислить все «за» и «против» («Стоит ли принять предложение работы в другом городе или согласиться с конкурентным предложением моего нынешнего работодателя?»), сравнить варианты и выбрать то, что лучше соответствует ситуации, текущим целям и кажется наименее рискованным, придает уверенности. В прошлом люди собирали информацию, разговаривая с родными, друзьями, коллегами и наставниками. Они принимали решения в мире «небольших данных».

Сегодня можно обратиться к рейтингам удовлетворенности работой портала Glassdoor, где на условиях анонимности оценивают условия и оплату труда [46]. Там собраны отзывы сотрудников о более чем 400 000 компаний и ежегодно поступает более полумиллиона новых комментариев. Например, по компании Amazon собрано 8000 отзывов о работе, 8000 – о собеседованиях при приеме на работу и 14 000 – о зарплате. Человек, рассматривающий возможность работы в компании, получает доступ к значительно большему количеству информации о ней, чем когда-либо прежде, однако времени на то, чтобы ознакомиться со всеми 8000 отзывов и сравнить их с условиями своего нынешнего места работы, у него нет. Какие из этих отзывов достоверны, какие соответствуют рассматриваемой позиции? А если кто-то неверно понял вопрос или случайно кликнул более низкую оценку, чем хотел?

Вернуться к просмотру книги Перейти к Оглавлению Перейти к Примечанию