Роман с Data Science. Как монетизировать большие данные - читать онлайн книгу. Автор: Роман Зыков cтр.№ 52

читать книги онлайн бесплатно
 
 

Онлайн книга - Роман с Data Science. Как монетизировать большие данные | Автор книги - Роман Зыков

Cтраница 52
читать онлайн книги бесплатно

Первый используется для хранения ваших данных и авторизации, а также для веб-аналитики сайта. Например, когда вы заходите на сайт и авторизуетесь, то за счет куки второй тип – самый спорный. Сторонние куки можно использовать для трекинга вашего перемещения между сайтами, а также в интернет-рекламе и для передачи ваших данных сторонним ресурсам. Рассмотрим это на примере протокола RTB (Real Time Bidding) [89], который используется для мгновенного показа персонализированной рекламы через баннеры и видео. Часть мест на контентных сайтах, а это 2.5 миллиона из 4 миллионов сайтов рунета, выкупается большими компаниями (например, Google или Criteo), которые перепродают их своим клиентам по принципу аукциона. Упрощенная схема проста – кто больше дал ставку за показ, тот и будет показывать свой баннер. Сам аукцион выглядит следующим образом:

1. Вы приходите на веб-страницу, на которой есть такие рекламные блоки.

2. Еще до окончания загрузки страницы рекламная платформа отправляет вашу информацию [89]: IP, ваш ID из куки, ваши интересы (так делает Google), адрес страницы и ее тематику, характеристики вашего устройства и даже геокоординаты. И это не исчерпывающий список информации.

3. После отправки информации в течение пары сотен миллисекунд происходит вычисление ставок у рекламодателей. Серверы рекламодателя используют для этого свои математические модели, которые обрабатывают не только информацию от рекламной платформы, но и внутреннюю информацию, которой обладают сами. Эту информацию можно накопить, анализируя действия пользователя на сайте, что, например, делает Criteo [90], продавая услуги по возврату потенциальных покупателей – пользователей, которые пришли на сайт, но так ничего и не купили.

4. Рекламная платформа по ответам проводит аукцион и выбирает победителя.

5. Победитель показывает свою рекламу.

Еще один тип рекламы – programmatic, когда рекламодатель выкупает у сервиса сегмент аудитории, например у Яндекса или Google, основываясь на внутренних (я выкупаю пользователей, которые покупали у меня подгузники) или внешних (я выкупаю пользователей, которые покупали подгузники в интернете) данных. Показ рекламы осуществляется через те же самые механизмы RTB. Такая реклама менее персонализирована, но бьет по нужным маркетологам сегментам. Например, крупный интернет-магазин может «продать» часть своей аудитории с маленькими детьми производителю подгузников. Тогда этой аудитории будет показана реклама подгузников.

Чтобы использовать внутреннюю информацию всей этой рекламной RTB-машины, требуются сторонние куки рекламодателя, которые нужно сопоставить (cookie matching) с куками рекламной сети. Для этого на странице (необязательно рекламной площадки), которую смотрит пользователь, нужно получить два сторонних куки – рекламодателя и рекламной площадки (например, Google). Сами куки получают путем запроса прозрачной, а потому невидимой пользователю картинки размером один пиксель. Обычно это делает небольшой JavaScript-код, который вызывается при просмотре страницы пользователем. Именно в момент сопоставления кук происходит сопоставление ID клиента между рекламодателем и рекламной площадкой. С этого момента у рекламодателя намного больше данных о пользователе. Например, интернет-магазин может передавать ID своего клиента в систему Google, чтобы увидеть его в аукционах RTB, который сам же Google и проводит. Далее по этому ID подтягивается необходимая информация из внутренней базы данных магазина, например, сколько покупок совершил клиент, как давно была сделана последняя из них, какими категориями он интересуется. На основании этой информации магазин делает ставку – сколько он готов заплатить за показ своей рекламы этому клиенту, а также выбирает подходящий рекламный баннер. Если бы этой внутренней информации о покупках не было, экономика RTB-рекламы для магазина была бы значительно хуже.

Тот же механизм сопоставления кук используется при скрытом сборе и продаже данных клиента. Когда вы серфите в интернете – откройте список сетевых запросов в инструментах разработчика в браузере; вы будете удивлены, как много разных систем собирают о вас информацию. Там будут и социальные сети, которые ставят их кнопки и блоки с комментариями к статье, – все это используется для сбора информации. Именно поэтому сторонние куки находятся под ударом со стороны браузеров и законов. Согласно исследованию «The GDPR Is a Cookie Monster» [93], до введения GDPR закона в ЕС, в среднем одна страница оставляла около 80 сторонних кук, то есть порядка 80 сервисов аналитики и рекламных трекеров одновременно получали историю ваших действий в интернете.

Ваш ID в куках какого-либо сервиса – это святое. По этому ID сервис может найти у себя всю историю взаимодействий с вами. Сами куки-файлы – вещь ненадежная, и поэтому они периодически протухают. Они могут вытесняться из-за ограничений браузера или намеренно стираться пользователем. Поэтому сервисы стараются любой ценой повысить их живучесть, дублируя их хранение во всевозможных хранилищах браузера. Если JavaScript-код не находит основную куки, но находит информацию в таких хранилищах, то он восстанавливает ее из хранилища в куки. Следующая ступень – связывание всех ваших устройств в одно, так будет еще больше истории браузинга, а значит, сервис получит более полные данные. Самый простой способ это сделать – через логины: пользователь логинится на основной сайт с компьютера и с мобильного телефона. Так как это одна и та же учетная запись – то куки в основном и мобильном браузере привязываются к учетной записи сайта. А если пользователь намеренно стирает куки? Например, так делают интернет-мошенники всех мастей, которые хотят получить кредит. Чтобы найти на них управу, созданы специальные сервисы – они используют цифровые отпечатки, которые работают без кук, только на основе той информации, что можно получить из браузера одномоментно. Если цифровой отпечаток хорошо спроектирован сервисом, то он с высокой степенью сможет отличить одного пользователя от другого, а значит, и отследить потенциального мошенника. Например, так делает сервис juicyscore.com, который собирает сотню характеристик пользователя – от технических до поведенческих, когда даже вычисляется «ритмичность» ввода данных на клавиатуре.

Мы уже говорили про отслеживание и продажу данных геопозиций мобильных телефонов. Для интернет-рекламы в приложениях у смартфона есть свой ID, который является альтернативой кукам в браузерах – Mobile Advertising ID. Этот ID носит название AdID в Google Android и IDFA для устройств Apple. В принципе, это то же самое, что и куки, и у пользователя есть возможность сбросить этот ID, чтобы очистить свою историю. Эти ID недоступны из мобильных браузеров, только в приложениях [94].

Еще один источник данных – провайдеры интернета. До широкого внедрения защищенного протокола https они видели всю историю браузинга пользователей, всю информацию в адресной строке браузера. После внедрения этого протокола они видят только домены сайтов, которые вы посещаете, благодаря DNS-запросам [92], с помощью которых привычные нам имена доменов превращаются в IP-адреса, понятные маршрутизаторам. Я не думаю, что провайдеры оказывают существенное влияние на рынок данных, если только речь не идет о просмотре сайтов с очень специфичным контентом.

Вернуться к просмотру книги Перейти к Оглавлению