Роман с Data Science. Как монетизировать большие данные - читать онлайн книгу. Автор: Роман Зыков cтр.№ 31

читать книги онлайн бесплатно
 
 

Онлайн книга - Роман с Data Science. Как монетизировать большие данные | Автор книги - Роман Зыков

Cтраница 31
читать онлайн книги бесплатно


Плюсы:

• Гибкость. Доступны программные библиотеки на любой вкус.

• Блокнот очень легко запустить в облаке и не тратить ресурсы личного компьютера.

• Легко делиться и публиковать результаты.

• Поддержка разных языков программирования. Я в Retail Rocket использовал блокноты в Jupyter notebook на языке Scala.

• Можно взаимодействовать с любыми источниками данных, для которых есть драйверы.

• Чтобы повторить результат, блокнот достаточно перезапустить и выполнить все ячейки. Не со всеми инструментами это легко сделать. Например, в электронных таблицах могут поехать формулы. Здесь такого эффекта не будет.


Минусы:

• Не считаю удачной идеей использование блокнотов как компонента рабочей системы, хотя много слышу о таких прецедентах (так делает даже Netflix [49]). Они созданы для исследовательской работы, а не построения рабочих процессов.

• Порог входа выше, чем в электронных таблицах. Как минимум нужны знания базовых основ программирования на выбранном языке.

Инструменты визуального анализа

Я их также называю сервисом персональных дашбордов. Этот подход отличается от предыдущих тем, что вам практически не нужно программировать, вы можете работать через «тонкий клиент» (веб-браузер) и публиковать полученные дашборды на порталах. Самый простой из них – Google Data Studio – позволяет работать преимущественно с источниками данных в облаках Google, включая Google Sheets. Это больше чем просто средства визуализации. Power BI и Tableau (рис. 7.2) пошли дальше – они реализовали средства ETL (Extract Transformation Layer), когда данные скачиваются из источников на машину пользователя или в облако. Power BI это делает с помощью языка программирования Power Query, Tableau через визуальный интерфейс (блоки и стрелки, их соединяющие).


Роман с Data Science. Как монетизировать большие данные

Рис. 7.2. Tableau


Плюсы:

• Порог входа ниже, чем у блокнотов (notebooks).

• Визуализация гораздо лучше, чем у альтернативных инструментов (особенно у Tableau).

• Мощные средства интерактивного анализа – например, коррелированный анализ.

• Есть «толстые клиенты» (приложения), но не у всех вендоров.

• Можно собрать несложную BI-систему.

Минусы:

• У бесплатных версий привязка к облаку вендора. Например, Google Dashboard привязан к облаку Google.

• Неполный набор коннекторов. Например, у Google Dashboard нет коннектора к Clickhouse. Но сама такая идея под большим вопросом из-за безопасности. Клиент Google работает из облака, а значит, придется открывать доступ к вашим внутренним БД из интернета, а это не самая лучшая идея.

Пакеты статистического анализа данных

Мое знакомство с анализом данных началось именно с этих инструментов, когда меня взяли на стажировку в компанию StatSoft. Электронные таблицы и системы визуального анализа очень слабы в статистическом анализе, а именно это является необходимым атрибутом анализа данных. Допустим, вы наблюдаете разницу в показателях – как определить, она действительно существует или случайна? Для этого нужно рассчитать ее статистическую значимость.

Пакеты стат-анализа данных обычно представляют собой десктопные приложения (рис. 7.3), в которых вычисления происходят локально. Данные загружаются в виде электронных таблиц. Как правило, есть несложный визуальный ETL, как в Tableau. Есть встроенный язык программирования для автоматизации действий.


Плюсы:

• Очень богатые возможности для статистического анализа. Справка этих пакетов успешно конкурирует с учебниками по прикладному анализу данных. Сами статистические функции тщательно протестированы, в отличие от общедоступных статистических калькуляторов в интернете.

• Хорошие графические возможности.

• Внимание к деталям, что важно для научных исследований.

• С данными можно работать офлайн.


Минусы:

• Высокий порог входа. Вы должны понимать, что делать, какой именно статистический критерий использовать. Обязательно требуются базовые знания математической статистики.

• Коммерческие продукты стоят дорого.

Роман с Data Science. Как монетизировать большие данные

Рис. 7.3. STATISTICA


Работа с данными в облаках

В эпоху развития удаленной работы все больше инструментов уходит в облака. Я связываю это с тем, что бизнесы, а значит источники данных, стали располагаться на облачных серверах. Перекачивать большие объемы данных по интернету то еще удовольствие. Согласно Гартнеру [46], к 2022 году публичные облачные сервисы закроют 90 % потребностей в анализе данных.

Уже практически все вендоры облаков разработали инструменты визуального анализа: Google Data Studio, Microsoft Power BI, Amazon Quick Sight, Yandex DataLens.


Плюсы:

• Данные и средства анализа находятся внутри одного периметра безопасности. Легко управлять доступом к данным. Не нужно явно подвергать себя риску и открывать доступ к данным через интернет.

• Данные доступны внутри сети одного облака – скорость работы выше.

• Нативная возможность совместной работы. Думаю, вы работали с сервисами наподобие Google Docs. Насколько удобнее получается совместная работа, чем работа со стандартным офисным пакетом.

• Тонкий клиент – все действия делаются в браузере. Не нужно ставить программы на ваш компьютер.

• Гибкое ценообразование – цена зависит от частоты использования и нагрузок.

• Расходы на администрирование системы меньше.


Минусы:

• Цена. Даже если облако предоставляет визуализацию бесплатно, за сами вычисления и агрегацию данных придется платить. Эта модель схожа с каршерингом: если вы очень активный пользователь, в какой-то момент становится выгоднее купить свой автомобиль. Так же и с облаками.

• Ваши данные находятся у одного вендора, а это порождает зависимость. Если объем информации составляет петабайты, то очень нелегко их перевести на свои сервера или облако другого вендора.

В целом мне нравится этот тренд – миграция данных и их анализа в облачные сервисы, это делает разработку аналитических систем легче и часто дешевле покупки корпоративных систем.

Вернуться к просмотру книги Перейти к Оглавлению