Данные являются другим важным элементом ускорения развития искусственного интеллекта. Если максимально упростить, то можно сказать, что создавать продукты и приложения с искусственным интеллектом без наличия данных практически невозможно.
В техническом сообществе есть одно очень известное высказывание: «Данные – новая нефть». Сегодня самыми важными компаниями зачастую являются те, у которых есть доступ к самым большим объемам данных. Однако в бизнесе важен не только объем данных, но и их качество.
Я все же могу возразить: данные даже лучше нефти. В те годы, когда нефть была одним из ценнейших ресурсов в мире, лишь некоторые компании имели возможность извлекать из нее выгоду. Однако теперь, когда практически любой человек может усвоить базовые знания об искусственном интеллекте и машинном обучении и использовать полученные навыки для создания ценных инструментов и когда можно с легкостью воспользоваться бесплатными онлайн-источниками информации, каждый может извлечь выгоду из данных.
Доступ к данным
В современном мире у нас есть обилие данных, которые мы можем использовать. Например, тридцать лет назад объем данных по здравоохранению, дорожному движению, финансам и другим важным областям деятельности и темам был далеко не таким большим, как сейчас, и создавать решения на базе искусственного интеллекта для решения основных проблем в этих областях было просто невозможно.
Пользуясь той же логикой, можно предположить, что технологии, которые существуют у нас сейчас, будут иметь даже большее значение спустя десять лет, поскольку появится доступ к еще большему объему данных.
Один из примеров данной концепции можно найти в наблюдении за разработкой самоуправляемых автомобилей и связанных друг с другом «умных» городов. Основным компонентом, делающим создание этих вещей возможным, является объем данных, которые можно собрать и проанализировать для увеличения производительности систем искусственного интеллекта.
Анализ данных обычно опирается на два вида информации: структурированные и неструктурированные данные. Чтобы действительно понять системы ИИ, важно знать ключевые различия между двумя типами данных.
Обычно структурированные данные используются гораздо чаще неструктурированных. Структурированные данные включают в себя простые данные, такие как числовые значения, даты, валюты или адреса. Неструктурированные данные включают в себя более сложные для анализа типы данных: текст, изображения и видео. Однако развитие инструментов искусственного интеллекта сделало возможным анализ более обширного спектра неструктурированных данных, которые затем можно использовать для создания рекомендаций и прогнозов.
Мощная аналитика даст нам возможность в будущем применять инструменты искусственного интеллекта для всего общества в целом.
Рис. 1.6. Структурированные и неструктурированные данные
В «Меррилл Линч» посчитали, что 80–90 % всех бизнес-данных в мире не структурированы, это означает, что анализ именно такого типа данных очень ценен
[14]. Результаты анализа неструктурированных данных могут привести к возникновению ряда преимуществ в нашем современном обществе, включая, помимо прочего, лучшие возможности для здравоохранения, более безопасные схемы дорожного движения, а также облегчение доступа к образованию.
Использование данных в бизнесе и общественной деятельности
«Большие данные» также помогают крупным компаниям улучшать свою внешнюю и внутреннюю деятельность. Ли Кайфу, венчурный капиталист и директор компании Sinovation Ventures, описывает причины того, почему данные важны для технологических компаний, в пяти шагах, которые компании используют для улучшения своих решений в области искусственного интеллекта:
Получение большего количества данных: поисковый алгоритм Google содержит в себе огромное количество данных. Кроме того, Facebook не стала бы настолько мощной социальной сетью без доступа к данным о человеческом общении. Основная идея здесь состоит в том, что технологические компании могут создавать услуги, которые были бы настолько мощными и полезными, чтобы люди хотели давать сервису пользоваться своими данными.
Лучший продукт с обученным искусственным интеллектом: в случае Google и Facebook ваш пользовательский опыт учитывает ваши индивидуальные предпочтения, чтобы быть максимально полезным вам. Это становится возможным благодаря наличию инструментов на базе искусственного интеллекта, которые способны персонализировать опыт.
Увеличение числа пользователей: если у пользователей был положительный опыт использования продукта, они, как правило, рекомендуют его своим друзьям.
Повышение прибыли: увеличение числа пользователей всегда означает увеличение прибыли.
Доступ к высококвалифицированным специалистам по теории и методам анализа данных и процессов, а также к экспертам в области машинного обучения: поскольку прибыль компаний растет, они получают возможность привлекать самых лучших в мире экспертов в области искусственного интеллекта
[15].
В конце концов, чем больше в компанию приходит специалистов по теории и методам анализа данных и процессов, а также экспертов по машинному обучению, тем значительнее становятся их исследования в области искусственного интеллекта, что, в свою очередь, позволяет компании не только становиться более значимой, но и лучше подготовиться к будущему.
Эти пять шагов отражены на рисунке 1.7 ниже. Несмотря на то что в примере приведены исключительно американские технологические компании, данные шаги также применимы и к другим компаниям, занимающимся разработками в области искусственного интеллекта, таким как Alibaba, Baidu и Tencent.
Рис. 1.7. Искусственному интеллекту важны данные
Из-за того, что данные являются настолько важной частью процесса развития ИИ, многие эксперты требуют у технологических гигантов разрешения на использование хотя бы части имеющихся у них данных с целью, чтобы большее количество полезных приложений и продуктов также смогли использовать данную информацию.