Искусственный интеллект на службе бизнеса – страница 15 | Ави Голдфарб, Аджей Агравал, Джошуа Ганс

• обучающие данные для ИИ;

• входные данные для прогнозирования;

• данные обратной связи для повышения точности прогноза.

• Сбор данных требует затрат – вложения. Его размер зависит от того, сколько данных вам необходимо и чем осложнен процесс сбора. Крайне важно уравновесить издержки на приобретение данных с выгодой от повышенной точности прогноза. Для определения оптимального подхода требуется оценить окупаемость затрат для каждого типа данных: сколько нужно вложить для сбора и насколько ценным окажется повышение точности соответствующих прогнозов?

• Увеличение ценности с поступлением дополнительных данных зависит от статистических и экономических причин. С точки зрения статистики у данных – убывающая отдача. Каждая следующая порция данных улучшает прогноз меньше, чем предыдущая; десятое наблюдение более существенно для прогноза, чем тысячное. С точки зрения экономики все не так однозначно. Добавление данных к существующему большому объему может быть эффективнее, чем к маленькому, – например, если дополнительные данные делают прогностическую машину пригодной к использованию, повышают ее продуктивность или позволяют обойти конкурента. Таким образом, организация должна понимать взаимосвязь между добавлением данных, повышением точности прогнозов и увеличением ценности.

Глава 4. Новое разделение труда

Каждое изменение в электронном документе можно зафиксировать. Для большинства людей это просто более удобный способ отслеживать правки, но Рон Глозман увидел в нем возможность применять ИИ к данным для прогнозирования редактирования. В 2015 году Глозман запустил стартап Chisel, и его первый продукт прогнозировал конфиденциальную информацию в юридических документах. Продукт представляет ценность для юридических компаний, потому что при разглашении документов они обязаны скрывать информацию такого рода. Раньше редактировали вручную, люди вычитывали и исправляли тексты документов. Предложение Глозмана позволяло сэкономить время и силы.

Машинное редактирование работало, но не идеально. Бывало, что машина по ошибке скрывала информацию, подлежащую разглашению, или пропускала конфиденциальную. Для соответствия юридическим стандартам требовалась проверка исправленного текста человеком. На тестовом этапе Chisel предлагала фрагменты для редактирования, и человек подтверждал или опровергал предложение. На практике такая совместная работа экономила много времени, а ошибок оказывалось меньше, чем если бы редактирование осуществлялось только человеком.

Разделение труда между человеком и компьютером оказалось эффективным, потому что устранило недостатки работы читающего – низкую скорость и недостаточную внимательность – и ошибки машинной интерпретации текста.

Ошибаются и люди, и машины. Не зная типичных неточностей, мы не понимаем, как объединить их для прогнозирования. Зачем? Согласно идее разделения труда, существующей еще с XVIII века, со времен экономики Адама Смита^[38], – роли распределяются в соответствии со способностями. В нашем случае с целью прогнозирования разделение труда должно произойти между человеком и машиной. Для этого необходимо разобраться, какие обязанности лучше выполняют люди, а какие – компьютеры. Таким образом мы определим отдельные роли.

Слабые стороны человека в прогнозировании

В известном психологическом эксперименте испытуемому показывали случайную последовательность Х и О и просили ее продолжить. Например, такую:

OXXOXOXOXOXXOOXXOXOXXXOXX

Почти все сразу замечают, что Х здесь больше, чем О, – если подсчитать, получится 60 % Х и 40 % О. Поэтому чаще выбирают Х и иногда разбавляют О. Однако для повышения шансов на точный прогноз нужно всегда выбирать Х. Тогда ответ окажется верным в 60 % случаев. Если рандомизировать 60/40 (как это делают большинство испытуемых), прогноз окажется верным только в 52 % случаев. И это немногим лучше, чем выбирать, вообще не задумываясь о соотношении Х и О, а просто угадывать (с вероятностью 50/50)^[39].

Из подобных экспериментов напрашивается вывод, что из людей получаются плохие статистики даже в ситуации, когда они способны оценить вероятности. Такую ошибку не сделала бы ни одна прогностическая машина. Но люди, вероятно, не относятся к подобным задачам ответственно, для них это просто игра. Допускали бы они такие ошибки, если последствия были бы серьезнее, чем в игре?

Ответ на этот вопрос подтвержден психологами Дэниелом Канеманом и Амосом Тверски в многочисленных экспериментах: несомненно «да»^[40]. Они предлагали людям решить задачу про две больницы: если в одной рождается 45 младенцев в день, а в другой 15, то в какой из них будет больше дней, когда 60 % новорожденных или более окажутся мальчиками? Верный ответ давали очень немногие – в маленькой. Он правильный, потому что чем больше количество событий (в данном случае рождений), тем выше вероятность, что итог каждого дня будет ближе к среднему (в данном случае к 50 %). Попробуем понять почему: представьте, что вы подбрасываете монетку. Вероятность выпадения нескольких орлов подряд выше, если подбросить монетку пять, а не пятьдесят раз. Таким образом, в маленькой больнице – потому что там рождается меньше младенцев – вероятность отклонений от среднего значения выше.

О подобных эвристических опытах и отклонениях написано немало книг^[41]. Большинство людей не умеют составлять прогноз на основе статистических правил, поэтому нанимают специалистов. Но и те, к сожалению, не всегда могут избежать таких же отклонений и сложностей со статистикой во время принятия решений. Отклонениями заражены разнообразные сферы, такие как медицина, право, спорт и бизнес. Тверски вместе с исследователями Гарвардской школы медицины описывал медикам два вида лечения рака легких: лучевую терапию и операцию. На основании показателей выживаемости за пять лет он рекомендовал операцию. Для двух групп участников информацию о краткосрочной выживаемости после операции – более рискованного варианта, чем лучевая терапия, – сформулировали по-разному. Исходя из формулировки «в течение месяца выжили 90 % пациентов», операцию предпочли 84 % врачей, а когда данные перефразировали: «в первый месяц смертность составляет 10 %» – уже всего 50 %. Суть обоих вариантов одна и та же, а на решение влияла исключительно формулировка. Машина не учитывала бы ее.

Книга Искусственный интеллект на службе бизнеса, страница 15 – Ави Голдфарб, Аджей Агравал, Джошуа Ганс

Онлайн книга «Искусственный интеллект на службе бизнеса»