Зачем мы говорим | Тревор Кокс | страница 55 | LoveRead.ec

В центре внимания статьи находился один конкретный патент на технологию, который подтверждал опасения авторов по поводу используемого метода. «Текст патента был похож на студенческое эссе. Причем эссе такого студента, который совершенно не понимал, о чем идет речь, а просто использовал красивые слова», – говорит Франсиско. В патенте содержалось 500 строк компьютерного кода, что позволило Франсиско реконструировать процесс распознавания лжи. Программа выбирает из записи голоса изгибы звуковой волны, обрабатывает их, а затем вычисляет количество пиков, низших точек и плоских участков. Плоские участки могут быть вызваны паузами, хмыканьем (заполняющим речевую паузу) и поэтому, возможно, имеют некую слабую корреляцию с плавностью речи. Но число пиков и низших точек в профиле волны очень сильно зависит от настроек звукозаписывающего устройства.

Франсиско объясняет: «Это примерно то же самое, как если бы вы взяли текст, подсчитали количество случаев употребления гласной между двумя согласными, а потом оценили полученное число и длину последовательностей символов, которые находятся на расстоянии, скажем, пяти или десяти шагов в алфавите. И на основе этих данных сделали вывод, в каком состоянии находится автор текста!» Франсиско охарактеризовал эту программу как «управляемый голосом квази-случайный генератор чисел». Основываясь на количестве пиков, низших точек и плоских участков, программа выдает ряд меток, например: «обманчивость; низкий уровень стресса; мышление меньше, чем в рамках классификации; нормальное возбуждение». Как замечают в статье Ласерда и Эриксон, «результат анализа структурирован по тем же принципам, что и гороскопы», и представляет собой модель, которую практически каждый оператор может интерпретировать по-своему.

Подобные системы подвергались и научной проверке, которая показала, что они дают результаты, сравнимые с ожидаемой вероятностью. Келли Демхаус и ее коллеги из Университета Оклахомы опросили 319 заключенных из окружной тюрьмы, использовали ли те наркотики. Затем их ответы протестировали на наличие стресса в голосе [27]. После окончания интервью у опрошенных были взяты образцы мочи для анализа, и таким образом была установлена истина. «Ложные утвердительные ответы», вычисленные программой, на самом деле очень важны. Представьте, что, поддавшись на уговоры компании, вы согласились тестировать всех пассажиров в Хитроу на голосовой стресс. Вы будете каждый день отсеивать 8000 невинных людей, которых программа ложно идентифицировала как представляющих опасность.

В другом исследовании, тоже проведенном в тюрьме, количество арестантов-обманщиков сократилось на две трети после того, как им сообщили, что их речь анализировалась [28]. Таким образом, по-видимому, тест на наличие стресса в голосе работает благодаря блефу: люди, скорее всего, не станут лгать, если будут знать, что их могут разоблачить. Психологи называют это явление «эффектом фиктивного полиграфа». Оно было обнаружено Эдвардом Джоунзом и Гарольдом Сигалом, которые использовали поддельный детектор лжи, чтобы заставить испытуемых «открыть канал связи с собственной душой» и обнаружить их настоящие помыслы [29]. Полиция, страховые фирмы и правительственные учреждения могли бы сэкономить кучу денег, просто притворившись, что они купили детекторы лжи! Однако все это заставляет меня задуматься о том, сколько времени может продолжаться такой блеф.

Достаточно немного покопаться в интернете, чтобы без труда обнаружить свидетельства бесполезности подобных систем. Но тест на наличие стресса в голосе – это технология-зомби. Сколько бы ни разоблачали ее с помощью научных доказательств, она так или иначе возрождается снова. Не обращая внимания на результаты научных исследований, Министерство труда и пенсионного обеспечения Великобритании потратило 2,4 миллиона фунтов стерлингов с мая 2007 по июль 2008 года, проверяя возможность использования этой технологии для сокращения случаев мошенничества с пособиями. Идея была такая: когда заявитель звонит в правительственное учреждение, анализ стресса в голосе поможет сотрудникам определить, на кого следует обратить особое внимание. В четырех из семи случаев, что составило 80 % всех телефонных звонков, система сработала так же, как если бы сотрудник просто подбросил монетку [30]. «Жаль, что они потратили такую огромную сумму денег, чтобы получить такой результат, можно было бы для начала просто задать нужные вопросы», – сказал мне Франсиско Ласерда.

Сложности с обнаружением обмана в голосе заключаются в том, что и лжец, и говорящий правду могут находиться в стрессе. Исследователи лжи называют это «ошибкой Отелло» [31]. В пьесе Шекспира Отелло обвиняет жену, Дездемону, в любовной связи с Кассио, своим лейтенантом. У Кассио видели платок, который Отелло подарил Дездемоне. Отелло думает, что Кассио убили, исполнив его приказ, и сообщает Дездемоне, что Кассио мертв. Она решает, что у нее не осталось возможности доказать свою невиновность. Отелло принимает ее страдания за доказательство вины и убивает ее.

Если бы Отелло жил в наши дни, мог бы компьютер помочь ему определить, виновна Дездемона или нет? Как человек, много лет занимающийся машинным обучением, могу поспорить, что исследование только интонации и ритма речи Дездемоны вряд ли указало бы ему на правду. Если ни одному научному исследованию не удалось найти каких-либо определенных моделей, которые люди используют, когда лгут, и если стресс может изменять голос даже у тех, кто не лжет, тогда даже самый лучший алгоритм машинного самообучения ждет неудача.

А как насчет более простой на первый взгляд задачи: может ли компьютер, «слушая», определить, насколько человек пьян? Когда мы «под градусом», речь может резко изменяться. Говорение требует исключительно сложной координации мелких моторных движений. После принятия определенного количества алкоголя мышечный контроль теряется, речь становится неуклюжей и неразборчивой, потому что нам трудно справиться со своей голосовой анатомией. Из-за проблем с артикуляцией и притупленного восприятия мы, возможно, будем говорить медленнее.

Анализ голоса оказался в центре внимания в судебном процессе против Джозефа Хейзелвуда, капитана нефтяного танкера «Эксон Вальдес». Его обвинили в том, что он был пьян, когда командовал судном. В 1989 году танкер налетел на риф у побережья Аляски, в результате в океан вылилось 41,8 миллиона литров нефти и погибло 250 000 птиц, 3000 морских выдр, 300 тюленей, 250 белоголовых орланов и 22 косатки [32]. Записи разговоров Хейзелвуда во время катастрофы показали, что его голос был изменен. Он говорил медленнее, чем обычно, несколько изменилась и грубость голоса.

Мог бы компьютер обнаружить такие изменения в голосе капитана и автоматически передать командование кораблем первому помощнику? В 2011 году ученые приняли участие в соревновании, чтобы понять, насколько хорошо компьютер может определять опьянение по записи голоса [33]. Первым этапом стала подготовка образцов, с которыми далее должны были работать исследователи. Образцы были получены следующим образом: исследователи напоили добровольцев (154 человека) и попросили их проговорить некоторые фразы. Затем перед исследователями встала задача разработать компьютерные алгоритмы, которые могли бы определить, есть ли в аудиозаписях признаки, указывающие на трезвость или опьянение говорящего. Лучшая программа добилась точности 71 % [34]. Это соответствует результату, который может показать человек: в среднем люди могут опознать речь пьяного в трех четвертях случаев [35]. К сожалению, показатель успешности для компьютера слишком низкий, чтобы машину можно было считать надежным инструментом для проверки капитанов.

Зачем мы говорим - читать онлайн книгу. Автор: Тревор Кокс cтр.№ 55

Онлайн книга - Зачем мы говорим | Автор книги - Тревор Кокс