23. Приключения машинного перевода
Из-за того что европейцы не захотели ни продолжать распространять важную информацию на латыни, ни перейти для этого на какой-то другой общий язык (например, эсперанто), возник целый ряд дорогостоящих и сложных переводческих задач. Причем решать их приходится в условиях жестких временны́х ограничений, немыслимых в прошлые века. Теперь, когда почти все остальные операции, связанные с передачей новостей, выполняются не курьерами, а электронными устройствами, напрашивается вопрос: почему основная процедура тоже не может выполняться автоматически, специальными устройствами?
Машинный перевод пока только делает первые шаги, но позади у него уже полная событий история. Впервые он возник при драматичных исторических обстоятельствах в ответ на настоятельную политическую потребность. Он не был учрежден в результате акта политической воли, как это произошло с языковыми правилами Европейского союза, а вырос на почве всеобщего ужаса, сопутствовавшего началу холодной войны. США разработали и взорвали атомную бомбу. Какое-то время у них была монополия на это страшное оружие. Сколько времени она может продлиться? Когда Советский Союз догонит Америку? Ответ на этот вопрос можно было получить, просматривая советские научные журналы в поисках показателей уровня развития страны в соответствующих областях
{140}. Журналы печатались на русском языке. США нужно было либо подготовить целую армию русско-английских научных переводчиков, либо изобрести машину им на замену.
Но для создания большого коллектива переводчиков с малоизвестного языка требуется много времени. В 1945 году не было очевидного источника знающих английский русских переводчиков с научной подготовкой, поэтому власти задумались над машинным переводом. Были все основания полагать, что именно он позволит решить неотложную задачу — отслеживать возможности Советского Союза в области разработки атомной бомбы.
Вторая мировая война привела к прорыву в криптографии — создании и взломе шифров. Были разработаны статистические методы для расшифровки сообщений, даже если было неизвестно, на каком языке они составлены. Поразительные успехи расшифровщиков из английского научного центра в Блетчли-парке подтолкнули некоторых исследователей к мысли рассматривать сам язык как шифр. В написанном в июле 1949 года знаменитом меморандуме Уоррен Уивер, бывший тогда одним из руководителей Рокфеллеровского фонда, заявил, что «кажется весьма заманчивым объявить книгу, написанную на китайском языке, просто книгой на английском, закодированной китайским кодом. Если у нас есть методы, позволяющие решать почти любые криптографические задачи, возможно, при правильной интерпретации окажется, что у нас есть и алгоритмы перевода?»
{141}.
Уиверу была известна новаторская работа Клода Шеннона с соавторами в только что возникшей теории информации и кибернетики, и он понимал, что если язык можно рассматривать как шифр, то для математиков, логиков и инженеров, работающих с новыми увлекательными вычислительными устройствами, только что получившими тогда название «компьютеры», открывается широчайшее поле деятельности. Но желание рассматривать язык как шифр имело под собой гораздо более глубокие основания, чем предчувствие, что это создаст интересные задачи для головастых парней.
Код или шифр — это способ представления информации таким образом, что воспринять ее можно только с помощью секретного ключа или кода. Каким бы хитрым ни был ключ и каким бы сложным ни был алгоритм превращения оригинала в код, между закодированным и раскодированным выражениями всегда есть взаимосвязь, которую можно найти. Если сам язык код такого рода, то что он кодирует? В долгой западной традиции размышлений о языке со времен древних греков есть только один возможный ответ: значение (иногда называемое «мыслью»). Чтобы добраться до закодированной сути, то есть до настоящего несократимого простого базового значения выражения, машинному переводчику понадобится освободить реальное высказывание в языке А от всего, что является кодом. На самом деле это всего лишь перепевы той древней идеи, что язык — одежда мысли. Сам Уивер предлагал следующую аналогию:
Представьте себе, что люди живут в нескольких глухих башнях, построенных на едином фундаменте. Пытаясь общаться, они кричат друг другу из своих башен. Звуку очень трудно пробиться внутрь даже ближайших башен, и процесс коммуникации проходит плохо. Но спустившись в низ своей башни, человек оказывается в большом открытом подвале, общем для всех башен. Здесь он легко обменивается полезной информацией с теми, кто тоже спустился вниз
{142}.
Мечта о «легком обмене полезной информацией» со всеми людьми из «большого открытого подвала» — общей основы человеческой жизни — отражает древний и, в первую очередь, религиозный взгляд на язык и значение, от которого очень трудно отказаться, несмотря на его чисто гипотетический характер. Ибо какой язык станут использовать люди для общения в «большом открытом подвале»? Язык глубинного смысла. На следующем этапе развития машинного перевода и современной лингвистики его стали называть интерлингвой или инвариантным ядром значения и мысли, которое зашифровано в сообщении на любом языке.
Таким образом, задача, которую ставили перед собой пионеры машинного перевода, почти совпадала с задачей переводчика в формулировке современных теоретиков и философов: выявить и реализовать чисто гипотетический язык, на котором на самом деле говорят все люди в большом открытом подвале своих душ.
Как это можно было бы автоматизировать? Уже существовала масса интеллектуальных методов, как будто специально для этого созданных. С тех самых пор как римляне стали учить молодежь читать и писать по-гречески, в западной традиции изучающим языки всегда говорилось, что перед ними стоят две основные задачи: выучить слова иностранного языка и выучить его грамматику. Именно поэтому наши двуязычные словари отделены от учебников грамматики, содержащих наборы правил, по которым слова из словаря можно объединять в осмысленные цепочки. Вот что такое язык в нашей древней, но неизменной языковой философии: своего рода детский конструктор, состоящий, с одной стороны, из болтов, гаек, брусьев, перекладин, блоков и шестеренок (в нашем случае предлогов, глаголов, существительных, прилагательных, частиц и наречий), а с другой — из набора правил о том, как их можно соединять. Гайка навинчивается на болт, но не на шестеренку, точно так же прилагательное ставится перед существительным, а предлог перед ними обоими…
В момент зарождения машинного перевода имелась теоретическая возможность (вскоре ставшая практической) хранить на компьютере большой массив слов, разбитых на грамматические категории, разработанные греками и римлянами. Можно было хранить и два массива: один для русского языка, а другой — для английского, указав компьютеру, какое английское слово соответствует тому или иному русскому. Менее ясно было, как реализовать подразумеваемое в метафоре Уивера утверждение, что людей из отдельных башен можно собрать в общем подвале, — то есть как научить компьютер выявлять значение предложения по его форме. Для этого компьютеру должна быть известна вся грамматика языка. Ему следует сообщить, из чего она состоит. Но кому известна вся английская грамматика? Все, кто изучает язык, быстро усваивают, что систематизированные закономерности часто нарушаются всевозможными исключениями. Каждый носитель языка знает, что правила грамматики можно нарушать (что он часто и делает). Полное лингвистическое описание какого бы то ни было языка остается лишь мечтой, далекой от реальности. Это одна из двух причин, по которой первоначальный этап развития машинного перевода потерпел фиаско. Вторая заключается в том, что даже люди — уж, казалось бы, знатоки грамматики родного языка! — не могут уловить смысл высказывания без кучи дополнительных знаний о мире, — и уж конечно никто пока не знает, как передать эти необходимые дополнительные знания компьютеру. Классическая головоломка, которую компьютер не в силах разрешить, — это правильно определить значения слов в предложениях: The pen is in the box
[141] и The box is in the pen
[142]. Чтобы их понять, нужно знать соотносительные размеры предметов в реальном мире (пенала и загона для овец соответственно), которые нельзя узнать с помощью словарных значений и синтаксических правил. В 1960 году выдающийся логик Йегошуа Бар-Хиллел, которого МТИ нанял специально для разработки FAHQT (fully automated high-quality translation
[143]), раздраженно объявил о своей капитуляции: