Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - читать онлайн книгу. Автор: Эйден Эрец, Жан-Батист Мишель cтр.№ 24

читать книги онлайн бесплатно
 
 

Онлайн книга - Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры | Автор книги - Эйден Эрец , Жан-Батист Мишель

Cтраница 24
читать онлайн книги бесплатно

Но даже в этом случае перед нами загадка. Как именно лексикографы, создающие словари, узнают, какие слова в них включать?

Существует две теории относительно того, как это работает.

Одна теория заключается в том, что работа лексикографа носит предписывающий характер. Согласно этой точке зрения, лексикографы отвечают за то, что происходит в языке. Создавая словари, они говорят нам, какие слова надо использовать, а какие нет. Именно так относился к лексикографии президент Тедди Рузвельт [97]. В 1906 году он приказал Государственной типографии США использовать более простую орфографию, например, фраза «I have answered your grotesque telephone» должна была писаться как «I hav anserd yur grotesk telefone». Эта идея не понравилась Конгрессу, поэтому изначальная орфография осталась нетронутой. Предписывающая точка зрения на лексикографию до сих пор доминирует во Франции, где правительство периодически публикует официальный документ о правильном использовании и написании слов. В январе 2013 года Journal Officiel порекомендовал заменить английское слово hashtag («хэштег») французским mot-diиse (что можно условно перевести как «слово со значком»). Разумеется, Twitter ответил на это коллективным #ROFL [98]. Проблема предписывающего подхода состоит в том, что неочевидно, какой человек или какая организация должны отвечать за язык [99]. Язык больше любого конкретного правительства, этноса или нации.

Другая идея – имеющая куда больше сторонников, особенно в США, – состоит в том, что работа лексикографа не предписывает, что нам делать, а описывает, что мы делаем, будучи предоставленными сами себе [100]. Согласно этому подходу, лексикографы – это не монархи, а исследователи. Словарь представляет собой карту их открытий.

Однако и у этой идеи есть свои проблемы. Если лексикографы не могут решить, что является словом, а что нет, то насколько велика вероятность ошибки? Можем ли мы в таком случае полагаться на словарь?

В конце концов, лексикографы – это обычные люди. Конечно же, нюансы использования слов интересуют их больше, чем случайного человека на улице. Однако, пытаясь вычислить, какие слова нужно включать в словари, лексикографы обычно делают то же самое, что и все остальные. Они слушают, как говорят другие. Они много читают. Они изо всех сил пытаются выявить возникающие тенденции – какие новые слова стали употреблять? Какими словами перестали пользоваться? Какая новая информация появляется в словарях-конкурентах?

В результате у лексикографов формируются свои личные впечатления от кандидата в слова, они пытаются вычислить, насколько эти впечатления истинны [101]. Один знакомый нам лексикограф использует для этого следующий критерий: он пытается найти четыре примера этого слова в не связанных между собой текстах. Консенсус в лексикографическом сообществе желателен, однако когда речь идет о техническом жаргоне – например, о решении, включать ли в словарь слово «графен», – решение остается на усмотрение одного консультанта, имеющего определенные знания в области физики. Создание словарей – это не наука. Это искусство, которому уже много столетий.


Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Возьмем, к примеру, American Heritage Dictionary. Его четвертое издание было опубликовано в 2000 году, через восемь лет после третьего. За эти годы в языке появились новые слова. Редакторы AHD предприняли немалые усилия по их выявлению. Их трофеи включали в себя amplidyne («разновидность силового генератора»), mesclun («разновидность салата»), netiquette («сетевой этикет») и phytonutrient («химические вещества, придающие растениям цвет, запах и вкус»). Можно ли считать такой подход удачным?

График четко показывает, что успех AHD весьма относителен. В случаях mesclun и netiquette составители явно опоздали. Если судить по критерию частоты, оба слова вполне могли попасть в AHD уже в 1992 году. В случае amplidyne они опоздали еще сильнее; пик использования этого слова пришелся на начало XX века, и в наши дни слово уже полностью устарело. Несмотря на все свои усилия, лексикографам не удается вовремя выявить новые слова, и порой они могут отставать на десятилетия.

Увидев этот график, мы поняли, что (по крайней мере, когда речь заходит о выявлении слов) способность прочитать миллиарды предложений после одного нажатия кнопки может быть для лексикографов настоящим подарком небес.

Словарь по принципу «Сделай сам»

Мы решили создать свой собственный описательный словарь, состоящий из всех слов современного английского языка. Наша идея была простой – если некая последовательность символов достаточно часто встречается в современных текстах, написанных на английском языке, то это – слово. Что такое «достаточно часто»? Естественным было бы использовать для отсечки ту же частоту самых редких слов, которая встречается в словарях. По нашим расчетам, она составила примерно один раз на каждый миллиард слов текста [102]. Поэтому наш ответ на вопрос «Что такое слово?» звучит следующим образом:

Вернуться к просмотру книги Перейти к Оглавлению Перейти к Примечанию