Примечания книги: Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - читать онлайн, бесплатно. Автор: Эйден Эрец, Жан-Батист Мишель

читать книги онлайн бесплатно
 
 

Онлайн книга - Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Перейти к чтению книги Читать книгу « Неизведанная территория. Как "большие данные" помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры »

Примечания

1

В самой Конституции Соединенные Штаты упоминаются во множественном числе. К примеру: «Государственной изменой Соединенным Штатам считается только ведение войны против них…» См. U.S. Const., art. III, § 3. (Здесь и далее примечания авторов, если не оговорено иное. – Прим. ред.)

2

Цит. по.: McPherson James M. Battle Cry of Freedom. Oxford: Oxford University Press, 1988. P. 859. (Здесь и далее для удобства читателя в ссылках на литературу имя автора следует за фамилией. Имена приводятся в том виде, в каком они написаны авторами. – Прим. ред.)

3

Цитата из статьи в Washington Post (24 апреля 1887 г.), цит. по: Zimmer Ben. Life in These, uh, This United States // Language Log (24 ноября 2005 г.). Доступно в сети Интернет: http://goo.gl/Ug8iX.

4

Обратите внимание, что использование строчной буквы позволяет избежать неточностей в формулировках. Например, в выражении the Senate of the United States вполне понятно, что речь идет не о самих Соединенных Штатах, а о Сенате Соединенных Штатов.

5

Вопрос использования единственного или множественного числа не терял актуальности и до 1901 года, когда Джон У. Фостер, работавший госсекретарем при президенте Бенджамине Гаррисоне, опубликовал в газете New York Times статью, описывавшую преимущества использования единственного и множественного числа. См. Foster John W. Are or Is? Whether a Plural or a Singular Verb Goes with the Words United States // New York Times. Доступно в сети Интернет: http://goo.gl/Ql60b.

6

Подробная история всех этих открытий отлично описана в книге: Ilardi Vincent. Renaissance Vision from Spectacles to Telescopes. Philadelphia: American Philosophical Society, 2007.

7

По-английски и келья, и клетка называются одним словом – cell (Прим. ред.). Во время работы над настоящей книгой Эрец посетил Упсальский университет в Швеции, где ему представилась возможность изучить первое издание «Микрографии» (Micrographia: or some physiological descriptions of minute bodies made by magnifying glasses with observations and inquiries thereupon), написанной Гуком в 1665 году. Сделанные Гуком рукописные иллюстрации того, что он увидел через микроскоп, не могут не потрясать даже по современным стандартам. Нельзя даже представить себе, насколько невероятными они казались в то время. «Микрография» была первым научным бестселлером, одним из первых научно-популярных текстов. Тем не менее в наши дни первое издание представляет собой редкость. Добро пожаловать в мир революции цифровых книг: теперь любой человек может изучить оригинал книги в сети Интернет. См. Hooke Robert. Micrographia. London: Jo. Martyn and Ja. Allestry, 1665. Доступно в онлайн-библиотеке: http://lhldigital.lindahall.org/.

8

Поначалу названные «анималкулами» открывшим их Антони ван Левенгуком. См. Dobell Clifford. Antony van Leeuwenhoek and His «Little Animals». New York: Harcourt, Brace, 1932. В вашем теле бактериальных клеток в 10 раз больше, чем человеческих. См.: Savage D. C. Microbial Ecology of the Gastrointestinal Tract // Annual Review of Microbiology 31 (1977). P. 107. Доступно в сети Интернет: http://goo.gl/hzVlrR. Бактерии, живущие внутри нас, превышают человеческое население планеты примерно в 1014, то есть составляют 100 триллионов.

9

Первые телескопы Галилея были не столь мощными. 30-кратного увеличения удалось добиться только после нескольких усовершенствований. См. Westfall Richard S. Science and Patronage: Galileo and the Telescope // Isis 76, no. 1 (март 1985 г.). P. 11–30. Доступно в сети Интернет: http://goo.gl/eiPt3U; King Henry C. The History of the Telescope. London: C. Griffin, 1955.

10

См. Whitehouse David. Renaissance Genius: Galileo Galilei and His Legacy to Modern Science. New York: Sterling, 2009; Wootton David. Galileo: Watcher of the Skies. New Haven, CT: Yale University Press, 2010; Brake Mark. Revolution in Science: How Galileo and Darwin Changed Our World. New York: Palgrave Macmillan, 2009; Moss Jean Dietz. Novelties in the Heavens: Rhetoric and Science in the Copernican Controversy. Chicago: University of Chicago Press, 1993; Westman Robert S. The Copernican Question Prognostication, Skepticism, and Celestial Order. Berkeley: University of California Press, 2011.

11

Ранняя история человеческого письма стала известной нам во многом благодаря новаторской работе Денис Шмандт-Бессерат. Названный ею «розеттским камнем эпохи фишек» глиняный «амулетик», найденный в иракском Нузи и датируемый II тысячелетием до н. э., представляет собой одну из самых важных находок в области археологии древней письменности. На амулете приведен текст, написанный клинописью и расшифрованный как: «21 овца // 6 ягнят-самок // 8 взрослых баранов // 4 ягненка-самца // 6 беременных коз // 1 козел // 3 козочки // Печать Зикарру, пастуха». Когда амулет открыли, внутри него обнаружилось описание каждого из животных, перечисленных снаружи. Для чего понадобилось такое повторение? К тексту на внешней поверхности довольно легко обратиться, однако его так же легко было видоизменить. С внутренним содержимым дело обстояло наоборот. Соответственно, в случае разногласий между сторонами сделки спор решался открытием амулета и изучением его содержимого. Ученые полагают, что через какое-то время люди пришли к мысли, что можно использовать клинопись как внутри, так и снаружи, – это позволяло им полностью отказаться от изображений и создавать юридические документы на базе одного лишь текста. Практика создания контрактов, в которых часть текста оставалась «открытой» для простоты обращения, а другая часть была «запечатана» на случай возникновения разногласий, получила широкое распространение. Пример такого типа контракта зафиксирован в Еврейской Библии (Иер. 32: 10–11). См. Powell Barry B. Writing: Theory and History of the Technology of Civilization. Chichester, England: Wiley– Blackwell, 2009; Rudgley Richard. The Lost Civilizations of the Stone Age. New York: Free Press, 1999; Schmandt-Besserat Denise. How Writing Came About. Austin: University of Texas Press, 1996; Schmandt-Besserat Denise. Before Writing, vol. 1, From Counting to Cuneiform. Austin: University of Texas Press, 1992; Schmandt-Besserat Denise. Before Writing, vol. 2. A Catalog of Near Eastern Tokens. Austin: University of Texas Press, 1992. Разумеется, у исследователей нет единого мнения в данном вопросе. Кто-то считает, что в Египте письменность возникла совершенно независимо и иным образом. См. Mitchell Larkin. Earliest Egyptian Glyphs // Archaeology 52, no. 2 (март/апрель 1999 г.), доступно в сети Интернет: http://goo.gl/tM3GEQ.

12

Классическую игру в «двадцать вопросов» можно также назвать «два с половиной байта», поскольку именно такой объем информации вы должны собрать, прежде чем высказать свою догадку.

13

Подсчеты содержатся в отчете IDC Digital Universe report. См. Gantz John, Reinsel David. The Digital Universe in 2020 // EMC Corporation (декабрь 2012 г.). Доступно в сети Интернет: http://idcdocserv.com/1414. См. также: Data, Data Everywhere // Economist (25 февраля 2010 г.). Доступно в сети Интернет: http://goo.gl/VsXh5P. Bohn Roger E., Short James E. How Much Information? 2009 // Global Information Industry Center (январь 2010 г.). Доступно в сети Интернет: http://goo.gl/pt0R; Lyman Peter, Varian Hal R. How Much Information 2003? // University of California at Berkeley. Доступно в сети Интернет: http://goo.gl/vpo9N.

14

Мы исходим из предположения, что для записи типичного бита требуется примерно шесть миллиметров. В определенной степени это зависит от соотношения единиц и нулей, поскольку «1» очень узкая. Типичный размер букв в рукописном тексте рассматривается в работе Kamath Vikram et al. Development of an automated handwriting analysis system // ARPN Journal of Engineering and Applied Sciences 6, no. 9 (сентябрь 2011 г.). Доступно в сети Интернет: http://goo.gl/4mlkTm.

15

Таким образом, проблему подсчета овец можно будет считать полностью решенной, если только Вселенная не расширится очень сильно.

16

Согласно расчетам IDC (International Data Corporation), цифровой след человечества вырастет со 130 экзабайт в 2005 году до 40 000 экзабайт (40 зеттабайт) в 2020 г. Иными словами, удвоение объема информации будет происходить каждый год и 10 месяцев. См. выше.

17

См. Facebook Tops 1 Billion Users // Associated Press (4 октября 2012 г.), доступно в сети Интернет: http://goo.gl/nfK32P.

18

См. Einav Liran et al. Learning from Seller Experiments in Online Markets // National Bureau of Economic Research, 2011. Доступно в сети Интернет: http://goo.gl/f9ghir.

19

См. Bond Robert M. et al. A 61-Million-Person Experiment in Social Influence and Political Mobilization // Nature 489, no. 7415 (2012). P. 295–298. Доступно в сети Интернет: http://goo.gl/AQdAS0.

20

См. Song Chaoming et al. Limits of Predictability in Human Mobility // Science 327, no. 5968 (2010). P. 1018–1021.

Доступно в сети Интернет: http://goo.gl/rYlF2v.

21

См. Ginsberg Jeremy et al. Detecting Influenze Epidemics Using Search Engine Query Data // Nature 457 (2009). P. 1012–1014. Доступно в сети Интернет: http://goo.gl/WHEWW.

22

См. Chetty Raj, Friedman John N., Rockoff Jonah E. The Long-Term Impacts of Teachers // National Bureau of Economic Research (декабрь 2011 г.), доступно в сети Интернет: http://goo.gl/C18JQ; Chetty Raj et al. How Does Your Kindergarten Classroom Affect Your Earnings? // National Bureau of Economic Research (март 2011 г.), доступно в сети Интернет: http://goo.gl/N9O6a.

23

См. Silver Nate. FiveThirtyEight, URL: http://www.fivethirtyeight.com; Silver Nate. The Signal and the Noise. New York: Penguin, 2012.

24

Что имеется в виду? Нет смысла оцифровывать каждую копию каждой книги из когда-либо написанных, хотя заметки на полях порой могут оказаться довольно увлекательными. См. Grafton Anthony, Weinberg Joanna. I Have Always Loved the Holy Tongue. Cambridge, MA: Harvard University Press, 2011. С другой стороны, многие издания наиболее знаменитых работ, переиздававшихся на протяжении столетий, порой очень отличаются. И эти различия могут быть весьма серьезными. См., к примеру, Rumsey Eric. Google Book Search: Multiple Editions Give Quirky Results // Seeing the Picture (12 октября 2010 г.), URL: http://goo.gl/6YNld. В случае Google Books цель состоит в оцифровке одной копии каждого издания каждой книги.

25

См. The Stanford Digital Library Technologies Project // Stanford University, URL: http://goo.gl/tstLQ; Google Books History // Google Books, URL: http://goo.gl/ueobb.

26

Отчасти по причинам, приведенным выше, а отчасти и из-за расплывчатости определения книги как физического объекта подсчет количества книг в обычной библиотеке может оказаться непростым делом. Поэтому данные о коллекции каждой библиотеки были взяты со страницы в «Википедии» по состоянию на 18 июля 2013 г. Стоит отметить, что эти цифры не всегда актуальны. Также нужно оговориться, что Стэнфорд уже начинает закрывать физические библиотеки и заменять их «библиотеками без книг». См. Krieger Lisa M. Stanford University Prepares for the «Bookless Library» // San Jose Mercury News (18 мая 2010 г.), доступно в сети Интернет: http://goo.gl/yauezp.

27

См., к примеру, оцифрованное издание книги Klipstein Louis F. Grammar of the Anglo-Saxon Language. New York: George P. Putnam, 1848, доступно в сети Интернет: http://goo.gl/cWRlJ. Стоит отметить, что из юридических и этических опасений Гарвард принял решение выйти из программы Google Books, позволив Google произвести оцифровку лишь материалов, не защищенных копирайтом. См. Mirviss Laura G. Harvard-Google Online Book Deal at Risk // Harvard Crimson (30 октября 2008 г.), доступно в сети Интернет: http://goo.gl/0tYflD.

28

Этот термин не так давно предложен исследователем социальных сетей Сэмюелем Арбесманом. См. Arbesman Samuel. Stop Hyping Big Data and Start Paying Attention to Long Data // Wired (29 января 2013 г.), доступно в сети Интернет: http://goo.gl/X7oEC.

29

Хотя лучшие эмпирические массивы данных малодоступны, социальные сети остаются довольно перспективным полем для исследований. См., к примеру: Watts Duncan J., Strogatz Steven H. Collective Dynamics of «Small-World» Networks // Nature 393, no. 6684 (1998). P. 440–442. Доступно в сети Интернет: http://goo.gl/be3Xmi; Barabаsi Albert-Lаszlу, Albert Reka. Emergence of Scaling in Random Networks // Science 286, no. 5439 (1999). P. 509–512. Доступно в сети Интернет: http://goo.gl/eESUa8; Milo Ron et al. Network Motifs: Simple Building Blocks of Complex Networks // Science 298, no. 5594 (2002). P. 824–827.

30

Стоит отметить, что присутствие юристов в нашей жизни – это не всегда плохо. Так, у одного из авторов этой книги супруга – юрист.

31

Поначалу мы разделили все результаты нашей работы на четыре части: текст исследования, подробное методологическое приложение и два вспомогательных веб-сайта. См. Michel Jean-Baptiste et al. Quantitative Analysis of Culture Using Millions of Digitized Books // Science 331, no. 6014 (14 января 2011 г.), доступно в сети Интернет: http://goo.gl/mahoN; подробный вспомогательный текст, доступный в сети Интернет: http://goo.gl/1e509; Ngram Viewer, Google Books, 2010, URL: http://books.google.com/ngrams; Culturomics. Cultural Observatory, URL: http://www.culturomics.org. Поскольку в наших ссылках мы будем часто обращаться к Michel et al., то обозначим ее как Michel2011. Аббревиатура Michel2011S будет использоваться для отсылки на вспомогательный текст.

32

См. Ngram Viewer 2 и выше; Aiden Erez Lieberman, Michel Jean-Baptiste. Culturomics, Ngrams and New Power Tools for Science // Google Research Blog (10 августа 2011 г.), URL: http://goo.gl/FSbbP; Orwant Jon. Ngram Viewer 2.0 // Google Research Blog (18 октября 2012 г.), URL: http://goo.gl/zOSfg.

33

В 1911 году выдержки из его выступления в городе Сиракьюс, штат Нью-Йорк, появились в Printers’ Ink, первом американском деловом издании по вопросам рекламы. В выдержках приводится первая зафиксированная форма высказывания: «Используйте картинку. Она стоит тысячи слов». Вскоре после этого появилась более компактная форма: «Картинка стоит тысячи слов», а также варианты с использованием «десятка тысяч» и «миллиона». Поначалу все три варианта приписывались Брисбейну. Вполне возможно, что он действительно использовал их все в разных случаях. См. Printers’ Ink 75, no. 1 (6 апреля 1911 г.). P. 17. К 1925 году фразу уже начали приписывать Конфуцию. См. Management Accounting // National Association of Cost Accountants (1925).

34

См. Reimer Karen. Legendary, Lexical, Loquacious Love. Chicago: Sara Ranchouse, 1996. На обложке книги указано: «Карен Реймер переписывает Ив Раймер». прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный, – прекрасный. прекрасный. прекрасный. прекрасный… прекрасный… (Прим. ред.)

35

A – неопределенный артикль в английском языке (Прим. ред.).

36

Страстный (англ.) (Прим. ред.).

37

Идея «больших данных» пока еще слишком нова для того, чтобы найти достойное отражение в книгах; см. наше обсуждение времени, которое требуется, чтобы термины стали появляться в книгах, в главе 6. Согласно данным Google Trends, количество результатов поиска на тему больших данных было довольно постоянно до 2011 года, а затем стало расти. Статья в Википедии Big Data была создана в апреле 2010 года; по состоянию на 14 июля 2013 г. она подвергалась редактированию 694 раза, ее просматривали более 150 000 раз в месяц и она стоит на 2022-м месте по популярности в англоязычной «Википедии». См: Big data // Google Trends, 2013, URL: http://goo.gl/tL8GnD; Big Data // Wikipedia (14 июля 2013 г.), URL: http://goo.gl/DFFbr; Big Data: Revision History // Wikipedia (14 июля 2013 г.), URL: http://goo.gl/Jvla3; Big Data // X!’s Edit Counter (14 июля 2013 г.), URL: http://goo.gl/e9YZ7v; Big Data // Wikipedia Article Traffic Statistics (14 июля 2013 г.), URL: http://goo.gl/vgYxH.

38

Лучше всего понять атмосферу этого места и познакомиться с участниками проекта можно, прочитав книгу Новака. См. Martin A. Nowak with Roger Highfield, SuperCooperators. New York: Free Press, 2011.

39

Ответ на этот вопрос приводится в довольно противоречивой работе, изначально опубликованной Галилеем в 1632 году. См. Galileo Galilei, Dialogue Concerning the Two Chief World Systems, Ptolemaic and Copernican. New York: Modern Library, 2001. (Рус. изд.: Галилей Г. Диалог о двух главнейших системах мира – птолемеевой и коперниковой. М. – Л.: ГИТТЛ, 1948. – Прим. ред.)

40

Это вызвано явлением рассеяния Рэлея, открытым лордом Рэлеем (в то время его имя звучало как Джон Стратт). См. John Strutt. On the Light from the Sky, Its Polarization and Colour // Philosophical Magazine 41, series 4 (1871). P. 107–120, 274–279.

41

См. George W. Koch et al. The Limits to Tree Height // Nature 428 (22 апреля 2004 г.). P. 851–854. Доступно в сети Интернет: http://goo.gl/lxNlq.

42

См. Carlos Schenck. Sleep. New York: Penguin, 2007. Несмотря на наличие огромного количества книг на эту тему, никто в точности не знает, почему нам необходимо спать. Теоретикам есть где разгуляться в этой области. См., к примеру, Van M. Savage and Geoffrey B. West. A Quantitative, Theoretical Framework for Understanding Mammalian Sleep // PNAS: Proceedings of the National Academy of Sciences (20 ноября 2006 г.), доступно в сети Интернет: http://goo.gl/wFWDC.

43

Сравниваются две формы прошедшего времени глагола, одна из которых образована по правилу, но не существует в языке, вторая – существует, но образована не по правилу (Прим. ред.).

44

См. Nicholas Wade. Anthropology a Science? Statement Deepens a Rift // New York Times (9 декабря 2010 г.), доступно в сети Интернет: http://goo.gl/eCI9K3.

45

См. Nathan Myhrvold, Chris Young, and Maxine Bilet. Modernist Cuisine: The Art and Science of Cooking. Bellevue, WA: The Cooking Lab, 2011; Malcolm Gladwell. In the Air // New Yorker (12 мая 2008 г.), доступно в сети Интернет: http://goo.gl/TTtsLU.

46

Частота этого слова в книгах на английском языке в 2000 году – 4,6%, или 2 употребления на каждые 5 миллионов слов.

47

Приведенная ниже команда позволяет создать в системе Linux список всех однословных элементов в текстовом файле, отсортированных от самого частого к наименее частому: cat textfile.txt | tr’’ ‘ ’ | sort | uniq – c | sort – k1 – n -r > 1grams.txt

48

Среди них было много женщин. Их замечательная работа описана в книге Grier David Alan. When Computers Were Human. Princeton, NJ: Princeton University Press, 2007. Сервис компании Amazon под названием Mechanical Turk, описываемый как «искусственный искусственный интеллект», представляет собой в каком-то смысле возврат к подобному подходу, только с использованием сети Интернет и краудсорсинга. См. URL: http://www.mturk.com.

49

См. Miles Hanley. Word Index to James Joyce’s Ulysses. Madison: University of Wisconsin Press, 1937.

50

Первая встреча Ципфа с законом, носящим его имя, произошла еще до того, как он занялся анализом частоты слов в «Улиссе». В 1911 году бизнесмен по имени Р. С. Элдридж опубликовал список частотных слов, взятых с восьми полос газеты. Элдридж заметил, что «даже умеренное количество слов при мудром выборе позволит любым двум людям понять друг друга… и серьезно обсуждать множество проблем». Его цель состояла в использовании лексической статистики для формулирования «основ универсального словаря». Список лег в основу расчетов Ципфа для книги 1935 года «Психобиология языка» – первой из публикаций Ципфа о закономерности, ныне известной как «закон Ципфа». См. Zipf George Kingsley. The Psycho-Biology of Language. Boston: Houghton Mifflin, 1935, доступно в сети Интернет: http://goo.gl/KYvOcK; Zipf George Kingsley. Human Behavior and the Principle of Least Effort. Reading, MA: Addison-Wesley, 1949; Eldridge R. C. Six Thousand Common English Words. Buffalo, NY: Clement Press, 1911.

51

Ципф во многом полагался на приложение к индексу Хенли, созданное Мартином Йоосом, где приводилось большинство необходимых статистических данных.

52

Было бы большим упущением, если бы мы не отметили, что закон Ципфа не имеет прямого отношения к Ципфу и не является законом в строгом смысле слова, причем по нескольким причинам. Прежде всего он верен лишь отчасти; при ближайшем рассмотрении в большинстве языков имеются систематические отклонения от чисто ципфовской закономерности. Во-вторых, несмотря на множество (конфликтующих между собой) теоретических построений, не до конца понятно, применим ли закон Ципфа для всех языков или только к отдельным языкам. Закон Ципфа, вероятнее всего, представляет собой в высшей степени универсальную – и достаточно загадочную – эмпирическую закономерность. Кроме всего прочего, Ципф его не открывал. Насколько нам известно, первым человеком, сформулировавшим его основополагающий математический принцип, был французский стенограф по имени Жан-Батист Эсту, опубликовавший результаты своих исследований по данному вопросу в 1912 году в своей популярной книге по скорописи (дисциплине, в которой ципфовские закономерности нашли немедленное практическое применение). Классическое представление закона Ципфа как графика распределения частотности на шкале с двумя осями было впервые изложено Эдвардом Кондоном в научной работе, опубликованной в 1928 году в журнале Science. Кондон впоследствии стал знаменитым физиком и президентом двух организаций – Американского физического общества и Американской ассоциации содействия развитию науки. Первая публикация Ципфа на тему закона Ципфа появилась в 1935 году. Судя по всему, он, независимо от других исследователей, пришел к тем же выводам и подтвердил их более основательными данными (как бы это ни было любопытно, анализ использования Ципфом чужих исследований не входит в наши планы в данной книге). Ципф продолжал работать над этим вопросом в течение долгого времени, много сделав как для создания теоретической базы, так и для масштабного рассмотрения аналогичных явлений в общественных науках. Также Ципф объединил разрозненные идеи и популяризовал их. В обзоре на его книгу Human Behavior and Principle of Least Effort («Человеческое поведение и принцип минимизации усилий»), написанном в 1949 году, она названа «одной из самых амбициозных книг из когда-либо написанных… свежей и непохожей на прочие. Как ни одна другая из написанных за последние полвека, она преодолевает границы между различными областями исследований». См. Stewart John Q. Обзор книги Zipf George Kingsley. Human Behavior and the Principle of Least Effort // Science 110, no. 2868 (16 декабря 1949 г.). P. 669. Для краткости мы не описываем подробно данную книгу. И все же, учитывая историю его развития, как дать закону Ципфа более точное название? Разумно предположить, что закон Ципфа должен на самом деле называться закономерностью Эсту – Кондона – Ципфа. Но даже такое название будет не вполне справедливым. Работа Ципфа стала возможной благодаря индексации и подсчетам, сделанным Хенли, Йоосом и Элдриджем. Работа Кондона также была основана на частотном анализе, проведенном другими исследователями: в данном случае Леонардом Айресом и Годфри Дьюи (сыном Мелвила Дьюи, изобретателя одноименной десятичной системы). Поэтому закон Ципфа стоило бы называть закономерностью Эсту – Кондона – Ципфа – Элдриджа – Айреса – Дьюи – Хенли – Йооса. Возможно, именно по этой причине мы придерживаемся более простого варианта – «закон Ципфа». В любом случае мы давно привыкли к тому, что всякое открытие, основанное на кропотливом анализе по-настоящему впечатляющего массива данных, не называется в честь человека, собравшего этот массив. Поэтому нам стоит заняться вручением утешительных призов. Как вариант, подошло бы название «принципа Хенли». См. Estoup Jean-Baptiste. Gammes Sténographiques. Paris: Institut Sténographique, 1916; Condon E.U. Statistics of Vocabulary // Science 67, no. 1733 (16 марта 1928 г.). P. 300. Доступно в сети Интернет: http://goo.gl/Qi5B49; Ayres Leonard P. A Measuring Scale for Ability in Spelling. New York: Russell Sage Foundation, 1915, доступно в сети Интернет: http://goo.gl/C0cgke; Dewey Godfrey. Relative Frequency of English Speech Sounds. Cambridge, MA: Harvard University Press, 1923; Petruszewycz M. L’Histoire de la Loi d’Estoup-Zipf: Documents // Mathématiques et Sciences Humaines 44 (1973). P. 41–56. Доступно в сети Интернет: http://goo.gl/LlrNn. Краткое и изящное описание этих идей приведено в книге Levelt Willem. A History of Psycholinguistics. Oxford: Oxford University Press, 2012. Обширная библиография на тему закона Ципфа и связанных с ним принципов приводится в работе Beebe Nelson H. F. A Bibliography of Publications about Benford’s Law, Heaps’ Law, and Zipf ’s Law. Salt Lake City: University of Utah, 2013, доступно в сети Интернет: http://goo.gl/TuyT0. Связанной с законом Ципфа может считаться концепция «розового или 1/f шума». См. Mandelbrot Benoit B. Multifractals and 1/f Noise: Wild Self-Affinity in Physics. New York: Springer, 1999.

53

См. Fryar C. D., Gu Q., Ogden C. L. Anthropometric Reference Data for Children and Adults: United States, 2007–2010 // Vital Health Statistics 11, no. 252 (2012), доступно в сети Интернет: http://goo.gl/uEuiV.

54

Если быть более точным, то степенным законом называется закономерность, при которой одна величина пропорциональна другой величине и растет по экспоненте (степенной константе). Закон Ципфа является степенным законом, величины в котором – это количество и частотность, экспонента равна 1. Если величины составляют сеть, то такая сеть называется «безмасштабной». См. Strogatz Steven H. Exploring Complex Networks // Nature 410, no. 6825 (2001). P. 268–276. Доступно в сети Интернет: http://goo.gl/gO6Eb4. Когда величины представляют собой геометрическую структуру, а экспонента не равна целому числу, для такой структуры есть специальное название: фрактал. См. Mandelbrot Benoit. The Fractal Geometry of Nature. San Francisco: W. H. Freeman, 1985. Хотя Ципф был одним из первых, кто выявил степенную закономерность в частотном распределении слов, еще ранее исследователи находили степенные последовательности в других областях. Самым заметным было наблюдение Вильфредо Парето, согласно которому 80% земли в Италии принадлежало 20% населения. Это было первое правило 80/20 из целого ряда подобных. Такой перекос на языке математики называется степенным законом.

Многие из степенных законов были впервые упомянуты Ципфом в его книге 1949 года, в которой он также приводит наблюдения других исследователей. Из самых последних обзоров см. Clauset Aaron, Shalizi Cosma Rohilla, Newman M. E. J. Power-Law Distributions in Empirical Data // SIAM Review 51, no. 4 (2009). P. 661–703. Доступно в сети Интернет: http://goo.gl/6PLJFF; Schroeder Manfred. Fractals, Chaos, Power Laws: Minutes from an Infinite Paradise. New York: W. H. Freeman, 1991. Подобные закономерности встречаются столь часто, что можно привести великое множество примеров в самых узких областях науки. См., например, Rodríguez-Iturbe Ignacio, Rinaldo Andrea. Fractal River Basins: Chance and Self-Organization. Cambridge, England: Cambridge University Press, 2001.

55

Согласно данным переписи 2010 года, средний капитал американского домохозяйства (за вычетом недвижимости) составлял 15 000 долларов. В марте 2010 г. журнал Forbes оценил состояние Билла Гейтса в 53 млрд долл. Таким образом, в нашем гипотетическом сценарии рост Гейтса должен составлять около 6007 км. Это значительно больше, чем диаметр Плутона (2390 км), Меркурия (4879 км) и Луны (3474 км); он сопоставим с диаметром Марса (6792 км). Даже при включении в расчет стоимости недвижимости, что повышает величину среднего собственного капитала до 66 740 долларов, высота Гейтса все равно составляла бы не менее 1350 км, что значительно больше половины диаметра Плутона. См. The World’s Billionaires: William Gates III // Forbes (10 марта 2010 г.), доступно в сети Интернет: http://goo.gl/8ykj; Wealth and Asset Ownership // U. S. Census Bureau (11 июля 2013 г.), доступно в сети Интернет: http://goo.gl/llnbC, и в особенности Wealth Tables 2010 // U. S. Census Bureau, доступно в сети Интернет: http://goo.gl/v7mxk.

56

См. Newman M. E. J. Power Laws, Pareto Distributions and Zipf’s Law // Contemporary Physics 46, issue 5 (2005), доступно в сети Интернет: http://goo.gl/nrkMB. Рассказ об обезьянах, печатающих на машинках случайные символы, приводится в статье Miller George A. Some Effects of Intermittent Silence // American Journal of Psychology 70, no. 2 (июнь 1957). P. 311–314. Доступно в сети Интернет: http://goo.gl/p6PLll.

57

Довольно подробное рассмотрение этой увлекательной проблемы можно найти в книге Pinker Steven. Words and Rules: The Ingredients of Language. New York: Basic Books, 1999. В зависимости от вашей точки зрения, неправильные глаголы могут казаться либо странными, либо восхитительно причудливыми. Как-то раз одна читательница New York Review of Books опубликовала объявление о поиске партнера, начинавшееся словами: «Можете ли вы назвать себя неправильным глаголом?» См. Pinker Steven. The Language Instinct. New York: William Morrow, 1994. P. 134. (Рус. изд.: Пинкер С. Язык как инстинкт. М.: Либроком, Едиториал УРСС, 2013. – Прим. пер.).

58

Если быть более точным, аблаут – это чередование гласных в рамках одной морфемы, выступавших своего рода внутренней флексией, ср., например: собирать – собрать – сбор – соберу (Прим. ред.).

59

В отличие от сильных неправильных глаголов, правильные известны также под названием «слабые». См. Stark Detlef. The Old English Weak Verbs. Tübingen, Germany: M. Niemeyer, 1982; Howren Robert. The Generation of Old English Weak Verbs // Language 43, no. 3 (сентябрь 1967 г.), доступно в сети Интернет: http://goo.gl/2yf0t.

60

См. Mallory J. P., Adams D. Q. The Oxford Introduction to Proto-Indo-European and the Proto-Indo-European World. Oxford: Oxford University Press, 2006; Ringe Don. A Linguistic History of English. Oxford: Oxford University Press, 2006.

61

Как правило, выравнивание представляет собой улицу с односторонним движением, однако и здесь имеются крайне редкие исключения. Одним из них служит неправильная форма snuck (от глагола sneak – «прошмыгнуть»), которая тайком пробралась (sneaked) в английский язык в прошедшем столетии. Следуя примеру неправильных глаголов типа stick – stuck, strike – struck и stink – stunk, каждый год примерно 1% людей, говорящих на английском языке, используют вместо формы sneaked форму snuck. Иными словами, еще один человек начал использовать эту форму, пока вы читали это предложение. Pinker Steven. The Irregular Verbs // Landfall (Autumn 2000). P. 83–85. Доступно в сети Интернет: http://goo.gl/kFFzLm.

62

На самом деле в современном английском языке нет такого понятия, как полностью неправильный глагол. Правильная форма глагола существует всегда (даже если почти не употребляется и спокойно ждет своего часа). Огромное влияние на это явление оказывает частотность употребления, поскольку часто используемые неправильные глаголы довольно успешно подавляют конкурирующие правильные формы. К примеру, в сравнении с формой drove форма drived почти не используется. Напротив, форма throve на протяжении многих столетий была достаточно уязвимой. Правильная форма thrived, давно бывшая для нее серьезным конкурентом, начала брать верх в XX веке. Это случается довольно часто. В наших списках словных последовательностей («1-грамах») слово found (от глагола find – «находить») (частота 1 на 2000) встречалось в 200 000 раз чаще, чем finded. При этом форма dwelt (от глагола dwell – «обитать») (частота 1 на 100 000) встречалась всего в 60 раз чаще формы dwelled. См. Michel2011. Для целей исследования, проведенного в 2007 году, нам время от времени был нужен список современных неправильных глаголов английского языка, который можно было бы считать «авторитетным». Мы использовали этот список для определения того, какие глаголы приобрели правильную форму, а какие – нет. Самостоятельное составление этого списка лишало нас должной объективности, поэтому мы выбрали список из работы Pinker S., Prince A. On Language and Connectionism: Analysis of a Parallel Distributed Processing Model of Language Acquisition // Cognition 28 (1988). P. 73–193. Мы считали неправильным любой глагол, у которого с точки зрения данного списка была хотя бы одна неправильная форма. Нужно отметить, что время от времени между словарями и другими источниками возникает разногласие в отношении того, какие глаголы считаются неправильными, а какие – нет. К примеру, wed – wed («женить») в указанном выше списке относится к неправильным, но во всех современных словарях приводятся иные формы (кое-кто из носителей языка уже отдает предпочтение форме wed – wedded).

63

Дети осваивают неправильные глаголы особенно интересным образом, постепенно, по мере развития мышления. Поначалу они спрягают все глаголы по-своему. Затем они начинают признавать правила языка, на котором говорят люди вокруг. Когда они понимают, что большинство глаголов следует правилу – ed, то переходят на стадию, называемую «гиперкорректностью», при которой воспринимают каждый глагол как правильный и используют формы типа goed, knowed и runned (от глаголов go – «идти», know – «знать» и run – «бежать»). Со временем они понимают, что некоторые глаголы представляют собой исключения из правила – ed, и начинают включать «правильные» неправильные формы в свою речь.

64

По этой теме имеется масса интересной литературы. См., к примеру, Sabeti P. C. et al. Detecting Recent Positive Selection in the Human Genome from Haplotype Structure // Nature 419, no. 6909 (2002). P. 832–837. Доступно в сети Интернет: http://goo.gl/TW6SYJ. Varilly P. et al. Genome-Wide Detection and Characterization of Positive Selection in Human Populations // Nature 449, no. 7164 (2007). P. 913–918. Доступно в сети Интернет: http://goo.gl/NfnzeU.

65

К примеру, к этим источникам относятся Emerson Oliver Farrar. A Middle English Reader. New York: Macmillan, 1909, и Sweet Henry. An Anglo-Saxon Primer. Oxford: Clarendon Press, 1887.

66

Изначально эта работа была опубликована в форме статьи Lieberman Erez et al. Quantifying the Evolutionary Dynamics of Language // Nature 449 (11 октября 2007 г.). P. 713–716. Доступно в сети Интернет: http://goo.gl/3kCMQT.

67

См. Radioactive Decay // Wikipedia (22 июня 2013 г.), доступно в сети Интернет: http://goo.gl/xTYh1; Half-life // Wikipedia (3 июня 2013 г.), доступно в сети Интернет: http://goo.gl/TXn3.

68

Период полураспада неправильного глагола, имеющего ту же частоту, что и drove, составляет 5400 лет, что равнозначно ожидаемому сроку жизни до выравнивания (перехода в правильную форму) на уровне около 7800 лет.

69

Сияние происходит не только от прикосновений. Многие старшекурсники мочатся на этот ботинок; в 2013 году 23% выпускников Гарварда признавались, что делали это хотя бы однажды. Это представляет собой один из «основных трех» ритуалов инициации для гарвардских старшекурсников. Второй ритуал связан с обнажением и воплями на публике (и известен под названием «первобытный вопль»). Третий ритуал проводится в библиотеке и предполагает использование книг в качестве весов для силовых тренировок (и понятно, что в данном случае Kindle не может служит заменой тяжелому фолианту). См. Zauzmer Julie M. Where We Stand: The Class of 2013 Senior Survey // Harvard Crimson (28 мая 2013), доступно в сети Интернет: http://goo.gl/1EpfA.

70

В 1980 году Буса опубликовал описание своего сотрудничества с IBM, продолжавшегося несколько десятилетий. Это поистине пророческий документ, содержащий множество глубоких замечаний для дальнейшего осмысления. К примеру, предвидя необходимость реформы гуманитарных наук (см. также наше обсуждение этого вопроса в главе 7), Буса пишет: «Представляется, что нынешняя научная жизнь нацелена на проведение краткосрочных исследовательских проектов и быструю публикацию результатов, а не на проекты, требующие совместной командной работы, предполагающей скорее продвижение на один сантиметр в глубину и километр в ширину, чем на километр исследований при сантиметровом их основании». Более тридцати лет спустя Энтони Графтон, занимавший в то время пост президента Американской ассоциации историков, высказал похожую мысль: «По мере того как новые формы научного исследования предлагают историкам исследовательские методы, дополняющие работу с текстами, поскольку цифровые архивы становятся все более масштабными, а цифровые исследовательские методы становятся все более доступными, историкам придется учиться тому, как формировать команды и работать в них… Сотрудничество предлагает – потенциально очень мощный – способ работы для ученых традиционного склада. Они могут создавать глобальные истории экономических, культурных и политических отношений, построенные на мощной архивной и текстовой основе». Работа Бусы, которую можно считать манифестом движения за цифровые методы в гуманитарных науках, не теряет своей актуальности и по сей день. См. Busa R. The Annals of Humanities Computing: Index Thomisticus // Computers and the Humanities 14 (1980). P. 83–90. Доступно в сети Интернет: http:// goo.gl/FgVWQ. Grafton A. Loneliness and Freedom // Perspectives on History (март 2011 г.), доступно в сети Интернет: http://goo.gl/dOx3J.

71

Некоторые конкордансы оказываются мощнее других. Следует отметить, что, даже если оставить в стороне вопрос более сложного исходного источника, конкорданс Бусы значительно масштабнее конкорданса Реймер. К примеру, Index Thomisticus включает в себя полную лемматизацию (приведение всех словоформ к единой словарной форме) исходного текста, группирующую все слова в лексически связанные классы (в английском языке лемматизация предполагает группировку различных родственных слов типа run, running, runs, ran, outrun и also-ran под одним заголовком). Эта лемматизация сама по себе выглядит значительным достижением. Наборы списков данных, с которыми мы работали, не содержат лемматизации (ее очень сложно провести правильно).

72

См. Miller G. A. Introduction to The Psycho-Biology of Language. Cambridge, MA: MIT Press, 1965, доступно в сети Интернет: http://goo.gl/KYvOcK. Полная цитата из введения к изданию книги 1965 года кажется теперь актуальной, как никогда раньше: «Цель книги The Psycho-Biology of Language („Психобиология языка“) состоит в не том, чтобы удовлетворить всем вкусам. Ципф был из той породы людей, которые разделяют розы на части, чтобы посчитать их лепестки; если вы считаете кощунством переставление местами слов в шекспировском сонете и их подсчет, то эта книга не для вас. Ципф относился к языку как ученый – и для него это означало статистический анализ языка как биологического, психологического и социального процесса. Если такой анализ отталкивает вас, то оставьте язык в покое и бегите от Джорджа Кингсли Ципфа как от чумы. Вам будет куда приятнее читать цитаты Марка Твена: „Существует три вида лжи: ложь, наглая ложь и статистика“ или У. Х. Одена: „Да не будешь ты сидеть рядом со статистиками или заниматься социальными науками“. Однако тем, кто не побоится убить красоту ради благого дела, научные старания Ципфа помогут прийти к прекрасным и неожиданным результатам, поражающим разум и дразнящим воображение».

73

См. Jenkins Sally. Burned-out Phelps Fizzles in the Water Against Lochte // Washington Post (29 июля 2012 г.).

74

См. Rohlin Melissa. Kobe Bryant Says He Learned a Lot from Phil Jackson // Los Angeles Times (14 ноября 2012 г.), доступно в сети Интернет: http://goo.gl/bKGDTg.

75

См. обсуждение этого вопроса в книге Pinker Steven. Words and Rules: The Ingredients of Language. New York: Basic Books, 1999; статье Lieberman et al. Quantifying the Evolutionary Dynamics of Language и вспомогательных материалах к ней; Michel2011 и Michel2011S.

76

Мы предполагаем, что соотношение частоты употребления слов burned и burnt отражает пропорцию англоговорящих жителей Великобритании, использующих каждую из форм.

77

См. Meldrum Jeff. Sasquatch: Legend Meets Science. New York: Forge, 2006.

78

Эти создания, и не только они, обсуждаются в книге Coleman Loren, Clark Jerome. Cryptozoology A to Z. New York: Fireside, 1999. Важно отметить, что чупакабры бродят стаями; если вы натолкнетесь на одну из них в каком-то предложении, велики шансы, что где-то по соседству есть и другие. Частота употребления слова Chupacabra в настоящее время растет, так что велики шансы, что в будущем они не окажутся под угрозой уничтожения.

79

С помощью простого перемножения цифр мы получили результат 500 лет. По всей видимости тысяча лет, о которой говорила Коулман, предполагала совершение еще каких-то действий, помимо перелистывания страниц. И, разумеется, речь шла о том, что этой работой будет заниматься один человек. В таком случае при наличии 130 миллионов книг и 40 минут на обработку каждой завершение работы потребовало бы 9900 лет.

80

См. Taycher Leonid. Books of the world, stand up and be counted! All 129 864 880 of you // Google Books Search (5 августа 2010 г.), доступно в сети Интернет: http://goo.gl/5yNV. Тайчер – главный гуру Google по вопросам метаданных.

81

Как знает каждый, кто когда-либо пытался сделать ксерокопию книги, получение хороших копий – задача не из легких. Вот, к примеру, лишь одна из проблем, которые необходимо преодолеть: страницы в книгах не лежат ровно; чем ближе к обложке, тем сильнее они изгибаются вовнутрь. Для решения этой проблемы Google разработала систему корректировки каждого изображения с учетом этого изгиба. Более подробное объяснение этого процесса приведено в Michel2011S.

82

См. Google Books History, доступно в сети Интернет: http://goo.gl/ueobb.

83

Вполне возможно создать предложение любой длины на английском языке с использованием одной лишь фамилии Пейджа и слова page («страница», «полоса», «паж» и так далее). См., к примеру: «Page!» (Марисса Майер приказывает своему подчиненному перевернуть страницу); «Page, page!» (Марисса отдает то же самое приказание Ларри); «Page, page pages!» (более детальная инструкция); «Page, page Page’s pages!» (паж должен перелистывать страницы, с которыми не справился Ларри); «Page, page Page’s page’s pages» (Пейдж должен заняться перелистыванием страниц мальчика-пажа другого Пейджа); «Page, page pages Page’s page pages» (Марисса приказывает пажу заняться перелистыванием страниц, которые обычно перелистывает другой паж, прислуживающий Ларри).

84

Средние значения опросов Института Гэллапа за семь дней были основаны на опросах примерно 2700 потенциальных избирателей. См. Election 2012 Likely Voters Trial Heat: Obama vs. Romney // Gallup, доступно в сети Интернет: http://goo.gl/ujbzb.

85

Информацию об учебном курсе MOOC можно найти в Introduction to Artificial Intelligence, доступно в сети Интернет: https://www.udacity.com/course/cs271. Учебник Норвига: Russell Stuart J., Norvig Peter. Artificial Intelligence: A Modern Approach. Englewood Cliffs, NJ: Prentice Hall, 1995.

86

«Википедия» внимательно следила за судебными разбирательствами, их непростым и непрерывным потоком. См. Google Book Search Settlement // Wikipedia (23 июня 2013 г.), доступно в сети Интернет: http://goo.gl/8E5Cx. Некоторые юридические аспекты обсуждаются в статье Trigona Giovanna Occhipinti. Google Book Search Choices // Journal of Intellectual Property Law and Practice 6, no. 4 (10 марта 2011 г.). P. 262–273. В более общем виде эта же информация содержится в книге Leaffer Marshall A. Understanding Copyright Law, 5th ed. Albany, NY: Matthew Bender, 2011. Довольно подробная библиография по этому вопросу приведена в работе Bailey Charles W., Jr. Google Books Bibliography // Digital Scholarship, 2011, доступно в сети Интернет: http://goo.gl/grff2. См. комментарии Рубина на сайте Rubin Thomas C. Searching for Principles: Online Services and Intellectual Property // Microsoft, доступно в сети Интернет: http://goo.gl/GX3CB.

87

См. Barbaro Michael, Zeller Tom, Jr. A Face Is Exposed for AOL Searcher No. 4417749 // New York Times (9 августа 2006 г.), доступно в сети Интернет: http://goo.gl/c8MCY; About AOL Search Data Scandal, доступно в сети Интернет: http://goo.gl/6hnfuI.

88

Доступно в сети Интернет: http://www.google.org/flutrends/intl/ru/ru/#RU/ Сервис Google, позволяет определить скорость распространения вируса гриппа в различных странах (Прим. пер.).

89

Вследствие своей актуальности для проблемы секвенирования генома разработан весьма впечатляющий теоретический аппарат по анализу проблемы сбора текстов из крошечных элементов. Качественные изменения в этом вопросе возникли после развития статистического аппарата Ландера – Уотермена. Благодаря значительным улучшениям технологии секвенирования генома и вследствие достаточно сложной повторяющейся структуры генома млекопитающих эта статистика может применяться не только для работы над геномом, но и для анализа текстов с помощью n-грамов. См. Lander E. S., Waterman M. S. Genomic Mapping by Fingerprinting Random Clones // Genomics 2, no. 3 (апрель 1988 г.). P. 231–239. Доступно в сети Интернет: http://academic.research.microsoft.com/Publication/1323792/genomic-mapping-by-fingerprinting-random-clones-a-mathematical-analysis.

90

См. Quayle Dan. Standing Firm. New York: HarperCollins, 1994; Fass Mark. How Do You Spell Regret? One Man’s Take on It // New York Times (29 августа 2004 г.), доступно в сети Интернет: http://goo.gl/gWW4wK.

91

Пэйлин весьма ловко использовала 1-грам в своем твите от 18 июля 2010 г. Перед этим она воспользовалась этим словом во время телевизионного выступления. См. Read Max. Sarah Palin Invents New Word: «Refudiate» // Gawker (19 июля 2010 г.), доступно в сети Интернет: http://goo.gl/XjV7TJ.

92

См. Macrone Michael. Brush Up Your Shakespeare. New York: HarperCollins, 1990; McQuain Jeffrey, Malless Stanley. Coined by Shakespeare. Springfield, MA: Merriam-Webster, 1998.

93

Несмотря на свою консервативную репутацию среди лингвистов, AHD довольно долго был новаторским с точки зрения применяемых методов. В 1967 году Генри Кучера и У. Нельсон Фрэнсис опубликовали Brown Corpus, сборник текстов, состоявший из миллиона слов и представлявший широкий набор жанров. Эта публикация обеспечила инструментарий для развития корпусной лингвистики как научной дисциплины и тем самым является во многих отношениях самым ранним и самым важным предвестником корпуса, созданного нами в Google. Вскоре после этого издатель Х. Миффлин связался с Кучерой по вопросу создания корпуса для нового словаря, над которым работала его компания. По сути, издатель намеревался реализовать на практике стратегию Элдриджа (см. сноски к разделу «1937: Одиссея данных»), используя лексическую статистику для конструирования словаря английского языка. Первое издание American Heritage Dictionary, вышедшее в свет в 1969 году, стало первым словарем, построенным по такому принципу. Разумеется, нам было крайне интересно посмотреть, насколько хорошо методы создания AHD выглядят с учетом нашего нового мощного корпуса, основанного на текстах Google Books. К счастью, Джозеф П. Пикетт, ответственный редактор AHD с 1997 по 2011 год, с радостью поучаствовал в этом процессе. Благодаря его активному сотрудничеству и помощи со стороны его подчиненных наш анализ American Heritage Dictionary был чрезвычайно успешен. Все цифры относительно AHD в настоящей книге взяты из прямого общения с ними или из представленной ими информации (Пикетт даже стал одним из соавторов Michel2011.) Хотя мы время от времени и критикуем AHD в нашей книге, ясно, что сотрудники AHD отлично понимали: новые методы анализа помогут им улучшить свой словарь. Мы считаем крайне важной прозрачность в лингвистическом процессе, и никакой другой справочный источник несравним с AHD в этом отношении.

94

Команда AHD снабдила нас списком из 153 459 слов, словника четвертого издания их словаря. Иногда одно и то же слово появлялось в списке несколько раз, к примеру, слово console («держатель» и «утешать») появлялось сначала как существительное, а затем – как глагол (мы удалили все удвоенные записи такого рода). Также мы удалили из списка выражения, состоявшие более чем из одного слова (такие как men’s room – «мужской туалет»). В результате список состоял из 116 156 слов.

95

Эти цифры относятся к последнему печатному изданию OED (2-е изд., 1989 год). Многие люди, в том числе директор издательства Oxford University Press Найджел Портвуд, подозревают, что третье издание уже никогда не появится в печатном виде вследствие общей миграции такого рода источников в сеть Интернет. Увы, с OED мы не сотрудничали. На веб-сайте OED указано, что «количество словоформ, имеющих определение и/или проиллюстрированных» равно 615 100. Как отмечено во введении, в этом издании содержалось также 169 000 «фраз и комбинаций, выделенных курсивом или жирным шрифтом», не представляющих собой 1-грамы. По нашему расчету, разница между этими двумя значениями составляет 446 000. Это не точный расчет, а, скорее, верхняя граница – второе издание OED имеет не больше 446 000 слов в виде 1-грам, а, скорее, даже меньше. Не так давно работники OED пригласили нас поучаствовать в симпозиуме, посвященном будущему словарю, поэтому, возможно, нас ждет более динамичное сотрудничество, в стиле AHD. Разумеется, точные цифры будут как нельзя более кстати. См. Oxford English Dictionary, 2nd ed. Oxford: Oxford University Press, 1989; Dictionary Facts // Oxford English Dictionary, доступно в сети Интернет: http://goo.gl/DL6a7; Aarts Bas, McMahon April. The Handbook of English Linguistics. Hoboken, J: John Wiley & Sons, 2008; Jamieson Alastair. Oxford English Dictionary «will not be printed again» // Telegraph (29 августа 2010 г.), доступно в сети Интернет: http://goo.gl/V5g8Ak.

96

Каждый год AHD рассылает вопросник участникам опроса из числа пользователей. Один раз работники AHD позволили нам создать собственное дополнение к вопроснику и разослать его участникам для заполнения. Затем мы сравнили их результаты с выводами, полученными с помощью n-грамов. К примеру, мы спросили их о том, какую из форм глагола (sneaked и snuck) они считали приемлемой. Оказалось, что более молодые участники значительно чаще считали форму snuck допустимой. Результаты n-грамов демонстрировали быстрое распространение этой формы в последние десятилетия. В совокупности эти результаты показывают, что участники опроса, а возможно, и остальные пользователи языка, формируют представления о допустимости той или иной формы в юности. См. American Heritage Dictionary of the English Language, 4th ed. Boston: Houghton Mifflin, 2000; The Usage Panel // American Heritage Dictionary, 2013, доступно в сети Интернет: http://goo.gl/JtT4l; Nelson Francis, Kučera Henry. Brown Corpus Manual. Brown University Department of Linguistics, 1979.

97

Рузвельт поддерживал план, изначально предложенный группой под названием Simplified Spelling Board. См. Wolman David. Righting the Mother Tongue: From Olde English to Email, the Tangled Story of English Spelling. New York: Harper Perennial, 2010. Оригинал письма Рузвельта (Letter from Theodore Roosevelt to William Dean Howells) по этому вопросу можно увидеть в виде цифрового факсимиле в Theodore Roosevelt Center at Dickinson State University, доступно в сети Интернет: http://goo.gl/JA8cP.

98

Rolling on floor laughing («катаюсь по полу от смеха»). Если эта аббревиатура вам незнакома, не переживайте – она неизвестна и большинству словарей.

99

Например, как известно, AHD опирается на группу из примерно двухсот экспертов в области языка из разных областей – от судьи Верховного суда Антонина Скалиа до редактора кроссвордов в газете New York Times Уилла Шортца и писателя, лауреата Пулитцеровской премии Джунота Диаза. Возглавляет ее работу Стивен Пинкер (являющийся также соавтором Michel2011). Экспертная комиссия во многом опирается на противоположный культуромике или статистике текстового корпуса подход. Этот подход полагается не на репрезентативную выборку, а на усилия небольшого количества – лексической элиты.

100

См. ожесточенные споры на эту тему, описанные в: Acocella Joan. The English Wars // New Yorker (14 мая 2012 г.), доступно в сети Интернет: http://goo.gl/wGVHsx; Bloom Ryan. Inescapably, You’re Judged by Your Language // New Yorker (29 мая 2012), доступно в сети Интернет: http://goo.gl/js9VJc; Pinker Steven. False Fronts in the Language Wars // Slate (31 мая 2012), доступно в сети Интернет: http://goo.gl/33vNYT. Споры идут и в научных кругах. См., к примеру, Bergenholtz Henning, Gouws Rufus H. A Functional Approach to the Choice Between Descriptive, Prescriptive and Proscriptive Lexicography // Lexicos 20 (2010), доступно в сети Интернет: http://goo.gl/agXm7S.

101

Все примеры анализа, представленные в главе, подробнее разбираются в Michel2011 и Michel2011S.

102

Мы рассчитали распределение частоты употребления 116 156 уникальных 1-грам (исходных слов) в American Heritage Dictionary. После десятого процентиля, то есть примерно на уровне одно на миллиард, частота резко возрастает.

103

При этом не вполне понятно, должно ли слово состоять исключительно из буквенных символов. К примеру, OED (впервые в своей истории) не так давно добавил статью о символе ♥. См. Ho Erica. The Oxford-English Dictionary Adds «♥» and «LOL» as Words // Time (25 марта 2011 г.), доступно в сети Интернет: http://goo.gl/0RB6EA.

104

Заметим, что этот ципфовский словарь представляет собой всего лишь современную интерпретацию идеи, предложенной Элдриджем и реализованной в AHD (что для улучшения качества словарей может использоваться лексическая статистика). Один из первых и убедительных аргументов в пользу этого подхода появляется в статье Bailey Richard W. Research Dictionaries // American Speech 44, no. 3 (1969). P. 166–172. Доступно в сети Интернет: http://goo.gl/4RqfDu.

105

Категории, исключенные из поиска (составные слова, варианты написания и неопределяемые понятия), выбирались на основании результатов обсуждений с Джозефом Пикеттом из American Heritage Dictionary. Принципы исключения варьируются, но в целом при составлении словарей процесс сознательного исключения всегда шел рука об руку с процессом сознательного включения. Сэмюел Джонсон обсуждает множество примеров исключенных слов в своем знаменитом словаре 1755 года. Пространное рассуждение доктора Джонсона по этому вопросу, приведенное во вступлении, не упоминает небуквенных понятий, однако обращается к трем другим классам исключений. Составные слова в основном исключены: «Составные или двойные слова были чаще всего исключены, кроме случаев, когда у итогового слова появляется иное значение, чем у составляющих его элементов. Таким образом, слова highwayman („разбойник“), woodman („лесник“) и horsecourser („заводчик лошадей“) заслуживают включения в словарь; а для слов типа thieflike („напоминающий вора“) или coachdriver („возница“) специальных статей не требуется, поскольку их смысл не отличается от смысла составляющих их слов». Варианты написания, в основном оставленные в словаре: «Я отказался от некоторых, поскольку они не были необходимыми или показались избыточными; при этом я оставил те, которые по-разному создавались и употреблялись различными авторами, к примеру viscid и viscidity („вязкий“ и „вязкость“), viscous и viscosity („липкий“ и „липкость“)». К тому же правила написания слов были в то время значительно менее стандартизованными. Сложные для определения понятия: «Есть и такие, смысл которых слишком трудноуловим и непостоянен для того, чтобы зафиксировать его в пересказе; это и те слова, которые специалисты по грамматике относят к бранной лексике, и слова из мертвых языков, вынужденным образом превратившиеся в набор пустых звуков. Это и слова, единственный смысл которых состоит в заполнении пауз или обозначении окончания предложения, активно использующиеся в живых языках. Они были исключены, хотя порой их нельзя заменить никакими другими средствами». Он также исключает множество других категорий, которые не отражаются в словарях и в наши дни. Имена: «Поскольку моей целью было создание словаря, содержащего обычные или нарицательные слова, я исключил все, связанное с именами собственными, как, например, „арианский“, „социнианский“, „кальвинистский“, „бенедиктинский“ и „магометанский“; при этом я оставил слова, имеющие более широкий смысл, например „языческий“». Специальная лексика: «Должен признать, что я был вынужден исключить из словаря многие понятия из области искусства или ремесел; это было неизбежно: я не мог ни спуститься в шахты, чтобы изучать язык шахтеров, ни совершить морское путешествие, чтобы усовершенствовать навыки в области навигационных понятий, ни заходить на склады купцов, в магазины торговцев искусством, ни собирать названия приспособлений, инструментов и действий, которые обычно не упоминаются в книгах; я не отказывался от включения в словарь слов, оказавшихся в моем распоряжении или ставших доступными мне благодаря счастливому случаю; однако я считал совершенно бесплодным трудом собирать слова из всего окружающего мира, что было бы сопряжено с многочисленными трудностями». В ходе проведенного нами анализа онлайновый словарь Merriam-Webster часто оказывается богаче OED с точки зрения медицинской лексики, поскольку включает в себя отдельный и обширный словарь медицинских терминов (неопубликованная рукопись). Иностранные слова: «Я фиксировал по мере их возникновения слова, которые используют наши авторы благодаря своему знанию иностранных языков или по причине собственного невежества, тщеславия или следования моде, из-за страсти к новшествам. При этом я тщательно их отбирал и призываю остальных воздерживаться от замещения наших родных слов натурализованными и бесполезными иностранными». Причудливые слова: «Не всегда отсутствие слов в словаре должно восприниматься как упущение. Выражения, активно и повсеместно используемые большой частью людей, возникают случайным и непредсказуемым образом; многие из них появляются для временного или локального удобства, и, активно употребляясь в определенных местах или в определенные моменты времени, практически неизвестны где-либо еще. Такие непостоянные жаргонные средства, все время находящиеся в состоянии роста или исчезания, не могут считаться полезными элементами языка, и, таким образом, им суждено исчезнуть вместе со всем, что не заслуживает сохранения». В английском языке есть множество видов темной материи. См. Johnson Samuel. A Dictionary of the English Language. London, 1755; Merriam-Webster’s Collegiate Dictionary. 11th ed. Springfield, MA: Merriam-Webster, 2003. Также мы рекомендуем книгу Carolino Pedro. English As She Is Spoke. New York: Appleton, 1883.

106

Мы выбрали тысячу слов из словаря и посчитали, как много из них попадает в исключенные категории. В результате у нас нет исчерпывающего списка темной материи английского языка. Как и в случае темной материи во Вселенной, мы не знаем в точности, из чего она состоит, – мы лишь знаем, что ее очень много.

107

См. All of the Words of the Year, 1990 to Present // American Dialect Society, доступно в сети Интернет: http://goo.gl/JCYMiK.

108

Мы с огромным удовольствием проголосовали за слово skyaking – прыжки с самолета на каяке. При этом нам представляется, что вследствие смертельной опасности, которой подвергаются поклонники этого вида спорта, есть немало эволюционных оснований считать, что такое слово действительно не имеет будущего. Разумеется, к предсказаниям ADS не стоит относиться слишком серьезно; к 2011 году слово «культуромика» вошло в словари Random House и Macmillan. См. Culturomics // Macmillan Dictionary online, доступно в сети Интернет: http://goo.gl/qkg8GE; Culturomics // Dictionary.com, доступно в сети Интернет: http://goo.gl/EmvAhE.

109

Расчеты для промежуточных точек были сделаны с помощью метода линейной интерполяции.

110

Интересно поразмышлять о точных причинах изменений в языке (и о будущем английского языка в частности). См. Erard Michael. English As She Will Be Spoke // New Scientist (29 марта 2008 г.); English Is Coming // Economist (12 февраля 2009 г.), доступно в сети Интернет: http://goo.gl/wcPGt8. Люди уже давно интересовались подобными вопросами. См. Jacobs Joseph. Growth of English-Amazing Development of Language as Shown in New Standard Dictionary’s 450 000 Words // New York Times (16 ноября 1913 г.).

111

Связь между частотой употребления и выравниванием исследуется в работе Bybee Joan L., Morphology: A Study of the Relation Between Meaning and Form. Amsterdam: John Benjamins, 1985. В целом была проведена большая работа по исследованию лингвистических изменений. См., к примеру, Labov William. Transmission and Diffusion // Language 83, no. 2 (June 2007). P. 344–387. Доступно в сети Интернет: http://goo.gl/aZ5M2R; Corbett Greville et al. Frequency, Regularity, and the Paradigm: A Perspective from Russian on a Complex Relation // Bybee J. L., Hopper P. J. (eds.) Frequency and the Emergence of Linguistic Structure. Amsterdam: John Benjamins, 2001. P. 201–228. Эти вопросы также можно изучать с более явной эволюционной точки зрения. См. Pagel Mark. Wired for Culture: Origins of the Human Social Mind. New York: W. W. Norton, 2012; Pagel Mark. Atkinson Quentin D., Meade Andrew. Frequency of Word-Use Predicts Rates of Lexical Evolution Throughout Indo-European History // Nature 449 (11 октября 2007 г.). P. 717–720. Доступно в сети Интернет: http://goo.gl/93WiJ0.

112

Есть много примеров подобных переходов от двух слов в составном понятии к одному слову с дефисом. См., к примеру, NV: rail road, rail-road, railroad («железная дорога»).

113

Слово «секрет» – segreto – связано с тем фактом, что Archivio Segreto Vaticano считается личной собственностью римского папы. Это не значит, что архив обязательно напичкан массой интересных материалов, таких как, скажем, письмо от английского парламента, требующее развода для Генриха VIII, или приказа папы об отлучении от церкви Мартина Лютера, или письма, объявляющего об отречении от трона «гермафродита» королевы Швеции Кристины. К счастью, проделанная в последние годы большая работа по каталогизации значительно упростила поиск книг в архиве.

114

Интересный, однако более не обновляющийся рассказ о проблемах, с которыми поначалу столкнулась Google в работе с метаданными книг, можно найти в весьма информативном блоге Language Log. См. Nunberg Geoff. Google Books: A Metadata Train Wreck // Language Log (29 августа 2009 г.), доступно в сети Интернет: http://goo.gl/AwNArh. C тех пор качество метаданных книг значительно улучшилось.

115

См. Michel2011S.

116

Расчеты, связанные с качеством расшифровки генома, основаны на данных статьи Lander Eric et al. Initial Sequencing and Analysis of the Human Genome // Nature 409, no. 6822 (2001). P. 860–921. Доступно в сети Интернет: http://goo.gl/trMZ4e.

117

Один из новых аргументов юристов заключается в том, что предоставление цифровых копий миллионов текстов, защищенных копирайтом, для чтения (так называемого «потребительского» использования) представляет собой нарушение авторского права. В этой связи можно предположить, что вычисления, производимые с теми же защищенными текстами («непотребительские» виды использования), не являются нарушением, если только результат не включает в себя больших кусков изначального текста. n-грамы представляют собой пример полезного «непотребительского» использования книг, и мы указали на это в экспертном заключении для суда по делу Authors Guild, Inc., et al., v. Google, Inc. См. письмо Эреца Либермана Эйдена и Жана-Батиста Мишеля в суд, 3 сентября 2009 г. (ECF No. 303), Authors Guild, Inc., et al., v. Google, Inc., 770 F.Supp.2d 666 (S.D.N.Y., 22 марта 2011 г.) (No. 05– Civ.-8136). Не так давно этот аргумент был использован в разбирательстве Authors Guild, Inc., et al. v. HathiTrust et al. (S.D.N.Y., 2012). HathiTrust Digital Library предлагает прямой доступ к миллионам оцифрованных книг, полученных от участвующих в проекте библиотек. Во многих случаях эти книги были оцифрованы Google. 10 октября 2011 г. федеральный судья Южного округа Нью-Йорка Гарольд Баэр-мл. вынес решение в пользу HathiTrust. В решении было подчеркнуто, что «непотребительские» вычисления, связанные с большой коллекцией книг, представляют собой «бесценный вклад в прогресс науки и развитие искусств» и что подобная деятельность «вполне подпадает под определение добросовестного использования». Для подкрепления своей точки зрения судья Баэр процитировал экспертное заключение Мэттью Л. Джокерса, Мэттью Сага и Джейсона Шульца, под которым мы также поставили свои подписи; в качестве конкретного примера судья указал на тот же n-грам, который мы использовали во вступлении к этой книге: «частота, с которой авторы используют с течением времени слова is и are в отношении Соединенных Штатов». Вердикт судьи: Brief of Digital Humanities and Law Scholars as Amici Curiae in Partial Support of Defendants’ Motion for Summary Judgment // Authors Guild, Inc., et al., v. HathiTrust et al., 902 F.Supp.2d 445 (S.D.N.Y., 10 октября 2012 г.) (No. 11-Civ.– 06351) 2012 WL 4808939.

118

См. The Colbert Report, 6:38, 7 февраля 2007 г, http://goo.gl/iFMGCt. Пинкер был соавтором Michel2011.

119

Пер. В. Емелина (Прим. пер.).

120

См. Zeitgeist 2010: How the World Searched // Google Zeitgeist, 2011, доступно в сети Интернет: http://goo.gl/OCpY2X.

121

«Вы узнаете ее, когда увидите», разбирательство Jacobellis v. Ohio, 378 U.S. 184 (1963).

122

См. Wright Wilbur et al. The Papers of Wilbur and Orville Wright. New York: McGraw-Hill, 2000; Jakab Peter L. Visions of a Flying Machine: The Wright Brothers and the Process of Invention. Washington, DC: Smithsonian Institution Press, 1990; Hagler Gina. Modeling Ships and Space Craft: The Science and Art of Mastering the Oceans and Sky. New York: Springer, 2013.

123

Видео этого события можно найти в статье: Steele Flubs «Favorite Book» Reference During Debate // Newsmax (3 января 2011 г.), доступно в сети Интернет: http://goo.gl/8hh40.

124

См. Medea Andra. Carol Gilligan // Jewish Women: A Comprehensive Historical Encyclopaedia, доступно в сети Интернет: http://goo.gl/LN2al.

125

Английский перевод проведенного Андвордом в 1930 году исследования можно увидеть в статье Andvord Kristian F. What Can мы Learn by Following the Development of Tuberculosis from One Generation to Another? // International Journal of Tuberculosis and Lung Disease 6, no. 7 (2002). P. 562–568. Обзор классических исследований когорт приведен в Doll Richard. Cohort Studies: History of the Method // Sozial– und Präventivmedizin 46, no. 2 (2001). S. 75–86. Доступно в сети Интернет: http://goo.gl/dRJKCp. Весь анализ в этой главе основан на Michel2011 и подробно описан там и в Michel2011S.

126

Позднее Верес и журналист, писавший на научные темы, Джон Богэннон использовали n-грамы для составления научного Зала славы, в который вошли наиболее часто упоминаемые современные ученые. Они рассчитали славу каждого ученого в миллидарвинах (один миллидарвин – одна тысячная славы Дарвина). Самым знаменитым ученым, по их версии, оказался Бертран Рассел, антивоенные взгляды которого сделали его крайне противоречивым субъектом. А самый знаменитый из ныне живущих ученых – Ноам Хомский с показателем 507 миллидарвинов. См. Veres Adrian, Bohannon John. The Science Hall of Fame // Science 331, no. 6014 (14 января 2011 г.), доступно в сети Интернет: http://goo.gl/6g8b7X.

127

Небесный дом Адриана имеет орбитальный период, составляющий 3,47 земных лет.

128

Составление списка пятидесяти самых знаменитых людей, родившихся между 1800 и 1950 годами, связано с целым рядом серьезных технических сложностей. Одна из проблем заключается в том, чтобы решить, к кому именно относится имя. К примеру, о ком говорит n-грам Winston Churchill – о государственном деятеле, родившемся в 1874 году, о его внуке, родившемся в 1940-м, о писателе по имени Уинстон Черчилль, родившемся в 1971-м, или же представляет собой неразделимую смесь всех трех? Для решения этой проблемы Верес использовал контекстную информацию: например, сравнивал дату рождения каждого Уинстона Черчилля с датой появления n-грама, с учетом того, что страница в «Википедии» с названием Winston Churchill относится по умолчанию к Winston1874, и того, что Winston1874 просматривается в «Википедии» значительно большее число раз, чем остальные кандидаты с тем же именем. Эти и другие критерии были применены в отношении сотен тысяч имен. Подробнее об этом см. Michel2011S.

129

См. Michel2011, Michel2011S.

130

Полный список 25 наиболее знаменитых людей, родившихся между 1800 и 1920 годами, в каждой из областей деятельности приведен в Michel2011S. В нем содержатся имена Марии Кюри (1867, ученый), Марселя Дюшана (1887, художник), Клода Шеннона (1916, математик), Хамфри Богарта (1899, актер), Вирджинии Вулф (1882, писатель) и Уинстона Черчилля (1874, политик).

131

Изучение славы представляет собой уже сформировавшуюся область социологии. См. Braudy Leo. The Frenzy of Renown: Fame and Its History. Oxford: Oxford University Press, 1986; Lieberson Stanley. A Matter of Taste: How Names, Fashions, and Culture Change. New Haven, CT: Yale University Press, 2000.

132

По всей видимости, авторы не были знакомы с современными историческими изысканиями, затрагивающими проблему количества жертв репрессий в период с 1921 по 1953 г. Согласно данным рассекреченных архивов, за контрреволюционные преступления было осуждено 3 777 380 человек, в том числе к высшей мере наказания – 642 980 человек, к содержанию в лагерях и тюрьмах на срок от 25 лет и меньше – 2 369 220, в ссылку и высылку – 765 180 человек (письмо генерального прокурора СССР Р. А. Руденко, министра внутренних дел СССР С. Н. Круглова и министра юстиции СССР К. П. Горшенина секретарю ЦК КПСС Н. С. Хрущеву о пересмотре дел на лиц, осужденных за контрреволюционные преступления. 1 февраля 1954. ГА РФ. Ф.Р.-9401. Оп. 2. Д. 450. Л. 3065). См. также: Земсков В. Н. Заключенные в 1930-е годы: социально-демографические проблемы // Отечественная история. 1997, № 4; Дугин А. Сталинизм: легенды и факты // Слово. 1990, № 7. С. 23 (Прим. ред.).

133

См. Sage Mark. Chapman Shot Lennon to «Steal His Fame» // Irish Examiner (19 октября 2004 г.), доступно в сети Интернет: http://goo.gl/pLXl51. Не так давно возникли серьезные споры после того, как журнал Rolling Stone разместил на своей обложке фото одного из бостонских террористов, Джохара Царнаева. См. Reitman Janet. Jahar’s World // Rolling Stone (17 июля 2013 г.), доступно в сети Интернет: http://goo.gl/fyc8y.

134

Поднимите руку, если вы знали, что третьего астронавта в этой миссии – летавшего вокруг Луны в командном модуле, пока Армстронг и Олдрин были на поверхности, – звали Майкл Коллинз.

135

См. Heine Heinrich. Almansor // (ed. C.A. Buchheim) Heinrich Heine’s Gesammelte Werke. Berlin: G. Grote, 1887. В наши дни эти строки можно увидеть на мемориале, созданном Михой Ульманом на площади Бебельплатц в Берлине – на месте, где во время сожжения книг в 1933 году Йозеф Геббельс руководил действиями толпы, уничтожившей более 20 тысяч книг. Мемориал представляет собой полупрозрачную панель, сквозь которую зрителям видны ряды пустых книжных полок, где могли бы расположиться 20 тысяч книг. Изображение мемориальной таблички можно увидеть по адресу: http://goo.gl/SYzu4 (в версии текста на монументе содержится орфографическая ошибка).

136

Черновик письма, изменения в который были внесены одним из помощников Келлер, позволяет погрузиться в детали процесса редактирования, приведшего к появлению окончательной версии. Письмо находится в коллекции американского Фонда слепых, а его изображение можно увидеть в статье Selsdon Helen. Helen Keller’s Words: 80 Years Later… Still as Powerful // American Foundation for the Blind (9 мая 2013 г.), доступно в сети Интернет: http://goo.gl/uSSE8. Правки в письме обсуждаются в статье: Onion Rebecca. God Sleepeth Not’: Helen Keller’s Blistering Letter to Book-Burning German Students // Slate (16 мая 2013 г.), доступно в сети Интернет: http://goo.gl/SxdG2.

137

См. Gregorian V. (ed.). Censorship: 500 Years of Conflict. New York: New York Public Library, 1984.

138

См. Baal-Teshuva Jacob. Chagall: 1887–1985. Cologne, Germany: Taschen, 2003. P. 16.

139

Хотя принятое художником имя «Марк Шагал» уже было хорошо известно к 1910 году, ранее его знали и под другими именами – Мойше Хацелев, Марк Захарович, Мойше Шагалов. См. Harshav Benjamin. Marc Chagall and His Times: A Documentary Narrative. Palo Alto, CA: Stanford University Press, 2004. P. 63. Интересные книги о его жизни и работе: Baal-Teshuva, см. выше; Wullschlager Jackie. Chagall: A Biography. New York: Alfred A. Knopf, 2008; Chagall Marc. The Jerusalem Windows. New York: George Braziller, 1967; Chagall Marc. My Life. New York: Da Capo Press, 1994.

140

См. Hughes Robert. Fiddler on the Roof of Modernism // Time (24 июня 2001), доступно в сети Интернет: http://goo.gl/aFMsU.

141

См. Gilot Françoise, Lake Carlton. Life with Picasso. New York: McGraw-Hill, 1964. P. 258. (Рус. изд.: Лейк К., Жило Ф. Моя жизнь с Пикассо. М.: ОЛМА-Пресс, 2001.) Жило была любовницей и музой Пикассо. Она отмечает, что, несмотря на разногласия с Шагалом, Пикассо очень уважал его творчество. Полная цитата звучит так: «После смерти Матисса Шагал останется единственным художником, понимающим, что такое цвет. Я не в восторге от всех этих петухов, ослов, летающих скрипачей и прочего фольклора, но его полотна поистине написаны, а не просто скомпонованы. Некоторые из его последних вещей, сделанных в Вансе, убеждают меня, что никто после Ренуара не чувствовал света так, как Шагал».

142

См. Wullschlager, р. 223.

143

Письма Марка Шагала Павлу Эттингеру (1920–1948) / Публ. А. С. Шатских // Сообщения Государственного музея изобразительных искусств им. А. С. Пушкина. Вып. 6. М.: Советский художник, 1980. С. 199–200.

144

Его взгляды на дегенеративное искусство приводятся в двухтомнике «Вырождение» (Nordau Max. Entartung. Berlin, 1892–1893). Использование нацистами этой концепции было очевидным разворотом на 180 градусов, если сравнивать с более масштабными взглядами Нордау. См., к примеру, Nordau Max, Gottheil Gustav. Zionism and Anti-Semitism. New York: Fox, Duffield, 1905; Nordau Max, Nordau Anna. Max Nordau: A Biography. Whitefish, MT: Kessinger, 2007. Нордау был вице-президентом первых шести Всемирных сионистских конгрессов (президентом был Теодор Герцль) и президентом следующих четырех. См. Max Nordau // Spencer C., Tucker (eds.). The Encyclopedia of the Arab-Israeli Conflict. Santa Barbara, CA: ABC–CLIO, 2008.

145

См. Etlin Richard A. Art, Culture, and Media Under the Third Reich. Chicago: University of Chicago Press, 2002; Cuomo Glenn R. (ed.). National Socialist Cultural Policy. New York: St. Martin’s Press, 1995; Steinweis Alan E. Art, Ideology, and Economics in Nazi Germany. Chapel Hill: University of North Carolina Press, 1993; Petropoulos Jonathan. The Faustian Bargain. New York: Oxford University Press, 2000.

146

Adam Peter. Art of the Third Reich. New York: Harry N. Abrams, 1992. P. 53.

147

Музей на это не согласился. См. Oster Marcy. Heirs of Owner of Nazi-Looted «The Scream» Want Explanation on Display at MoMA // Jewish Telegraphic Agency (15 октября 2012 г.), доступно в сети Интернет: http://goo.gl/gBmtL.

148

В 1991 году Стефани Баррон была куратором реконструкции Entartete Kunst для художественной выставки в Музее искусств Лос-Анджелеса (Los Angeles County Museum of Art). Созданный ею для этой выставки каталог представляет собой бесценный научный труд. См. Barron Stephanie (ed.). Degenerate Art: The Fate of the Avant-garde in Nazi Germany. Los Angeles: Los Angeles County Museum of Art, 1991.

149

Цитата взята из рассказа «Три дня в Мюнхене, июль 1937» Питера Гюнтера (Guenter P. Three Days in Munich, July 1937), приведенного в каталоге Баррон. В этом интереснейшем документе описываются визиты 17-летнего Гюнтера на Большую выставку немецкого искусства и выставку «Дегенеративного искусства». См. там же, с. 38.

150

В один только день 2 августа 1937 года выставку «Дегенеративное искусство» посетило 36 тысяч человек. Чтобы понять, как это много, можно проанализировать статистику посещений всемирных выставок за последние 10 лет, приведенную на сайте Art Newspaper (www.theartnewspaper.com). Примечательно, что лишь одна из выставок привлекла больше посетителей в расчете на день, чем «Дегенеративное искусство» (за первые четыре месяца работы). Это была организованная в 2009 году в японском городе Нара выставка экспонатов сокровищницы Сёсоин, принадлежавших императору Сёму (701–756) и императрице Комё (701–760). В среднем эту выставку посещало 17 926 человек в день. Однако выставка продолжалась лишь около двух недель, поэтому общее число ее посетителей (составившее немногим более четверти миллиона) было во много раз меньше числа посетителей «Дегенеративного искусства». Есть и другие мероприятия, привлекавшие огромную аудиторию в течение короткого промежутка времени, однако ни одно из них не может сравниться с «Дегенеративным искусством» по вызванному интересу. Заявление о том, что «популярности „Дегенеративного искусства“ не достигла ни одна другая выставка современного искусства», сделано в работе Barron, 9; хотя у нас, по вполне понятным причинам, нет цифр посещаемости каждой художественной выставки в истории, мы, основываясь на доступных нам цифрах, считаем его вполне правдоподобным.

151

Нольде поддерживал нацистов, однако все равно оказался объектом преследования из-за нелюбви Гитлера к экспрессионизму.

152

Плакат можно увидеть на сайте: http://goo.gl/bNK9H.

153

Черные списки приведены в книге Tres W. Wider den Undeutschen Geist: Bucherverbrennung 1933. Berlin: Parthas, 2003; Sauder G. Die Bucherverbrennung: 10. Mai 1933. Frankfurt am Main: Ullstein, 1985; Liste des Schodlichen und Unerwunschten Schrifttums. Leipzig: Hedrich, 1938. Общение с У. Тресом и изучение официального сайта города Берлин (berlin.de) оказало нам огромную помощь в создании цифровых версий черных списков. Весьма любопытную временную шкалу можно найти на сайте: http://goo.gl/0ig7Ig.

154

См. Stieg Margaret F. Public Libraries in Nazi Germany. Tuscaloosa: University of Alabama Press, 1992, и Steinweis Alan E., Review of Public Libraries in Nazi Germany, by Margaret F. Stieg, DigitalCommons@University of Nebraska-Lincoln, 1 апреля 1992 г., http://digitalcommons.unl.edu/.

155

NV: «Троцкий, Зиновьев, Каменев»/Russian (сглаживание = 1). NV: «Tiananmen» / English, «»/Chinese (сглаживание = 0). Китайские источники обычно называют эти события «инцидентом 4 июня». На самом деле NV: «»/Chinese показывает определенный рост для этой даты; однако это не должно удивлять, поскольку данная фраза не была в употреблении до 1989 года.

156

См. Service Robert. Stalin: A Biography. Cambridge, MA: Harvard University Press, 2004. Сталин не просто смог вычеркнуть своих соперников из текстовых записей. К примеру, была проведена тщательная работа по ретушированию фотографий с их изображениями. См. David King. The Commissar Vanishes. New York: Metropolitan Books, 1997; Gibbs Joseph. Gorbachev’s Glasnost. College Station: Texas A&M University Press, 1999.

157

Портреты членов «голливудской десятки» приведены в книгах: Dick Bernard F. Radical Innocence. Lexington: University Press of Kentucky, 1988; Horne Gerald. The Final Victim of the Blacklist. Berkeley: University of California Press, 2006; стоит также отметить автобиографическую книгу Эдварда Дмитрыка Dmytruk E. Odd Man Out. Carbondale: Southern Illinois University Press, 1996, и замечательный документальный фильм The Hollywood Ten, снятый Джоном Берри в 1950 году.

158

Полный текст «уолдорфского заявления» приведен в книге Walker William T. McCarthyism and the Red Scare. Santa Barbara, CA: ABC–CLIO, 2011. P. 136.

159

См. Auerbach Jonathan. Dark Borders. Durham, NC: Duke University Press, 2011. P. 4.

160

См. «Исход», реж. Отто Премингер, 1960 г.

161

Более подробную информацию о бойне можно найти в следующих источниках: Zhao Dingxinю. The Power of Tiananmen. Chicago: University of Chicago Press, 2001; Simmie Scott, Nixon Bob. Tiananmen Square. Seattle: University of Washington Press, 1990; Cunningham Philip J. Tiananmen Moon. Lanham, MD: Rowman & Littlefield, 2009; Brook Timothy. Quelling the People. Palo Alto, CA: Stanford University Press, 1992.

162

См. Qiang Xiao, Beach Sophie. The Great Firewall of China // St. Petersburg Times (3 сентября 2002 г.); The Great Firewall: The Art of Concealment // Economist (6 апреля 2013 г.), доступно в сети Интернет: http://goo.gl/VTV3b. Усилия Китая по цензуре поисковых систем, таких как Google, в определенном смысле напоминают усилия по созданию конкорданса или карточного каталога. Если вы не можете избавиться от содержимого библиотеки (в данном случае – вы не в состоянии отключить весь Интернет), то вы можете довольно эффективно ограничить к нему доступ, удаляя конкордансы или каталоги (то есть ограничивая доступ к поисковым системам, позволяющим найти интересующие вас страницы или слова). За дополнительной информацией о цензуре в Google в Китае см. Google Censors Itself for China // BBC (25 января 2006 г.), доступно в сети Интернет: http://goo.gl/Xyd1ua; Wines Michael. Google to Alert Users to Chinese Censorship // New York Times (1 июня 2012 г.), доступно в сети Интернет: http://goo.gl/7QmrQ; Halliday Josh. Google’s Dropped Anti-Censorship Warning Marks Quiet Defeat in China // Guardian (7 января 2013 г.), доступно в сети Интернет: http://goo.gl/aA2HU. Дополнительная информация о китайской цензуре в Интернете в освещении бойни на площади Тяньаньмэнь, см.: Kaiman Jonathan. Tiananmen Square Online Searches Censored by Chinese Authorities // Guardian (4 июня 2013 г.), доступно в сети Интернет: http://goo.gl/60SIo; Schiavenza Matt. How China Made the Tiananmen Square Massacre Irrelevant // Atlantic (4 июня 2013 г.), доступно в сети Интернет: http://goo.gl/d7Ccw. Информация о Tank Man, см. Witty Patrick. Behind the Scenes: Tank Man of Tiananmen // New York Times (3 июня 2009 г.), доступно в сети Интернет: http://goo.gl/IvhdX. Пожалуй, красноречивее всего результаты опросов представителей более молодых поколений в Китае о данных событиях, откуда и когда они получают информацию: см. репортаж China’s Tiananmen Generation Speaks // BBC (28 мая 2009 г.), доступно в сети Интернет: http://goo.gl/ms7x2, и Chinese Students Unaware of the «Tank Man» // Frontline, видео, 2:37 (27 июля 2008 г.), доступно в сети Интернет: http://goo.gl/Jf0Hy.

163

См. подробнее в Michel2011 и Michel2011S.

164

См. A Poignant Reminder of the Value of Life // St. Petersburg Times (6 октября 1963 г.).

165

Когда после проведения выставки «Дегенеративное искусство» нацисты попытались сделать то же самое в отношении музыки – устраивая концерты джазовых ансамблей, еврейских песен и другой «дегенеративной» музыки, они в какой-то момент встревожились, что эти мероприятия стали посещать поклонники такой музыки. См. Haas Michael. Forbidden Music. New Haven, CT: Yale University Press, 2013; Music in the Third Reich // Music and the Holocaust, доступно в сети Интернет: http://goo.gl/OlNcwZ.

166

Цитата взята со слов Паулы Саломон-Линдберг, мачехи Шарлотты. См. Felstiner, p. 228.

167

Этот n-грам был изначально создан Стивеном Пинкером и подробнее обсуждается в книге Pinker Steven. The Better Angels of Our Nature: Why Violence Has Declined. New York: Viking, 2011.

168

См. Uebel Thomas. Vienna Circle // The Stanford Encyclopedia of Philosophy (Summer 2012); Ayer Alfred J. Logical Positivism. Glencoe, IL: Free Press, 1959; Weismann Friedrich et al. Wittgenstein and the Vienna Circle. Oxford: Basil Blackwell, 1979; а также Edmonds David, Eidinow John. Wittgenstein’s Poker. New York: Ecco, 2001.

169

См. Mach Verein Ernst. Wissenschaftliche Weltauffassung: Der Wiener Kreis. Vienna: Artur Wolf, 1929.

170

См. Ebbinghaus Hermann. Memory: A Contribution to Experimental Psychology. New York: Teachers College, Columbia University, 1913. Отличный обзор этой работы, предложенный Уильямом Джемсом, можно найти в книге James William. Essays, Comments and Reviews. Cambridge, MA: Harvard University Press, 1987. Хотя Эббингауз и был первопроходцем в области экспериментальной психологии, он не был в числе самых первых; среди его предшественников были такие люди, как Вильгельм Вундт, которого часто считают отцом экспериментальной психологии, и упомянутый выше Уильям Джемс, отец американской психологии.

171

NV: «Lusitania, Pearl Harbor, September 11» (сглаживание = 0).

172

Вероятность того, что заданное число появится в тексте, не распределяется равномерно. Напротив, она следует распределению с длинными хвостами – в определенной степени аналогично степенному закону, называемому законом Бенфорда. См., к примеру, Hill Theodore P. A Statistical Derivation of the Significant Digit Law // Statistical Science 10, no. 4 (ноябрь 1995 г.). P. 354–363. Доступно в сети Интернет: http://goo.gl/hLtUvm. Согласно закону Бенфорда, вероятность увидеть в тексте число 1876 практически равна нулю. В реальности же мы видим это число и похожие на него достаточно часто – но эта аномалия объясняется тем, что чаще всего подобные цифры соответствуют описанию годов. Закон Бенфорда представляет собой очень распространенную закономерность. К примеру, он может применяться для выявления случаев мошенничества в налоговых декларациях: подделывая цифры, люди склонны не следовать этому закону. Подобный метод применения закона был предложен в том числе Хэлом Варианом, занимающим в настоящее время пост старшего экономиста Google. См. Varian Hal. Letters to the Editor // American Statistician 26, no. 3 (июнь 1972). Информацию о связи между мышлением и цифрами можно найти в книге Dehaene Stanislas. The Number Sense: How the Mind Creates Mathematics. Oxford: Oxford University Press, 1997.

173

Уильям Докра основал компанию Penny Post («Почта за пенни») в Лондоне в 1680 году, рекламируя доставку «за один пенни» «не менее 15 раз в день» в «доступные места в пределах Сити», начиная с 6 часов утра и до 9 часов вечера, то есть примерно раз в час. Также он обещал доставку не реже пяти раз в день «в самые удаленные места» вокруг Лондона, а Penny Post гарантировала доставку в течение четырех часов. Как здорово было бы, если бы на это была способна сегодняшняя почта… Вы можете сами ознакомиться с рекламой London Penny Post // The British Postal Museum & Archive, доступно в сети Интернет: http://goo.gl/qwAtI. См.: Golden Catherine. Posting It: The Victorian Revolution in Letter Writing. Gainesville: University Press of Florida, 2009; Brumell George. The Local Posts of London 1680–1840. Cheltenham, England: R. C. Alcock, 1950; Provincial Penny Post/5th Clause // The British Postal Museum & Archive, доступно в сети Интернет: http://goo.gl/jomYJ; Stross Randall. The Birth of Cheap Communication (and Junk Mail) // New York Times (20 февраля 2010 г.), доступно в сети Интернет: http://goo.gl/SO0L0Y; Darnton Robert. An Early Information Society: News and the Media in Eighteenth-Century Paris // American Historical Review 105, no. 1 (февраль 2000 г.). Бакминстер Фуллер создал прекрасный графический образ максимальной скорости, с которой информация может путешествовать по истории. См. Fuller Buckminster R., McHale John. Shrinking of Our Planet. И это касается не только информации как таковой, которая в прежние времена перемещалась довольно быстро. В XIX веке посылки отправлялись из одной точки в другую через сеть подземных трубопроводов. Эти пневматические системы работали за счет давления воздуха и доставляли посылки по территории таких городов, как Нью-Йорк и Париж, на скоростях до 25 миль в час. Трубопроводы представляли собой разветвленную сеть, проходившую через все основные районы многих крупных городов. Нью-Йорк перестал пользоваться пневматической почтой в 1950-х годах. В Париже система работала до 1980-х и лишь затем была заменена факс-машинами. Мы живем в информационную эпоху и отлично научились перемещать информацию. Но если вам нужно послать настоящий ананас через весь Манхэттен (а не картинку ананаса и не письмо о нем), то, вполне возможно, вы пожалеете, что не живете на сотню лет раньше. Возможно, эти трубопроводы все еще существуют, и можно легко представить себе, как в них обитают какие-нибудь грызуны. Так что скажем прямо: под Нью-Йорком проложено информационное супершоссе, по трубам которого бегают белки. И это вовсе не Интернет (и еще может быть, что это не белки, а крысы). См.: Hayhurst J. D. The Pneumatic Post of Paris. Oxford: France and Colonies Philatelic Society of Great Britain, 1974; Stanway L. C. Mails Under London: The Story of the Carriage of the Mails on London’s Underground Railways. Basildon, England: Association of Essex Philatelic Societies, 2000; Pneumatic Mail // National Postal Museum, доступно в сети Интернет: http://postalmuseum.si.edu/collections/object-spotlight/pneumatic-mail.html. Примечательно, что Элон Маск – предприниматель, стоящий за такими проектами, как PayPal, Tesla Motors и SpaceX, не так давно предложил вернуть пневматические трубопроводы для перемещения людей и грузов. Его новый проект в области общественного транспорта получил название Hyperloop. См. Lavrinc Damon. Elon Musk Thinks He Can Get You from NY to LA in 45 Minutes // CNN Tech (17 июля 2013 г.), доступно в сети Интернет: http://goo.gl/EXPdT.

174

Как же так произошло, что факс изобрели раньше телефона? По всей видимости, адекватное кодирование человеческой речи значительно сложнее, чем кодирование геометрических фигур.

175

См. Alexander Graham Bell Family Papers at the Library of Congress, 1862–1939, доступно в сети Интернет: http://memory.loc.gov/ammem/bellhtml/.

176

Споры о том, кто заслуживает титула «изобретателя телефона», не прекращаются до сих пор. В 2002 году палата представителей США проголосовала за признание изобретателем телефона Антонио Меуччи. При этом канадское правительство официально заявило, что имеющихся у него свидетельств недостаточно, чтобы поддержать это решение. Мы надеемся, что совсем скоро свое веское слово скажет Совет Безопасности ООН. См. Bruce Robert V. Bell: Alexander Graham Bell and the Conquest of Solitude. Boston: Little, Brown, 1973. Информация о Меуччи приведена в Scientific American Supplement, no. 520 (19 декабря 1885 г).

177

Полный список изобретений, использованных нами для этого исследования, можно найти в Michel2011S. Между временем изобретения и выпуском патента неминуемо проходит до нескольких лет. В некоторых случаях дату изобретения можно было выяснить однозначно, а иногда до выпуска патента проходило удивительно большое количество времени. Примером может служить терменвокс, музыкальный инструмент, изобретенный в 1920 году Львом Терменом в России; патент США на это устройство был выдан в 1928 году. В подобных случаях мы используем дату изобретения, а не дату выдачи патента.

178

Классической работой о распространении в обществе инноваций можно считать книгу Rogers Everett M. Diffusion of Innovations. New York: Free Press, 1962.

179

Цитата взята из трогательного некролога фон Неймана, написанного Станиславом Уламом, в котором Улам вспоминает свою дискуссию с фон Нейманом на эту тему. В некрологе подробно описывается вклад фон Неймана и его прогнозы о развитии многих областей современной науки. См. Ulam Stanislaw. John von Neumann 1903–1957 // Bulletin of the American Mathematical Society 64 (1958). P. 1–49.

180

См. его книгу Kurzweil Raymond. The Singularity Is Near: When Humans Transcend Biology. New York: Viking, 2005. С 2012 года Курцвейл занимает пост технического директора Google и учит компьютеры понимать человеческий язык.

181

В дополнение к термину Volksgeist («дух народа») Гердер также создал широко используемый термин Zeitgeist, или «дух времени». См. Herder Johann Gottfried. Reflections on the Philosophy of the History of Mankind. Chicago: University of Chicago Press, 1968; Barnard Frederick M. Herder’s Social and Political Thought. Oxford: Clarendon Press, 1965.

182

Разумеется, взгляды Боаса на культуру не находили понимания у ненавидевших его нацистов. Они сожгли его книги, лишили докторской степени и осудили его антропологические взгляды как «еврейскую науку». О вкладе Боаса в концепцию культуры см.: Stocking George W., Jr. Franz Boas and the Culture Concept in Perspective // American Anthropologist 68 (1966). P. 867–882. Доступно в сети Интернет: http://www.jstor.org/discover/10.2307/670404?uid=3737856&uid=2&uid=4&sid=21104362032663. Также см.: Stocking George W., Jr. (ed.). Volksgeist as Method and Ethic: Essays on Boasian Ethnography and the German Anthropological Tradition. Madison: University of Wisconsin Press, 1998. В частности, см. главу Bunzl Matti. Franz Boas and the Humboldtian Tradition: From Volksgeist and Nationalcharakter to an Anthropological Notion of Culture.

183

Cм. Ergang Robert Reinhold. Herder and the Foundations of German Nationalism. New York: Columbia University Press, 1931; Fredrickson George M. Racism: A Short History. Princeton, NJ: Princeton University Press, 2003; Garrard Eve, Scarrey Geoffrey (eds.). Moral Philosophy and the Holocaust. Burlington, VT: Ashgate, 2003.

184

Создавая термин culturomics, мы всегда хотели, чтобы оно произносилось с долгим «o», как в общепринятом произношении слова genomics (или слова owe). Тем не менее в руководстве по произношению (приложение к словарю Macmillan) не так давно было написано, что это слово должно произноситься с коротким o, как в слове economics (см. комментарии к разделу «Четыре дня рождения и одни похороны»). Может ли словарь ошибаться в подобных вопросах? Или же ошиблись мы сами? Произносили ли мы его неправильно с самого начала, или же произношение стало считаться неправильным только после того, как Macmillan высказал свое мнение? Дополнительная информация на тему – omics приведена в статье Gorman James. «Ome», the Sound of the Scientific Universe Expanding // New York Times (3 мая 2012 г.), доступно в сети Интернет: http://goo.gl/I0um5.

185

Мы должны извиниться перед всеми вами за создание столь эффективного расточителя времени. Мы никогда не ставили это своей целью (ах, если бы мы только могли найти способ компенсировать все потери, связанные с утратой производительности…). Руководство пользователя по Ngram Viewer содержится в статьях Cohen Patricia. In 500 Billion Words, a New Window on Culture // New York Times (16 декабря 2010 г.), доступно в сети Интернет: http://goo.gl/16gtxR; Madrigal Alexis C. Vampire vs. Zombie: Comparing Word Usage Through Time // Atlantic (17 декабря 2010 г.), доступно в сети Интернет: http://goo.gl/MUUnG1.

186

Галилей рассматривал этот вопрос в работе Dialogue Concerning Two Chief World Systems, p. 321. Рассказ о некоторых современных попытках повторить проделанные Галилеем наблюдения Марса приведен в статье Peters William T. The Appearances of Venus and Mars in 1610 // Journal for the History of Astronomy 15, no. 3 (1984).

187

См. Schiaparelli Giovanni Virginio. La Vita sul Pianeta Marte. 1893.

188

Три первые книги Лоуэлла на эту тему: Lowell Percival. Mars. Boston: Houghton Mifflin, 1895; Lowell Percival. Mars and Its Canals. New York: Macmillan, 1911, и Lowell Percival. Mars as the Abode of Life. New York: Macmillan, 1908. Рассел Уоллес в своей книге (Wallace Alfred Russel. Is Mars Habitable? New York: Macmillan, 1907) опровергает точку зрения Лоуэлла. См. Также: Dick Steven J. Life on Other Worlds. Cambridge: Cambridge University Press, 1998; Markley Robert. Dying Planet. Durham, NC: Duke University Press, 2005. Подробнее о Лоуэлле см.: Strauss David. Percival Lowell. Cambridge, MA: Harvard University Press, 2001.

189

См. Devorkin David H. Henry Norris Russell: Dean of American Astronomers. Princeton, NJ: Princeton University Press, 2000.

190

См. Dick. Life on Other Worlds. P. 35.

191

См. Wells H. G. The War of the Worlds. London: William Heinemann, 1898. (Книга также многократно издавалась на русском языке. – Прим. пер.).

192

Глобус создавался на основе карты, известной как прототип MEC-1 (авторства E. C. Слифера, работавшего под началом Лоуэлла). Несмотря на сомнения, которые он испытывал в отношении каналов, Слифер оставался приверженцем этой теории вплоть до своей смерти в 1964 г. «Маринер» облетел планету в 1965 г. Прототип карты MEC-1 можно найти по адресу: http://goo.gl/GrOKZ, а с помощью программы Google Earth можно даже изучить изображения марсианских каналов. Видео с описанием можно найти по ссылке Mars // Google Earth, URL: http://goo.gl/ZXZZa. Сборник работ Слифера находится в: E. C. Slipher Collection, Arizona Archives Online, URL: http://goo.gl/jXva1D.

193

Дополнительную информацию о миссиях «Маринер» можно найти в: Hamilton John. The Mariner Missions to Mars. Minneapolis: ABDO, 1998.

194

См. II Сам. 24.

195

См. Meyers Jeffrey. Edgar Allan Poe: His Life and Legacy. New York: Charles Scribner’s Sons, 1992. Факсимиле «трансатлантического розыгрыша» По в низком разрешении приводится в: Réseau Pneumatic de Paris. Cix, 2000, доступно в сети Интернет: http://goo.gl/nCo3s.

196

Самая свежая версия базы для создания n-грамов черпает информацию из 8 миллионов книг и позволяет создавать тэги для частей речи. См. Lin Yuri et al. Syntactic Annotations for the Google Books Ngram Corpus // Proceedings of the ACL 2012 System Demonstrations (2012). P. 169–174; Lin Yuri. Syntactically Annotated Ngrams for Google Books. Massachusetts Institute of Technology, 2012 (магистерская диссертация).

197

См. Darnton Robert. The National Digital Public Library Is Launched! // New York Review of Books (25 апреля 2013 г.), доступно в сети Интернет: http://goo.gl/OI5n2J.

198

The HathiTrust (http://www.hathitrust.org), Internet Archives (http://archive.org/index.php), проект «Гутенберг» (http://www.gutenberg.org) и Digital Public Library of America (http://dp.la) – это лишь несколько примеров заметных проектов по выкладыванию цифровых книг в широкий доступ. При наличии полных текстов человек может создать значительно более мощные инструменты для анализа культурных трендов. Пример такого инструмента находится на сайте: http://bookworm.culturomics.org. Произведенная компанией Google адаптация первоначального Bookworm с закрытым кодом использует название Ngram Viewer. Bookworm представляет собой проект Cultural Observatory с открытым кодом. Программный код Bookworm был разработан при участии Бенджамина Шмидта, Невы Чернявски-Дюран, Мартина Камачо, Мэттью Никлей и Линфэн Ян. Основным разработчиком был Шмидт.

199

К 2009 году Amazon уже продавал больше электронных книг, чем книг в твердой обложке. См.: Sorrel Charlie. Amazon: Kindle Books Outsold Real Books This Christmas // Wired (28 декабря 2009 г.), доступно в сети Интернет: http://goo.gl/ZsB7it. В 2012 году электронные книги составляли 23% книжного рынка в Соединенных Штатах. См.: Greenfield Jeremy. Ebooks Account for 23% of Publisher Revenue in 2012, Even as Growth Levels // Digital Book World (11 апреля 2013 г.), доступно в сети Интернет: http://goo.gl/u0d1GJ.

200

См.: Davis S. Peter. 6 Reasons We’re in Another «Book-Burning» Period in History // Cracked (11 октября 2011 г.), доступно в сети Интернет: http://goo.gl/FBZoD; Shaer Matthew. Dead Books Club // New York (12 августа 2012 г.), доступно в сети Интернет: http://goo.gl/UAIDN; Jones Mari. David Lloyd George’s Books Pulped by Conwy Libraries Services // Daily Post (24 марта 2011 г.), доступно в сети Интернет: http://goo.gl/b1pK0; Carter Helen. Authors and Poets Call Halt to Book Pulping at Manchester Central Library // Guardian (22 июня 2012 г.), доступно в сети Интернет: http://goo.gl/lEas1P.

201

См.: Chronicling America // National Endowment for the Humanities, URL: http://chroniclingamerica.loc.gov; Trove // National Library of Australia, URL: http://trove.nla.gov.au; приостановленный проект Google News Archive // Google News, URL: http://news.google.com/newspapers.

202

См., к примеру, Digitized Dead Sea Scrolls // Israel Museum, Jerusalem, URL: http://dss.collections.imj.org.il; Perseus Digital Library, Tufts University, URL: http://www.perseus.tufts.edu. Подробнее о проекте по оцифровке документов, связанных с По, можно узнать в The Edgar Allan Poe Digital Collection // Harry Ransom Center, University of Texas Austin, доступно в сети Интернет: http://goo.gl/XvcqO.

203

См. Europeana, URL: http://europeana.eu, – пример серьезных усилий по организации доступа к текстам, произведениям изобразительного искусства, фильмам и множеству других культурных объектов в Европе.

204

Из 107 триллионов электронных писем, отправленных в 2010 году, 89,1% составил спам. См. Internet 2010 in Numbers // Royal Pingdom (12 января 2011 г.), доступно в сети Интернет: http://goo.gl/ziXncU.

205

См.: James Josh. How Much Data Is Created Every Minute? // DOMO (8 июня 2012 г.), доступно в сети Интернет: http://goo.gl/RN5eB. Профессор Грегори Крейн, главный редактор Perseus Library Project, поставивший своей целью оцифровать все древнегреческие тексты, предположил, что со времен 600 года до н. э. сохранилось примерно сто миллионов слов из греческого языка; Грегори Крейн, электронное письмо Жану-Батисту Мишелю, 18 мая 2013 г.

206

Презентация Деба Роя по этому вопросу на конференции TED заслуживает внимания и очень информативна. См.: Roy Deb. The Birth of a Word, видео, 19:52 (март 2011 г.), доступно в сети Интернет: http://goo.gl/5MoJo. Подробнее об этом проекте см.: Keats Jonathan. The Power of Babble // Wired (март 2007 г.), доступно в сети Интернет: http://goo.gl/3epTR; Jones Jason B. Making That Home Video Count // Wired (25 марта 2011 г.), доступно в сети Интернет: http://archive.wired.com/geekdad/2011/03/making-that-home-video-count-deb-roy-and-the-birth-of-a-word/. Описание с техническими характеристиками можно найти в: Roy Deb et al. The Human Speechome Project // Massachusetts Institute of Technology (июль 2006 г.), доступно в сети Интернет: http://goo.gl/O3E0e; Kubat Rony et al. TotalRecall: Visualization and Semi-Automatic Annotation of Very Large Audio-Visual Corpora // Massachusetts Institute of Technology, доступно в сети Интернет: http://goo.gl/Dra7T.

207

Концепции регистрации жизни, «носимые» устройства и набирающее популярность понятие «измерения личности» тесно связаны между собой. См.: Henn Steve. Clever Hacks Give Google Many Unintended Powers // NPR (17 июля 2013 г.), доступно в сети Интернет: http://goo.gl/eyUW9; Pasher Edna, Lawo Michael. Intelligent Clothing. Lansdale, PA: IOS Press, 2009; Geron Tomio. Scan Your Temple, Manage Your Health with New Futuristic Device // Forbes (29 ноября 2012 г.), доступно в сети Интернет: http://goo.gl/9lg72; Beato Greg. The Quantified Self // Reason, (21 декабря 2011); Krynsky Mark. The Best Health and Fitness Gadget Announcements from CES 2013 // Lifestream Blog (18 января 2013 г.), доступно в сети Интернет: http://goo.gl/Qq0BY; Topol Eric. The Creative Destruction of Medicine. New York: Basic Books, 2011; Ranck Jody. Connected Health. San Francisco: GigaOM, 2012.

208

См. два серьезных исследования по этому вопросу: Hochberg Leigh R. et al. Neuronal Ensemble Control of Prosthetic Devices by a Human with Tetraplegia // Nature 442, no. 7099 (2006). P. 164–171; Monti Martin M. et al. Willful Modulation of Brain Activity in Disorders of Consciousness // New England Journal of Medicine 362, no. 7 (2010). P. 579–589.

209

См.: Pinker Steven. The Stuff of Thought. New York: Viking Penguin, 2007 (Рус. изд.: Пинкер С. Субстанция мышления. Язык как окно в человеческую природу. М.: URSS, Либроком, 2013. – Прим. ред.), и Swoyer Chris. Relativism // The Stanford Encyclopedia of Philosophy. Winter 2010. Авторство термина «поток сознания» обычно приписывается Уильяму Джемсу.

210

Следователи изучили огромное количество изображений и видеоматериалов, записанных случайными свидетелями, и попросили общественность помочь в установлении личностей двух подозреваемых. См.: Ackerman Spencer. Data for the Boston Marathon Investigation Will Be Crowdsourced // Wired (16 апреля 2013 г.), доступно в сети Интернет: http://goo.gl/DpPKca; Williams Pete et al. Investigator Pleads for Help in Marathon Bombing Probe: «Someone Knows Who Did This» // NBC News (16 апреля 2013 г.), доступно в сети Интернет: http://goo.gl/46kndz.

211

Семнадцатилетняя девушка пыталась совершить самоубийство, повесившись 4 апреля 2013 г. В результате она впала в кому; три дня спустя ее отключили от систем жизнеобеспечения. См.: Rehtaeh Parsons, Canadian Girl, Dies After Suicide Attempt; Parents Allege She Was Raped by 4 Boys // Huffington Post (9 апреля 2013 г.), доступно в сети Интернет: http://goo.gl/Cqs030.

212

См.: Duhigg Charles. How Companies Learn Your Secrets // New York Times (16 февраля 2012 г.), доступно в сети Интернет: http://goo.gl/DV04Me.

213

См.: Ax Joseph. Occupy Wall Street Protester Can’t Keep Tweets from Prosecutors // Chicago Tribune (17 сентября 2012 г.).

214

См.: Skorheim Jamie. Seattle Bar Steps Up as First to Ban Google Glasses // MyNorthwest.com (8 марта 2013 г.).

215

Стоит отметить, что «удаленные» сообщения в Snapchat можно восстановить по крайней мере в некоторых случаях; это открытие привело к подаче формальной жалобы в Федеральную торговую комиссию. См.: Guynn Jessica. Privacy Watchdog EPIC Files Complaint Against Snapchat with FTC // Los Angeles Times (17 мая 2013 г.), доступно в сети Интернет: http://goo.gl/WSxTxA.

216

См.: Moretti Franco. Graphs, Maps, Trees: Abstract Models for a Literary History. London: Verso, 2005, и цитату Джорджа Миллера, приведенную выше (в комментариях к разделу «Разделить розу на части и посчитать лепестки»); Jockers Matthew L. Macroanalysis: Digital Methods and Literary History. Urbana: University of Illinois Press, 2013; Hughes James M. et al. Quantitative Patterns of Stylistic Influence in the Evolution of Literature // Proceedings of the National Academy of Sciences 109, no. 20 (2012). P. 7682–7686. Доступно в сети Интернет: http://goo.gl/3uaAoM; Pennebaker James W. The Secret Life of Pronouns: What Our Words Say About Us. New York: Bloomsbury, 2011. Веб-сайт конференции Shared Horizons находится по адресу: http://goo.gl/fnyWw. Для тех, кто хочет больше узнать о будущем точных и гуманитарных наук, мы рекомендуем книгу Wilso Edward O. Consilience: The Unity of Knowledge. New York: Alfred A. Knopf, 1998. Вопрос близости и расхождений точных и гуманитарных наук рассматривается в книге Snow C. P. The Two Cultures and the Scientific Revolution. London: Cambridge University Press, 1959.

217

Пер. С. Барсова (Прим. ред.).

218

Cм.: Quetelet Adolphe. Sur l’Homme et le Développement de Ses Facultés, ou, Essai de Physique Sociale. Brussels: L. Hauman, 1836; Durkheim Émile. Les Règles de la Méthode Sociologique. Paris: F. Alcan, 1895; Comte Auguste, Martineau Harriet. The Positive Philosophy. New York: AMS Press, 1974. Интересно сравнить эти рассуждения с теми, которые подтолкнули Ципфа к его открытию в 1935 году: «Почти десять лет назад во время изучения лингвистики в Берлинском университете я почувствовал, насколько плодотворной может оказаться идея исследования речи как природного явления… на манер точных наук, прямо применяя статистические принципы в отношении объективных явлений, связанных с речью».

219

Мы проанализировали вопрос культурной инерции с помощью учащихся Гарварда Мартина Камачо и Гийома Бассе. Мы задались вопросом, будут ли n-грамы, растущие линейным образом и удваивающие значение в течение двух десятилетий, продолжать свой рост после этого периода. Для создания черной линии, изображенной на графике, были усреднены сотни таких n-грамов; каждая точка графика представляет собой медианное значение для всех n-грамов, использованных для расчета среднего для этого момента времени. Обратите внимание, что оси времени для каждого n-грама сведены к одной, так что любой изначальный 20-летний рост всегда начинается с 0 лет. Этот изначальный 20-летний период (во время которого гарантируется резкий рост вследствие принципов выбора n-грамов) подсвечен на графике. Затем n-грамы продолжали рост по инерции. Усредненные n-грамы, отмеченные серым цветом, были выбраны по критерию 20-летнего линейного снижения. В них также заметна инерция, на этот раз – в направлении вниз. Этот эффект выражается достаточно четко. Хотя на графике этого не видно, но через тридцать лет после отмеченного нами снижения более 90% n-грамов продолжили следовать этой тенденции.

220

См.: Franz Boas. The Study of Geography // Science 210S (1887). P. 137–141.

Вернуться к просмотру книги Вернуться к просмотру книги