Словари: мифы и реальность. Лекция в Яндексе

в 13:19, , рубрики: Блог компании Яндекс, лингвистика, Поисковые машины и технологии, Учебный процесс в IT, метки:

Словари – одно из самых древних и самых известных достижений мировой лингвистики. Но насколько распространённые представления о словарях соответствуют реальности? Кто составляет словари? Как это делалось прежде и что изменилось в новую, компьютерную эпоху? Всё ли знают словари – а если нет, то кто знает лучше их? Всегда ли стоит доверять словарям, можно ли обойтись совсем без них и что ждет словари в будущем?

Читает лекцию кандидат филологических наук Борис Леонидович Иомдин, старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, доцент Института лингвистики РГГУ, доцент факультета филологии Высшей школы экономики.

Как возникли и развивались словари

Первые подобия словарей появились в XXV веке до н.э. у шумеров. Это были так называемые глоссы: на полях рукописей выписывались значения незнакомых слов. Ну а первый известный нам полноценный словарь, представляющий собой отдельную книгу, появился в Китае в XX веке до н.э. Называется он Erya (爾雅 [Ěryǎ]) и состоит из 2094 словарных статей. Всего в нем растолковываются 13 113 иероглифов, написанных на 19 пянях – связках из 20-30 бамбуковых планок, размером 1 см на 20-40 см. Современные наиболее полные словари китайского языка содержат толкования около 60 000 иероглифов, а образованные носители китайского языка за свою жизнь выучивают в среднем около 10 000 иероглифов. Так что, несмотря на древность, словарь Erya можно назвать достаточно полным. Так как в китайском языке нет алфавита, словарные статьи в нем упорядочены по тематике: термины родства, жилища, утварь, музыкальные инструменты, небесные тела, территории, возвышенности, горы, воды, травы, деревья, насекомые, рыбы, птицы, дикие животные, домашние животные.

Примерно в 100 году н.э. появился Shuōwén Jiězì – первый словарь, где иероглифы были разбиты по ключам: группировка производится по базовым графическим элементам иероглифов, что упрощает поиск толкований иероглифов в тех случаях, когда даже примерное значение слова неизвестно. Словарь содержит 9353 иероглифов, известен его автор: Сюй Шень.

image

Самый ранний из дошедших до нас рукописных славянских словарей – это так называемый азбуковник. Он был создан в 1282 в качестве приложения к Кормчей книге и содержа толкования 174 слов. Ну а самый первый печатный словарь был издан в 1596 году в качестве приложения к грамматике Лаврентия Зизания.

image

В нем содержится перевод 1061 слова со старославянского языка на древнерусский.

Расцвет лексикографии

На протяжении большей части истории своего существования, словари были литературой исключительно для профессионалов, и среди простых людей не пользовались особой популярностью, да и не были особенно доступны. Тот бум словарей, который наблюдается сейчас, стал проявляться только в середине двадцатого века, когда стало понятно, что словарь не просто книга, в которой разъясняются непонятные слова, а в некотором роде проводник культуры. Один из опросов, проводившихся в 90-е годы в Великобритании, показал, что хотя бы один толковый словарь есть в 90% британских семей. Больше, чем поваренные книги (70%) и Библия (80%).

Возникли целые семейства словарей, составляемые едиными коллективами авторов по единым принципам:

  • Random House Webster, Barnhart, American Heritage (США);
  • Oxford, Chambers, Collins, Hamlyn, Longman, Macmillan (Великобритания);
  • Le Robert, Larousse, Tresor (Франция);
  • Duden (Германия);
  • Словари Академии наук (СССР, Россия).

Следи толковых словарей русского языка можно выделить:

  • БАС – Словарь современного русского литературного языка в семнадцати томах.
  • М.–Л.: Изд-во АН СССР, 1950–1965.
  • МАС – Словарь русского языка в четырех томах. / Под ред. А. П. Евгеньевой. М.: Русский язык, 1981–1984.
  • СОШ – Ожегов С.И., Шведова Н.Ю. Толковый словарь русского языка. Изд. 4-е. М.: Русский язык, 1997.
  • БТС – Большой толковый словарь русского языка / Сост. С. А. Кузнецов. СПб., 1998.
  • СШ – Толковый словарь русского языка с включением сведений о происхождении слов / Отв. ред. Н. Ю. Шведова. М., 2007.
  • НБАС – Большой академический словарь русского языка. Гл. ред. А. С. Герд. СПб., 2012. На данный момент издан 21 том, начинающийся со слова «проделать» и заканчивающийся словом «пятью».

Как составляются словари

Первый этап составления словаря – сбор словника, набор слов, которые будут в него входить. Далее нужно составить определения всех этих слов. Делать это, базируясь только на своих знаниях (интроспекция) – не самый эффективный способ, хотя какая-то часть работы производится и таким образом. Более полную картину можно получить путем опросов носителей языка. Также информация получается при помощи экспериментов на носителях языка. И четвертый метод – это корпусные исследования.

До тех пор, пока компьютеры не обрели широкого применения, определения записывались на карточки, из них составлялись картотеки. Труднее всего было находить примеры применения слов в художественной литературе. Академик А. А. Зализняк высказывался об этом следующим образом: «Нынешним молодым людям уже трудно представить себе, что эта работа делалась вручную. «Это же немыслимый абсурд – делать такую работу без компьютера», – доводилось мне слышать. В действительности рабочим инструментом были четыре хлебных лотка, раздобытых в соседней булочной; в каждый входило по 25 тысяч карточек из тонкой бумаги».

С распространением компьютера появилась возможность составлять корпуса языка: наборы текстов доступных для поиска и грамматической разметки. Теперь найти самые разные варианты применения того или иного слова можно буквально за пару секунд. Это произвело настоящую революцию в работе над словарями.

Корпус отличается от электронной библиотеки тем, что в нем отсутствует доступ к полным текстам, его нельзя просто читать. Но при этом там есть мощный полнофункциональный поиск, ориентированный именно на лингвистические исследования. Самый большой корпус русскоязычных текстов – это национальный корпус русского языка. Он включает в себя более 500 миллионов слов. В нем содержатся самые разные тексты, включая примеры устной речи, которые раньше были совсем уж труднодоступны.

Чего не хватает словарям

Если рассматривать словарные определения близких по смыслу слов в отрыве от них, не всегда можно точно определить, какое именно слово имеется в виду. Определения на естественном языке могут быть слишком туманными и общими. Но если описывать слова каким-нибудь формальным языком, не допускающим двусмысленности, человеку читать такие определения будет очень неудобно. Над поиском компромисса, который устранил бы эту проблему, работают многие ученые. Например, Анна Вежбицка. Она занимается созданием универсального семантического метаязыка. Анна считает, что существует небольшое ядро базовых универсальных значений – семантических примитивов. Они выражаются во всех языках и понятны каждому. И уже с их помощью можно описывать все остальные слова. Текущая версия этого языка содержит около 60 слов:

  • I, YOU, SOMEONE, PEOPLE, SOMETHING, BODY
  • KIND, PART; THIS, THE SAME, OTHER
  • ONE, TWO, SOME, ALL, MANY, FEW
  • GOOD, BAD; BIG, SMALL
  • THINK, KNOW, WANT, FEEL, SEE, HEAR
  • SAY, WORDS, TRUE
  • DO, HAPPEN, MOVE, TOUCH
  • BE, THERE IS, HAVE; LIVE, DIE
  • WHEN, NOW, BEFORE, AFTER, A LONG TIME, A SHORT TIME, FOR SOME TIME, MOMENT
  • WHERE, HERE, ABOVE, BELOW, FAR, NEAR, SIDE, INSIDE
  • NOT, MAYBE, CAN, BECAUSE, IF
  • VERY, MORE; AS

Как видно, тут есть самые распространенные местоимения, числительные, логические связки и глаголы, выражающие основные действия. Чтобы описать какое-то сложное понятие, можно прибегать к использованию логических цепочек, которые в совокупности укажут на одно конкретное слово. Рассмотрим это на примере слова excited:

  • (a) X felt something because X thought something
  • (b) sometimes a person thinks:
  • (с) «I know now: something very good will happen
  • (d) I want it to happen
  • (e) I can't think about other things now»
  • (f) when this person thinks this this person feels something good
  • (g) X felt something like this
  • (h) because X thought something like this

Или на примере слова ashamed:

  • (a) X felt something because X thought something
  • (b) sometimes a person thinks:
  • (с) «people can know something bad about me
  • (d) I don't want people to know this
  • (e) if people know this they can't not think smt bad about me
  • (f) when I think about it, I can't not think the same»
  • (g) when this person thinks this this person feels smth bad
  • (h) X felt something like this
  • (i) because X thought something like this

Метаязык должен содержать небольшое, но достаточное число единиц. Однако толкования из одних только элементарных значений слишком трудны для понимания. Можно пойти на компромисс: включать в определения и более сложные слова, комбинированные из нескольких примитивов, при этом, не допуская синонимии и омонимии.

Посмотрев лекцию до конца, вы узнаете, какие бывают принципы составления словарей, какие еще проблемы сегодня возникают перед составителями словарей, и как их пытаются решить.

Автор: elcoyot

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js