Byte-code “Tsifor” for any language as number of stem and number of grammatical form for man-machine interface and corpus linguistics
Дмитрий Тюрин (Dmitry Turin), vk.com/dima.turin, dima.turin@qq.com, dima.turin@gmail.com
Прочитана лекция (youtu.be/gl89IIvpgCg) на 6-м Фестивале языков в Великом Новгороде.
Ключевые слова: ЧМИ, машинный перевод, текстовый поиск, полнотекстовый поиск.
Аннотация: Машины мыслят идентификаторами, и ЧМИ требует назначить их основам слов и грамматическим формам, а в сообщениях указывать только числа. Форма слова задаются шестью «зубцами»: предлогом, префиксом, трансфиксом, постфиксом, послелогом, катализатором (последний стоит в любой части предложения). Изолирующие, аналитические и синтетические языки отличаются только тем, какие применяют зубцы. Инкорпорирующие и неинкорпорирующие, с левым или с правым ветвлением – только «лакуной»: между какими соседними зубцами главного слова стоит основа зависимого (и в каком порядке идут зубцы главного и зависимого слов, разных зависимых частей речи при одной главной, однородных членов). Таким образом перенумеровав основы слов и «расчёски» (композиции зубцов), заменяем каждое слово на два идентификатора. Языки разнятся также тем, какими граммемами обмениваются существительное, числительное и счетное слово – «блендингом», а также кто из них принимает константные грамматические формы и какие. Свойства языка – номер используемой лакуны, порядки зубцов, подробности блендинга, копируемые граммемы при вершинном и двойном маркировании и т.д. – выносятся из сообщений в специальные таблицы в операционной системе.