Рубрика «лингвистика» - 10

Каждый большой продукт включает в себя много сложных и интересных технологий, над созданием которых работали люди, зачастую посвятившие им целую жизнь. И в браузере Yandex реализованы многие разработки наших коллег, которые могут остаться не замеченными неспециалистами и казаться незначимыми деталями. Например, одной из облачных технологий Яндекса, которые интегрированы в Браузер, стал наш собственный переводчик.

Сам Яндекс.Перевод вышел из беты несколько месяцев назад. От других немногочисленных подобных сервисов его отличает автословарь, уникальная технология которого разработана командой лингвистов и программистов Яндекса. Во время его разработки удалось объединить современные статистические подходы машинного перевода и традиционные лингвистические инструменты.

Чтобы понять, насколько значимым шагом в развитии машинного перевода является появление автословаря, стоит вспомнить, что 20 лет назад были распространены синтаксические переводчики, для которых таблицы соответствия фраз на разных языках составляли вручную. Процесс их создания стал меняться только в конце 1990-х, когда появились первые статистические переводчики. Для обучения их моделям переводов стали использовать параллельные тексты. Документы, в которых одно и то же написано на разных языках, извлекали, например, из дипломатической документации. Большой базой параллельных текстов стали документы ООН. Но на подобной лексике создать общелексический переводчик не получилось, потому что даже неформальные тексты он переводил сухим дипломатическим языком.Читать полностью »

Помните, в интернете, году этак в 2003, проходила картинка, в которой сообщалось, что неважно в каком порядке идут буквы в слове, лишь бы первая и последняя были на местах, а остально мозг сам скомпонует и вычленит смысл. Вот оригинальный текст:

По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы чиатем не кдаужю бкуву по отдльенотси, а все солво цликеом.

В английском варианте это звучало так:

Arocdnicg to rsceearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoatnt tihng is taht the frist and lsat ltteer are in the rghit pcale. The rset can be a toatl mses and you can sitll raed it wouthit pobelrm. Tihs is buseace the huamn mnid deos not raed ervey lteter by istlef, but the wrod as a wlohe.

Попытка поэкспериментировать с разными текстами показала, что с русским языком все не так безоблачно, как с английским и алгоритм эффективного и readable-перемешивания все-таки немного другой.

Читать полностью »

У автора нет инвайта, потому он попросил меня выложить сюда его творение.

Написался тут сайт с необычным представлением русского морфологического словаря, будет полезен лингвистам, датамайнерам, NLPшникам и всем интересующимся языком.

Например двумя кликами можно узнать какие и мужские имена на букву П используются чаще остальных и другую подобную статистику.

За основу взят морфологический словарь АОТ (aot.ru)
Проект планируется развивать и по мере возможности добавлять туда всякий полезный и бесполезный инструментарий.

В ближайшем будущем будут:
1. Онлайн–стемминг
2. Частотомерка с базовыми формамиЧитать полностью »

Добрый день! Эта заметка — результат моих горестных раздумий о роли современной филологии в век коммерции и информационных технологий. Моя интуиция настойчиво шепчет о том, что исследования языка сейчас могут быть полезны как никогда. Печальная же реальность демонстрирует все новые лица в ряду безработных кандидатов филологических наук. В связи с этим я хочу предложить участникам сообщества одну идею и прошу оценить ее с точки зрения реалистичности, жизнеспособности и полезности.

В последние годы в филологии приобрело популярность направление, которое называется когнитивной лингвистикой. Один из основных предметов изучения когнитивной лингвистики – концепты. Концепт – это «некое представление о фрагменте мира или части такого фрагмента, имеющее сложную структуру, выраженную разными группами признаков, реализуемых разнообразными языковыми способами и средствами. Концептуальный признак объективируется в закрепленной и свободной формах сочетаний соответствующих языковых единиц – репрезентантов концепта. Концепт отражает категориальные и ценностные характеристики знаний о некоторых фрагментах мира. В структуре концепта отображаются признаки, функционально значимые для соответствующей культуры» (Пименова М.В. Введение в когнитивную лингвистику. — Кемерово, 2004). Структура содержания концепта включает буквальный смысл (внутреннюю форму), пассивный, исторический слой, новейший, актуальный и активный слой, эволюционные семиотические ряды концептов, образы, ассоциации. Концепт может иметь или не иметь имени, но он всегда вербализуется в языковых единицах.

Вербализация – словесное отображение содержания концепта. Представляя концепт как поле, выделяют ядерную, околоядерную зоны, зоны ближней и дальней периферии. В ядерную зону входят единицы, называющие концепт, в околоядерную – характеризующие его. К ближней и дальней периферии относятся слова и выражения, соответственно более и менее тесно связанные с концептом по смыслу. Приведем фрагмент анализа концепта «Дом» в русском и немецком языках.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js