Рубрика «лингвистика» - 2

Ужасы японского языка. Лексика - 1

Месяц назад я писал о том безумии, которое представляет из себя японская письменность. Чтобы понимать японские книги, нужно потратить несметное количество времени на запоминание тысяч иероглифов, их сочетаний и произношений. Это непростая и долгая задача в том числе и для самих жителей страны восходящего солнца.

Читать полностью »

Эсперанто – плановый язык, созданный в 1887 году Людвигом Заменгофом для международного общения и известный тем, что содержит 16 правил и ни одного исключения. 140 лет спустя он все еще жив, его словарный запас вырос как минимум в 17 раз (с 904 корней при создании до 17000 корней в словаре Plena Ilustrita Vortaro издания 2020 года), им владеют по разным подсчетам от десятков тысяч до миллионов людей по всему миру, включая тех, кто говорит на нем с рождения. Как изменился язык? Утратил ли он свою простоту? Понял бы Заменгоф современных эсперантистов? Сейчас разберемся.

Читать полностью »

Lingtrain cover

Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.

Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.

Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.

Читать полностью »

Насколько естественен естественный язык? Представляем датасет RuCoLA - 1

В последние годы в области NLP произошла настоящая революция: огромные нейросети, предобученные на сотнях гигабайт текстов, бьют все известные рекорды качества. Но обладают ли такие нейросети чутьём на «естественность» текста, которое есть у носителей языка? Оценка предложения по внутреннему чутью в лингвистике получила название приемлемости; умение давать подобную оценку — ещё один шаг на пути к общему пониманию языка. Чтобы узнать, насколько хорошо нейросети для русского языка справляются с этой задачей, мы публикуем RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Это совместный труд команды исследователей и NLP-разработчиков из SberDevices, ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Факультета компьютерных наук ВШЭ. Также мы открываем лидерборд на данных RuCoLA, чтобы любой желающий мог проверить способности своих моделей или поучаствовать в развитии методов для оценки приемлемости.
Читать полностью »

… или как захоронить свои ядерные отходы навсегда.

ONKALO: чудо света на все времена, забудьте о нём… - 1

Многие уверены, что век монументального строительства прошёл. Пирамиды, мегалиты и загадочные гробницы лежат старыми игрушками в песочнице человечества. Мы выросли из них и живём сегодняшним днём, ярким и мимолётным. Когда нас не станет — от нас останутся только колоссы древности… и ONKALO.
Читать полностью »

Есть достижения и открытия, которые изменили судьбы человечества и нашей с вами цивилизации кардинально. Например, приручение домашних животных, выведение овощных культур и злаков, освоение гончарного дела, ирригация, обработка металлов. Но одним из величайших изобретений человечества стала все-таки именно письменность. Возможность передавать знания сквозь расстояние и время изменило наш мир, и невероятно ускорило развитие человеческой цивилизации. Теперь знания не исчезали бесследно и могли передаваться даже через "темные века".

Читать полностью »

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью. 

Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Читать полностью »

Текст написан иностранным агентом – лицом, проживающим за пределами России (в Канаде). Иллюстрации взяты из открытых источников - если не указано иное, из Википедии.

В этой статье будет немного про компьютерные методы, чуть побольше – про комбинаторику, но в основном – про то, что оба подхода не всесильны и у обоих есть свои ограничения.

Это хорошо видно на примере изучения древних письменностей острова Крит, из которых была дешифрована только одна – наиболее позднее Читать полностью »

cover

Количество атомов в наблюдаемой Вселенной — где-то 10^80, число Дэвидов на картинке к статье — 2. Количество книг в этой подборке находится между этими ориентирами и будет пополняться (всегда рад рекомендациям). Что же это за книги?

Не будучи лингвистом, языки я люблю, поэтому накопил (и даже прочитал) довольно много книг по этой теме. В статье я собрал наиболее яркие книжки, которые попали мне в руки и запали в душу. Среди тем — популярная лингвистика, переводы, конланги и нескучные учебные пособия. Начнем с наиболее популярных.

Увлекательно про языки

Здесь каждая глава будет посвящена какому-то конкретному языку.

⭐ Лингво. Языковой пейзаж Европы | Гастон Доррен (2014)

Европа — языковой пирог

Популярная лингвистика. Книги про языки, которые мне нравятся - 2

Филолог и журналист из Нидерландов рассказывает каков на вкус этот самый пирог. Все это сделано в форме максимально нефромальных заметок, в конце каждой из которых есть примеры заимствованных из этого языка слов. Также автор приводит и непереводимые слова, например "мерак" — удовольствие, получаемое от какого-то простого времяпровождения, например, от общения с друзьями (сербохорватский). Помимо этого вы узнаете, что слово avalanche (лавина) — только одно заимствованное английским из романшского (одного из четырех официальных языков Швейцарии), а самое известное заимствованное слово из чешского — робот.

Читать полностью »

Моя маленькая помощь малым языкам - 1

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js