Рубрика «изучение языков» - 9

Моя маленькая помощь малым языкам - 1

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Читать полностью »

Автор: Виолетта Хайдарова

Все мы привыкли, что есть пары типа голос – гласгород – градзолото – злато, сторож – страж в которых слова обозначают одно и то же, отличаясь только стилем. Одно слово в таких парах всегда стилистически нейтральное, а второе – торжественное и книжное. Но как вам понравится, если я скажу, что порох и прах тоже когда-то имели одинаковое значение и были точно такой же парой? А еще один и тот же корень имеют слова колодец и кладмолодёжь и младенецоборона и браньворота и вращатьсяоболочка иЧитать полностью »

Lingtrain books

Статья будет интересна все любителям программирования, иностранных языков и красивых книг. Сначала мы сделаем параллельную книгу, имея на руках два обычных текста. Затем мы проиллюстрируем ее картинками в стиле pixel art на основе лишь текстовых подсказок.

Книгу можно сделать более чем на сотне языков с восстановлением и подсветкой связей между предложениями:

Lingtrain

А теперь давайте сделаем такую книгу сами.

Читать полностью »

Одно из самых заметных отличий украинского языка от русского — гласный [і] на месте дореволюционного ятя и в тех словах, где в русском [о]: двір, дім, сіль, радість и т. п. Это отличие настолько характерно, что стереотипным «плохим украинским» в юморесках стал русский с заменой [о] на [і]: «кровосісі» и т. п. При этом в других, внешне похожих словах — русскому [о] соответствует [о] и в украинском: кров, рот, сон, голос, ворон и т. п. В чём же разница между этими двумя группами слов? Статья Читать полностью »

...или Система времён, которую мы потеряли.

Автор: Виолетта Хайдарова

Те из нас, кому в детстве читали народные сказки, могли встретить там много странного. На фоне медведей-зомби, девочек со светящимися черепами и прочих милых эпизодов как-то терялись фразы, звучащие ну… немного странно. Например, «единым махом семерых побивахом». Что ещё за «побивахом» такое? Взяли и просто извратили слово ради рифмы? Оказывается, нет.

Читать полностью »

Habr Arrival

Приглашаю окунуться в мир "языков Фаберже", — языков, придуманных для эстетики, пущего реализма или шутки ради. Степень их завершенности зачастую зависит лишь от одного-двух человек (если такое намерение вообще имело место), и о практическом применении таких языков почти никогда речи не идёт. Но познакомившись с ними поглубже, можно узнать много интересного и подивиться изобретательности их авторов. Среди этих артлангов можно встретить наречия Средиземья и говоры Вестероса, таинственные инопланетные диалекты и компактный словарь Эллочки-людоедки.

Откуда есть пошел дотракийский язык

Начнем с языков мира "Песни льда и пламени" Джорджа Мартина. Сам Мартин свои языки не прорабатывал и они так и остались бы воображаемыми, но на помощь пришла телевизионная сеть HBO с идеей высокобюджетного сериала "Игра престолов". И так как в любой области есть свои специалисты, то решено было обратиться за помощью к Обществу создания языков. Конкурс выиграл Дэвид Питерсон, американский лингвист, который уже имел богатый опыт в создании искуственных языков.

Читать полностью »

Краткая история глагола to be в английском - 1

«To be, or not to be, that is the question» — «Быть или не быть, вот в чем вопрос». 

Эта фраза Гамлета считается одной из самых узнаваемых в мировой литературе. И она прямо касается темы, о которой мы хотим рассказать сегодня. Поговорим об истории глагола to be. 

Происхождение to be и его форм — это настоящий лингвистический детектив, в котором даже лингвисты не знают ответов на все вопросы. Попробуем в этом разобраться.

To be: что это за рыба в современном английскомЧитать полностью »

В июне на Хабре было сразу несколько интересных статей на лингвистические темы, и одну дискуссию из комментариев мне хочется вынести в отдельную статью:

Откуда взялся 'do' в вопросах и отрицаниях? - 1

Удивительная и, по-видимому, уникальная особенность английского — то, что в вопросах и отрицаниях обязательно должен быть вспомогательный глагол, даже когда утвердительные предложения обходятся без него:

He writes the letter.

*Writes he the letter? / Does he write the letter?

Читать полностью »

Дурацкие идиомы английского языка, которые не имеют смысла (на первый взгляд) - 1

В английском языке очень много идиом и фразеологизмов. И смысл многих из них невозможно понять, если не знаешь значение фразы. 

В этом материале мы собрали небольшую подборку на первый взгляд дурацких фразеологизмов, которые на второй взгляд уже не такие и дурацкие. Поехали.

Piece of cake

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js