Рубрика «изучение языков» - 9
Моя маленькая помощь малым языкам
2021-10-03 в 13:28, admin, рубрики: data mining, natural language processing, python, изучение языков, Компьютерная лингвистика, лингвистика, машинное обучение, машинный перевод, переводчики, язык
Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...
На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.
Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.
Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.
Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.
I. Извлекаем параллельный корпус
Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.
Настоящая история (старо)славянского РА
2021-09-30 в 9:49, admin, рубрики: древнерусский язык, изучение языков, история, лингвистика, Научно-популярное, эволюция языкаАвтор: Виолетта Хайдарова
Все мы привыкли, что есть пары типа голос – глас, город – град, золото – злато, сторож – страж в которых слова обозначают одно и то же, отличаясь только стилем. Одно слово в таких парах всегда стилистически нейтральное, а второе – торжественное и книжное. Но как вам понравится, если я скажу, что порох и прах тоже когда-то имели одинаковое значение и были точно такой же парой? А еще один и тот же корень имеют слова колодец и клад, молодёжь и младенец, оборона и брань, ворота и вращаться, оболочка иЧитать полностью »
Сделай себе книгу для изучения языка с нейросетевыми иллюстрациями
2021-09-02 в 7:21, admin, рубрики: GAN, LaBSE, natural language processing, nlp, изучение языков, искусственный интеллект, книги, лингвистика, машинное обучение, обработка изображенийСтатья будет интересна все любителям программирования, иностранных языков и красивых книг. Сначала мы сделаем параллельную книгу, имея на руках два обычных текста. Затем мы проиллюстрируем ее картинками в стиле pixel art на основе лишь текстовых подсказок.
Книгу можно сделать более чем на сотне языков с восстановлением и подсветкой связей между предложениями:
А теперь давайте сделаем такую книгу сами.
Об украинских и русских гласных
2021-08-17 в 15:07, admin, рубрики: Блог компании TIMEWEB, древнерусский язык, изучение языков, русский язык, славянские языки, украинский язык, фонетикаОдно из самых заметных отличий украинского языка от русского — гласный [і] на месте дореволюционного ятя и в тех словах, где в русском [о]: двір, дім, сіль, радість и т. п. Это отличие настолько характерно, что стереотипным «плохим украинским» в юморесках стал русский с заменой [о] на [і]: «кровосісі» и т. п. При этом в других, внешне похожих словах — русскому [о] соответствует [о] и в украинском: кров, рот, сон, голос, ворон и т. п. В чём же разница между этими двумя группами слов? Статья Читать полностью »
Почему тысячу лет назад вам было бы легче учить английский
2021-08-04 в 9:23, admin, рубрики: времена, древнерусский язык, изучение языков, история, лингвистика, Научно-популярное, эволюция языка...или Система времён, которую мы потеряли.
Автор: Виолетта Хайдарова
Те из нас, кому в детстве читали народные сказки, могли встретить там много странного. На фоне медведей-зомби, девочек со светящимися черепами и прочих милых эпизодов как-то терялись фразы, звучащие ну… немного странно. Например, «единым махом семерых побивахом». Что ещё за «побивахом» такое? Взяли и просто извратили слово ради рифмы? Оказывается, нет.
Популярная лингвистика. Часть 2. Шедевры языкостроения
2021-07-30 в 12:15, admin, рубрики: lingtrain, изучение языков, книги, конланги, лингвистика, Научно-популярное, Читальный зал, языкиПриглашаю окунуться в мир "языков Фаберже", — языков, придуманных для эстетики, пущего реализма или шутки ради. Степень их завершенности зачастую зависит лишь от одного-двух человек (если такое намерение вообще имело место), и о практическом применении таких языков почти никогда речи не идёт. Но познакомившись с ними поглубже, можно узнать много интересного и подивиться изобретательности их авторов. Среди этих артлангов можно встретить наречия Средиземья и говоры Вестероса, таинственные инопланетные диалекты и компактный словарь Эллочки-людоедки.
Откуда есть пошел дотракийский язык
Начнем с языков мира "Песни льда и пламени" Джорджа Мартина. Сам Мартин свои языки не прорабатывал и они так и остались бы воображаемыми, но на помощь пришла телевизионная сеть HBO с идеей высокобюджетного сериала "Игра престолов". И так как в любой области есть свои специалисты, то решено было обратиться за помощью к Обществу создания языков. Конкурс выиграл Дэвид Питерсон, американский лингвист, который уже имел богатый опыт в создании искуственных языков.
Краткая история глагола to be в английском
2021-07-09 в 14:45, admin, рубрики: to be, английский язык, Блог компании EnglishDom, глагол, изучение английского, изучение языков, история
«To be, or not to be, that is the question» — «Быть или не быть, вот в чем вопрос».
Эта фраза Гамлета считается одной из самых узнаваемых в мировой литературе. И она прямо касается темы, о которой мы хотим рассказать сегодня. Поговорим об истории глагола to be.
Происхождение to be и его форм — это настоящий лингвистический детектив, в котором даже лингвисты не знают ответов на все вопросы. Попробуем в этом разобраться.
To be: что это за рыба в современном английскомЧитать полностью »
Откуда взялся ‘do’ в вопросах и отрицаниях?
2021-07-02 в 7:00, admin, рубрики: do-support, Блог компании Маклауд, изучение языковВ июне на Хабре было сразу несколько интересных статей на лингвистические темы, и одну дискуссию из комментариев мне хочется вынести в отдельную статью:

Удивительная и, по-видимому, уникальная особенность английского — то, что в вопросах и отрицаниях обязательно должен быть вспомогательный глагол, даже когда утвердительные предложения обходятся без него:
He writes the letter. *Writes he the letter? / Does he write the letter? |
Дурацкие идиомы английского языка, которые не имеют смысла (на первый взгляд)
2021-04-16 в 14:54, admin, рубрики: английский язык, Блог компании EnglishDom, идиомы, изучение английского, изучение языков, лексика
В английском языке очень много идиом и фразеологизмов. И смысл многих из них невозможно понять, если не знаешь значение фразы.
В этом материале мы собрали небольшую подборку на первый взгляд дурацких фразеологизмов, которые на второй взгляд уже не такие и дурацкие. Поехали.