Рубрика «переводчики»

Привет! В продолжение моей предыдущей статьи о локальном переводчике на кабардинском языке хочу поделиться практическим опытом обучения моделей машинного перевода для низкоресурсных языков. Расскажу о том, с какими проблемами я столкнулся, как их решал, и покажу конкретный код, который помог улучшить качество перевода с BLEU 8 до 28 пунктов.

Введение: три кита обучения переводчиков

Обучение моделей перевода - нетривиальная задача, которая опирается на три ключевых элемента:

1. Корпус параллельных текстов

Читать полностью »

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший.

При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных.

Читать полностью »

Привет!

Меня зовут Алексей Рудак, я основатель компании Lingvanex, которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf.

Читать полностью »

Моя маленькая помощь малым языкам - 1

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Читать полностью »

Как все начиналось

Эта история началась 15 лет назад. Работая программистом в столице, я накапливал деньги и увольнялся, чтобы потом создавать собственные проекты. Для экономии средств уезжал домой, в небольшой родной город, где работал над сайтом для студентов, программой для торговли, играми для мобильных телефонов. Но из-за отсутствия опыта ведения бизнеса это не приносило дохода, и вскоре проекты закрывались. Приходилось снова ехать в столицу и устраиваться на работу. Эта история повторилась несколько раз.

Когда у меня в очередной раз закончились деньги, наступил кризис. Я не смог найти работу, ситуация стала критической. Пришло время посмотреть на все вещи трезвым взглядом. Нужно было честно признаться себе, что я не знаю, какие ниши выбрать для бизнеса. Создавать проекты, которые просто нравятся, — путь в никуда.
Читать полностью »

С 1 по 30 апреля в Москве, Санкт-Петербурге и Екатеринбурге пройдёт четвёртая Академия Гипербатона. Это образовательный курс Яндекса для технических писателей, редакторов, а в этом году — ещё и для переводчиков. Зарегистрироваться на курс можно до понедельника следующей недели (9 марта) включительно. Для регистрации необходимо рассказать о себе и выполнить небольшое тестовое задание. Занятия будут проходить в офисах Яндекса по вечерам будних дней, 2–3 раза в неделю. Ещё несколько часов в неделю займут домашние задания.
Читать полностью »

image

Компания DeepL сообщила о том, что она запускает новую систему перевода при помощи искусственного интеллекта, которая дает гораздо более качественный результат. Ее можно бесплатно протестировать.

DeepL Переводчик вышел в 2017 году. Как отметили в компании, сейчас сервис используют более полумиллиарда человек. Версия DeepL Translator для Windows и Mac вышла в 2019 году. Сервис подписки DeepL Pro доступен для частных лиц, команд и разработчиков, а тарифные планы начинаются с €5,99.Читать полностью »

Пользователи Lokalise могут выбирать, локализовать им свой продукт с привлечением наёмных переводчиков площадки, с собственной командой или исключительно своими силами. Именно для упрощения процедуры локализации тех проектов, где профессиональные переводчики не нужны и достаточно собственных знаний языка, мы и предоставляем нашим пользователям возможность использовать встроенные в Lokalise популярные системы машинного перевода от Google, Yandex, Microsoft и SDL. О том, как переводят эти системы, мы сегодня и поговорим на конкретных примерах.

«Чемодан из крокодиловой кожи» или «мешок с аллигатором»: сравнение подключенных к Lokalise онлайн-переводчиков - 1

Google Machine Translate/Google Neural Translate

Около полугода назад компания Google заявила о подключении очередного набора языков к нейронной сети своего сервиса Google Translate, в том числе и русского. Событие это стало знаковым для всего русскоязычного интернет-пространства: ежедневно тысячи человек пользуются встроенным в Chrome переводчиком Google или идут на сайт Google Translate за переводом иностранного текста на родной язык.
Читать полностью »

9 советов по локализации аудио - 1
Captain C-3PO by Jeff Nickel
Если вы имели дело с записью аудио — будь то персонажная озвучка для игры или дикторская начитка для видеоролика, — то наверняка заметили, что дело это недешевое. Важно сделать все правильно с первого раза, чтобы сократить расходы. То же самое и с локализацией аудио: каждая ошибка умножается на количество языков. В этой статье мы поделимся советами о том, как взаимодействовать со студиями звукозаписи и сервисами по локализации, как оптимизировать и ускорить процесс, уменьшить риски, а заодно и расходы на локализацию звука. И неважно, будете вы заказывать эти услуги у нас в Alconost или в другой компании — знание всех подводных камней вам точно пригодится.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js