Рубрика «переводчики»

Как создать переводчик для низкоресурсного языка: практическое руководство

2025-12-25 в 16:49, admin, рубрики: изучение языков, кабардинский, обучение моделей, переводчики, синтез речи, ударение

Привет! В продолжение моей предыдущей статьи о локальном переводчике на кабардинском языке хочу поделиться практическим опытом обучения моделей машинного перевода для низкоресурсных языков. Расскажу о том, с какими проблемами я столкнулся, как их решал, и покажу конкретный код, который помог улучшить качество перевода с BLEU 8 до 28 пунктов.

Введение: три кита обучения переводчиков

Обучение моделей перевода - нетривиальная задача, которая опирается на три ключевых элемента:

1. Корпус параллельных текстов

Читать полностью »

Как оценить качество машинного перевода

2025-10-14 в 10:46, admin, рубрики: bleu, comet, llm, machine translation, машинный перевод, метрики качества, оценка качества, переводчик, переводчики, языковые модели

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший.

При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных.

Читать полностью »

Нейросети-переводчики: Когда можно доверять, а когда — нет? 6 примеров дорогих ошибок ИИ

2025-09-14 в 4:00, admin, рубрики: машинный перевод, нейросети, перевод, переводчики

Читать полностью »

Вычисление функции потерь и градиентов в AI переводчике

2025-06-11 в 15:41, admin, рубрики: machinelearning, neural networks, Transformers, ИИ, искусственный интеллект, машинный перевод, переводчик, переводчики, языковые модели

Привет!

Меня зовут Алексей Рудак, я основатель компании Lingvanex, которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf.

Читать полностью »

Моя маленькая помощь малым языкам

2021-10-03 в 13:28, admin, рубрики: data mining, natural language processing, python, изучение языков, Компьютерная лингвистика, лингвистика, машинное обучение, машинный перевод, переводчики, язык

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Читать полностью »

Как я заработал 1 000 000 $ без опыта и связей, а потом потратил их, чтобы сделать свой переводчик

2020-03-17 в 8:25, admin, рубрики: natural language processing, искусственный интеллект, машинное обучение, мобильные приложения, переводчики, Развитие стартапа, разработка мобильных приложений, разработка приложений, стартапы

Как все начиналось

Эта история началась 15 лет назад. Работая программистом в столице, я накапливал деньги и увольнялся, чтобы потом создавать собственные проекты. Для экономии средств уезжал домой, в небольшой родной город, где работал над сайтом для студентов, программой для торговли, играми для мобильных телефонов. Но из-за отсутствия опыта ведения бизнеса это не приносило дохода, и вскоре проекты закрывались. Приходилось снова ехать в столицу и устраиваться на работу. Эта история повторилась несколько раз.

Когда у меня в очередной раз закончились деньги, наступил кризис. Я не смог найти работу, ситуация стала критической. Пришло время посмотреть на все вещи трезвым взглядом. Нужно было честно признаться себе, что я не знаю, какие ниши выбрать для бизнеса. Создавать проекты, которые просто нравятся, — путь в никуда.
Читать полностью »

Академия Гипербатона — для технических писателей, редакторов и переводчиков

2020-03-04 в 15:16, admin, рубрики: Блог компании Яндекс, Карьера в IT-индустрии, переводчики, редакторы, редакторы контента, технические писатели, Учебный процесс в IT, яндекс

С 1 по 30 апреля в Москве, Санкт-Петербурге и Екатеринбурге пройдёт четвёртая Академия Гипербатона. Это образовательный курс Яндекса для технических писателей, редакторов, а в этом году — ещё и для переводчиков. Зарегистрироваться на курс можно до понедельника следующей недели (9 марта) включительно. Для регистрации необходимо рассказать о себе и выполнить небольшое тестовое задание. Занятия будут проходить в офисах Яндекса по вечерам будних дней, 2–3 раза в неделю. Ещё несколько часов в неделю займут домашние задания.
Читать полностью »

DeepL объявила о прорыве в переводе текста при помощи ИИ

2020-02-08 в 10:31, admin, рубрики: deepl, искусственный интеллект, переводчики

Компания DeepL сообщила о том, что она запускает новую систему перевода при помощи искусственного интеллекта, которая дает гораздо более качественный результат. Ее можно бесплатно протестировать.

DeepL Переводчик вышел в 2017 году. Как отметили в компании, сейчас сервис используют более полумиллиарда человек. Версия DeepL Translator для Windows и Mac вышла в 2019 году. Сервис подписки DeepL Pro доступен для частных лиц, команд и разработчиков, а тарифные планы начинаются с €5,99.Читать полностью »

«Чемодан из крокодиловой кожи» или «мешок с аллигатором»: сравнение подключенных к Lokalise онлайн-переводчиков

2017-08-30 в 9:43, admin, рубрики: Bing, Google Translate, lokalise, sdl, американская классика, Блог компании Lokalise, Драйзер, Клиентская оптимизация, локализация, машинный перевод, Насилие над роботами, нейронный перевод, перевод, переводчики, Разработка веб-сайтов, разработка мобильных приложений, Яндекс.переводчик

Пользователи Lokalise могут выбирать, локализовать им свой продукт с привлечением наёмных переводчиков площадки, с собственной командой или исключительно своими силами. Именно для упрощения процедуры локализации тех проектов, где профессиональные переводчики не нужны и достаточно собственных знаний языка, мы и предоставляем нашим пользователям возможность использовать встроенные в Lokalise популярные системы машинного перевода от Google, Yandex, Microsoft и SDL. О том, как переводят эти системы, мы сегодня и поговорим на конкретных примерах.

«Чемодан из крокодиловой кожи» или «мешок с аллигатором»: сравнение подключенных к Lokalise онлайн-переводчиков - 1

Google Machine Translate/Google Neural Translate

Около полугода назад компания Google заявила о подключении очередного набора языков к нейронной сети своего сервиса Google Translate, в том числе и русского. Событие это стало знаковым для всего русскоязычного интернет-пространства: ежедневно тысячи человек пользуются встроенным в Chrome переводчиком Google или идут на сайт Google Translate за переводом иностранного текста на родной язык.
Читать полностью »

9 советов по локализации аудио

2015-12-25 в 8:29, admin, рубрики: Alconost, Блог компании Alconost, Inc., дикторы, звук, локализация, Локализация продуктов, озвучка, озвучка видео, озвучка игр, перевод, переводчики, персонажи, Работа с видео, Работа со звуком, сценарий

^{Captain C-3PO by Jeff Nickel}
Если вы имели дело с записью аудио — будь то персонажная озвучка для игры или дикторская начитка для видеоролика, — то наверняка заметили, что дело это недешевое. Важно сделать все правильно с первого раза, чтобы сократить расходы. То же самое и с локализацией аудио: каждая ошибка умножается на количество языков. В этой статье мы поделимся советами о том, как взаимодействовать со студиями звукозаписи и сервисами по локализации, как оптимизировать и ускорить процесс, уменьшить риски, а заодно и расходы на локализацию звука. И неважно, будете вы заказывать эти услуги у нас в Alconost или в другой компании — знание всех подводных камней вам точно пригодится.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «переводчики»

Как создать переводчик для низкоресурсного языка: практическое руководство

Введение: три кита обучения переводчиков

1. Корпус параллельных текстов

Как оценить качество машинного перевода

Нейросети-переводчики: Когда можно доверять, а когда — нет? 6 примеров дорогих ошибок ИИ

Вычисление функции потерь и градиентов в AI переводчике

Моя маленькая помощь малым языкам

I. Извлекаем параллельный корпус

Как я заработал 1 000 000 $ без опыта и связей, а потом потратил их, чтобы сделать свой переводчик

Академия Гипербатона — для технических писателей, редакторов и переводчиков

DeepL объявила о прорыве в переводе текста при помощи ИИ

«Чемодан из крокодиловой кожи» или «мешок с аллигатором»: сравнение подключенных к Lokalise онлайн-переводчиков

Google Machine Translate/Google Neural Translate

9 советов по локализации аудио