Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL

2024-10-23 в 10:53, admin, рубрики: deepl, Google Translate, машинный перевод, онлайн-переводчик

Многие компании или их сотрудники хоть раз использовали для своих задач онлайн-переводчики. Это быстро, удобно, но результат не всегда точный. Однако такой перевод иногда имеет неприятные последствия: его могут неправильно понять клиенты или бизнес-партнеры, что может испортить репутацию.

В прошлой публикации мы с командой делали обзор на лучшие программы локализации в 2024 году, вы можете прочитать его по этой ссылке. Сегодня же мы рассмотрим популярные движки машинного перевода (МП): Яндекс переводчик, Google Translate и DeepL. Оценим возможности каждого, сравним плюсы и минусы, для каких задач подходит тот или иной переводчик и расскажем, почему лучше не переводить важные документы онлайн. В данной статье будут упоминаться сторонние исследования и тестирования переводчиков с указанными на них ссылками. Приятного чтения!

1) Технологии перевода. Как они работают?
2) Критерии для оценки онлайн-переводчиков
3)Общая информация о переводчиках:
- Google Translate
- Яндекс.Переводчик
- DeepL
4) Таблица
5) Тестирование движков и частые ошибки
6) Выводы

1. Технологии машинного перевода. Как они работают?

С каждым годом технологии перевода развиваются всё больше, а вместе с этим и сокращается языковой барьер между людьми, говорящими на разных языках. Современные системы МП основаны на нейронных сетях и технологиях искусственного интеллекта (AI), которые позволяют улучшить качество перевода. Основная задача таких систем — не просто заменять слова на эквиваленты на другом языке, а учитывать грамматику, контекст и даже стиль текста. Но так было не всегда! Давайте разберемся, каким раньше был машинный перевод.

В 1947 году началась история МП, когда математик Уоррен Уивер впервые предложил использовать ЭВМ для перевода. Последующие несколько лет многие ученые пытались осуществить эту идею, и в 1954 году это получилось. IBM совместно с Джорджтаунским университетом провели публичную презентацию своего эксперимента.

В то время технологии только начинали своё развитие и существовал всего один метод — метод прямого перевода. В нём было очень много минусов и погрешностей. Но и это стало большим прорывом.

С тех пор возникли и другие подходы, помогающие переводить тексты быстро и максимально приближенно к носителю. Рассмотрим некоторые из них:

RBMT (аналитический). Или машинный перевод на основе правил. Одна из самых первых подобных технологий. При таком подходе собираются максимально полные лингвистические базы данных, и чем больше база, тем вернее и правильнее получается перевод. В такие базы входят словари, справочники, описания грамматик, информация о закономерности языка. Не менее важна информация и об алгоритмах перевода. Все эти данные в совокупности влияют на качество итогового варианта — переведенного текста.
За короткое время система успевает провести морфологический, синтаксический анализы и синтез предложений. Один из главных минусов RBMT — игнорирование контекста т.к система четко следует правилам, прописанным в ней.
CBMT. Перевод на основе корпусов текста. Это следующая технология после RBMT, возникла в 1980-х годах. При этом методе перевода используют массив параллельных текстов (корпусов) на двух языках. В отличие от метода, описанного выше, CBMT делает упор на сбор и использование реальных переводов. Система находит соответствия в разных корпусах и на их основе переводит практически любые материалы. К минусам такой модели можно отнести качество перевода. Чем меньше корпус — тем хуже итоговый вариант из-за малого объёма данных (слишком малая выборка). Также если сами тексты в таком корпусе содержат ошибки, то система может их перенять, воспринимая за образец.
EBMT. Или машинный перевод на примерах. Стал применяться с 1984 года. В отличии от перевода на основе корпусов текста, о котором говорилось выше, EBMT использует базу данных из предложений или фрагментов текстов, которые уже переведены. После того, как система получает текст для перевода, она делит его на несколько сегментов (предложений) и ищет похожие в своей базе данных. Далее, сегменты сравниваются с теми что находятся в базе и происходит перевод. Получая новый текст, EBMT запоминает его, образуя память перевода и использует этот запрос для того, чтобы еще больше дополнить свою базу. Минусы такого перевода практически такие же, как и у CBMT — если в памяти системы недостаточно текста, то качество перевода страдает. Также могут быть ограничения для длинных предложений со сложной грамматикой.
SMT. Статистический машинный перевод. У SMT есть несколько подвидов, но в нашей публикации мы не будем в них углубляться, а поговорим лишь об основах. Именно Уоррен Уивер, которого мы упоминали в самом начале, стал основоположником этой идеи. Однако в те годы мощности компьютерной техники не хватало для того, чтобы реализовать эту задумку. Всё стало возможно, начиная с 1990-х годов. Модель SMT основана на теории вероятности, а именно на теореме Байеса. Её задача — найти наиболее вероятный перевод предложения с одного языка на другой. Чем чаще встречается вариант перевода, тем больше шансов, что он правильный. Минус такого подхода, как и у других систем, в большой зависимости от объема находящихся в базе текстов, а также в сложности учитывания контекста. До 2016 года SMT использовал даже Google Translate. Если вас интересует эта тема на более глубоком уровне, то советуем прочитать книгу «Статистический машинный перевод» Филиппа Кена.
NBMT. Машинный перевод на основе нейронных сетей. Как работает этот механизм? Нейронные сети имитируют поведение человеческого мозга при обработке данных. Поэтому у NBMT появилось главное преимущество, опережающие другие системы - возможность учитывать контекст и грамматику на более глубоком уровне. В отличии от SMT, использующего вероятности, нейронные сети NBMT анализируют целые предложения и тексты в контексте, что позволяет создавать более точные и естественные переводы.
HMT. Гибридный машинный перевод. Этот метод может объединять в себе сразу несколько подходов, описанных выше: RBMT, CBMT, EBMT, SMT и NBMT. В 2010-х годах Systran стала одной из первых компаний, внедривших гибридный МП, сочетающий в себе SMT и RBMT. Особо важным событием в гибридном машинном переводе стало появление нейронных сетей, что помогло значительно улучшить качество итоговых переводов.

2. Критерии для сравнения онлайн-переводчиков

Каждый из переводчиков (Яндекс переводчик, Google Translate, DeepL) мы решили сравнивать по нескольким критериям, которые сведем в одну таблицу. Так вы сможете оценить все характеристики и выбрать, на каком варианте остановить свой выбор.

Что будет в таблице:

Поддержка языков — посмотрим, сколько языков для перевода предлагает каждый движок.
Поддержка редких языков — узнаем, какие переводчики поддерживают редкие языки.
Стоимость платных функций — напишем стоимость всех тарифов у каждого из представленных переводчиков.
Возможности интеграции — рассмотрим, поддерживает ли движок интеграции с программными системами и платформами.

3. Общая информация о переводчиках

Яндекс переводчик

Не многие знают, но в 2011 году, когда сервис только начал свою работу, для перевода предоставлялись только три языка: русский, английский и украинский. Сейчас же этот список по официальным данным состоит из 96 языков, включая не слишком популярные: гаитянский креольский (Гаити), галисийский (Галисия), малагасийский (Мадагаскар). Кроме того, разработчики решили добавить и необычные языки. Так, с 2016 года у всех есть возможность перевода на синдарин — эльфийский язык, придуманный Дж Р.Р Толкином. Годом позже Яндекс научился переводить и на язык эмодзи.

Например так он видит заголовок нашей публикации:

Что касается технологий, используемых Яндексом, то это гибридный перевод (HMT), который сочетает в себе статистический машинный перевод (SMT) и перевод на основе нейронных сетей (NBMT) помощью YandexGPT. Для этого был разработан алгоритм, основанный на методе обучения CatBoost. Он позволяет оценивать несколько переводов и показывает тот, который, по его мнению, подходит лучше всего.

Google Translate

Согласно последним данным, на 2024 год Google Translate предлагает пользователям перевод на 244 языка. Особенно много удивлений вызвала новость в июне этого года, когда в Google объявили о том, что планируют сделать самое масштабное обновление за всю историю — 110 новых языков, большая часть из которых африканские.

С октября 2007 компания использовала статистический машинный перевод (SMT), а в 2016 году разработали собственную модель нейронного машинного перевода, названную GNMT. Она включает в себя перевод на основе примеров (EBMT), о котором мы говорили ранее. Стоит помнить, что данная система не поддерживает перевод на все языки.

На изображении указаны языки с поддерживаемым переводом EBMT. Результат от использования этой технологии получается качественнее:

DeepL

DeepL часто сравнивают с Google Translate, Яндекс.Переводчиком. С момента своего запуска в 2017 году он получил признание за высокое качество переводов и быстро стал популярным среди профессионалов, работающих с текстами. Для перевода использует МП на основе нейронных сетей. Его архитектура обучена на огромных объемах данных, что позволяет лучше понимать контекст и смыслы текста, чем традиционные статистические или фразовые модели машинного перевода.

Сейчас в DeepL представлено около 30 языков, гораздо меньше по сравнению с другими сервисами, однако, это не помешало обрести ему популярность.

Давайте перейдем к сравнению основных характеристик переводчиков.

3.Таблица

Критерий	DeepL	Яндекс.Переводчик	Google Translate
Поддержка языков	30+	90+	140+
Интеграции	Да, 700+ интеграций	Да, есть интеграции по API	Да, более 290 готовых интеграций
Поддержка редких языков	нет	да	да
Стоимость	Платно для компаний, тарифы начинаются от 7,49 €	Платно для интеграций в приложения и веб-сервисы.	Бесплатно

Как вы видите, характеристики DeepL делают его прекрасно подходящим для корпоративной работы. Более 700+ интеграций позволяют использовать его не только в CAT-системах. Кроме того, каждый может подобрать для себя необходимый тариф. Однако, в нём нет поддержки более редких языков. Поэтому, если вам не нужно множество платных функций и важна работа с более редкими языками, лучше рассмотреть Я.Переводчик или Google Translate.

4. Тестирование движков и частые ошибки

В июне компания Intento опубликовала полный отчет о состоянии машинного перевода в 2024 году. Посмотреть его подробнее и скачать можно на официальном сайте. Всего принимало участие 52 разных МП и LLMs, в том числе и Google Translate, Яндекс Переводчик и Deepl.

Исследование показало, что модели GPT-4o и DeepL превосходят другие решения в сфере машинного перевода. В рамках анализа были протестированы 11 языковых пар в 9 различных доменах, таких как финансы, юридический и др. Google занимает 3 место, а вот Яндекс сильно отстал от своих конкурентов, заняв только 14 место:

сравнение различных систем машинного перевода по количеству случаев, когда они показали наилучший результат для определённых языковых пар и доменов

Основные выводы исследования:

80% самых частых ошибок составляет неправильный перевод.
Чат GPT и DeepL показали самые лучшие результаты среди других языковых моделей.
Уменьшилось количество ошибок, связанных со сложными конструкциями, которые машинные системы не всегда могут корректно обработать.
Большая часть ошибок перевода связана с изменением смысла и неверным использованием слов или фраз.

Мы также решили дополнить публикацию нашим опытом работы с этими переводчиками. Специально для материала собрали частые ошибки, встречающиеся в процессе перевода и продемонстрировали, как ведет себя каждый переводчик в разных случаях.

В ходе использования машинного перевода мы выявили несколько типов ошибок:

Ошибки на семантическом уровне: неверное словоупотребление/ искажение смысла.
На синтаксическом уровне: неестественные, ненативные конструкции.
Ошибки на грамматическом уровне: нарушение согласования.

Первый вид ошибок — на семантическом уровне, встречается чаще всего. Они связаны с самой главной проблемой любого МП: невозможностью улавливать контекст и органично подставлять нужные значения слов. К счастью, они не являются критическими и их легко выявлять в процессе визуального сканирования. Например:

Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL - 5

Верный перевод фразы: в кулачок патрона попала стружка. DeepL тут справился хуже всего с распознаванием подходящего перевода сразу для нескольких слов. В отличии от Google Translate и Яндекс Переводчика, он не смог перевести слова «патрон» и «стружка». С переводом словосочетания «попала стружка» и вовсе никто не справился.

И последний пример этого типа ошибок — синтаксическая и лексическая калька:

Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL - 6

К сожалению, ни у одного МП не получилось правильно перевести предложение. Смысл исходного текста: модный дом выпустил коллекцию одежды и аксессуаров (группу) для летнего отдыха. Была проигнорирована логика построения предложений, скопирована с оригинала.

Второй вид ошибок — на синтаксическом уровне. Встречается реже, чем на семантическом. Они гораздо опаснее предыдущих из-за сложного обнаружения. С виду текст может показаться правильным, однако содержит неочевидные неточности.

Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL - 7

DeepL совершенно не справился с этой задачей и не учел, что в русском языке порядок слов бывает как прямым, так и обратным. Из-за этого был предложен вариант: привести паспорт в соответствие с какими-то требованиями.

Третий вид ошибок — на грамматическом уровне, в структуре языковой единицы. В данном случае нарушение согласования:

Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL - 8

Как мы видим, практически каждый из протестированных переводчиков испытывает проблемы с одинаковыми видами ошибок. Больше всего с неправильным переводом, что подтверждает не только наш личный опыт, но и аналитика Intento, о которой мы рассказывали выше.

По частоте возникновения ошибки выглядят следующим образом:

Ошибки перевода — более 80%.
Ошибки при переводе идиом.
Пропуски фраз.
Остальное.

5. Выводы

Согласно исследованиям, с каждым годом процент ошибок онлайн-переводчиков становится всё меньше, а появление нейронных сетей позволяет системе быстрее обучаться и минимизировать некоторые виды неточностей. Однако механизм до сих пор не совершенен и не способен перевести так же хорошо, как профессионалы со стажем.

Если ваша цель — переводить простые каждодневные темы, бытовые и ненагруженные диалоги, то онлайн-инструменты прекрасно с этим справятся, допуская минимум ошибок и не ставя вас в неловкое положение из-за них. Для всего этого советуем вам использовать любую из систем в нашем сегодняшнем обзоре. Исходя из нашего опыта, лучше всех себя показывает DeepL.

Еще несколько случаев, когда вам может подойти машинный перевод:

Общие темы. Простая структура предложений, без сложных речевых оборотов.
Медицина/фарма. Подойдут несложные документы с однотипной структурой и несложной терминологией. Для серьезных инструкций, от правильного перевода которых зависит жизнь человека — только с помощью переводчика.
Небольшие мануалы/инструкции, в которых описание действий. Без узкоспециализированной терминологии.
Некоторые учебные материалы.

Но если вы хотите переводить что-то серьезнее, то лучше обратиться к профессионалам. Особенно плохо МП справляется с маркетинговыми материалами. Происходит это из-за того, что иногда хороший текст нарушает правила, привычные для обученной машины. Как итог — она неправильно его обрабатывает и выдает результат с ошибками.

Полный список материалов, которые не следует переводить с помощью МП самостоятельно:

Технические тексты со сложной терминологией.
Узкоспециализированные тексты: научные статьи, аналитические исследования, правоохранительные стандарты и требования, инженерные спецификации, патентная документация и тд.
Литературные тексты со сложными фигурами речи.
Документы, в которых содержится закрытая информация.

Если вам хочется экономить на услугах переводчика, то выход тоже есть. Многие агентства предоставляют услугу PEMT, включающую в себя машинный перевод + постредактирование. Редактор поможет исключить любые неточности и сделать качество вашего текста в разы лучше. Кроме того, существует услуга пруфридинга — вычитка текста носителем на предмет ошибок.

Спрос на машинный перевод и редактуру увеличивается (в нашем агентстве количество заказов услуги составляет 60% от всех), а вот запрос только лишь на МП совсем не востребован. Это говорит о том, что качество такой работы остается не на высоком уровне и текстам все равно необходима вычитка и последующая редактура.

Если вам необходимо перевести важные документы, особенно те, в которых содержится закрытая информация, лучше обращаться в агентства перевода. Каждый раз, когда вы загружаете текст в онлайн-переводчик, он сохраняет все данные, которые через него прогоняются. Это необходимо системе для того, чтобы учиться на ваших текстах и совершенствоваться. Иногда такие тексты «достают» из системы переводчики, чтобы проанализировать и свести количество ошибок к минимуму. В таких случаях нет гарантии, что информация «не утечет» к конкурентам и ей не воспользуются третьи лица. По этой причине лучше доверить перевод профессионалам. О конфиденциальности можно не волноваться — переводчики используют специальные CAT-платформы, далее которых информация не уходит.

Возможно, через несколько лет МП приблизится к уровню носителей языка. А пока перевод важных текстов стоит доверять только профессионалам.

А каким переводчиком пользуетесь вы?

Автор: Alexander_Khokhryakov

Источник

Информация

Комментарии

Рекомендуем

Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL

Оглавление

1. Технологии машинного перевода. Как они работают?

2. Критерии для сравнения онлайн-переводчиков

3. Общая информация о переводчиках

3.Таблица

4. Тестирование движков и частые ошибки

5. Выводы

Информация

Комментарии

Рекомендуем

Виды и обзор движков машинного перевода: Яндекс переводчик, Google Translate и DeepL

Оглавление

1. Технологии машинного перевода. Как они работают?

2. Критерии для сравнения онлайн-переводчиков

3. Общая информация о переводчиках

3.Таблица

4. Тестирование движков и частые ошибки

5. Выводы

Рекомендованный контент