Привет! Мы с ребятами из Smartcat решили сойти с ума и попробовать перевести на английский все посты, которые были опубликованы здесь до 19 июля 2017 года, а потом оценить, сколько это будет стоить в среднем, если будет переводить Человек VS Машина. Под катом вы узнаете, что у нас из этого получилось.
Без лишних вводных передаю слово scalywhale из Smartcat.
8 729 613 слов
Или 62 397 253 символов — столько текста всего на сайте habrahabr.ru.
Самая распространённая практика среди наших клиентов (в основном это переводческие компании): сначала текст переводят, затем его проверяет редактор, а потом ещё правит корректор. Давайте оставим только этап перевода, так как скорость доставки контента прямо пропорциональна его ценности, да и на Хабре вряд ли все тексты проходят столько итераций.
2500 слов в день — с такой скоростью может в среднем работать переводчик, а значит без выходных и отпуска он управился бы с переводом всего Хабра за 9 лет и 6 месяцев. За это время переводимые тексты потеряют актуальность, плюс к ним добавятся новые, а переводчик, скорее всего, сойдёт с ума.
Переводит Человек
Опытный переводчик-носитель английского берёт в среднем $0,08 (₽4,80*) за слово, получается $698 369 (₽41 874 973,45). Без учёта расходов на управление процессом.
Попробуем побыстрее — пусть за проект возьмутся сразу несколько переводчиков, в Smartcat над одним проектом и даже документом можно работать всем вместе одновременно. Соберём команду из 50 человек, их общая производительность составит 125 тыс. слов в день. Значит, сам перевод займет 70 дней, а стоимость останется прежней. Прибавим сюда две недели на поиск подходящих нам кандидатов и тестирование, причём это самый минимум.
SMT vs NMT
Так, давайте попробуем разделаться с задачей ещё быстрее и использовать машинный перевод. Технология, которая, по мнению большинства пользователей интернета, нужна только что-нибудь быстренько и дословно перевести, за последнее время стала переводить так хорошо, что индустрия переводов всерьез обратила на нее внимание. Стоит только вспомнить новости в конце 2016 года, когда сначала появилась новость о том, что переводчик от Microsoft теперь работает с помощью нейронной сети, а потом вышла статья от The New York Times, в которой они рассказали о том, что Google Translate научился переводить тексты почти как человек.
Раньше движки машинного перевода использовали алгоритмы на основе правил и статистических моделей, полученных из больших объемов двуязычных текстов, поэтому она называется Statistical Machine Translation (SMT). Новая технология использует искусственную нейронную сеть, которая самостоятельно изучает глубинные связи в языках на уровне целых предложений, а не отдельных фраз, и на их основе генерирует более точные и хорошо читаемые переводы.
Переводит Машина
В общем, в дело вступает машинный перевод. Для наглядности возьмём эту статью с Хабра объёмом 842 слова. Живой переводчик управится с ней примерно за три часа и попросит $67,4 (₽4041,38). Давайте облегчим ему работу и одновременно сэкономим. Перевод доверим машине, а редактуру — человеку.
Такой метод перевода называется постредактированием и требует особых навыков. Постредактор должен не только владеть языком, но и понимать, как работает машинный перевод.
Итак, подключаем машинный перевод и ищем постредактора через наш сайт Smartcat. Заливаем вордовский документ с текстом статьи и ставим галочку предварительного перевода через Microsoft Translator. На сайте можно не только переводить, но и искать фрилансеров-переводчиков со всего мира, в том числе постредакторов с родным английским.
Услуги постредакторов стоят дешевле, чем услуги переводчиков. Мы нашли девушку-фрилансера, которая просит $0,022 (₽1,32) за слово. В сумме перевод текста обходится в $18,5 (₽1109,28). По словам самой постредакторки, она справилась с задачей быстрее, чем если бы переводила сама — за 2 часа. В качестве движка машинного перевода мы использовали платную версию Microsoft Translator, которая должна переводить лучше. Пересчитаем цифры по тарифу S1:
В итоге перевод по такой схеме выходит на 75% выгоднее и на треть быстрее. Получается, если использовать машинный перевод и нанять 50 постредакторов, то весь Хабр можно перевести за 48 дней за $192 675 (₽11 553 004,94).
Мнения
Так ли однозначно эффективно использование машинного перевода в профессиональной сфере? Мы собрали для вас несколько мнений от наших клиентов.
Алексей Дягтерев, руководитель платформы электронных торгов B2B-Center, говорит о том, что они стремятся привлечь на площадку иностранные компании. Раньше на английский переводились вручную лишь тексты самых значимых процедур, около 10% от всех лотов. Теперь благодаря машинному переводу международной аудитории доступны заголовки и описания всех 5000 лотов, публикуемых на площадке ежедневно. Качество перевода приемлемое — его достаточно, чтобы узнать информацию и затем уточнить подробности.
«Благодаря машинному переводу и интеграции с системой Smartcat рутинные операции выполняются в автоматизированном режиме, а эффективность использования квалифицированных сотрудников значительно повысилась».
Фёдор Безруков, руководитель отдела одной из крупнейших российских переводческих компаний Logrus IT, утверждает, что толк от новой технологии есть, но не всё так просто.
«Недавно мы получили срочный заказ на перевод технического текста объёмом 900 слов с русского на английский. Подключили сразу три движка машинного перевода — статистический (SMT) и нейронный (NMT) от Microsoft и статистический от Google. А для проверки стилистики и грамматики — ещё и плагин Grammarly. Майкрософтовский NMT и гугловский SMT выдавали наиболее удачные переводы. Перевод был готов за 1 час 40 минут, процесс контролировал переводчик. Получается, мы добились производительности ≈500 слов в час».
По словам Фёдора, разница между статистическим и нейронным машинным переводом заключается в том, что нейронные переводчики выдают гораздо более связный текст, но таят опасность: результат может оказаться хорошо читаемой бессмыслицей.
«На данном этапе мы предпочитаем использовать выдачу нескольких движков, чтобы комбинировать преимущества каждого и нивелировать недостатки. Когда NMT-движки можно будет тренировать и обучать терминологии на лету, процесс выйдет на качественно новый уровень».
Недавно к нам обратились коллеги из Weebly, которые решили локализовать свой продукт на 13 языков. Нам сразу стало понятно, что проект не только масштабный, но и сложный — текстовый контент сайта распределён по системе и хранится в разных форматах, плюс он постоянно меняется и обновляется. Нашлось элегантное решение: благодаря интеграции сайта Weebly через API тексты без лишних усилий обрабатывались, переводились и передавались обратно на сайт. Чтобы ускорить работу, над переводом на каждый из языков работала команда из 5—10 человек, а это добрая сотня переводчиков. Мы активно применяли машинный перевод — чтобы перевод шёл быстрее и для проверки текстов на разных языках на макете.
«Команда Smartcat поддерживала нас на каждом этапе. Всякий раз, когда возникали вопросы или вдруг появлялись новые задачи, мы могли рассчитывать на то, что ребята помогут или поделятся опытом. Благодаря Smartcat мы смогли качественно и в сжатые сроки локализовать сайт Weebly на 13 языков, эффективно управляя процессом на каждом этапе: начиная с поиска переводчиков и распределения задач и заканчивая управлением данными и интеграцией в проект автоматизированных решений». Николас Олуча Санчес, менеджер по локализации в Weebly.
«Проект Weebly оказался непростым, а значит интересным. В Smartcat мы развиваем переводческое сообщество и создаем умные технологии, давая возможность компаниям с легкостью масштабировать бизнес. С нами вы можете легко найти исполнителя или собрать целую команду, комбинировать движки машинного перевода, подключать глоссарии и память переводов, а если работы много — всё сделаем за вас. Мы любим сложные задачи, если у вас такие есть — пишите!» Сергей Андреев, менеджер продукта в Smartcat
*Во всей статья конвертация $ в ₽ по курсу ЦБ РФ на 10 августа 2017 года. Данные с сайта.
Об авторе
Павел Доронин — любит локализацию, переводы и всё, что с этим связано, и работает над созданием лучших инструментов для этого. А ещё любит электронную музыку и синтезаторы (после работы). #i18n #l10n #xl8n
Автор: Schvepsss