Машинный перевод нейросетками: несколько приёмов чтобы улучшить качество

Меня немного удивила статья уважаемых специалистов по локализации ^[1], сравнивающая различные движки перевода. По-моему, и гугловский, и яндексовский переводчики, и даже DeepL уже полгода как списаны в утиль и представляют исключительно исторический интерес.

Перевожу в последнее время только нейросетями и часто даже при наивном подходе получаю нормальные результаты. Наивный подход - это зайти в ChatGPT и написать "Please translate `大型アプデ！セルフレジの導入で大富豪となったスーパーマーケット経営ゲーム` from Japanese to English".

Лучше, конечно, будет обогатить запрос и дать нейросетке возможность уточнить область поиска слов. Контекст скармливаю следующим путем:

Перечисляю термины и имена собственные, перевод которых мне нужен именно в определенном виде. Например говорю, что pitch accent надо переводить как "питч акцент", а не "музыкальное ударение".
Если надо перевести абзац литературного текста - скармливаю еще пяток абзацев, которые были рядом, заодно прибавляя преамубулу в духе "о чем произведение вообще", что "стиль автора напоминает нашего Чехова" и что "Танака в этом произведении вырос в неблагополучной семье и говорит как гопник".
Если надо перевести какие-то таблицы или менюшки в какой-то программе или еще чего-то спископодобное - рассказываю, на что похоже приложение и какие у него есть аналоги.
Если для программки есть английский и испанский ручной перевод - можно скормить оба, точность итогового русского возрастет.
Еще можно привести кусок хорошо написанной статьи, в которой автор описывает какие-то действия с этим приложением.

Порой проявляется интересный эффект. Пишешь запрос на английском и просишь нагенерировать чего-то на японском. Читаешь - и понимаешь, что сгенерированный текст имеет какой-то... английский акцент, что ли. Как будто учитель японского говорит с учениками, а не носитель с носителем. Учебниковский японский получается. Проблема часто решается тем, что запросы тоже делаются на целевом языке. Причем можно и на корявом японском спросить (например с помощью DeepL'a полученным) - эффект все равно будет.

Нейроговорилки неплохо умеют стилизовать речь и играть в ролевые игры. Поэтому иногда вместо сказанных сухим тоном инструкций вроде "при ответе используй лексику шестилетнего ребенка" эффективнее представиться шестилетним ребенком, сказать электронному болвану, что он тоже шестилетний и переформулировать запрос так, как сформулировал бы его шестилетка.

Стоит пробовать разные движки. Например, бубнящий себе под нос o1-preview от OpenAI не всегда справляется лучше, чем их же 4o. Возможно, потому что бубнит по-английски.

Короче говоря, было бы интересно сравнить работу не этих устаревших движков, а нескольких нейронных сеток. Начать можно с беглого поиска в Google Scholar ^[2].

Автор: ganqqwerty

Источник ^[3]

Сайт-источник PVSM.RU: https://www.pvsm.ru

Путь до страницы источника: https://www.pvsm.ru/perevody/400370

Ссылки в тексте:

[1] статья уважаемых специалистов по локализации: https://habr.com/ru/articles/852810/

[2] беглого поиска в Google Scholar: https://scholar.google.ch/scholar?as_ylo=2024&q=comparison+of+automatic+translation+using+neural+networks&hl=en&as_sdt=0,5&as_vis=1

[3] Источник: https://habr.com/ru/articles/852840/?utm_campaign=852840&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.