В 1959 году один из ведущих лингвистов и математиков того времени, Йегошуа Бар-Хиллел, опубликовал знаменитую статью: «Демонстрация неосуществимости полностью автоматического высококачественного машинного перевода»[1]. С тех пор привидение мальчика Джонни, оставившего коробку с игрушками в манеже, как назгул следует по пятам мечтателей, не жалеющих денег инвесторов на поиски вавилонской рыбки. Прошло почти 60 лет — целая жизнь (а для компьютерных технологий — как минимум четыре), но Джонни все еще тут: дышит в затылок нейросетям глубинного бурения, не дает расслабиться hadoop-кластерам.
В 2018-м верный перевод текста «John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy» столь же недоступен для электронных мозгов, как и в 1959-м. Тезис Бара-Хиллела состоял в том, что ни одна полностью автоматическая система машинного перевода никогда не сможет верно определить значение слова pen (детский манеж) в данном контексте, хотя для человека оно совершенно очевидно. Как показало наше мини-исследование, несмотря на большие успехи в области развития совокупного искусственного интеллекта человечества, достигнутые в последнюю пятилетку, своей актуальности он не потерял.
Google Translate
Джон искал свою игрушечную коробку. Наконец он нашел это. Коробка была в ручке. Джон был очень доволен.
Microsoft Translator
Джон искал свою коробку с игрушками. Наконец, он нашел его. Коробка была в ручке. Джон был очень счастлив.
Promt онлайн
Джон искал свою игрушечную коробку. Наконец он нашего его. Коробка была в ручке. Джон был очень счастлив.
Amazon Translate
Джон искал свою коробку для игрушек. Он, в-то, его нашли. Коробка была в ручке. Джон был очень дожен.
Яндекс.Переводчик
Джон искал свою игрушечную коробку. В конце концов он нашел его. Коробка была в ручке. Джон был очень счастлив.
Babylon Translation
Иоанна была его Игрушкой. Наконец, он нашел его. Поле было в перо. Джон был очень рад.
Как видно, пять из шести протестированных систем автоматического перевода полностью согласны, что коробка была в ручке. Старенький Babylon оказался креативнее других: сообщив, что Иоанна была его игрушкой, видимо, заподозрил подвох, и предположил, что «поле было в перо». Amazon Translate – сервис нейронного машинного перевода, обеспечивающий быстрый, высококачественный и доступный по стоимости перевод с одного языка на другой (цитата с веб-сайта производителя) – порадовал неологизмом «дожен» (happy) и фразой «он, в-то, его нашли». Эпичное «он нашел его» на фоне этих достижений смотрится даже как-то буднично.
Но есть и плюсы:
поскольку сложно предположить, что разработчики не знали о существовании данного челленджа, стоит отметить их абсолютную профессиональную честность. Никто не захардкодил!
общий смысл происходящего почти всегда может быть восстановлен головным мозгом среднего русскоговорящего homo sapiens-а даже при наличии «он, в-то, его нашли» и загадочного «дожен». Странная история с Иоанной и тем, кто внезапно нашел Джона — скорее исключение, подтверждающее правило.
Поэтому наши выводы не будут сильно отличаться от выводов профессора Бара-Хиллела, а рекомендации не будут сильно отличаться от рекомендаций, сформулированных в 1966 г. в докладе «Язык и машины» консультативного комитета по автоматической обработке естественных языков (ALPAC) при Национальной академии наук США [2]. В нем советовали не тратить деньги налогоплательщиков на нереалистичные проекты, но при этом подчеркивали потенциальную полезность технологий компьютерного перевода как источника вспомогательной справочной информации для человека.
Никогда-никогда-никогда не полагайтесь полностью на машинный перевод. По-максимуму используйте возможности современных электронных систем для поиска вариантов перевода в контексте. На данный момент доступно множество бесплатных онлайн-словарей на разных языках, контекстный поиск примеров употребления — только представьте, как вы делали бы это без компьютера в библиотеке!
Максимально используйте возможности, предоставляемые электронными тренажерами: на аудирование, формирование словарного запаса, закрепление понимания различных грамматических конструкций.
И, главное, не испытывайте иллюзий. Как и раньше, чтобы научиться понимать письменный текст или речь на другом языке, вам придется приложить немало усилий. Ваше преимущество в том, что в 2018-м году у вас множество глупых, но старательных и быстрых электронных помощников.
Всегда ваш, Puzzle English
[1] “А demonstration of the non-feasibility of fully-automatic high-quality machine translation”; Appendix IV of “Report on the state of machine translation in the United States and Great Britain.’ Hebrew University, Jerusalem, Israel, February 1959; 6pp.
[2] “Language and machines: computers in translation and linguistics”. A report by the Automatic Language Processing Advisory Committee, Division of Behavioral Sciences, National Academy of Sciences, National Research Council. (Washington, D.C.: National Academy of Sciences – National Research Council, 1966)