Сегодня в App Store вышло обновленное приложение Яндекс.Перевода для iOS. Теперь в нем есть возможность полнотекстового перевода в офлайн-режиме. Машинный перевод прошел путь от мейнфреймов, занимавших целые комнаты и этажи, до мобильных устройств, помещающихся в карман. Сегодня полнотекстовый статистический машинный перевод, требовавший ранее огромных ресурсов, стал доступен любому пользователю мобильного устройства – даже без подключения к сети. Люди давно мечтают о «вавилонской рыбке» – универсальном компактном переводчике, который всегда можно взять с собой. И, кажется, мечта эта постепенно начинает сбываться. Мы решили, воспользовавшись подходящим случаем, подготовить небольшой экскурс в историю машинного перевода и рассказать о том, как развивалась эта интереснейшая область на стыке лингвистики, математики и информатики.
«Это все делает машина», «Электронный мозг переводит с русского на английский», «Робот-билингва» – такие газетные заголовки увидели читатели ликующей прессы 8 января 1954 года. А днем ранее, 7 января, научный компьютер IBM 701 принял участие в знаменитом Джорджтаунском эксперименте, переведя около шестидесяти русских фраз на английский. «Семьсот-первый» использовал словарь из 250 слов и шесть синтаксических правил. И, конечно же, очень тщательно подобранный набор предложений, на которых проводилось тестирование. Вышло настолько убедительно, что восторженные журналисты со ссылками на ученых заявляли о том, что через несколько лет машинный перевод почти полностью заменит классический «ручной».
Джорджтаунский эксперимент был одним из первых шагов в развитии машинного перевода (и одним из первых применений ЭВМ для работы с естественным языком). Тогда многие проблемы из тех, с которыми предстояло столкнуться в будущем, были еще не так очевидны. Однако главной проблемой, по иронии, стало то, что как раз таки было очевидно с самого начала – компьютеру труднее всего давалась работа с многозначными словами. На более-менее естественных предложениях система практически полностью переставала справляться с задачей. Сложная многокомпонентная структура таких систем также создавала проблемы: например, синтаксический анализ не всегда срабатывал верно, и составное слово guitar pick (медиатор) могло быть переведено как «выбор гитары». Также плохо переводились многозначные слова, смысл которых зависел от контекста. Например, текст «Little John was looking for his toy box. Finally he found it. The box was in the pen» вызывал (и продолжает вызывать) очень много сложностей – как словосочетание «toy box», переводившееся как «игрушечная коробка», а не «коробка для игрушек», так и «in the pen», которое переводилось как «в ручке», а не «в детском манеже». Сложности были огромными, и в итоге за 12 лет сдвинуться с мертвой точки почти не получилось. В 1966 году разгромный доклад ALPAC (Automatic Language Processing Advisory Committee) положил конец исследованиям в области машинного перевода на следующие десять лет.
Читать полностью »