Рубрика «машинный перевод» - 3

или Перерастает ли количество в качество

Статья по мотивам выступления на конференции РИФ+КИБ 2017.

Neural Machine Translation: почему только сейчас?

Про нейронные сети говорят уже давно, и, казалось бы, что одна из классических задач искусственного интеллекта – машинный перевод – просто напрашивается на то, чтобы решаться на базе этой технологии.

Тем не менее, вот динамика популярности в поиске запросов про нейронные сети вообще и про нейронный машинный перевод в частности:

image

Прекрасно видно, что на радарах вплоть до недавнего времени нет ничего про нейронный машинный перевод – и вот в конце 2016 года свои новые технологии и системы машинного перевода, построенные на базе нейронных сетей, продемонстрировали сразу несколько компаний, среди которых Google, Microsoft и SYSTRAN. Они появились почти одновременно, с разницей в несколько недель или даже дней. Почему так?

Для того, чтобы ответить на этот вопрос, необходимо понять, что такое машинный перевод на базе нейронных сетей и в чем его ключевое отличие от классических статистических систем или аналитических систем, которые используются сегодня для машинного перевода.

Читать полностью »

Вокруг нас — огромные объемы текстовых данных в электронном виде, в них — человеческие знания, эмоции и опыт. А еще — спам, который выдает себя за полезную информацию, и надо уметь отделять одно от другого. Люди хотят общаться с теми, кто не знает их родной язык. А еще — управлять своим мобильником/телевизором/умным домом голосом. Все это обеспечивает востребованность и бурное развитие методов Natural Language Processing (NLP).

2 июня на платформе Stepik стартует мой онлайн-курс «Введение в обработку естественного языка». Это совершенно новый для меня формат, а еще это первый онлайн-курс по прикладной лингвистике, который фокусируется на обработке русского языка, имеющихся для этого данных и ресурсах. 10 лекций курса посвящены базовыми лингвистическими инструментами и популярным приложениям; важная составляющая курса — пять практических заданий.
Читать полностью »

Курсы Computer Science клуба, весна 2017, часть вторая - 1

Продолжаем выкладывать видеозаписи курсов Computer Science клуба при ПОМИ РАН. Первая часть здесь. В этой подборке четыре курса: «Коммуникационная сложность», «Экспандеры и их применения», «Машинный перевод» и «Избранные главы теории потоков».
Читать полностью »

image
Как переводить документ в Word и не париться с форматированиемКак не переводить одно и то же? Как сохранять единообразие? Как не покупать дорогие программы? Как работать эффективно и быстро?

Если вы знакомы с Trados, MemoQ или CrowdIn, переходите сразу к инструкции по установке. Если же это новые для вас слова — добро пожаловать в прекрасный мир Computer Aided Translation. Читать полностью »

Эта заметка — большой комментарий к новости про Google Translate подключил русский язык к переводу с глубинным обучением.
На первый взгляд, звучит и выглядит всё очень круто.
Однако поясню, почему не стоит торопиться с выводами про «переводчики больше не нужны».
aaaaaaaaa
Читать полностью »

Google Translate подключил русский язык к переводу с глубинным обучением - 1

Онлайн-переводчик Google Translate теперь использует нейросеть для прямого перевода на русский, вьетнамский и хинди, сообщается в официальном блоге поискового гиганта.

Напомним, в сентябре 2016 года компания Google объявила о подключении к своему онлайн-переводчику Google Translate нейронной сети Google Neural Machine Translation (GNMT). Развивалась сеть при помощи глубинного обучения и составления единой базы смыслов слов человеческих языков. По оценкам специалистов компании, это должно было повысить качество прямого перевода с одного языка на другой.
Читать полностью »

В одной только России насчитывается более сотни языков, многие из которых являются родными для десятков и сотен тысяч человек. Причем часть из них ограничена в употреблении или даже находится на грани исчезновения. Машинный перевод мог бы помочь в сохранении этих языков, но для этого надо решить главную проблему всех подобных систем – отсутствие примеров для обучения.

Яндекс работает над технологией машинного перевода с 2011 года, и сегодня я расскажу о нашем новом подходе, благодаря которому становится возможным создать переводчик для тех языков, для которых ранее это было сделать затруднительно.

Как Яндекс научил машину самостоятельно создавать переводы для редких языков - 1

Правила против статистики

Машинный перевод, то есть автоматический перевод с одного человеческого языка на другой, зародился в середине прошлого века. Точкой отсчета принято считать Джорджтаунский эксперимент, проведенный 7 января 1954 года, в рамках которого более 60 фраз на русском языке были переведены компьютером на английский. По сути, это был вовсе и не эксперимент, а хорошо спланированная демонстрация: словарь включал не более 250 записей и работал с учетом лишь 6 правил. Тем не менее результаты впечатлили публику и подстегнули развитие машинного перевода.Читать полностью »

ИИ: имитация интеллекта, обман и реальные достижения - 1

С каких пор программы научились выдавать себя за людей? Каким образом понять, искусная ли перед нами обманка или по-настоящему сильный ИИ? Когда программа справится с машинным переводом или напишет свой первый роман? Сергей oulenspiegel Марков, автор материала «Играть на уровне бога: как ИИ научился побеждать человека», возвращается к теме умных машин в нашей новой нейронной статье.
Читать полностью »

В прошлом месяце Microsoft выпустила книгу “Future Visions” – антологию небольших историй, написанных некоторыми современными научными фантастами, основываясь на общении с исследователями Microsoft и посещения их лабораторий. Электронная версия книги доступна бесплатно на Amazon и других сайтах.

От ИИ и наук о данных до криптографии: исследователи Microsoft дают 16 предсказаний на 2016 год - 1

Сегодня мы рады предложить вам антологию другого рода. Это коллекция предсказаний от 16 лидеров и мыслителей внутри нашей технологической и исследовательской организации.

Про прошествии года с тех пор, как мы вошли в эпоху, названную Питером Ли (Peter Lee), корпоративным вице-президентом Microsoft Research NExT, новым Золотым веком технологических преимуществ, мы решили, что было бы полезным получить понимание не только того, что нас ждет в следующем году, но также и на горизонте 10 лет.

В Microsoft Research работает более 1000 ученых и инженеров, занимающихся самыми разными дисциплинами в сотрудничестве со множеством лабораторий по всему миру, поэтому этот список не может быть исчерпывающим, но мы надеемся, что вы сможете почерпнуть из него важные сведения.

2016 год – это своеобразная отчетная точка для исследовательского подразделения Microsoft. MSR будет праздновать 25-летний юбилей с момента основания Нейтаном Мирвольдом (Nathan Myhrvold) в 1991 году, который в своем 21-страничном документе, отправленном Биллу Гейтсу, доказывал, что Microsoft «необходимо инвестировать в будущее, больше занимаясь исследованиями и созданием технологий».

Эти инвестиции принесли значительные результаты, причем как для Microsoft, так и для индустрии и общества. Пожалуй, именно сейчас, когда Рафаэль Райф (Rafael Reif), президент MIT, говорит, что «мы оставляем слишком много инновационного кетчупа в бутылке», инвестиции компании в исследования важны как никогда раньше.
Читать полностью »

image

Британская телевизионная корпорация BBC объявила о начале использования технологии автоматического перевода текста на другие языки и голосового синтеза. Эта система будут использоваться для автоматического перевода репортажей компании на языки, отличные от английского.

В текущей версии системы имеющийся сценарий видеорепортажа автоматически переводят на другой язык. В первую очередь программисты BBC добавили японский. На очереди – русский. Судя по кадрам из ролика, описывающего новую систему, следующим номером пойдёт испанский язык. В пресс-релизе упомянуто, что для работы системы используются сторонние наработки. Специалист из BBC уточнил, что сейчас для перевода текста используется Google Translate.

Затем редактор исправляет ошибки автоматического перевода текста. Пока это неизбежно — по опыту, автоматический перевод с английского на русский в настоящее время получается весьма посредственного качества, не в последнюю очередь из-за сложности русского языка. Затем отредактированный текстовый сценарий обрабатывается системой синтеза голоса (редактор выбирает подходящий к новости голос из нескольких вариантов), и полученный закадровый компьютерный голос накладывается на видеорепортаж.


Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js