Рубрика «машинный перевод» - 4

Новая функция станет ответом на Skype Translate

Google работает над системой перевода речи в реальном времени - 1«Нью-Йорк таймс» сообщает, что компания Google собирается выпустить обновлённую версию приложения Google Translate для мобильных устройств на операционной системе Android. В приложение добавят возможность синхронного перевода речи. Официального объявления от Google пока не поступало.

На данный момент Google Translate уже умеет переводить речь человека, но функция далека от того, о чём мечтали авторы научной фантастики. Смартфон нужно поставить на запись и ждать, когда будет готов машинный перевод.

В обновлении добавят систему, которая будет распознавать речь нескольких наиболее распространённых языков и преобразовывать её в текст. Перевод будет готов немедленно.
Читать полностью »

Машинный перевод для профиВ конце мая в Москве мы (ABBYY Language Services) собирали представителей индустрии перевода и локализации на круглый стол TAUS, чтобы всем вместе поговорить об автоматизации перевода: что это такое, какая от этого польза, что с этим делать и кому это нужно. Разговор получился продуктивным, чем мы очень довольны. Теперь мы расскажем вам об одном из докладов, который стал лучшим по итогам круглого стола и позволил его автору получить специальную награду TAUS Excellence Award.

Небольшая справка про TAUS

TAUS — авторитетная международная организация, которая с 2004 года занимается вопросами автоматизации перевода. Среди её членов не только мы, но и Google, eBay, Cisco, Intel, Adobe, Siemens и многие другие корпорации. Основатель организации — Яп ван дер Меер (на фото), практически живая легенда индустрии. Узнать больше о TAUS можно в нашем корпоративном блоге или на сайте организации.

Доклад, на котором мы остановимся, был посвящен теме машинного перевода (MT). Вообще, о машинном переводе говорили многие участники. Например, что его популярность не снижается, и многие обычные пользователи и компании начали активнее использовать его в своей работе – только через Яндекс.Перевод ежедневно проходит около 100 Гб информации.
Читать полностью »

Добрый день, читатели.

Мы продолжаем знакомить вас с докладчиками, которые выступят на конференции Loc Kit. На этот раз это специалисты из компаний IBM, Dell и Acronis.

image

На нашей конференции будет два доклада, посвященных машинному переводу, и это не случайно. В локализации программного обеспечения машинный перевод применяется давно, и, возможно, в некоторых областях живых переводчиков окончательно заменят человекоподобные роботы машинные.

image
Михаил Васильев, кандидат медицинских наук (не удивляйтесь ;)), работает в данной отрасли с 1988 года, с 1991 года — в компании IBM, а с 1992 года занимается вопросами поддержки национальных языков, а также переводом и локализацией.

Михаил — «отец» русской раскладки клавиатуры и русскоязычной версии OS/2. С 1995 года по настоящее время руководит Центром сервисных переводческих услуг IBM Russia/CIS.

image

Мы не утверждаем, что именно этот котик помог Михаилу придумать русскоязычную раскладку клавиатуры, но всё может быть.
Читать полностью »

Сегодня заметил, что в консоли разработчика Google Play комментарии пользователей начали переводиться автоматически через Google Translate на язык разработчика.
Фича не очень большая, коряво работающая, но ее наличие все равно в некотором роде упрощает жизнь. Хотя для экзотических языков работает не очень хорошо (все-таки Google Translate)
Читать полностью »

Новые подробности о шифре Copiale 18 века

Журнал Wired опубликовал замечательную историю о том, как специалисты по машинному переводу текстов вместе с лингвистами сумели найти ключ к шифру масонского манускрипта 1760-1780-х годов, который никто не мог прочитать с момента его находки в 1970 году и который считался одним из самых трудных шифров в мире. О расшифровке рукописи сообщалось год назад — в октябре 2011 года, тогда были расшифрованы первые 16 страниц текста. С тех пор учёные значительно продвинулись в понимании этого уникального документа, составленного членами ордена Окулистов.

Оказалось, что кроме расшифрованного текста, отдельные символы расшифрованной рукописи означают цифры, которые составляют другую, отдельную шифрограмму, и её пока не удалось расшифровать.
Читать полностью »

Каждый большой продукт включает в себя много сложных и интересных технологий, над созданием которых работали люди, зачастую посвятившие им целую жизнь. И в браузере Yandex реализованы многие разработки наших коллег, которые могут остаться не замеченными неспециалистами и казаться незначимыми деталями. Например, одной из облачных технологий Яндекса, которые интегрированы в Браузер, стал наш собственный переводчик.

Сам Яндекс.Перевод вышел из беты несколько месяцев назад. От других немногочисленных подобных сервисов его отличает автословарь, уникальная технология которого разработана командой лингвистов и программистов Яндекса. Во время его разработки удалось объединить современные статистические подходы машинного перевода и традиционные лингвистические инструменты.

Чтобы понять, насколько значимым шагом в развитии машинного перевода является появление автословаря, стоит вспомнить, что 20 лет назад были распространены синтаксические переводчики, для которых таблицы соответствия фраз на разных языках составляли вручную. Процесс их создания стал меняться только в конце 1990-х, когда появились первые статистические переводчики. Для обучения их моделям переводов стали использовать параллельные тексты. Документы, в которых одно и то же написано на разных языках, извлекали, например, из дипломатической документации. Большой базой параллельных текстов стали документы ООН. Но на подобной лексике создать общелексический переводчик не получилось, потому что даже неформальные тексты он переводил сухим дипломатическим языком.Читать полностью »

В принципе, любой Интеллект какого-либо Объекта или Системы определяется ПОВЕДЕНИЕМ этого Объекта или этой Системы, которое, в свою очередь, определяется в общем случае двумя технологиями: ФИЗИОЛОГИИ (Психики), как рефлекторные реакции на входное воздействие, и РАЗУМА (Сознания), как осмысленные решения на оценку обстановки.

Уровень известных «перцептронных» технологий (и иже с ними различной «нейро-кванто-семанто-статистико-математико-сетевой лабуды) это, как раз, технология Физиологии. То есть, пришёл сигнал на вход, значит, выполнил соответствующее действие. Но это просто «безмозглые автоматы» и вот они называются «слабым ИИ».
Однако, естественный Интеллект человека базируется, в основном, на второй технологии – на Разуме. А это уже «сильный ИИ». Вот в чём их принципиальная разница – в Сознании.Читать полностью »

Как говорил великий классик Аристотель, «известное, оказывается, известно немногим».
Языковеды всего мира подвержены одной пагубной иллюзии, полагая, что если они сумеют построить «правильный синтаксический граф», (то есть, «дерево фразы»), то они в этом случае, наконец-таки, решат это треклятую проблему машинной обработки естественно-язычных текстов (еят). Вот и ищут лингвисты денно и нощно какие-то мифические связи и отношения между словами (семантическими единицами) в предложениях и абзацах текстов. Да ещё и кибернетиков подключили к этим своим безуспешным поискам. Прошло уже полвека таких изысканий, а воз, как говорится, и поныне там. Не строится никак этот граф, давая много лет устойчивые 50% ошибок. Уже и сотни миллионов долларов потрачены. Один только проект «Watson» чего стоит. А ведь, в принципе, этих «связей и отношений» и нет на самом-то деле. Всё это, если внимательно вдуматься, искусственные наукообразные выдумки, из-за которых, собственно, прогресс в деле создания технологии осмысленной обработки еят зашел в тот тупик, где сейчас и пребывает.
Лингвисты как те инопланетяне, в руки которых попало обыкновенное для землян куриное яйцо. Вот они его могут изучать и так и сяк. И обмерить вдоль и поперек, и взвесить, и рентгеном просветить, и скорлупу исследовать на состав, и её твердость по Моосу замерить, и хрупкость уточнить, и цвет откалориметрировать. В общем провести всё, что только можно измерить, а вот понять, как оно образуется, того бедняги никак не смогут, поскольку самой курицы не знают и не ведали. Точно также не могли туземцы океанических островов нашей планеты понять, каким это образом транзисторный приемник, занесенный к ним западной цивилизацией, может издавать членораздельные звуки или звуковые мелодии. И как-бы они не изучали этот приемник, не пробовали его на зуб или на вкус, того бы вовек сами не поняли, что к такому устройству еще и радиостанция нужна. Подобная картина наблюдается и с языковедами, изучающими еят, как продукт (яйцо, транзистор) человеческого мышления (курицы, радиостанции), не обращая, при этом, внимания на «генератора (производителя) яйца». Читать полностью »

В последнее время словосочетание «машинное обучение» (Machine Learning, ML) стало невероятно модным. Подобно любой распиаренной технологии, энтузиазм здесь превосходит уровень реализации конкретных продуктов. Можно спорить, но мало какие алгоритмические технологии со времен потрясающих инноваций от Google 10-15 лет назад привели к появлению продуктов, широко распространившихся в массовой культуре. Не то, чтобы с тех пор не было прорывов в машинном обучении, не было столь потрясших и имевших в основе вычислительные алгоритмы. Netflix может использовать умные рекомендации, но он и без этого Netflix. А вот если бы Брин и Пейдж не анализировали в своих корыстных целях графовую структуру веба и гиперссылки, у нас не было бы Google.

Почему так? Ведь пытались же. Немало стартапов хотели нести технологии машинной обработки естественного языка в массы, но все по очереди канули в Лету, после того, как люди, собственно, пробовали их использовать. Сложность получения хорошего продукта с использованием машинного обучения не в понимании основной теории, но в понимании сферы деятельности и поставленной задачи. Понимании столь глубоком, чтобы на интуитивном уровне видеть, что будет работать, а что нет. У интересных задач нет готовых решений. Наш текущий уровень в каких-либо прикладных областях, например, той же обработке естественного языка, сильнее движут вперед откровения, относящиеся к этой области, чем новые техники решения общих задач машинного обучения. Часто отличие программы, используемой каждый день, от полуработающей курсовой — это особый взгляд на проблему и хорошая модель решения.

Я не пытаюсь убедить вас не делать классных продуктов, основанных на машинном обучении. Я всего лишь пытаюсь прояснить, почему это так непросто.
Читать полностью »

Компьютерная лингвистика на сегодня практически себя уже исчерпала. На это прямо указывает безуспешный опыт исследователей и разработчиков «интеллектуальных» информационных продуктов, трудившихся вот уже более полувека над созданием таких амбициозных программ, как, например, адекватный машинный перевод или смысловой поиск информации в масивах документов на естественном языке.

Будущее машинной обработки естественно-язычных текстов, безусловно, видится в создании и развитии надлингвистических технологий, способных осуществлять анализ содержания информации на уровне смыслового понимания контекста подобно тому, как это умеет делать человек. Однако, созданию «мыслящих машин» (Thinking Machine) длительное время препятствовали два основных фактора – отсутствие необходимой методологии и должного инструментария для решения двух фундаментальных задач — это нахождение «формулы смысла» и построения «модели знаний о мироздании» в некотором формализованном доступном для компьютера виде, без чего, собственно, невозможно повторить на программном уровне естество человеческого мышления.

Лингвисты вкупе с кибернетиками эти проблемы так и не смогли преодолеть, поскольку последнее лежит уже вне границ их предметной специализации, из-за чего, собственно, существенно затормозилось развитие таких давно затребованных прикладных направлений текстовой обработки, как, например, создание «умных» диалоговых систем или «смысловых Интернет-поисковиков». Да и тот же машинный перевод по-прежнему оставляет желать много лучшего.

Опыт развития научно-технического прогресса говорит о том, что прорывной искомый результат в итоге получается, как правило, на стыке разных технологических областей и предметных дисциплин. По всей видимости, проблема «машинного мышления» будет решена ровно тогда, когда мы точно поймём, как именно в процедурном плане работает наше естественное сознание, и когда достоверно сможем узнать, поддадутся ли эти процедуры мышления, проявленные нам в необходимом и достаточном количестве, своей окончательной компьютерной алгоритмизации.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js