Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей. Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.
Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.
Рубрика «machine translation»
Первый нейросетевой переводчик для эрзянского языка
2022-10-09 в 10:00, admin, рубрики: cезон data mining, data mining, lower-resource language, machine learning, machine translation, ml, natural language processing, nlp, искусственный интеллект, малоресурсный язык, машинное обучение, машинный перевод, переводчик, СемантикаКурс Natural Language Processing (обработка естественного языка)
2020-03-02 в 13:35, admin, рубрики: data mining, huawei, machine learning, machine translation, natural language processing, Блог компании Huawei, искусственный интеллект, курс, машинное обучение, обработка естественного языкаВсем привет!
Huawei Russian Research Institute (Huawei RRI) в рамках программы взаимодействия с ведущими российскими университетами (МФТИ, МГУ, МГТУ им. Н. Э. Баумана) представляет открытый курс “Natural Language Processing” или “Обработка естественного языка”, который пройдет на площадке московского корпуса Физтеха.
Natural Language Processing. Итоги 2019 и тренды на 2020
2020-02-11 в 14:04, admin, рубрики: data mining, data science, deep learning, machine learning, machine translation, natural language processing, neural networks, nlp, ods, recurrent neural network, Transformers, Блог компании Huawei, искусственный интеллект, машинное обучениеВсем привет. С некоторым запозданием я решил опубликовать эту статью. Каждый год я стараюсь подвести итоги произошедшего в области обработки естественного языка (natural language processing). Не стал исключением и этот год.
BERTs, BERTs are everywhere
Начнем по порядку. Если вы не уехали в глухую Сибирскую тайгу или отпуск на Гоа на последние полтора года, то вы наверняка слышали слово BERT. Появившись в самом конце 2018-ого за прошедшее время эта модель завоевала такую популярность, что в самый раз будет вот такая картинка:
ML and TOC for getting 20-80 business solutions
2019-08-12 в 12:20, admin, рубрики: machine translation, management, theory of constraints, бизнес-модели, интернет-маркетинг, машинное обучение, Управление продуктомBacklog prioritization requires understanding of relative importance. Each group of tasks in the task manager belongs to some strategy like organic acquisition, advertisement leads, conversion optimization and others. We may consider productivity of system, operational costs as well. A set of metrics/strategies is the dimension of a business model. Reduction of dimension and relative weighting, separate budgeting is sufficient. In general case, unite economy relations between profit margin and metrics are violated because of non-linearity. It’s impossible to separate acquisition and conversion, because the quantity of acquisition may affect its quality and vice versa. However decomposition of tasks requires a factor analysis (FA). FA requires a linear decomposition. We meet a contradiction.
Читать полностью »
Transformer — новая архитектура нейросетей для работы с последовательностями
2017-10-30 в 6:34, admin, рубрики: deep learning, machine translation, nlp, RNN, машинное обучениеНеобходимое предисловие: я решил попробовать современный формат несения света в массы и пробую стримить на YouTube про deep learning.
В частности, в какой-то момент меня попросили рассказать про attention, а для этого нужно рассказать и про машинный перевод, и про
sequence to sequence, и про применение к картинкам, итд итп. В итоге получился вот такой стрим на час:
Я так понял по другим постам, что c видео принято постить его транскрипт. Давайте я лучше вместо этого расскажу про то, чего в видео нет — про новую архитектуру нейросетей для работы с последовательностями, основанную на attention. А если нужен будет дополнительный бэкграунд про машинный перевод, текущие подходы, откуда вообще взялся attention, итд итп, вы посмотрите видео, хорошо?
Новая архитектура называется Transformer, была разработана в Гугле, описана в статье Attention Is All You Need (arxiv) и про нее есть пост на Google Research Blog (не очень детальный, зато с картинками).
Поехали.
OmegaT: переводим с помощью компьютера
2017-05-23 в 8:40, admin, рубрики: cat, computer aided translations, computer assisted translations, machine translation, open source, yandex speechkit, изучение языков, локализация, машинный перевод, Софт
Как переводить документ в Word и не париться с форматированием? Как не переводить одно и то же? Как сохранять единообразие? Как не покупать дорогие программы? Как работать эффективно и быстро?
Если вы знакомы с Trados, MemoQ или CrowdIn, переходите сразу к инструкции по установке. Если же это новые для вас слова — добро пожаловать в прекрасный мир Computer Aided Translation. Читать полностью »
Переводчик из машины, или как научить МФУ переводить документы
2016-04-28 в 21:36, admin, рубрики: ABBYY, abbyy recognition server, machine translation, автоматизация, Блог компании ABBYY, обработка изображений, Проектирование и рефакторинг, разработкаПривет, %username%!
Недавно мы, ABBYY LS, совместно с Xerox запустили Xerox Easy Translator Service — сервис, который позволяет получить машинный перевод документа – для этого его нужно отсканировать при помощи МФУ на базе технологии Xerox ConnectKey или же сфотографировать камерой телефона. Через эту же платформу можно заказать и профессиональный перевод.
Как это работает? Давай разбираться! Читать полностью »
Опубликована программа конференции AINL
2012-05-17 в 11:41, admin, рубрики: artificial intelligence, machine translation, natural language processing, искусственный интеллект, Мероприятия, я пиарюсь, метки: artificial intelligence, machine translation, natural language processing26 мая в субботу в Санкт-Петербурге пройдет конференция AINL: Искуственный интеллект и естественный язык. На однодневной конференции будут представленны 25 докладов ведущих специалистов в области автоматической обработки естественного языка и искусственного интлеллекта.
Программа поделена на 7 секций:
— Искуственный Интеллект
— Речевые технологии
— Управление знаниями
— Text mining
— Лингвистические технологии
— Машинный перевод
— Интернет-технологии
Основной фокус конференции: онтологическое представление знаний, диалоговые системы, речевые технологии. Будет организована он-лайн трансляция и видеозапись докладов.
У желающих выступить с постером есть еще пять дней (до 22 мая), чтобы подать заявку на участие.
Зарегистрироваться в качестве слушателя можно на сайте конференции до 23-ого мая включительно.
Все, что вы хотели узнать про Information Retrieval, но не знали, где спросить
2012-04-20 в 5:26, admin, рубрики: information retrieval, machine translation, web science, Мероприятия, Поисковые машины и технологии, Учебный процесс в IT, метки: information retrieval, machine translation, web science
Good news everybody! В этом году снова состоится уже шестая по счету Российская летняя школа по информационному поиску (RuSSIR).
Если Вы занимаетесь задачами IR, то просто не сможете пропустить это мероприятие (чуть ли не единственное в России), позволяющее получить системные знания по информационному поиску. Даже если у вас уже большой опыт в этой области, скорее всего вы сможете найти что-то новое в программе, поскольку на школу приезжают лекторы со всего мира. А для совсем новичков предусмотрен вводный курс.