Почему мне (и, надеюсь, вам) интересно распознавание речи? Во-первых, это направление является одним из самых популярных по сравнению с другими задачами компьютерной лингвистики, поскольку технология распознавания речи сейчас используется почти повсеместно – от распознавания простого «да/нет» в автоматическом колл-центре банка до способности поддерживать «светскую беседу» в «умной колонке» типа «Алисы». Во-вторых, чтобы система распознавания речи была качественным, необходимо найти самые эффективные средства для создания и настройки такой системы (одному из подобных средств и посвящена эта статья). Наконец, несомненным «плюсом» выбора специализации в области распознавания речи лично для меня является то, что для исследований в этой области необходимо владеть как программистскими, так и лингвистическими навыками. Это весьма стимулирует, заставляя приобретать знания в разных дисциплинах.
Читать полностью »
Рубрика «Компьютерная лингвистика» - 2
Почему Kaldi хорош для распознавания речи?
2019-10-08 в 16:06, admin, рубрики: kaldi, natural language processing, изучение языков, Компьютерная лингвистика, машинное обучение, нейросети, распознавание речиИзучаем синтаксические парсеры для русского языка
2018-08-09 в 6:00, admin, рубрики: dependency parsing, nlp, UDPipe, Блог компании Сбербанк, Компьютерная лингвистика, машинное обучение, парсеры, Программирование, синтаксисПривет! Меня зовут Денис Кирьянов, я работаю в Сбербанке и занимаюсь проблемами обработки естественного языка (NLP). Однажды нам понадобилось выбрать синтаксический парсер для работы с русским языком. Для этого мы углубились в дебри морфологии и токенизации, протестировали разные варианты и оценили их применение. Делимся опытом в этом посте.
Слово лингвисту: что если компьютеры заговорят лучше нас
2018-07-02 в 12:20, admin, рубрики: искусственный интеллект, китайская комната, Компьютерная лингвистика, машинные переводы, Семантика
Фото: Александр Корольков/РГ
3 июня, в заключительный день Московского книжного фестиваля на Красной площади, лингвист Александр Пиперски выступал с рассказом о компьютерной лингвистике. Он говорил о машинных переводах, нейросетях, векторном отображении слов и поднимал вопросы границ искусственного интеллекта.
Лекцию слушали разные люди. Справа от меня, например, клевала носом китайская туристка. Александр, наверняка, тоже понимал — пара лишних цифр, формул и слов об алгоритмах, и люди убегут в соседнюю палатку слушать фантастов.
Я попросил Александра подготовить для Хабра «режиссерскую версию» лекции, где не вырезано ничего, что может усыпить случайных туристов. Ведь больше всего выступлению не хватало аудитории с толковыми вопросами и вообще хорошей дискуссии. Думаю, здесь мы ее сможем развить.
Читать полностью »
Инженеров и компьютерных лингвистов – к «Диалогу»
2018-05-28 в 8:49, admin, рубрики: ABBYY, big data, small data, Блог компании ABBYY, диалог, искусственный интеллект, Компьютерная лингвистика, конференции, машинное обучение, нейронные сетиС 30 мая по 2 июня в Российском государственном гуманитарном университете (РГГУ) пройдет 24-ая международная научная конференция по компьютерной лингвистике «Диалог». Мы уже рассказывали о том, что такое «Диалог» и почему ABBYY его основной организатор. В этом посте мы анонсируем основные темы конференции, ключевых спикеров и их доклады, публикуем информацию о соревнованиях по разрешению лексической многозначности на русском языке Dialogue Evaluation и другие подробности о конференции. Читать полностью »
Как научить свою нейросеть анализировать морфологию
2017-10-12 в 11:00, admin, рубрики: natural language processing, nlp, python, глубокое обучение, Компьютерная лингвистика, машинное обучение, морфологический анализ, морфология, рекуррентная нейронная сетьНедавно мы рассказывали про генератор стихов. Одной из особенностей языковой модели, лежащей в его основе, было использование морфологической разметки для получения лучшей согласованности между словами. Однако же у использованной морфоразметки был один фатальный недостаток: она была получена с помощью “закрытой” модели, недоступной для общего использования. Если точнее, выборка, на которой мы обучались, была размечена моделью, созданной для Диалога-2017 и основанной на закрытых технологиях и словарях ABBYY.
Мне очень хотелось избавить генератор от подобных ограничений. Для этого нужно было построить собственный морфологический анализатор. Сначала я делал его частью генератора, но в итоге он вылился в отдельный проект, который, очевидно, может быть использован не только для генерации стихов.
Вместо морфологического движка ABBYY я использовал широко известный pymorphy2. Что в итоге получилось? Спойлер — получилось неплохо.
Natural Language Processing — как это будет по-русски?
2017-05-31 в 8:42, admin, рубрики: анализ тональности, извлечение информации, информационный поиск, Компьютерная лингвистика, машинный перевод, морфология, обработка естественного языка, онлайн-курсы, синтаксический анализ, Учебный процесс в ITВокруг нас — огромные объемы текстовых данных в электронном виде, в них — человеческие знания, эмоции и опыт. А еще — спам, который выдает себя за полезную информацию, и надо уметь отделять одно от другого. Люди хотят общаться с теми, кто не знает их родной язык. А еще — управлять своим мобильником/телевизором/умным домом голосом. Все это обеспечивает востребованность и бурное развитие методов Natural Language Processing (NLP).
2 июня на платформе Stepik стартует мой онлайн-курс «Введение в обработку естественного языка». Это совершенно новый для меня формат, а еще это первый онлайн-курс по прикладной лингвистике, который фокусируется на обработке русского языка, имеющихся для этого данных и ресурсах. 10 лекций курса посвящены базовыми лингвистическими инструментами и популярным приложениям; важная составляющая курса — пять практических заданий.
Читать полностью »
FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов
2015-12-24 в 21:13, admin, рубрики: data mining, FactRuEval, information extraction, named entities, natural language processing, opencorpora, Блог компании ABBYY, именованные сущности, Компьютерная лингвистика, конференция Диалог, Семантика, соревнование, метки: конференция ДиалогСоревнования по различным аспектам анализа текста проводятся на международной конференции по компьютерной лингвистике «Диалог» каждый год. Обычно сами соревнования проходят в течение нескольких месяцев до мероприятия, а на самой конференции объявляют результаты. В этом году планируются три соревнования:
- по выделению именованных сущностей и фактов – FactRuEval;
- по анализу тональности – SentiRuEval;
- по исправлению опечаток – SpellRuEval.
Статья, которую вы начали читать, преследует три цели. Первая – мы хотели бы пригласить разработчиков систем автоматического анализа текстов принять участие в соревнованиях. Вторая – мы ищем помощников, которые могли бы разметить текстовые коллекции, на которых будут проверяться системы наших участников (это, во-первых, интересно, а во-вторых – вы сможете принести реальную пользу науке). Ну а третья – соревнования по выделению именованных сущностей и фактов проводятся на “Диалоге” впервые, и мы хотим рассказать всем заинтересованным читателям, как они будут происходить.
Как, читая новости, приносить пользу науке?
2015-12-16 в 13:01, admin, рубрики: natural language processing, open source, opencorpora, Opendata, искусственный интеллект, Компьютерная лингвистика, краудсорсинг, русский языкВ предыдущий раз мы написали на Хабре о краудсорсинге лингвистических данных. Речь шла о морфологической разметке (part of speech tagging) современных текстов на русском языке. С тех пор было размечено около 2.2 млн. заданий, и около 3 тысяч человек приняли в этом участие. Мы с вами прошли чуть больше половины пути. Спасибо, что вы помогаете нам!
В OpenCorpora мы создаём открытые данные для обучения и тестирования математических моделей анализа текста на русском языке. Таким образом, мы помогаем российской компьютерной лингвистике догнать западную. Потом будем помогать обгонять ;)
Сегодня мы расскажем о разметке именованных сущностей. Это ещё один слой разметки текстов в Открытом корпусе. Мы будем выделять в тексте имена людей, названия компаний и географических объектов.
Deep Learning, NLP, and Representations
2015-03-16 в 15:20, admin, рубрики: big data, глубокое обучение, Компьютерная лингвистика, нейронные сети, обработка естественного языка, Поисковые машины и технологии, рекурсивные нейронные сетиПредлагаю читателям «Хабрахабра» перевод поста «Deep Learning, NLP, and Representations» крутого Кристофера Олаха. Иллюстрации оттуда же.
В последние годы методы, использующие глубокое обучение нейросетей (deep neural networks), заняли ведущее положение в распознавании образов. Благодаря им планка для качества методов компьютерного зрения значительно поднялась. В ту же сторону движется и распознавание речи.
Результаты результатами, но почему они так круто решают задачи?
В посте освещено несколько впечатляющих результатов применения глубоких нейронных сетей в обработке естественного языка (Natural Language Processing; NLP). Таким образом, я надеюсь доходчиво изложить один из ответов на вопрос, почему глубокие нейросети работают.
Читать полностью »
Препроцессоры и метаязыки в программах исправления ошибок
2014-12-03 в 12:19, admin, рубрики: Компьютерная лингвистика, Семантика Компьютерная лингвистика очень консервативна, несмотря на огромное количество уже созданных программ, решающих весьма сложные задачи предварительной обработки целенаправленных языков (подобные программы редко используются в программах проверки орфографии). Далее на примере общепринятого «сложного» случая корректировки «ться» и «тся» я попытаюсь показать, как «консерватизм» программистов приводит к специфическому классу ошибок.
Читать полностью »