Рубрика «обработка естественного языка» - 5

image

Google договорился о приобретении стартапа Wavii за сумму более 30 млн долларов, сообщает TechCrunch. Что представляет собой стартап можно понять из описания журналиста Time: «Wavii ищет в Интернете, находит новости и обобщает их, со ссылками на полные статьи из множества источников». При этом он использует собственную технологию обработки естественного языка.

За стартап из Сиэтла боролись Apple и Google, и в итоге выиграл последний. Apple хотел использовать технологии агрегации и обработки естественного языка в своём Siri, но в итоге команда из 25 человек переезжает в подразделение Google, занимающееся проектом «Сеть знаний» (Knowledge Graph).
Читать полностью »

Natural Language Processing — область, которая становится все популярнее и популярнее в Росссии. Но отдельных ресурсов, посвященных этой теме, в рунете практически нет. Полгода назад на Хабре представляли NLPub, каталог ресурсов по компьютерной лингвистике. Но что делать, если хочешь читать новости? Можно попробовать начать с блога mathlingvo.ru

image

Читать полностью »

Я хочу представить NLPub — небольшую базу знаний, посвящённую компьютерной лингвистике в России.

Сейчас никого не удивить устройствами и приложениями, способными понимать и говорить на человеческом языке. В основе таких приложений лежат методы обработки естественного языка, образующие общее направление на стыке лингвистики и искусственного интеллекта.

Почему подавляющее большинство устройств, приложений и сервисов не работает с русским языком?
Читать полностью »

Программирование / [Из песочницы] Наиболее часто встречающаяся структура предложений в русском языке по версии библиотеки Флибуста
Я программист php, но захотел расширить горизонты, узнать что ни будь новое. Поэтому решил поучить другие языки и технологии. Выбор пал пока на perl, python и mysql.
Был взят замечательный пакет pymorphy , библиотека Флибуста (только .fb2), sedna для хранения fb2, mysql percona 5.1 для хранения статистики и маленький напильник. Была создана примитивная myisam табличка куда записывалась сколько встречалось предложение, и описание частей речи этого предложения.
По описанию сделал уникальный текстовый индекс, а по числовому полю индекс сделать забыл (думал не пригодится).
Fb2 с флибустры поместил в базу sedan, получилось база где то в 90 GB.
ПервымЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js