Рубрика «natural language processing» - 16

Распознавание DGA доменов. А что если нейронные сети?

2016-04-29 в 6:03, admin, рубрики: botnets, DGA, information security, lasagne, LSTM, machine learning, Malware, natural language processing, neural networks, sklearn, theano, Блог компании «Digital Security», информационная безопасность, машинное обучение

Распознавание DGA доменов. А что если нейронные сети? - 1

Всем привет!

Сегодня мы поговорим про распознавание доменов, сгенерированных при помощи алгоритмов генерации доменных имен. Посмотрим на существующие методы, а также предложим свой, на основе рекуррентных нейронных сетей. Интересно? Добро пожаловать под кат.

Читать полностью »

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 2

2016-01-27 в 15:34, admin, рубрики: FB-Trie, fuzzy search, Levenshtein automaton, natural language processing, similarity search, автомат Левенштейна, Алгоритмы, нечеткий поиск, поиск по сходству, поисковые технологии

В первой части статьи мы рассмотрели универсальный автомат Левенштейна — мощный инструмент для фильтрации слов, отстоящих от некоторого слова W на расстояние Левенштейна не более заданного. Теперь пришло время изучить способы применения этого инструмента для эффективного решения задачи нечеткого поиска в словаре.

Читать полностью »

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 1

2016-01-26 в 15:07, admin, рубрики: fuzzy search, Levenshtein automaton, natural language processing, similarity search, автомат Левенштейна, Алгоритмы, нечеткий поиск, поиск по сходству, поисковые технологии, метки: fuzzy search, нечеткий поиск

Нечеткий поиск строк является весьма дорогостоящей в смысле вычислительных ресурсов задачей, особенно если вам необходима высокая точность получаемых результатов. В статье описан алгоритм нечеткого поиска в словаре, который обеспечивает высокую скорость поиска при сохранении 100% точности и сравнительно низком потреблении памяти. Именно автомат Левенштейна позволил разработчикам Lucene повысить скорость нечеткого поиска на два порядка
Читать полностью »

Параллельные алгоритмы для обработки BigData: подводные камни и непростые решения

2016-01-20 в 7:00, admin, рубрики: algorithms, big data, natural language processing, spark, Алгоритмы, Блог компании 1С-Битрикс

Эта публикация написана по материалам выступления Александра Сербула на осенней конференции BigData Conference.

Большие данные — тема модная и востребованная. Но многих по-прежнему отпугивает избыток теоретических рассуждений и некоторый недостаток практических рекомендаций. В этом посте я хочу отчасти заполнить этот пробел и рассказать об использовании параллельных алгоритмов для обработки больших данных на примере кластеризации товарного каталога из 10 млн позиций.
Читать полностью »

FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов

2015-12-24 в 21:13, admin, рубрики: data mining, FactRuEval, information extraction, named entities, natural language processing, opencorpora, Блог компании ABBYY, именованные сущности, Компьютерная лингвистика, конференция Диалог, Семантика, соревнование, метки: конференция Диалог

FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов - 1 Соревнования по различным аспектам анализа текста проводятся на международной конференции по компьютерной лингвистике «Диалог» каждый год. Обычно сами соревнования проходят в течение нескольких месяцев до мероприятия, а на самой конференции объявляют результаты. В этом году планируются три соревнования:

по выделению именованных сущностей и фактов – FactRuEval;
по анализу тональности – SentiRuEval;
по исправлению опечаток – SpellRuEval.

Статья, которую вы начали читать, преследует три цели. Первая – мы хотели бы пригласить разработчиков систем автоматического анализа текстов принять участие в соревнованиях. Вторая – мы ищем помощников, которые могли бы разметить текстовые коллекции, на которых будут проверяться системы наших участников (это, во-первых, интересно, а во-вторых – вы сможете принести реальную пользу науке). Ну а третья – соревнования по выделению именованных сущностей и фактов проводятся на “Диалоге” впервые, и мы хотим рассказать всем заинтересованным читателям, как они будут происходить.

Читать полностью »

Как, читая новости, приносить пользу науке?

2015-12-16 в 13:01, admin, рубрики: natural language processing, open source, opencorpora, Opendata, искусственный интеллект, Компьютерная лингвистика, краудсорсинг, русский язык

В предыдущий раз мы написали на Хабре о краудсорсинге лингвистических данных. Речь шла о морфологической разметке (part of speech tagging) современных текстов на русском языке. С тех пор было размечено около 2.2 млн. заданий, и около 3 тысяч человек приняли в этом участие. Мы с вами прошли чуть больше половины пути. Спасибо, что вы помогаете нам!

В OpenCorpora мы создаём открытые данные для обучения и тестирования математических моделей анализа текста на русском языке. Таким образом, мы помогаем российской компьютерной лингвистике догнать западную. Потом будем помогать обгонять ;)

Сегодня мы расскажем о разметке именованных сущностей. Это ещё один слой разметки текстов в Открытом корпусе. Мы будем выделять в тексте имена людей, названия компаний и географических объектов.

Как, читая новости, приносить пользу науке? - 1

Читать полностью »

InterSystems iKnow. Загружаем данные из Вконтакте

2014-12-25 в 7:06, admin, рубрики: cache, data mining, iKnow, intersystems cache, natural language processing, nlp, Блог компании InterSystems, Вконтакте API, разработка, социальные сети

Эта статья продолжает цикл рассказов (раз, два) об основных способах/сценариях использования iKnow — инструмента Natural Language Processing'а из стека технологий InterSystems.
Предыдущие посты на эту тему были в основном посвящены работе с данными уже после того, как те были помещены в домен (место, в котором и проходит весь анализ текста). Эта же статья будет о том, как правильно и удобно загрузить информацию в iKnow. В качестве примера рассмотрим загрузку информации о пользователях Вконтакте: их личных данных, постах и т.д.
Статья подразумевает некий базовый бэкграунд в области технологий InterSystems (в частности, Caché ObjectScript).
Читать полностью »

Извлечение данных из фотохостинга

2014-11-21 в 8:54, admin, рубрики: c#.net, natural language processing, ocr, Opendata, открытые данные

Наткнулся однажды на этот пост и мне подумалось — раз у нас есть такая прекрасная, полностью открытая галерея частных данных (Radikal.ru), не попытаться ли извлечь из нее эти данные в удобном для обработки виде? То есть:

Скачать картинки;
Распознать текст на них;
Выделить из этого текста полезную информацию и классифицировать ее для дальнейшего анализа.

И в результате, после нескольких вечеров, работающий прототип был сделан. Много технических деталей:
Читать полностью »

SpeechMarkup API — превращаем речь в данные

2014-11-10 в 20:27, admin, рубрики: api, natural language processing, nlp, исскусственный интелект, Программирование, разработка, распознавание речи

SpeechMarkup API — превращаем речь в данные
В статье пойдет речь о том, как из любого запроса на естественном языке получить реальные данные, с которыми может работать ваше приложение. А именно, о REST API сервиса SpeechMarkup, который преобразует обычную строчку текста в JSON со всеми найденными смысловыми сущностями с конкретными данными в каждой из них.

Да-да, это та самая технология, которая лежит в основе любого голосового ассистента и используется в поисковиках.
Она позволяет однозначно интерпретировать запрос и «понять», о чем говорит пользователь, а затем вернуть вашему приложению результат в виде обычного набора данных.

В статье я расскажу, для чего можно использовать данный API и приведу небольшой пример работающего приложения.

Читать полностью »

Разбитие текста на предложения лингво-независимым методом на примере библиотеки AIF

2014-11-01 в 14:09, admin, рубрики: data mining, java, natural language processing

В прошлой статье мы уже рассказывали о новой NLP библиотеке. Однако тогда мы рассказали «обовсем» и не о чем конкретном. Сегодня мы поговорим о теоретических аспектах разбития предложения на токены лингво-независимыми алгоритмами. Теоретические выкладки будут подкреплены практической реализацией в библиотеке AIF. Поехали…
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «natural language processing» - 16

Распознавание DGA доменов. А что если нейронные сети?

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 2

Нечеткий поиск в словаре с универсальным автоматом Левенштейна. Часть 1

Параллельные алгоритмы для обработки BigData: подводные камни и непростые решения

FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов

Как, читая новости, приносить пользу науке?

InterSystems iKnow. Загружаем данные из Вконтакте

Извлечение данных из фотохостинга

SpeechMarkup API — превращаем речь в данные

Разбитие текста на предложения лингво-независимым методом на примере библиотеки AIF

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «natural language processing» - 16

Новости

Актуальные темы

Архив