This post is a small abstract of full-scaled research focused on keyword recognition. Technique of semantics extraction was initially applied in field of social media research of depressive patterns. Here I focus on NLP and math aspects without psychological interpretation. It is clear that analysis of single word frequencies is not enough. Multiple random mixing of collection does not affect the relative frequency but destroys information totally — bag of words effect. We need more accurate approach for the mining of semantics attractors.
Рубрика «nlp (natural language processing)» - 3
Keyword Tree: graph analysis for semantic extraction
2019-10-06 в 11:52, admin, рубрики: data cleaning, data mining, natural language processing, nlp (natural language processing), визуализация данных, машинное обучениеAimybox в поиске: фреймворку для создания голосовых ассистентов нужен мастер iOS
2019-10-06 в 7:55, admin, рубрики: AI, iOS, iOS разработка, kotlin, nlp (natural language processing), nlu, swift, swift разработка, алиса, ассистент, Блог компании Just AI, вакансия, голосовой движок, голосовой помощник, ИИ, Карьера в IT-индустрии, работа в it, разработка под iOS, фрилансВсе вокруг говорят про голосовых помощников, Алису, Google Assistant, что они умеют, чего не умеют… А мы взяли и написали фреймворк для создания мобильных голосовых ассистентов. Да еще и с открытым исходным кодом! Пока мы это сделали только для Android, и теперь ищем крутого iOS-разработчика, кто с легкостью портирует Kotlin код на Swift.
Под катом рассказываем, зачем мы вообще это делаем, что у нас получилось и кого именно мы ищем в команду Aimybox.
Применение сиамских нейросетей в поиске
2019-09-20 в 8:39, admin, рубрики: natural language processing, nlp (natural language processing), Блог компании Mail.Ru Group, машинное обучение, нейронные сети, поисковые системы, поисковые технологии, Семантика, сиамские нейросети, эмбеддингиВсем привет! В этом посте я расскажу, какие подходы мы в Поиске Mail.ru используем для сравнения текстов. Для чего это нужно? Как только мы научимся хорошо сравнивать разные тексты друг с другом, поисковая система сможет лучше понимать запросы пользователя.
Что нам для этого нужно? Для начала строго поставить задачу. Нужно определить для себя, какие тексты мы считаем похожими, а какие не считаем и затем сформулировать стратегию автоматического определения схожести. В нашем случае будут сравниваться тексты пользовательских запросов с текстами документов.
Читать полностью »
Используем данные на практике
2019-06-27 в 15:28, admin, рубрики: computer vision, data analysis, data science, machine learning, nlp (natural language processing), usedataconf, Алгоритмы, Блог компании Конференции Олега Бунина (Онтико), конференции, машинное обучение, обработка изображенийМежду идеальным алгоритмом машинного обучения в вакууме и его применением на реальных данных часто лежит пропасть. Вроде бы берешь статью: алгоритм есть, сходимость для данных такого-то типа есть — бери и применяй. Но почему-то оказывается, что твоих данных недостаточно для обучения, да и отличаются они от модельных из статьи, потому что настоящие, не синтетические.
Обычное дело в обосновании алгоритма ввести допущения о чистоте данных и их распределении, которых в реальной жизни не найдёшь. Например, автор статьи экспериментирует на фотографиях взрослых знаменитостей, и все у него замечательно распознается и классифицируется, а в нашем реальном примере попадаются еще и дети, и мультяшные персонажи, и на них всё внезапно ломается. Но есть люди, которые умеют с этим справляться, да так, что пропасть между теорией и практикой перестает казаться неприступной, и, стоит показать как, сразу находятся и другие желающие ее преодолеть.
Создаем прототип для Sentiment Analysis с помощью Python и TextBlob
2019-06-22 в 12:02, admin, рубрики: flask, nlp (natural language processing), python, python3, для начинающих, машинное обучение
Что важно для команды разработчиков, которая только начинает строить систему, базирующуюся на машинном обучении? Архитектура, компоненты, возможности тестирования с помощью интеграционных и юнит тестов, сделать прототип и получить первые результаты. И далее к оценке трудоемкости, планированию разработки и реализации.
В этой статье речь пойдет как раз о прототипе. Который был создан через некоторое время после разговора с Product Manager: а почему бы нам не «пощупать» Machine Learning? В частности, NLP и Sentiment Analysis?
Читать полностью »
Распознавание дат, написанных естественным языком, средствами Python3
2019-04-23 в 14:06, admin, рубрики: legaltech, ner, nlp (natural language processing), python, python3Мы в компании создаем сервис, который извлекает юридические факты из переписки клиента и заказчика. Сервис вырос из одной простой идеи — мои постоянные клиенты из решили упросить работу менеджерам и создать “генератор договоров”. Первую задачу — подтягивать в договор реквизиты клиента и заказчика мы решили легко.
Появилась вторая идея — искать в переписке даты и вставлять их в техническое задание, документы, автоматически.
Однако, люди редко пишут в чатах и мессенджерах даты так, чтобы их легко мог распознать алгоритм.
Читать полностью »
Основы Natural Language Processing для текста
2019-04-15 в 5:54, admin, рубрики: machine learning, nlp (natural language processing), python, Блог компании Voximplant, машинное обучение, обработка естественного языка, Программирование, распознавание текстаОбработка естественного языка сейчас не используются разве что в совсем консервативных отраслях. В большинстве технологических решений распознавание и обработка «человеческих» языков давно внедрена: именно поэтому обычный IVR с жестко заданными опциями ответов постепенно уходит в прошлое, чатботы начинают все адекватнее общаться без участия живого оператора, фильтры в почте работают на ура и т.д. Как же происходит распознавание записанной речи, то есть текста? А вернее будет спросить, что лежит в основе соврменных техник распознавания и обработки? На это хорошо отвечает наш сегодняшний адаптированный перевод – под катом вас ждет лонгрид, который закроет пробелы по основам NLP. Приятного чтения!

NLP. Основы. Техники. Саморазвитие. Часть 1
2019-01-23 в 13:05, admin, рубрики: ABBYY, machine learning, natural language processing, ner, nlp (natural language processing), RNN, Блог компании ABBYY, машинное обучение, нейронные сети, нейросети, саммаризацияПривет! Меня зовут Иван Смуров, и я возглавляю группу исследований в области NLP в компании ABBYY. О том, чем занимается наша группа, можно почитать здесь. Недавно я читал лекцию про Natural Language Processing (NLP) в Школе глубокого обучения – это кружок при Физтех-школе прикладной математики и информатики МФТИ для старшеклассников, интересующихся программированием и математикой. Возможно, тезисы моей лекции кому-то пригодятся, поэтому поделюсь ими с Хабром.
Поскольку за один раз все объять не получится, разделим статью на две части. Сегодня я расскажу о том, как нейросети (или глубокое обучение) используются в NLP. Во второй части статьи мы сконцентрируемся на одной из самых распространенных задач NLP — задаче извлечения именованных сущностей (Named-entity recognition, NER) и разберем подробно архитектуры ее решений.

EXAM — State-of-the-art метод классификации текста
2019-01-12 в 14:27, admin, рубрики: nlp, nlp (natural language processing), Алгоритмы, глубокое обучение, классификация текста, классификация текстов, машинное обучениеКлассификация текста — одна из наиболее распространенных задач в NLP и обучении с учителем, когда датасет содержит текстовые документы, а метки используются для тренировки текстового классификатора.
Читать полностью »
Building client routing – semantic search at Profi.ru
2018-11-03 в 10:02, admin, рубрики: data science, deep learning, machine learning, natural language processing, nlp (natural language processing), python3, pytorch, машинное обучениеBuilding client routing / semantic search and clustering arbitrary external corpuses at Profi.ru
TLDR
This is a very short executive summary (or a teaser) about what we managed to do in approximately 2 months in the Profi.ru DS department (I was there for a bit longer, but onboarding myself and my team was a separate thing to be done at first).