Рубрика «Семантика» - 12

Az.js: JavaScript-библиотека для обработки текстов на русском языке

2016-06-15 в 16:51, admin, рубрики: azjs, data mining, DAWG, javascript, natural language processing, nlp, open source, pymorphy2, tokenizer, Алгоритмы, естественные языки, морфология, Семантика, синтаксис, токенизация, метки: az, azjs

Как чуден и глубок русский курлык
— Генератор постов

Обработка естественного языка (natural language processing, NLP) — тема, на мой взгляд, очень интересная. Во-первых, задачи тут чисто алгоритмические: на вход принимаем совершенно примитивный объект, строчку, а извлечь пытаемся вложенный в него смысл (ну или хотя бы частичку смысла). Во-вторых, необязательно быть профессиональным лингвистом, чтобы решать эти задачи: достаточно знать родной язык на более-менее приличном уровне и любить его.

А ещё с небольшими затратами можно сделать какого-нибудь бестолкового чат-бота — или, как вот я, генератор постов на основе того, что вы писали на своей страничке в соцсети. Возможно, кто-то из вас уже видел это приложение — оно довольно глупое, чаще всего выдает бессмысленный и бессвязный текст, но изредка всё же дает повод улыбнуться.

Бессвязность текстов в нынешней версии «Генератора» вызвана тем, что на самом деле никакого анализа он производить не умеет. Просто в одних случаях «предсказывает» продолжение предложения по собранным биграммам, а в других — заменяет в готовом предложении некоторые слова на другие, которые заканчиваются похоже. Вот и вся начинка.

Конечно, хочется сделать что-нибудь поинтереснее. Беда в том, что модные сейчас нейросети не очень-то применимы здесь: им нужно много ресурсов, большую обучающую выборку, а в браузере у пользователя соцсети всего этого нет. Поэтому я решил изучить вопрос работы с текстами с помощью алгоритмов. К сожалению, готовых инструментов для работы с русским языком на JavaScript найти не удалось, и я решил сделать свой маленький велосипед.
Читать полностью »

Как мы делали систему выделения информации из текста на естественном языке для банка АО «Банк ЦентрКредит» (Казахстан)

2016-05-31 в 14:17, admin, рубрики: data mining, Алгоритмы, Блог компании MeanoTek, машинное обучение, нейронные сети, обработка естественного языка, обработка текстов, Семантика, метки: Машинное обучение

Некоторое время назад к нам обратился представитель банка АО «Банк ЦентрКредит» (Казахстан) с интересной задачей. Необходимо было интегрировать в конвейер обработки данных, представляющих из себя текст на естественном языке, дополнительный инструмент обработки. Всех деталей проекта мы раскрывать не можем, так как он находится в сфере безопасности банка и разрабатывается его службой безопасности. В освещении технологических аспектов задачи и способов их реализации заказчик не был против, что собственно мы и хотим сделать в рамках данной статьи.

В целом задача, состояла в извлечении некоторых сущностей из большого массива текстов. Не сильно отличающаяся проблема от классической задачи извлечения именованных сущностей, с одной стороны. Но определения сущностей отличались от обычных и тексты были довольно специфическими, а сроку на решение проблемы было две недели.
Читать полностью »

О проблеме one-shot обучения для нейросетей

2016-05-30 в 18:15, admin, рубрики: connectome, fast mapping, overfitting, remodelling, rewiring, Алгоритмы, ассоциативная память, гипотезы, машинное обучение, нейробиология, Семантика, метки: connectome, overfitting, remodelling, rewiring, гипотезы

О проблеме one-shot обучения для нейросетей - 1 Современные нейросети для успешного обучения требуют обучающие датасеты большого размера. Они не умеют что-то понимать с одного примера. Это затрудняет их использование в тех областях, где больших датасетов не создано. В то же время, человеку нередко бывает достаточно пары частных примеров, чтобы сделать глубокое обобщение. Предлагаю поговорить о том, что уже имеется по этой проблеме, и что из нейрофизиологии можно было бы (наверное) использовать для улучшения ситуации.
Читать полностью »

Введение в продолжения и макросы на Scheme

2016-05-30 в 13:09, admin, рубрики: call/cc, continuations, guile, Scheme, Алгоритмы, макросы, Программирование, продолжения, Семантика, метки: call/cc, continuations, Guile, Scheme, продолжения

Если вы не слышали о call/cc, то вам определённо стоит познакомиться с этим мощным инструментом! Поговорим о продолжении (call/cc), простой, но трудно понимаемой конструкции, обладающей огромной силой в правильных руках. Реализуем с их помощью механизм yield/next/for… in, аналогичный таковому в Python. Обернём внутренности с помощью макроса — ещё одного интересного механизма Scheme.

Статья ориентирована на начинающих программистов. Лисперы вряд ли почерпнут что-то новое, но я буду благодарен за найденные ошибки.

Читать полностью »

Не мы такие — жизнь такая: Тематический анализ для самых нетерпеливых

2016-05-26 в 19:15, admin, рубрики: big data, data mining, nlp, relap, Блог компании Surfingbird, классификация, машинное обучение, нативная реклама, рекомендательные системы, Семантика, тематическое моделирование, формула Байеса, метки: формула Байеса

bayesian

Почему?

Сейчас Relap.io генерирует 40 миллиардов рекомендаций в месяц на 2000 медиаплощадках Рунета. Почти любая рекомендательная система, рано или поздно, приходит к необходимости брать в расчет содержимое рекомендуемого контента, и довольно быстро упирается в необходимость как-то его классифицировать: найти какие-то кластеры или хотя бы понизить размерность для описания интересов пользователей, привлечения рекламодателей или еще для каких-то темных или не очень целей.

Задача звучит довольно очевидно и существует немало хорошо зарекомендовавших себя алгоритмов и их реализаций: Латентное размещение Дирихле (LDA), Вероятностный латентно-семантический анализ (pLSA), явный семантический анализ (ESA), список можно продолжить. Однако, мы решили попробовать придумать что-нибудь более простое, но вместе с тем, жизнеспособное.
Читать полностью »

Сосчитать незримое: достоверно определяем словарный запаc

2016-05-19 в 16:41, admin, рубрики: Алгоритмы, Блог компании Онлайн-школа английского Skyeng, изучение языка, корпус текстов, лингвистический анализ, Семантика, метки: изучение языка, корпус текстов, лингвистический анализ

Сосчитать незримое: достоверно определяем словарный запаc - 1

В школе Skyeng мы редко обучаем английскому с нуля. Обычно к нам приходят люди, уже обладающие каким-то набором знаний, причем этот набор бывает самым разным. Для того, чтобы обучение было полезным, нам нужно как-то определить границу этих знаний. Если в случае грамматики это относительно просто (выясняется на первых занятиях с методистом), то уточнение границ словарного запаса – задача не самая тривиальная. Для ее решения мы разработали и запустили инструмент WordMash.

Читать полностью »

Создание экспертной системы в Wi!Mi 1.1

2016-04-05 в 10:41, admin, рубрики: IDE, tutorial, Wi!Mi, XML, Алгоритмы, миварный подход, Семантика, создание алгоритмов, экспертная система, метки: Wi!Mi, миварный подход, создание алгоритмов, экспертная система

Создание экспертной системы в Wi!Mi 1.1 - 1 Wi!Mi – это инструмент для создания моделей знаний с неограниченным количеством связей, параметров и отношений, обладающий логическим выводом. Скачать данный конструктор можно с официального сайта.
К сожалению, адекватного туториала по данной программе я не нашел, не считая видеоурока на youtube. Поэтому решил написать его самостоятельно.
Читать полностью »

Частотный словарь запрещенных сайтов

2016-03-29 в 15:22, admin, рубрики: data mining, визуализация данных, запрещенные сайты, корпус слов, открытые данные, Роскомнадзор, Семантика

Исследование проводилось в целях создания корпуса слов сайтов, заблокированных государственными органами Российской Федерации.
Читать полностью »

Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)

2016-03-29 в 13:45, admin, рубрики: big data, data mining, обсценная лексика, Семантика, соц.сети

Один мой приятель, учитель латинского языка, в начале урока спрашивал своих студентов, выполнили ли они домашнее задание. Как правило, если не первый, то второй или третий ученик сознавался: простите, господин Учитель, я ничего не сделал. «Фак!» — говорил учитель. «Фак!» — повторял он, вводя в еще большее недоумение своих чад. «Сегодня мы будем проходить глагол третьего спряжения facio – делать», который в повелительном наклонении единственного числа так и произносится: fac! – делай!

Нет, мы не собираемся витийствовать о том, что не бывает хороших и плохих слов, а есть наша оценка оных. Также мы не будем говорить об истоках и функциях русской брани, не будем обсуждать моральную сторону вопроса, как и искать причинно-следственные связи ее употребления. Мы проведем небольшое исследование обсценной лексики на материалах русскоязычных соц. медиа, сделаем ряд замеров и расчетов на большой выборке из интернет-источников.
Читать полностью »

Русский нейросетевой чатбот

2016-03-27 в 18:23, admin, рубрики: Блог компании MeanoTek, машинное обучение, нейронные сети, поисковые технологии, разработка, Семантика, чатбот

О чатботах, использующих нейронные сети я уже писал некоторое время назад. Сегодня я расскажу о том как я попробовал сделать полномасштабный русскоязычный вариант.

Русский нейросетевой чатбот - 1

Обучаемые диалоговые системы приобрели в последнее время неожиданную популярность. К сожалению, все что сделано в рамках нейросетевых диалоговых систем, сделано для английского языка. Но сегодня мы восполним этот пробел и научим модель говорить по русски.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «Семантика» - 12

Az.js: JavaScript-библиотека для обработки текстов на русском языке

Как мы делали систему выделения информации из текста на естественном языке для банка АО «Банк ЦентрКредит» (Казахстан)

О проблеме one-shot обучения для нейросетей

Введение в продолжения и макросы на Scheme

Не мы такие — жизнь такая: Тематический анализ для самых нетерпеливых

Почему?

Сосчитать незримое: достоверно определяем словарный запаc

Создание экспертной системы в Wi!Mi 1.1

Частотный словарь запрещенных сайтов

Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)

Русский нейросетевой чатбот

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «Семантика» - 12

Почему?

Новости

Актуальные темы

Архив