Рубрика «Семантика» - 6

Эта работа является продолжением всего сказанного ранее в статье «Нейронные сети, генетические алгоритмы и прочее… Мифы и реальность. Версия II». В большинстве статей, посвященных анализу текстов, которые удалось изучить автору, под анализом текста понимается главным образом две совершенно практические задачи, связанные либо с извлечением какого-либо контекста, либо перевод текста с одного языка на другой. В первом случае речь, как правило, идет или об «очистке» анализируемого контента и сопоставлению какого-либо участка текста эталону в соответствии с заранее заданной таксономией1 каких-либо сущностей. Например, разбор адресов, товаров и т.д. Во втором случае, о поиске соответствия одного блока текста, написанного на одном языке блоку, написанному на другом.

Объединяющим оба эти варианта является статистический, по сути, анализ участков контекстов, с учетом синонимов слов, устоявшихся выражений. При этом зам рамками такого рода анализ выходит анализ троп2, риторических оборотов и много другого. Причина этого кроется в непонимании современной наукой даже на философском уровне некоторых базовых вопросов, связанных с логикой мышления и принятия решения, построения знаковых систем т.е. неразвитость семиотики и т.д.

Читать полностью »

Здравствуйте, коллеги! В этой статье я кратко расскажу об особенностях построения решения по классификации тем обращений клиентов в контактный центр, с которыми мы столкнулись при разработке.

Определение тем обращений используется для отслеживания тенденций и прослушивания интересующих записей. Традиционно, эта задача решается путём проставления соответствующего тега оператором, но при данном подходе большую роль играет «человеческий» фактор, и тратится много человеко-часов работы операторов.

Разработка системы классификации тем обращений в контактный центр - 1
Читать полностью »

Прошло уже достаточно времени с момента публикации моей первой статьи на тему обработки естественного языка. Я продолжал активно исследовать данную тему, каждый день открывая для себя что-то новое.
Сегодня я бы хотел поговорить об одном из способов классификации поисковых запросов, по отдельным категориям с помощью нейронной сети на Keras. Предметной областью запросов была выбрана сфера автомобилей.
За основу был взят датасет размером ~32000 поисковых запросов, размеченных по 14ти классам: Автоистория, Автострахование, ВУ (водительское удостоверение), Жалобы, Запись в ГИБДД, Запись в МАДИ, Запись на медкомиссию, Нарушения и штрафы, Обращения в МАДИ и АМПП, ПТС, Регистрация, Статус регистрации, Такси, Эвакуация.Читать полностью »

Новый год — время чудес и подарков. Главным чудом, которое подарила нам природа, безусловно является естественный язык и человеческая речь. А мы, в свою очередь, хотим сделать новогодний подарок всем исследователям этого феномена и поделиться датасетом по открытой семантике русского языка.

В статье мы позволим себе немного подискутировать на тему смыслов, расскажем как мы пришли к необходимости создания открытой семантической разметки, расскажем о настоящих результатах и будущих направлениях этой большой работы. И, конечно, дадим ссылку на датасет, который вы сможете скачать и использовать для своих экспериментов и исследований.Читать полностью »

Продолжаю рассказывать про проекционное моделирование.
Следующая тема, которую я хочу затронуть, — это объяснение, почему мы определили связь в конструкции как 4-Д объект. Напомню, что в проекционном моделировании связь – это общая часть элементов конструкта. Поскольку элементы конструкта – это 4-Д объекты, то связи – тоже 4-Д объекты. То есть, для существования связи между двумя 4-Д объектами должен быть общий 4-Д объем, принадлежащий обоим этим объектам.

Мы привыкли считать связью нечто, что существует между двумя объектами, но никто в аналитике еще не давал еще точного определения этому понятию. Мы сделали это впервые. Я расскажу, почему в данной дисциплине связь определена так, а не иначе.

Пространственные связи

Начнем с простого: пусть объекты связаны общим положением в пространстве или во времени. Это связи типа «справа», «выше», «после», «вместе» и т.д. Для моделирования такого рода связей нам нужно рассмотреть 4-Д пространство, в котором помещены рассматриваемые нами 4-Д объекты. 4-Д пространство играет такую же роль, как и другие 4-Д объекты. Обычно моделирование начинается именно с того, что мы формируем границы модели, то есть, 4-Д пространство, в котором потом размещаем 4-Д объекты. Почему-то про этот самый первый 4-Д объект забывают сразу после его определения. Но именно его свойства позволяют нам описать указанные мной связи.
Читать полностью »

Вступление

Спасибо Игорю Катричеку за прекрасный вопрос! На форуме, посвященном проекционному моделированию, он задал интересный вопрос:

Если я буду смотреть на вал двигателя, и его повороты сольются для меня в единое целое, то это будет функция. Если я буду отсчитывать каждый поворот вала на 90 градусов или другой угол, то это будет операция. А если я буду следить за положением точки на валу, например, с целью автоматического регулирования её координат, то что это? Например, на валу радиолокационная антенна. Операций нет, так как нет начала и конца движения, повороты вала не дискретны, требуемое положение антенны постоянно меняется оператором, а фактическое меняется от ветра. Функций тоже нет, так как повороты вала не сливаются в единое вращение. Что это?

Вопрос настолько интересный, что я решил посвятить ему отдельную статью. Это поможет на конкретном примере разобраться с определениями проекционного моделирования. Заодно, я расскажу, какой у меня запрос к математикам.
Читать полностью »

Введение

В прошлой статье Проекционное моделирование я дал определения и тезисы проекционного моделирования. Начиная с этой, я начну подробный рассказ, почему же все-таки это сделано так, а не иначе и как это работает.

Дуальность

Часто можно слышать: этот объект одновременно обладает и свойствами такими-то и свойствами такими-то. Например, такое часто можно услышать про квантовую частицу. Якобы она обладает одновременно и свойствами волны, и свойствами частицы. В моей модели нет дуальностей. Как только появляется дуальность, это значит, что у нас есть либо две разные точки зрения на описание 4-Д объекта, или два разных метода.
Читать полностью »

Вступление

В прошлой статье я рассмотрел, что такое моделирование. Из этого рассказа должно было возникнуть чувство, что обмен описаниями скорее невозможен, чем возможен. У каждого субъекта свой мир в его сознании. Кто-то видит модель в виде образа, кто-то слышит ее в виде речи, кто-то осязает ее. Как мы при этом умудряемся о чем-то договориться, совершенно непонятно. И все же мы это делаем. Как это нам удается, — вопрос к психологам. Нам же стоит удивиться и воспользоваться этой возможностью, чтобы идти дальше.

В идеале должно быть так: два разных субъекта, получив на вход одну и ту же информацию, должны дать ее описание в одном и том же виде. Вспомните начертательную геометрию. Вам дается задание начертить конус. И все студенты чертят похожие рисунки, называемые чертежами. Так и в случае моделирования более сложных объектов: предприятий, зданий, процессов, мы должны добиться такого же уровня унификации, при котором все будут чертить похожие рисунки, писать похожие тексты (и т.д.), называемые моделями.

Для этого надо придумать единый язык моделирования. Для машиностроителей, строителей, технологов был придуман язык проекционной геометрии. Изначально он был создан как язык описания фортификационных сооружений и был засекречен. Но потом он распространился на другие области, став доминирующим на протяжении трех столетий.

Я претендую на создание подобного языка, но для описания более сложных объектов: операций, функций, объектов. Об этом языке сегодня мой рассказ.
Читать полностью »

Пирожки в Go - 1

В продолжение эпопеи с дистрибутивно-семантическими пирожками (и в погоне за модными тенденциями) решил переписать веб-сервис с лапидарного Питона на прогрессивный Go. Заодно был вынужден перенести и всю «интеллектуальную» часть (благо, не бином Ньютона). Сделать это оказалось куда проще и приятней, чем предполагал в начале. Впрочем, на медово-синтаксическом празднике жизни не обошлось без ложки дёгтя — самая быстрая гошная «числодробилка», какую смог найти (mat из gonum) таки уступила по скорости питоновской связке numba + numpy.
Читать полностью »

«Автоматический детектор спама». Или «О чем предупреждали Хемингуэй, Хаксли и Постман?» - 1

У каждого человека внутри должен быть
встроенный автоматический детектор дерьма
(Эрнест Хемингуэй, 1954)

В этот день почти пятьдесят лет назад в Национальную конвенцию учителей английского языка (Вашингтон D.C.) была доставлена необычная статья. Нейл Постман, американский писатель, педагог, теоретик медиа и критик культуры поднял тему о том, что главная задача учителей — это научить детей противостоять влиянию бесполезной и ложной информации.

28 ноября 1969 года

Отрывок из статьи:

Я вижу это так: лучшее, что могут сделать школы для детей, — это научить их отличать полезную информацию от бесполезной. Думаю, что все серьезные люди понимают, что около 90% того, что дают в школе, оказывается бесполезным. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js