Рубрика «обработка текстов» - 2

Я уже писал, зачем нужно такое прогнозирование — Создание искусственного интеллекта.
Здесь же я буду описывать только алгоритм прогнозирования, без лишней лирики.

Рассматривать буду прогнозирование последовательности байтов или же текста UTF-8. Прогнозирование последовательности дробных чисел — графиков — во многом подобно, только нужно значения сравнивать не на равенство, а на принадлежность окрестностям.

Пусть будет поток байтов (или скажем текст UTF-8) — входящие прогнозируемые данные. Поступающие данные сохраняем во множество сохраненной истории. Каждое очередное поступающее значение учитываем в структуре для накопления статистики:
Читать полностью »

Базовые принципы

Этот текст является продолжением поста о библиотеке Strutext обработки текстов на языке C++. Здесь будет описана реализация лексического уровня представления языка, в частности, реализация морфологии.

Читать полностью »

Введение

Этот текст можно рассматривать как обзор библиотеки Strutext, задуманной автором как набор эффективных алгоритмов лингвистической обработки текста на языке C++. Код библиотеки находится в репозитории на Github. Библиотека имеет открытый исходный код и поставляется под лицензией Apache License 2.0, т.е. может быть использована совершенно бесплатно без каких-либо существенных ограничений.

Читать полностью »

Необходимость сложной обработки текстовых данных, хранящихся в ERP-системах (и не только) возникает достаточно часто. В качестве вводных примеров можно привести следующие:

  • Унификация наименований товарной номенклатуры
  • Автоматическая расстановка формализованных атрибутов товаров на основании их наименований или описаний
  • Преобразование почтовых адресов как с целью унификации так и для формального структурирования
  • Определение пола человека по его имени
  • Извлечение информации из примечаний к документам (например, для автоматического связывания записи из выписки с отгрузочными документами)
  • и т.д. (фантазировать можно еще долго)

Читать полностью »

Привет!
Хочу представить вам простой текстовый редактор для легковесных языков разметки, таких как Markdown и reStructuredText.

Редактор написан на Python с использованием библиотек PyQt и работает на Linux и других UNIX-подобных операционных системах. Поддерживает вкладки, «живой просмотр», подсветку синтаксиса и экспорт в популярные форматы.
Читать полностью »

В принципе, любой Интеллект какого-либо Объекта или Системы определяется ПОВЕДЕНИЕМ этого Объекта или этой Системы, которое, в свою очередь, определяется в общем случае двумя технологиями: ФИЗИОЛОГИИ (Психики), как рефлекторные реакции на входное воздействие, и РАЗУМА (Сознания), как осмысленные решения на оценку обстановки.

Уровень известных «перцептронных» технологий (и иже с ними различной «нейро-кванто-семанто-статистико-математико-сетевой лабуды) это, как раз, технология Физиологии. То есть, пришёл сигнал на вход, значит, выполнил соответствующее действие. Но это просто «безмозглые автоматы» и вот они называются «слабым ИИ».
Однако, естественный Интеллект человека базируется, в основном, на второй технологии – на Разуме. А это уже «сильный ИИ». Вот в чём их принципиальная разница – в Сознании.Читать полностью »

Помните, в интернете, году этак в 2003, проходила картинка, в которой сообщалось, что неважно в каком порядке идут буквы в слове, лишь бы первая и последняя были на местах, а остально мозг сам скомпонует и вычленит смысл. Вот оригинальный текст:

По рзелульаттам илссеовадний одонго анлигйсокго унвиертисета, не иеемт занчнеия, в кокам пряокде рсапожолены бкувы в солве. Галвоне, чотбы преавя и пслоендяя бквуы блыи на мсете. Осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм. Пичрионй эгото ялвятеся то, что мы чиатем не кдаужю бкуву по отдльенотси, а все солво цликеом.

В английском варианте это звучало так:

Arocdnicg to rsceearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoatnt tihng is taht the frist and lsat ltteer are in the rghit pcale. The rset can be a toatl mses and you can sitll raed it wouthit pobelrm. Tihs is buseace the huamn mnid deos not raed ervey lteter by istlef, but the wrod as a wlohe.

Попытка поэкспериментировать с разными текстами показала, что с русским языком все не так безоблачно, как с английским и алгоритм эффективного и readable-перемешивания все-таки немного другой.

Читать полностью »

После интересной публикации об изобретении для глухо-немых (См. «Украинские студенты создали перчатки, переводящие язык жестов в речь»), за авторов которых был искренне рад, я выразил в комментариях своё сомнение о практической пользе такого новшества на текущий момент, будучи уверен в том, что на сегодня вряд ли получится какой-либо действенный инструмент, способный реально помочь понимать язык жестов.

А не получится он ровно по той же самой причине, которая препятствует созданию качественного естественно-язычного машинного переводчика. И причина эта кроется ровно в том, что компьютер, как мы знаем, не обучен понимать СМЫСЛ языкового сообщения, будь оно представлено, хоть, в вербальном виде, хоть, в эпистолярном (текстовом) виде, или даже в виде жестов. Читать полностью »

26 мая 2012 в Санкт-Петербурге пройдет первая конференция AINL: Искусственный интеллект и естественный язык. Основные темы и направления: распознавание и синтез речи, искусственный интеллект и диалоговые системы, инженерия знаний и онтологии, извлечение данных и data mining.
Конференция будет длиться один день, официальный язык — русский.
Сейчас мы формируем программу и приглашаем докладчиков.

image
Читать полностью »

26 мая 2012 в Санкт-Петербурге пройдет первая конференция AINL: Искусственный интеллект и естественный язык. Основные темы и направления: распознавание и синтез речи, искусственный интеллект и диалоговые системы, инженерия знаний и онтологии, извлечение данных и data mining.
Конференция будет длиться один день, официальный язык — русский.
Сейчас мы формируем программу и приглашаем докладчиков.

image
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js