Рубрика «Семантика» - 14

Война, мир и ABBYY Compreno: продолжение нашего романа с Толстым

2015-12-21 в 6:49, admin, рубрики: Compreno, Блог компании ABBYY, лингвистика, Семантика

Война, мир и ABBYY Compreno: продолжение нашего романа с Толстым - 1 Недавно мы рассказывали здесь о том, как делался проект «Весь Толстой в один клик». С помощью 3249 (трех тысяч двухсот сорока девяти) волонтеров и 1 (одной) хорошей OCR-технологии мы оцифровали 46820 страниц 90-томного собрания сочинений писателя, тщательно вычитали их и выложили во всеобщий доступ.

Но если вы думали, что наш «роман с Толстым» на этом закончился, то вы ошибались – оцифровав тексты писателя, мы начали исследовать их при помощи технологии извлечения информации ABBYY Compreno – не пропадать же такому богатому материалу. О том, что дал нам «text mining Толстого» и где теперь используются полученные результаты, читайте дальше.

Введение

Главной целью проекта «Весь Толстой в один клик» было сделать творчество Толстого по-настоящему всеобщим достоянием, чтобы все вышедшие из-под его пера тексты были доступны в один клик в любой точке Земли. Как, кстати, и завещал сам автор, еще при жизни отказавшийся от всех прав на свои тексты (да-да, анонимус, Лев Толстой знал про копилефт и опендату задолго до этих ваших интернетов и Ричарда Столлмана).

Однако возможность загрузить книжку в удобном формате в ридер или планшет – не единственный плюс оцифровки. Теперь тексты Толстого можно не только читать, но и «измерять», то есть исследовать разными количественными методами, используя весь арсенал средств автоматической обработки текста (АОТ, она же NLP). Ведь если у вас есть все тексты писателя в электронном виде, даже с помощью одного-двух грамотных поисковых запросов вы можете получить любопытные данные, на добычу которых в иные времена мог потратить недели и месяцы упорного труда какой-нибудь литературовед. А уж если у вас к тому же имеется продвинутая технология анализа естественного языка, то есть шансы сделать серьезное филологическое открытие (даже не будучи филологом). Ниже я расскажу, что удалось намерить и узнать нам, но перед этим – пара слов о том, кто, как и зачем занимается автоматической обработкой художественных текстов и что интересного может при этом получиться.Читать полностью »

Как мы придумывали систему анализа текстов

2015-04-21 в 14:31, admin, рубрики: Блог компании MeanoTek, личный опыт, машинное обучение, обработка естественного языка, Программирование, самообучение, Семантика

Доброго времени суток всем. Это наш первый пост в блог стартапа «Meanotek», и наверное он будет больше ознакомительного характера. Чтобы не было совсем скучно читать, мы попробуем рассказать историю, о том как одна практическая задача привела нас к созданию полноценной системы «понимания» текста компьютером, и что из этого получилось.

Мысль научить компьютер общаться на человеческом языке у меня появилась еще в школе, когда у меня дома был один из первых советских аналогов IBM PC, с языком программирования GW BASIC. Понятно, что далеко эта задумка в то время не ушла, потом ее заслонили другие более важные дела, но совершенно неожиданно она всплыла вновь спустя много лет, уже в связи с конкретной потребностью.

Собственно идея пришла в голову во время работы над другим проектом — сайтом поиска отзывов reviewdot.ru. Идея reviewdot.ru была в следующем — пользователь вводит запрос, например «зеркальный фотоаппарат для начинающих» — и получает список ссылок на отзывы в интернете, которые касаются именно этого вопроса. Или к примеру, чтобы по запросу «что ломается в стиральной машине Indesit?” появлялись ссылки на отзыв пользователей марки Indesit, у которых что-то сломалось. Вопрос ценности данного ресурса для людей пока оставим за скобками, и поговорим немного о технической стороне реализации.
Читать полностью »

WEB 3.0. От сайтоцентризма к юзероцентризму, от анархии к плюрализму

2015-04-19 в 13:22, admin, рубрики: semantic web, web 2.0, интернет, Семантика

В тексте в конспективном виде изложены идеи, высказанные автором в докладе «Философия эволюции и эволюция интернета».

Основные недостатки и проблемы современного веба:

Катастрофическая перегруженность сети многократно дублированным контентом, при отсутствии надежного механизма поиска оригинального источника.
Рассредоточенность и несвязанность контента – невозможность сделать исчерпывающую выборку по тематике и, тем более, по уровням анализа.
Зависимость формы представления контента от издателей (зачастую случайных, преследующих собственные, обычно коммерческие, цели).
Слабая связанность результатов поиска с онтологией (структурой интересов) пользователя.
Малая доступность и слабая классифицированность архивного контента сети (в частности, социальных сетей).
Малое участие профессионалов в организации (систематизации) контента, хотя именно они по роду своей деятельности повседневно занимаются как раз систематизацией знаний, но результат их работы фиксируется лишь на локальных компьютерах.

Читать полностью »

Философия эволюции и эволюция интернета

2015-04-14 в 13:56, admin, рубрики: semantic web, ИИ, Семантика, социальные сети, философия

Текст не о философии в интернете и не о философии интернета – философия и интернет в нем строго разведены: первая часть текста посвящена философии, вторая – интернету. В качестве связующей оси между двумя частями выступает понятие «эволюция»: разговор пойдет о философии эволюции и об эволюции интернета. Сначала будет продемонстрировано, как философия – философия глобального эволюционизма, вооруженная концептом «сингулярность» – неизбежно подводит нас к мысли, что именно интернет является прообразом будущей постсоциумной эволюционной системы; а потом и сам интернет, вернее логика его развития, подтвердит право философии рассуждать на, казалось бы, сугубо технологические темы.
Читать полностью »

Моделирование функциональных и физических событий в логической парадигме

2015-03-31 в 2:31, admin, рубрики: Анализ и проектирование систем, аналитика, классификация, логическая парадигма, математика, моделирование предметной области, онтологическое моделирование, онтология, ооп, Семантика, Терминология IT

Добрый день, коллеги!

Я предлагаю вам прочитать статью, которая является логическим продолжением начатой мной серии статей, посвященных моделированию предметных областей.

Моделирование функциональных и физических событий в логической парадигме - 1

В этой статье я продолжаю давать определения терминам в рамках логической парадигмы. Я развиваю мысль о том, что такое реальность и о том, как мы ее моделируем. Я подчеркиваю тот факт, что мир, в котором мы живем, — это иллюзия. Мы даже не знаем, есть ли мы на самом деле, или наше существование — тоже иллюзия. Наше «Я» думает, что существует, но существует оно в мире иллюзий. Все, что мы видим, и что моделируем, — мы видим иллюзию и моделируем иллюзию.
Читать полностью »

Новый инструмент проверки структурированных данных, документация и не только

2015-02-13 в 12:19, admin, рубрики: Google, JSON-LD, Блог компании Google, веб-дизайн, Веб-разработка, документация, инструменты тестирования, правила, проверка, разметка, Семантика, синтаксис, структурированные данные, метки: структурированные данные

Разметка структурированных данных позволяет показывать дополнительную информацию с вашего сайта в результатах поиска и сервисах Google. Мы рады представить несколько обновлений, которые помогут создавать разметку на сайте:

Новый Инструмент проверки структурированных данных, который показывает, как Google интерпретирует ваш контент.
Дополненная документация и правила использования возможностей Google, основанных на технологии структурированных данных.
Расширенная поддержка синтаксиса разметки JSON-LD.

Инструмент проверки структурированных данных

Новый Инструмент проверки структурированных данных лучше показывает то, как Google интерпретирует разметку структурированных данных на странице сайта.

Читать полностью »

Новый инвариант натурального числа. Теорема и доказательство

2015-02-05 в 12:03, admin, рубрики: Алгоритмы, информационная безопасность, контур, криптография, математика, Семантика, ф-инвариант, метки: интервал, контур, ф-инвариант

Ранее на Хабре была опубликована работа автора об инварианте числа (здесь). Еще ранее в работе [1] приводятся сведения об оригинальной концепции моделирования натурального ряда чисел и отдельного числа с целью установления свойств, слабо зависящих или вообще не зависящих от разрядности чисел. Ранее не приводились теоремы для доказательства истинности положений, которые используются автором в работах. Анализ комментариев к работам показал насколько недоверчиво читательская аудитория относится к подобным работам и утверждениям.
Читать полностью »

Word2Vec в примерах

2015-01-29 в 13:38, admin, рубрики: data mining, word2vec, Поисковые машины и технологии, Семантика

Волею судеб в мои руки попал обученный на поисковых запросах Word2Vec. Под катом даны примеры использования с пояснениями.
Читать полностью »

На тему моделирования предметной области в терминах ООП

2015-01-29 в 11:55, admin, рубрики: анализ, Анализ и проектирование систем, аристотель, логическая парадигма, моделирование предметной области, онтология, ооп, парадигмы, Семантика

Здравствуйте.

Эта замечательная статья подтолкнула меня опубликовать давние мысли, касающиеся моделирования предметной области с помощью объектно-ориентированного программирования.

К актуальности изложенных в статье идей, приходишь подспудно (не имея возможности выразить по причине того, что парадигме моделирования в терминах теории множеств не учат в вузах, будущих «программистов», по крайней мере), долго работая с ООП и реляционными базами данных:

Каждый раз при моделировании предметной области, оперируя терминами ООП (сейчас говорим не об этапе бизнес-анализа, а о последующем этапе реализации модели в коде), для всех сущностей предметной области приходится реализовывать в коде и схеме БД следующий паттерн, состоящий их «подсущностей», связанных между собой:

класс/таблицу вида «Машины» (здесь и далее класс употребляю в терминах ООП);
класс/таблицу вида «Список машин»;
класс/таблицу вида «Машина».

Далее с помощью механизмов ООП и реляционной модели «подсущности связываются между собой.

Причем термины „сущность“ и „подсущность“ применимы именно к модели предметной области в терминах теории множеств,
а в терминах ООП/реляционной модели уместны термины „метасущность“ и „сущность“ соответственно.
Надеюсь, понятно, почему? — ООП/реляционная модель являются более низкоуровневыми механизмами, и сущность предметной области приходится конструировать, нет в них средств, которые нативными образом позволили бы отразить сущность предметной области.

А далее следуют ожидаемые проблемы:

Читать полностью »

Зачем нам нужен понятный язык?

2015-01-21 в 21:26, admin, рубрики: usability, Блог компании «Информационная культура», Семантика

Зачем нам нужен понятный язык? Откуда вообще взялось это явление? Что такое «plain language» в мире и кто поддерживает это движение? На все эти вопросы я постараюсь ответить в этой заметке.

Предысторию вы можете прочитать в прошлой публикации на Хабре, где был рассказ про алгоритмы, используемые для оценки читабельности текстов. Эта заметка должна была быть в вводной к той, о технологиях.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «Семантика» - 14

Война, мир и ABBYY Compreno: продолжение нашего романа с Толстым

Введение

Как мы придумывали систему анализа текстов

WEB 3.0. От сайтоцентризма к юзероцентризму, от анархии к плюрализму

Философия эволюции и эволюция интернета

Моделирование функциональных и физических событий в логической парадигме

Новый инструмент проверки структурированных данных, документация и не только

Инструмент проверки структурированных данных

Новый инвариант натурального числа. Теорема и доказательство

Word2Vec в примерах

На тему моделирования предметной области в терминах ООП

А далее следуют ожидаемые проблемы:

Зачем нам нужен понятный язык?

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «Семантика» - 14

Введение

Инструмент проверки структурированных данных

А далее следуют ожидаемые проблемы:

Новости

Актуальные темы

Архив