Рубрика «онтологии»

Вступление

Данная статья предназначена для тех, кто знаком с таким понятием как онтология хотя бы на начальном уровне. Если Вы не знакомы с онтологиями, то, скорее всего, Вам будет не ясна цель онтологий и данной статьи в частности. Советую ознакомиться с данным явлением, прежде чем начать чтение данной статьи (возможно хватит даже статьи с Википедии).

Итак Онтология — это детальная характеристика некой рассматриваемой предметной области. Такая характеристика должна быть дана на каком-либо четко сформулированном языке. Для описания онтологий можно использовать методологию IDEF5, которая имеет в своем арсенале 2 языка:

  • Схематический язык IDEF5. Этот язык является визуальным и использует графические элементы.
  • Текстовый язык IDEF5. Этот язык представляется в виде структурированного текста.

В данной статье будет рассмотрен первый вариант — схематический язык. О текстовом поговорим в следующих статьях.
Читать полностью »

Поисковик Google по датасетам вышел из беты - 1

Для машинного обучения и научных исследований требуется много данных. В помощь разработчикам и исследователям, Наташа Ной с коллегами из исследовательского подразделения Google Research в сентябре 2018 года выпустили специализированную поисковую систему Dataset Search. 23 января 2020 года поисковик вышел из беты, с новыми инструментами для лучшей фильтрации поиска и доступом почти к 25 миллионам наборов данных.

Датасеты публикуют в открытом доступе многие учреждения: университеты, государственные организации и лаборатории. Но зачастую их трудно найти с помощью традиционного поиска. Поисковик Dataset Search обрабатывает теги метаданных в формате Schema, тут наборы данных самой разной тематики: от лыжных травм до популяции пингвинов.
Читать полностью »

image

Мысль о неизбежности перехода глобальной сети от сайтоцентристской структуры к юзероцентристской я высказал еще 2012 году (Философия эволюции и эволюция интернета или в сокращенном виде WEB 3.0. От сайтоцентризма к юзероцентризму). В этом году я попытался развить тему нового интернета в тексте WEB 3.0 — второй подход к снаряду. Сейчас же выкладываю вторую часть статьи WEB 3.0 или жизнь без сайтов (советую просмотреть перед чтением этой страниц).

Итак, что же получается? Интернет в версии web 3.0 есть, а сайтов нет? А что же тогда есть?
Читать полностью »

Исходная публикация цикла («Классы, множества, группы, системы») заканчивалась выводом, что традиционная классификация индивидов через приписывание их к тем или иным классам-множествам не может считаться однородной, и следует различать (1) включение индивидов как частей в сложный объект (целое) и (2) подпадание индивидов под понятия, которые можно разделить на концептуальные и реляционные. Во втором тексте («Концептуальное описание индивидов») была предложена оригинальная иерархия концептуальных понятий («категория – тип – концепт – род – вид – разновидность – индивид»). В текущей публикации речь пойдет о классификации отношений типа «часть –целое». В лингвистических тезаурусах и в онтологиях верхнего уровня (WordNet, РуТез, SUMO, CYC Ontology, DOLCE) описаны различные варианты выделения подвидов отношения «часть – целое». В тексте предлагается еще один способ классификации.

Читать полностью »

Концептуальные и реляционные понятия

Описание предметной области начинается с выделения объектов, и мы вынуждены это делать еще не имея никакой классификации, которую мы могли бы использовать в качестве шаблона для их различения. У нас есть только свое представление о мире (и предметной области), своя понятийная сетка, в которой прошиты типовые указания: это собака, это машина, это договор. Причем примечательно, что для подведения индивида под понятия («собака», «машина», «договор») нам не требуется проводить анализ, фиксировать атрибуты – понятия фигурируют в нашем мышлении в виде  гештальт-образов, с которыми  и происходит сопоставление выделенного из среды индивида. Последнее замечание наводит на мысль, что любое описание предметной области должно начинаться с формирования списка понятий, с помощью которых мы сможем выделять объекты, не обращая внимания на их атрибутивное описание.
Читать полностью »

Описание предметной области (создание ее онтологии) начинается с выделения объектов и их классификации, которая традиционно заключается в составлении дерева классов-подклассов и  приписывании к ним индивидов. При этом термин «класс», по сути, используется в значении «множество»:  отнесение объекта к классу мыслится как включение его в качестве элемента в соответствующее множество. Цель этого текста показать, что такой унифицированный подход к описанию структуры предметной области является сильным упрощением и не позволяет зафиксировать разнообразие семантических отношений объектов.
Читать полностью »

Современные программы в значительной степени строятся из готовых кирпичиков — библиотек. Уникального кода и архитектурных решений в каждой программе относительно мало. Очень часто бывает, что существующие библиотеки не слишком высокого качества, но даже самый крутой программист не станет их переписывать.

Этот факт находит отражение и в изменении учебных курсов. Сассман, автор SICP, самого известного курса по программирование, сказал: " инженерное дело в середине 90-ых, а уж тем более в 2000-ых сильно отличается от инженерного дела 80-ых. В 80-ых хорошие программисты проводили много времени в размышлениях, а потом писали немного кода, который работал. Код работал близко к «железу», даже Scheme — все было прозрачно на всех стадиях. Как с резистором, достаточно посмотреть на цветную маркировку, чтобы узнать номинальную мощность, допустимые отклонения, сопротивление и V=IR — это все, что нужно знать. 6.001 был задуман как курс для обучения инженеров тому, как из маленьких кубиков, в которых они досконально разбираются, посредством простых техник составлять сложные конструкции, которые делают то, что от них хотят. Но программирование сейчас далеко не то же самое. Теперь вы ковыряетесь в непонятной или несуществующей документацией для софта, даже неизвестно, кем написанного. Вы должны досконально исследовать библиотеки, чтобы узнать, как они работают, пробовать разные исходные данные и смотреть, как реагирует код. Это в корне иная работа, и для нее требуется иной курс обучения."

Строительные кирпичики стандартизированы — каменщику обычно не приходится выбирать подходящий именно для этого места кирпич. С библиотеками все наоборот — то, что предназначено для обработки PDF не подойдет для создания распределенной вычислительной системы. Возникает потребность найти нужную библиотеку, в ней нужную функцию и понять, как ее встроить в свою программу. Google, как и любая другая ориентированная на естественный язык поисковая система пока помогает мало. Так что рассмотрим другие подходы.
Читать полностью »

Одной из причин причина слабого использования Linked Data-баз знаний в обычных, ненаучных приложениях является то, что мы не привыкли придумывать юзкейсы, видя перед собой только данные. Трудно спорить с тем, что сейчас в России производится крайне мало взаимосвязанных данных. Однако это не значит, что разработчик, создающий приложение для русскоязычной аудитории совсем уж отрезан от мира семантического веба: кое-что всё-таки у нас есть.
image
Основными источниками данных для нас являются международные базы знаний, включающие русскоязычный контент: DBpedia, Freebase и Wikidata. В первую очередь это справочные, лингвистические и энциклопедические данные. Каждый раз когда вам в голову приходит мысль распарсить кусочек википедии или викисловаря — ущипните себя как следует и вспомните о том, что всё, что хранится в категориях, инфобоксах или таблицах, уже распарсено и доступно через API с помощью SPARQL или MQL-интерфейса.

Я попробую привести несколько примеров полезных энциклопедических данных, которые вы не найдете нигде, кроме Linked Data.

Эта статья — первая из цикла Базы знаний. Следите за обновлениями.

  • Часть 1 — Введение
  • Часть 2 — Freebase: делаем запросы к Google Knowledge Graph
  • Часть 3 — Dbpedia — ядро мира Linked Data
  • Часть 4 — Wikidata — семантическая википедия

Читать полностью »

MilkyWeb — Graph of Everything

В данной статье я хочу поделиться своими мыслями по поводу способов решения фундаментальных проблем современного Интернета. Хочу описать модель, которая, по моему мнению, может помочь ещё лучше упорядочить знания в интернете, и продемонстрировать свою попытку реализации такой модели.
Читать полностью »

Ежедневно, выполняя свои должностные и прочие функции, современный человек сталкивается с задачей анализа большого объема информации и поиска необходимых ему данных. Со временем происходит накопление пользовательских данных в виде документов. Эти документы в сумме составляют некоторое информационное пространство пользователя. С каждым новым документом все острее встает вопрос организации этого пространства: с течением времени из пары – тройки папок с иерархически – расположенными в них файлами получается огромная кипа документов, которую достаточно сложно привести к иерархической форме с линейными связями. Перед нами встает задача конкретизации, категоризации и визуализации информационного пространства пользователя.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js