Рубрика «Семантика» - 13

Минимализм, текстовый парсинг и классификатор на оперативных шаблонах

2016-03-18 в 20:49, admin, рубрики: C, c; c++; обработка текстов;, c++, высокая производительность, поисковые технологии, Семантика, метки: c; c++; обработка текстов;

Как часто нам приходится сталкиваться с обработкой текстовых потоков в реальном времени? Как минимум при каждой загрузке файлов инициализации или конфигурации и тому подобных параметрических данных. Хорошо, когда его содержимое сводится к формату «param = value» и можно воспользоваться стандартными инструментами нарезки. Но что если по ходу разработки программы возникла необходимость усложнить тексты до работы со ссылками? Или обрабатывать условия на этапе чтения? Более того реализовать ветвления? В такой ситуации обычно на скорую руку пишется парсер, занимающий первоначально некоторое количество строчек кода. Который однако со временем разрастается, начинает ветвиться и в конечном итоге приводит к самоповторению, либо заходит в самоисключающий тупик. Именно в этот момент и появляется в голове мысль, что вся суть смысловой разбивки текста сводится к определенному количеству шаблонных операций, зависимых от контекста. И все что требуется для обработки текстов любой сложности — это абстрактный обработчик шаблонов, а не сложносочиненный парсер с детальным описанием всех возникающих условий.
Читать полностью »

Что делает программное обеспечение качественным?

2016-03-16 в 18:26, admin, рубрики: html, javascript, ПО, Программирование, разработка, разработка программного обеспечения, разработка софта, Семантика

КДПВ

Кто-то создает программное обеспечение с открытым исходным кодом, а я провожу много времени размышляя над тем, как сделать программное обеспечение лучше. Бесконечный поток просьб о помощи на форумах Stack Overflow, GitHub, Slack, в электронных письмах и личных сообщениях неизбежен. К счастью, в итоге вы знаете многих людей, которые добились определенного успеха и сделали фантастические вещи, и знание о том, что вы приняли в этом участие благодаря вам и вашей помощи, является хорошей мотивацией для новых достижений.

У вас возникает вопрос: какие качества программного обеспечения приводят разработчика к успеху или к неудаче? Как я могу улучшить свой софт и помочь бо́льшему количеству людей стать успешным? Я могу ясно сформулировать некоторые основные принципы или полагаюсь на интуицию в зависимости от конкретного случая? (Рождение и воплощение одной мысли это два совершенно разных действия).

Возможно это что-то вроде принципов Дитера Рамса, способствующих качественному дизайну программного обеспечения?

Хороший проект является инновационным.
Хороший проект делает продукт полезным.
Хороший проект эстетичен.
Хороший проект делает продукт понятным.
Хороший проект ненавязчив.
Хороший проект честен.
Хороший проект длителен.
Хороший проект продуман до мельчайших деталей.
Хороший проект безвреден для окружающей среды.
В хорошем проекте дизайна настолько мало, насколько это возможно.

Читать полностью »

Реализация семантического новостного агрегатора с широкими поисковыми возможностями

2016-02-16 в 12:07, admin, рубрики: information extraction, nlp, извлечение информации, извлечение фактов, лингвистика, поисковые технологии, Семантика, метки: information extraction, извлечение информации, извлечение фактов

Реализация семантического новостного агрегатора с широкими поисковыми возможностями - 1 Цель этой статьи — поделиться опытом и идеями реализации проекта, основанного на полном преобразовании текстов в семантическое представление и организации семантического (смыслового) поиска по полученной базе знаний. Речь пойдет об основных принципах функционирования этой системы, используемых технологиях, и проблемах, возникающих при ее реализации.

Зачем это нужно?

В идеале, семантическая система «понимает» содержание обрабатываемых статей в виде системы смысловых понятий и выделяет из них главные («о чем» текст). Это дает огромные возможности по более точной кластеризации, автоматическому реферированию и семантическому поиску, когда система ищет не по словам запроса, а по смыслу, который стоит за этими словами.

Семантический поиск – это не только ответ по смыслу на набранную в поисковой строке фразу, а в целом способ взаимодействия пользователя с системой. Семантическим запросом может быть не только простое понятие или фраза, но и документ — система при этом выдает семантически связанные документы. Профиль интересов пользователя – это тоже семантический запрос и может действовать в «фоновом режиме» параллельно с другими запросами. Читать полностью »

Отношение «часть – целое» в темпоральной-событийной онтологии

2016-02-10 в 13:13, admin, рубрики: Анализ и проектирование систем, классификация, моделирование предметной области, онтологии, онтологическое моделирование, Семантика

Исходная публикация цикла («Классы, множества, группы, системы») заканчивалась выводом, что традиционная классификация индивидов через приписывание их к тем или иным классам-множествам не может считаться однородной, и следует различать (1) включение индивидов как частей в сложный объект (целое) и (2) подпадание индивидов под понятия, которые можно разделить на концептуальные и реляционные. Во втором тексте («Концептуальное описание индивидов») была предложена оригинальная иерархия концептуальных понятий («категория – тип – концепт – род – вид – разновидность – индивид»). В текущей публикации речь пойдет о классификации отношений типа «часть –целое». В лингвистических тезаурусах и в онтологиях верхнего уровня (WordNet, РуТез, SUMO, CYC Ontology, DOLCE) описаны различные варианты выделения подвидов отношения «часть – целое». В тексте предлагается еще один способ классификации.

Читать полностью »

Концептуальное описание индивидов

2016-01-31 в 17:58, admin, рубрики: Анализ и проектирование систем, классификация, моделирование предметной области, онтологии, Семантика

Концептуальные и реляционные понятия

Описание предметной области начинается с выделения объектов, и мы вынуждены это делать еще не имея никакой классификации, которую мы могли бы использовать в качестве шаблона для их различения. У нас есть только свое представление о мире (и предметной области), своя понятийная сетка, в которой прошиты типовые указания: это собака, это машина, это договор. Причем примечательно, что для подведения индивида под понятия («собака», «машина», «договор») нам не требуется проводить анализ, фиксировать атрибуты – понятия фигурируют в нашем мышлении в виде гештальт-образов, с которыми и происходит сопоставление выделенного из среды индивида. Последнее замечание наводит на мысль, что любое описание предметной области должно начинаться с формирования списка понятий, с помощью которых мы сможем выделять объекты, не обращая внимания на их атрибутивное описание.
Читать полностью »

Исходные коды библиотеки нейронных сетей на F# для .NET Framework

2016-01-28 в 14:57, admin, рубрики: .net, F#, open source, Блог компании MeanoTek, машинное обучение, нейронные сети, Семантика

Периодически я получаю запросы относительно исходных кодов нейронных сетей, использованных в моих работах по анализу тональности, генерации текстов, а также в статьях на Хабре. Поэтому я решил выложить всё-таки их в открытый доступ, вместе с библиотекой на которую они опираются, несмотря на достаточно сырой код. В этой статье я напишу где взять, что можно сделать и немного о том, как пользоваться. Написана библиотка на языке F#, но использовать ее можно из любого .NET языка.
Читать полностью »

Пирожки в дистрибутивной семантике

2016-01-26 в 10:13, admin, рубрики: python, дистрибутивная семантика, Семантика

Уже несколько месяцев с любопытством гляжу в сторону дистрибутивной семантики — познакомился с теорией, узнал про word2vec, нашёл соответствующую библиотеку для Питона (gensim) и даже раздобыл модель лексических векторов, сформированную по национальному корпусу русского языка. Однако для творческого погружения в материал не хватало душезабирающих данных, которые было бы интересно через дистрибутивную семантику покрутить. Одновременно с этим увлечённо почитывал стишки-пирожки (эдакий синтез задиристых частушек и глубокомысленных хокку) — некоторые даже заучивал наизусть и по случаю угощал знакомых. И вот, наконец, увлечённость и любопытство нашли друг друга, породив воодушевляющую идею в ассоциативных глубинах сознания — отчего бы не совместить приятное с полезным и не собрать из подручных средств какой-нибудь «поэтичный» поисковик по базе пирожков.

из ложных умозаключений
мы можем истину сложить
примерно как перемножают
два отрицательных числа

Читать полностью »

Классы, множества, группы, системы

2016-01-25 в 15:19, admin, рубрики: Анализ и проектирование систем, классификация, моделирование предметной области, онтологии, Семантика, системный анализ

Описание предметной области (создание ее онтологии) начинается с выделения объектов и их классификации, которая традиционно заключается в составлении дерева классов-подклассов и приписывании к ним индивидов. При этом термин «класс», по сути, используется в значении «множество»: отнесение объекта к классу мыслится как включение его в качестве элемента в соответствующее множество. Цель этого текста показать, что такой унифицированный подход к описанию структуры предметной области является сильным упрощением и не позволяет зафиксировать разнообразие семантических отношений объектов.
Читать полностью »

Некоторые современные подходы в области обработки естественного языка

2016-01-05 в 23:51, admin, рубрики: Алгоритмы, вопросно-ответные системы, глубокое обучение, нейронные сети, понимание естественного языка, Программирование, Семантика, Хакатоны, метки: семантика

Результаты научных исследований, полученные в последние годы в задачах распознавания речи [1], машинного перевода [2], определения оттенка предложения [3] и частей речи [4] показали перспективность нейросетевых алгоритмов глубокого обучения в сравнении с классическими методами обработки естественного языка (natural language processing). Однако, в области вопросно-ответных и диалоговых систем еще остается много нерешенных задач [5, 6]. В данной статье дан обзор результатов применения современных алгоритмов для задач обработки и понимания естественного языка. Обзор содержит описание нескольких разных подходов и не претендует на полноту исследований.
Некоторые современные подходы в области обработки естественного языка - 1
Human: how many legs does a cat have ?
Machine: four, i think .
Human: What do you think about messi ?
Machine: he ’s a great player .
Human: where are you now ?
Machine: i ’m in the middle of nowhere .

(из статьи A Neural Conversational Model. КДПВ из фильма Ex Machina)

Читать полностью »

FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов

2015-12-24 в 21:13, admin, рубрики: data mining, FactRuEval, information extraction, named entities, natural language processing, opencorpora, Блог компании ABBYY, именованные сущности, Компьютерная лингвистика, конференция Диалог, Семантика, соревнование, метки: конференция Диалог

FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов - 1 Соревнования по различным аспектам анализа текста проводятся на международной конференции по компьютерной лингвистике «Диалог» каждый год. Обычно сами соревнования проходят в течение нескольких месяцев до мероприятия, а на самой конференции объявляют результаты. В этом году планируются три соревнования:

по выделению именованных сущностей и фактов – FactRuEval;
по анализу тональности – SentiRuEval;
по исправлению опечаток – SpellRuEval.

Статья, которую вы начали читать, преследует три цели. Первая – мы хотели бы пригласить разработчиков систем автоматического анализа текстов принять участие в соревнованиях. Вторая – мы ищем помощников, которые могли бы разметить текстовые коллекции, на которых будут проверяться системы наших участников (это, во-первых, интересно, а во-вторых – вы сможете принести реальную пользу науке). Ну а третья – соревнования по выделению именованных сущностей и фактов проводятся на “Диалоге” впервые, и мы хотим рассказать всем заинтересованным читателям, как они будут происходить.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «Семантика» - 13

Минимализм, текстовый парсинг и классификатор на оперативных шаблонах

Что делает программное обеспечение качественным?

Реализация семантического новостного агрегатора с широкими поисковыми возможностями

Зачем это нужно?

Отношение «часть – целое» в темпоральной-событийной онтологии

Концептуальное описание индивидов

Концептуальные и реляционные понятия

Исходные коды библиотеки нейронных сетей на F# для .NET Framework

Пирожки в дистрибутивной семантике

Классы, множества, группы, системы

Некоторые современные подходы в области обработки естественного языка

FactRuEval — соревнование по выделению именованных сущностей и извлечению фактов

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «Семантика» - 13

Зачем это нужно?

Концептуальные и реляционные понятия

Новости

Актуальные темы

Архив