Рубрика «классификация» - 5

Компания Hola объявляет начало весеннего конкурса по программированию! Призовой фонд увеличен:

  1. Первое место: 3000 USD.
  2. Второе место: 2000 USD.
  3. Третье место: 1000 USD.
  4. Возможно, мы решим отметить чьи-то чрезвычайно оригинальные решения двумя специальными призами в 400 USD.
  5. Если Вы отправите кому-то ссылку на этот конкурс, поставив наш адрес в CC, и этот человек займёт призовое место, Вы получите половину суммы приза (разумеется, не в ущерб награде победителя). За одного победителя такую награду может получить только один человек — тот, кто отправил ссылку первым.

Мы ищем талантливых программистов, поэтому авторы интересных решений будут приглашены на собеседования.

Конкурс по программированию на JS: Классификатор слов - 1

Правила

На этот раз мы решили попробовать что-то новенькое: для разнообразия, этот конкурс — не на производительность кода.

Условия конкурса на английском языке размещены на GitHub. Ниже — перевод на русский язык.

Читать полностью »

ВВЕДЕНИЕ

Статистика аварийных происшествий показывает, что в настоящее время наиболее опасным участком полёта по-прежнему остаётся посадка. Причём в большинстве случаев аварийные происшествия происходят по вине личного состава (рис. 1). Таким образом, задача оценки действий летчика по управлению воздушным судном на этапе посадки является актуальной как для гражданской, так и для военной авиации, поскольку позволяет повысить безопасность полётов.

image
Рис. 1. Диаграммы распределения аварийных происшествий по этапам полёта и по видам нарушений личного состава

Выполненный анализ существующих способов оценивания качества пилотирования на основе информации бортовых устройств регистрации (БУР) показал их недостаточную эффективность.
В соответствии с Курсом боевой подготовки (КБП) оценка качества выполнения посадочного маневра определяется на основании данных бортовых и наземных средств объективного контроля, а также наблюдений инструктора и лиц группы руководства полетами (рис. 2).

image
Рис. 2. Структура формирования оценки

По КБП оценка техники пилотирования на этапе посадки по материалам бортовых СОК выполняется путем анализа параметров полета в 4-х контрольных сечениях глиссады (рис. 3): вход в глиссаду, прохождение дальнего приводного радиомаяка (ДПРМ), прохождение ближнего приводного радиомаяка (БПРМ), касание взлетно-посадочной полосы.

image
Рис. 3. Снижение самолёта по глиссаде

При этом полетные данные используются не в полном объеме: из 14 нормативных параметров, установленных КБП для оценки качества выполнения посадки, только 5 параметров определяются по материалам БУР, что составляет всего 35,7 %. Остальные параметры определяются на основании наблюдений инструктора и лиц группы руководства полетами, что вносит значительную долю субъективизма в итоговую оценку.
Таким образом, существует необходимость дополнения методики КБП параметрами, учитывающими характер пилотирования самолета на протяжении всего этапа снижения по глиссаде и регистрируемыми штатными БУР.
Читать полностью »

Сегодня закончился «первый» хакатон по дата журналистике. Мы заняли на нём первое место. Проделали огромный объём работы за одни сутки. Я хотел бы рассказать как всё было.

Темой хакатона были финансы российских СМИ. Ежегодно государство поддерживает СМИ, поднимающие в своих материалах социально важные темы. Для этого проводится специальный конкурс. Главным критерием отбора получателей субсидий является «социальная значимость» проекта. Мы решили понять, что скрывается за формулировкой «социальная значимость» и какие темы оказались самыми популярными и «дорогими» в 2015 году.

Забегая вперёд, скажу, что ответ такой:

  • По опросам очень много россиян считают себя патриотами, но государство всё равно даёт больше всего денег на проекты про патриотизм.
  • 2015 год был годом литературы и на него пришлось 70 лет победы, поэтому «год литературы» и «историческая память в топе».
  • Субсидии, по идее, должны даваться на социально значимые проекты, «развитие Крыма», например, не очень в тему.
  • В целом складывается ощущение, что чаще пишут и читают об исторической памяти, чаще вспоминают достижения прошлых лет, в то время как на материалы об инновациях и новых технологиях государство выделяет меньше.

Как мы участвовали в хакатоне по дата журналистике. Социально значимое: Государству виднее - 1

А теперь как мы пришли к этим выводам.
Читать полностью »

Исходная публикация цикла («Классы, множества, группы, системы») заканчивалась выводом, что традиционная классификация индивидов через приписывание их к тем или иным классам-множествам не может считаться однородной, и следует различать (1) включение индивидов как частей в сложный объект (целое) и (2) подпадание индивидов под понятия, которые можно разделить на концептуальные и реляционные. Во втором тексте («Концептуальное описание индивидов») была предложена оригинальная иерархия концептуальных понятий («категория – тип – концепт – род – вид – разновидность – индивид»). В текущей публикации речь пойдет о классификации отношений типа «часть –целое». В лингвистических тезаурусах и в онтологиях верхнего уровня (WordNet, РуТез, SUMO, CYC Ontology, DOLCE) описаны различные варианты выделения подвидов отношения «часть – целое». В тексте предлагается еще один способ классификации.

Читать полностью »

Концептуальные и реляционные понятия

Описание предметной области начинается с выделения объектов, и мы вынуждены это делать еще не имея никакой классификации, которую мы могли бы использовать в качестве шаблона для их различения. У нас есть только свое представление о мире (и предметной области), своя понятийная сетка, в которой прошиты типовые указания: это собака, это машина, это договор. Причем примечательно, что для подведения индивида под понятия («собака», «машина», «договор») нам не требуется проводить анализ, фиксировать атрибуты – понятия фигурируют в нашем мышлении в виде  гештальт-образов, с которыми  и происходит сопоставление выделенного из среды индивида. Последнее замечание наводит на мысль, что любое описание предметной области должно начинаться с формирования списка понятий, с помощью которых мы сможем выделять объекты, не обращая внимания на их атрибутивное описание.
Читать полностью »

Описание предметной области (создание ее онтологии) начинается с выделения объектов и их классификации, которая традиционно заключается в составлении дерева классов-подклассов и  приписывании к ним индивидов. При этом термин «класс», по сути, используется в значении «множество»:  отнесение объекта к классу мыслится как включение его в качестве элемента в соответствующее множество. Цель этого текста показать, что такой унифицированный подход к описанию структуры предметной области является сильным упрощением и не позволяет зафиксировать разнообразие семантических отношений объектов.
Читать полностью »

Сканеры безопасности: автоматическая классификация уязвимостей - 1

Растущее количество угроз вынуждает разработчиков средств анализа защищенности постоянно усовершенствовать свои решения. Сейчас на рынке ИБ представлен широкий выбор сканеров безопасности от различных производителей, которые разнятся по своей эффективности. Это делает невозможным выпуск новых версий сканеров без конкурентного анализа подобных продуктов.

Компания Positive Technologies разработала собственную методологию конкурентного анализа для тестирования и сравнения сканеров по объективным критериям, таким как типы и количество найденных уязвимостей, полнота сканирования различных целей. Кроме того, была сформирована база данных конкурентного анализа (DBCA — Database of Competitive Analysis), в которой собраны уникальные уязвимости, найденные в процессе ручных проверок и автоматического сканирования синтетических целей, реальных сайтов, CMS, веб-приложений и прочих информационных систем сканерами безопасности (WebEngine – встроенный в PT AF и PT AI, Acunetix, AppScan и др.). DBCA используется для сравнения результатов сканирования новыми версиями сканеров Positive Technologies с результатами сторонних сканеров и отсеивания ложных срабатываний (false positive).

Однако наполнение DBCA требует месяцев ручного труда высококвалифицированных инженеров-тестировщиков. Процессы настройки окружений и сканирования занимают много времени, порой недели. Еще дольше происходит процесс валидации найденных уязвимостей. Так, над заполнением текущей базы работали три инженера отдела QA в течение года. В связи с этим возникла необходимость ускорения и автоматизации работ.

Решением стало использование математического аппарата нейронных сетей (НС) и нечетких измерительных шкал. Об этом мы подробно писали в предыдущей статье «Сканеры безопасности: автоматическая валидация уязвимостей с помощью нечетких множеств и нейронных сетей». Теоретические исследования вошли в основу практического эксперимента, поставленного инженерами Positive Technologies: Тимуром Гильмуллиным, Владимиром Софиным, Артемом Юшковским.

Была решена формальная задача по преобразованию DBCA в базу знаний, путем использования НС (в качестве решающего правила) и нечетких измерительных шкал (для лингвистической оценки результатов классификации в понятной человеку форме). Практически DBCA была дополнена правилами и механизмами отсеивания ложных срабатываний, заранее отсортированных по степени уверенности в их наличии, оцененных на нечеткой измерительной шкале. Это позволило ускорить работу инженеров-тестировщиков по анализу результатов сканирования и отсеиванию ложных срабатываний. Читать полностью »

Рассмотрим такую задачу: есть 1000 новостных сайтов, например: engadget.com, huffingtonpost.com, sbnation.com. Их нужно распределить по классам про игры, про бизнес и финансы, про IT, про кино и музыку, например. Как это сделать? Можно просто брать один сайт за другим и назначать ему класс, но чтобы обработать таким образом 1000 сайтов нужно иметь крепкую психику и уйму времени. Можно сделать более технично: взять граф похожих сайтов, выделить интересующий подграф на 1000 вершин и кластеризовать его. Про граф похожих сайтов было написано несколько месяцев назад мной и ребятами из DCA. Граф про новостные сайты будет выглядеть примерно так:
Полуавтоматическая классификация сайтов - 1

Действительно, некоторые классы получается выделить автоматически, например «игры» и «технологии»:
Полуавтоматическая классификация сайтов - 2
Читать полностью »

image

Дождливым полднем 1968 года молодой австралийский выпускник Бойд Рэйворд зашёл в заброшенный офис в здании Парк Леопольд в Брюсселе. Внутри был «захламлённый, затхлый, весь в паутине офис, который заливало дождём». Кипы бумаг, книг и рукописей высились до потолка – интеллектуальные «остатки кораблекрушения» от, на первый взгляд неорганизованного, учёного.

Предыдущий хозяин офиса, Поль Отле, был к тому времени мёртв уже 25 лет. Библиограф, пацифист и предприниматель, в своё время он был признанным гением, наслаждался компанией нобелевских лауреатов и принимал участие в создании Лиги Наций. Ко времени смерти в 1944 году он увидел, как закатилась его репутация, как разрушились его планы и как нацисты растащили и уничтожили крупную часть его работы. Когда он умер, незадолго до конца войны, вряд ли кто-нибудь это заметил.

Кто же такой был Поль Отле? Встречайте забытого отца информационной архитектуры.

Веб, которого не было

imageВ 1934 году, годами ранее изобретения Вэниваром Бушем концепции «мемекса» (прообраза гипертекстового устройства), десятилетиями до изобретения Тэдом Нельсоном термина «гипертекст», Поль Отле придумал новый вид рабочей станции учёного – движущийся стол в форме колеса, работающий с набором спиц на шарнирах, расположенных под несколькими движущимися поверхностями. Машина позволяла бы пользователю искать, читать и вносить новые записи в огромную механическую базу данных, хранящую сведения на индексных карточках размера 3х5.

Система позволяла бы не только получать документы – можно было бы также обозначать связи между ними, «связи, который каждый документ имеет со всеми другими, и который бы создавали нечто, что можно было бы назвать Универсальной Книгой».

Отле представлял себе, как пользователи когда-нибудь получат доступ к базе данных с любого расстояния посредством «электрического телескопа», соединяющегося с ней по телефонной линии и получающего факсимильное изображение, проецируемое на плоский экран.
Читать полностью »

Добрый день, коллеги!

Я предлагаю вам прочитать статью, которая является логическим продолжением начатой мной серии статей, посвященных моделированию предметных областей.

Моделирование функциональных и физических событий в логической парадигме - 1

В этой статье я продолжаю давать определения терминам в рамках логической парадигмы. Я развиваю мысль о том, что такое реальность и о том, как мы ее моделируем. Я подчеркиваю тот факт, что мир, в котором мы живем, — это иллюзия. Мы даже не знаем, есть ли мы на самом деле, или наше существование — тоже иллюзия. Наше «Я» думает, что существует, но существует оно в мире иллюзий. Все, что мы видим, и что моделируем, — мы видим иллюзию и моделируем иллюзию.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js