В ходе работы DLP-система ежедневно перехватывает огромные массивы информации – это и письма сотрудников, и информация о действиях пользователей на рабочих станциях, и сведения о хранящихся в сети организации файловых ресурсах, и оповещения о несанкционированном выводе данных за пределы организации. Но полезной эта информация будет только в случае, если в DLP реализован качественный механизм поиска по всему массиву перехваченных коммуникаций. С тех пор, как в 2000 году увидела свет первая версия нашего DLP-решения, мы несколько раз меняли механизм поиска по архиву. Сегодня мы хотим рассказать о том, какие технологии мы использовали, какие видели в них преимущества и недостатки, и почему мы от них в итоге отказывались. Возможно, кому-то наш опыт окажется полезен.
Читать полностью »
Рубрика «поисковые технологии» - 19
«В активном поиске»: как мы выбирали поисковый механизм для DLP-системы
2017-10-26 в 6:45, admin, рубрики: dlp, elastic search, oracle, oracle context, postgresql, solar dozor, sphinx, sphinx search, Блог компании Solar Security, информационная безопасность, поисковые технологииЧто должен знать о поиске каждый разработчик
2017-10-12 в 7:03, admin, рубрики: Alconost, big data, elasticsearch, Алгоритмы, Блог компании Alconost, запросы, индекс, индексирование, информационный поиск, машинное обучение, поиск, поисковая система, поисковые технологии, разработка, ранжирование поиска, семантический поиск, функция поискаХотите внедрить или доработать функцию поиска? Вам сюда.
Спросите разработчика: «Как бы вы реализовали функцию поиска в своем продукте?» или «Как создать поисковую систему?». Вероятно, в ответ вы услышите что-нибудь такое: «Ну, мы просто запустим кластер Elasticsearch: с поиском сегодня всё просто».
Но так ли это? Во многих современных продуктах по-прежнему не лучшим образом реализован поиск. Настоящий специалист по поисковым системам скажет вам, что лишь немногие разработчики глубоко понимают, как работает поиск, а ведь это знание часто необходимо для улучшения качества поиска.
Есть множество программных пакетов с открытым исходным кодом, проведено немало исследований, однако лишь немногие избранные понимают, как нужно делать функциональный поиск. Как ни забавно, но если поискать в Интернете связанную с реализацией поиска информацию, вы не найдете актуальных и содержательных обзоров.
Цель статьи
Этот текст можно считать собранием ценных идей и ресурсов, которые могут помочь в создании функции поиска. Статья, безусловно, не претендует на исчерпывающую полноту, однако я надеюсь, что ваши отзывы помогут ее доработать (оставляйте замечания в комментариях или свяжитесь со мной).
Основываясь на опыте работы с универсальными решениями и узкоспециализированными проектами самого разного масштаба (в компаниях Google, Airbnb и нескольких стартапах), я расскажу о некоторых популярных подходах, алгоритмах, методах и инструментах.
Недооценка и непонимание масштабов и сложности задачи поиска могут привести к тому, что у пользователей останутся плохие впечатления, разработчики потратят время впустую, а продукт провалится.
Переведено в Alconost
Читать полностью »
В поисках разума: можно ли сделать “универсальный” чат-бот с помощью нейронных сетей?
2017-10-11 в 14:40, admin, рубрики: big data, Блог компании MeanoTek, машинное обучение, нейронные сети, обработка естественного языка, поисковые технологии, Семантика, чат-ботДиалоговые системы, они же чат-боты, сегодня размножились до неприличия. Но уровень их «интеллекта» часто удручающий. Популярные чат-боты работают либо с помощью шаблонов, либо используя модель «намерение+сущности». С простыми задачами они справляются отлично (поставить будильник, напоминание, найти ответ на часто задаваемый вопрос), но узость и ограниченность их «мышления» легко выявляется даже при поверхностном опросе. Могут ли нейросети помочь создать нечто более совершенное, возможно приближающееся к действительно разумному?
Читать полностью »
Графы большие и маленькие: интеллектуальное решение проблемы выбора представления
2017-10-10 в 8:45, admin, рубрики: AI, Delphi, gpu, Алгоритмы, алгоритмы поиска, интернет, искусственный интеллект, ооп, органическая химия, поисковые технологии, Программирование, теория графов, этюды для программистов(Этюд для программистов или заявка на Интернет-поиск нового типа)
Программа, делающая из мухи слона (далее программа МС), показала, что неориентированный граф существительных с заданным количеством букв хоть и содержит тысячи вершин, но при этом довольно «тощий» (т.е. имеет сравнительно не много ребер) и до полного графа ему далеко (см. Пример 1). Вслед за Чарлзом Уэзереллом (Charles Wetherell), автором широко известной книги «Этюды для программистов», выбрал жанр этюда, чтобы представить различные способы представления таких графов. (И сделать из этого выводы для автоматизации выбора представления – вплоть, может быть, до Интернет-поиска нового типа).
Start for word length 8
6016 words loaded from dictionary file: ..DictionaryORF3.txt
Graph was made: edges number = 871
Пример 1. Характеристики графа существительных длиной 8 букв.
Читать полностью »
Как Яндекс учит искусственный интеллект разговаривать с людьми
2017-10-10 в 7:04, admin, рубрики: data mining, алиса, Блог компании Яндекс, голосовое управление, голосовой помощник, искусственный интеллект, машинное обучение, поисковые технологии, разработка мобильных приложений, яндексВ будущем, как нам кажется, люди будут взаимодействовать с устройствами с помощью голоса. Уже сейчас приложения распознают точные голосовые команды, заложенные в них разработчиками, но с развитием технологий искусственного интеллекта они научатся понимать смысл произвольных фраз и даже поддерживать разговор на любые темы. Сегодня мы расскажем читателям Хабра о том, как мы приближаем это будущее на примере Алисы – первого голосового помощника, который не ограничивается набором заранее заданных ответов и использует для общения нейронные сети.
Несмотря на кажущуюся простоту, голосовой помощник – один из самых масштабных технологических проектов Яндекса. Из этого поста вы узнаете, с какими сложностями сталкиваются разработчики голосовых интерфейсов, кто на самом деле пишет ответы для виртуальных помощников, и что общего у Алисы с искусственным интеллектом из фильма «Она».
20 лет Яндексу. Лекция Ильи Сегаловича — человека, который придумал это слово
2017-09-23 в 16:31, admin, рубрики: 80-е, 90-е, Блог компании Яндекс, илья сегалович, опыт, поисковые технологии, Промышленное программирование, стартап, яндекс, Яндекс APIРовно 20 лет назад — 23 сентября 1997 года — в интернете появился Яндекс. Аркадий Волож, Илья Сегалович, Елена Колмановская представили на выставке Softool поисковую систему Yandex.ru. Открывали её, перерезав ленточку перед компьютером — потому что не понимали, как надо открывать сайты в интернете.
Тогда он состоял из 5 тысяч сайтов, на которых было размещено около 4 гигабайт текста. Люди подходили к демонстрационному компьютеру, пробовали задавать запросы и получали ответы. На тот момент Яндекс учитывал морфологию русского языка, расстояние между словами и умел ранжировать документы.
Это одна из последних лекций, которую прочитал iseg, сооснователь и первый технический директор Яндекса Илья Сегалович. Она посвящена истории Яндекса с того момента, как Илья и Аркадий Волож сели в школе за одну парту. Качество записи лекции не настолько хорошее, насколько бы нам хотелось, но содержание — бесценно.
Как Яндекс научил искусственный интеллект понимать смысл документов
2017-08-22 в 17:06, admin, рубрики: Блог компании Яндекс, индексирование, искусственный интеллект, королев, машинное обучение, нейронные сети, палех, поиск, поисковые технологии, ранжирование, Семантика, яндексСегодня мы расскажем о новой поисковой технологии «Королев», которая включает в себя не только более глубокое применение нейронных сетей для поиска по смыслу, а не по словам, но и значительные изменения в архитектуре самого индекса.
Но зачем вообще понадобились технологии из области искусственного интеллекта, если еще лет двадцать назад мы прекрасно находили в поиске искомое? Чем «Королев» отличается от прошлогоднего алгоритма «Палех», где также использовались нейронные сети? И как архитектура индекса влияет на качество ранжирования? Специально для читателей Хабра мы ответим на все эти вопросы. И начнем с самого начала.
Делаем приложения с поиском на Go
2017-07-19 в 12:28, admin, рубрики: bleve, bleve search, blevesearch, Go, поиск, поисковые технологии, пщОднажды в рассылке Golang Weekly мне попался проект Bleve. Это полнотекстовый поиск, который написан на Go. Проект интересный, и появилось бешеное желание получить с ним опыт работы.
Bleve может хранить данные в разных embedded БД:
- BoltDB (использует по умолчанию)
- LevelDB
- RocksDB
- Goleveldb
- forestdb
- Gtreap
Яндекс открывает технологию машинного обучения CatBoost
2017-07-18 в 9:19, admin, рубрики: catboost, open source, python, xgboost, Блог компании Яндекс, градиентный бустинг, матрикснет, машинное обучение, нейронные сети, поисковые технологии, яндексСегодня Яндекс выложил в open source собственную библиотеку CatBoost, разработанную с учетом многолетнего опыта компании в области машинного обучения. С ее помощью можно эффективно обучать модели на разнородных данных, в том числе таких, которые трудно представить в виде чисел (например, виды облаков или категории товаров). Исходный код, документация, бенчмарки и необходимые инструменты уже опубликованы на GitHub под лицензией Apache 2.0.
CatBoost – это новый метод машинного обучения, основанный на градиентном бустинге. Он внедряется в Яндексе для решения задач ранжирования, предсказания и построения рекомендаций. Более того, он уже применяется в рамках сотрудничества с Европейской организацией по ядерным исследованиям (CERN) и промышленными клиентами Yandex Data Factory. Так чем же CatBoost отличается от других открытых аналогов? Почему бустинг, а не метод нейронных сетей? Как эта технология связана с уже известным Матрикснетом? И причем здесь котики? Сегодня мы ответим на все эти вопросы.
Чудесный мир Word Embeddings: какие они бывают и зачем нужны?
2017-07-17 в 11:03, admin, рубрики: data mining, glove, nlp, opendatascience, python, SVD, word2vec, Блог компании Open Data Science, машинное обучение, поисковые технологииНачать стоит от печки, то есть с постановки задачи. Откуда берется сама задача word embedding?
Лирическое отступление: К сожалению, русскоязычное сообщество еще не выработало единого термина для этого понятия, поэтому мы будем использовать англоязычный.
Сам по себе embedding — это сопоставление произвольной сущности (например, узла в графе или кусочка картинки) некоторому вектору.