Рубрика «elasticsearch» - 8

Мега-Учебник Flask, Часть XVI: Полнотекстовый поиск

2018-03-27 в 13:54, admin, рубрики: elasticsearch, flask, python, Разработка веб-сайтов

(издание 2018)

Miguel Grinberg

Мега-Учебник Flask, Часть XVI: Полнотекстовый поиск - 1 Туда Сюда

Это шестнадцатая часть серии Мега-учебников Flask, в которой я собираюсь добавить в микроблог возможность полнотекстового поиска.

Читать полностью »

Фантастик-Elasticsearch. Как мы «укротили» умный поиск по документам

2018-03-12 в 14:42, admin, рубрики: .net, C#, docsvision, ECM/СЭД, elasticsearch, NEST, nosql, Блог компании Digital Design, СДУ Приоритет, сэд

Полнотекстовый поиск даёт возможность искать документы по текстовому содержимому. Такая необходимость может возникнуть, когда система содержит много текстовых сущностей, а пользователям требуется учитывать эти данные во время поиска. Мы столкнулись с подобной ситуацией при разработке решения для документооборота*. Данные системы хранятся в MS SQL Server или PostgreSQL, а гибкий атрибутивный поиск позволяет находить документы по различной мета-информации. Однако со временем этого стало недостаточно. Перед нами встала задача: научиться искать документы по текстовым свойствам и приложенным файлам.

Фантастик-Elasticsearch. Как мы «укротили» умный поиск по документам - 1

Читать полностью »

SSO и Kibana: интеграция Kibana со встроенной аутентификацией Windows (Single Sign-On)

2018-03-08 в 16:42, admin, рубрики: elastic stack, elasticsearch, elk, kibana, SSO, x-pack, xpack, поисковые технологии

В этой статье мне хотелось бы поделиться способом настройки технологии единого входа (SSO) в Elastic Stack, использующим X-Pack для аутентификации пользователей и разграничения доступа к данным.

Stop SSO

Читать полностью »

Агрегация логов log4j2 средствами ELK

2017-11-21 в 8:06, admin, рубрики: docker, elasticsearch, elk, Grafana, kibana, log4j2, logstash, системное администрирование

Для своих ETL (Extract, Transform, Loading) процессов, на этапах E и T, то есть извлечение и преобразование данных мы используем Apache Storm, и, так как большинство ошибок, связанных с инвалидацией сырых данных, происходит именно на этом этапе, — появилось желание централизованно логировать всё это, используя ELK стэк (Elasticsearch, Logstash, Kibana).

Каким же было моё удивление, что нигде не то, что на русском языке, но даже в оригинальных туториалах не было описана работа с логами в формате log4j2, который является дефолтом в мире Java-приложений.

Исправляя это упущение — под катом туториал по настройке централизованного сбора любых log4j2 логов на основе:

ELK внутри Docker
Настройка log4j для работы с Logstash
Настройка Logstash для правильной индексации логов
Немного бонусов, в виде краткой настройки Storm и интеграции Elasticsearch с Grafana

Читать полностью »

Pygest #18. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [5 ноября 2017 — 15 ноября 2017]

2017-11-20 в 11:14, admin, рубрики: cpython, digest, elasticsearch, machine learning, pandas, python, python2, Rust, scrapy, sqlalchemy, TensorFlow, Учебный процесс в IT, Читальный зал

Всем привет! Это уже восемнадцатый выпуск дайджеста на Хабрахабр о новостях из мира Python.

В связи с загруженностью andrewnester, автора предыдущих digests, и с его разрешения, честь опубликовать данный выпуск выпала мне.

Итак, поехали!

Читать полностью »

Обзор конференции Highload fwdays’17

2017-11-01 в 8:36, admin, рубрики: elasticsearch, Facebook, highload, highload fwdays'17, machine learning, Блог компании DataArt, высокая производительность, высоконагруженные проекты, конференции, конференция, машинное обучение

14 октября в Киеве прошла конференция Highload fwdays, посвященная высоконагруженным проектам, работе с базами данных и архитектурой, в частности, микросервисами, машинному обучению и Big Data. DataArt был спонсором конференции. А наши коллеги Игорь Мастерной (лидер Java-сообщества DataArt Киев) и Анна Колот (.NET, SharePoint Developer) рассказали о докладах, на которых они побывали.

Детально с программой конференции можете ознакомиться тут.

Начнем обзор с доклада Дмитрия Охонько из Facebook про Log Device. “Yet another log storage”, — подумаете вы. Вы бы были правы, но этот Log Storage на общем фоне выделяется своими создателями. Заявленная пропускная способность у Facebook — 1TB/s. И узнать, как они справляются с обработкой такого объема данных, было интересно.Читать полностью »

Как прикрутить нормальный поиск к устаревшему SQL-бэкенду

2017-10-25 в 9:04, admin, рубрики: elastic, elasticsearch, java, joker, joker2016, joker2016spb, legacy, nosql, sql, text search, Блог компании JUG.ru Group

Как совместить миры SQL и NoSQL? В этой статье будет несколько живых примеров интеграции продвинутого поискового движка Elasticsearch в устаревшие приложения, работающие с RestX, Hibernate и Postgresql/MySQL.

Расскажет об этом Дэвид Пилато (David Pilato) — эксперт компании Elastic (это те ребята, что сделали Elasticsearch, Kibana, Beats, and Logstash — то есть, Elastic Stack). У Дэвида есть огромный опыт проведения докладов о продуктах Elastic (конференции Devoxx в Англии, Бельгии и Франции, всевозможные JUG, Web5, Agile France, Mix-IT, Javazone, доклады для конкретных компаний, и так далее). Иначе говоря, излагает Дэвид весьма понятно и доходчиво, а его доклады заменяют тренинги за сотни нефти.

В основе этой публикации — доклад Дэвида на конференции Joker 2016, которая прошла в Санкт-Петербурге в минувшем октябре. Тем не менее, обсуждаемые темы за прошедший год никак не потеряли актуальности.

Статья доступна в двух вариантах: видеозапись доклада и полная текстовая расшифровка (жмите кнопку «читать дальше» ⇩). В текстовом варианте все необходимые данные представлены в виде скриншотов, так что вы ничего не потеряете.

Читать полностью »

Что должен знать о поиске каждый разработчик

2017-10-12 в 7:03, admin, рубрики: Alconost, big data, elasticsearch, Алгоритмы, Блог компании Alconost, запросы, индекс, индексирование, информационный поиск, машинное обучение, поиск, поисковая система, поисковые технологии, разработка, ранжирование поиска, семантический поиск, функция поиска

Хотите внедрить или доработать функцию поиска? Вам сюда.

Спросите разработчика: «Как бы вы реализовали функцию поиска в своем продукте?» или «Как создать поисковую систему?». Вероятно, в ответ вы услышите что-нибудь такое: «Ну, мы просто запустим кластер Elasticsearch: с поиском сегодня всё просто».

Но так ли это? Во многих современных продуктах по-прежнему не лучшим образом реализован поиск. Настоящий специалист по поисковым системам скажет вам, что лишь немногие разработчики глубоко понимают, как работает поиск, а ведь это знание часто необходимо для улучшения качества поиска.

Есть множество программных пакетов с открытым исходным кодом, проведено немало исследований, однако лишь немногие избранные понимают, как нужно делать функциональный поиск. Как ни забавно, но если поискать в Интернете связанную с реализацией поиска информацию, вы не найдете актуальных и содержательных обзоров.

Цель статьи

Этот текст можно считать собранием ценных идей и ресурсов, которые могут помочь в создании функции поиска. Статья, безусловно, не претендует на исчерпывающую полноту, однако я надеюсь, что ваши отзывы помогут ее доработать (оставляйте замечания в комментариях или свяжитесь со мной).

Основываясь на опыте работы с универсальными решениями и узкоспециализированными проектами самого разного масштаба (в компаниях Google, Airbnb и нескольких стартапах), я расскажу о некоторых популярных подходах, алгоритмах, методах и инструментах.

Недооценка и непонимание масштабов и сложности задачи поиска могут привести к тому, что у пользователей останутся плохие впечатления, разработчики потратят время впустую, а продукт провалится.

Переведено в Alconost
Читать полностью »

Как запустить Java-приложение с несколькими версиями одной библиотеки в 2017 году

2017-09-30 в 13:07, admin, рубрики: classloader, elasticsearch, jarhell, java, java 9, jpms, osgi, serviceloader, split package, модули, плагины

Как запустить Java-приложение с несколькими версиями одной библиотеки в 2017 году

КДПВ, ничего интересного

Хочу поделиться решениями одной проблемы, с которой мне пришлось столкнуться, плюс исследование данного вопроса в контексте Java 9.

дисклеймер

Писатель из меня ещё тот (пишу в первый раз), поэтому закидывание ~~вкусными~~ помидорами с указанием причин только приветствуется.
Сразу договоримся, что статья не годится в качестве руководства по:

Java 9
Elasticsearch
Maven

Если по последним именам информации в сети полно, то по первому… со временем появится, по крайней мере здесь есть необходимая информация.

Представим себе простую ситуацию: разворачиваем кластер Elasticsearch и загружаем в него данные. Мы пишем приложение, которое занимается поиском в этом кластере. Поскольку постоянно выходят новые версии Elasticsearch, мы привносим в кластер новые ~~проблемы~~ фичи с помощью rolling upgrade. Но вот незадача — в какой-то момент у нас сменился формат хранимых данных (например, чтобы максимально эффективно использовать какую-то из новых фич) и делать reindex нецелесообразно. Нам подойдёт такой вариант: ставим новый кластер на этих же машинах — первый кластер со старой схемой данных остаётся на месте только для поиска, а поступающие данные загружаем во второй с новой схемой. Тогда нашему поисковому компоненту потребуется держать на связи уже 2 кластера.

Читать полностью »

Security Week 37: Дружно выключаем Bluetooth, дыра в Tor на миллион, ботнеты на серверах Elasticsearch

2017-09-15 в 16:16, admin, рубрики: BlueBorne, bluetooth, elasticsearch, klsw, pos malware, tor project, Zerodium, Блог компании «Лаборатория Касперского», информационная безопасность

Security Week 37: Дружно выключаем Bluetooth, дыра в Tor на миллион, ботнеты на серверах Elasticsearch - 1 BlueBorne. Запомните это название. Это даже не уязвимость, это — целая пачка дыр в реализациях Bluetooth в Windows, Linux, Android и даже немножко в iOS. Вскрыли этот нарыв исследователи из Armis Labs, они же и оценили число потенциальных жертв в… 5,3 миллиарда устройств.

Словом, дело нешуточное. BlueBorne позволяет атаковать девайс с поддержкой Bluetooth с другого «голубозубого» устройства. Причем, оба аппарата не обязательно должны быть спарены. Более того, жертве даже не нужно быть «на радарах» Bluetooth-собратов в округе. Иными словами, если у тебя есть голубой зуб, ты под угрозой.

Кулек обнаруженных уязвимостей выглядит так:

CVE-2017-1000251. RCE в ядре Linux;
CVE-2017-1000250. Уязвимость утечки данных в стеке Bluetooth;
CVE-2017-0785. Уязвимость утечки данных в Android;
CVE-2017-0781. RCE в Android;
CVE-2017-0782. RCE в Android;
CVE-2017-0783. Логическая уязвимость в Android (Bluetooth Pineapple);
CVE-2017-8628. Логическая уязвимость в Windows (Bluetooth Pineapple);
Такая лютая, что пока без CVE. RCE-уязвимость проприетарного протокола Apple Low Energy Audio Protocol.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «elasticsearch» - 8

Мега-Учебник Flask, Часть XVI: Полнотекстовый поиск

(издание 2018)

Miguel Grinberg

Фантастик-Elasticsearch. Как мы «укротили» умный поиск по документам

SSO и Kibana: интеграция Kibana со встроенной аутентификацией Windows (Single Sign-On)

Агрегация логов log4j2 средствами ELK

Pygest #18. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [5 ноября 2017 — 15 ноября 2017]

Обзор конференции Highload fwdays’17

Как прикрутить нормальный поиск к устаревшему SQL-бэкенду

Что должен знать о поиске каждый разработчик

Хотите внедрить или доработать функцию поиска? Вам сюда.

Цель статьи

Как запустить Java-приложение с несколькими версиями одной библиотеки в 2017 году

Как запустить Java-приложение с несколькими версиями одной библиотеки в 2017 году

Security Week 37: Дружно выключаем Bluetooth, дыра в Tor на миллион, ботнеты на серверах Elasticsearch

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «elasticsearch» - 8

(издание 2018)

Miguel Grinberg

Хотите внедрить или доработать функцию поиска? Вам сюда.

Цель статьи

Как запустить Java-приложение с несколькими версиями одной библиотеки в 2017 году

Новости

Актуальные темы

Архив