Проанализировав большой объем доступной в интернете информации о некоторых людях, «младший брат» суперкомпьютера IBM Watson (работающий на подобных технологиях) под названием IBM Content Analytics with Enterprise Search наглядно показал нам, кто кому приходится братом, сестрой, мужем, должен денег, является личным адвокатом, подал в суд по определенному поводу и т.д. В нашем случае мы дополнительно узнали, что некоторые искомые пользователи обладают довольно-таки дорогой недвижимостью за 80 миллионов евро.
При этом мы сами не занимались сбором и анализом данным. Мы всего лишь сравнили результаты с действительностью — все оказалось правдой. Хочется еще раз подчеркнуть – вся информация была в открытом доступе. К сожалению, я не могу рассказать более подробно именно об этом проекте (возможно, вы обратили внимание на затертые имена). Данный пример показался мне наиболее интересным, поэтому я начал именно с него :)
В этой статье я хотел бы рассказать о базовых возможностях IBM Content Analytics with Enterprise Search. Если эта статья покажется интересной, то я напишу подробнее о том, как это работает.
Продукт ориентирован на осуществление поиска и анализа текстовой информации, получаемой из различных источников. Источником данных служит Интернет, а именно социальные сети, порталы, форумы и т.д., а также внутренние документы (офисные документы, аудио, видео и т.д.), находящиеся как в специальных системах (порталы, почта, базы данных, электронные архивы и СЭД), так и в виде файловых ресурсов на серверах организации и рабочих местах сотрудников.
IBM Content Analytics with Enterprise Search представляет из себя две подсистемы:
Подсистема поиска информации обеспечивает:
• сквозной поиск с поддержкой морфологии по содержанию документов в разрозненных информационных ресурсах (глубокая поддержка 15 языков, а также поддержка общей лексики 50 языков);
• предоставление информации с учетом политик безопасности;
• предоставление наиболее релевантной информации;
• объединение информации из различных источников для получения ответа на поисковый запрос;
• семантический поиск
Подсистема анализа информации обеспечивает:
• реализацию структурного анализа неструктурированной информации и выделение полезных данных от большого количества ненужной информации;
• классификацию имеющейся информации;
• выявление трендов и тенденций;
• выявление аномалий;
• поиск взаимосвязей между объектами;
• наглядное представление взаимосвязей;
• построение аналитических срезов силами самих пользователей;
В системе Content Analytics настраиваются аналитические срезы (фасеты), по сути представляющие из себя фильтры. Применяя различные фильтры и их комбинации для обработки большого массива документов, аналитик может выделять те или иные явления и их взаимосвязь. Фильтры являются интеллектуальными, под каждым из них могут быть скрыты словари, правила обработки текста или функционал модуля классификации.
В качестве более подробного примера рассмотрим работу с сообщениями на одном банковском форуме.
Были настроены:
• Фасеты по городу и продукту, выделяющие упоминания в тексте тех или иных городов и банковских продуктов
• Фасет «Отношение клиента», реагирующий на появление в тексте положительных или отрицательных прилагательных
• Правила, срабатывающие при употреблении слов «проблема» + «банкомат» или «карта», в пределах одного предложения
При настройке анализа был сделан акцент на использование только стандартных средств продукта. Никакой кастомизации не производилось.
­
Что в итоге мы получили?
1) Появилась возможность оценить частоту обсуждения проблем с картой или с банкоматом. Эти результаты получены на основе анализа более 11 тысяч документов.
2) Получили сортировку сообщений по продуктам…
3) … городам…
4) … и по отношению клиента к банку (определялось по лексике)
5) Продукт предоставил визуализацию взаимосвязи проблем с городами ….
6) … и представил взаимосвязи в виде таблицы. В данном случае мы видим, что, к примеру, в Самаре есть проблема с банкоматами (чем ярче цвет, тем больше связь (корреляция) между фасетами, нажатие на подсвеченную клетку позволяет перейти к интересующим документам).
7) Дополнительно мы узнали, какие пользователи оставляют на форумах в открытом доступе свои телефоны, пин-коды, паспортные данные :) Система понимает разный формат написания номеров и наличие мелких различий в написании: с пробелом, без пробела.
8) Система визуализации Content Analytics реализована на основе открытых интерфейсов, что позволяет встраивать свои модули визуализации. На следующей картинке показано отображение информации из системы на картах Google Maps.
Я привел пример одного небольшого варианта использования продукта IBM Content Analytics with Enterprise Search. Но действительная сфера применения очень широка:
• Поисковые запросы:
— Сквозной поиск по всем информационным ресурсам, как внешним, так и внутренним;
— Поиск с учетом различных вариантов написаний и опечаток, случайных, либо намеренных (замена кириллицы на латиницу, пробелы в написании и тд).
• Безопасность:
— Применение не только в целях обеспечения безопасности в организации, но также в регулятивной и надзорной деятельности;
— Проведение расследований по инцидентам;
— Выявление аффилированности частных лиц с владельцами организаций и её связи с другими организациями;
— Выявление «утечек» внутренней информации.
• Мониторинг социальных сред:
— Определение «голоса клиента», состояния рынка;
— Организация оперативной реакции на отзывы клиентов, жалобы и обращения граждан;
— Оперативное выявление негативных высказываний об организации и принятие решений о реагировании;
• Управление знаниями:
— Извлечение полезной информации из больших массивов данных;
— Автоматическое формирование баз знаний.
• Анализ логов: Просмотр посещений портала, как внешними, так и внутренними пользователями.
Больше текста, картинок и примеров в оригинальной презентации.
Пожалуйста, задавайте интересующие вас вопросы, на которые мы с радостью ответим в комментариях или напишем отдельную статью, если интерес к этой теме будет высок.
Автор: Lanes
Добрый день!
А можно от вас получить побольше информации по поводу хода загрузки и поиска необходимых текстов для последующего анализа?