Привет! Представляю вашему вниманию перевод статьи «Tableau talks up natural language interface for creating visualizations» Peter Sayer.
Поставщик BI стремится упростить и автоматизировать анализ данных в рамках растущей тенденции к внедрению возможностей AI (искусственного интеллекта) в инструменты BI.
Сколько статистиков необходимо для построения новой модели данных? По словам Tableau Software — нисколько. В компании заявляют, что следующая версия широко используемого аналитического инструмента сделает это сама.
Tableau продемонстрировала это на прошлой неделе в новой функции под названием Ask Data, которая позволяет пользователям создавать визуализации, описывая, на естественном языке чего они хотят. Сделано это было на мероприятии для клиентов в Новом Орлеане. Кроме этого, компания продемонстрировала новые функции автоматизации в своем инструменте подготовки данных.
Это часть растущей тенденции среди разработчиков корпоративного программного обеспечения для автоматизации и упрощения задач, которые когда-то требовали специальных навыков, позволяя предприятиям более эффективно использовать свои данные и передислоцировать квалифицированный персонал на менее трудоемкую работу.
Рассвет технологии AI в BI
Достижения в области искусственного интеллекта облегчают корпоративным разработчикам программного обеспечения ввод данных на естественном языке — устном или печатном — и выводят необходимую пользователю информацию, вместо того, чтобы заставлять его изучать конкретные команды или оперировать объектами на экране для достижения своих целей. AI все чаще используется в ведущих инструментах BI в надежде «демократизации» аналитики и науки о данных.
Microsoft Power BI, конкурент Tableau, внедрил функцию под названием «вопросы и ответы» уже несколько лет назад, но даже в последних демонстрациях предложение кажется более сложным в грамматике и орфографии, чем Tableau Ask Data. Тем не менее, они оба опережают в развитии компанию Dundas BI и подобные, которые по-прежнему используют перетаскивание для создания визуализаций.
Реализация Tableau позволит пользователям запрашивать базу данных и предоставлять возможность программному обеспечению самостоятельно выяснить, как должны быть объединены таблицы базы данных, какие столбцы должны быть выбраны и какие операции необходимо выполнить для получения требуемого ответа. Эта и другие новые функции появятся в Tableau 2019.1, выход которой ожидается в начале следующего года, а бета-версия — выпущена в конце октября.
«Такие функции автоматизации приветствуются и необходимы, — сказала главный аналитик Forrester Марта Беннетт. — Мы получаем все больше данных, но у людей, работающих с ними, нет такого количества времени».
По ее словам, специалисты по работе с данными тратят до 80 процентов своего времени на подготовку данных, и чем меньше времени они будут тратить на это, тем больше они смогут заниматься теми функциями BI, которые приносят непосредственную пользу бизнесу.
Один из способов преодолеть нехватку времени у специалистов — передать большую часть объема работы машинам. Другой способ — упростить работу с данными для людей, которые ранее не могли сами работать с ними из-за необходимости обладания специальными навыками. Это, так называемая, «демократизация» данных.
Недостатки использования AI
«Но есть риски в предоставлении данных большему количеству сотрудников: данные не могут заменить экспертные знания в предметной области и трезвую оценку ситуаций», — сказала Марта Беннетт.
«Прежде чем сделать новые функции автоматизации широко доступными, ИТ-директора должны протестировать их на своем опыте, чтобы определить, подходят ли они», — советует она.
Инструменты, предлагающие анализ данных без четких рекомендаций, могут запутать пользователей в том, какие действия следует предпринять.
«Если вы не даете кому-то подробных инструкций, то не стоит ожидать, что он сделает все правильно с первого раза».
— Марта Беннетт, главный аналитик Forrester
Однако вы не можете просто возложить всю ответственность на программное обеспечение.
«Автоматизация — это не то же самое, что и контроль. За всеми этими вещами все равно необходимо следить. На суде не очень хорошо будет звучать, если вы скажете, что компьютер сам сделал это, и мы понятия не имеем, почему», — предупреждает Марта Беннетт. Эта проблема давно известна как проблема «черного ящика» AI.
Дополнительно вам нужно выяснить, подходят ли ваши данные для инструмента автоматизации: в частности, системам машинного обучения требуется много данных для работы.
«Если вы применяете алгоритмы машинного обучения к данным, где у вас больше исключений, чем нормальных, это не сработает», — сказала она.
Детали демонстрации
На мероприятии в Новом Орлеане менеджер по визуальной аналитике Эндрю Виньо продемонстрировал возможности Ask Data в базе данных краудфандинговых проектов Kickstarter, показав, что, в отличие от большинства компиляторов, Ask Data не требует идеальной пунктуации для работы.
Программное обеспечение превратило его запрос «какое было общее финансирование» (дословно) в «сумму финансирования» и вернуло ответ. Когда он напечатал «по годам» и «по статусу», Ask Data преобразовывала его запрос в «сумму финансирования по сроку и по статусу». Затем, не имея никаких дополнительных данных, она, подготовила цветную линейную диаграмму, показывающую, зеленым цветом финансирование успешных проектов, увеличивающееся с каждым годом, в то время как финансирование неудачных, отмененных или приостановленных проектов (красный, оранжевый и желтый) остается неизменным.
Вопрос «какие категории были успешными» вызвал другой визуальный ответ: Ask Data добавила «по категориям, статус фильтра – успешный» к предыдущему запросу и нарисовал гистограмму ранжирования категорий Kickstarter по количеству успешных проектов в порядке убывания.
Сотрудники давно желали, чтобы корпоративное программное обеспечение выполняло то, что они хотели, даже если им не удалось точно сформулировать задачу, и Эндрю Виньо показал, что Tableau приближается к этому. Когда он набрал «сопоставить со средним фнансироване» (дословно), Ask Data показал ему разброс числа проектов рядом со средним финансированием для разных подкатегорий технологических проектов, которые он просматривал ранее.
Некоторые вещи в Tableau по-прежнему быстрее сделать с помощью мыши, особенно если вы медленно печатаете: добавление подкатегорий «мода» и «игры» к диаграмме рассеяния занимает всего четыре клика.
Создание новых моделей данных
Несколько кликов — это все, что потребовалось его коллеге Тайлеру Дойлу для создания новой модели данных, которая отображает поля, используемые Tableau для анализа данных в SQL-запросах и которые может понять базовая база данных.
«Мне достаточно кликнуть мышкой по одной строке – “Добавить связанные объекты”, и ваша модель данных готова, без необходимости определять, какие таблицы использовать, как они связаны, или какое это, левое или правое соединение. Новые возможности моделирования данных в Tableau просто делают это вместо вас.»
— Тайлер Дойл
«Как модель данных узнала правильные соотношения между этими таблицами?» — интересуется Дойл. Оказывается, Tableau опирается на ИТ-директоров, а также их администраторов баз данных и специалистов по работе с данными. Для того чтобы помочь ему выполнить этот трюк, необходимо убедиться, что необходимая информация хранится в хранилище данных.
Подготовка данных — еще одна область, над которой работает Tableau. Старший инженер Захира Валани показала, как Tableau Prep может автоматизировать очистку данных с помощью «ролей». Tableau использует их для идентификации полей, которые выполняют определенную роль — такие вещи, как URL-адреса, адреса электронной почты или географические указания (государства или почтовые индексы). Валани показала, как всего за пару кликов Tableau Prep может проверить содержимое поля, чтобы определить наиболее подходящую роль, а затем выделить недопустимые элементы, которые не соответствуют роли, и либо установить их в «null», либо отфильтровать эти строки. То же самое можно проделать и с пользовательскими ролями, например перечислимыми типами.
По словам главного сотрудника по продуктам Tableau, Франсуа Эйенстата, Tableau Prep будет обновляться ежемесячно, в отличие от графика трех релизов в год для основного программного обеспечения Tableau.
Планирование — это функция уже другого инструмента, бета-тестирование которого сейчас проходит в компании: Tableau Prep Conductor. Оно позволит предприятиям автоматизировать подготовку своих источников данных, перемещая их в Tableau по выбранному ими графику. Это отдельный продукт из Tableau и для его использования потребуется отдельная лицензия. Старт продаж запланирован уже в следующем году.
Автор: Рустам Рахманов