Новые инструменты для работы c ML-моделями и обзор MLOps от CERN

2023-05-26 в 10:19, admin, рубрики: big data, data engineering, mlops, Блог компании Selectel, ит-инфраструктура, машинное обучение

Привет всем, кто работает с ML-моделями и занимается аналитикой данных! В новом дайджесте для вас много интересных обзоров по инструментам — как говорится, ни ClearML и Airflow едиными. Рынок решений стремительно развивается, и наши подборки помогут вам держать руку на пульсе. Еще больше полезных текстов по DataOps и MLOps публикуем в Telegram-сообществе «MLечный путь».

Как вам, кстати, ренессансная GPU на обложке, которую сгенерила нейросеть для блога Andreesen and Horowitz? Что тут сказать — просто поделитесь промтом.

Используйте навигацию, чтобы перейти к интересующему вас блоку:

→ Теория
→ Практика
→ Исследования
→ Мнение
→ Инструменты

Теория

The Map Of Transformers

На Medium вышел подробный лонгрид по Transformer-архитектуре нейронных сетей. Объем и содержание текста впечатляет. Здесь и таксономия, и математика, и пояснительные визуализации. Если хотите разобраться в технологии, этот лонгрид точно займет вас на ближайшие несколько дней.

91% of ML Models Degrade in Time

В статье перевели на человеческий и разобрали результаты исследования о времени деградации моделей. Исследование провели уважаемые ученые из MIT, Гарварда, Кембриджа, Университета Монтеррея — ссылка на первоисточник прилагается. В тексте приведены все графики и пояснения к ним. Особенно интересно почитать про типы возникающих проблем и рекомендации, как выстроить работу с ML-моделями, чтобы не стать жертвой их деградации. Например, авторы рекомендуют ставить оповещения на момент, когда пора переобучать модель. Или разработать/внедрить эффективный и надежный механизм автоматического переобучения моделей (привет, MLOps!).

How Shadow Data Teams Are Creating Massive Data Debt

В этой статье разбирают типы аналитических команд: централизованные, децентрализованные и теневые. Фокус в тексте делается на последнем. Теневые команды не занимаются полноценным дата-инжинирингом — скорее «костылят» и копят технический долг. Они появляются, когда бизнес нанимает еще одну команду аналитиков (скорее даже дата-сайентистов) в добавок к основной с целью уменьшить time to market для новых фичей и моделей. Лично у меня появляется вопрос, как сохранять баланс между скоростью получения данных и их качеством. Возможно, про это расскажут в следующей части статьи. Бонусом автор рассматривает, как поменялись аналитические системы за последние два десятилетия, и, что самое интересное, описывает, какие их элементы практически не поменялись.

Новые инструменты для работы c ML-моделями и обзор MLOps от CERN - 2

Порочный круг работы дата-сайентиста. Источник

Incident management for data teams

В тексте подробно и с картинками рассказывают про работу с инцидентами в аналитических командах. В целом, отличий от аналогичной работы в других сферах мало. Сначала выявляем, потом сообщаем о фактах и выясняем корневую причину. Исправляем и делаем выводы, в идеале – улучшаем процессы. Но, как и везде, есть свои нюансы.

Практика

Несите трубы! Как мы строили пайплайн ML-эксперимента

Время текстов с Хабра. На этот раз был замечен кейс коллег из «Контура» — в ряде продуктов они используют ML-модели. В тексте с неоновыми котиками на обложке довольно четко и толково расписали структуру пайплайна. Особенно интересно, что используют ClearML, кластер Ceph и ONNX. Про последний мы писали в обзоре инструментов для ускорения вывода ML-моделей в продакшен.

Apache Druid, TiDB, ClickHouse, or Apache Doris? Comparing the OLAP Tools We Have Used

А тут у нас представлен кейс от производителей автомобилей NIO из Китая. У них история, которую я где-то уже видел: эволюция аналитического стека, который завершился хэппи-эндом с использованием СУБД Apache Doris. При этом стадии эволюции «Druid → TiDB → ClickHouse → Doris» мне точно встречались в статьях других компаний из поднебесной. Можно ли рассматривать это как тенденцию? Как бы то ни было, ребята описали плюсы и минусы использования каждой СУБД конкретно в их кейсе — может, кому-то пригодится.

Как устроен massively parallel processing (MPP) в Trino

Коллеги из CedrusData, которые разрабатывают аналитическую систему на основе Trino, рассказали про MPP, или массивно-параллельные вычисления. Собственно, сам Trino — это распределенный аналитический SQL-движок для выполнения федеративных запросов. На его примере нам и предложено погрузиться в тему и основные принципы работы этого класса инструментов.

Исследования

Survey: Massive Retooling Around Large Language Models Underway

Компания Arize AI провела исследование вокруг Large Language Models (LLM). Выяснилось, что 53,5% респондентов планируют добавить LLM в прод в ближайший год. Это, в свою очередь, может подстегнуть развитие MLOps и культуры проектирования ML-систем. Ведь LLM руками из Jupyter в прод не закатишь. Ну и prompt engineering тащит за собой среду разработки LangChain или векторные БД.

Navigating the High Cost of AI Compute

Не ожидал увидеть такой текст в блоге венчурного фонда Andreesen and Horowitz, но хайп есть хайп. Умные аналитики провели исследование и прикинули стоимость владения LLM. Помимо всего, в статье есть обзор провайдеров с ценами и рассуждения о тяжкой доле финансовых директоров. Жирным выделена фраза: There is no sign that the GPU shortage we have today will abate in the near future (дословно: «Нет никаких признаков того, что нехватка графических процессоров, которая у нас есть сегодня, снизится в ближайшем будущем»).

The Data Streaming Landscape 2023

Отличное исследование инструментов для реализации потоковой обработки данных. По сути получилось подробное описание экосистемы вокруг Kafka и разных способов ее потребления — от self-hosted до PaaS и SaaS. Есть описание решений разных вендоров и альтернатив Kafka, а еще много красивых схем и картинок.

Новые инструменты для работы c ML-моделями и обзор MLOps от CERN - 4

Landscape приложений для потоковой передачи данных. Источник

Мнение

ChatGPT, ZeroETL, and Other Data Engineering Disruptors

Автор текста начинает с того, что практически заявляет: если плохо относитесь к изменениям — в дата-инженеры вам не надо. Ведь они постоянно сталкиваются с изменениями, инновациями и изобретанием велосипедов. Собственно, о велосипедах (зачеркнуто) инновациях и речь в тексте. В качестве самых свежих трендов рассматриваются три:

«Нулевой» ETL,
Большие языковые модели над одной широкой таблицей с корпоративными данными,
Контейнеризация дата-продуктов (прости господи).

Очень интересно, но не все до конца понятно.

Pro GPU System vs Consumer GPU System for Deep Learning

Если любите всякие тексты-сравнения, то вот он перед вами. Автор сравнивает между собой несколько моделей GPU: GTX 1070, Tesla T4, RTX A6000 и две RTX A6000. Методика тестирования устроит не всех, но докапываться до чисел, кажется, нет смысла. У нас на Хабре тоже, кстати, был текст, где мы сравнивали десктопные и серверные модели видеокарт — он хотя бы на русском языке, если для вас это важно.

Выводы в тексте на Medium достаточно ожидаемые:

если нужно много памяти, то нужны профессиональные карты,
если нужно уменьшить потребление при масштабировании, то нужны профессиональные карты,
если задачи не требуют большого объема памяти, обычных GPU достаточно.

Добавим в эту копилку еще несколько советов. Если нужно одновременно выполнять несколько задач на GPU, то нужны профессиональные карты (MIG, Time Slicing). А если нужно делить GPU на виртуальные кусочки, то нужны профессиональные карты и лицензии GRID.

Dashboards are dead: 3 years later

Под кликбейтным заголовком — продолжение поста трехлетней давности про переоцененность дашбордов. Предыдущий текст получил много внимания, и автор решил повторить успех. Как обычно бывает под такими заголовками, никто не умер, но есть некие предпосылки для того, чтобы перестать использовать дашборды как стандартный способ коммуникации аналитиков с бизнесом.

В эссе — мысли по поводу того, что дашборды — не всегда лучший способ донести информацию и ценность до бизнеса, а аналитики — не клепатели визуализаций. В общем-то, сложно с этим не согласиться.

Инструменты

Streamline Production ML With BentoML And Kubeflow

BentoML активно развивается и интегрируется со сторонними инструментами. Недавно решение научилось использовать Triton Inference Server, а теперь интегрировалось с Kubeflow 1.7. Собственно, в тексте как раз показан пример использования BentoML в связке с этой платформой. Теперь можно отказаться от KServe как инструмента из коробки!

Neptyne: The Programmable Spreadsheet

Следующий лот — Neptyne, очередная попытка переизобрести Excel/Google Sheets. На этот раз целевая аудитория — аналитики и дата-сайентисты, которые знают Python. Ключевая фишка продукта — возможность дополнять кнопки, доступные в интерфейсе, своими функциями. Например, затолкать набор ячеек в DataFrame, обработать с помощью Pandas или других библиотек и вывести в другой набор ячеек. Ну и куда без интерфейса для обращений к ChatGPT (или аналогичным сервисам)?

Introducing Data Prism, The Automatic Chart Builder

Знакомы ли вы с онлайн-аналогом Jupyter — Noteable? Недавно они выпустили автоматическую генерацию визуализаций по пользовательским датасетам. Выглядит это все пока не сильно впечатляюще, но сама идея неплоха. Посмотреть можно вноутбуке с примерами.

The Truth about Prefect, Mage, and Airflow

Автор сравнивает самый популярный, по его мнению, оркестратор Airflow с новыми аналогами — Prefect и Mage. В итоге для новых проектов советуетMage. Инструмент выглядит действительно интересно — эдакий Jupyter для пайплайнов. Причем писать можно как на Python и R, так и на SQL. Обратите внимание что доступ к тексту по ссылке платный, но есть бесплатная подписка на неделю — хватит, чтобы ознакомиться с текстом.

Build Elegant Web Apps Right From Jupyter Notebook with Mercury

Mercury — это еще одно решение для для того, чтобы «продуктолизировать» Jupyter-ноутбуки, превращая их в веб-приложения. В статье рассказывают, как работать с инструментом и что он вообще может. Разработчики пытаются обойти конкурента Streamlit по всем фронтам. Так, инструмент сразу интегрирован с Jupyter, умеет экспортировать PDF, может собирать презентации.

Quality Assurance for all AI models

Если вы ищете инструмент для тестирования ML-моделей, то есть тут что-то интересное — Giskard. Во-первых, это open source и self-hosted. Также решение поддерживает возможность создания собственных test suite и его можно интегрировать в довольно большое количество ML-инструментов. В основе — коллаборативная модель поиска слабых мест с возможностью комментирования.

Видео

Accelerating MLOps and CI/CD for tinyML on Arm

Время просмотра: 1 час 2 мин.

Познавательный вебинар от Эрика Сонди (Eric Sondi) — старшего менеджера в Arm (да-да, компании, которая разрабатывает процессоры на той самой архитектуре). В видео он рассказал про технологию Virtual Hardware и ближе к концу описал сценарии ее использования для MLOps. Показательно, что даже такие «железячники» уже начинают делать нативные решения для production ML.

MLOps: Going from Good to Great

Время просмотра: 51 мин.

Тексты по MLOps в нашей подборке уже становятся традицией. Что сказать — животрепещущая тема. При это каждый раз она раскрывается все хардкорнее. Как вам семинар о том, как развивают MLOps в CERN — знаменитом центре ядерных исследований? Это, конечно, не адронный коллайдер, но и тут без многоуровневых формул не обошлось. Самое то, если хотите почувствовать себя интеллектуально униженным.

Возможно, эти тексты тоже вас заинтересуют:

→ 6 дисплеев, 192 ядра и 3 ТБ ОЗУ DDR5: на что способен «ноутбук» от Mediaworkstations и другие подобные системы
→ Что изменилось в инструментах OpenStack? Рассказываем о самых важных обновлениях в релизе Antelope
→ Как улучшать продукты, опираясь на мнение пользователей, или загадка плавающего IP-адреса

Автор: Stas Valuev

Источник

Информация

Комментарии

Рекомендуем

Новые инструменты для работы c ML-моделями и обзор MLOps от CERN

Теория

The Map Of Transformers

91% of ML Models Degrade in Time

How Shadow Data Teams Are Creating Massive Data Debt

Incident management for data teams

Практика

Несите трубы! Как мы строили пайплайн ML-эксперимента

Apache Druid, TiDB, ClickHouse, or Apache Doris? Comparing the OLAP Tools We Have Used

Как устроен massively parallel processing (MPP) в Trino

Исследования

Survey: Massive Retooling Around Large Language Models Underway

Navigating the High Cost of AI Compute

The Data Streaming Landscape 2023

Мнение

ChatGPT, ZeroETL, and Other Data Engineering Disruptors

Pro GPU System vs Consumer GPU System for Deep Learning

Dashboards are dead: 3 years later

Инструменты

Streamline Production ML With BentoML And Kubeflow

Neptyne: The Programmable Spreadsheet

Introducing Data Prism, The Automatic Chart Builder

The Truth about Prefect, Mage, and Airflow

Build Elegant Web Apps Right From Jupyter Notebook with Mercury

Quality Assurance for all AI models

Видео

Accelerating MLOps and CI/CD for tinyML on Arm

MLOps: Going from Good to Great

Информация

Комментарии

Рекомендуем

Новые инструменты для работы c ML-моделями и обзор MLOps от CERN

Теория

The Map Of Transformers

Практика

Несите трубы! Как мы строили пайплайн ML-эксперимента

Исследования

Survey: Massive Retooling Around Large Language Models Underway

Мнение

ChatGPT, ZeroETL, and Other Data Engineering Disruptors

Инструменты

Streamline Production ML With BentoML And Kubeflow

Видео

Accelerating MLOps and CI/CD for tinyML on Arm

Рекомендованный контент