Рубрика «data» - 2

Apache NiFi: как решить ошибки, которые не гуглятся

2022-06-07 в 7:11, admin, рубрики: Apache, big data, data, data engineering, NiFi, NiFi Deployment, Блог компании Группа НЛМК, хранение данных

Настройка и запуск Apache NiFi и Zookeeper, настройка авторизации по LDAP и работа NiFi по HTTPS, настройка и запуск Apache NiFi Registry, пример запуска NiFi c Kerberos — вот темы, которые будут в этой статье.

Apache NiFi: как решить ошибки, которые не гуглятся - 1

Не вижу смысла полностью рассказывать, как настраивать NiFi и NiFi Registry — есть официальная документация и мануалы в сети. Я сосредоточился на ошибках, информации по которым нет, в том числе и на английском. При самостоятельном поиске решения, это реально масса времени. Я провел месяцы в режиме DEBUG и TRACE, чтобы понять, как всё сделать правильно. Готов поделится.
Читать полностью »

К порядку: правила создания конвейеров обработки данных

2020-12-30 в 12:10, admin, рубрики: data, pipelines, базы данных, Блог компании Badoo, данные, конвейер, Программирование, хранение данных, хранилища данных

К 2020 году вы не могли не заметить, что миром правят данные. И, как только речь заходит о работе с ощутимыми объёмами, появляется необходимость в сложном многоэтапном конвейере обработки данных.

Читать полностью »

Почему нам нужен DevOps в сфере ML-данных

2020-05-04 в 9:37, admin, рубрики: big data, data, devops, ITSumma, ml, Блог компании ITSumma, машинное обучение

Почему нам нужен DevOps в сфере ML-данных - 1

Развертывание машинного обучения (machine learning, ML) в продакшн – задача нелегкая, а по факту, на порядок тяжелее развертывания обычного программного обеспечения. Как итог, большинство ML проектов так никогда и не увидят света — и продакшена — так как большинство организаций сдаются и бросают попытки использовать ML для продвижения своих продуктов и обслуживания клиентов.

Насколько мы можем видеть, фундаментальное препятствие на пути большинства команд к созданию и развертыванию ML в продакшн в ожидаемых масштабах заключается в том, что нам все еще не удалось привнести практики DevOps в машинное обучение. Процесс создания и развертывания моделей ML частично раскрыт уже вышедшими MLOps решениями, однако им недостает поддержки со стороны одной из самых трудных сторон ML: со стороны данных.
Читать полностью »

Quartet 9: Allegro | Производительность

2020-03-29 в 9:38, admin, рубрики: data, javascript, quartet, quartet9allegro, validation, высокая производительность

Когда создавалась библиотека для валидации данных quartet были поставленны следующие цели-ориентиры:

TypeScript
Краткость
Простота
Производительность

В этой статье я хотел бы рассмотреть производительность quartet и её причины.

Будем исследовать этот аспект в сравнении между quartet и другой намного более популярной ajv.

Читать полностью »

Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных»

2020-02-21 в 14:08, admin, рубрики: Alconost, big data, data, github, алконост, Блог компании Alconost, гитхаб, данные

Около полугода назад у нескольких инженеров и разработчиков с опытом работы в Агентстве национальной безопасности США, Google и Amazon Web Services появилась любопытная идея.

Для создания новых функций и изобретения чего-то нового разработчикам и инженерам нужны данные. Но эти данные часто конфиденциальны и недоступны — из-за бюрократии и разного рода нормативных требований, — и чтобы получить одобрение на их использование, может понадобиться несколько недель. Поэтому недавно был запущен проект Gretel — стартап, цель которого — помочь разработчикам безопасно обмениваться конфиденциальными данными и совместно взаимодействовать с ними в режиме реального времени.

Алекс Уотсон, один из сооснователей проекта, говорит о предназначении новой платформы так: «Это не такая нишевая задача, как может показаться. Разработчики любой компании могут столкнуться с этой проблемой». Зачастую разработчикам нужен не полный доступ к банку пользовательских данных, а лишь фрагмент или выборка для работы. Во многих случаях достаточно будет данных, которые просто выглядят как реальные пользовательские данные.

Читать полностью »

Data Mesh: как работать с данными без монолита

2019-11-13 в 15:37, admin, рубрики: big data, data, data lake, data mesh, DDD, Dodo Pizza Engineering, domain-driven design, Блог компании Dodo Pizza Engineering, данные, хранение данных

Привет! Мы в Dodo Pizza Engineering очень любим данные (а кто их сейчас не любит?). Сейчас будет история о том, как накопить все данные мира Dodo Pizza и дать любому сотруднику компании удобный доступ к этому массиву данных. Задача под звёздочкой: сохранить нервы команды Data Engineering.

Data Mesh: как работать с данными без монолита - 1 Читать полностью »

Огромный открытый датасет русской речи версия 1.0

2019-11-05 в 7:28, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.

Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать полностью »

Огромный открытый датасет русской речи

2019-05-06 в 18:36, admin, рубрики: annotated speech, asr, automatic speech recognition, data, open datasets, open source, speech corpus, speech recognition, STT, звук, машинное обучение, открытые данные

Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками.

Мы торопимся исправить это годами длящееся недоразумение.

Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников.

Подробности под катом.Читать полностью »

GitLab в NAS

2018-12-30 в 9:06, admin, рубрики: data, data storage, diy или сделай сам, Git, git repositories, gitlab, NAS, protected git storage, repos, SAN, storage, storage system, контроль версий, репозитории, Системы управления версиями, хранилища данных

GitLab в NAS - 1

При наличии работоспособного NAS с докером, установка Gitlab не представляет особых сложностей.

Читать полностью »

Митап в Петербурге: Data Engineering и не только

2018-10-29 в 10:37, admin, рубрики: Apache Spark, big data, data, data mining, spark, wrike, wriketechclub, Блог компании Wrike, визуализация данных

Митап в Петербурге: Data Engineering и не только - 1

Дата инженеры — люди, без которых аналитики уснут до окончания запроса к БД, а дата сайентисты захлебнутся в данных. Пришло время рассказать окружающим и самим себе, зачем и как мы работаем.

К сожалению, чуть ли не единственная специализированная конференция для дата-аналитиков и дата-инженеров в Питере в этом году отменилась, но мы в Wrike Tech Club решили дольго не грустить и устроить ламповый уютный митап с классными спикерами.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data» - 2

Apache NiFi: как решить ошибки, которые не гуглятся

К порядку: правила создания конвейеров обработки данных

Почему нам нужен DevOps в сфере ML-данных

Quartet 9: Allegro | Производительность

Коллектив из бывших инженеров АНБ США и Amazon создает «GitHub для данных»

Data Mesh: как работать с данными без монолита

Огромный открытый датасет русской речи версия 1.0

Огромный открытый датасет русской речи

GitLab в NAS

Митап в Петербурге: Data Engineering и не только

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data» - 2

Новости

Актуальные темы

Архив