Привет. Меня зовут Вика, я работаю в AIRI, преподаю в Школе Анализа Данных и Сколтехе и вместе со своими коллегами занимаюсь обработкой естественного языка, изображений и видео, а также иными задачами, где могли бы пригодиться трансформерные модели. Трансформерные архитектуры — очень мощное орудие, которые может быть применено почти во всех сферах DL, и интереснейший концепт, в котором много потенциала для исследования. А, главное, их очень легко применить к технологиям, которые способны изменить нашу жизнь здесь и сейчас.
Рубрика «time series»
Всем про LLM. Как рассказать про трансформеры одинаково хорошо и индустриалам, и исследователям
2024-10-03 в 8:44, admin, рубрики: computational linguistics, distillation, image processing, llm, quantization, tabular data, time series, преподавание, трансформерыTime series данные в реляционной СУБД. Расширения TimescaleDB и PipelineDB для PostgreSQL
2019-08-28 в 10:23, admin, рубрики: PipelineDB, postgresql, time series, time series database, timescaledb, Администрирование баз данных, Блог компании Конференции Олега Бунина (Онтико), визуализация данных, временные ряды, хранение данныхTime series данные или временные ряды — это данные, которые изменяются во времени. Котировки валют, телеметрия перемещения транспорта, статистика обращения к серверу или нагрузки на CPU — это time series данные. Чтобы их хранить требуются специфичные инструменты — темпоральные базы данных. Инструментов — десятки, например, InfluxDB или ClickHouse. Но даже у самых лучших решений для хранения временных рядов есть недостатки. Все time series хранилища низкоуровневые, подходят только для time series данных, а обкатка и внедрение в текущий стек — дорого и больно.
Но, если у вас стек PostgreSQL, то можете забыть о InfluxDB и всех остальных темпоральных БД. Ставите себе два расширения TimescaleDB и PipelineDB и храните, обрабатываете и проводите аналитику time series данных прямо в экосистеме PostgreSQL. Без внедрения сторонних решений, без недостатков темпоральных хранилищ и без проблем их обкатки. Что это за расширения, в чем их преимущества и возможности, расскажет Иван Муратов (binakot) — руководитель отдела разработки в «Первой Мониторинговой Компании».
Читать полностью »
Zabbix, временные ряды и TimescaleDB
2019-07-02 в 12:32, admin, рубрики: open source, postgresql, time series, time series database, tsdb, zabbix, zabbix 4.2, zabbix мониторинг, Администрирование баз данных, Блог компании Zabbix, системное администрированиеКаждая система мониторинга сталкивается с тремя видами проблем, связанных с производительностью.
Во-первых, хорошая система мониторинга должна очень быстро получать, обрабатывать и записывать поступающие извне данные. Счёт идёт на микросекунды. Навскидку это может показаться неочевидным, но когда система становится достаточно большой, все эти доли секунд суммируются, превращаясь в хорошо заметные задержки.
Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов
2017-07-27 в 6:55, admin, рубрики: cluster, clustering, data mining, graphs, metrics, review, time series, математика, машинное обучениеПока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.
Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.
Gorilla: быстрая, масштабируемая in-memory time-series база данных
2017-05-18 в 13:09, admin, рубрики: algorithms, compression, monitoring, time series, Алгоритмы, Блог компании okmeter.io, высокая производительность, ПрограммированиеЭто перевод обзора статьи «Gorilla: A fast, scalable, in-memory time series database» Pelkonen et al. VLDB 2015
Чуваки из фейсбука сделали высокопроизводительный движок для мониторинговых данных. Мне понравился обзор этой статьи в блоге "The morning paper" — особенно про алгоритмы сжатия, и вот перевод.
Стиль — авторский.
Количество ошибок на одном из серверов Facebook зашкаливало. Читать полностью »
Открытый курс машинного обучения. Тема 9. Анализ временных рядов с помощью Python
2017-04-24 в 11:00, admin, рубрики: arima, forecast, holr-winters, machine learning, mlcourse_open, ods, open data science, python, time series, Алгоритмы, Блог компании Open Data Science, математика, машинное обучениеДоброго дня!
Мы продолжаем наш цикл статей открытого курса по машинному обучению и сегодня поговорим о временных рядах.
Посмотрим на то, как с ними работать в Python, какие возможные методы и модели можно использовать для прогнозирования; что такое двойное и тройное экспоненциальное взвешивание; что делать, если стационарность — это не про вас; как построить SARIMA и не умереть; и как прогнозировать xgboost-ом. И всё это будем применять к примеру из суровой реальности.
Предсказываем будущее с помощью библиотеки Facebook Prophet
2017-03-23 в 11:01, admin, рубрики: arima, arma, data mining, machine learning, ods, Predictions, prophet, python, time series, Блог компании Open Data Science, математика, машинное обучение
Прогнозирование временных рядов — это достаточно популярная аналитическая задача. Прогнозы используются, например, для понимания, сколько серверов понадобится online-сервису через год, каков будет спрос на каждый товар в гипермаркете, или для постановки целей и оценки работы команды (для этого можно построить baseline прогноз и сравнить фактическое значение с прогнозируемым).
Существует большое количество различных подходов для прогнозирования временных рядов, такие как ARIMA, ARCH, регрессионные модели, нейронные сети и т.д.
Сегодня же мы познакомимся с библиотекой для прогнозирования временных рядов Facebook Prophet
(в переводе с английского, "пророк", выпущена в open-source 23-го февраля 2017 года), а также попробуем в жизненной задаче – прогнозировании числа постов на Хабрехабре.
Badoo time-series storage: итак, она звалась Кассандрой
2017-03-22 в 9:15, admin, рубрики: apache cassandra, nosql, rrdtool, time series, Блог компании Badoo, высокая производительность, Программирование
Привет! Меня зовут Евгений Гугучкин, я – разработчик Badoo в команде «Платформа».
Наша команда работает над интересными и нужными задачами. Одна из них – разработка распределённого хранилища временных рядов, в решении которой я принимал непосредственное участие.
Недавно мы завершили большой и сложный этап, и нам захотелось поделится с вами нашими успехами, рассказать, почему мы занимались этой задачей и каких достигли результатов.
DariaDB. Разработка базы данных для хранения временных рядов
2017-03-05 в 15:21, admin, рубрики: c++, open source, scada, time series, базы данных, метки: time seriesУже больше года, как у меня есть свой хобби-проект, в котором я разрабатываю движок базы данных для хранения временных рядов — dariadb. Задача довольно интересная — тут есть и сложные алгоритмы да и область для меня совершенно новая. За год был сделан сам движок, небольшой сервер для него и клиент. Написано все это на С++. И если клиент-сервер находится пока в достаточно сыром состоянии, то движок уже обрел некоторую стабильность.Задача хранения временных рядов достаточно распространена там, где есть хоть какие-то измерения (от SCADA-систем до мониторинга состояния серверов).