Dash представляет собой фреймворк для визуализации данных и построения веб-приложений, понятен и довольно прост в применении. Может быть интересен тем, кто хочет использовать интерактивные графики для анализа данных с помощью Python. Рассмотрим построение таких графиков с применением обратных вызовов в Dash.
Рубрика «данные» - 3
Динамика в деле: интерактивные графики в Dash
2022-04-30 в 10:18, admin, рубрики: Dash, python, визуализация, визуализация данных, график, данные, ПрограммированиеМонетизация данных. Зачем Большой Брат следит за нами?
2022-04-07 в 11:02, admin, рубрики: big data, Алгоритмы, Блог компании Группа Т1, данные, защита информации, искусственный интеллект, кейс, монетизация, Программное обеспечение, стратегическое планирование, управление проектами2021-й год стал первым годом, когда крупные компании начали понимать на практике, зачем же они следят за пользователями. До этого бигдата была инструментом поиска вещей, которые можно было сделать и статичными правилами, а вот сейчас наконец-то стала полезной принципиально иначе.
Теперь можно получать обработку информации в реальном времени (и реагировать гибко и сразу на те же действия на сайте или в приложении), в агрегации данных (теперь банк знает, где вы живёте, какие у вас были диагнозы по чекам из аптеки и какие интернет-магазины вы предпочитаете по адресам посещаемых сайтов, от стратегического альянса с провайдером или сотовым оператором) и так далее.
Читать полностью »
Система хранения данных на основе ДНК: реально ли это и как работает?
2021-06-16 в 12:57, admin, рубрики: Блог компании Selectel, будущее здесь, данные, днк, Научно-популярное, системы хранения данных, хранение данныхСистемы хранения данных, основанные на ДНК, могут стать выходом для человечества, которое генерирует все большие объемы информации. По сравнению со всеми прочими носителями у ДНК просто феноменальная плотность записи данных. Еще одно преимущество — в случае ДНК для хранения данных в оптимальных условиях не нужна энергия, причем информацию можно сохранять сотни лет. Через несколько веков данные можно без проблем считать — конечно, при условии наличия соответствующих технологий.
Но есть у ДНК и минусы. Например, сейчас еще нет стандартов кодирования информации в нити ДНК. Синтезирование искусственных молекул — дело достаточно дорогое, а считывание хранимой информации может занимать дни и недели. Многократное обращение к нитям ДНК за информацией приводит к нарушению структуры молекул, так что в итоге могут возникнуть ошибки. Сейчас предложен метод, который поможет решить некоторые из этих проблем. Система хранения данных (пока что лишь изображений) представляет собой нечто среднее между обычной файловой системой и базой на основе метаданных.
Читать полностью »
Будни аналитиков в «М.Видео—Эльдорадо»
2021-02-04 в 7:14, admin, рубрики: big data, job, Анализ и проектирование систем, аналитика, Блог компании М.Видео-Эльдорадо, данные, Карьера в IT-индустрии, М.Видео, Читальный зал, Эльдорадо
Профессию аналитика многие связывают с анализом данных ради поиска неочевидных закономерностей и тенденций. Однако это лишь одно из направлений деятельности, которое в русском языке называется «обработка и анализ данных», а в английском — data science, наука о данных. Другое направление деятельности в аналитике посвящено разработке новых и оптимизации существующих бизнес-процессов. И таких специалистов даже больше, чем «дата-сатанистов».
Меня зовут Дмитрий Кольцов, я Delivery Manager в «М.Видео—Эльдорадо», и хочу рассказать о том, как бизнес и системные аналитики встроены в организационную структуру нашей компании и какие задачи они решают. Кстати, в конце статьи вас ждёт анонс нашего первого онлайн-конкурса для аналитиков.Читать полностью »
6 принципов эффективной визуализации данных
2021-01-03 в 16:19, admin, рубрики: big data, skillfactory, Блог компании SkillFactory, визуализация, визуализация данных, данные, Инфографика, Лайфхаки для гиков, открытые данныеКлючевые принципы создания полезных и информативных графиков
Визуализация данных является важным этапом в процессе постижения науки о данных. Здесь вы представляете свои результаты и сообщаете о них в графическом формате, который является интуитивно понятным и лёгким для понимания.
Визуализация данных требует большой работы, большой труд по очистке и анализу уходит на перегонку и превращение грязных данных в красивые графики и диаграммы. Но даже с подготовленными данными всё равно приходится придерживаться определённых принципов или методологий, чтобы создать полезную, информативную графику.
Тем не менее при написании этой статьи я черпал вдохновение в книге Эдварда Тафта «Beautiful Evidence», которая содержит шесть принципов, посвящённых тому, как сделать графики данных полезными. Именно эти принципы отделяют полезные графики от бесполезных.
Эта статья также в значительной степени вдохновлена книгой Роджера Д. Пенга «Exploratory Data Analysis in R» Она доступна бесплатно на Bookdown, и вы можете прочитать её, чтобы узнать больше о EDA.
Давайте ближе познакомимся с этими принципами.
Пример визуализации данных на Our World in Data
Читать полностью »
К порядку: правила создания конвейеров обработки данных
2020-12-30 в 12:10, admin, рубрики: data, pipelines, базы данных, Блог компании Badoo, данные, конвейер, Программирование, хранение данных, хранилища данныхК 2020 году вы не могли не заметить, что миром правят данные. И, как только речь заходит о работе с ощутимыми объёмами, появляется необходимость в сложном многоэтапном конвейере обработки данных.
Мы отрендерили миллион страниц, чтобы понять, из-за чего тормозит веб
2020-12-30 в 9:17, admin, рубрики: java, Анализ и проектирование систем, высокая производительность, данные, производительность, Тестирование IT-систем, Тестирование веб-сервисовМы отрендерили 1 миллион самых популярных страниц веба, фиксируя все мыслимые метрики производительности, записывая все ошибки и замечая все запрошенные URL. Похоже, таким образом мы создали первый в мире набор данных, связывающий производительность, ошибки и использование библиотек в сети. В этой статье мы проанализируем, что наши данные могут сообщить о создании высокопроизводительных веб-сайтов.
- Посещён 1 миллион страниц
- Записано по 65 метрик каждой страницы
- Запрошен 21 миллион URL
- Зафиксировано 383 тысячи ошибок
- Сохранено 88 миллионов глобальных переменных
Можно ли превзойти наш анализ? Мы опубликовали наш набор данных на Kaggle, поэтому вы можете обработать данные самостоятельно.
Зачем рендерить миллион веб-страниц?
Сегодня распространено мнение о том, что веб почему-то стал более медленным и забагованным, чем 15 лет назад. Из-за постоянно растущей кучи JavaScript, фреймворков, веб-шрифтов и полифилов, мы съели все преимущества, которые даёт нам увеличение возможностей компьютеров, сетей и протоколов. По крайней мере, так утверждает молва. Мы хотели проверить, правда ли это на самом деле, а также найти общие факторы, которые становятся причиной торможения и поломок сайтов в 2020 году.
Общий план был простым: написать скрипт для веб-браузера, заставить его рендерить корневую страницу миллиона самых популярных доменов и зафиксировать все мыслимые метрики: время рендеринга, количество запросов, перерисовку, ошибки JavaScript, используемые библиотеки и т.п. Имея на руках все эти данные, мы могли бы начать задаваться вопросами о том, как один фактор корреллирует с другим. Какие факторы сильнее всего влияют на замедление рендеринга? Какие библиотеки увеличивают время до момента возможности взаимодействия со страницей (time-to-interactive)? Какие ошибки встречаются наиболее часто, и что их вызывает?
Читать полностью »
Заметки Датасатаниста: реляционные vs связанные данные
2020-12-16 в 9:00, admin, рубрики: big data, data engineering, data science, ruvds_статьи, Блог компании RUVDS.com, данные, машинное обучение, реляционные данные, связанные данные
Сегодня мы поговорим о простой, казалось бы, теме, как реляционные и связанные данные.
Несмотря на всю ее простоту, замечаю, что иногда люди действительно путаются в них — я решил это исправить, написав краткое и неформальное объяснение, чем они являются и зачем нужны.
Мы обсудим, что такое реляционная модель и связанные с ней SQL и реляционная алгебра. Потом перейдем к примерам связанных данных из Викидата, а далее RDF, SPARQL и чутка поговорим про Datalog и логическое представление данных. В конце выводы — когда применять реляционную модель, а когда связно-логическую.
Основная цель заметки — это описать, когда что имеет смысл применять и почему. Так как тут немало непростых концепций сошлись в одном месте, то конечно же можно было бы по каждой написать книгу — но наша задача сегодня дать представление о теме и мы будем разбирать неформально на простых примерах.
Если у вас есть сомнения, чем одно отличается от второго и зачем вообще нужны связанные данные (LinkedData), то добро пожаловать под кат.
Читать полностью »
Чек-лист разумной защиты своего ноутбука
2020-08-16 в 9:15, admin, рубрики: ruvds, Блог компании RUVDS.com, данные, защита ноутбука, информационная безопасность, Лайфхаки для гиков, личные данные
Важный компонент защиты от несанкционированного доступа
Каждому разумному человеку есть, что скрывать. Это нормально. Никто не хочет, чтобы утекли его приватные ключи для доступа в репозиторий, важный код или личные фотки в свитере с оленями.
Поэтому, я тут подумал и решил собрать в одном месте некий стандартизированный чек-лист по комплексной защите своего ноутбука. Я намеренно отсекаю станционарные ПК, потому что они меньше подвержены угрозам вида «случайно забыл в баре». С 6 килограммами жестких дисков, тепловых трубок и башенным кулером это сделать куда сложнее.
Я постараюсь пройтись по основным угрозам и методам защиты. Например, люди часто забывают, что вводить пароль под камерой — плохая идея. Буду крайне признателен вашим дополнениям.
Читать полностью »
Почему при Covid-19 увеличилась переподписка, и как это проверить
2020-06-17 в 6:57, admin, рубрики: COVID-19, Блог компании КРОК Облачные сервисы, данные, облака, облачные сервисы, переподписка, скрипты, хранение, хранение данных
Photo by Victor Rodriguez on Unsplash
Часто мы получаем от клиентов (включая даже крупных) сообщения, в которых сквозит общий мотив: «У %provider_name% нам не хватало 192 ядер, а у вас и 120 достаточно. Почему так?». Причем в последнее время из-за пандемии таких запросов стало больше. То ли потому что клиенты вышли в онлайн и почувствовали нехватку ресурсов из-за ажиотажного спроса и у других клиентов тоже, то ли потому что некоторые провайдеры из-за все того же высокого спроса на услуги стали плотнее «упаковывать» в облаке заказчиков.
Вот эта переподписка, которая обострилась, судя по всему, из-за Covid-19, сейчас волнует очень многих облачных пользователей. Поэтому мы постараемся ответить на наиболее распространенные вопросы и рассказать про инструмент, который позволит проверить наличие переподписки у вашего провайдера.
Может показаться, что эта тема уже не раз поднималась на Хабре и за его пределами, а статья будет полезной только совсем зеленым новичкам. Но мы не писали бы этот материал, если бы предполагаемый уровень осведомленности клиентов об этом явлении совпадал с реальным.
Читать полностью »