Рубрика «data» - 3

Наиболее распространенные ошибки и заблуждения при настройке DFSR

2018-09-23 в 12:20, admin, рубрики: best practice, configuration, data, dfs, DFSR, failover, files, mistakes, replication, Windows Server, данные, настройка, отказоустойчивость, ошибки, репликация, Серверная оптимизация, Серверное администрирование, системное администрирование, файлы, хранение данных

[Прим. переводчика. Материал статьи относится к Windows Server 2003/2003R2/2008/2008R2, но большинство из описанного справедливо и для более поздних версий ОС]

Всем привет! Уоррен снова здесь, и этот пост в блоге представляет собой подборку наиболее распространенных проблем DFSR, с которыми я столкнулся за последние несколько лет. Цель этого поста — перечислить распространенные ошибки в конфигурации DFSR, из-за которых возникают эти проблемы, и уберечь вас от совершения аналогичных ошибок. Знать, чего делать не следует, так же важно, как знать, что нужно делать. Многие из описанных пунктов связаны с другими темами, поэтому для углубленного изучения вопроса предоставлены соответствующие ссылки.
Читать полностью »

Поддержка Python в Power BI

2018-08-27 в 7:00, admin, рубрики: data, data science, microsoft, Power BI, python, анализ данных, Блог компании Microsoft, визуализация, визуализация данных, математика

Мы рады сообщить, что Python, язык программирования, широко используемый статистиками, учеными и аналитиками, теперь интегрирован в наш open-source Power BI Desktop. После включения функции в настройках вы cможете использовать Python для очистки, анализа и визуализации данных. Подробнее под катом!

Поддержка Python в Power BI - 1
Читать полностью »

Базы данных Microsoft Research теперь доступны для всех

2018-07-12 в 8:00, admin, рубрики: cloud, data, data mining, database, microsoft, open source, research, Блог компании Microsoft, Научно-популярное, открытые данные

Мы рады рассказать вам о том, что наши коллеги из подразделения Microsoft Research опубликовали данные, полученные в результате многолетних трудов по курированию и изучению информации из научных работ. В частности, стали доступны данные по инженерии, компьютерным наукам, информатике, математике, физике, биологии, социальным и естественным наукам. Подробнее под катом!

Базы данных Microsoft Research теперь доступны для всех - 1 Читать полностью »

Визуализация данных при помощи Angular и D3

2018-06-24 в 17:24, admin, рубрики: angular, angular2, angular5, D3, d3.js, data, datavisualization, javascript, TypeScript, visualization

D3.js — это JavaScript библотека для манипулирования документами на основе входных данных. Angular — фреймворк, который может похвастаться высокой производительностью привязки данных.

Ниже я рассмотрю один хороший подход по использованию всей этой мощи. От симуляций D3 до SVG-инъекций и использования синтаксиса шаблонизатора.

Демо: положительные числа до 300 соединенные со своими делителями.
Читать полностью »

Ключевые анонсы Connect(); 2017

2017-11-16 в 14:58, admin, рубрики: .net, AI, azure, Connect(); 2017, data, devops, Microsoft Azure, Microsoft Connect 2017, Visual Studio, xamarin, Блог компании Microsoft, машинное обучение

Привет! В Нью-Йорке в эти дни проходит ежегодная конференция Microsoft Connect 2017. На ней уже анонсировали множество обновлений существующих продуктов и большое количество новых инструментов. Под катом читайте о самых интересных из них.

Ключевые анонсы Connect(); 2017 - 1
Читать полностью »

Connect(); 2017: прямая трансляция

2017-11-15 в 15:11, admin, рубрики: AI, azure, Connect(); 2017, data, devops, Microsoft Azure, Microsoft Connect 2017, Visual Studio, xamarin, Блог компании Microsoft

Приглашаем вас посмотреть прямую трансляцию Connect(); 2017, которая будет проходить на русском языке. В рамках неё Скотт Гатри и Скотт Хансельман представят самые крутые новости про Azure, Data, AI, DevOps, Visual Studio, Xamarin, и не только. Плеер можно найти под катом.

Connect(); 2017: прямая трансляция - 1
Читать полностью »

Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных

2017-10-06 в 13:11, admin, рубрики: airflow, analytics, big data, data, datawarehouse, elt, etl, Hadoop, Hive, open source, python, spark, sql, Блог компании Mail.Ru Group

Привет! В этой статье я хочу рассказать об одном замечательном инструменте для разработки batch-процессов обработки данных, например, в инфраструктуре корпоративного DWH или вашего DataLake. Речь пойдет об Apache Airflow (далее Airflow). Он несправедливо обделен вниманием на Хабре, и в основной части я попытаюсь убедить вас в том, что как минимум на Airflow стоит смотреть при выборе планировщика для ваших ETL/ELT-процессов.

Ранее я писал серию статей на тему DWH, когда работал в Тинькофф Банке. Теперь я стал частью команды Mail.Ru Group и занимаюсь развитием платформы для анализа данных на игровом направлении. Собственно, по мере появления новостей и интересных решений мы с командой будем рассказывать тут о нашей платформе для аналитики данных.

Читать полностью »

Восхождение дата-инженера

2017-02-02 в 11:30, admin, рубрики: data, SaaS, Администрирование баз данных, бд, Блог компании Inoventica Services, дата-инженер, инструментарий, инструменты, обработка данных, перевод, разработка, Сетевые технологии, СУБД, хранение данных, хранилища данных

Я присоединился к команде Facebook в 2011 году в качестве инженера бизнес-аналитика. К моменту, когда я покинул команду в 2013 году я уже был дата-инженером.

Меня не продвигали или назначали на эту новую позицию. Фактически, Facebook пришла к выводу, что выполняемая нами работа является классической бизнес-аналитикой. Роль, которую в итоге мы для себя создали, была полностью новой дисциплиной, а я и моя команда находились на острие этой трансформации. Мы разрабатывали новые подходы, способы решения задач и инструменты. При этом, чаще всего, мы игнорировали традиционные методы. Мы были пионерами. Мы были дата-инженерами!

Дата-инжиниринг?

Наука о данных как самостоятельная дисциплина переживает период отроческого самоутверждения и определения себя. В тоже время дата-инжиниринг можно было назвать ее «младшим братом», который тоже проходил через нечто подобное. Дата-инжиниринг принимал от своего «старшего родственника» сигналы, искал свое место и собственную идентичность. Как и ученые, занимающиеся обработкой данных, дата-инженеры тоже пишут код. Он является высокоаналитическим, с большой долей визуализации.

Но в отличие от ученых, работающих с данными и вдохновленными более зрелым прародителем сферы — программированием — дата-инженеры создают собственные инструменты, инфраструктуру, фреймворки и сервисы. На самом деле, мы намного ближе к программированию, чем к науке о данных.
Читать полностью »

Генерация фиктивных данных с Elizabeth

2016-12-21 в 10:27, admin, рубрики: data, django, dummy, fake, flask, python

Elizabeth — это библиотека для языка программирования Python, которая помогает генерировать фиктивные данные. Один из простейших примеров использования библиотеки — это заполнение баз данных для приложений на Flask или Django. На данный момент библиотека поддерживает 16 языковых стандартов и 18 классов-провайдеров, предоставляющих разного рода данные.

Возможность генерировать фиктивные, но в то же время валидные данные бывает очень полезна при разработке приложений, которые подразумевают работу с базой данных. Ручное заполнение базы данных представляется довольно-таки сложным и изнурительным процессом, но по-настоящему все усложняется в тот момент, когда требуется сгенерировать не 10-15 пользователей, а 100-150 тысяч. В этой статье я постараюсь обратить ваше внимание на инструмент, который в разы упрощает процесс начальной загрузки базы данных на этапе тестирования.

Читать полностью »

Big Data головного мозга

2016-06-22 в 6:07, admin, рубрики: big data, data, greenplum, hawq, teradata, Vertica

Наверно, в мире данных нет подобного феномена настолько неоднозначного понимания того, что же такое Hadoop. Ни один подобный продукт не окутан таким большим количеством мифов, легенд, а главное непонимания со стороны пользователей. Не менее загадочным и противоречивым является термин "Big Data", который иногда хочется писать желтым шрифтом(спасибо маркетологам), а произносить с особым пафосом. Об этих двух понятиях — Hadoop и Big Data я бы хотел поделиться с сообществом, а возможно и развести небольшой холивар.
Возможно статья кого-то обидит, кого-то улыбнет, но я надеюсь, что не оставит никого равнодушным.

Демонстрация Hadoop пользователям

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «data» - 3

Наиболее распространенные ошибки и заблуждения при настройке DFSR

Поддержка Python в Power BI

Базы данных Microsoft Research теперь доступны для всех

Визуализация данных при помощи Angular и D3

Ключевые анонсы Connect(); 2017

Connect(); 2017: прямая трансляция

Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных

Восхождение дата-инженера

Дата-инжиниринг?

Генерация фиктивных данных с Elizabeth

Big Data головного мозга

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «data» - 3

Дата-инжиниринг?

Новости

Актуальные темы

Архив