Мы рады рассказать вам о том, что наши коллеги из подразделения Microsoft Research опубликовали данные, полученные в результате многолетних трудов по курированию и изучению информации из научных работ. В частности, стали доступны данные по инженерии, компьютерным наукам, информатике, математике, физике, биологии, социальным и естественным наукам. Подробнее под катом!
Рубрика «data» - 3
Базы данных Microsoft Research теперь доступны для всех
2018-07-12 в 8:00, admin, рубрики: cloud, data, data mining, database, microsoft, open source, research, Блог компании Microsoft, Научно-популярное, открытые данныеВизуализация данных при помощи Angular и D3
2018-06-24 в 17:24, admin, рубрики: angular, angular2, angular5, D3, d3.js, data, datavisualization, javascript, TypeScript, visualizationD3.js — это JavaScript библотека для манипулирования документами на основе входных данных. Angular — фреймворк, который может похвастаться высокой производительностью привязки данных.
Ниже я рассмотрю один хороший подход по использованию всей этой мощи. От симуляций D3 до SVG-инъекций и использования синтаксиса шаблонизатора.
Демо: положительные числа до 300 соединенные со своими делителями.
Читать полностью »
Ключевые анонсы Connect(); 2017
2017-11-16 в 14:58, admin, рубрики: .net, AI, azure, Connect(); 2017, data, devops, Microsoft Azure, Microsoft Connect 2017, Visual Studio, xamarin, Блог компании Microsoft, машинное обучениеПривет! В Нью-Йорке в эти дни проходит ежегодная конференция Microsoft Connect 2017. На ней уже анонсировали множество обновлений существующих продуктов и большое количество новых инструментов. Под катом читайте о самых интересных из них.
Connect(); 2017: прямая трансляция
2017-11-15 в 15:11, admin, рубрики: AI, azure, Connect(); 2017, data, devops, Microsoft Azure, Microsoft Connect 2017, Visual Studio, xamarin, Блог компании MicrosoftПриглашаем вас посмотреть прямую трансляцию Connect(); 2017, которая будет проходить на русском языке. В рамках неё Скотт Гатри и Скотт Хансельман представят самые крутые новости про Azure, Data, AI, DevOps, Visual Studio, Xamarin, и не только. Плеер можно найти под катом.
Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных
2017-10-06 в 13:11, admin, рубрики: airflow, analytics, big data, data, datawarehouse, elt, etl, Hadoop, Hive, open source, python, spark, sql, Блог компании Mail.Ru Group
Привет! В этой статье я хочу рассказать об одном замечательном инструменте для разработки batch-процессов обработки данных, например, в инфраструктуре корпоративного DWH или вашего DataLake. Речь пойдет об Apache Airflow (далее Airflow). Он несправедливо обделен вниманием на Хабре, и в основной части я попытаюсь убедить вас в том, что как минимум на Airflow стоит смотреть при выборе планировщика для ваших ETL/ELT-процессов.
Ранее я писал серию статей на тему DWH, когда работал в Тинькофф Банке. Теперь я стал частью команды Mail.Ru Group и занимаюсь развитием платформы для анализа данных на игровом направлении. Собственно, по мере появления новостей и интересных решений мы с командой будем рассказывать тут о нашей платформе для аналитики данных.
Восхождение дата-инженера
2017-02-02 в 11:30, admin, рубрики: data, SaaS, Администрирование баз данных, бд, Блог компании Inoventica Services, дата-инженер, инструментарий, инструменты, обработка данных, перевод, разработка, Сетевые технологии, СУБД, хранение данных, хранилища данных
Я присоединился к команде Facebook в 2011 году в качестве инженера бизнес-аналитика. К моменту, когда я покинул команду в 2013 году я уже был дата-инженером.
Меня не продвигали или назначали на эту новую позицию. Фактически, Facebook пришла к выводу, что выполняемая нами работа является классической бизнес-аналитикой. Роль, которую в итоге мы для себя создали, была полностью новой дисциплиной, а я и моя команда находились на острие этой трансформации. Мы разрабатывали новые подходы, способы решения задач и инструменты. При этом, чаще всего, мы игнорировали традиционные методы. Мы были пионерами. Мы были дата-инженерами!
Дата-инжиниринг?
Наука о данных как самостоятельная дисциплина переживает период отроческого самоутверждения и определения себя. В тоже время дата-инжиниринг можно было назвать ее «младшим братом», который тоже проходил через нечто подобное. Дата-инжиниринг принимал от своего «старшего родственника» сигналы, искал свое место и собственную идентичность. Как и ученые, занимающиеся обработкой данных, дата-инженеры тоже пишут код. Он является высокоаналитическим, с большой долей визуализации.
Но в отличие от ученых, работающих с данными и вдохновленными более зрелым прародителем сферы — программированием — дата-инженеры создают собственные инструменты, инфраструктуру, фреймворки и сервисы. На самом деле, мы намного ближе к программированию, чем к науке о данных.
Читать полностью »
Генерация фиктивных данных с Elizabeth
2016-12-21 в 10:27, admin, рубрики: data, django, dummy, fake, flask, pythonElizabeth — это библиотека для языка программирования Python, которая помогает генерировать фиктивные данные. Один из простейших примеров использования библиотеки — это заполнение баз данных для приложений на Flask или Django. На данный момент библиотека поддерживает 16 языковых стандартов и 18 классов-провайдеров, предоставляющих разного рода данные.
Возможность генерировать фиктивные, но в то же время валидные данные бывает очень полезна при разработке приложений, которые подразумевают работу с базой данных. Ручное заполнение базы данных представляется довольно-таки сложным и изнурительным процессом, но по-настоящему все усложняется в тот момент, когда требуется сгенерировать не 10-15 пользователей, а 100-150 тысяч. В этой статье я постараюсь обратить ваше внимание на инструмент, который в разы упрощает процесс начальной загрузки базы данных на этапе тестирования.
Big Data головного мозга
2016-06-22 в 6:07, admin, рубрики: big data, data, greenplum, hawq, teradata, VerticaНаверно, в мире данных нет подобного феномена настолько неоднозначного понимания того, что же такое Hadoop. Ни один подобный продукт не окутан таким большим количеством мифов, легенд, а главное непонимания со стороны пользователей. Не менее загадочным и противоречивым является термин "Big Data", который иногда хочется писать желтым шрифтом(спасибо маркетологам), а произносить с особым пафосом. Об этих двух понятиях — Hadoop и Big Data я бы хотел поделиться с сообществом, а возможно и развести небольшой холивар.
Возможно статья кого-то обидит, кого-то улыбнет, но я надеюсь, что не оставит никого равнодушным.
Демонстрация Hadoop пользователям
Moscow Python Meetup №32
2016-02-04 в 12:19, admin, рубрики: aiohttp, algorithms, Conference, data, ipython, jupyter, meetup, moscow, pythonПервая встреча MoscowPython 2016-го года состоится в гостях у компании Rambler&Co 9-го февраля.
Отправляемся в «Дата-центр»
2016-01-23 в 10:41, admin, рубрики: data, data centre, оптимизация затрат, управление проектами, метки: data centre
В сторону Хостинг провайдера Российский бизнес (не только интернет компании) начали заглядываться где-то с 2012 года. В чём же популярность решений? Очень просто, это цена. Действительно, при открытии нового бизнеса не стоит думать про строительство частного ЦОД, тем более про закупку сверх мощностей. Если Ваш проект стартап и в штате предусмотрен один системный администратор, на худой конец в паре с программистом 1С, то собственный ЦОД Вам точно не нужен. Деньги можно потратить на более необходимые вещи.
Читать полностью »