Рубрика «big data» - 2

Новые инструменты для работы c ML-моделями и обзор MLOps от CERN - 1

Привет всем, кто работает с ML-моделями и занимается аналитикой данных! В новом дайджесте для вас много интересных обзоров по инструментам — как говорится, ни ClearML и Airflow едиными. Рынок решений стремительно развивается, и наши подборки помогут вам держать руку на пульсе. Еще больше полезных текстов по DataOps и MLOps публикуем в Telegram-сообществе «MLечный путь».

Как вам, кстати, ренессансная GPU на обложке, которую сгенерила нейросеть для блога Andreesen and Horowitz? Что тут сказать — просто поделитесь промтом.
Читать полностью »

Привет!

Раньше я уже писала про интересный проект RAM диска – безлимитного заменителя SSD, подключаемого в PCIe слот компьютера и прикидывающегося обычным SSD диском, только очень быстрым и с неограниченным ресурсом TBW. Повторяться не буду, подробности работы девайса можете найти в оригинальной статье. Тогда были созданы платы, содержащие впаянные чипы памяти и имевшие фиксированный объём.

За прошедшие два года ребята доработалиЧитать полностью »

Государство активно взяло курс на формирование реестра граждан и наполнение его разнородными данными. Про это высказываются самые разные чиновники после главного шага - введения системы "электронных повесток". К этому готовились. Напомню, что именно было сделано в последние два года для сбора максимального объема данных внутри госсистем.

  1. Государство в декабре принудило все коммерческие компании отдать себе биометрические данные 70 миллионов трудоспособных россиян (закон 211535 о "Единой информационной системе"). Всё что собрали банки, телекомы, интернет-сервисы.

  2. В январе 2023 Путин Читать полностью »

А работают ли игровые механики? - 1

Этот вопрос мне задают постоянно. 

Читать полностью »

Как упростить анализ данных? Запуск и сценарии использования готовой виртуальной машины для аналитики - 1

Походы — вещь непредсказуемая. Обычно полезная нагрузка распределяется между всеми участниками, но всегда вмешивается элемент случайности или забывчивости. В таких ситуациях выручает швейцарский нож, который гарантирует, что минимальные потребности группы будут удовлетворены. С помощью такого ножа можно и консервы открыть, и бинт разрезать, но главное — он экономит место в рюкзаке.

Небольшой команде, которая работает с ML-моделями и анализом данных, тоже хочется иметь готовое решение базовых задач. Собирать его самостоятельно из отдельных компонентов не всегда удобно, а еще это бывает дорого. Вот бы существовало какое-то компактное решение, в котором сразу был бы весь набор инструментов и настроек. Что ж, усаживайтесь у костра поудобнее, пришло время рассказать про Data Analytics Virtual Machine (DAVM).
Читать полностью »

YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source - 1

Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.

Читать полностью »

Этот проект родился после беседы с друзьями об инвестициях в недвижимость. Обсуждали, как выгодно купить квартиру, паркинг или келлер под сдачу и выгодно ли вообще.

Я решил проанализировать рынок продажи и аренды гаражей и парковочных мест своего города. Квартиры – слишком дорогие объекты для инвестиций, а что касается гаражей и паркингов – тут «вход» гораздо меньше, и на аренду вроде бы всегда есть спрос.

Читать полностью »

«Я тебя по IP вычислю!» – помните такую угрозу из интернета времен нулевых годов? Мы в Big Data МТС решили выяснить, можно ли составить хотя бы приблизительное представление о человеке, обладая информацией о сайтах, которые он посещает. Для этого мы сгенерировали полусинтетические данные, чтобы понять, насколько смелыми можно быть в этих ваших интернетах.

ML-задача на 30 минут: гадаем по cookie - 1Читать полностью »

Генерация конвейеров обработки данных в Dataflow - 1


Эта статья посвящена всем практикующим специалистам по данным, заинтересованным в освоении запуска, стандартизации и автоматизации пакетных конвейеров данных в Netflix.

О Dataflow мы писали в статье под названием Data pipeline asset management with Dataflow. Та статья представляла подробное знакомство с одним из наиболее технических аспектов Dataflow, но сам этот инструмент толком не описывала. На сей раз мы оправдаем заявленное вступление, после чего сосредоточимся на одной из основных возможностей Dataflow — образцах рабочих потоков. Для начала же мы коротко разберём Dataflow в общем.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js