Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.
Рубрика «big data» - 3
YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source
2023-03-20 в 10:57, admin, рубрики: big data, c++, open source, YTsaurus, Блог компании Яндекс, Большие данные, инфраструктура, отказоустойчивостьБольшие данные мертвы. Это нужно принять
2023-03-02 в 14:02, admin, рубрики: big data, data engineering, firstvds, Google, базы данных, Блог компании FirstVDS, вычисления, Облачные вычисления, хранилищаПокупка гаража как инвестиция
2023-02-20 в 22:24, admin, рубрики: analysis, analytics, big data, data, python, недвижимостьЭтот проект родился после беседы с друзьями об инвестициях в недвижимость. Обсуждали, как выгодно купить квартиру, паркинг или келлер под сдачу и выгодно ли вообще.
Я решил проанализировать рынок продажи и аренды гаражей и парковочных мест своего города. Квартиры – слишком дорогие объекты для инвестиций, а что касается гаражей и паркингов – тут «вход» гораздо меньше, и на аренду вроде бы всегда есть спрос.
ML-задача на 30 минут: гадаем по cookie
2023-01-17 в 6:00, admin, рубрики: big data, data science, machinelearning, Блог компании МТС, данные, Занимательные задачки, машинное обучение, соревнование, хакатон, Хакатоны«Я тебя по IP вычислю!» – помните такую угрозу из интернета времен нулевых годов? Мы в Big Data МТС решили выяснить, можно ли составить хотя бы приблизительное представление о человеке, обладая информацией о сайтах, которые он посещает. Для этого мы сгенерировали полусинтетические данные, чтобы понять, насколько смелыми можно быть в этих ваших интернетах.
Генерация конвейеров обработки данных в Dataflow
2022-12-23 в 13:00, admin, рубрики: big data, dataflow, netflix, pyspark, R, ruvds_перевод, scala, Администрирование баз данных, Блог компании RUVDS.com, конвейеры данных, пайплайны, рабочие потокиЭта статья посвящена всем практикующим специалистам по данным, заинтересованным в освоении запуска, стандартизации и автоматизации пакетных конвейеров данных в Netflix.
О Dataflow мы писали в статье под названием Data pipeline asset management with Dataflow. Та статья представляла подробное знакомство с одним из наиболее технических аспектов Dataflow, но сам этот инструмент толком не описывала. На сей раз мы оправдаем заявленное вступление, после чего сосредоточимся на одной из основных возможностей Dataflow — образцах рабочих потоков. Для начала же мы коротко разберём Dataflow в общем.Читать полностью »
Копирайтеры больше не нужны? Просим новую нейросеть Notion AI написать про Python
2022-12-23 в 12:07, admin, рубрики: big data, notion, notion ai, selectel, Блог компании Selectel, копирайт, машинное обучение, Научно-популярноеВ ноябре 2022 года компания Notion представила нейронную сеть для генерации текстов — и на днях мы получили доступ к альфа-версии. Вы не поверите, на что она способна. Notion AI умеет писать статьи, посты и даже твиты — и это вам не Балабоба!
Но настолько ли хороша Notion AI, как может показаться? И умеет ли она писать технические статьи? Под катом — первый на Хабре обзор новой нейронки.
Читать полностью »
Генерируем музыку с помощью Stable Diffusion
2022-12-18 в 6:20, admin, рубрики: big data, machine learning, python, stable diffusion, генерация изображений, генерация музыки, машинное обучение, Научно-популярное, обработка изображенийМногие уже слышали, а может и пробовали модель Stable Diffusion для генерации картинок из текста.
Теперь ту же модель можно использовать для генерации музыки! Модель была дообучена на задаче генерации спектрограмм по входной строке и теперь появилась возможность делать следующее:
ChatGPT пройдёт собеседование по Data Science вместо вас
2022-12-14 в 9:00, admin, рубрики: big data, chatgpt, data science, OpenAI, python, ruvds_статьи, Алгоритмы, Блог компании RUVDS.com, машинное обучение, нейросетиПривет, чемпион!
Возможно, ты сейчас готовишься к собеседованию в какую-нибудь IT-компанию. Скорее всего, тебе будут задавать технические вопросы, поэтому тебе приходится готовиться. Но, возможно, ты всё равно не сможешь ответить на все вопросы правильно. Как быть?!
А слышал ли ты про новую умную chatGPT? А что, если я тебе скажу, что больше готовиться к собеседованиям так усердно не нужно! Что?! Задаваемые тебе вопросы можно делегировать chatGPT.
В общем, нет времени объяснять, давай устроим собес для chatGPT по Data Science и узнаем, сможет ли сетка его пройти?! Всё по классике — спрашиваем вопросы по 4 секциям:
- Программирование — Python и алгоритмы,
- Написание SQL-запросов,
- Data Science и статистика,
- ML System Design.
2003–2023: Краткая история Big Data
2022-12-04 в 10:00, admin, рубрики: Apache, AWS, big data, data engineering, GCP, Hadoop, Microsoft Azure, ruvds_перевод, spark, sql, Блог компании RUVDS.com, Большие данные, хранилища данныхБольшие данные (Big Data) и, в частности, экосистема Hadoop появились немногим более 15 лет назад и развились к сегодняшнему дню так, как мало кто мог тогда предположить.
Ещё только появившись, опенсорсный Hadoop сразу стал популярным инструментом для хранения и управления петабайтами данных. Вокруг него сформировалась обширная и яркая экосистема с сотнями проектов, и он до сих пор используется многими крупными компаниями, даже на фоне современных облачных платформ. В текущей статье я опишу все эти 15 лет1 эволюции экосистемы Hadoop, расскажу о её росте в течение последнего десятилетия, а также о последних шагах в развитии сферы больших данных за последние годы.
Так что пристегнитесь и настройтесь на путешествие во времени вглубь 20 последних лет, поскольку наша история начинается в 2003 году в маленьком городке к югу от Сан-Франциско…
Дисклеймер: изначально я планировал оформить статью логотипами упоминаемых в ней компаний и программ, но на TDS запрещено обширное использование логотипов, поэтому я решил украсить содержание случайными изображениями и справочной информацией. Весело вспоминать, где мы в те времена находились и чем занимались.