Рубрика «data science» - 4

«Midjourney на коленке». Как развернуть нейросеть в облаке за 5 минут, или начало работы с Diffusers - 1

Построить свою конвейерную ленту по разработке нейронок не так сложно. Нужен «всего лишь» сервер с GPU и настроенное окружение с библиотекой Diffusers. Если вам интересно, что это такое, как создать свою «Midjourney на коленке» и генерировать вайф в режиме 24/7, добро пожаловать под кат!
Читать полностью »

Полезные материалы по Data Science и машинному обучению, которые помогут пройти сквозь джунгли из терминов - 1

Привет! Меня зовут Ефим, я MLOps-инженер в Selectel. В прошлом был автоматизатором, ML-инженером, дата-аналитиком и дата-инженером — и уже несколько лет падаю в пропасть машинного обучения и Data Science. Это буквально необъятная сфера, в которой почти нет ориентиров. Основная проблема в том, что разделов математики довольно много и все они, на первый взгляд, нужны в том же машинном обучении.

В этой статье делюсь полезными материалами, которые помогут найти и заполнить теоретические и практические проблемы и основательно подойти к своему профессиональному развитию. Добро пожаловать под кат!
Читать полностью »

«Я тебя по IP вычислю!» – помните такую угрозу из интернета времен нулевых годов? Мы в Big Data МТС решили выяснить, можно ли составить хотя бы приблизительное представление о человеке, обладая информацией о сайтах, которые он посещает. Для этого мы сгенерировали полусинтетические данные, чтобы понять, насколько смелыми можно быть в этих ваших интернетах.

ML-задача на 30 минут: гадаем по cookie - 1Читать полностью »

ChatGPT пройдёт собеседование по Data Science вместо вас - 1


Привет, чемпион!

Возможно, ты сейчас готовишься к собеседованию в какую-нибудь IT-компанию. Скорее всего, тебе будут задавать технические вопросы, поэтому тебе приходится готовиться. Но, возможно, ты всё равно не сможешь ответить на все вопросы правильно. Как быть?!

А слышал ли ты про новую умную chatGPT? А что, если я тебе скажу, что больше готовиться к собеседованиям так усердно не нужно! Что?! Задаваемые тебе вопросы можно делегировать chatGPT.

В общем, нет времени объяснять, давай устроим собес для chatGPT по Data Science и узнаем, сможет ли сетка его пройти?! Всё по классике — спрашиваем вопросы по 4 секциям:

  • Программирование — Python и алгоритмы,
  • Написание SQL-запросов,
  • Data Science и статистика,
  • ML System Design.

Читать полностью »

Прощай, Data Science - 1

Это по большей мере личный пост, а не какое-то глубокое исследование. Если вам нужны какие-то выводы, то здесь вы их не найдёте. Откровенно говоря, я даже не знаю, кто его целевая аудитория (возможно «дата-саентисты, которые себя ненавидят»?).

Последние несколько лет я был дата-саентистом, но в 2022 году получил новую должность дата-инженера, и пока я ею вполне доволен.

Я по-прежнему работаю вместе с «дата-саентистами» и немного продолжаю заниматься этой сферой, но вся моя работа по «data science» заключается в руководстве и консультировании по чужой работе. Я в большей степени занимаюсь реализацией data science (MLOps) и дата-инжинирингом.

Основная причина разочарования в data science заключалась в том, что работа казалась несущественной, во многих смыслах этого слова «неважной»:

  • Работа — это непрекращающийся поток разработки, продукта и офисной политики, поэтому часто так бывает, что работа хороша настолько, насколько хорошо самое слабое звено в цепи.
  • Никто не знал, в чём заключается разница между плохой и хорошей работой в data science, да никого это и не волновало. Это значит, что вы можете быть абсолютным неудачником или гением в ней, но в любом случае получите примерно одинаковое признание.
  • Работа часто приносила очень малую пользу бизнесу (часто компенсируя некомпетентность выше по цепочке управления).
  • Когда польза от работы превышала затраты на оплату труда, часто это не давало внутренней отдачи (например, настройка параметра, чтобы бизнес зарабатывал больше денег).

Читать полностью »

Под катом я расскажу о своем опыте поиска работы в Германии после всем известных событий, а также о переезде в Берлин после объявления частичной мобилизации.

Поговорим про особенности и проблемы, которые могут возникнуть в наше непростое время, а также разрушим стереотипы по поводу немецкой бюрократии и педантичности.

Ну и конечно посчитаем сколько денег, времени и седых волос на это ушло.

Читать полностью »
Про правильный кокс, ИТ и эксперименты с ним - 1

Наша планета состоит из железа на 34,6 %, но оно в основном спрятано довольно глубоко. Большая часть доступного — в рудах в виде оксидов. При обработке руды происходит два процесса: нагрев (который переводит металл в жидкое агрегатное состояние) и связывание кислорода чем-то с более сильной химической связью, например, углеродом. Для этих целей идеально подходит уголь: он позволяет получить в простой печи нужную температуру и сам по себе во многом состоит из углерода. Сжигая оксиды железа внутри кучи угля, мы можем выплавлять металл чуть ли не в ямах в земле.

Увы, но для промышленного применения просто уголь не подходит. Ямы в земле обладают очень низким КПД. Для того чтобы повысить КПД, нужно увеличивать геометрический размер печи, а при увеличении её размера растёт высота столба топлива-восстановителя. В современных доменных печах у нас она может достигать 18 метров. А это очень толстый слой, но если этот слой не будет газопроницаем, то нарушатся конвекционные процессы, позволяющие происходить нагреву и восстановлению железа. И нарушится ещё несколько процессов, в частности, не будет правильного горения из-за отсутствия отвода газов.

Важна способность топлива восстанавливать CO2. Если она станет высокой, то углерод будет восстанавливать не металл, а превращать перегоревшую CO2 в CO, что резко ухудшит процесс выплавки. Кокс помогает и горению и восстановлению. Он делается нагревом смеси углей при 1000+ °C без доступа кислорода, когда смесь сначала переходит в пластическое состояние, а потом частицы начинают спекаться между собой.

Проблема только в том, что кокс исторически готовился на основании экспертного мнения технологов (основанного на опыте и не всегда системного с точки зрения математики). Примерная формула есть, а точная — только в голове у технолога с 40-летним стажем в виде интуитивного понимания.

Мы придумали способ, как соединить экспертное знание с математикой.
Читать полностью »

О чем это все?

Сегодня словосочетания вроде Data Science, Machine Learning, Artificial Intelligence очень популярны. При этом нередко под ними понимаются довольно разные вещи. Это зачастую смущает и запутывает людей, желающих войти в специальность: трудно разобраться, с чего начать, что действительно нужно, а что необязательно для начала. Не претендуя на общность, расскажем, как это видится на основе десятка лет опыта c решением такого рода задач для крупных клиентов со всего мира (сервис / заказная разработка / аутсорс – подставьте термин по вкусу).

Читать полностью »

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js