Рубрика «big data» - 49

Привет! Data Science уже давно стала привлекательной областью, и все больше и больше людей хотят сменить свою профессиональную траекторию и начать работать с большими данными. Своей историей перехода в data science, советами для начинающих и продвинутых data scientist’ов поделился Кирилл Данилюк, Data Scientist компании RnD Lab. Кроме этого, поговорили о необходимых качествах data scientist’а, о разметке данных, отличие ML Engineer от data scientist, текущих проектах, крутых командах и людях, чья работа вдохновляет.

image

— Как ты пришел в data science? Чем тебя изначально привлекала область работы с данными?

— У меня довольно нетипичный бэкграунд: в дату я пришел из мира яндексового PM’ства (Project Management — прим. автора), когда меня позвали в ZeptoLab, пожалуй, лучшую российскую игровую компанию. Я сделал им прототип аналитической системы, дэшборды, фактически в первый раз начав писать код, который использовал кто-то другой. Код был ужасный, но это была реальная практика. Формально, конечно, я координировал работу двух аутсорсеров, но код они писали именно по этому прототипу. Я тогда еще не знал, что примерно это и есть data science, что я им и занимаюсь, пусть парт-тайм. Так что знакомство случилось довольно органически.

Уже тогда было видно, что идет целый сдвиг в парадигме разработки — вместо классического императивного программирования, когда ты жестко задаешь условия, наступает эра, когда машина сама с помощью данных сможет себя обучать. Видеть эту смену было невероятно круто, и очень хотелось попасть в число тех разработчиков новой эпохи.
Читать полностью »

Всем привет!

А у нас тут запускается, можно сказать, почти новый курс — Data Scientist. Почему почти? Просто вырос он из курса по BigData, но теперь с куда большим упором в работу с данными, обучением, сети и вот это всё. Новые преподаватели, немного (примерно процентов двадцать) новой программы курсы и доработанной старой, ну и как всегда — статьи, которые нам показались интересными в рамках курса и открытые уроки по этим же темам.

Поехали!

Почему вам стоит улучшить тренировочные данные, и как это сделать - 1Читать полностью »

Почти два часа мы проговорили с Евгением Черешневым о том, что с Facebook и Google можно и нужно тягаться. Он рассказал, какую альтернативную софтверную платформу он готовит и что за умный браслет разрабатывают в его компании Biolink.Tech. Я выяснил, как ему третий год живется с чипом в руке и что такое цифровая ДНК. А напоследок поговорили о том, кем круче быть: гуманитарием или технарем.

«Кто вчера был монопольным гигантом, завтра может стать никем». Интервью с Евгением Черешневым из Biolink.Tech - 1

Интервью готовилось долго, в несколько заходов. Потому что у его компании офисы в Москве, Европе и США, а сам он часто ездит с лекциями и выступлениями по миру. Разговор даже пришлось разбить на две части, потому что Жене пора было на рейс SVO – LHR, а обсудить хотелось еще очень многое.Читать полностью »

Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.

image
Читать полностью »

В предыдущей статье мы рассмотрели шаблоны и топологии, применяемые в RabbitMQ. В этой части мы обратимся к Kafka и сравним её с RabbitMQ, чтобы получить некоторые представления об их различиях. Следует иметь в виду, что сравниваться будут скорее архитектуры событийно-ориентированных приложений, а не конвейеры обработки данных, хотя грань между этими двумя понятиями в данном случае будет довольно размытой. Вообще, это скорее спектр, чем четкое разделение. Просто наше сравнение будет сфокусировано на части этого спектра, связанной с событийно-управляемыми приложениями.

RabbitMQ против Kafka: применение Kafka в событийно ориентированных приложениях - 1

Читать полностью »

Бывший главный редактор «Дождя» и сайта РБК Роман Баданин запускает новое некоммерческое медиа «Проект» на сайте proekt.media, пишут «Ведомости» со ссылкой на Баданина. По его словам, компания будет заниматься «сложными журналистскими жанрами» — расследованиями, репортажами,Читать полностью »

Памятки по искусственному интеллекту, машинному обучению, глубокому обучению и большим данным - 1

В течение нескольких месяцев мы собирали памятки по искусственному интеллекту, которыми периодически делились с друзьями и коллегами. В последнее время сложилась целая коллекция, и мы добавили к памяткам описания и/или цитаты, чтобы было интереснее читать. А в конце вас ждёт подборка по сложности «О большое» (Big-O). Наслаждайтесь.
Читать полностью »

Зачем вам нужен Splunk? Аналитика работы приложений - 1

Почему мобильное приложение вышло из строя? Можем ли мы выявить проблемы с приложениями до того, как с этим столкнутся конечные пользователи? Является ли последняя версия приложения лучше или хуже, чем предыдущие? В этой статье мы расскажем, как вам может помочь Splunk в поиске ответов на эти вопросы.
Читать полностью »

Банк — это по определению «кредитно-денежная организация», и от того, насколько успешно эта организация выдает и возвращает кредиты, зависит ее будущее. Чтобы успешно работать с кредитами, нужно понимать финансовое положение заемщиков, в чем помогают факторы кредитного риска (ФКР). Кредитные аналитики выявляют их в огромных массивах банковской информации, обрабатывают эти факторы и прогнозируют дальнейшие изменения. Обычно для этого используется описательная и диагностическая аналитика, но мы решили подключить к работе инструменты машинного обучения. О том, что получилось, читайте в посте.

Машинное обучение против кредитных рисков, или «давай, Джини, давай» - 1
Читать полностью »

Я много лет работал Data Engineer'ом и Data Scientist'ом, решал сложные бизнес-кейсы, строил большие системы, выводил это все в продакшен. В начале 2017го я бросил пить, курить и работать в офисе и ушел фрилансить, экспериментировать с альтернативными формами занятости. Довольно много времени я провел на Upwork. Судя по многочисленным комментариям, уважаемая аудитория не до конца представляет себе, что это такое. Вещаю.

Upwork это крупнейшая в мире биржа фриланса. Дата сатанисты и дата инженеры мало кому в этом мире нужны (по сравнению с переводчиками, веб-мастерами и переписывателями текстов), так что задач для нас относительно мало, так что они тяготеют к крупнейшей бирже в мире. Других фриланс-бирж с постоянным потоком задач для дата саентистов в мире нет — ни Guru, ни Toptal, ни отечественный fl.ru спросом похвастаться не могут. Что важно — для специалистов более массовых специальностей опыт фриланса может сильно отличаться.Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js