Рубрика «big data» - 48

Время пополнять копилку хороших русскоязычных докладов по Machine Learning! Копилка сама не пополнится!

В этот раз мы познакомимся с увлекательным рассказом Андрея Боярова про распознавание сцен. Андрей — программист-исследователь, занимающийся машинным зрением в компании Mail.Ru Group.

Распознавание сцен — одна из активно применяемых областей машинного зрения. Задача эта посложнее, чем изученное распознавание объектов: сцена — более комплексное и менее формализованное понятие, выделить признаки труднее. Из распознавания сцен вытекает задача распознавания достопримечательностей: нужно выделить известные места на фото, обеспечив низкий уровень ложных срабатываний.

Это 30 минут видео с конференции Smart Data 2017. Видео удобно смотреть дома и в дороге. Для тех же, кто не готов столько сидеть у экрана, или кому удобней воспринимать информацию в текстовом виде, мы прикладываем полную текстовую расшифровку, оформленную в виде хабростатьи.

Читать полностью »

image

1 сентября Mail.Ru Group и сообщество Open Data Science проведут крупнейший митап Moscow Data Science.

Откроем новый учебный и рабочий год целым днём секций и нетворкинга!
Читать полностью »

Зачем вам нужен Splunk? Аналитика событий безопасности - 1

Было ли нарушение информационной безопасности предприятия? Какие внутренние угрозы есть у организации? Как и насколько быстро мы можем обнаружить, заблокировать или остановить атаку? В этой статье мы расскажем, как вам может помочь Splunk в поиске ответов на эти вопросы.
Читать полностью »

Неделю или две назад я увидел сообщение на форуме RabbitMQ Users, о том, как наладить отправку сообщений из SQL Server в RabbitMQ. Поскольку мы плотно с этим работаем в Derivco, я оставил там некоторые предложения, а также сказал, что пишу в блоге о том, как это можно сделать. Часть моего сообщения была не совсем верной — по крайней мере, до этого момента (сорри, Бро, был очень занят).

Потрясающая штука, этот ваш SQL Server. С его помощью очень легко поместить информацию в базу данных. Получить данные из базы с помощью запроса столь же просто. А вот получить только что обновленные или вставленные данные уже немного сложнее. Подумайте о событиях в реальном времени; совершена покупка — кого-то нужно уведомить об этом в тот же момент, как только это произошло. Возможно, кто-то скажет, что такие данные должны выталкиваться не из базы данных, а откуда-то еще. Безусловно, так оно и есть, но довольно часто у нас попросту нет выбора.
Читать полностью »

Я наверное как те самые мыши, которые «плакали, кололись, но продолжали жрать кактус». Который раз пытаюсь патриотично пользоваться сервисами Яндекса — и который раз это выходит мне боком.

В этот раз заблокировали доступ к почте под предлогом «подозрения на взлом». А в реальности — потому что при регистрации не указал номер телефона, что вообще-то не возбраняется, но как всегда есть НО…

Небольшой разбор ситуации под катом.
Читать полностью »

Привет! Data Science уже давно стала привлекательной областью, и все больше и больше людей хотят сменить свою профессиональную траекторию и начать работать с большими данными. Своей историей перехода в data science, советами для начинающих и продвинутых data scientist’ов поделился Кирилл Данилюк, Data Scientist компании RnD Lab. Кроме этого, поговорили о необходимых качествах data scientist’а, о разметке данных, отличие ML Engineer от data scientist, текущих проектах, крутых командах и людях, чья работа вдохновляет.

image

— Как ты пришел в data science? Чем тебя изначально привлекала область работы с данными?

— У меня довольно нетипичный бэкграунд: в дату я пришел из мира яндексового PM’ства (Project Management — прим. автора), когда меня позвали в ZeptoLab, пожалуй, лучшую российскую игровую компанию. Я сделал им прототип аналитической системы, дэшборды, фактически в первый раз начав писать код, который использовал кто-то другой. Код был ужасный, но это была реальная практика. Формально, конечно, я координировал работу двух аутсорсеров, но код они писали именно по этому прототипу. Я тогда еще не знал, что примерно это и есть data science, что я им и занимаюсь, пусть парт-тайм. Так что знакомство случилось довольно органически.

Уже тогда было видно, что идет целый сдвиг в парадигме разработки — вместо классического императивного программирования, когда ты жестко задаешь условия, наступает эра, когда машина сама с помощью данных сможет себя обучать. Видеть эту смену было невероятно круто, и очень хотелось попасть в число тех разработчиков новой эпохи.
Читать полностью »

Всем привет!

А у нас тут запускается, можно сказать, почти новый курс — Data Scientist. Почему почти? Просто вырос он из курса по BigData, но теперь с куда большим упором в работу с данными, обучением, сети и вот это всё. Новые преподаватели, немного (примерно процентов двадцать) новой программы курсы и доработанной старой, ну и как всегда — статьи, которые нам показались интересными в рамках курса и открытые уроки по этим же темам.

Поехали!

Почему вам стоит улучшить тренировочные данные, и как это сделать - 1Читать полностью »

Почти два часа мы проговорили с Евгением Черешневым о том, что с Facebook и Google можно и нужно тягаться. Он рассказал, какую альтернативную софтверную платформу он готовит и что за умный браслет разрабатывают в его компании Biolink.Tech. Я выяснил, как ему третий год живется с чипом в руке и что такое цифровая ДНК. А напоследок поговорили о том, кем круче быть: гуманитарием или технарем.

«Кто вчера был монопольным гигантом, завтра может стать никем». Интервью с Евгением Черешневым из Biolink.Tech - 1

Интервью готовилось долго, в несколько заходов. Потому что у его компании офисы в Москве, Европе и США, а сам он часто ездит с лекциями и выступлениями по миру. Разговор даже пришлось разбить на две части, потому что Жене пора было на рейс SVO – LHR, а обсудить хотелось еще очень многое.Читать полностью »

Сегодня была анонсирована бета версия онлайн-игры WikiBest, которая является частью научных исследований в области качества данных в Википедии. Примечательно, что в настоящее время игра позволяет сравнивать качество данных в 5 языковых версиях Википедии: русский, украинский, белорусский, польский, английский. В скором будущем планируется расширить количество языков.

image
Читать полностью »

В предыдущей статье мы рассмотрели шаблоны и топологии, применяемые в RabbitMQ. В этой части мы обратимся к Kafka и сравним её с RabbitMQ, чтобы получить некоторые представления об их различиях. Следует иметь в виду, что сравниваться будут скорее архитектуры событийно-ориентированных приложений, а не конвейеры обработки данных, хотя грань между этими двумя понятиями в данном случае будет довольно размытой. Вообще, это скорее спектр, чем четкое разделение. Просто наше сравнение будет сфокусировано на части этого спектра, связанной с событийно-управляемыми приложениями.

RabbitMQ против Kafka: применение Kafka в событийно ориентированных приложениях - 1

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js