Рубрика «data engineering» - 5

Немного веселья с компьютерным зрением и CNN с маленькой базой данных.

Как я научила свой компьютер играть в пары используя OpenCV и Глубокое обучение - 1

Читать полностью »

Делюсь собственным опытом, т.к., наверняка, это будет интересно таким же как я, но может и не только. Заранее предупрежу, многие термины и сокращения будут понятны только тем, кто имеет базовые знания и какой-то опыт в Data Science и Машинном обучении.

Итак, в наличии на август 2020:

  • 8-летний бэкграунд в интернет-торговле и таргетированной рекламе

  • 4 курса известной в ds-тусовке Machine Learning специализации Яндекса на курсере

  • пара курсов по нейронным сетям на "стэпике"

  • слегка взъерошенный в памяти вышмат

  • пара сертификатов по питону

Читать полностью »

Завтра, 28 декабря в 20:00 у нас выступает Артем Попов — тимлид команды VK Performance Advertising.

Артем руководит командой, которая занимается задачами, связанными с Data Science в рекламе. Их задача делать рекламу в ВК эффективнее и выгодней.

Все члены команды, занимающиеся машинным обучением погружены как в инженерную часть, так и в продукт – культура разработки в ВК исторически развивалась таким образом, что разработчики занимаются продуктом от начала до конца, начиная постановкой задачи, заканчивая всем этапа разработки и жизни продукта в продакшене.

Артем расскажет про интересные задачи для дата-саентистов в мире рекламы.

Анонс: как дата-саентисты в ВК делают рекламу эффективной - 1Анонс: как дата-саентисты в ВК делают рекламу эффективной - 2Анонс: как дата-саентисты в ВК делают рекламу эффективной - 3Анонс: как дата-саентисты в ВК делают рекламу эффективной - 4
Читать полностью »

Заметки Датасатаниста: реляционные vs связанные данные - 1

Сегодня мы поговорим о простой, казалось бы, теме, как реляционные и связанные данные.

Несмотря на всю ее простоту, замечаю, что иногда люди действительно путаются в них — я решил это исправить, написав краткое и неформальное объяснение, чем они являются и зачем нужны.

Мы обсудим, что такое реляционная модель и связанные с ней SQL и реляционная алгебра. Потом перейдем к примерам связанных данных из Викидата, а далее RDF, SPARQL и чутка поговорим про Datalog и логическое представление данных. В конце выводы — когда применять реляционную модель, а когда связно-логическую.

Основная цель заметки — это описать, когда что имеет смысл применять и почему. Так как тут немало непростых концепций сошлись в одном месте, то конечно же можно было бы по каждой написать книгу — но наша задача сегодня дать представление о теме и мы будем разбирать неформально на простых примерах.

Если у вас есть сомнения, чем одно отличается от второго и зачем вообще нужны связанные данные (LinkedData), то добро пожаловать под кат.
Читать полностью »

Привет! Сегодня я расскажу, как развивается сфера Data Science. 2020 год стал переломным не только для мира в целом, сфера данных активно совершенствуется и сегодня можно уже подводить итоги года. Встречайте тренды DS в 2020-2021 году.

Главные тренды Data Science 2020 года, которые будут актуальны в 2021-м - 1

Читать полностью »

Когда я только начал своё путешествие к науке о данных, я потратил много времени на то, чтобы понять, с чего начать, что я должен узнать в первую очередь и какие ресурсы должен использовать. За последние два года я узнал несколько вещей, о которых хотел знать раньше, например о том, стоит ли сначала сосредоточиться на программировании или статистике, какие ресурсы я должен использовать для изучения новых навыков, как я должен подходить к изучению этих навыков и так далее. Таким образом, эта статья написана, чтобы дать направления и идеи для тех, кто изучает Data Science.

Как бы я изучал Data Science, если бы начал пару лет назад, или Руководство по эффективному изучению науки о данных - 1

Читать полностью »

Дифференциальная приватность — анализ данных с сохранением конфиденциальности (введение в серию) - 1

Ваша компания хочет собирать и анализировать данные для изучения тенденций, но при этом не жертвуя конфиденциальностью? Или, возможно, вы уже пользуетесь различными инструментами для её сохранения и хотите углубить ваши знания или поделиться опытом? В любом случае, этот материал для вас.

Что нас побудило начать эту серию статей? В прошлом году NIST (Национальный институт стандартов и технологий США, прим. пер.) запустил Privacy Engineering Collaboration Space — площадку для сотрудничества, на которой собраны open source-инструменты, а также решения и описания процессов, необходимых для проектирования конфиденциальности систем и риск-менеджмента. Как модераторы этого пространства, мы помогаем NIST собирать имеющиеся инструменты дифференциальной приватности в области анонимизации. NIST также опубликовал работу «Privacy Framework: A Tool for Improving Privacy through Enterprise Risk Management» и план действий, описывающий ряд проблемных вопросов, связанных с приватностью данных, в том числе и анонимизацией. Сейчас мы хотим помочь Collaboration Space достичь поставленных в плане целей по анонимизации (де-идентификации). А в конечном счете — помочь NIST развить эту серию публикаций в более глубокое руководство по дифференциальной приватности.
Читать полностью »

Совсем недавно пришел в ремонт слуховой аппарат. НИЧЕГО о нем известно не было. Внешний вид аппарата:Ремонт слухового аппарата. (Почти детективная история) - 1Причина ремонта, аппарат «глух и нем» даже после заряда аккумулятора.После разбора корпуса аппарата, получилось вот что:Ремонт слухового аппарата. (Почти детективная история) - 2Напряжения измеренное на аккумуляторе составило 1,4 вольта (ток кз порядка 180 ма в течении 5 секунд). Измерение сопротивления телефона (наушника) показало, обрыв цепи телефона. Выпаивание наушника, разбор его привело к интересным, неожиданным результатам, собственно именно из-за этого я и решил опубликовать сии заметки. Итак, наушник соединяется со схемой посредством специального провода.Ремонт слухового аппарата. (Почти детективная история) - 3Особенность провода заключается в его «многожильности». Провод представляет собой два проводника, желтого и розового цвета, покрытых изоляционной оболочкой. Проводники представляют собой порядка 12 проводов типа ПЭЛ диаметром 0,09 мм завитых в единый проводник.Читать полностью »

Привет! Приглашаем Data Engineer'ов и специалистов по Machine Learning на бесплатный Demo-урок «Вывод ML моделей в промышленную среду на примере онлайн-рекомендаций». А также мы публикуем статью Luca Monno — Head of Financial Analytics at CDP SpA.


Одним из наиболее полезных и простых методов машинного обучения является Ensemble Learning. Ensemble Learning – это метод, лежащий в основе XGBoost, Бэггинга, Случайного Леса и многих других алгоритмов.

На Towards Data Science есть много классных статей, но я выбрал две истории (первая и Читать полностью »

Неделю назад в наших соцсетях выступал Никита Александров — Data Scientist в Unity Ads, где он улучшает алгоритмы конверсии. Никита сейчас живет в Финляндии, и кроме прочего он рассказал об IT-жизни в стране.

Делимся с вами расшифровкой и записью интервью

Меня зовут Никита Александров, я вырос в Татарстане и там же окончил школу, занимался олимпиадами по математике. После этого поступил на факультет компьютерных наук ВШЭ и там закончил бакалавриат. В начале 4 курса съездил на учебу по обмену, провел семестр в Финляндии. Мне там понравилось, я поступил в магистратуру университета Аалто, хотя не закончил ее полностью – я закончил все курсы и начал писать диплом, но ушел работать в Unity, не получив степень. Сейчас я работаю в Unity data scientist-ом, отдел называется Operate Solutions (раньше он назывался Monetization); непосредственно моя команда занимается доставкой рекламы. То есть, внутриигровое рекламы – той, которая выдается, когда вы играете в мобильную игру и нужно заработать дополнительную жизнь, например. Я работаю над улучшением конверсии рекламы – то есть, делаю так, чтобы игрок с большей вероятностью прошел по рекламе.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js