Рубрика «data engineering» - 4

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью. 

Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Читать полностью »

Всем привет! Эта статья - обобщение моего опыта 30+ проектов, связанных с обработкой данных и машинным обучением. Здесь не будет теории про управление рисками и общего перечня проектных рисков. Я перечислил только наиболее частые “грабли” именно из data-специфики, с которыми приходилось сталкиваться за последние 7 лет. Надеюсь, что эта статья поможет менеджеру проекта или менеджеру продукта сохранить свой цвет волос, ценное время команды и удовлетворенность заказчиков. Риски я разделил на три группы:

  • риски моделей машинного обучения,

  • риски источников данных,

  • риски пользовательских данных.

Читать полностью »

Кластеризация изображений с помощью нейросети CLIP - 1

В статье пойдёт речь о том, как можно автоматически разделить датасет изображений на кластеры, которые поделены по качественному контекстному признаку, благодаря эмбедингам из нашумевшей нейронной сети CLIP от компании Илона Маска. Расскажу на примере контента из нашего приложения iFunny.

Читать полностью »

Преамбула

Я люблю собеседоваться в разных компаниях. Во-первых, я нанимаю и сам тоже, и мне интересно смотреть, как это делают другие, и перенимать разные фишки. Во-вторых, это мой способ понять свою ценность и посмотреть, куда движется рынок.

Вот лишь небольшая часть истории моих собеседований:

  • GetYourGuide (оффер, и до сих пор счастлив сотрудничать)

  • Facebook (оффер)

  • Amazon (не прошёл техническое собеседование)

  • Zalando (отказали уже в самом конце, но я и правда не очень подходил на позицию)

  • SumUp (пре-оффер, не сошлись по условиям)

  • Canonical (провалился с громким треском)

  • Читать полностью »

Готовим Json в Apache NiFi или снова Jolt Transform - 1

На текущем проекте у нас начинает активно использоваться Apache NiFi в качестве основного ETL/ELT-инструмента. NiFi используется для получения данных из различных источников (Kafka, REST, HDFS) и подготовки данных для их последующей загрузки в основное хранилище на базе GreenplumЧитать полностью »

Как классифицировать данные без разметки - 1

Пользователи iFunny ежедневно загружают в приложение около 100 000 единиц контента, среди которого не только мемы, но и расизм, насилие, порнография и другие недопустимые вещи.

Читать полностью »

Перевод статьи A Recipe for Training Neural Networks от имени автора (Andrej Karpathy). С некоторыми дополнительными ссылками.

Также доступна версия на украинском языке в личном блоге: Рецепт навчання нейрнонних мереж.

Рецепт обучения нейросетей - 1

Несколько недель назад я опубликовалЧитать полностью »

В этой статье я хочу продемонстрировать R Markdown — удобную надстройку для программирования вашего проекта как на R, так и на Python, позволяющую программировать некоторые элементы вашего проекта на двух языках и управлять объектами, созданными на одном языке, с помощью другого языка. Это может быть полезно потому, что:

  1. Позволяет писать код на привычном языке, но при этом использовать функции, существующие только в другом языке.
  2. Позволяет напрямую сотрудничать с коллегой, который программирует на другом языке.
  3. Даёт возможность работать с двумя языками и со временем научиться свободно владеть ими.

Как быть билингвом в Data Science - 1


Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js