Главная

Рубрика «data engineering» - 4

Эволюция рекомендаций ресторанов в Delivery Club. Часть 1

2022-03-21 в 12:54, admin, рубрики: big data, cold start, data engineering, data science, Gradient Boosting, machine learning, machinelearning, recommender system, recsys, Блог компании Delivery Club Tech, коллаборативная фильтрация, контентные рекомендационные системы, машинное обучение, Управление e-commerce

Читать полностью »

Что такое компьютерная лингвистика и как технологии на её основе помогают людям с ограниченными возможностями здоровья

2022-03-19 в 16:19, admin, рубрики: data engineering, natural language processing, nlp, nlp (natural language processing), Блог компании Нетология, голосовые интерфейсы, искусственный интеллект, Компьютерная лингвистика, лингвистика, лингвистическое по

Многие из нас ежедневно пользуются поисковыми системами, голосовыми помощниками и переводчиками текстов. Появление этих технологий стало возможным благодаря компьютерной лингвистике — области искусственного интеллекта, которая занимается описанием естественных языков при помощи математических моделей. Рассказываем, что такое компьютерная лингвистика и обработка естественного языка, какие задачи они решают и как помогают расширять возможности людей с инвалидностью.

Благодарим Елену Герасимову, руководителя отдела дополнительного профессионального образования в Нетологии, ранее руководившую направлением «Читать полностью »

35 реальных рисков, убивающих data- и machine learning проекты

2022-02-01 в 13:47, admin, рубрики: big data, data engineering, машинное обучение, провал проекта, риск, риск-менеджмент, риск-ориентированное мышление, риски, риски в проектах, риски иб, риски программных проектов, Управление продуктом, управление проектами

Всем привет! Эта статья - обобщение моего опыта 30+ проектов, связанных с обработкой данных и машинным обучением. Здесь не будет теории про управление рисками и общего перечня проектных рисков. Я перечислил только наиболее частые “грабли” именно из data-специфики, с которыми приходилось сталкиваться за последние 7 лет. Надеюсь, что эта статья поможет менеджеру проекта или менеджеру продукта сохранить свой цвет волос, ценное время команды и удовлетворенность заказчиков. Риски я разделил на три группы:

риски моделей машинного обучения,
риски источников данных,
риски пользовательских данных.

Читать полностью »

Кластеризация изображений с помощью нейросети CLIP

2022-01-13 в 10:45, admin, рубрики: CLIP, clustering, clusterization, data engineering, dbscan, machine learning, OpenAI, python, umap, Блог компании FunCorp, искуственный интеллект, машинное обучение, нейросети, обработка изображений

В статье пойдёт речь о том, как можно автоматически разделить датасет изображений на кластеры, которые поделены по качественному контекстному признаку, благодаря эмбедингам из нашумевшей нейронной сети CLIP от компании Илона Маска. Расскажу на примере контента из нашего приложения iFunny.

Читать полностью »

Как я получил оффер от Фейсбука и в итоге к ним не пошёл

2021-12-10 в 19:09, admin, рубрики: career, data engineering, Facebook, interview, интервью, карьера, Карьера в IT-индустрии, собеседование

Преамбула

Я люблю собеседоваться в разных компаниях. Во-первых, я нанимаю и сам тоже, и мне интересно смотреть, как это делают другие, и перенимать разные фишки. Во-вторых, это мой способ понять свою ценность и посмотреть, куда движется рынок.

Вот лишь небольшая часть истории моих собеседований:

GetYourGuide (оффер, и до сих пор счастлив сотрудничать)
Facebook (оффер)
Amazon (не прошёл техническое собеседование)
Zalando (отказали уже в самом конце, но я и правда не очень подходил на позицию)
SumUp (пре-оффер, не сошлись по условиям)
Canonical (провалился с громким треском)
Читать полностью »

Готовим Json в Apache NiFi или снова Jolt Transform

2021-10-24 в 13:33, admin, рубрики: apache nifi, big data, data engineering, jolt, json, NiFi

На текущем проекте у нас начинает активно использоваться Apache NiFi в качестве основного ETL/ELT-инструмента. NiFi используется для получения данных из различных источников (Kafka, REST, HDFS) и подготовки данных для их последующей загрузки в основное хранилище на базе Greenplum Читать полностью »

Есть ли жизнь после FAANG компании или мой опыт собеседований в Северной Америке, 20+ компаний за 3 недели

2021-10-24 в 6:49, admin, рубрики: airflow, data engineer, data engineering, it-эмиграция, Snowflake, интервью, Карьера в IT-индустрии, поиск, поиск работы, собеседование, стартап, Учебный процесс в IT, хранение данных

Читать полностью »

Дообучаем готовую нейросеть для классификации данных

2021-09-29 в 9:00, admin, рубрики: data engineering, data science, machine learning, python, Блог компании FunCorp, классификатор данных, классификация изображений, машинное обучение, нейросети, обработка данных, обработка изображений

В прошлой статье Читать полностью »

Как классифицировать данные без разметки

2021-09-07 в 11:30, admin, рубрики: data engineering, data science, machine learning, python, Блог компании FunCorp, классификатор данных, классификация изображений, машинное обучение, нейросети, обработка данных, обработка изображений, сверточные нейросети

Пользователи iFunny ежедневно загружают в приложение около 100 000 единиц контента, среди которого не только мемы, но и расизм, насилие, порнография и другие недопустимые вещи.

Читать полностью »