Рубрика «сырые данные»

Кратко:

22 сентября 2025г. вышла версия 3.10 XGBoost. Основной фишкой новой версии стал "категориальный ре-кодер(categorical re-coder)". Он сохраняет категории в модели и так же может перекодировать данные на этапе инференса. И целью этой статьи является сравнить возможности новой версии XGBoost c лидером обработки категориальных данных, CatBoost.

Основные вопросы:

  • Кто обучает на сырых данных?

  • Что такое этот категориальный ре-кодер?

  • Можно ли обучить модель полностью на сырых данных и получить приемлемый результат?Читать полностью »

Пару недель назад в Яндексе прошла встреча PyData, посвящённая анализу больших данных с использованием Python. В том числе на этой встрече выступил Василий Агапитов — руководитель группы разработки инструментов аналитики Яндекса. Он рассказал о двух наших библиотеках: для описания и запуска расчетов на MapReduce и для извлечения информации из логов.

Под катом — расшифровка и часть слайдов.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js