Рубрика «BigData»

Как в Купере масштабировали машинное обучение и что из этого получилось - 1

Не секрет, что ML‑модели требуют огромного количества данных. Информации не просто много, она организовывается в многообразные структуры, версионируется, употребляется разными моделями. Скорость обращения данных тоже критична, особенно для систем, взаимодействующих с пользователями в режиме реального времени.

При возросшей сложности не обойтись без специализированных инструментов, например Feature Store. Однако случается, что все решения на рынке не годятся по тем или иным причинам. Тогда приходится рассчитывать исключительно на свои силы.

Рассказываем, как в Купере внедрили Feast, хранилище признаков (Feature Store) с открытым исходным кодом. После прочтения вы познакомитесь с инструментом и сможете решить, подходит ли Feast для коммерческого использования. Подробности под катом!Читать полностью »

Контроль качества разметки на проекте: 4 секрета успеха - 1

Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после.

Читать полностью »

LLM — одно из самых сложных и интересных направлений в Data Light. Я Виктория Янышева, занимаюсь LLM-проектами в компании.

В статье расскажу, как провела с командой первый провальный пилот, какие инсайты по процессам из него извлекла, и как их после применила на успешных проектах. Поговорим про работу с асессорами и валидаторами и про то, как сделать качественный продукт в сфере, главная специфика которой — субъективизм и отсутствие единой истины.

Читать полностью »

Я начала пользоваться ClickHouse до того, как это стало мэйнстримом: первый раз я столкнулась c этой базой данных лет 8 назад. C тех пор я уверена, что это лучшая DB для аналитики. Большинство аналитиков, которых я знаю, в восторге от ClickHouse (иногда чтобы проникнуться, требуется немного времени: разобраться и привыкнуть к синтаксису). Однако, я не могу не отметить, что администрирование ClickHouse имеет свои нюансы и подводные камни, но это уже совсем другая история.

В этой статье я расскажу что такое ClickHouse и почему я считаю его идеально подходящим мощным инструментом для аналитики. А также поделюсь tips & tricks из моего опыта. Поехали.

Читать полностью »

Современный агросектор очень восприимчив к инновациям. Big Data, автопилоты, искусственный интеллект, машинное обучение, автоматизация, роботы, агродроны — все эти технологии уже применяются в агросекторе, а потребность в специалистах и новых идеях только растет. Мы пообщались с основателями AgroTech-стартапов о том, как они пришли в сферу и как живется технологическим стартапам в некогда одной из самых консервативных отраслей России.

napoleonit.ru
Читать полностью »

Можно выделить ряд алгоритмов, которые являются базовыми и лежат в основе практически каждой строчки программ, написанных на языках высокого уровня. Хорошо иметь под руками классический многотомный труд Дональда Кнута "The Art of Computer Programming", там детально разобраны многие базовые алгоритмы. Но прочесть и усвоить все — задача, требующая много усилий и времени, которая должна как-то быть мотивирована.

Многие могут предположить, что нюансы необходимо было знать 50 лет назад, а сейчас можно пользоваться готовыми пакетами и функциями и не погружаться в детали. Однако, это далеко не так. Равно как никто не отменял важность понимания представления методов хранения данных в памяти и их обработки в процессоре.

Далее разберем нюансы на примере функций сортировки. Сортировка и поиск используются максимально часто во всех манипуляциях с данными. Экономия нескольких миллисекунд на операции может приводить к суммарному сокращению часов расчета на значительных данных.

Является продолжением серии предыдущих публикаций.

Читать полностью »

Google не узнает, что вы делали прошлым летом (ну почти) - 1


Google (или его родительский  холдинг Alphabet) на данный  владеет самым популярным одноименным поисковым сервисом, самым популярным видеохостингом YouTube, самым популярным сервисом электронной почты с Gmail, самой популярной мобильной операционной системой Android и целым рядом популярных облачных приложений для работы с документами Google Docs. По крайней мере восемь продуктов корпорации имеют более миллиарда пользователей. Бородатая шутка из середины нулевых о том, что скоро мы все будем ездить на работу в Гугле на Гугле, чтобы заработать немного Гугла, сегодня оказалась близка к реальности как никогда.
Читать полностью »

Как не пополнить ряды стремных специалистов, если ты Data Scientist - 1


Хабра-сообщество провело еще одно интервью в нашем образовательном проекте: прямых эфирах c ребятами из IT, которые отвечают на ваши вопросы в формате живого общения.

Наш проект — попытка создать полноценный набор гайдов и рекомендаций для успешной жизни разработчика: как построить карьеру, получить оффер мечты, привлечь инвестиции в стартап, не тухнуть на скучных проектах, вырасти в своем деле и по пути купить домик у моря.

В начале недели наши вопросы отвечал Борис Янгель — ML-инженер Яндекса, который участвовал в создании мозгов «Алисы», а теперь делает беспилотные автомобили. 

Боря рассказал о том, как стать крутым Data-Scientist, как парашютный спорт помогает ему в работе, почему конференции по ML бесполезны и ответил на недавний пост разгневанного отца про то, как Алиса рекомендовала видео с историями убийств ребенку.
Читать полностью »

Сегодня для большинства компаний и организаций данные – это один из стратегических активов. И с расширением возможностей аналитики, ценность собираемых и накапливаемых компаниями данных постоянно увеличивается. При этом часто говорят о взрывном, экспоненциальном росте объемов генерируемых корпоративных данных. Отмечается, что 90% всех данных были созданы за последние два года. 

Платформы управления данными: от периферии до облака - 1

Читать полностью »

Когда вы сталкиваетесь с новой уязвимостью, какая мысль приходит первой? Конечно, отреагировать как можно быстрее. Однако, скорость — всего лишь одно из условий эффективной борьбы с ИБ-угрозами. Когда речь идет о корпоративной безопасности, не менее важно безошибочно определять, на что стоит реагировать в первую очередь. Недооцененная угроза может стать причиной серьезных убытков или потери деловой репутации. Но если число уязвимостей постоянно растет, как быстро оценить их значимость и не упустить важные детали?

Скрытая угроза — анализ уязвимостей при помощи графа новостей - 1
Динамика числа уязвимостей по группам CVSS (источник — vulners.com)
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js