Рубрика «DS»

Как мы в Авито сделали свою LLM — A-vibe

2025-10-27 в 14:17, admin, рубрики: DS, llm, llm-модели, ml, nlp

Всем привет! Меня зовут Анастасия Рысьмятова, я руковожу юнитом LLM в Авито.
В этой статье я расскажу, как мы с командой создали и адаптировали нашу большую языковую модель A-vibe: зачем решили развивать собственную LLM, как построили токенизатор, собрали датасеты, провели SFT и RL и что получили в итоге. Поделюсь основными экспериментами и покажу наши результаты.

Сегодня мы выпустили в опенсорс свое семейство генеративных моделей – A-Vibe и A-Vision, статья приурочена к этому событию.

Читать полностью »

Топ вопросов с Data Science собеседований: Деревья и ансамбли, кластеризация, метрические модели

2025-10-11 в 18:11, admin, рубрики: data science, data scientist, DS, machinelearning, ml, ml engineer, ансамбли, деревья решений, кластеризация, собеседование

Знание классики - база любых собеседований на все грейды в DS!

Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.

Это вторая часть вопросов по classic ML, если вы не видели первую, то обязательно читайте (там разобрал основы мл, линейные модели, метрики классификации и регресии).

А в этой части разберем:

деревья
ансамбли
метрические модели
кластеризацию

Читать полностью »

Литературный обзор на статью: StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

2025-09-02 в 9:18, admin, рубрики: AI, CLIP, CV, DS, ml, stylegan, StyleGAN-NADA

StyleGAN-NADA (No Annotation Domain Adaptation) - метод, разработанный специалистами из Tel Aviv University и NVIDIA Research, позволяющий адаптировать генеративную модель (StyleGAN2) к новому домену без единого изображения, использующий только семантическую силу больших моделей, предварительно обученных контрастивным методом на тексте и изображениях (СLIP). На рисунке 1 представлены возможности метода StyleGAN-NADA.

Читать полностью »

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench

2025-06-07 в 11:17, admin, рубрики: AI, bench, benchmark, dataset, DS, ml, ML4se, SWE, разметка данных

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье Читать полностью »

От улыбки рейтинг наш светлей: Как фильтры стиля и настроения меняют рейтинг LLM

2025-04-24 в 13:33, admin, рубрики: chatgpt, DS, lmarena, OpenAI, внедрение ai, выбор модели, нейросети, языковые модели

Привет! Я Сергей, в Битрикс24 отвечаю за то, чтобы под капотом Copilot крутилась правильная LLM — та, что действительно помогает пользователю, а не просто разбрасывается смайликами.

Выбирая лучшие языковые модели, люди далеко не всегда руководствуются точностью ответов. Иногда внимание пользователей привлекает красивое оформление или эмоциональный стиль, а не фактическая польза. На LM Arena это стало особенно заметно в последнее время и заставило команду платформы изучить, как именно эмоции и оформление влияют на рейтинг моделей. Команда площадки решила отделить форму от содержания и запустила фильтрЧитать полностью »

Сегментация изображений с дефектами для промышленности на основе Unet и TensorFlow

2025-01-25 в 5:07, admin, рубрики: DS, Hackathon, ml, TensorFlow

Введение

Недавно я и моя команда участвовали в хакатоне от компании «Норникель». Мы выбрали трек «Грязные дела», где наша задача заключалась в разработке алгоритма компьютерного зрения для решения проблем на производстве.

Вот условия задачи

Задача заключалась в решении проблемы загрязнения линз камер на производстве. Из-за этого алгоритмы компьютерного зрения теряли свою точность, что сказывалось на производительности. Нужно было разработать эффективный алгоритм для сегментации дефектов с минимальными затратами ресурсов и времени.

Читать полностью »

Moscow Data Science Major August 2019: программа и регистрация

2019-08-26 в 12:43, admin, рубрики: big data, data science, DS, machine learning, mail.ru group, ml, pydata, Блог компании Mail.Ru Group, искусственный интеллект, конференции, машинное обучение

31 августа 2019г. Mail.ru Group и сообщество Open Data Science приглашают на Moscow Data Science Major. Это как Data Fest, только мини. Событие состоит из 8 тематических блоков докладов, 1 ML-тренировки и 8 часов ударной порции нетворкинга и знакомств. Знакомьтесь с программой и регистрируйтесь! Вход на событие бесплатный, по одобренной регистрации. Регистрация закрывается в 29 августа в 12:00.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «DS»

Как мы в Авито сделали свою LLM — A-vibe

Топ вопросов с Data Science собеседований: Деревья и ансамбли, кластеризация, метрические модели

Литературный обзор на статью: StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench

От улыбки рейтинг наш светлей: Как фильтры стиля и настроения меняют рейтинг LLM

Популярные API для работы с искусственным интеллектом

Сегментация изображений с дефектами для промышленности на основе Unet и TensorFlow

Введение

Moscow Data Science Major August 2019: программа и регистрация