Рубрика «разметка данных» - 2

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

2024-12-11 в 11:12, admin, рубрики: data light, биометрический датасет, датасет liveness, Компьютерное зрение, машинное обучение, переразметка данных, разметка данных, разметка датасета, синтетические данные

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей Читать полностью »

Как организовать разметку данных для ML? Советы от Data Light

2024-11-29 в 13:30, admin, рубрики: data annotation, data science, data science digest, аннотация данных, инструменты для аннотации, краудсорсинг, разметка данных, разметка датасета

За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.

Читать полностью »

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

2024-11-01 в 19:48, admin, рубрики: computer vision, команда разработки, машинное зрение, нейросети для бизнеса, оценка проектов разметки, оценка проектов сбора данных, оценка трудозатрат, ошибки управления, разметка данных, сбор данных

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображенийЧитать полностью »

Как мы отбираем и обучаем разметчиков: от первых шагов до реальных проектов

2024-10-25 в 9:02, admin, рубрики: artificial intelligence, big data, data annotation, project management, аннотация, разметка данных, разметка датасета

В чем секрет качественных данных и точной разметки? Мы в Data Light знаем: за каждым успешным проектом стоят не только технологии, но и люди — специалисты, отобранные после нескольких этапов тестирований и обученные на настоящих проектах.

Читать полностью »

5 лучших инструментов для разметки данных в 2024 году

2024-10-15 в 10:02, admin, рубрики: big data, data annotation, data mining, искусственный интеллект, разметка данных

Разметка данных играет ключевую роль в развитии совершенно разных технологий: от автопилотов и голосовых помощников до агро- и тяжелой промышленности. Но процесс разметки может быть трудоёмким и занимать много времени. Чтобы упростить эту задачу, важно выбрать инструменты, которые подходят для вашей задачи и могут сделать работу быстрее и удобнее.

В этом руководстве мы разберем самые популярные решения для разметки данных и разберём, какой стоит выбрать именно вам.

CVAT

Читать полностью »

Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

2024-10-11 в 13:54, admin, рубрики: data annotation, data mining, искусственный интеллект, разметка данных, разметчик данных

Вы когда-нибудь задумывались, как нейросети учатся распознавать лица, управлять автомобилями или рекомендовать фильмы? За всем этим скрывается работа разметчиков данных — специалистов, которые буквально обучают ИИ видеть и понимать мир.

Читать полностью »

Контроль качества разметки на проекте: 4 секрета успеха

2024-10-04 в 11:16, admin, рубрики: AI, BigData, data annotation, data validation, ml, project management, разметка данных

Существует известное правило: “мусор на входе, мусор на выходе”. Все знают, что “чистые”, точные данные повышают качество и корректность работы ИИ-моделей, так что итоговая ценность оправдывает дополнительные усилия и вложения. Намного дешевле компаниям выходит предотвратить проблемы с данными, чем решать их после.

Читать полностью »

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

2024-10-03 в 9:03, admin, рубрики: CV, GigaChat, labeling, labeling tool, markup, Компьютерное зрение, разметка, разметка данных, разметка датасета, сбор данных

Привет! Мы собираем много разных данных и часто перед заказчиком стоит большая описательная задача в области задач компьютерного зрения: детально и максимально подробно описывать всё, что присутствует на изображении или видео.

В деталях описывать картинку с помощью текста — трудоемкая задача для человека. На днях исследователи из института Аллена предложили интересный способ оптимизации такой задачи. А так как мы, в хорошем смысле, поехавшие на качестве данных, то пройти мимо было невозможно.

Читать полностью »

Sapiens: фундаментальная CV-модель для задач с людьми

2024-09-05 в 9:28, admin, рубрики: AI, computer vision, CV, data mining, open source, ИИ, Компьютерное зрение, разметка, разметка данных, разметка изображений

Почти две недели назад из недр одной из самых прорывных AI лабораторий мира вышла новая классная модель (а точнее — семейство моделей) компьютерного зрения, но данная новость в русскоязычном интернете прошла будто бы без энтузиазма. А зря — штука довольно хороша.

Итак, у нас есть семейство моделей, которое из коробки поможет решить «четыре фундаментальные задачи человека в CV» (цитата авторов) и давайте посмотрим, что же там есть есть и как это работает.

Читать полностью »

Как дообучать LLM с помощью Supervised Fine-Tuning

2024-08-12 в 13:34, admin, рубрики: data annotation, data labeling, dataset, Fine-tuning, llm, SFT, машинное обучение, разметка данных

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.

Как дообучать LLM с помощью Supervised Fine-Tuning - 2

Этапы обучения LLM

На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.
Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «разметка данных» - 2

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

Как организовать разметку данных для ML? Советы от Data Light

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Как мы отбираем и обучаем разметчиков: от первых шагов до реальных проектов

5 лучших инструментов для разметки данных в 2024 году

Кто такой разметчик данных и сколько он зарабатывает? Все, что вам нужно знать о профессии

Контроль качества разметки на проекте: 4 секрета успеха

Тыкай и кидай голосовухи: как ускорить сбор данных для мультимодальности

Sapiens: фундаментальная CV-модель для задач с людьми

Как дообучать LLM с помощью Supervised Fine-Tuning