8 лучших советов для аутсорсинга разметки данных

в 11:09, , рубрики: data annotation, machinelearning, аутсорсинг, машинное обучение, разметка данных, разметка датасета
8 лучших советов для аутсорсинга разметки данных - 1

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно.

Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам.

Аутсорсинг разметки данных помогает ускорить процесс и вывести проект на совершенно новый уровень. Однако найти надежного партнера, который станет вашим стратегическим союзником, — задача не из легких.

Как выбрать компанию и выстроить процессы, чтобы сотрудничество получилось продуктивным? В этом материале многолетним опытом Data Light в сфере организации разметки поделятся наши эксперты:

Алексей Корнилов, Special Projects Group Manager

Дмитрий Рогальский, Moderation Group Manager

Почему требуется аутсорс разметки?

Экономия времени и ресурсов

Когда стартап или крупная компания начинает проект в области CV, кажется, что 1000-2000 изображений — это довольно много. Но реальность такова: чем сложнее задача, тем больше данных нужно для обучения модели.

Например, производитель умных роботов-уборщиков хочет, чтобы устройство отличало мусорные баки от тротуара или машин. Для этого нужно промаркировать сотни тысяч объектов на тысячах изображений. Если взять 5 сотрудников внутри компании, процесс растянется на месяцы — а кто будет работать над самим продуктом?

Аутсорс обеспечит не только скорость (компания сразу соберет команду необходимого размера), но и качество, ведь её сотрудники — это специалисты с опытом работы именно с такими задачами. Многие из таких компаний также занимаются и тщательной валидацией, то есть проверкой данных.

Мы бы хотели поделиться нашим опытом, рассказать про главные секреты разметки и дать советы, которые помогут вам выстроить процесс аутсорса и подобрать идеального для вас партнера.

Сложные метрики для сложных задач

Разметка данных для CV — это не всегда просто выделить машину прямоугольником. Например, задачи медицинской диагностики требуют сложной, точной разметки.

Представим: компания-разработчик инструмента для анализа рентгеновских снимков должна обучить модель определять изменения в лёгочной ткани для выявления ранних стадий рака. Здесь ошибки недопустимы. Нужны специалисты с медицинским образованием, которые будут работать по строгим инструкциям.

При чем тут аутсорсинг? Потому что такие компании могут привлечь экспертов в узких областях и обучить их разметке за считанные недели, предоставляя гарантии качества и контроля.

Сезонные или одноразовые проекты

Бывает, что компании требуется большой объём данных, но только на короткий период. Например, для проверки гипотезы или запуска нового продукта.

Представим себе, что производитель автомобильных камер хочет протестировать алгоритм, определяющий состояние дорожного покрытия зимой. Для этого нужно разметить тысячи видео с кадрами снежных дорог, луж, ям и льда.

После завершения эксперимента разметка может больше не понадобиться. Нанимать сотрудников в штат ради одного проекта нецелесообразно. Аутсорс позволяет решить задачу быстро, сохранив ресурсы компании.

Контроль качества и стандартизация

Разные проекты требуют соблюдения строгих стандартов разметки. Особенно важно это для CV, где некорректная разметка может «научить» модель делать ошибки.

Например, компания, разрабатывающая систему контроля качества на производственных линиях, должна обучить ИИ находить мельчайшие дефекты на металлических деталях. Разметка дефектов требует высокой точности и строгости в выполнении инструкций.

Аутсорсинговые компании, работающие в этой сфере, имеют многоуровневую систему контроля качества и могут обеспечить результат независимо от объёма данных.

Экономия ресурсов

Все мы понимаем: собственная команда — это часто дорого и долго. Нужно не только нанять людей, но и обучить их, организовать нужную инфраструктуру и все время контролировать процесс.

Представьте себе: компания из сферы ритейла хочет обучить модель отслеживать поведение покупателей в магазинах: как они подходят к полкам, какие продукты берут, где задерживаются. Для этого нужно промаркировать видео с тысячами людей, выделяя головы, руки, движение глаз.

Аутсорс обеспечит выполнение этой задачи в рамках фиксированного бюджета, без скрытых затрат на найм, обучение. И главное, с предсказуемым качеством.

8 шагов к успешной организации аутсорса разметки

Каждая компания может иметь свои нюансы в организации аннотации данных. Мы хотим поделиться своим опытом и рекомендациям, основанными на многолетней практике.

Шаг 1: Определите свои потребностиРазные проекты требуют разных типов разметки. Определите, какие данные вам нужны, какие цели вы хотите достичь, какой бюджет у вас есть, и как вы будете оценивать результаты. Чем точнее вы опишете свои требования, тем легче будет получить нужный вам результат.

А еще на начальном этапе важно также понять, какой бюджет вы готовы выделить, это помогает правильно распределить задачи. Бывает, что клиент заранее сообщает ориентировочную сумму, и тогда можно предложить решение в рамках этого бюджета.

Но бывают случаи, когда бюджет неизвестен. Тогда мы, к примеру, делаем пилотный проект, чтобы определить стоимость и метрики. Например, если тестируем разметку изображений, мы аннотируем несколько из них, вычисляем цену за одну и предлагаем заказчику. Он может принять стоимость или откорректировать объём проекта.

Также иногда можно оценить требования к качеству в зависимости от бюджета. Например, одна разметка будет более точной и дорогой, другая — менее точной, но дешевле. Точность зависит от количества точек на изображении, как, например, при разметке дерева — можно обвести его одним кругом или нарисовать детализированный контур с каждым листиком.

Еще для снижения стоимости иногда можно использовать предразметку. Это ускоряет работу и позволяет предложить клиенту более выгодные цены, но использовать ее можно далеко не на всех проектах.

Шаг 2: Выберите подходящего поставщикаНаверное, это самый важный этап для успешной разметки. Убедитесь, что у компании есть необходимый опыт, доступ к современным инструментам. 

Задайте себе вопросы:

  1. Обладают ли они нужной экспертизой?Опыт в области аутсорсинга разметки данных может существенно различаться. Особенно это важно для узкоспециализированных проектов. Узнайте, есть ли у них релевантный опыт, и отдавайте предпочтение компаниям с проверенной репутацией и экспертизой.

Например, если проект связан с медициной, то лучше выбрать компанию с опытом работы в этом направлении. Если опыта нет, можно найти других специалистов или субподрядчиков. В любом случае, опыт в смежных областях будет плюсом, хотя иногда это не критично.

  1. Имеются ли у них технические возможности?Разметка данных может потребовать использования различных инструментов в зависимости от модели ИИ, с которой вы работаете.

Проверьте, какими технологиями располагает компания, и могут ли они предложить подходящие программные решения для выполнения задач и быстрого масштабирования.

Наличие подходящих инструментов тоже имеет значение. Например, если у одного подрядчика есть инструмент для работы с высокой точностью, а у другого — нет, это может повлиять на цену и качество.

Но если заказчик просит использовать его собственный инструмент, важно, чтобы команда могла адаптироваться и работать с любыми системами.

  1. Можно ли им доверить конфиденциальные данные?Ваш партнер должен не только помогать масштабировать проект, но и защищать ваши данные. Утечка может причинить серьезный вред компании, поэтому выбирайте поставщика, который способен надежно обеспечить безопасность вашей информации.

Все наши исполнители подписывают NDA, чтобы гарантировать безопасность данных. Это особенно важно при работе с чувствительными данными, такими как медицинские снимки или корпоративные изображения. В одном из крупных проектов для страховой компании наш заказчик даже настоял на том, чтобы мы работали в их системе.

4. Как они контролируют качество на проекте?

Это тоже очень важный пункт, хотя все компании подходят к нему по-разному.

У нас, например, все данные проходят через еще один обязательный этап: валидацию. Наш подход включает выбор определенного количества репрезентативных изображений для проверки, хотя иногда для проекта требуется проверить и все.

Во время валидации мы активно задаем уточняющие вопросы командам, передавая руководителям групп информацию об обнаруженных аномалиях, а также статистику по самым продуктивным и наиболее слабым исполнителям. Особое внимание мы уделяем качеству работы валидаторов — для их обучения и повышения квалификации мы подключили отдел обучения.

Такие моменты обязательно уточнять до начала работы, потому что не все компании этим занимаются. Некоторые из наших клиентов даже отмечали, что выбрали нас именно из-за хорошо выстроенной системы контроля качества.

А если вам интересно почитать побольше про нашу систему ОКК и перенять некоторые подходы, можете посмотреть эту статью.

Шаг 3: Начинайте с малого: организуйте пилотный проект 

Аутсорсинг аннотирования данных всегда должен начинаться с мелкого проекта proof of concept (POC) или пилота, позволяющего протестировать возможности, навыки, инструменты и команду нового поставщика.

Пилот — это ключевая стадия для оценки качества и стоимости разметки. Мы всегда стараемся, чтобы пилот был максимально близким к боевому проекту, чтобы дать заказчику реальную картину и избежать недопонимания. Важно, чтобы пилотные данные были аналогичны тем, что будут использоваться во время работы.

Шаг 4: Тщательно контролируйте прогресс

Проекты аннотирования могут иметь жёсткие временные рамки и в них часто ежедневно обрабатываются большие объемы данных. Мониторинг прогресса — очень важный способ гарантировать своевременную поставку аннотированных массивов данных с нужным уровнем точности и максимально возможным качеством.

В противном случае, вы рискуете, что данные будут поставлены спустя месяцы после того, как они должны были поступить в модель компьютерного зрения. После получения первоначальной партии обучающих данных проще оценить точность работы поставщика. 

Шаг 5: Контролируйте точность, делайте бенчмаркинг

При передаче первого набора изображений или видео в модель компьютерного зрения или ML/AI точность может быть равна 70%. Модель обучается на массивах данных, которые она получает. Повышать точность критически важно. Для улучшения результатов проекта моделям компьютерного зрения необходимы более крупные массивы данных с повышенным уровнем точности, и всё это начинается с повышения качества обучающих данных.

Для этого можно выполнять мониторинг и бенчмаркинг точности на опенсорсных массивах данных и на данных изображений, которые ваша компания уже использовала в моделях машинного обучения. Бенчмаркинг массивов данных и алгоритмов одинаково полезен и эффективен, например, таких как COCO и многих других.

Шаг 6: Максимально снижайте количество ошибок и погрешностей

Ошибки и погрешности — это потерянные время и деньги. У поставщиков услуг разметки данных должен существовать отзывчивый рабочий процесс, позволяющий быстро выполнять корректировки и при необходимости повторно аннотировать данные.

Шаг 7: Выполняйте контроль затрат

Затраты должны тщательно контролироваться, особенно если требуется повторное аннотирование. Руководитель проекта должен обеспечить соответствие затрат с предполагаемыми расходами на проект в рамках приемлемой погрешности.

В бюджете любого проекта аннотирования должны существовать средства на непредвиденные расходы. Однако этот аспект не должен выходить из под контроля, особенно если любые перерасходы времени и затрат являются виной внешнего поставщика услуг аннотирования. Обговорите эти вопросы перед подписанием контракта, изучите бенчмарки ключевых показателей (KPI) и service level agreement (SLA).

Проверяйте показатели работы поставщика в соответствии со сроками, параметрами QA, KPI и SLA, чтобы избежать перерасхода средств на проект.

Шаг 8: Используйте инструменты отслеживания показателей

Очевидно, что отслеживание показателей — одна из самых важных частей  процесса аннотирования. Имея подходящие инструменты отслеживания показателей и дэшборд, вы можете создать инструменты рабочего процесса разметки, обеспечивающие качественные результаты аннотирования.

Чётко определённая структура разметки снижает степень неясности и сомнений у аннотаторов. Вы повысите гарантию высококачественных результатов, если команды аннотаторов используют подходящие инструменты для автоматизации разметки данных изображений и видео.


В конечном итоге нужно понимать: успешный аутсорсинг разметки данных — это не просто вопрос экономии времени и средств. Это возможность привлечь опытных экспертов, которые могут обеспечить высокое качество и точность на каждом этапе работы. 

А как вы обычно решаете вопросы с разметкой данных в ваших проектах? Сталкивались ли вы с проблемами в процессе аутсорсинга или уже нашли оптимальное решение? Поделитесь своим опытом в комментариях!

8 лучших советов для аутсорсинга разметки данных - 2

Алексей Корнилов

Special Projects Group Manager

8 лучших советов для аутсорсинга разметки данных - 3

Дмитрий Рогальский

Moderation Group Manager

Автор: evgeniatro

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js