Рубрика «разметка данных»

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

2025-10-28 в 20:08, admin, рубрики: ocr, исторические данные, нейросеть, разметка данных, распознавание текста, синтетические данные

Проект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).

Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.

Читать полностью »

200 000+ снимков мусора: что мы узнали о датасетах

2025-07-03 в 13:38, admin, рубрики: искусственный интеллект, машинное обучение, открытые данные, парсинг данных, разметка данных, разметка датасета, сбор данных для ИИ, управление проектами

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко.

Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки.

Читать полностью »

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

2025-07-02 в 14:18, admin, рубрики: нейросети для агропрома, нейросети для табунов и конюшен, нейросети для ферм, парсинг данных, разметка данных, разметка датасета, сбор данных для ИИ

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

Здесь было все: почти сорванный дедлайн, паника, отчаяние и, как вишенка на торте, нейросеть, которую мы создали, чтобы обучить другую нейросеть.

Кони-авторитеты и спокойствие стада

Читать полностью »

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench

2025-06-07 в 11:17, admin, рубрики: AI, bench, benchmark, dataset, DS, ml, ML4se, SWE, разметка данных

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье Читать полностью »

Как собирать данные: руководство для ИИ-стартапов

2025-02-19 в 9:57, admin, рубрики: ai-first стартап, ИИ-инжиниринг, ии-стартап, машинное обучение, методы обучения LLM, обучение нейросетей, разметка данных, синтетические данные

В 2016 году я наткнулся на руководство по стратегиям сбора данных для AI-стартапов, многие идеи из которого были визионерскими для своего времени. Автором этого текста был Мориц Мюллер-Фрайтаг, сооснователь компании Twenty Billion Neurons (TwentyBN).

Как собирать данные: руководство для ИИ-стартапов - 1

Читать полностью »

8 лучших советов для аутсорсинга разметки данных

2024-12-16 в 11:09, admin, рубрики: data annotation, machinelearning, аутсорсинг, машинное обучение, разметка данных, разметка датасета

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно.

Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам.

Читать полностью »

Homo clickus. Как моделирование кликающих людей пригодится для сегментации изображений

2024-12-12 в 11:52, admin, рубрики: глубокое обучение, интерактивная сегментация, искусственный интеллект, Компьютерное зрение, обработка изображений, разметка данных, сегментация изображений

Приветствую всех читающих!

Меня зовут Антон Антонов, я инженер по искусственному интеллекту, работаю в Институте искусственного интеллекта AIRI в команде, которая занимается Embodied AI — областью, связывающей робототехнику, компьютерное зрение и большие языковые модели.

Недавно наша группа получила приятное известие: нашу статью с описанием модели того, как люди кликают и тапают на картинки, приняли на грядущий NeurIPS! Она будет полезна, чтобы тестировать модели интерактивной сегментации, которые помогают автоматизировать и ускорить процесс разметки изображений человеком.Читать полностью »

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

2024-12-11 в 11:12, admin, рубрики: data light, биометрический датасет, датасет liveness, Компьютерное зрение, машинное обучение, переразметка данных, разметка данных, разметка датасета, синтетические данные

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилей Читать полностью »

Как организовать разметку данных для ML? Советы от Data Light

2024-11-29 в 13:30, admin, рубрики: data annotation, data science, data science digest, аннотация данных, инструменты для аннотации, краудсорсинг, разметка данных, разметка датасета

За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.

Читать полностью »

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

2024-11-01 в 19:48, admin, рубрики: computer vision, команда разработки, машинное зрение, нейросети для бизнеса, оценка проектов разметки, оценка проектов сбора данных, оценка трудозатрат, ошибки управления, разметка данных, сбор данных

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображенийЧитать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «разметка данных»

«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»

Читать полностью »

200 000+ снимков мусора: что мы узнали о датасетах

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench

Как собирать данные: руководство для ИИ-стартапов

8 лучших советов для аутсорсинга разметки данных

Homo clickus. Как моделирование кликающих людей пригодится для сегментации изображений

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов

Как организовать разметку данных для ML? Советы от Data Light

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд