Рубрика «разметка данных»

Проект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).

Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.

Читать полностью »

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко.

Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки.

Читать полностью »

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

Здесь было все: почти сорванный дедлайн, паника, отчаяние и, как вишенка на торте, нейросеть, которую мы создали, чтобы обучить другую нейросеть.

Кони-авторитеты и спокойствие стада

Читать полностью »

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статьеЧитать полностью »

В 2016 году я наткнулся на руководство по стратегиям сбора данных для AI-стартапов, многие идеи из которого были визионерскими для своего времени. Автором этого текста был Мориц Мюллер-Фрайтаг, сооснователь компании Twenty Billion Neurons (TwentyBN).

Как собирать данные: руководство для ИИ-стартапов - 1

Читать полностью »

8 лучших советов для аутсорсинга разметки данных - 1

Любой проект в области CV начинается с разметки огромных объёмов изображений и видео. И только успешные результаты и качественные данные гарантируют, что модель сможет обучаться корректно.

Но что делать, если внутренняя команда не справляется с объемами, а квалифицированных специалистов найти сложно? Ответ прост: передать задачу профессионалам.

Читать полностью »

Приветствую всех читающих!

Меня зовут Антон Антонов, я инженер по искусственному интеллекту, работаю в Институте искусственного интеллекта AIRI в команде, которая занимается Embodied AI — областью, связывающей робототехнику, компьютерное зрение и большие языковые модели.

Недавно наша группа получила приятное известие: нашу статью с описанием модели того, как люди кликают и тапают на картинки, приняли на грядущий NeurIPS! Она будет полезна, чтобы тестировать модели интерактивной сегментации, которые помогают автоматизировать и ускорить процесс разметки изображений человеком.Читать полностью »

Дилеммы, с которыми вы столкнетесь при разработке биометрических датасетов - 1

Если вы хотите научить модель машинного зрения разбираться в сортах кукурузы или, скажем, отличать пешеходов от автомобилейЧитать полностью »

Как организовать разметку данных для ML? Советы от Data Light - 1

За каждым «умным» решением, которое принимает ИИ, стоят огромные объемы данных, тщательно размеченные и подготовленные для обучения. Но как организовать этот процесс так, чтобы модель работала эффективно? Мы в Data Light считаем, что это искусство, требующее правильного подхода, инструментов и стратегии.

Читать полностью »

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд - 1

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображенийЧитать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js