Рубрика «computer vision» - 2

Часть 2: Rope-Ladder Tracker — от идеи к стабильной системе

2025-08-01 в 3:25, admin, рубрики: c++, computer vision, opencv, python, Научно-популярное, научпоп

Это продолжение статьи “Rope-Ladder Tracker: визуальный возврат без GPS” , где я представил концепцию структурированного позиционирования по принципу “верёвочной лестницы”. Тогда это была идея, прототип и первые кадры. Сегодня — полноценная, стабильная система, готовая к интеграции в реальный дрон.

Что изменилось за это время?

Первая версия rope-ladder-tracker работала, но была хрупкой:

Чувствительна к освещению.
Сыровато обрабатывала потерю точек.
Не учитывала смену состояния трекинга.
Могла “зависнуть” при плохом кадре.

Читать полностью »

Когда несколько пикселей решают всё: One Pixel атака и способы защиты от неё

2025-07-31 в 15:15, admin, рубрики: alexnet, computer vision, efficientnet, inceptionV3, one pixel attack, resnet, Visual transformer

Удивительно, но факт: несколько изменений в изображении может полностью изменить вывод нейросети, что ломает заложенную разработчиком логику. В данной статье мы не просто подсветим факт существования One Pixel атаки, но и комплексно разберём архитектурные факторы, которые влияют на устойчивость CV-систем к данному семейству атак.

Читать полностью »

Как я написал покер‑бот за 4 недели, используя Cursor + GPT

2025-07-22 в 7:15, admin, рубрики: computer vision, cursor ide, pet-project, python, yolo, ИИ, математика, покер, Программирование

1. Вводная

Это мой первый опыт написания статьи. Судим, но не строго.

Недавно завершил интересный пэт-проект. Настолько интересный, что захотелось поделиться.

Это десктопная программа, которая:

Считывает скрин игрового стола в покере.
С помощью компьютерного зрения извлекает расклад, ставки и карты.
Рассчитывает ожидаемую выгоду (EV) каждого действия методом Монте-Карло.
Показывает на экране, что выгоднее сделать прямо сейчас.

Читать полностью »

Готовимся к собесу: positional encodings в 2025 году

2025-07-09 в 16:44, admin, рубрики: computer vision, deeplearning, gpt, nlp, вход в it, подготовка к собеседованию, собеседование

Если вы до сих пор считаете, что positional encoding в трансформерах — это знаменитые sin/cos из статьи 2017 года, то боюсь, что собеседование для вас закончится автоматическим реджектом.

Позиционное кодирование заметно эволюционировало с момента появления оригинальной статьи о трансформерах. В современных LLM и моделях компьютерного зрения, таких как FLUX, уже давно не используется классическое sin/cos-кодирование.

Про это почему-то не знают 80% кандидатов на интервью, хотя, казалось бы, эта информация уже давно перешла в разряд «базовой классики».

Читать полностью »

Я построил Vision Transformer с нуля — и научил его обращать внимание

2025-07-04 в 13:16, admin, рубрики: computer vision, deep learning, implementation, pytorch, Transformers

Vision Transformer (ViT) — это архитектура, которая буквально произвела революцию в том, как машины «видят» мир.

В этой статье я не просто объясню, что такое ViT — я покажу вам, как создать эту магию своими руками, шаг за шагом, даже если вы никогда раньше не работали с трансформерами для задач с изображениями.

Для начала давайте взглянем на архитектуру Vision Transformer:

Читать полностью »

Компьютерное зрение для начинающих

2025-06-25 в 12:39, admin, рубрики: AI, computer vision, NeuralNetworks, OpenCV примеры, Компьютерное зрение, обработка изображений Python, обучение нейросетей

Тема компьютерного зрения наряду с искусственным интеллектом в последние годы стала очень популярной. Сегодня компьютерное зрение — это динамичная и быстро развивающаяся область, постоянно расширяющая границы того, что могут видеть и понимать машины.

Однако, зачастую многие публикации посвященные computer vision являются достаточно сложными для тех, кто только погружается в данную тему.

Читать полностью »

Это камень? Это ветка? Это нос! Разбираем подходы, помогающие ИИ распознавать лица на картинках с низким разрешением

2025-06-25 в 9:40, admin, рубрики: computer vision, deep learning, face recognition, глубокое обучение, Компьютерное зрение, машинное обучение, низкое качество, низкое разрешение, обработка изображений, распознавание лиц

Читать полностью »

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения

2025-06-25 в 9:16, admin, рубрики: AI, computer vision, object detection, opencv, yolo, YOLO Custom Dataset Training, YOLOv12, БПЛА, обнаружение объектов, Обучение YOLO

На данный момент актуально создание системы обнаружения беспилотных летательных аппаратов (БПЛА), особенно дронов.

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения - 1

Системы обнаружения дронов должны выполнять следующие функции:

Читать полностью »

Один кадр против спуфинга: как мы определяем фейковые лица без видео и биометрии

2025-06-24 в 12:45, admin, рубрики: computer vision, CV, анти-спуфинг, ИИ, Икусственный интеллект, Компьютерное зрение, спуфинг, спуфинг-атаки

Читать полностью »

Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото

2025-06-15 в 14:02, admin, рубрики: 6dof, computer vision, pointcloud, video generation, VR

Крутим Fisheye камеру в синтезированном мире

Всем привет!

Я много работаю с видео для виртуальной реальности, и одна из задач, которая всё ещё маячит на горизонте и требует уймы усилий — удобное создание и стриминг Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «computer vision» - 2

Часть 2: Rope-Ladder Tracker — от идеи к стабильной системе

Что изменилось за это время?

Когда несколько пикселей решают всё: One Pixel атака и способы защиты от неё

Как я написал покер‑бот за 4 недели, используя Cursor + GPT

1. Вводная

Готовимся к собесу: positional encodings в 2025 году

Я построил Vision Transformer с нуля — и научил его обращать внимание

Vision Transformer (ViT) — это архитектура, которая буквально произвела революцию в том, как машины «видят» мир.

Компьютерное зрение для начинающих

Это камень? Это ветка? Это нос! Разбираем подходы, помогающие ИИ распознавать лица на картинках с низким разрешением

Обнаружение дронов (БПЛА) с использованием ИИ и компьютерного зрения

Один кадр против спуфинга: как мы определяем фейковые лица без видео и биометрии

Залезаем на плечи гигантов — создаем модуль для ComfyUI для свободного движения камеры и создание 6dof сцен из фото