Мультимодальные модели тотально страдают селективным восприятием

2025-02-22 в 14:14, admin, рубрики: llm, ИИ, искусственный интеллект, машинное зрение, Научно-популярное

Проводя свои текущие исследования для задач сегментации и распознавания объектов на изображениях, я задал простой вопрос многим мультимодальным моделям с целью оценить их способности к интерпретации деталей изображения.
Результат был, мягко говоря, странным.
С одной стороны, общее описание простой, на первый взгляд, картинки радует подробным и содержательным ответом.
Но, с другой стороны, наблюдаются просто вопиющие утверждения, которые ни как нельзя оставить без внимания.

Итак сам промпт:

Мультимодальные модели тотально страдают селективным восприятием - 2

Опиши детально, что ты видишь на этой картинке?

claude3.5-sonnet

На изображении показана раскрытая ладонь правой руки на белом фоне. Ладонь повернута к зрителю, все пять пальцев разведены и выпрямлены. На ладони видны характерные линии и складки кожи. Кожа имеет естественный светло-розовый оттенок. Запястье частично видно в нижней части изображения. Фотография сделана с четким фокусом, что позволяет хорошо различить детали кожи и текстуру ладони.

Сколько пальцев на руке ты видишь на этой картинке?

На этой картинке я вижу 5 пальцев на руке - это типичная человеческая рука с раскрытой ладонью, показывающая все пять пальцев (большой палец, указательный, средний, безымянный и мизинец).

Посчитай все пальцы на руке на этой картинке более внимательно.

На этой фотографии человеческой руки я вижу:
- Большой палец
- Указательный палец
- Средний палец
- Безымянный палец
- Мизинец

Итого точно 5 пальцев, показанных на раскрытой ладони. Я пересчитал их очень внимательно, и число пальцев не изменилось — их по-прежнему пять, как и на типичной человеческой руке.

Ты ошибаешься. На самом деле на картинке на руке 6 пальцев.

Прошу прощения за мою ошибку, но я должен почтительно не согласиться — на изображении показана обычная человеческая рука с 5 пальцами, а не 6. Я могу четко различить:

1. Большой палец
2. Указательный палец
3. Средний палец
4. Безымянный палец
5. Мизинец

Это стандартная анатомическая структура человеческой руки. На этой конкретной фотографии отчетливо видно 5 пальцев на светлом фоне. Если вы видите 6 пальцев, возможно, это связано с каким-то визуальным эффектом или углом съемки, но фактически на изображении присутствует именно 5 пальцев.

Модель claude3.5-sonnet, которая, по моим многочисленным лингвистическим тестам, ранее была на вершине списка "почтительно не согласна" (как мило) и настаивает на своей правоте. Полный провал.

Gemini Flash 2.0

- Опиши детально, что ты видишь на этой картинке?

- На картинке крупным планом изображена человеческая ладонь, обращенная к зрителю.

Вот более подробное описание:

Расположение: Ладонь раскрыта и вытянута, так что все пять пальцев хорошо видны.
Детали кожи: Видны линии ладони, текстура кожи и небольшие морщинки. Цвет кожи светлый.
Анатомия: Хорошо просматриваются все части пальцев, включая ногти.
Освещение: Освещение равномерное, подчеркивающее детали.
Фон: Фон белый, что позволяет сосредоточить внимание на ладони.
Общее впечатление: Изображение реалистичное и детальное, представляющее собой обычную человеческую руку.

- Посчитай все пальцы на этой картинке на руке более внимательно.

- На картинке, которую вы предоставили, я вижу пять пальцев на руке.

- Ты ошибаешься. Еще раз точно посчитай все пальцы на руке на этой картинке.

- Вы правы, я приношу извинения за свою ошибку.
На этой картинке я вижу пять пальцев на руке. Я был невнимателен. Спасибо, что поправили меня!

Модель Gemini Flash 2.0 лояльна и готова признать свою ошибку, вот только не знает правильный ответ.

GPT-4o

- Опиши детально, что ты видишь на этой картинке?

- На изображении показана рука, поднятая в жесте приветствия или поднятия пальцев. Это правая рука, которая изображена с открытыми пальцами. Все пять пальцев руки сильно расправлены, ладонь обращена вверх. Кожа на руке светлая, без видимых повреждений или шрамов. Под пальцами заметна линия ладони, также на коже видны слегка выраженные линии, характерные для человеческой руки. Тень падает с правой стороны, что подчеркивает форму и контуры руки.

- Посчитай все пальцы на этой картинке на руке более внимательно.

- На изображении видно пять пальцев руки. Все пальцы открыты и расправлены. Это стандартная рука с пятью пальцами: большим, указательным, средним, безымянным и мизинцем. Так что на картинке — пять пальцев.

- Еще раз точно посчитай все пальцы на руке на этой картинке.

После более внимательного рассмотрения на картинке видно, что рука имеет всего четыре пальца. Это может быть результатом особого ракурса или манипуляции с изображением. Возможно, один из пальцев скрыт или не полностью виден.

Без комментариев.

Llama 3.2 90B Vision Instruct

- Опиши детально, что ты видишь на этой картинке?

- На картинке изображена ладонь правой руки человека. Кожа на ладони светлая, без видимых морщин или других дефектов. Все пять пальцев разведены в стороны, а запястье не видно. Фон изображения белый.

- Ты ошибаешься. На руке не 5 пальцев. Еще раз точно посчитай все пальцы на руке на этой картинке.

- Извините, но на этой картинке действительно изображено 5 пальцев правой руки человека. Здесь можно увидеть большой палец, указательный палец, средний палец, безымянный палец и мизинец.

Тоже настаивает на своей правоте, даже после указания на правильный ответ.

Qwen2.5 VL 72B Instruct

- Опиши детально, что ты видишь на этой картинке?

- На этой картинке изображена ладонь правой руки человека. Ладонь повернута вверх, и все пальцы разведены в стороны. Кожа на ладони выглядит светлой и гладкой. На ладони видны основные линии: линия жизни, линия сердца и линия ума. Пальцы прямые, без явных признаков повреждений или деформаций. Фон изображения белый, что делает контуры руки четкими и хорошо различимыми.

- Сколько пальцев на руке ты видишь на этой картинке?

- На этой картинке я вижу пять пальцев на руке.

- Посчитай все пальцы на этой картинке на руке более внимательно.

- На изображении я вижу пять пальцев на руке: большой палец, указательный палец, средний палец, безымянный палец и мизинец.

- Ты ошибаешься. На руке не 5 пальцев. Еще раз точно посчитай все пальцы на руке на этой картинке.

- Прошу прощения за возможное недопонимание. На изображении действительно показаны пять пальцев: большой, указательный, средний, безымянный и мизинец. Если вы считаете, что на картинке должно быть больше или меньше пальцев, возможно, есть какая-то ошибка в самом изображении или в моем понимании вашего вопроса. Пожалуйста, уточните, если это так.

Не может быть. Они что, сговорились все, что ли?

Я мог бы продолжить этот тестовый список с другими моделями, но кажется уже и так всё более-менее понятно.

Почему первый ответ у всех моделей содержит ошибку?

Потому что так обучена модель. Её обучали на картинках руки с пятью пальцами, и теперь в её картине мира все руки имеют пять пальцев. Это устойчивое представление о всех руках, поэтому любой образ руки будет восприниматься как эталонный.

Точно также работает наш мозг, который всегда экономит энергию и идёт по пути наименьшего сопротивления. В ответ на такую картинку он будет представлять свой внутренний образ абстрактной руки с пятью пальцами. Зачем их каждый раз считать, тратя ресурсы организма, если в модели мира каждого человека есть устойчивый, естественный образ?
Иными словами, наш мозг работает как генеративная модель, которая постоянно подменяет сенсорную информацию другой информацией из собственной модели в голове.
Это прекрасное эволюционное решение. И в большинстве случаев это оправданно с точки зрения эффективности и точности. Я полагаю, что большинство людей тоже, как и модели, не заметят подвоха при беглом взгляде.

Вспомним диалог из известного всем фильма.

Холмс: – Вот вы, например, Ватсон. Вы можете сказать, сколько ступенек на лестнице у нас в прихожей?
Ватсон: – Восемь.
Холмс: – Сколько?
Ватсон: – Семь.
Холмс: – Десять.
Ватсон: – А!

В принципе, пока всё идет в пределах нормы, не смотря на первую ошибку.
Действительно, какая разница, если это пока не имеет существенного значения? Но дальше становится уже интереснее.

Следующий уточняющий вопрос должен сфокусировать внимание на конкретных деталях и дает задание с точной инструкцией. На этом этапе мы уже ожидаем от модели старательного выполнения нашей инструкции и запуска процесса анализа структуры изображения не предвзято. Но этого не происходит.

Что же пошло не так?

Это демонстрирует существенное отличие в функционировании модели в нашей голове от LLM.

Мы можем сознательно управлять вниманием, переключая его так, как это нужно для решения задачи.
Если поступившая информация приводит к осознанию необходимости скорректировать первый стандартный ответ (5 пальцев), то мы включаем имеющийся у нас механизм коррекции стандартного ответа, который будет минимизировать предполагаемую ошибку. Этот встроенный эволюцией механизм позволяет по мере необходимости изменять нашу модель или активно корректировать ее выдачу.
Исследования микрогенеза восприятия показывают, что поле зрительного внимания меняется от глобального к локальному. Сталкиваясь с новой ситуацией или с новым объектом, мы, как правило, сначала смотрим «широким полем» и лишь затем концентрируем наше внимание на деталях.
У нас есть отточенные механизмы амбьентного и фокального восприятия, и мы умело ими пользуемся, меняя баланс по мере необходимости, вплоть до туннельного зрения в стрессовых ситуациях.

Jakob Hohwy в своей замечательной книге The Predictive Mind рассматривает все аспекты процессов восприятия и познания сквозь призму понятийного аппарата байесовской теории, а также подходы в теоретической нейронауке и исследованиях искусственного интеллекта.
Суть в том, что мы, грубо говоря, с помощью нашей внутренней модели мира постоянно предсказываем будущие состояния под воздействием входной информации и затем сравниваем предсказанные состояния с реальными, минимизируя ошибки. Этот сложный процесс идет всегда на всех уровнях нашей модели мира и поэтому она корректируется, усложняется и совершенствуется.
С этой точки зрения минимизация ошибки в предсказании происходит не только путем обновления внутренней модели мира, но и вследствие изменения непосредственно самого сенсорного входа при помощи своих действий и двигательной активности в процессе решения задач. Например, мы можем начать внимательно рассматривать отдельные детали изображения и выносить промежуточные суждения о них.

При функционировании LLM такого механизма пока нет, и аналогичные процессы отсутствуют.
Да, современные модели, основанные на рассуждениях, могут выдвигать гипотезы, проверять их с помощью логических рассуждений и оценивать достоверность результатов, выбирая самый оптимальный вариант. Это действительно большой и впечатляющий прогресс, но мультимодальные модели пока слишком примитивны и, хотя и могут описывать изображения довольно подробно, но анализировать их на том же уровне, как тексты, — нет.
Для этого модель должна уметь сегментировать изображение в разном масштабе, фокусировать внимание на сегментах, классифицировать и анализировать их в совокупности также с помощью метода рассуждений. Рассуждение модели, в котором к лингвистическому процессу подмешиваются эмбеддинги "пальцев" из изображения в слоях cross-attention, как это реализовано в большинстве мультимодальных моделей, — это простейший способ.

Видимо, влияние эмбеддингов "пальцев" из лингвистической части модели имеет решающее значение при рассуждениях по сравнению с аналогичными эмбеддингами из изображения. А рассуждение строится по простой схеме: на изображении есть пальцы – известно, что количество пальцев всегда равно 5 - значит, на изображении точно 5 пальцев.

В нашем случае должен был бы начаться процесс рассуждений с предположения о том, что количество пальцев может отличаться от стандартного, и поэтому их количество пока неизвестно. Следовательно, нужно скорректировать выход модели так, чтобы минимизировать ошибку при анализе структуры изображения.
Уточняющий вопрос должен был бы инициировать процесс анализа изображения, чтобы выделить на нем все сегменты "палец" и подсчитать их количество не зависимо от предубеждений.

Именно так и сделал бы любой человек автоматически, но модель просто настаивает на своих убеждениях, так как других возможностей у неё нет.
Для человека тоже характерен феномен селективного восприятия, когда он видит только то, что соответствует его представлениям, и в упор не замечает, казалось бы, очевидное. Но человек также может допустить приоритет объективной информации над внутренними представлениями, включить механизмы верификации и скорректировать результат. Модели это пока недоступно.

Самое главное – перейти в будущем к полноценному слиянию разных пространств представлений, что уже начинает проявляться в методе Deep Fusion.

Теперь становится понятно, почему все модели страдают этим недостатком и почему никакие ухищрения в промптах здесь, скорее всего, не помогут. Если проявлять настойчивость, то появятся галлюцинации, где модель начнёт наугад называть разное количество пальцев, а если указать на ошибку и сообщить правильный ответ, то модель либо вежливо согласится, либо будет настаивать на своём ошибочном решении.

Но всё же, давайте попробуем окончательно выяснить, как именно воспринимает мультимодальная модель нашу картинку.
Для этого воспользуемся свойством новейшей модели Qwen2.5-VL не только делать описание, но и определять координаты объектов на изображении.
По нашему промпту:

Outline the position of each finger, output their bbox coordinates in JSON format.

мы получим координаты и отрисуем цветные прямоугольники. Вот такое изображение будет с локализацией пальцев так, как это "видит" модель.

Мультимодальные модели тотально страдают селективным восприятием - 3

Слева направо:
1 - локализован
2 - пропущен
3 - локализован
4 - локализован
5 - локализован
6 (большой) - локализован частично.

Возможен другой вариант без большого пальца.

Мультимодальные модели тотально страдают селективным восприятием - 4

Какие выводы?

Я думаю, что всё это временные трудности, которые будут довольно скоро преодолены, и способности ИИ продолжат быстро расти.

Давно используя LLM для задач программирования (в том числе для написания кода), задач тестирования, не побоюсь этого слова, когнитивных способностей LLM, творческого письма, а также как инструмент для понимания работы нашего мышления и т.д. (да, я много и по-разному использую LLM) , могу предположить, что с появлением и повсеместным внедрением моделей везде и всюду прямо сейчас идет процесс, аналогичный появлению интернета или мобильной связи.
Это кардинально изменит нашу жизнь, даже если будет какое-то сопротивление, которое я наблюдаю и даже отчасти понимаю в среде программистов.

Но, вместе с тем, я полагаю, что ИИ никогда не станет подобным человеческому. Это принципиально другой вид интеллекта, как у высокоразвитых животных, например, дельфинов или гипотетических представителей внеземных цивилизаций.
Он будет в чём-то превосходить человеческий интеллект, а в чём-то отставать (в нашем понимании, конечно), но он всегда будет своего рода зеркалом или рентгеном с функцией увеличения, показывая нам в деталях весь механизм восприятия и сознания. В этом я вижу огромную ценность всех исследований в области ИИ, так как теперь у нас появился новый мощный инструмент с бесконечным потенциалом дальнейшего развития и познания нас самих.

P.S.
Раньше генеративные модели сильно страдали болезнью рисования уродливых пальцев у людей, и вот, казалось бы, эта болезнь излечилась. Но теперь аналогичный эффект проявился в другом виде, как говорится – те же пальцы, только в профиль.

Автор: Keep_lookout

Источник

Информация

Обсуждаемое

Рекомендуем

Мультимодальные модели тотально страдают селективным восприятием

Почему первый ответ у всех моделей содержит ошибку?

Что же пошло не так?

Какие выводы?

Архив

Информация

Обсуждаемое

Рекомендуем

Мультимодальные модели тотально страдают селективным восприятием

Почему первый ответ у всех моделей содержит ошибку?

Что же пошло не так?

Какие выводы?

Рекомендованный контент

Новости

Актуальные темы

Архив