В настоящее время языковые модели зарекомендовали себя как гибкий инструмент, применяемый в различных областях. Однако, не смотря на всю свою мощь, большинство существующих языковых моделей имеют ограничения в выполнении задач, связанных с визуальным
В 2023 году исследователи из университета Карнеги‑Меллона смогли создать первую языковую мультимодальную модель FROMAGe, имеющую визуальные и языковые возможности, такие как мультимодальный диалог, генерация и контекстуальный поиск изображений из разговоров. При помощи данной модели пользователи могут в режиме диалога решать любые свои проблемы и для более точного ответа модель будет часто иллюстрировать свои текстовые ответы.
Заглянем внутрь
Теперь пора разобраться, как работает такое чудо и как его надо учить. Внутри модели FROMAGe содержится замороженная языковая модель OPT и кодировщик изображений CLIP.Причем архитектура FROMAGe позволяет использовать любую языковую модель помимо OPT, что делает данную модель более гибкой. Более того эмпирическим путем исследователи выясняли, что для решения такой сложной задачи, как вывод изображения требуется дополнительно обучить всего три линейных слоя, решая всего две задачи на данных из трех миллионов изображений с подписями.
Описание изображения
Первая задача, которая была представлена модели для обучения — это создание описания к изображениям. При обучении модели подавалось одно изображение с его описанием или сразу два. При помощи кодировщика CLIP и линейного слоя изображения кодировались, а токенайзер от GPT2 переводил текст, который подавался в замороженную языковую модель. Модель OPT в свою очередь решала простую задачу на продолжения токена и далее предсказание модели оценивалось уже лоссом с точным описанием.
моИнтересно заметить, что хоть на обучение модели подавалось один или два экземпляра данных, при тестировании модель легко справляется с длинными контекстами, содержащими по пять и шесть изображении с различными описаниям разом.
Извлечение изображения из текста
Вторая задача обучения намного сложнее в реализации. Поскольку модель имеет и изображения, и текстовые выводы, то она не может использовать текстовые кодировщики, которые зачастую и применяются в языковых моделями. Вместо текстовых кодировщиков авторы статьи используют авторегрессионные модели, что является ограничением к использованию двунаправленного внимания у модели.
В связи со всеми факторами для вывода изображения добавляют новый токен [RET], который указывает модели на то, что следует вывести изображения в виде ответа.
В процессе тренировки применяют последние два обучаемых линейных слоя, благодаря которым происходит кодировка данных. Далее сравнивается схожесть текстовых и визуальных эмбеддингов.
Тестирование
К сожалению, на 2023 год не было точного бенчмарка для оценки моделей подобного типа, и авторы придумали свои методы оценки, вдохновившись моделью CLIP.Тестирование проходило в три этапа.
На первом этапе проверялся визуальный пересказ истории, в котором модели последовательно на вход подавались изображения и предлагали ей продолжить рассказ картинкой.
По итогам тестирование модель уступает CLIP в коротких контекстах, однако с увеличением контекста CLIP значительно отстает от FROMAGe, что не удивительно, ведь модель CLIP обучалась на коротких контекстах. Проблема ухудшения модели с увеличением контекста давно известна и раскрыта в статье long‑ CLIP.
На втором этапе тестирование модели подавались вопросы к изображению по которым FROMAGe должен был дать ответ в виде текста или изображения. В целом подобный тест эмулировал режим диалога с искусственным интеллектом. Модель дает неоднозначные результаты, при которых FROMAGe проигрывает языковым моделям ESPER и FLAMINGO. Однако эти модели способно отвечать только в текстовом в виде. С другой стороны модель опережает CLIP в качестве, чем и гордятся авторы статьи.
Последние тестирование было ориентировано на генерацию текста. Модель должна была закончить историю. По результатам тестирование отмечается, что чем больше контекста подается модели тем точнее и качественнее модель сгенерирует текст.
По результатам всех трех тестов были сделаны выводы о прорывном успехе FROMAGe. Однако к осени 2024 года, опираясь на свои исследования, я заметил, что данную модель редко применяют и зачастую отдают предпочтения другим аналогам, которые были обучены на стратегии FROMAGe.
Итог
В результате FROMAGe способна выдавать изображения и текст. Более того модель демонстрирует высокую производительность при решении различных задач, связанных с вводом и выводом графического текста, и качественно демонстрируем интерактивные возможности, такие как мультимодальный диалог. Самое интересно, что для решение такой сложной задачи трем ученым потребовалось обучить всего три линейных слоя! Благодаря данной модели, созданной в 2023 году, мы можем пользоваться практическим всем функционалом нейронных сетей и получать как визуальные, так и текстовые ответы при необходимости. К сожалению модель не стала такой же яркой и популярной как мастодонты языковых моделей в виде GPT-4,LLama и многих других. Однако модель стала ярким светом в будущее обучение языковых моделей для визуализации своих ответов.
Автор: rareHalex