Прошлый год в Computer Vision запомнился тем, что появилось множество больших претрейненных сетей (Fondation Models). Самая известная - GPT4v (ChatGPT с обработкой изображений).
В статье я попробую простым языком объяснить что это такое (для тех кто пропустил), как меняет индустрию. И когда можно будет выгнать на мороз лишних "ресерчеров".
Поговорим о следующем:
-
Что вообще такое "предтрейненные сети"
-
Где они используются?
-
Можно ли заменить ими обучение/разработчиков?
-
Какие есть ограничения?
-
Что будет дальше?