К удивлению исследователей, алгоритмы компьютерного зрения с глубоким обучением часто не справляются с классификацией изображений потому, что они в основном ориентируются на текстуры, а не на формы.
Если вы посмотрите на фотографию кошки, с большой вероятностью вы сможете узнать это животное, вне зависимости от того, будет оно рыжим или полосатым – или даже если фотография будет чёрно-белой, запятнанной, потрёпанной или потускневшей. Вероятно, вы сможете заметить кошку, когда она свернулась клубочком за подушкой или прыгает на стол, представляя собой лишь размытую форму. Вы естественным образом научились распознавать кошек почти в любой ситуации. А вот системы машинного зрения, работающие на основе глубоких нейросетей, хотя иногда и способны обставлять людей в задачах распознавания кошек при фиксированных условиях, но могут оказаться сбитыми с толку при помощи изображений, которые хоть немного отличаются от им известных, или же содержат шум или слишком сильную зернистость.
Читать полностью »