Сегодня ежедневно люди делают миллионы и миллионы снимков. И большая их часть попадает в Сеть. Определить, какое именно место запечатлено на конкретном фото можно лишь в единичных случаях, когда на снимке присутствует какой-то опознавательный знак либо известный объект.
Однако специалисты Google активно работают над решением этой проблемы. Небольшая команда во главе с Тобиасом Вейандом (Tobias Weyand), используя технологии глубокого обучения, добилась того, что их система способна в ряде случаев определить, где именно было сделано то или иное фото.
Суть решения на самом деле довольно проста. Разработчики разбили большую часть суши на 26 000 секторов и загружали массивы фотографий, сделанных в каждом регионе. Система не только запоминала объекты, которые находятся в каждом секторе, но и научилась определять местоположение по вторичным признакам. К примеру, номерным знакам авто, архитектурным особенностям зданий, типу произрастающих растений и так далее. Всего специалистами Google было использовано более 126 млн фотографий. Из них 91 млн снимков был использован для обучения нейронной сети, а оставшиеся 34 млн — для проверки, хотя это тоже была часть обучения.
Получившийся результат разработчики назвали PlaNet. Конечно, результативность системы на первый взгляд может разочаровать. Создатели PlaNet использовали 2,3 млн фотографий с ресурса Flickr и их детище смогло верно определить родину снимка в 3,6% случаев, если речь шла об уличных фото. Если же на снимках были запечатлены города в меньшем масштабе, то результативность повышалась до 10,1%. При этом страна угадывается в 28,4% случаев, а континент в 48%.
Создатели также сравнили результаты PlaNet с десятью активными путешественниками, предлагая им случайные фото из базы Google Street View. Точнее, они попросту использовали ресурс Geoguessr.com. В итоге PlaNet выиграл в 28 раундах из 50, а показатель средней ошибки локализации составил 1131,7 км. У людей данный показатель в среднем был равен 2320,8 км.
Дополняет картину тот факт, что PlaNet занимает около 377 МБ памяти. Несомненно, если такой системе дать больше времени и ещё больше снимков, она в итоге научится определять родину фотографий с гораздо большей точностью.
Источник:
MIT Technology Review