Георгий Потапов — инженер-исследователь и руководитель проектов, который сейчас работает в Сколковском институте науки и технологий. Он увлеченно занимается стартапом GeoAlert, где их команда разрабатывает нейросети для автоматического картирования по спутниковым снимкам. Как ему в этом помогает OSM, почему компании должны открывать свои данные и когда человек станет не нужен — обо всем этом он рассказал в интервью.
— Когда и как вы познакомились с проектом OpenStreetMap?
— В 2009 году, когда я вместе с коллегами запустил стартап — онлайн-магазин Космоснимки, в котором мы пытались продавать спутниковые снимки. Для сайта и ряда проектов нам нужны были карты. В итоге выбор пал на OpenStreetMap.
Почему именно на него? Во-первых, тогда это был достаточно свежий, динамичный и развивающийся проект, вокруг которого всегда происходило что-то интересное. Многие ныне известные ГИС-инструменты и технологии появились именно в недрах его сообществах. Во-вторых, одно время с нами работали ребята, которые были активными участниками OSM и неплохо в нем разбирались.
— Вы сами картируете в OSM?
— Нет, но я и раньше особо этим не занимался. В ознакомительных целях, конечно, вносил какие-то правки в OSM. По природе я очень ленив, моего запала хватало только на то, чтобы нарисовать всего несколько домиков. Скорее, я — профессиональный потребитель данных OSM. В настоящее время в компании GeoAlert, в одном из проектов, мы делаем из них наборы данных для машинного обучения, но, при этом, я — ответственный и благодарный потребитель данных.
Напомню, в свое время Космоснимки предоставили для OSM ряд спутниковых снимков России и смежных стран совершенно бесплатно. Как мне кажется, тогда это помогло российскому сообществу OSM, потому что никакой другой альтернативы такого же качества у него не было.
— Почему вы решили поделиться с OSM спутниковыми снимками?
— Причин было несколько. Первая — мы сами использовали OSM в своей работе и нам хотелось, чтобы он был точнее и полнее.
Вторая — к нам поступало достаточно много обращений от различных пользователей с просьбами поделиться спутниковыми снимками, в том числе и от сообщества OSM. Поначалу нам такие письма казались самонадеянными, но потом мы поняли, что нам пишут волонтеры, которые рисуют карту совершенно бесплатно и никак на этом не зарабатывают.
Третья — прозаичная. Нужно понимать, что для нас Космоснимки — это был все-таки бизнес-проект, то есть мы хотели заработать на продаже спутниковых снимков. Как бы это печально ни звучало, но мы поделились с OSM тем, что не могли продать — снимки с разрешением 6 метров на пиксель. Сейчас это смешно звучит, но тогда у OSM для отрисовки был доступен только спутниковый снимок Landsat, качество у которого было в два с лишним раза хуже — 15 метров на пиксель.
— Каким тогда был OSM? Какой он сейчас?
— Как я уже говорил, десять лет назад OSM задавал тренды в мире геоинформатики и определял направления развития рынка ГИС, потому что все новое появлялось именно в его сообществе. Однако, предполагаю, что это было связано и с тем, что тогда, в целом, рынок картографии и навигации активно рос. Поэтому, ко всему тому, что происходило в мире OSM, было приковано внимание многих людей.
Сейчас этот рынок стабилизировался, на нем нет бурных взрывов и волн. Как мне кажется, подобные процессы происходят и в самом OSM, который уже перестал быть технологическим законодателем. Инициатива перешла к крупным компаниям, которые научились на нем зарабатывать, таким как Mapbox. Теперь OSM — в первую очередь, база данных. Возможно, ради этого все и затевалось.
— Как бы вы оценили эту базу данных?
— Всё зависит от конкретной ситуации и вашей задачи. Если вы ищите карту для небольшого или, наоборот, глобального проекта или изучаете ГИС, то OSM идеально подходит для этого, потому что он бесплатен. Если же вам необходима невероятная точность и критична полнота данных, стоит посмотреть в сторону платных провайдеров. В самом OSM, конечно, достаточно много различной информации, только она не лежит на поверхности. Для того, чтобы ее заполучить, придется повозиться: изучить теги, почитать документацию — одним словом, потратить время. К тому же, данные в OSM неравномерно распределены по территориям. Один город может быть хорошо отрисован, а другой — плохо.
— Насколько знаю, вы в свое время ратовали за то, чтобы органы власти в России активнее использовали OSM в своей работе. Можете рассказать подробнее об этом?
— Несколько раз предлагал МЧС обратить внимание на OSM и на опыт гуманитарной команды OSM (HOTOSM), которая занимается ситуационным картографированием во время чрезвычайных ситуаций. К сожалению, никаких успехов в этом деле не достиг.
— Как вы думаете, с чем это связано?
— Власти России, в целом, достаточно закрыты, а потому любое предложение о сотрудничестве со стороны граждан воспринимают с подозрением. Если же говорить про МЧС, то это не до конца гражданское ведомство. Вернее, скажем так, они тяготеют к силовым структурам, а потому и отношение такое — закрытое. Мы пытались наладить с ними контакт, делиться данными, помочь разобраться с OSM, но это не нашло должного отклика. Хотя известно, что МЧС так или иначе, неофициально, использует OSM в своей работе, потому что те ГИС, которыми они должны пользоваться по закону, не самого лучшего качества.
— В мире картографии новый тренд — автоматическое распознавание объектов на спутниковых снимках. Почему это сейчас стало таким модным? Многие стали этим заниматься.
— Это стало массовым и популярным за счет доступности и дешевизны вычислительных ресурсов, а также появления новых архитектур нейронных сетей, с которыми могут справиться большинство разработчиков. Кстати, как я уже говорил, одним из источников данных для обучения подобных нейросетевых моделей для распознавания объектов на данных дистанционного зондирования, является карта — и как раз OSM, который в свою очередь бесплатен, представляет собой такой источник, и доступный абсолютно любому.
— Насколько сейчас это автоматический процесс? Или все-таки пока еще нужен человек?
— Пока еще технологии не достигли такого уровня, чтобы на выходе сразу получалась хорошая и точная карта. Все-таки пока человек необходим, он является последним звеном в цепочке создания данных — принимает окончательное решение: верно распознан объект или нет. Подобная схема, например, реализована в экспериментальном проекте Facebook, который не так давно разработал свой собственный онлайн-редактор с нейросетью — RapiD. Но даже в таком случае, когда есть валидационный этап, это уже позволяет в несколько раз ускорить работу картографа. Однако не так далек тот день, когда машина сравнится по качеству с человеком и даже его обгонит в рутинной работе. Ведь она не может устать или быть невнимательной, в отличие от человека.
Прошлым летом, если помните, в Иркутской области случилось наводнение. Наша компания оперативно по свежим спутниковым снимкам нагенерировала данных по этому региону (они выложены в свободном доступе на GitHub). Зачем мы это сделали? Хотели помочь МЧС в составлении карты бедствия, так как, предположили, что у них нет таких данных, а в OSM на ту территорию было пусто. Спустя полгода мы запустили проект по оцифровке зданий на всю территорию России, повторно обработали Иркутскую область, сравнили результаты и подтвердили улучшение качества работы алгоритмов.
— Готова ли ваша компания поделиться автоматическими данными с OSM?
— Готова, мы как раз думаем о том, как это правильно сделать с юридической точки зрения. Вполне возможно, что для OSM мы изготовим отдельный набор данных, который будет совместим с его лицензией. Пока, к сожалению, не могу раскрыть больше деталей. Главное, что мы заинтересованы в этом, так как сами активно используем OSM.
— Перед самым Новым годом была новость, что вы масштабно опробовали свой алгоритм — распознавали объекты по спутниковым снимкам на территории России. Можете поделиться результатами этой работы?
— Наша нейросеть обнаружила на территории страны 54,5 млн объектов, которые она классифицировала как здание. При этом в России в OSM внесено всего 18 млн зданий. Уже сейчас разница — в 3 раза. Вполне возможно, что она еще больше.
Похожая ситуация и в США. Нейросеть Microsoft обнаружила 125 млн зданий, когда в OSM их 33 млн. Поэтому у таких нейросетей большое будущее в картографии.
Cоотношение количества распознанных нейросетью зданий к закартированным в OSM
— Каким образом планируете использовать результаты своей работы — распознанные объекты? Что с ними можно сделать, кроме как нанести на карту?
— У нас есть открытый проект на GitHub, куда мы постепенно выкладываем наборы данных, которые сгенерировали автоматически. После того, как мы обнаружили объект, следующая задача — валидация и наполнение, потому что чисто контуры здания в наше время мало кому нужны. Делаем мы это все также с помощью различных открытых источников, например, OSM и Реформы ЖКХ. Если оказывается, что сгенерированный нами объект содержится в OSM, то мы заменяем его данными из OSM.
Сами же мы планируем использовать их для создания приложения, которое может пригодиться для территориального планирования и управления. Грубо говоря, это будет такой сервис, с помощью которого можно будет проследить динамику строительства на территории всей страны или конкретного региона на протяжении нескольких лет, получить более полную статистику, чем есть в официальных отчетах. Это одни из примеров применения таких данных.
— Ваша система как-то классифицирует распознанные объекты? Или выдает только контуры здания?
— Пока только в упрощенном виде. Мы научились качественно отделять жилую застройку от нежилой, и многоэтажную от частной. На сайте есть демонстрационная версия, в которой любой может убедиться в этом сам, запустив обработку по интересующей его территории. Но уже сейчас мы работаем над более развернутой классификацией по типам застройки и постобработкой, также надеемся, что в этом году добавим алгоритмы детектирования и классификации дорожной сети. Помимо этого, в работе ряд алгоритмов по распознаванию растительности, в основном лесной, но пока главный приоритет — застройка.
— Чтобы вы сказали другим предпринимателям и правообладателям в ответ на вопрос: «Почему и зачем нужно открывать свои данные для OSM?»?
— Я могу лишь поделиться свой личной историей. Несмотря на то, что я много лет занимаются разработкой геосервисов, я не настолько богат, чтобы содержать собственное картографическое производство или покупать абсолютно все данные. И в нашей прошлой компании, и в нынешней, мы использовали и продолжаем использовать OSM в качестве картографической базы данных. Поэтому мне важно, чтобы он развивался и дальше. Сейчас даже крупные компании обратили внимание на OSM и стараются принимать участие в его судьбе, например, Facebook и Microsoft.
Если вы берете какие-то данные из OSM, то подумайте о том, как сделать его лучше. Зачем? Чтобы существовала конкуренция, чтобы в тот день, когда вам понадобятся какие-то данные, вы их смогли свободно взять из OSM и использовать в своем бизнесе. Особенно это важно для небольших независимых компаний.
Если мы не будем делать открытые информационные проекты, то мы упустим очень важные конкурентные преимущества. Это сродни боязни публичных выступлений. Эту боязнь нужно в какой-то момент преодолеть и начать выкладывать что-то в открытый доступ. И тем более это необходимо сделать, если не хочешь стать жертвой крупного корпоративного бизнеса. Хочется, чтобы мелкие независимые игроки все-таки еще оставались на нашем рынке.
— Зачем крупным компаниям OSM?
— Могу предположить, что Facebook достиг определенного предела насыщения в развитых странах, а в развивающихся странах, чтобы правильно сформировать стратегию продвижения, ему не хватает различных базовых данных, в том числе и пространственных, поэтому он их берет оттуда, где они есть — из OSM. Почему они не делают свою собственную карту, как Apple или Google? Не знаю. Но пока этот альтернативный путь выглядит благородно — они не только берут данные, но и вносят свой вклад в OSM. К слову, не они одни так поступают. Все больше компаний проявляют сознательность и в итоге делятся данными с OSM.
— Что скажете в завершении беседы?
— OSM — это огромный некоммерческий проект, который объединяет в себе много различных направлений, как технологических, так и социальных. И для меня это один из проектов, где я ощущаю себя частью истории и сообщества. Пусть даже самой маленькой его частью. Но это ощущение сохраняется на протяжении длительного времени. К тому же, этот проект познакомил меня со многими людьми, с которыми я до сих пор не только общаюсь, но и дружу. Такие эмоции и человеческие связи может подарить только opensource-проект. Поэтому не только Facebook, как он заявляет, связывает людей, но и вот такие вот открытые креативные проекты, в которых люди совместно что-то создают. Это еще один аргумент в пользу того, что в такие проекты стоит вкладываться.
Общение российских участников OpenStreetMap идёт в чатике Telegram и на форуме.
Также есть группы в социальных сетях ВКонтакте, Facebook, но в них, в основном, публикуются новости.
Предыдущие интервью: Владимир Маршинин, Евгений Усвицкий, wowik, SviMik, Кирилл Бондаренко, Артем Светлов, Сергей Синицын, Наталья Козловская, Виктор Вяличкин, Иван aka BANO.notIT, Антон Беличков, Елена Балашова, Илья Зверев, Тимофей Субботин, Сергей Голубев.
Автор: Sildream