Системы машинного зрения могут распознавать лица на одном уровне с людьми и даже создавать реалистичные искусственные лица. Но исследователи обнаружили, что эти системы не могут распознать оптические иллюзии, а значит, и создать новые.
Зрение человека – удивительный аппарат. Хотя оно развивалось в определённой окружающей среде миллионы лет, оно способно на такие задачи, которые никогда не попадались ранним зрительным системам. Хорошим примером будет чтение, или определение искусственных объектов – машин, самолётов, дорожных знаков, и т.п.
Но у зрительной системы есть хорошо известный набор недостатков, воспринимаемых нами, как оптические иллюзии. Исследователи определили уже много вариантов, в которых эти иллюзии заставляют людей неправильно оценивать цвет, размер, взаимное расположение и движение.
Сами по себе иллюзии интересны тем, что дают представление о природе зрительной системы и восприятия. Поэтому будет очень полезно придумать способ находить новые иллюзии, которые помогут изучить ограничения этой системы.
Концентрические круги?
Здесь нам должно пригодиться глубинное обучение. В последние годы машины научились распознавать объекты и лица на изображениях, а потом создавать похожие изображения. Легко представить, что система машинного зрения должна суметь распознавать иллюзии и создавать свои собственные.
Тут на сцену выходят Роберт Уильямс и Роман Ямпольский из Университета Луисвилля в Кентукки. Эти ребята попробовали провернуть такое дело, но обнаружили, что всё не так просто. Существующие системы машинного обучения не способны выдавать собственные оптические иллюзии – по крайней мере, пока. Почему же?
Сначала общая информация. Недавние подвижки в глубинном обучении основаны на двух прорывах. Первый — доступность мощных нейросетей и парочка программных трюков, позволяющих им хорошо обучаться.
Второй – создание огромных по объёму размеченных баз данных, на базе которых машины способны обучаться. К примеру, чтобы научить машину распознавать лица, требуются десятки тысяч изображений, содержащих чётко размеченные лица. С такой информацией нейросеть может научиться распознавать характерные закономерности лиц – два глаза, нос, рот. Что ещё более впечатляет, пара сетей – т.н. генеративно-состязательная сеть (ГСС) – способны научить друг друга создавать реалистичные и совершенно искусственные изображения лиц.
Уильямс и Ямпольский задумали научить нейросеть определять оптические иллюзии. Вычислительных мощностей достаточно, а подходящих баз данных не хватает. Поэтому их первой задачей стало создание базы данных оптических иллюзий для тренировки.
Это оказалось сложно сделать. «Статических оптических иллюзий существует всего несколько тысяч, а количество уникальных видов иллюзий очень мало – возможно, пара десятков», — говорят они.
А это серьёзное препятствие для современных систем машинного обучения. «Создание модели, способной научиться на таком небольшом и ограниченном наборе данных, станет огромным скачком вперёд для генеративных моделей и понимания зрения человека», — говорят они.
Поэтому Уильямс и Ямпольский собрали базу данных из более чем 6000 изображений оптических иллюзий, и натренировали нейросеть распознавать их. Затем они создали ГСС, которая должна самостоятельно создавать оптические иллюзии.
Результаты их разочаровали. «После семи часов тренировок на Nvidia Tesla K80 ничего ценного создано не было», — говорят исследователи, открывшие базу данных для использования всеми желающими.
Результат, тем не менее, интересный. «Единственные из известных нам оптических иллюзий были созданы эволюцией (к примеру, рисунки глаз на крыльях бабочки) или художниками-людьми», — указывают они. И в обоих случаях люди играли решающую роль в обеспечении обратной связи – люди могут видеть иллюзию.
А системы машинного зрения не могут. «Маловероятно, что ГСС сможет научиться обманывать зрение, не понимая принципов, лежащих в основе иллюзий», — говорят Уильямс и Ямпольский.
Это может оказаться сложной задачей, поскольку между зрительными системами человека и машины есть критически важные различия. Многие исследователи создают нейросети, ещё сильнее напоминающие зрительную систему человека. Возможно, одной из интересных проверок для этих систем будет то, смогут ли они увидеть иллюзию.
А пока Уильямс и Ямпольский не проявляют оптимизма: «Судя по всему, набора данных с иллюзиями может быть недостаточно для создания новых иллюзий», — говорят они. Так что, пока оптические иллюзии остаются бастионом человеческого восприятия, неподвластным машинам.
Автор: Вячеслав Голованов