В результате абсурдного скандала, связанного с чернокожими, сервис Google Photo больше не поддерживает запросы «горилла», «шимпанзе» и «макака». Что это — тонкий троллинг или несовершенство машинных алгоритмов обучения?
С чего все началось
В 2015 году чернокожий разработчик программного обеспечения смутил Google, заявив, что сервис фотографий Google Photo пометил его снимок с чернокожим другом как «фотография горилл». Google немедленно принес свои извинения, а программист, который к тому времени уже стал публичным «лицом» движения за чистку подобных недоразумений заявил, что метка «горилла» больше не будет применяться к групповым фотоснимкам, и что Google работает над «прочими долгосрочными фиксами».
@jackyalcine We’re also working on longer-term fixes around both linguistics (words to be careful about in photos of people [lang-dependent]
— (((Yonatan Zunger))) (@yonatanzunger) 29 июня 2015 г.
Спустя два года результатом этих правок стало то, что гориллы и некоторые другие приматы… исчезли из внутреннего лексикона службы. Это весьма неловкое и топорное решение — хорошая иллюстрация того, с какими трудностями приходится сталкиваться огромным корпорациям, когда дело заходит об обработке миллионов снимков каждый день. В настоящее время многие крупные фирмы продвигают технологии распознавания изображений, которые надеются использовать для ПО автопилотов, персональных помощников и других аналогичных систем.
Как алгоритмы машинного обучения работают с запросами
Портал WIRED проверил Google Фото, использовав подборку из 40 000 фотографий, среди которых было множество самых разнообразных животных. Результаты оказались впечатляющими, программа и в самом деле распознает всех, даже редких существ. Но вот по запросам «горилла», «шимпанзе» и «макака» система ответила коротко — «ничего не найдено». Напомним, что сервис Google Photos, существующий в формате мобильного приложения и веб-сайта, предоставляет 500 миллионам пользователей место для хранения и сортировки персональных снимков. Он использует технологию машинного обучения для автоматической группировки фотографий с похожим контентом. Такая же технология позволяет пользователям составлять и обмениваться своими личными коллекциями.
«Результат не найден»
Неприязнь Google к приматам оказалась очень избирательной. К примеру, «бабуины», «гиббоны», «мармазетки» и «орангутаны» находятся без проблем. Капуцины тоже попадают в фокус, но лишь до тех пор, пока пользователь не использует «запретное слово» на букву М.
WIRED решил провести еще несколько тестов и загрузил 20 фотографий шимпанзе и горилл, полученных из некоммерческих организаций Chimp Haven и Института Диан Фосси. Некоторые из обезьян были найдены с использованием поисковых терминов «лес», «джунгли» или «зоопарк», но остальная часть оказалась труднодоступной. Для третьего испытания программы портал составил подборку из 10 000 фотографий, используемых для распознавания лиц. Результаты оказались весьма забавными: на запрос «афроамериканец» система выдала лишь фото пасущейся антилопы. Запросы «черная женщина», «черный мужчина» и «черный человек» привели к тому, что Google выдал черно-белые снимки людей, корректно отсортированных по полу, но совершенно не разделенных по расе. Единственными подходящими запросами, по которым и в самом деле можно было найти людей с темной кожей, стали «афро» и «африканцы», хотя и здесь результаты были неоднозначными.
Представитель Google подтвердил, что после инцидента 2015 года «горилла» была подвергнута цензуре в системах поиска и тегирования изображений, а на сегодня такой же блокировке подверглись «шимпанзе», «макака» и «обезьяна». «Технология пометки изображений еще совсем молодая, и, к сожалению, она не идеальна», написал пресс-секретарь компании. Подобная осторожность лишний раз подчеркивает то, как несовершенны существующие системы машинного обучения. С достаточным количеством данных и вычислительной мощности они могут быть обучены распознавать фото или имитировать речь с высокой точностью — но это, похоже, предел на сегодняшний день. Даже самые совершенные алгоритмы не могут использовать здравый смысл или оперировать абстрактными понятиями, чтобы улучшить свое восприятие информации и сделать его более похожим на человеческое.
Настоящее и будущее самообучающихся систем
Висенте Ордоньес Роман (Vicente Ordóñez Román), профессор Университета Вирджинии, в прошлом году внес свой вклад в разработку алгоритмов машинного обучения. Оказалось, что они могут не только перенять, но даже усилить предвзятые взгляды на гендерные роли, если обучать их на примерах живых людей. «Очень сложно смоделировать и предугадать все, с чем системе придется столкнуться на практике», поясняет он. Вместе с коллегой Байшахи Рэем (Baishakhi Ray), экспертом в области безопасности программного обеспечения, Роман исследует способы сдерживания возможного поведения систем распознавания изображения, используемых в таких технологиях, как например автомобили с автопилотом. Рэй говорит, что определенный прогресс был достигнут, но пока неясно, насколько можно управлять ограничениями таких систем. «Мы до сих пор в деталях не можем понять логику этих моделей машинного обучения», говорит она.