Осенью 2020 года фрилансеры в Венесуэле разместили серию изображений на онлайн-форумах, где они общались, обсуждая свои рабочие дела. На фотографиях были запечатлены домашние сцены, в том числе довольно интимные, снятые с низких ракурсов. На одном особенно показательном кадре молодая женщина в бледно-лиловой футболке сидела на унитазе с шортами спущенными до середины бедра.
Все эти изображения были сделаны не скрытой камерой и не человеком, ворвавшимся в чей-то дом. Они принадлежали одной из версий робота-пылесоса iRobot Roomba серии J7. Оказалось, что фотографии от пылесоса автоматически отправляются в стартап Scale AI, который нанимает сотрудников из бедных стран для маркировки аудио-, фото- и видеоданных, используемых для обучения искусственного интеллекта. А потом эти сотрудники при желании делятся этими данными друг с другом (и со всем Интернетом).
Всего в MIT Technology Review получили 15 таких снимков. Все они — частные, из обычной жизни людей: играющие на полу дети, кухни, спальные комнаты, ванные и туалеты. Самой приватной была та серия кадров с молодой женщиной на унитазе. Ее лицо было скрыто на главном изображении, но не было скрыто на третьем снимке из прокрутки кадров ниже. На другой серии снимков было видно мальчика восьми-девяти лет, растянувшегося на животе на полу в коридоре. Он с явным удовольствием смотрит на объект, записывающий его чуть ниже уровня глаз.
Из других снимков можно узнать, как живут люди во многих домах по всему миру. Мебель, декор и предметы, расположенные высоко на стенах и потолках, часто обведены прямоугольниками и снабжены надписями вроде «телевизор», «растение», «книга» или «светильник».
iRobot — крупнейший в мире поставщик роботов-пылесосов, которого недавно купила Amazon за $1,7 млрд, — подтвердил MIT, что эти изображения были сделаны их роботами Roomba в 2020 году. Как говорит компания, «они были переданы партнерам, которые подписали письменные соглашения, подтверждающие, что данные никогда не будут разглашены».
По словам iRobot, эти устройства при покупке всегда помечены ярко-зеленой наклейкой с надписью «Может производить видеозапись». А конкретно эти новые модели выдавались платным сборщикам данных, чтобы протестировать систему ИИ. Эти люди по контракту должны были «удалить все, что они считают конфиденциальным (включая детей), из любого пространства, в котором работает робот». То есть, по оценке iRobot, любой, чьи фото или видео появлялись в стримах, соглашался на то, чтобы их роботы-пылесосы их снимали.
Конечно, звучит успокаивающе. Если мы не подпишем такой контракт, наши данные в Сеть утекать не будут! Но на деле потребители регулярно соглашаются на отслеживание своих данных на различных устройствах, от айфонов до стиральных машин. Мало кто разбирается в политиках конфиденциальности и вчитывается во все расплывчатые формулировки (будем честны, я такое последний раз делал лет 10 назад). Достаточно поставить галочку напротив нужной формы. А потом, оказывается, ваше голое тело, фотографии ваших детей и интерьеры вашей квартиры будут обсуждаться на форумах в Венесуэле или на Филиппинах.
ИИ, требующие большие объемы фото- и видеоданных, появляются во всё новых бытовых товарах. Чаще всего в них заложены модели машинного обучения, анализирующие наши голоса, лица, интерьеры и другую личную информацию, чтобы улучшать работу устройства. Роботы-пылесосы начинают эффективнее двигаться по комнатам, очки Oculus — точнее понимать, в каком положении сейчас находится ваша голова. Но личная приватность при этом, оказывается, страдает сильнее, чем многие подозревали. Как минимум, мало кто думает, что «ИИ» в итоге отсылает сделанные фото реальным людям на обработку.
Не спрятаться, не скрыться
Если подумать, роботы-пылесосы — идеальные шпионы и сборщики секретных данных. Они могут разъезжать по твоему дому, и у тебя нет возможности это контролировать. И они снимают даже то, что может быть не видно человеческому глазу. Особенно это касается продвинутых устройств с передовыми камерами и искусственным интеллектом, таких как Roomba J7.
Мы буквально относимся к машинам по-другому, чем к людям. Психологически гораздо проще находиться рядом с симпатичным маленьким роботом. Он может заезжать к вам в туалет или фотографировать ваших детей. Мы не ощущаем его как кого-то, кто ходит по вашему дому с камерой. Хотя именно это и происходит. Данные из робота транслируются на облачное хранилище, а потом идут в компанию изготовителя для анализа.
После этого информация обрабатывается и используется для улучшения работы пылесосов, а также для создания куда более умных роботов, которые однажды смогут взять на себя вообще все ваши домашние дела.
Хотя и сейчас просто «пылесосами» назвать такие девайсы уже язык не поворачивается. Новейшими роботами Roomba можно управлять голосом через Google Nest и Amazon Alexa, и они распознают более 80 отдельных домашних предметов.
Но чтобы они ещё точнее понимали, что находится вокруг них, нужно сделать наборы данных, приходящие на серверы, понятными и полезными для машинного обучения. А для этого какие-то люди должны сначала просмотреть, классифицировать, пометить и добавить контекст к каждому биту данных. Этот процесс называется «аннотацией данных».
А в конце этого процесса всегда где-то сидит группа людей — обычно в комнате без окон, — которые просто наводят и щелкают мышкой по деталям картинки «Да, это объект» или «Нет, это не объект». И они, будьте уверены, очень пристально изучают изображения, которые получают компании с камер в вашем доме.
Избавиться от такой процедуры на данном этапе нельзя. Есть очень много нестандартной мебели, разных странных предметов в домах. Нельзя предсказать всё, с чем встретятся роботы. Безопасный ли это объект, можно ли по нему проехать? Или это вообще пыль, которую нужно убрать? Часто встречаются носки, брошенные трусы, какие-то кабели. Но даже кабели могут выглядеть по-разному в Европе, в США и в Китае! Поэтому какой-то человек в итоге должен смотреть на реальные фото, чтобы тренировать систему.
15 фото, которые раскопали MIT Technology Review, — это всего лишь крошечная доля масштабной, многомиллиардной экосистемы внешней обработки данных. Никто не делает такое внутри фирм: на это просто нет ресурсов и времени. iRobot открыто заявила Wall Street Journal, что она поделилась 2 миллионами своих изображений со Scale AI и еще десятком других платформ аннотирования данных. В данном случае утечка произошла от нескольких фрилансеров, работавших со Scale AI.
Этот набор изображений — лишь малая толика того, что на самом деле просматривается каждый день. И проблема здесь не только в отдельной компании или отдельном девайсе. Всё шире распространяется и развивается практика обмена потенциально конфиденциальными данными — для более быстрого обучения алгоритмов. В итоге снимки совершают удивительное путешествие по всему миру. Например, как в данном случае, из частных домов в Северной Америке, Европе и Азии — на серверы iRobot в Массачусетсе, потом в Scale AI в Сан-Франциско и, наконец, к «специалистам по аннотации данных» из разных стран третьего мира. А уже от них — на компьютеры вообще любых пользователей, состоящих в нужных частных группах в соцсетях, в Discord и в Telegram.
Эти изображения раскрывают всю цепочку распространения данных — и разные точки, через которые может просачиваться личная информация. Точки, о существовании которых даже не подозревают многие потребители.
Кто увидит ваши фото
Для обработки огромных объемов данных, требуемых для обучения различных алгоритмов, нужна рабочая сила, и в большом количестве. Поэтому сейчас активно развивается сфера аннотации данных. Ожидается, что к 2030 году рыночная стоимость аннотаций данных достигнет 13,3 млрд долларов.
В основном эта область получила развитие из-за необходимости в обучении разных ИИ, используемых в беспилотных транспортных средствах. Десятки компаний пытаются выпустить свои полностью автономные робомобили: Tesla, Waymo, Ford, Uber, Volkswagen, GM Cruise и другие. И все они нуждаются в людях, которые подсказали бы роботам, где пешеход, где его тень, где твердый отбойник, где цветочная клумба, а где кусок мусора на асфальте.
Чаще всего «специалисты по маркировке данных» являются просто низкооплачиваемыми наемными работниками из самых бедных стран. И именно на них сейчас держатся сервисы и продукты, которые мы считаем «автоматизированными». В том числе в Интернете. Они удаляют запрещенный контент из социальных сетей, вручную классифицируя и помечая сообщения; улучшают ПО для распознавания голоса, расшифровывая низкокачественный звук. Ну и, конечно, помогают роботам-пылесосам распознавать окружающие предметы, помечая их в фотографиях и видео.
Полезно знать, что такие люди существуют и что «полностью анонимного» ИИ, который ещё и хорошо бы работал, в мире пока нет. Сотрудники часто работают на фрилансе или на коротких контрактах, заставить всех молчать — нереально. Как минимум, они постоянно общаются друг с другом в группах в соцсетях, обсуждая задержку платежей, делясь советами, рассказывая о самых высокооплачиваемых заданиях или запрашивая помощь в маркировке сложных объектов.
В этом случае с роботом, сфотографировавшим женщину в туалете, «специалист по маркировке данных» на самом деле не пытался никого обидеть. Он даже по собственной инициативе попытался сохранить ее конфиденциальность, нанеся на её лицо черный круг. Правда, ни на каких других изображениях личности не были скрыты — ни самими маркировщиками данных, ни встроенным в пылесос ИИ, ни серверами iRobot, ни компанией-обработчиком данных Scale AI. В данном случае этот человек был единственным, кто хоть как-то подумал о приватности тайно заснятых людей.
Автор:
virtual_explorer