Компания Google официально признала, что её подрядчики систематически прослушивают аудиофайлы, записанные умными колонками Google Home и приложением для смартфонов Google Assistant.
Первые сообщения об этом появились бельгийской прессе. Журналисты издания VRT NWS прослушали более тысячи записей, а значительная часть из них сделана случайно, то есть без команды пользователя.
С момента начала продаж в 2016 году по всему миру проданы миллионы умных колонок Google Home. Они позволяют общаться с компьютером голосом, задавая ему всевозможные вопросы, которые начинаются с фразы «Окей, Google» — и получая ответы. Так же работает приложение Google Assistant на смартфоне, которое похоже на голосового ассистента Siri от Apple.
Однако не каждый пользователь знает, что все произнесённые фразы после кодовых слов «Окей, Google» записываются и сохраняются. Но это чётко указано в условиях пользования Google. Хотя люди подписываются под такими условиями не читая, они уж точно не знают, что сотрудники Google прослушивают отрывки из этих записей. Собственно, это и не упоминается в условиях пользования.
Сотрудникам VRT NWS удалось раздобыть и прослушать более тысячи отрывков, записанных с помощью Google Assistant. В этих записях отчётливо слышны адреса и другая конфиденциальная информация. Это позволило легко найти владельцев колонок и дать им прослушать файлы. Люди с удивлением узнали на записях свои голоса.
Репортаж с фрагментами аудиозаписей
Журналисты говорят, что начали разбираться с этим делом после недавнего скандала с Amazon, когда выяснилось, что аудиозаписи с голосами пользователей передаются подрядчикам для распознавания с целью дальнейшего улучшения систем распознавания речи. После того дела им удалось связаться с источником, который работает на субподрядчика Google. Он позволил взглянуть на систему, которая собирает аудио через Google Assistant. Оказывается, тысячи сотрудников по всему миру используют эту систему для прослушивания аудиоматериалов. В Нидерландах и Фландрии (область на территории Франции, Бельгии и Нидерландов, население которой говорит преимущественно на голландском языке) около десятка человек слушают голландские записи, сообщает издание.
Почему Google хранит эти записи и зачем их слушают сотрудники? На самом деле их интересует не содержание разговоров, а лингвистические особенности произношения. Это специально нанятые Google эксперты (носители языка), которые выполняют лингвистическую работу. Компьютерная система Google включает в себя самообучающиеся алгоритмы, которым необходима помощь, чтобы разобрать тонкие различия и особенности голландского языка.
«Иногда поисковая система Google испытывает трудности с анализом определённой речевой команды. Когда такое происходит, они передают эту команду в онлайновый инструмент Google Crowdsource, — пишет VRT NWS. —Кстати, если вы хотите помочь Google в распознавании изображений и выражений лица, все могут бесплатно использовать этот инструмент». Издание получило независимые подтверждения от трёх источников, что в Google работа организована именно так.
В общедоступной бесплатной утилите нет аудиозаписей. Google передаёт задачу по их транскрибированию сторонним специалистам. Они авторизуются в специальной защищённом разделе. Там они видят список аудиофрагментов, которые нужно проанализировать.
Сотрудники должны дважды проверить каждый аудиофрагмент и подробно описать его в программе: голос женский, мужской или детский? Что конкретно он говорит? Они записывают каждый кашель и указывают каждую паузу. Затем описания используются для обучения система распознавания речи Google, что приводит к лучшей реакции на команды. То есть в конечном итоге это делается для всеобщего блага.
После публикации отчёта VRT NWS компания Google признала, что работает с лингвистами по всему миру, чтобы улучшить свои речевые технологии. «Это происходит путём расшифровок небольшого количества аудиофайлов, — сказал представитель Google в Бельгии. Он добавил, что «эта работа имеет решающее значение для разработки технологий, лежащих в основе таких продуктов, как Google Assistant». Google заявляет, что лингвисты оценивают только «около 0,2% всех аудиофрагментов», они не связаны с какой-либо личной или идентифицируемой информацией.
Теоретически, записи анонимизированы. В файлах нигде не указаны имена людей или их адреса. Google заменяет имена анонимными серийными номерами. Но в реальности восстановить эту информацию очень легко: достаточно просто внимательно слушать, всё это произносится в записях.
Google Home Mini, Google Home и Google Home Max
Более того, когда сотрудники не уверены, как именно пишется адрес, фамилия или название компании, они должны искать эту информацию в Google или Facebook. Таким образом, часто они вскоре обнаруживают личность говорящего.
«[Транскрибирование] является важной частью процесса создания речевой технологии, — написал в блоге Дэвид Монсес (David Monsees), менеджер по продуктам подразделения поисковых технологий в Google. — Мы только что узнали, что один из сотрудников, выполняющих эту лингвистическую работу, нарушил нашу политику безопасности данных, допустив утечку конфиденциальных аудиоданных на голландском языке. Наши группы безопасности и конфиденциальности уведомлены об этой проблеме, будет проведено расследование и приняты меры. Мы проводим полный пересмотр мер безопасности, чтобы предотвратить повторение подобных проступков».
Случайные записи
VRT NWS пишет, что они прослушали более тысячи отрывков, из них 153 фрагмента явно были записаны непреднамеренно, без чёткой команды «Окей, Google». Просто если кто угодно издаёт звук, напоминающий «Окей, Google», колонка начинает записывать. Ошибка также может произойти, если пользователь случайно нажимает неправильную кнопку на смартфоне.
Сами сотрудники, которые прослушивают конфиденциальные записи пользователей, тоже сталкиваются с трудными ситуациями. Один из них сказал VRT NWS, что однажды ему для транскрибирования попалась запись, на которой можно было распознать насилие против женщины, она кричала. Что ему нужно было делать в такой ситуации? Google не даёт чётких инструкций в отношении таких случаев, хотя это серьёзный этический вопрос. Сотрудникам дали только конкретные указания по номерам счетов и паролей: они не транскрибируются, а помечаются как «конфиденциальная информация».
Архив приватных разговоров, записанных через умные колонки, выявил много интересного, пишет VRT NWS: «Записи также поразительно подтверждают одно из правил интернета: мужчины много ищут порно, даже через умные колонки».
В записи и хранении конфиденциальных аудиозаписей обвиняют не только Google. Недавно выяснилось, что колонка Amazon Echo с голосовым помощником Alexa тоже хранит аудиозаписи до тех пор, пока пользователь не удалит их вручную, а некоторые текстовые расшифровки никогда не удаляются.
Ни Amazon, ни Google не уведомляют пользователей о том, как конкретно используются их аудиозаписи и о том, что для прослушивания приглашаются субподрядчики. Но если покупатель подписал условия использования и добровольно установил в свой дом устройство с постоянным сетевым подключением, облачным хранением данных и под управлением «ИИ», то ничего удивительного здесь нет.
На форумах некоторые комментаторы выражают удивление лишь тем, как в Google организовано хранение аудиозаписей, если подрядчику удалось «слить» более тысячи файлов.
Автор: alizar