Если вы когда-нибудь слышали фразу "дьявол в деталях", вы понимаете, что условная Лада Гранта от условного Мерседеса отличается не более, чем на несколько процентов. Фактически обе машины ездят и возят своих пассажиров - это и есть главная их функция. Но внимание к мелочам и продуманный пользовательский опыт (UX) это и есть те самые несколько процентов, которые так разительно влияют на наше восприятие продукта.
Попробуем применить этот угол зрения к умным колонкам и голосовым ассистентам. И попытаемся понять, почему же все они пока ещё Гранты. И чего именно им не хватает до Мерседесов.
Расммотрим несколько наиболее очевидных аспектов. Я буду говорить об Алисе в Яндекс Станции, как наиболее яркой и продвинутой представительнице. У остальных дела сильно хуже, поэтому будем смотреть на флагмана.
Требование наличия интернета
Само по себе это требование не является чем-то критическим для большинства. Мы привыкли жить в эпоху общедоступного интернета и факт его отсутствия у современного горожанина вызывает дискомфорт сам по себе.
Но кроме городских квартир еще существуют загородные дома, дачи, пожилые родственники, а у некоторых горожан существуют провайдеры, которые могут часами чинить мелкие сбои, которые случаются по 10 раз в неделю. Возможность работать в таких условиях - это те самые несколько процентов, которые отличают Мерседес от Лады.
Привязка к сторонним сервисам
С этим уже хуже. Если отсутствие интернета можно решить его проведением, то отсутствие облачных сервисов нет. Я желаю всяческих удач и процветания всем бизнесам (без шуток), но что случится с моей Алисой если условный Яндекс через пару лет посчитает, что подписки больше не окупают стоимость поддержки сервиса и решит закрыть этот проект и потушить свои облачные сервера, от которых она зависит? Они мне не клялись держать их вечно включенными, да и вообще в наши непростые времена можно ожидать чего угодно. Условный Apple Home Pod еще может что-то сделать в офлайне, умным домом там поуправлять или быть просто колонкой для стриминга с других устройств, то Я Станция тупеет до состояния кирпича. Опять те самые несколько процентов UX.
Гнилая система подписок и отсутствие локального хранилища
Подовляющее большинство "умных" комерческих колонок (если не все) умны ровно до тех пор, пока вы платите за подписку. Перестали? Больше ни послушать музыку, ни фильм посмотреть. Даже если вы их купили и они у вас скачаны вот на соседнем компьютере или на внешнем диске / флешке.
У пользователя нет возможности "закачать" в свою умную колонку свою любимую коллекцию mp3, которую он бережно хранит на диске уже 20 лет, оцифровав свои старые записи. У него нет возможности закачать в нее свои фильмы и сказать "Играй!".
Конечно и музыка, и фильмы легальные! Видео отпуска, оцифрованные старые кинопленки из семейного архива. Или рип своего собственного DVD, который честно купил когда-то.
Доходит до абсурда, чтобы послушать какую-нибудь книгу, авторские права на которую уже давно находятся в публичном домене, Алиса потребует от вас дополнительной подписки на какой-нибудь стриминговый сервис. Хотя вот оно: первая же ссылка в том же яндексе по ключевым словам "Автор+НазваниеПроизведения+текст". Накой фиг мне чья-то читка за деньги, если есть прекрасная TTS модель Яндекса? Не осилили? У вас там продакт менеджер вообще есть?
Техническое отставание / недооценивание возможностей on-edge computing
Програмное обеспечение рвануло далеко вперед и теперь можно крутить распознавание и синтез голоса на достаточно слабых железках в достаточно хорошем качестве. Да, инженеры Яндекса проделали крутую работу и их TTS (text-to-speech) и STT (speech-to-text) воистину прекрасны. Но какой в них смысл, если нет запасного варианта на случай отсутствия интернета или недоступности своего облака? Или в случае какого-то личного локального контента, который я не хочу, чтобы посылался на сервера яндекса для синтеза, типа моих личных документов, писем из других почтовых ящиков (не яндекс) и рабочих записей?
Вопросы приватности
Продолжая предыдущюю мысль, вы никогда не будете знать наверняка, как используется вся информация о вас, которую вы добровольно сливаете через своего голосового ассистента в материнскую компанию. И любые попытки убедить вас в обратном, есть не более чем "их слово против вашего слова".
И нет, я не параноик. И я не нарушаю закон. Но я не хочу, чтобы какой-нибудь из обозлившихся сотрудников, которого уволят, перед уходом слил в открытый доступ информацию о том, что спрашивали умную колонку в моем доме за последние Х лет. И да, представители компании будут меня уверять, что они ничего не хранят, а если и хранят то все мега-надежно. У меня не будет возможности это проверить до тех пор, пока такого слива не случится. И вообще, меня несколько коробит уже от одного факта того, что эта информация может быть у кого-то и у меня даже нет возможноси запросить ее удаление.
Закрытая инфраструктура и vendor-lock-in
Что делать, если вам не хватает возможностей вашей умной колонки и вы хотите научить ее чему-то новому? Я не говорю о простых примерах, чтобы она откликалась не на один wake word (Яндекс / Алиса), а на другой, хотя фейл уже тут. Я говорю о чем-то более существенном - например, чтобы колонка могла сделать что-то, чего раньше не умела.
Да, производители предлагают такую возможность. Но если вы хоть раз с этим сталкивались, у вас будет много вопросов к тому, как именно вам предстоит реализовывать эти самые дополнительные возможности, ака навыки. И как именно потом эти ваши навыки надо будет вызывать голосом. И разработать навык это еще пол дела. Его еще могут не пропустить.
Посредственные навыки
И у Гранты, и Мерседеса есть и педали, и руль. Но у Мерседеса он еще и с подогревом.
Да, я слышал, что 90% пользователей просят свою колонку только музыку послушать да таймер поставить. Но это не потому, что пользователи тупые, а потому что колонка ничего особо больше не умеет. Или навык номинально есть, но реализон на "отъ..сь".
Но мы же говорим о программном обеспечении. Задачи тут решаются сильно проще и дешевле, чем в реальном мире вещей, где оконный проем в готовой стене не подвинуть на 10 сантиметров влево, без сильных вливаний.
Где навык "Поищи в интернете страницы на тему АААА, прочитай топ 20 и суммаризируй мне что прочтешь"? Почему я должен слушать ответы только с определенных сайтов, к которым вы сделали API? Я не говорю даже про BERT-оподобные модели и генеративное саммари, хотя бы допотопное авторефиратирование прикрутили бы.
Где навык "Поищи на сайте таком-то той-то и прочитай вслух"? Где вообще нормальный голосовой интерфейс к интернет поиску? Поленились?
Где "Я вот тебе флешку засунул, прочитай оттуда вслух документ такой-то. И сохрани оттуда все фотографии за март в облако". Ах да, нету USB.
Где навык "Закешируй альбом А исполнителя Б чтобы можно было послушать без интернета" (если я плачу за подписку)? Ах, нету диска, да. И TTS/STT не работает без интернета.
Где нормальные интеграции с интернет магазинами? Где "закажи 200 килограмм картошки из Вкуссвилла"? Где "повтори мой последний заказ из Пятерочки, только убери оттуда овощи и фрукты?" Где "возьми все товары из моего списка покупок и закажи их в СберМаркете?" (если кто пользуется навыком "список покупок").
С интеграциями какая-то ситуация loose-loose. Большие торговые компании может и могли бы такие навыки запилить для себя, но почему-то не пилят. Не спрашивали их почему?
У компаний поменьше скорее всего не хватает своих IT ресурсов писать и поддерживать все эти навыки для закрытых решений типа Алисы. Особенно помятуя про предыдущий пункт и сложность разработки навыков. Условному разрабу из сообщества легче написать свой собственный скрипт на любимом языке программирования для себя, чем осваивать всю эту вашу гемморойную интеграцию и еще не быть до конца уверенным, пропустят такой навык ваши цензоры или нет.
В век Ллам, Альпак и прочих LLM - где соответствующие навыки в ваших колонках? Вы там спите, что ли?
Управление умным домом
В случае с Яндексом, ребята кажется проснулись, вспомнили про существование ZigBee и запихнули этот модуль в свою свежую станцию. Так что возможно вашим запросам "включить лампочку" больше не придется путешествовать по всему интернету через несколько облачных сервисов разных вендоров, чтобы лампочка в трех метрах от вас таки загорелась. Но это не точно. TTS и STT все равно требуют облаков. Снова Лада Гранта выходит.
Но Яндекс все равно молодцы, по моей информации они пока единственные, кто вообще ZigBee прикрутил. Остальные производители на это вообще болт положили.
А что там с opensource?
А там все отлично, просто превосходно. Есть с несколько десятков проектов голосовых помощников: начиная от очень простых (но, как следствие, легко расширяемых), заканчивая достаточно продвинутыми комбайнами, где сразу и непонятно куда отверткой тыкнуть. И при всем этом многообразии народ продолжает настойчиво велосипедить новые велосипеды, не в обиду автору. Но это тема для отдельной статьи "об избыточной энтропии в мире opensource и неумении людьми пользоваться поисковиком".
Систем управления умным домом есть на моей памяти с десяток с двумя-тремя самыми популярными. Есть отличные связки того и другого с бантиком сбоку.
Но это изобилие ничего не дает среднему пользователю, который далек от IT. Потому что он не может пойти в магазин и купить себе устройство которое только и надо, что воткнуть в розетку и оно заработает без танцев с бубном и долгих ковыряний.
Стоп, а как же Mycroft?
Mycroft попытался такое устройство сделать. Даже 2 поколения смогли. Но у меня к нему очень много вопросов, как думаю и у многих. Во-первых опять это гребанная привязка к своему обалку. Объясняют мол что по-другому они не видели как сделать хороший speech-to-text ("Бва-ха-ха", сказали ребята из OpenVoiceOS которые их форкнули)
Далее цена. В Mycroft сделали ставку на Raspberry Pi, как сердце системы. А мы все помним, что случилось с ценами на Raspberry. Потом на кой-то ляд они приделали к ней LCD экран, что еще больше увеличило стоимость. Ладно бы оставили первое поколение и дали людям возможность выбора.
Потом они сильно углубились в разработку железа, вместо того чтобы оттачивать архитектуру своего софта и интеграцию. А железо брать из того, что уже доступно на рынке. Доступно там было куча всего тогда, а сейчас и того больше. Пилить свою железку могут себе позволить Сбер, Мэйл, Яндекс и подобные им. Там есть на это деньги и как следствие качественные инженерные ресурсы. А для мелкого стартапа без людей с опытом в железках лезть в эту область было ошибкой. В итоге, к этому и пришло.
В общем, задумка отличная, но реализация как у первого блина. Надеюсь они не всплывут брюшком кверху, даже такие блины нужны.
И что?
Я глубоко убежден, что будущее за open source. Не только в этой, отдельно взятой сфере умных колонок и голосовых помощников, но и во многих других сферах, где оно еще не стало настоящим.
Среди существующих opensource решений давно есть уже все компоненты, чтобы сделать отличный готовый продукт все-в-одном, который будет приватен, отвязан от всех облаков и сможет работать офлайн. Он сможет стать не только голосовым помощником и домашним медиа-центром для потребления контента, но еще и быть обычным домашним компьютером, игровой консолью (emulation/Steam), своим собственным облаком для хранения файлов/фото/видео с возможностью удаленного доступа и стриминга (NextCloud, Jellyfin), быть центром умного дома (HomeAssistant) и вообще уметь кучу всего, чего умеет обычный десктоп. И это не должно стоить как чугунный мост, т.к. чисто компьютерное железо, которое потребуется для этого всего начинается от отметки в 100$. Говорю как человек, который себе такое уже собрал на такой железке. И знаю, что многие тоже собрали.
К сожалению, пока никто из крупных компаний (кроме мелкой Mycroft) не озадачился перейти от пошлых моделей "продай проприетращину - посади человека на подписку" к модели "сделай технически крутое устройство на открытом коде, которое можно использовать так же как и закрытое, и оно станет хитом". Все почему-то боятся, что если сделать что-то на открытом коде, то это фиг продашь. Я вижу в этом глубочайшее заблуждение. В той же Яндекс Станции чумовая аккустика и отличный микрофонный массив. И вообще условные 97% покупателей предпочитают покупать готовое решение (железка + софт). И лишь оставшиеся 3%, кто обладает кучей свободного времени / навыками / или просто любит DIY и поиграться со всем сам, качают исходники и строят что-то на своем оборудовании. Боятся их глупо. Это как бояться медведей в Москве.
Автор: bugman