Главная

PixelTone: прототип графического редактора с голосовым управлением

2013-02-20 в 12:26, admin, рубрики: adobe, голосовое управление, интерфейсы, обработка изображений, распознавание речи, ретушь, метки: голосовое управление, распознавание речи, ретушь

В Мичиганском университете совместно с Adobe Research создали прототип графического редактора, управляемого голосом и жестами. Прототип, названный PixelTone, пока умеет делать лишь самые простые операции и жесты. Он понимает простые команды и ориентируется в описательных терминах вроде «верх», «низ», «ярче», «темнее». Кроме того, он может запоминать названия объектов и имена людей на фотографиях, что позволяет использовать команды вроде «Сделай Васю чуть контрастнее».

Такой комбинированный интерфейс может быть полезен на планшетах и телефонах, где просто нет места для многочисленных палитр и меню, и нет клавиатуры, чтобы воспользоваться горячими клавишами. Прототип будет представлен на конференции Computer-Human Interaction которая пройдёт в Париже с 27 апреля по 2 мая. А пока можно скачать PDF c описанием технологии.

Этот документ, подготовленный по всем правилам серьёзной научной публикации, пожалуй интереснее самого прототипа. При создании интерфейса учёные проанализировали сложившуюся в среде профессиональных фотографов и ретушеров систему общепринятых сокращений и аннотаций к фотографиям, а затем с помощью Amazon Mechanical Turk собирали статистику слов и выражений, которые используют непрофессиональные пользователи, чтобы описать желаемые изменения в фотографии.

Исследования юзабилити, проведённые после создания прототипа, показали, что голосовой интерфейс позволяет выполнять базовые операции по редактированию фотографий ничуть не хуже традиционного. Совместное использование голоса и прикосновений позволяет достаточно точно и уверенно интерпретировать нечёткие формулировки естественного языка вроде «здесь», «отсюда и выше». Как и в случае с клавиатурными сокращениям, требуется некоторое время, чтобы изучить и запомнить фразы, которые понимает программа, для чего могут понадобиться графические подсказки. Освоившись, пользователь может управлять редактором почти исключительно голосом и непосредственной манипуляцией на тачскрине.

Автор: ilya42

Источник