В июне команда ученых из Калифорнийского университета в Сан-Франциско опубликовала исследование, которое проливает свет на то, как люди меняют высоту тона в своей речи.
Результаты этого исследования могут быть полезными в создании синтезаторов естественно звучащей речи — с эмоциями и различными интонациями.
Об исследовании — в нашей сегодняшней статье.
Фото Florian Koppe / CC
Как проходило исследование
Команда ученых Калифорнийского университета за последнее время провела целую серию экспериментов. Она изучает взаимосвязь различных участков
Работа, о которой идет речь в статье, сосредоточена на участке, контролирующем гортань, в том числе и в момент изменения высоты тона.
Ведущим специалистом в исследовании выступил нейрохирург Эдвард Чанг (Edward Chang). Он работает с пациентами, страдающими эпилепсией, — проводит операции, которые предотвращают судороги. За активностью головного
Команда набирала добровольцев для своих исследований именно из этой группы пациентов. Подключенные датчики позволяют следить за их нейронной активностью во время экспериментов. Этот метод, — известный как электрокортикография, — помог ученым найти область
Участников исследования просили повторять вслух одно и то же предложение, но делать акцент каждый раз на разных словах. От этого менялся смысл фразы. Вместе с тем менялась и частота основного тона — частота колебаний голосовых связок.
Команда обнаружила, что нейроны в одном участке
Участникам в ходе исследования также включали запись их собственных голосов. Это вызывало ответную реакцию нейронов. Из этого члены команды сделали вывод, что данная область
Пригодится в разработке голосовых синтезаторов
Журналист Робби Гонсалес (Robbie Gonzalez) из издания Wired полагает, что результаты исследования могут пригодиться в протезировании гортани и позволят пациентам, лишенным голоса, «заговорить» более реалистично. Это подтверждают и сами ученые.
Синтезаторы человеческой речи — например, тот, которым пользовался Стивен Хокинг, — способны и сейчас воспроизводить слова, интерпретируя нейронную активность. Однако они не могут расставлять акценты, как это делал бы человек со здоровым речевым аппаратом. Из-за этого речь звучит неестественно, и не всегда понятно, задает ли собеседник вопрос или же делает утверждение.
Ученые продолжают исследовать участок
Другие исследования речевых моделей
Не так давно в лаборатории Эдварда Чанга провели еще одно исследование, которое способно помочь в разработке голосообразующих аппаратов. Участники зачитывали сотни предложений, в звучании которых использовались почти все возможные фонетические конструкции американского английского языка. А ученые следили за нейронной активностью испытуемых.
Фото PxHere / PD
В этот раз предметом интереса стала коартикуляция — то, как работают органы речевого тракта (например, губы и язык) при произнесении разных звуков. Внимание уделяли словам, в которых за одной и той же твердой согласной следуют разные гласные. При произнесении таких слов губы и язык часто работают по-разному — в результате различается и наше восприятие соответствующих звуков.
Ученые не только определили группы нейронов, ответственные за конкретные движения органов голосового тракта, но и установили, что речевые центры
Изучение всех вариантов коартикуляции, контролируемых нейронной активностью, также сыграет роль в развитии технологий синтеза речи людей, которые потеряли способность говорить, но нейронные функции которых сохранились.
Для помощи инвалидам используются и системы, работающие по обратному принципу, — инструменты на базе ИИ, которые помогают преобразовывать речь в текст. Наличие в речи интонаций и акцентов представляет трудность и для этой технологии. Их присутствие мешает алгоритмам искусственного интеллекта распознавать отдельные слова.
Сотрудники Cisco, Московского физико-технического института и Высшей школы экономики недавно представили возможное решение проблемы для преобразования в текст американской английской речи. Их система использует базу произношений CMUdict и возможности рекуррентной нейронной сети. Их метод заключается в автоматической предварительной «очистке» речи от «лишних» призвуков. Таким образом, по своему звучанию речь приближается к разговорному американскому английскому, без четко выраженных региональных или этнических «следов».
Будущее речевых исследований
Профессор Чанг в будущем хочет исследовать и то, как работает
Бенджамин Дихтер (Benjamin Dichter), один из коллег Чанга, считает, что следующий шаг — пойти дальше в понимании связи «мозг-гортань». Команда теперь должна научиться угадывать, какую частоту тона выберет говорящий, анализируя его нейронную активность. Это — ключ к созданию синтезатора естественно звучащей речи.
Ученые полагают, что в ближайшее время такое устройство выпустить не удастся, но исследование Дихтера и команды приблизит науку к тому моменту, когда аппарат искусственной речи научится интерпретировать не только отдельные слова, но и интонации, а значит, добавлять в речь эмоции.
Больше интересного о звуке — в нашем Telegram-канале:
Как зазвучали Звездные войны
Необычные аудиогаджеты
Звуки из мира кошмаров
Кино на пластинках
Музыка на работе
Автор: Audioman