Рубрика «Работа со звуком» - 14

Видео

Как и обещал, выкладываю пробное видео, на котором мой коллега показывает установку в работе.

Конструкция

Читать полностью »

Введение

MIDI-контроллер — устройство, преобразующее определённый физический процесс в набор цифровых команд формата MIDI. Физическим процессом может являться всё, что угодно — от нажатия пальцем на клавишу до поворота ручки громкости. Полученный поток команд передаётся посредством протокола MIDI другим устройствам — компьютеру, аппаратным семплерам, синтезаторам или внешним секвенсорам и расшифровывается там определённым образом. Наиболее распространённым типом MIDI-контроллера является MIDI-клавиатура — электронный аналог клавиатуры фортепиано. Также существует множество других типов контроллеров, среди которых — электронные ударные установки.
Читать полностью »

Не так давно я рассказывал про наушники этой фирмы, но про DJ-скую модель Zinken. C ними, конечно, не особо удобно будет ходить по городу или заниматься спортом. Они более домашние или студийные, если хотите. А вот сегодня хочу показать и рассказать про более интересную модель — Humlan. Это лёгкие наушники, в которых можно и погулять, и побегать, и в общественном транспорте прокатиться. Кроме того, есть у этой модели одно свойство, которое обычно несвойственно наушникам такого типа. Всё дело в том, что их можно стирать. Вернее не сами наушники, а те части, которые как раз загрязняются и впитывают пот. Это амбушюры и накладка на оголовье. Впрочем, об этом и многом другом расскажу под катом.

Urbanears Humlan — стильная гарнитура на каждый день
Читать полностью »

Клиническая обработка сигналов речи и машинное обучение. Часть 1
Из выступления Max Little (основателя PVI) на конференции TED в 2012 году.

Здравствуй, Хабрахабр. Данный цикл статей будет посвящен рассмотрению возможности и построению Open Source универсального анализатора нарушений речи.

В данной статье будет рассказано о проекте Parkinson Voice Initiative, посвященному ранней диагностике Болезни Паркинсона по голосу (успешность распознавания составляет 98,6± 2.1% за 30 секунд по телефонному разговору).
Будет произведено сравнение точности используемых в нем алгоритмов выбора особенностей (ВО) – Feature Selection Algorithm – LASSO, mRMR, RELIEF, LLBFS.

Битва между Random Forest (RF) и Supported Vector Machine (SVM) за звание лучшего анализатора в данного рода приложениях.

Начало

Читая статьи по синтезу и распознаванию речи, нашел упоминание о том, что при болезни изменяется голос. Проверив очевидность факта, что я не первый догадался использовать распознавание речи для диагностики болезней (первые клиницисты определили некоторые features — особенности еще в 40-х годах прошлого века, записывая на магнитофонную ленту, а потом вручную анализируя), пошел по ссылкам Гугла. Одна из первых указывала на проект PVI.

Клиническая обработка сигналов речи и машинное обучение. Часть 1
Читать полностью »

Вместо введения


Покупать исследования по рынку распознавания речи достаточно дорого (от 2-х до 10 тысяч долларов и более). Не каждый себе может позволить, особенно среди разработчиков. Полностью переводить на правах переводчика тоже нельзя, так как есть ограничения на условиях лицензионного соглашения. Но поделиться информацией тоже бы очень хотелось перед заинтересованной публикой — так как фанатов речевых технологий становится все больше и больше. Поэтому я решил опубликовать часть выжимки международного исследования Technavio, которое в свое время мы приобретали — конечно же, в своей вольной гоблинской интерпретации. Надеюсь информация будет полезной. Правда пришлось отказаться от многих цифр, кроме тех, которые уже есть в сети. Наше исследование идет без графиков, таблиц, и к сожалению, SWOT анализов. Тот кому это действительно интересно — всегда имеет возможность приобрести самое свежее исследование здесь.

В представленной работе преимущественно разбирались по частям компании с Северной Америки и Европы. Рынок Азии представлен в исследовании слабо. Но все эти детали пожалуй оставим пока у себя. Однако очень интересно описаны тренды и текущая характеристика отрасли, что само по себе очень интересно — тем более ее можно изложить в различных вариациях не теряя общей сути. Не будем томить — пожалуй начнем описывать самые интересные моменты, куда движется все таки отрасль распознавания речи и что нас ждет в ближайшем будущем (2012 — 2016 гг.) — как уверяют исследователи.
image
Читать полностью »

Введение

На сегодняшний день существует множество методов распознавания звука. В самом общем виде большинство методов состоят из алгоритма построения сигнатуры (fingerprints) сигнала (максимально компактного и при этом наиболее точно описывающего трек набора признаков), алгоритма ее поиска в базе данных и алгоритма отсечения ложных срабатываний. Перед нами стояла задача выбора технологии для построения second screen приложений.
Сравнение алгоритмов распознавания аудио для Second Screen
При этом сравнение алгоритмов распознавания на основе известных точностных характеристик является довольно условным, поскольку эти характеристики получены на разных тестовых данных и при разных ошибках первого рода (false positives). Также, исходя из контекста задачи, нас интересовала эффективность алгоритма применительно к распознаванию аудиосигнала телеэфира, при искажениях обусловленных параметрами микрофонов современных мобильных устройств.

Поскольку в открытых источниках сравнительных данных, удовлетворяющих нашим требованиям, найдено не было, было решено провести собственное исследование алгоритмов распознавания звука, с учетом специфики аудиопотока и искажений. В качестве потенциальных кандидатов мы остановили свой выбор на алгоритмах J. Haitsma и A. Wang. Оба широко известны и основаны на анализе частотно-временных признаков, полученных с помощью оконного преобразования Фурье.
Читать полностью »

Звук является колебаниями высокой частоты, которые распространяются в окружающем источник пространстве. Эти волны достигают находящиеся рядом объекты и заставляют их испытывать колебания определённой частоты. Группа исследователей Массачусетского технологического института сумела на основании этих вибраций, видимых на видеозаписи, частично восстановить исходный звук с некоторыми искажениями.

В работе Эйб Дэвис, Майкл Рубинштейн, Нил Вадва, Гаутам Майсор, Фредо Дуранд и Уильям Фриман использовали камеру, записывающую видео с частотой несколько тысяч кадров в секунду, и такие распространённые и подверженные вибрациям предметы, как фольга пакета чипсов, листья комнатного растения, грань коробки с салфетками или стакан с водой. Найти подобную видеокамеру в быту будет достаточно сложно, но их другая техника показала, что восстановление звука возможно и с помощью обычной записи частотой 60 кадров в секунду.

Качество восстановленного звука позволяет разделять отдельные слова и имеет высокие показатели отношения сигнал-шум. Восстановленные аудиозаписи даже позволяют смутно различать речь человека или использовать сервисы распознавания музыки.
Читать полностью »

Звук является колебаниями определённой частоты, которые распространяются в окружающем источник пространстве. Эти волны достигают находящиеся рядом объекты и заставляют их испытывать вибрации. Группа исследователей Массачусетского технологического института сумела на основании этих вибраций, видимых на видеозаписи, частично восстановить исходный звук с некоторыми искажениями.

В работе Эйб Дэвис, Майкл Рубинштейн, Нил Вадхва, Гаутам Майсор, Фредо Дуранд и Уильям Фриман использовали камеру, записывающую видео с частотой несколько тысяч кадров в секунду, и такие распространённые и подверженные вибрациям предметы, как фольга пакета чипсов, листья комнатного растения, грань коробки с салфетками или стакан с водой. Найти подобную видеокамеру в быту будет достаточно сложно, но их другая техника показала, что восстановление звука возможно и с помощью обычной записи частотой 60 кадров в секунду.

Качество восстановленного звука позволяет разделять отдельные слова и имеет относительно высокие показатели отношения сигнал-шум. Восстановленные аудиозаписи даже позволяют смутно различать речь человека или использовать сервисы распознавания музыки.
Читать полностью »

Все посты серии:
Часть 1. Введение и настройка
Часть 2. Изучение кода
Часть 3. VST и AU
Часть 4. Цифровой дисторшн
Часть 5. Пресеты и GUI
Часть 6. Синтез сигналов
Часть 7. Получение MIDI сообщений
Часть 8. Виртуальная клавиатура
Часть 9. Огибающие
Часть 10. Доработка GUI
Часть 11. Фильтр
Часть 12. Низкочастотный осциллятор
Часть 13. Редизайн
Часть 14. Полифония 1
Часть 15. Полифония 2
Часть 16. Антиалиасинг


Чтобы наш SpaceBass звучал еще лучше, нужно создать осциллятор, в котором было бы меньше алиасинга. Это опциональное улучшение. Без него синтезатор будет работать как и раньше, но с ним звук на верхних октавах будет значительно лучше.
Читать полностью »

Все посты серии:
Часть 1. Введение и настройка
Часть 2. Изучение кода
Часть 3. VST и AU
Часть 4. Цифровой дисторшн
Часть 5. Пресеты и GUI
Часть 6. Синтез сигналов
Часть 7. Получение MIDI сообщений
Часть 8. Виртуальная клавиатура
Часть 9. Огибающие
Часть 10. Доработка GUI
Часть 11. Фильтр
Часть 12. Низкочастотный осциллятор
Часть 13. Редизайн
Часть 14. Полифония 1
Часть 15. Полифония 2


В этом посте мы закончим работу над полифонией: причешем код и приведем GUI в рабочее состояние.

Создание аудиоплагинов, часть 15
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js