- PVSM.RU - https://www.pvsm.ru -
Привет! Это Екатерина Саяпина, Product Owner платформы МТС Exolve [1]. Сегодня поговорим об аудиокодеках. Именно они сжимают и распаковывают аудиосигнал, определяя, насколько хорошо и естественно будет звучать голос собеседника. В этом материале мы разберем, какие типы кодеков используются в VoIP и как выбрать подходящий вариант.
Аудиокодеки работают с различными частотными диапазонами, что напрямую влияет на восприятие речи и передачу нюансов звука:
Узкополосные кодеки (обычно до 3,4 кГц) используют базовый набор речевых частот, которых хватает для стандартных телефонных звонков. Однако могут теряться важные нюансы, влияющие на интонацию и эмоциональную окраску голоса.
Широкополосные кодеки (до 7 кГц) позволяют передавать более детализированное и естественное звучание. Это особенно важно в бизнес-коммуникациях, где четкость речи критична для понимания.
Полноспектральные кодеки (до 20 кГц) захватывают весь диапазон частот, что позволяет сохранять максимальную натуральность звука. Такие кодеки востребованы в приложениях, где важно высокое качество передачи аудио. Например, в музыкальных трансляциях или видеозвонках с высоким качеством.
Этот параметр показывает скорость передачи данных и измеряется в килобитах в секунду (кбит/с). Он определяет компромисс между качеством и нагрузкой на сеть.
Высокий битрейт позволяет передавать больше информации за секунду, что улучшает детализацию и чистоту звука. Однако он требует хорошей пропускной способности канала, что может стать проблемой при ограниченных сетевых ресурсах.
Низкий битрейт снижает нагрузку на сеть, позволяя использовать VoIP даже на слабых каналах. Но это приводит к появлению артефактов и искажений, из-за чего речь сложнее разобрать.
Сам по себе битрейт не гарантирует стабильного качества связи — важно, чтобы сеть могла поддерживать нужное количество VoIP-линий.
Пропускная способность сети напрямую влияет на стабильность и качество VoIP-звонков, поскольку аудиокодеки требуют определенного объема данных для передачи звука без задержек и искажений. Помимо битрейта, важно учитывать реальную скорость upload/download, так как передача голосового трафика идет в две стороны. Если пропускной способности не хватает, то могут быть проблемы с разрывами соединения, дрожанием голоса и задержками.
Например, если ваш интернет-канал имеет скорость 0,5 Мбит/с, а используемый кодек требует 115 кбит/с, одновременно можно подключить до 4 VoIP-линий без перегрузки сети. Однако, если количество активных звонков превысит допустимое, трафик начнет распределяться между ними, вызывая ухудшение качества связи. Чтобы этого избежать, голосовой и интернет-трафик разделяют и настраивают на маршрутизаторах больший приоритет для VoIP-данных. Это минимизирует задержки и обеспечивает стабильность звонков даже при высокой нагрузке на сеть.
Это время, необходимое для сжатия и распаковки аудиосигнала. Оно измеряется в миллисекундах (мс) и напрямую влияет на естественность общения. Если задержка слишком большая, то реплики собеседников начинают пересекаться по времени, возникают паузы и эффект эха.
Основные источники задержек:
Задержка кодека — время обработки звука. Например, кодек G.711 имеет задержку менее 1 мс, а G.729 — около 10 мс из-за более сложного сжатия.
Сетевые задержки — время передачи пакетов по линиям связи. В локальных сетях оно составляет 5–10 мс, а при соединениях через интернет зависит от маршрута пакетов и может увеличиваться до 100 мс и более.
Jitter buffer — механизм сглаживания нестабильности сети, который добавляет дополнительные 20–50 мс в зависимости от настроек.
Для комфортного общения суммарная задержка не должна превышать 150 мс. Если она больше 250 мс, это уже заметно влияет на удобство разговора. Чтобы снизить это время, нужно выбирать кодеки с минимальным временем кодирования, обеспечивать хорошее качество интернет-соединения и настраивать приоритет голосового трафика в сети.
Потеря пакетов возникает из-за перегрузок сети, нестабильного Wi-Fi или jitter (разброс задержек). VoIP-связь остается приемлемой при потере 1–2% пакетов, но при 5% и более могут возникать заметные искажения.
В кодеках есть разные механизмы компенсации потери пакетов:
PLC (Packet Loss Concealment) — восстанавливает пропущенные фрагменты, имитируя их по предыдущему сигналу;
FEC (Forward Error Correction) — заранее отправляет избыточные данные, позволяя частично компенсировать потерянные пакеты;
Jitter buffer — временно хранит входящие пакеты, выравнивая их поступление.
На уровне сети для снижения потерь используют приоритизацию голосового трафика (QoS или Quality of Service) на маршрутизаторе, избегают или минимизируют беспроводные соединения. В настройках VOIP можно выбрать кодеки с хорошей устойчивостью: Opus, AMR-WB и G.722 лучше справляются с потерями пакетов, чем G.729 или G.711, — или поиграться с настройками FEC и jitter buffer, чтобы добиться баланса между восстановлением потерянных пакетов и минимизацией задержек.
Кодеки могут заметно уменьшить объем аудиоданных, но это требует вычислительных ресурсов, что чувствительно для мобильных устройств и серверов с высокой нагрузкой. Сложные алгоритмы сжатия при большом количестве вызовов могут замедлять систему, увеличивать задержки и снижать стабильность связи. Чтобы этого избежать, некоторые VoIP-приложения динамически переключают кодек в зависимости от качества сети.
В зависимости от сценария, будь то корпоративная телефония, мобильная связь или онлайн-конференции, используются разные кодеки. Рассмотрим ключевые из них с учетом частотного диапазона, битрейта, задержки кодирования, устойчивости к потерям пакетов и вычислительных требований.
Это классический кодек, используемый в традиционной телефонии и SIP-связи:
частотный диапазон: 300 Гц — 3,4 кГц (узкополосный);
битрейт: 64 кбит/с;
задержка кодирования: <1 мс;
устойчивость к потерям пакетов: низкая;
нагрузка на CPU: минимальная.
Его до сих пор поддерживают практически все VoIP-устройства и операторы. Он практически не сжимает звук, передавая его в исходном качестве. Это обеспечивает минимальную задержку и естественное звучание голоса. Однако отсутствие сжатия приводит к высокому потреблению трафика, что делает G.711 неэффективным для мобильных сетей и соединений с ограниченной пропускной способностью.
частотный диапазон: 50 Гц — 7 кГц (широкополосный);
битрейт: до 64 кбит/с;
задержка кодирования: от 3 мс;
устойчивость к потерям пакетов: средняя;
нагрузка на CPU: минимальная.
G.722 обеспечивает HD Voice, что делает речь более четкой и разборчивой по сравнению с узкополосными кодеками. Он использует битрейт 64 кбит/с, как и G.711, но за счет эффективного сжатия передает больше частотных деталей.
Этот кодек популярен в бизнес-телефонии, где важно высокое качество голоса, и используется в конференц-связи и DECT-телефонах, поскольку улучшает восприятие речи и снижает усталость при длительных разговорах.
частотный диапазон: 50 Гц — 20 кГц (полноспектральный);
битрейт: 6–510 кбит/с (адаптивный);
задержка кодирования: 5–20 мс;
устойчивость к потерям пакетов: высокая (FEC, PLC, jitter buffer);
нагрузка на CPU: средняя.
Это один из самых гибких и эффективных кодеков. Он хорошо подходит для VoIP, потокового аудио и видеосвязи, поэтому его используют в Discord, Zoom и WebRTC.
Opus динамически регулирует битрейт в зависимости от пропускной способности сети, снижая его при ухудшении соединения и повышая при наличии хорошего канала. Поддержка FEC и PLC делает его устойчивым к потерям пакетов, а широкий частотный диапазон обеспечивает качество, сравнимое с FLAC или MP3.
частота дискретизации: 8 кГц;
два режима битрейта: 13,33 кбит/с и 15,2 кбит/с при кодировании речи порциями по 30 мс и 20 мс соответственно;
задержка кодирования: 30–50 мс;
нагрузка на CPU: средняя.
iLBC — свободный кодек, производит звук низкого качества, но все же довольно разборчивый и понятный. Это делает его отличным выбором для реализации VoIP-телефонии в отдаленных или сельских районах.
Ранее использовали для WebRTC, сейчас разве что для VoIP в условиях плохого интернета.
частотный диапазон: 300 Гц — 3,4 кГц (узкополосный);
битрейт: 8 кбит/с;
задержка кодирования: ~10 мс;
устойчивость к потерям пакетов: средняя (поддерживает PLC);
нагрузка на CPU: высокая (из-за сложного алгоритма).
Кодек разработан для экономии трафика. Он передает речь с битрейтом 8 кбит/с, что в 8 раз меньше, чем у G.711. G.729 широко используется в корпоративных VoIP-сетях и мобильной телефонии, где важно снизить нагрузку на сеть. Однако высокая степень сжатия ухудшает звук, убирая часть естественных обертонов голоса.
частотный диапазон: от 8 до 24 кГц;
битрейт: от 6 до 40 кбит/с;
задержка кодирования — 25 мс;
нагрузка на CPU: средняя, кодек оптимизирован для распространенных процессоров.
Кодек от разработчиков Skype, который используется и в других продуктах Microsoft. Известен своей производительностью в нестабильных сетевых условиях. Доступен под лицензией Royalty Free.
Частотный диапазон:
AMR-NB: 300 Гц — 3,4 кГц (узкополосный);
AMR-WB: 50 Гц — 7 кГц (широкополосный);
EVS: 20 Гц — 20 кГц (полноспектральный);
Битрейт:
AMR-NB: 6,6 — 23,85 кбит/с;
AMR-WB: 4,75 — 23,85 кбит/с;
EVS: 5,9 — 128 кбит/с;
Задержка кодирования: 5–25 мс;
Устойчивость к потерям пакетов: высокая;
Нагрузка на CPU: средняя.
AMR (Adaptive Multi-Rate) — стандартный кодек для мобильных сетей 3G/4G. Он обеспечивает компромисс между качеством голоса и экономией трафика. AMR-WB улучшает разборчивость речи, обеспечивая HD Voice.
EVS (Enhanced Voice Services) — кодек следующего поколения для VoLTE и 5G VoNR. Он поддерживает студийное качество звука, превосходя даже Opus, и адаптируется к различным условиям сети, минимизируя задержки и потери пакетов. EVS настолько хорош, что при 5G-соединении голос звучит как в записи студийного микрофона. Однако пока он используется только в сетях операторов связи и не поддерживается в большинстве VoIP-приложений.
частотный диапазон: до 16 кГц;
битрейт: переменный, от 6 до 48 кбит/с;
задержка кодирования: 30–50 мс;
нагрузка на ЦП: высокая, но нужно учитывать, что в нынешних реалиях Opus и amr-wb все равно лучше по качеству и эффективности, несмотря на нагрузку.
Это расширение кодека AMR-WB, стандартизированное 3GPP. Был разработан специально для сетей 3G/4G, поэтому хорошо справляется с потерей пакетов, которая там бывает довольно часто. В этом кодеке есть функция Packet Loss Concealment (PLC), и он умеет снижать битрейт при ухудшении канала. Поддерживает режимы стерео и многоканальности, подходит для музыки.
Сценарии связи отличаются друг от друга и требуют разных решений: что подходит для офисной телефонии, может не подойти для мобильных сетей или хранения записей звонков. Можно пользоваться уже настроенными решениями: в МТС Exolve [1] управление кодеками уже встроено в работу платформы, — или найти свой баланс между качеством, нагрузкой на сеть и вычислительными ресурсами.
При деловых звонках и конференциях лучше выбирать широкополосные кодеки: G.722, Opus, AMR-WB. Они передают более широкий частотный диапазон и делают голос естественным.
Для стандартных телефонных разговоров подойдет G.711 — он обеспечивает привычное качество, но без улучшенной четкости, как в HD Voice. В контакт-центрах, где важна экономия трафика, но голос должен оставаться узнаваемым, часто используют G.729.
Если у вас проводная сеть или Wi-Fi с хорошей скоростью, то можно применять кодеки с высоким битрейтом (G.711, G.722, Opus). В мобильных сетях или при слабом интернете с ограниченной пропускной способностью лучше выбрать G.729 или Opus с низким битрейтом — они сохранят качество при минимальном расходе трафика.
VoIP-связь чувствительна к нестабильности соединения, особенно в мобильных сетях и на Wi-Fi. Если сеть подвержена потерям пакетов или задержкам, кодек должен уметь их компенсировать. Лучший вариант — Opus. AMR-WB и EVS устойчивы в мобильных сетях, так как адаптируются к меняющимся условиям передачи данных. А вот G.729 и G.711 плохо справляются с потерями.
Если VoIP-система обрабатывает много звонков, сложные кодеки могут перегрузить процессор, особенно в облачных колл-центрах или на мобильных устройствах. G.711 и G.722 требуют сравнительно мало вычислений, но расходуют много трафика. G.729, наоборот, отнимает много процессорных ресурсов, так как использует сложное сжатие. Opus хорошо оптимизирован, но на старых устройствах может сильнее нагружать процессор.
Если звонки ведутся с мобильных девайсов, выбирайте кодеки с низким энергопотреблением, чтобы не разряжать батарею.
Если звонки записываются для аналитики, кодек должен поддерживать сохранение в мультиканальный контейнер (MP4, WAV) без потерь качества.
EVS, G.711 и Opus хорошо для этого подходят, а G.729 с потерями может ухудшить точность автоматического анализа речи (ASR).
Чтобы оценить, насколько голос звучит разборчиво и естественно, используются две метрики:
MOS (Mean Opinion Score) — субъективная оценка от 1 (плохо) до 5 (отлично), основанная на реальных отзывах пользователей;
PESQ (Perceptual Evaluation of Speech Quality) — автоматическая оценка качества передачи речи, анализирующая искажения и потери.
Например, G.711 и Opus обычно имеют MOS ~4.5, G.729 — MOS ~3.7 из-за потери деталей, а EVS в 5G достигает MOS 4.8.
Пока еще основа стабильной и качественной VoIP-связи — это правильный выбор кодека. Он определяет четкость речи, устойчивость к потере пакетов, задержкам и ограничениям сети. Ключевой вызов — найти между ними баланс.
Но VoIP развивается в сторону более гибких и интеллектуальных решений. Кодеки становятся универсальными, мобильные сети переходят на студийное качество звука, а нейросети исправляют дефекты передачи в реальном времени. Opus занимает лидирующие позиции, его используют Zoom, WhatsApp и другие сервисы. В будущем он может стать стандартом VoIP, вытеснив менее гибкие кодеки. В мобильных сетях 5G на смену AMR-WB приходит EVS.
ИИ-алгоритмы, такие как шумоподавление и восстановление речи, уже улучшают качество звонков. Они компенсируют потери данных, убирают эхо и фоновые шумы, делая голос естественным даже при слабом соединении. В ближайшие годы VoIP-связь будет не просто стабильной, а практически идеальной — без помех, разрывов и цифровых артефактов.
Автор: KKK_56
Источник [5]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/voip/413580
Ссылки в тексте:
[1] МТС Exolve: https://exolve.ru/?utm_source=habr&utm_medium=refferal&utm_campaign=article&utm_content=audiocodecs&utm_term=exolve
[2] Источник: https://www.techplayon.com/voice-codec-options-for-volte-mobile-services/
[3] калькулятором пропускной способности VoIP: https://www.bandcalc.com/
[4] Источник: https://opus-codec.org/comparison/%5C
[5] Источник: https://habr.com/ru/companies/ru_mts/articles/890742/?utm_campaign=890742&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.