RU2591021C2 - Устройство и способ для квантования усилений адаптивного и фиксированного вкладов возбуждения в кодеке celp - Google Patents
Устройство и способ для квантования усилений адаптивного и фиксированного вкладов возбуждения в кодеке celp Download PDFInfo
- Publication number
- RU2591021C2 RU2591021C2 RU2013142151/08A RU2013142151A RU2591021C2 RU 2591021 C2 RU2591021 C2 RU 2591021C2 RU 2013142151/08 A RU2013142151/08 A RU 2013142151/08A RU 2013142151 A RU2013142151 A RU 2013142151A RU 2591021 C2 RU2591021 C2 RU 2591021C2
- Authority
- RU
- Russia
- Prior art keywords
- gain
- celp
- contribution
- excitation
- codebook
- Prior art date
Links
- 230000005284 excitation Effects 0.000 title claims abstract description 216
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002787 reinforcement Effects 0.000 title 1
- 238000012937 correction Methods 0.000 claims abstract description 42
- 230000005236 sound signal Effects 0.000 claims abstract description 33
- 230000004044 response Effects 0.000 claims abstract description 16
- 230000003321 amplification Effects 0.000 claims description 66
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 66
- 238000013139 quantization Methods 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 31
- 230000015572 biosynthetic process Effects 0.000 claims description 16
- 238000003786 synthesis reaction Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims 2
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 230000003595 spectral effect Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000010219 correlation analysis Methods 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
Abstract
Изобретение относится к средствам для квантования усиления фиксированного вклада возбуждения в кадре, включающем в себя подкадры, кодированного звукового сигнала. Технический результат заключается в повышении надежности кодирования путем уменьшения вероятности потерь пакетов в течение передачи параметров кодирования от кодера к декодеру. Усиление фиксированного вклада возбуждения оценивается в подкадре с использованием параметра, представляющего классификацию кадра. Усиление фиксированного вклада возбуждения затем квантуется в подкадре с использованием оцененного усиления. Устройство и способ используются в совместном квантовании усилений адаптивного и фиксированного вкладов возбуждения в кадре кодированного звукового сигнала. Для извлечения квантованного усиления фиксированного вклада возбуждения в подкадре кадра усиление фиксированного вклада возбуждения оценивается с использованием параметра, представляющего классификацию кадра, кодовая книга усилений предоставляет коэффициент коррекции в ответ на принятый индекс кодовой книги усилений и модуль умножения умножает оцененное усиление на коэффициент коррекции, чтобы обеспечивать квантованное усиление фиксированного вклада возбуждения. 8 н. и 42 з.п. ф-лы, 6 ил.
Description
Область техники, к которой относится изобретение
Настоящее раскрытие относится к квантованию усиления фиксированного вклада возбуждения в кодированном звуковом сигнале. Настоящее раскрытие также относится к совместному квантованию усилений адаптивного и фиксированного вкладов возбуждения.
Уровень техники
В кодере структуры кодека, например структуры кодека CELP (линейного предсказания с кодовым возбуждением), такой как ACELP (линейное предсказание с алгебраическим кодовым возбуждением), входная речь или аудиосигнал (звуковой сигнал) обрабатывается в коротких сегментах, называемых кадрами. Чтобы захватывать быстро изменяющиеся свойства входного звукового сигнала, каждый кадр дополнительно разделяется на подкадры. Структура кодека CELP также создает вклады возбуждения адаптивной кодовой книги и фиксированной кодовой книги, которые складываются, чтобы формировать полное возбуждение. Усиления, относящиеся к вкладам возбуждения адаптивной и фиксированной кодовых книг, квантуются и передаются в декодер вместе с другими параметрами кодирования. Вклад адаптивной кодовой книги и вклад фиксированной кодовой книги в возбуждение будут указываться как "адаптивный вклад" и "фиксированный вклад" возбуждения во всем документе.
Имеется необходимость в способе для квантования усилений адаптивного и фиксированного вкладов возбуждения, которые улучшают устойчивость кодека против стираний кадров или потерь пакетов, которые могут происходить в течение передачи параметров кодирования от кодера к декодеру.
Сущность изобретения
Согласно первому аспекту настоящее раскрытие относится к устройству для квантования усиления фиксированного вклада возбуждения в кадре, включающем в себя подкадры, кодированного звукового сигнала, содержащему: вход для параметра, представляющего классификацию кадра; модуль оценивания усиления фиксированного вклада возбуждения в подкадре кадра, при этом в модуль оценивания предоставляется параметр, представляющий классификацию кадра; и предсказывающий квантователь усиления фиксированного вклада возбуждения в подкадре, использующий оцененное усиление.
Настоящее раскрытие также относится к способу для квантования усиления фиксированного вклада возбуждения в кадре, включающем в себя подкадры, кодированного звукового сигнала, содержащему: прием параметра, представляющего классификацию кадра; оценку усиления фиксированного вклада возбуждения в подкадре кадра с использованием параметра, представляющего классификацию кадра; и предсказывающее квантование усиления фиксированного вклада возбуждения в подкадре, использующее оцененное усиление.
Согласно третьему аспекту обеспечивается устройство для совместного квантования усилений адаптивного и фиксированного вкладов возбуждения в кадре кодированного звукового сигнала, содержащее: модуль квантования усиления адаптивного вклада возбуждения; и вышеописанное устройство для квантования усиления фиксированного вклада возбуждения.
Настоящее раскрытие дополнительно относится к способу для совместного квантования усилений адаптивного и фиксированного вкладов возбуждения в кадре кодированного звукового сигнала, содержащему: квантование усиления адаптивного вклада возбуждения; и квантование усиления фиксированного вклада возбуждения с использованием вышеописанного способа.
Согласно пятому аспекту обеспечивается устройство для извлечения квантованного усиления фиксированного вклада возбуждения в подкадре кадра, содержащее: приемник индекса кодовой книги усилений; модуль оценивания усиления фиксированного вклада возбуждения в подкадре, при этом в модуль оценивания предоставляется параметр, представляющий классификацию кадра; кодовую книгу усилений для предоставления коэффициента коррекции в ответ на индекс кодовой книги усилений; и модуль умножения оцененного усиления на коэффициент коррекции, чтобы обеспечивать квантованное усиление фиксированного вклада возбуждения в подкадре.
Настоящее раскрытие также относится к способу для извлечения квантованного усиления фиксированного вклада возбуждения в подкадре кадра, содержащему: прием индекса кодовой книги усилений; оценку усиления фиксированного вклада возбуждения в подкадре, с использованием параметра, представляющего классификацию кадра; предоставление из кодовой книги усилений и для подкадра коэффициента коррекции в ответ на индекс кодовой книги усилений; и умножение оцененного усиления на коэффициент коррекции, чтобы обеспечивать квантованное усиление фиксированного вклада возбуждения в упомянутом подкадре.
Настоящее раскрытие еще дополнительно относится к устройству для извлечения квантованных усилений адаптивного и фиксированного вкладов возбуждения в подкадре кадра, содержащему: приемник индекса кодовой книги усилений; модуль оценивания усиления фиксированного вклада возбуждения в подкадре, при этом в модуль оценивания предоставляется параметр, представляющий классификацию кадра; кодовую книгу усилений для предоставления квантованного усиления адаптивного вклада возбуждения и коэффициента коррекции для подкадра в ответ на индекс кодовой книги усилений; и модуль умножения оцененного усиления на коэффициент коррекции, чтобы обеспечивать квантованное усиление фиксированного вклада возбуждения в подкадре.
Согласно дополнительному аспекту раскрытие описывает способ для извлечения квантованных усилений адаптивного и фиксированного вкладов возбуждения в подкадре кадра, содержащий: прием индекса кодовой книги усилений; оценку усиления фиксированного вклада возбуждения в подкадре с использованием параметра, представляющего классификацию кадра; предоставление из кодовой книги усилений и для подкадра квантованного усиления адаптивного вклада возбуждения и коэффициента коррекции в ответ на индекс кодовой книги усилений; и умножение оцененного усиления на коэффициент коррекции, чтобы обеспечивать квантованное усиление фиксированного вклада возбуждения в подкадре.
Предшествующие и другие признаки станут более ясными после прочтения последующего неограничительного описания иллюстративных вариантов осуществления, приведенных только для примера, со ссылкой на сопровождающие чертежи.
Краткое описание чертежей
На прилагаемых чертежах:
Фиг. 1 является схематической диаграммой, описывающей структуру фильтрованного возбуждения в основанном на CELP кодере;
Фиг. 2 является схематической блок-схемой, описывающей модуль оценивания усиления фиксированного вклада возбуждения в первом подкадре каждого кадра;
Фиг. 3 является схематической блок-схемой, описывающей модуль оценивания усиления фиксированного вклада возбуждения во всех подкадрах, следующих за первым подкадром;
Фиг. 4 является схематической блок-схемой, описывающей конечный автомат, в котором коэффициенты оценки вычисляются и используются для построения кодовой книги усилений для каждого подкадра;
Фиг. 5 является схематической блок-схемой, описывающей модуль квантования усиления; и
Фиг. 6 является схематической блок-схемой другого варианта осуществления модуля квантования усиления, эквивалентного модулю квантования усиления из фиг. 5.
Подробное описание
В последующем описывается квантование усиления фиксированного вклада возбуждения в кодированном звуковом сигнале, а также совместное квантование усилений адаптивного и фиксированного вкладов возбуждения. Квантование может применяться к любому количеству подкадров и использоваться с любой входной речью или аудиосигналом (входным звуковым сигналом), дискретизированным с любой произвольной частотой дискретизации. Также усиления адаптивного и фиксированного вкладов возбуждения квантуются без необходимости межкадрового предсказания. Отсутствие межкадрового предсказания дает результатом улучшение устойчивости против стираний кадров или потерь пакетов, которые могут происходить в течение передачи кодированных параметров.
Усиление адаптивного вклада возбуждения квантуется напрямую, тогда как усиление фиксированного вклада возбуждения квантуется посредством оцененного усиления. Оценка усиления фиксированного вклада возбуждения основывается на параметрах, которые существуют как в кодере, так и в декодере. Эти параметры вычисляются в течение обработки текущего кадра. Таким образом, не требуется информации из предыдущего кадра в ходе квантования или декодирования, что, как упомянуто выше, улучшает устойчивость кодека против стираний кадров.
Хотя последующее описание ссылается на структуру кодека CELP (линейного предсказания с кодовым возбуждением), например ACELP (линейное предсказание с алгебраическим кодовым возбуждением), следует иметь в виду, что сущность настоящего раскрытия может применяться к другим типам структур кодека.
Оптимальные неквантованные усиления для адаптивного и фиксированного вкладов возбуждения
В области техники кодирования CELP возбуждение состоит из двух вкладов: адаптивного вклада (возбуждения адаптивной кодовой книги) и фиксированного вклада (возбуждения фиксированной кодовой книги). Адаптивная кодовая книга основывается на долгосрочном предсказании и поэтому относится к прошлому возбуждению. Адаптивный вклад возбуждения находится посредством поиска с замкнутым контуром около оцененного значения задержки основного тона. Оцененная задержка основного тона находится посредством корреляционного анализа. Поиск с замкнутым контуром состоит из минимизации среднеквадратической взвешенной ошибки (MSWE) между целевым сигналом (в кодировании CELP, перцепционно фильтрованной версией входной речи или аудиосигнала (входного звукового сигнала)) и фильтрованным адаптивным вкладом возбуждения, масштабированным посредством усиления адаптивной кодовой книги. Фильтр в поиске с замкнутым контуром соответствует взвешенному синтезирующему фильтру, известному в области техники кодирования CELP. Поиск фиксированной кодовой книги также выполняется посредством минимизации среднеквадратической ошибки (MSE) между обновленным целевым сигналом (после удаления адаптивного вклада возбуждения) и фильтрованным фиксированным вкладом возбуждения, масштабированным посредством усиления фиксированной кодовой книги. Структура полного фильтрованного возбуждения показана на фиг. 1. Для дополнительной ссылки, вариант осуществления кодирования CELP описывается в следующем документе: 3GPP TS 26.190, "Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions", чье полное содержание включается сюда посредством ссылки.
Фиг. 1 является схематической диаграммой, описывающей структуру фильтрованного полного возбуждения в кодере CELP. Входной сигнал 101, сформированный вышеупомянутым целевым сигналом, обозначается как x(i) и используется как опорный в течение поиска усилений для адаптивного и фиксированного вкладов возбуждения. Фильтрованный адаптивный вклад возбуждения обозначается как y(i) и фильтрованный фиксированный вклад возбуждения (обновление) обозначается как z(i). Соответствующие усиления обозначаются как gp для адаптивного вклада и gc для фиксированного вклада возбуждения. Как проиллюстрировано на фиг. 1, усилитель 104 применяет усиление gp к фильтрованному адаптивному вкладу y(i) возбуждения и усилитель 105 применяет усиление gc к фильтрованному фиксированному вкладу z(i) возбуждения. Оптимальные квантованные усиления находятся посредством минимизации среднего квадрата сигнала ошибки e(i), вычисляемого посредством первого модуля 107 вычитания, вычитающего сигнал gpy(i) на выходе усилителя 104 из целевого сигнала xi, и второго модуля 108 вычитания, вычитающего сигнал gcz(i) на выходе усилителя 105 из результата вычитания из модуля 107 вычитания. Для всех сигналов на фиг. 1, индекс i обозначает разные выборки сигнала и проходит от 0 до L-1, где L является длиной каждого подкадра. Как хорошо известно специалистам в данной области техники, фильтрованный вклад адаптивной кодовой книги обычно вычисляется как свертка между вектором возбуждения адаптивной кодовой книги v(n) и импульсной характеристикой взвешенного синтезирующего фильтра h(n), то есть y(n) = v(n)*h(n). Аналогично, фильтрованное возбуждение фиксированной кодовой книги z(n) задается посредством z(n) = c(n)*h(n), где c(n) является возбуждением фиксированной кодовой книги.
Предполагая знание целевого сигнала x(i), фильтрованного адаптивного вклада возбуждения y(i) и фильтрованного фиксированного вклада возбуждения z(i), оптимальный набор неквантованных усилений gp и gc находится посредством минимизации энергии сигнала ошибки e(i), заданного посредством следующего отношения:
Уравнение (1) может быть задано в векторной форме как
и минимизация энергии сигнала ошибки, , где t обозначает транспонирование векторов, дает результатом оптимальные неквантованные усиления
где константы или корреляции c0, c1, c2, c3, с4 и с5 вычисляются как
Оптимальные усиления в уравнении (3) не квантуются напрямую, но они используются в обучении кодовой книги усилений, как будет описываться позже. Усиления квантуются совместно после применения предсказания к усилению фиксированного вклада возбуждения. Предсказание выполняется посредством вычисления оцененного значения усиления gc0 фиксированного вклада возбуждения. Усиление фиксированного вклада возбуждения задается посредством , где γ является коэффициентом коррекции. Поэтому каждая запись кодовой книги содержит два значения. Первое значение соответствует квантованному усилению gp адаптивного вклада возбуждения. Второе значение соответствует коэффициенту коррекции γ, который используется, чтобы умножать оцененное усиление gc0 фиксированного вклада возбуждения. Оптимальный индекс в кодовой книге усилений (gp и γ) находится посредством минимизации среднеквадратической ошибки между целевым сигналом и фильтрованным полным возбуждением. Оценка усиления фиксированного вклада возбуждения описывается подробно ниже.
Оценка усиления фиксированного вклада возбуждения
Каждый кадр содержит некоторое количество подкадров. Будем обозначать количество подкадров в кадре как K и индекс текущего подкадра как k. Оценка gc0 усиления фиксированного вклада возбуждения выполняется различным образом в каждом подкадре.
Фиг. 2 является схематической блок-схемой, описывающей модуль 200 оценивания усиления фиксированного вклада возбуждения (далее - усиление фиксированной кодовой книги) в первом подкадре каждого кадра.
Модуль 200 оценивания сначала вычисляет оценку усиления фиксированной кодовой книги в ответ на параметр t, представляющий классификацию текущего кадра. Энергия обновляющего кодового вектора из фиксированной кодовой книги затем вычитается из оцененного усиления фиксированной кодовой книги, чтобы принимать в рассмотрение эту энергию фильтрованного обновляющего кодового вектора. Результирующее, оцененное усиление фиксированной кодовой книги, умножается на коэффициент коррекции, выбираемый из кодовой книги усилений, чтобы вырабатывать квантованное усиление gc фиксированной кодовой книги.
В одном варианте осуществления модуль 200 оценивания содержит модуль 201 вычисления линейной оценки усиления фиксированной кодовой книги в логарифмической области. Усиление фиксированной кодовой книги оценивается, предполагая единичную энергию обновляющего кодового вектора 202 из фиксированной кодовой книги. Модулем 201 вычисления используется только один параметр оценки, параметр t, представляющий классификацию текущего кадра. Модуль 203 вычитания затем вычитает энергию фильтрованного обновляющего кодового вектора 202 из фиксированной кодовой книги в логарифмической области из линейного оцененного усиления фиксированной кодовой книги в логарифмической области на выходе модуля 201 вычисления. Преобразователь 204 преобразовывает оцененное усиление фиксированной кодовой книги в логарифмической области из модуля 203 вычитания в линейную область. Вывод в линейной области из преобразователя 204 является оцененным усилением gc0 фиксированной кодовой книги. Модуль 205 умножения умножает оцененное усиление gc0 на коэффициент коррекции 206, выбираемый из кодовой книги усилений. Как описано в предшествующем абзаце, вывод модуля 205 умножения составляет квантованное усиление gc фиксированной кодовой книги.
Квантованное усиление gp адаптивного вклада возбуждения (далее - усиление адаптивной кодовой книги) выбирается напрямую из кодовой книги усилений. Модуль 207 умножения умножает фильтрованное адаптивное возбуждение 208 из адаптивной кодовой книги на квантованное усиление gp адаптивной кодовой книги, чтобы вырабатывать фильтрованный адаптивный вклад 209 фильтрованного возбуждения. Другой модуль 210 умножения умножает фильтрованный обновляющий кодовый вектор 202 из фиксированной кодовой книги на квантованное усиление gc фиксированной кодовой книги, чтобы вырабатывать фильтрованный фиксированный вклад 211 фильтрованного возбуждения. В заключение, модуль 212 сложения суммирует фильтрованные адаптивный 209 и фиксированный 211 вклады возбуждения, чтобы формировать полное фильтрованное возбуждение 214.
В первом подкадре текущего кадра, оцененное усиление фиксированной кодовой книги в логарифмической области на выходе модуля 203 вычитания задается посредством
Внутренний член внутри логарифма из уравнения (5) соответствует квадратному корню из энергии фильтрованного обновляющего вектора 202 (Ei является энергией фильтрованного обновляющего вектора в первом подкадре кадра n). Этот внутренний член (квадратный корень из энергии Ei) определяется посредством первого модуля 215 вычисления энергии Ei фильтрованного обновляющего вектора 202 и модуля 216 вычисления квадратного корня из этой энергии Ei. Модуль 217 вычисления затем вычисляет логарифм квадратного корня из энергии Ei для применения к отрицательному вводу модуля 203 вычитания. Внутренний член (квадратный корень из энергии Ei) имеет ненулевую энергию; энергия увеличивается на маленькую величину в случае всех нулевых кадров, чтобы избегать log(0).
Оценка усиления фиксированной кодовой книги в модуле 201 вычисления является линейной в логарифмической области с коэффициентами оценки a0 и a1, которые находятся для каждого подкадра посредством среднеквадратической минимизации по большой базе данных сигналов (обучения), как будет объясняться в последующем описании. Только параметр 202 оценки в уравнении, t, обозначает параметр классификации для кадра n (в одном варианте осуществления это значение является постоянным для всех подкадров в кадре n). Подробности относительно классификации кадров даются ниже. В заключение, оцененное значение усиления в логарифмической области преобразовывается обратно в линейную область () посредством модуля 204 вычисления и используется в процессе поиска наилучшего индекса кодовой книги усилений, как будет объясняться в последующем описании.
Верхний индекс (1) обозначает первый подкадр текущего кадра n.
Как объяснено в предшествующем описании, параметр t, представляющий классификацию текущего кадра, используется в вычислении оцененного усиления gc0 фиксированной кодовой книги. Для разных классов голосовых сигналов могут создаваться разные кодовые книги. Однако это увеличивает требования к памяти. Также, оценка усиления фиксированной кодовой книги в кадрах, следующих за первым кадром, может основываться на параметре t классификации кадра и доступных усилениях адаптивной и фиксированной кодовых книг от предыдущих подкадров в текущем кадре. Оценка ограничивается границей кадра, чтобы увеличивать устойчивость против стираний кадров.
Например, кадры могут классифицироваться как невокализованные, вокализованные, общие или переходные кадры. Для классификации могут использоваться разные альтернативы. Ниже дается пример в качестве неограничивающего иллюстративного варианта осуществления. Дополнительно, количество голосовых классов может быть отличным от класса, используемого выше. Например, классификация может быть только вокализованные или невокализованные в одном варианте осуществления. В другом варианте осуществления может добавляться больше классов, такие как сильно вокализованные и сильно невокализованные.
Значения для параметра t оценки классификации могут выбираться произвольно. Например, для узкополосных сигналов значения параметра t устанавливаются на: 1, 3, 5, и 7 для невокализованных, вокализованных, общих и переходных кадров соответственно и для широкополосных сигналов они устанавливаются на 0, 2, 4, и 6 соответственно. Однако для каждого класса могут использоваться другие значения для параметра t оценки. Используя эту оценку, параметр классификации t в создании и обучении для определения параметров оценки будет давать результатом более хорошую оценку gc0 усиления фиксированной кодовой книги.
Подкадры, следующие за первым подкадром в кадре, используют немного другую схему оценки. Различие состоит в том факте, что в этих подкадрах как квантованное усиление адаптивной кодовой книги так и квантованное усиление фиксированной кодовой книги из предыдущего подкадра (подкадров) в текущем кадре используются как вспомогательные параметры оценки, чтобы увеличивать эффективность.
Фиг. 3 является схематической блок-схемой модуля 300 оценивания для оценки усиления фиксированной кодовой книги в подкадрах, следующих за первым подкадром в текущем кадре. Параметры оценки включают в себя параметр классификации t и квантованные значения (параметры 301) обоих усилений адаптивной и фиксированной кодовых книг от предыдущих подкадров текущего кадра. Эти параметры 301 обозначаются как и т.д., где верхний индекс указывает на первый, второй и другие предыдущие подкадры. Оценка усиления фиксированной кодовой книги вычисляется и умножается на коэффициент коррекции, выбираемый из кодовой книги усилений, чтобы вырабатывать квантованное усиление gc фиксированной кодовой книги, формируя усиление фиксированного вклада возбуждения (это оцененное усиление фиксированной кодовой книги является отличным от усиления первого подкадра).
В одном варианте осуществления модуль 302 вычисления вычисляет линейную оценку усиления фиксированной кодовой книги снова в логарифмической области и преобразователь 303 преобразовывает оценку усиления назад в линейную область. Квантованные усиления адаптивной кодовой книги и т.д. от предыдущих подкадров предоставляются в модуль 302 вычисления напрямую, в то время как квантованные усиления фиксированной кодовой книги и т.д. от предыдущих подкадров предоставляются в модуль 302 вычисления в логарифмической области через логарифмический модуль 304 вычисления. Модуль 305 умножения затем умножает оцененное усиление gc0 фиксированной кодовой книги (которое является отличным от усиления первого подкадра) из преобразователя 303 на коэффициент коррекции 306, выбираемый из кодовой книги усилений. Как описано в предшествующем абзаце, модуль 305 умножения затем выводит квантованное усиление gc фиксированной кодовой книги, формируя усиление фиксированного вклада возбуждения.
Первый модуль 307 умножения умножает фильтрованное адаптивное возбуждение 308 из адаптивной кодовой книги на квантованное усиление gp адаптивной кодовой книги, выбираемое напрямую из кодовой книги усилений, чтобы вырабатывать адаптивный вклад 309 возбуждения. Второй модуль 310 умножения умножает фильтрованный обновляющий кодовый вектор 311 из фиксированной кодовой книги на квантованное усиление gc фиксированной кодовой книги, чтобы вырабатывать фиксированный вклад 312 возбуждения. Модуль 313 сложения суммирует фильтрованный адаптивный 309 и фильтрованный фиксированный 312 вклады возбуждения так, чтобы формировать полное фильтрованное возбуждение 314 для текущего кадра.
Оцененное усиление фиксированной кодовой книги из модуля 302 вычисления в k-м подкадре текущего кадра в логарифмической области задается посредством
где является квантованным усилением фиксированной кодовой книги в логарифмической области в подкадре k, и является квантованным усилением адаптивной кодовой книги в подкадре k.
Например, в одном варианте осуществления используются четыре (4) подкадра (K=4), таким образом, оцененные усиления фиксированной кодовой книги в логарифмической области, во втором, третьем и четвертом подкадрах из модуля 302 вычисления задаются посредством следующих отношений:
Вышеописанная оценка усиления фиксированной кодовой книги основывается как на квантованных усилениях адаптивной, так и фиксированной кодовых книг всех предыдущих подкадров текущего кадра. Имеется также другое различие между этой схемой оценки и схемой, используемой в первом подкадре. Энергия фильтрованного обновляющего вектора из фиксированной кодовой книги не вычитается из линейной оценки усиления фиксированной кодовой книги в логарифмической области из модуля 302 вычисления. Причина в использовании квантованных усилений адаптивной кодовой книги и фиксированной кодовой книги от предыдущих подкадров в уравнении оценки. В первом подкадре линейная оценка выполняется посредством модуля 201 вычисления, предполагающего единичную энергию обновляющего вектора. Впоследствии эта энергия вычитается, чтобы приводить оцененное усиление фиксированной кодовой книги к тому же энергетическому уровню, что и его оптимальное значение (или, по меньшей мере, близкому к нему). Во втором и последующих подкадрах предыдущие квантованные значения усиления фиксированной кодовой книги находятся уже на этом уровне, таким образом, нет необходимости принимать в рассмотрение энергию фильтрованного обновляющего вектора. Коэффициенты оценки ai и bi являются разными для каждого подкадра, и они определяются автономно с использованием большой базы данных обучения, как будет описываться ниже.
Вычисление коэффициентов оценки
Оптимальный набор коэффициентов оценки находится в большой базе данных, содержащей чистые, зашумленные и смешанные речевые сигналы на различных языках и уровнях и произносимые мужчинами и женщинами.
Коэффициенты оценки вычисляются посредством выполнения кодека с оптимальными неквантованными значениями усилений адаптивной и фиксированной кодовых книг по большой базе данных. Следует напомнить, что оптимальные неквантованные усиления адаптивной и фиксированной кодовых книг находятся согласно уравнениям (3) и (4).
В последующем описании предполагается, что база данных содержит N+1 кадр, и индекс кадра - это n=0,...,N. Индекс кадра n добавляется к параметрам, используемым в обучении, которые изменяются на основе кадра (классификация, обновляющая энергия первого подкадра и оптимальные усиления адаптивной и фиксированной кодовых книг).
Коэффициенты оценки находятся посредством минимизации среднеквадратической ошибки между оцененным усилением фиксированной кодовой книги и оптимальным усилением в логарифмической области по всем кадрам в базе данных.
Для первого подкадра энергия среднеквадратической ошибки задается посредством
Из уравнения (5), оцененное усиление фиксированной кодовой книги в первом подкадре кадра n задается посредством
затем энергия среднеквадратической ошибки задается посредством
В вышеуказанном уравнении выше (8) Eest является полной энергией (на полной базе данных) ошибки между оцененным и оптимальным усилениями фиксированной кодовой книги, оба в логарифмической области. Оптимальное усиление фиксированной кодовой книги в первом подкадре обозначается g(1) c,opt. Как упоминалось в предшествующем описании, Ei(n) является энергией фильтрованного обновляющего вектора из фиксированной кодовой книги и t(n) является параметром классификации кадра n. Верхний индекс (1) используется, чтобы обозначать первый подкадр и n является индексом кадра.
Задача минимизации может упрощаться посредством определения нормализованного усиления обновляющего вектора в логарифмической области. То есть
Полная энергия ошибки тогда становится
Решение вышеописанной определенной задачи MSE (среднеквадратической ошибки) находится посредством следующей пары частных производных
Оптимальные значения коэффициентов оценки, полученных из вышеуказанных уравнений, задаются посредством
Оценка усиления фиксированной кодовой книги в первом подкадре выполняется в логарифмической области, и оцененное усиление фиксированной кодовой книги должно быть настолько близким насколько возможно к нормализованному усилению обновляющего вектора в логарифмической области, .
Для второго и других последующих подкадров схема оценки является немного другой. Энергия ошибки задается посредством
Для вычисления коэффициентов оценки во втором и последующих подкадрах каждого кадра, квантованные значения обоих усилений фиксированной и адаптивной кодовых книг предыдущих подкадров используются в вышеуказанном уравнении (13). Хотя является возможным использовать оптимальные неквантованные усиления в их месте, использование квантованных значений ведет к максимальной эффективности оценивания во всех подкадрах и, следовательно, к более хорошей общей производительности модуля квантования усиления.
Таким образом, количество коэффициентов оценки увеличивается по мере того, как повышается индекс текущего подкадра. Само квантование усиления описывается в последующем описании. Коэффициенты оценки ai и bi являются разными для каждого подкадра, но для простоты использовались одни и те же символы. Обычно они будут либо иметь верхний индекс (k), ассоциированный с ними, либо они будут обозначаться различным образом для каждого подкадра, при этом k является индексом подкадра.
Минимизация функции ошибки в уравнении (13) ведет к следующей системе линейных уравнений
Решение этой системы, т.е. оптимальный набор коэффициентов оценки a0, a1, b0,...,b2k-3, здесь не предоставляется, так как это ведет к усложненным формулам. Она обычно решается посредством математического программного обеспечения, оснащенного модулем решения линейных уравнений, например MATLAB. Это предпочтительно делается автономно и не во время процесса кодирования.
Для второго подкадра уравнение (14) сводится к
Как упомянуто выше, вычисление коэффициентов оценки чередуется с квантованием усиления, как изображено на фиг. 4. Более конкретно, фиг. 4 является схематической блок-схемой, описывающей конечный автомат 400, в котором коэффициенты оценки вычисляются (401) для каждого подкадра. Затем для каждого подкадра с использованием вычисленных коэффициентов оценки разрабатывается (402) кодовая книга усилений. Затем на основе вычисленных коэффициентов оценки и построения кодовой книги усилений проводится квантование (403) усиления для подкадра. Оценка усиления фиксированной кодовой книги сама немного отличается в каждом подкадре, коэффициенты оценки находятся посредством минимальной среднеквадратической ошибки, и кодовая книга усилений может разрабатываться посредством использования алгоритма KMEANS, как описано, например, в MacQueen, J. B. (1967). "Some Methods for classification and Analysis of Multivariate Observations". Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. University of California Press, стр. 281-297, чье полное содержание включается сюда посредством ссылки.
Квантование усиления
Фиг. 5 является схематической блок-схемой, описывающей модуль 500 квантования усиления.
Перед квантованием усиления предполагается, что как фильтрованное адаптивное возбуждение 501 из адаптивной кодовой книги, так и фильтрованный обновляющий кодовый вектор 502 из фиксированной кодовой книги уже известны. Квантование усиления в кодере выполняется посредством поиска созданной кодовой книги 503 усилений в смысле MMSE (минимальной среднеквадратической ошибки). Как описано в предшествующем описании, каждая запись в кодовой книге 503 усилений включает в себя два значения: квантованное усиление gp адаптивной кодовой книги и коэффициент коррекции для фиксированного вклада возбуждения. Оценка усиления фиксированной кодовой книги выполняется заранее, и оцененное усиление gc0 фиксированной кодовой книги используется, чтобы умножать коэффициент коррекции , выбираемый из кодовой книги 503 усилений. В каждом подкадре осуществляется полный поиск для кодовой книги 503 усилений, т.е. для индексов q=0,..,Q-1, при этом Q является количеством индексов кодовой книги усилений. Можно ограничивать диапазон поиска в случае, когда разрешается, чтобы квантованное усиление gp адаптивной кодовой книги было ниже некоторого порога. Чтобы обеспечивать возможность уменьшения диапазона поиска, записи кодовой книги могут сортироваться в восходящем порядке согласно значению усиления gp адаптивной кодовой книги.
Ссылаясь на фиг. 5, осуществляется поиск в кодовой книге 503 усилений с двойными записями и каждый индекс обеспечивает два значения - усиление gp адаптивной кодовой книги и коэффициент коррекции . Модуль 504 умножения умножает коэффициент коррекции на оцененное усиление gc0 фиксированной кодовой книги и полученное в результате значение используется как квантованное усиление 505 фиксированного вклада возбуждения (квантованное усиление фиксированной кодовой книги). Другой модуль 506 умножения умножает фильтрованное адаптивное возбуждение 505 из адаптивной кодовой книги на квантованное усиление gp адаптивной кодовой книги из кодовой книги 503 усилений, чтобы вырабатывать адаптивный вклад 507 возбуждения. Модуль 508 умножения умножает фильтрованный обновляющий кодовый вектор 502 на квантованное усиление 505 фиксированной кодовой книги, чтобы вырабатывать фиксированный вклад 509 возбуждения. Модуль 510 сложения суммирует оба адаптивный 507 и фиксированный 509 вклады возбуждения так, чтобы формировать фильтрованное полное возбуждение 511. Модуль 512 вычитания вычитает фильтрованное полное возбуждение 511 из целевого сигнала xi, чтобы вырабатывать сигнал ошибки ei. Модуль 513 вычисления вычисляет энергию 515 сигнала ошибки ei и предоставляет ее назад в механизм поиска кодовой книги усилений. Таким способом осуществляется поиск для всех или поднабора индексов кодовой книги 501 усилений и индекс кодовой книги 503 усилений, дающий наименьшую энергию 515 ошибки, выбирается как выигравший индекс и посылается в декодер.
Квантование усиления может выполняться посредством минимизации энергии ошибки в уравнении (2). Энергия задается посредством
где константы или корреляции c0, c1, c2 c3, c4 и c5 вычисляются, как в уравнении (4) выше. Константы или корреляции c0, c1, c2, c3, c4 и c5, и оцененное усиление gc0 вычисляются до осуществления поиска кодовой книги 503 усилений, и затем энергия в уравнении (16) вычисляется для каждого индекса кодовой книги (каждого набора значений записей gp и ).
Кодовый вектор из кодовой книги 503 усилений, ведущий к наименьшей энергии 515 сигнала ошибки ei, выбирается как выигравший кодовый вектор, и его значения записей соответствуют квантованным значениям gp и γ. Квантованное значение усиления фиксированной кодовой книги затем вычисляется как
Фиг. 6 является схематической блок-схемой эквивалентного модуля 600 квантования усиления как на фиг. 5, выполняющего вычисление энергии Ei сигнала ошибки ei с использованием уравнения (16). Более конкретно, модуль 600 квантования усиления содержит кодовую книгу 601 усилений, модуль 602 вычисления констант или корреляций, и модуль 603 вычисления энергии 604 сигнала ошибки. Модуль 602 вычисления вычисляет константы или корреляции c0, c1, c2, c3, с4 и с5 с использованием уравнения (4) и целевого вектора , вектора фильтрованного адаптивного возбуждения из адаптивной кодовой книги, и фильтрованного фиксированного кодового вектора из фиксированной кодовой книги, при этом t обозначает транспонирование векторов. Модуль 603 вычисления использует уравнение (16), чтобы вычислять энергию Ei сигнала ошибки ei из оцененного усиления gc0 фиксированной кодовой книги, корреляций c0, c1, c2, c3, с4 и с5 из модуля 602 вычисления и квантованного усиления gp адаптивной кодовой книги и коэффициента коррекции из кодовой книги 601 усилений. Энергия 604 сигнала ошибки из модуля 603 вычисления предоставляется назад в механизм поиска кодовой книги усилений. Снова, таким способом осуществляется поиск для всех или поднабора индексов кодовой книги 601 усилений и индекс кодовой книги 601 усилений, дающий наименьшую энергию 604 ошибки, выбирается как выигравший индекс и посылается в декодер.
В модуле 600 квантования усиления из фиг. 6, кодовая книга 601 усилений имеет размер, который может быть разным в зависимости от подкадра. Более хорошая оценка усиления фиксированной кодовой книги достигается в более поздних подкадрах в кадре вследствие увеличенного количества параметров оценки. Поэтому в более поздних подкадрах может использоваться меньшее количество битов. В одном варианте осуществления используются четыре (4) подкадра, где количества битов для кодовой книги усилений равны 8, 7, 6, и 6, соответствуя подкадрам 1, 2, 3 и 4 соответственно. В другом варианте осуществления при более низкой битовой скорости в каждом подкадре используются 6 битов.
В декодере используется принятый индекс, чтобы извлекать значения квантованного усиления gp адаптивной кодовой книги и коэффициента коррекции из кодовой книги усилений. Оценка усиления фиксированной кодовой книги выполняется таким же способом, как в кодере, как описано в предшествующем описании. Квантованное значение усиления фиксированной кодовой книги вычисляется посредством уравнения . Как адаптивный кодовый вектор, так и обновляющий кодовый вектор декодируются из битового потока, и они становятся адаптивным и фиксированным вкладами возбуждения, которые умножаются на соответствующие усиления адаптивной и фиксированной кодовых книг. Оба вклада возбуждения складываются, чтобы формировать полное возбуждение. Сигнал синтеза находится посредством фильтрации полного возбуждения через синтезирующий фильтр LP, как известно в области техники кодирования CELP.
Классификация сигналов
Для определения классификации кадра могут использоваться разные способы, например параметр t из фиг. 1. В последующем описании дается неограничивающий пример, где кадры классифицируются как невокализованные, вокализованные, общие или переходные кадры. Однако количество голосовых классов может быть отличным от количества, используемого в этом примере. Например, классификация может быть только вокализованные или невокализованные в одном варианте осуществления. В другом варианте осуществления могут добавляться больше классов, такие как сильно вокализованные и сильно невокализованные.
Классификация сигналов может выполняться в три этапа, где каждый этап выделяет конкретный класс сигнала. Сначала детектор активности сигнала (SAD) проводит различие между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр (фоновый шумовой сигнал), то цепь классификации оканчивается и кадр кодируется с помощью генерирования комфортного шума (CNG). Если обнаруживается активный речевой кадр, кадр подвергается второму классификатору для различения невокализованных кадров. Если классификатор классифицирует кадр как невокализованный речевой сигнал, цепь классификации оканчивается и кадр кодируется с использованием способа кодирования, оптимизированного для невокализованных сигналов. В противном случае кадр подвергается обработке через модуль классификации "стабильный вокализованный". Если кадр классифицируется как стабильный вокализованный кадр, то кадр кодируется с использованием способа кодирования, оптимизированного для стабильных вокализованных сигналов. В противном случае кадр скорей всего содержит нестационарный сегмент сигнала, такой как вокализованное начало или быстро видоизменяющийся вокализованный сигнал. Эти кадры обычно требуют кодер общего назначения и высокую битовую скорость для поддержания хорошего субъективного качества. Раскрытый способ квантования усиления создавался и оптимизировался для кадров стабильных вокализованных и общего назначения. Однако он может легко расширяться для любого другого класса сигналов.
В последующем описывается классификация невокализованных и вокализованных кадров сигнала.
Невокализованные части звукового сигнала характеризуются отсутствующим периодическим компонентом и могут дополнительно разделяться на нестабильные кадры, где энергия и спектр изменяются быстро, и стабильные кадры, где эти характеристики остаются относительно стабильными. Классификация невокализованных кадров использует следующие параметры:
- максимальное увеличение кратковременной энергии при низком уровне (), чтобы эффективно обнаруживать взрывные сегменты сигнала;
- максимальное изменение кратковременной энергии (dE), используемое, чтобы оценивать стабильность кадра;
- тональную стабильность, чтобы выделять музыку из невокализованного сигнала, как описано в [Jelinek, M., Vaillancourt, T., Gibbs, J., "G.718: A new embedded speech and audio coding standard with high resilience to error-prone transmission channels", в IEEE Communications Magazine, vol. 47, стр. 117-123, October 2009], чье полное содержание включается сюда посредством ссылки; и
- относительную энергию кадра (Erel), чтобы обнаруживать сигналы очень низкой энергии.
Голосовая мера
Нормализованная корреляция, используемая, чтобы определять голосовую меру, вычисляется как часть анализа основного тона с разомкнутым контуром. В области техники кодирования CELP, модуль поиска с разомкнутым контуром обычно выводит две оценки на кадр. Здесь это также используется, чтобы выводить нормализованные меры корреляции. Эти нормализованные корреляции вычисляются на взвешенном сигнале и прошлом взвешенном сигнале при запаздывании основного тона в разомкнутом контуре. Взвешенный речевой сигнал sw(n) вычисляется с использованием перцепционного взвешивающего фильтра. Например, используется перцепционный взвешивающий фильтр с фиксированным знаменателем, подходящий для широкополосных сигналов. Пример передаточной функции перцепционного взвешивающего фильтра задается посредством следующего отношения:
где A(z) является передаточной функцией фильтра линейного предсказания (LP), вычисляемой посредством алгоритма Левинсона-Дарбина, и задается посредством следующего отношения
Анализ LP и анализ основного тона с разомкнутым контуром являются хорошо известными в области техники кодирования CELP и, соответственно, в настоящем описании не будут дополнительно описываться.
Голосовая мера определяется как средняя нормализованная корреляция, задаваемая посредством следующего отношения:
где Cnorm(d0), Cnorm(d1) и Cnorm(d2) являются соответственно нормализованной корреляцией первой половины текущего кадра, нормализованной корреляцией второй половины текущего кадра, и нормализованной корреляцией просмотра вперед (начала следующего кадра). Аргументы для корреляций являются отставаниями основного тона с разомкнутым контуром.
Спектральный наклон
Спектральный наклон содержит информацию о частотном распределении энергии. Спектральный наклон может оцениваться в частотной области как отношение между энергией, сконцентрированной в низких частотах, и энергией, сконцентрированной в высоких частотах. Однако он может также оцениваться различными способами, такими как отношение между двумя первыми коэффициентами автокорреляции сигнала.
Энергия в высоких частотах и низких частотах вычисляется, следуя за перцепционными критическими диапазонами, как описано в [J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE Journal on Selected Areas in Communications, vol. 6, no. 2, стр. 314-323, February 1988], чье полное содержание включается сюда посредством ссылки. Энергия в высоких частотах вычисляется как средняя энергия последних двух критических диапазонов с использованием следующего отношения:
где ECB(i) является энергией критического диапазона i-го диапазона и bmax является последним критическим диапазоном. Энергия в низких частотах вычисляется как средняя энергия первых 10 критических диапазонов с использованием следующего отношения:
где bmin является первым критическим диапазоном.
Средние критические диапазоны из вычисления исключаются, так как они не имеют тенденции улучшать различение между кадрами с высокой концентрацией энергии в низких частотах (в общем, вокализованными) и с высокой концентрацией энергии в высоких частотах (в общем, невокализованными). Между тем, содержимое энергии не является характеристическим для каких-либо из классов, описанных дополнительно, и увеличивает запутанность выбора.
Спектральный наклон задается посредством
где и являются соответственно средними энергиями шума в последних двух критических диапазонах и первых 10 критических диапазонах, вычисляемыми таким же способом, как и .
Оцененные энергии шума добавляются к вычислению наклона, чтобы учитывать присутствие фонового шума. Вычисление спектрального наклона выполняется дважды за кадр, и вычисляется средний спектральный наклон, который затем используется в классификации невокализованного кадра. То есть
Максимальное увеличение кратковременной энергии при низком уровне
Максимальное увеличение кратковременной энергии при низком уровне dE0 оценивается на входном звуковом сигнале s(n), где n=0 соответствует первой выборке текущего кадра. Энергия сигнала оценивается дважды в расчете на подкадр. Предполагая, например, сценарий четырех подкадров в расчете на кадр, энергия вычисляется 8 раз в расчете на кадр. Если полная длина кадра равняется, например, 256 выборкам, каждый из этих коротких сегментов может иметь 32 выборки. В вычислении краткосрочные энергии последних 32 выборок из предыдущего кадра и первых 32 выборок из следующего кадра также принимаются в рассмотрение. Кратковременные энергии вычисляются с использованием следующих отношений:
где j=-1 и j=8 соответствуют концу предыдущего кадра и началу следующего кадра соответственно. Другой набор девяти краткосрочных энергий вычисляется посредством сдвига индексов сигнала в предыдущем уравнении на 16 выборок с использованием следующего отношения:
Для энергий, которые являются достаточно низкими, т.е. которые удовлетворяют условию , вычисляется следующее отношение
для первого набора энергий, и такое же вычисление повторяется для с j=0,..,7, чтобы получать два набора отношений и . Единственный максимум в этих двух наборах ищется посредством
который является максимальным увеличением кратковременной энергии при низком уровне.
Максимальное изменение кратковременной энергии
Этот параметр dE является аналогичным максимальному увеличению кратковременной энергии при низком уровне с отличием, что низкоуровневое условие не применяется. Таким образом, параметр вычисляется как максимум следующих четырех значений:
Классификация невокализованных сигналов
Классификация кадров невокализованного сигнала основывается на параметрах, описанных выше, именно: голосовой мере , среднем спектральном наклоне , максимальном увеличении кратковременной энергии при низком уровне dE0 и максимальном изменении кратковременной энергии dE. Алгоритм дополнительно поддерживается параметром тональной стабильности, флагом SAD и относительной энергией кадра, вычисляемой в течение фазы обновления энергии шума. Для более подробной информации об этих параметрах, см. например, [Jelinek, M., et al., "Advances in source-controlled variable bitrate wideband speech coding", Special Workshop in MAUI (SWIM): Lectures by masters in speech processing, Maui, Hawaii, January 12-14, 2004], чье полное содержимое включается сюда посредством ссылки.
Относительная энергия кадра задается посредством
где является полной энергией кадра (в дБ) и является долгосрочной средней энергией кадра, обновляемой в течение каждого активного кадра посредством .
Правила для невокализованной классификации широкополосных сигналов подытоживаются ниже
[последний кадр НЕАКТИВНЫЙ ИЛИ НЕВОКАЛИЗОВАННЫЙ ИЛИ ((eold<2,4) И (rx(0)<0,66))]
[dE0<250] И
[et(1)<2,7] И
НЕ [(тональная_ стабильность И ((>0,52) И (>0,5)) ИЛИ (>0,85)) И (Erel> -14) И флаг SAD установлен на 1]
Первая строка этого условия относится к сигналам низкой энергии и сигналам с низкой корреляцией, концентрирующей их энергию в высоких частотах. Вторая строка охватывает вокализованные смещения, третья строка охватывает взрывные сегменты сигнала, и четвертая строка относится к вокализованным началам. Последняя строка выделяет музыкальные сигналы, которые будут в противном случае объявляться как невокализованные.
Если комбинированные условия выполняются, классификация оканчивается посредством объявления текущего кадра как невокализованного.
Классификация вокализованных сигналов
Если кадр не классифицируется как неактивный кадр или как невокализованный кадр, то он тестируется, является ли он стабильным вокализованным кадром. Правило решения основывается на нормализованной корреляции в каждом подкадре (с разрешением в 1/4 подвыборки), среднем спектральном наклоне и оценках основного тона в разомкнутом контуре во всех подкадрах (с разрешением в 1/4 подвыборки).
Процедура оценки основного тона с разомкнутым контуром вычисляет три отставания основного тона с разомкнутым контуром: d0, d1 и d2, соответствующие первому полукадру, второму полукадру и просмотру вперед (первому полукадру следующего кадра). Чтобы получить точную информацию основного тона во всех четырех подкадрах, вычисляется дробное уточнение основного тона с разрешением в 1/4 выборки. Это уточнение вычисляется на перцепционно взвешенном входном сигнале swd(n) (например, входном звуковом сигнале s(n), отфильтрованном через вышеописанный перцепционный взвешивающий фильтр). В начале каждого подкадра короткий корреляционный анализ (40 выборок) с разрешением в 1 выборку выполняется в интервале (-7, +7) с использованием следующих задержек: d0 для первого и второго подкадров и d1 для третьего и четвертого подкадров. Корреляции затем интерполируются около их максимумов в дробных положениях dmax - 3/4, dmax - 1/2, dmax - 1/4, dmax, dmax + 1/4, dmax + 1/2, dmax + 3/4. Значение, дающее максимальную корреляцию, выбирается как уточненное отставание основного тона.
Пусть уточненные отставания основного тона с разомкнутым контуром во всех четырех подкадрах обозначаются как T(0), T(1), T(2) и T(3) и их соответствующие нормализованные корреляции как C(0), C(1), C(2) и C(3). Тогда условие классификации вокализованных сигналов задается посредством
[C(0)>0,605] И
[C(1)>0,605] И
[C(2)>0,605] И
[C(3)>0,605] И
[|T(1)-T(0)|]<3 И
[|T(2)-T(1)|]<3 И
[|T(3)-T(2)|]<3
Вышеописанное условие классификации вокализованных сигналов показывает, что нормализованная корреляция должна быть достаточно высокой во всех подкадрах, оценки основного тона не должны расходиться на протяжении кадра и энергия должна быть сконцентрирована в низких частотах. Если это условие выполняется, классификация оканчивается посредством объявления текущего кадра как вокализованного. В противном случае текущий кадр объявляется как общий.
Хотя настоящее изобретение было описано в предшествующем описании со ссылкой на его неограничительные иллюстративные варианты осуществления, эти варианты осуществления могут модифицироваться как угодно в пределах объема прилагаемой формулы изобретения без отхода от сущности и сути настоящего изобретения.
Claims (50)
1. Устройство для квантования усиления вклада фиксированной кодовой книги для возбуждения с CELP (линейным предсказанием с кодовым возбуждением) в кадре, включающем в себя подкадры, кодированного звукового сигнала, причем возбуждение с CELP подлежит обработке через синтезирующий фильтр LP (линейного предсказания), чтобы выработать синтез звукового сигнала, при этом упомянутое устройство содержит:
вход для параметра t, имеющего значение, представляющее классификацию кадра;
модуль оценивания усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре упомянутого кадра, при этом модуль оценивания использует значение параметра t в качестве мультипликативного коэффициента в по меньшей мере одном члене функции, используемой для вычисления оценочного усиления вклада фиксированной кодовой книги для возбуждения с CELP; и
предсказывающий квантователь усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре, использующий оценочное усиление.
вход для параметра t, имеющего значение, представляющее классификацию кадра;
модуль оценивания усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре упомянутого кадра, при этом модуль оценивания использует значение параметра t в качестве мультипликативного коэффициента в по меньшей мере одном члене функции, используемой для вычисления оценочного усиления вклада фиксированной кодовой книги для возбуждения с CELP; и
предсказывающий квантователь усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре, использующий оценочное усиление.
2. Устройство квантования по п. 1, в котором предсказывающий квантователь определяет коэффициент коррекции для оценочного усиления как квантование усиления вклада фиксированной кодовой книги для возбуждения с CELP, и при этом оценочное усиление, умноженное на коэффициент коррекции, дает квантованное усиление вклада фиксированной кодовой книги для возбуждения с CELP.
3. Устройство квантования по п. 1, в котором модуль оценивания содержит для первого подкадра кадра модуль вычисления первой оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP в ответ на значение параметра t, представляющего классификацию кадра, и модуль вычитания энергии фильтрованного обновляющего кодового вектора из фиксированной кодовой книги из первой оценки, чтобы получать оценочное усиление.
4. Устройство квантования по п. 2, в котором модуль оценивания содержит для первого подкадра кадра:
модуль вычисления линейной оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP в логарифмической области в ответ на значение параметра t, представляющего классификацию кадра;
модуль вычитания энергии фильтрованного обновляющего кодового вектора из фиксированной кодовой книги в логарифмической области из линейной оценки усиления от модуля вычисления, при этом модуль вычитания вырабатывает усиление в логарифмической области;
преобразователь усиления в логарифмической области из модуля вычитания в линейную область, чтобы вырабатывать оценочное усиление; и
модуль умножения оценочного усиления на коэффициент коррекции, чтобы вырабатывать квантованное усиление вклада фиксированной кодовой книги для возбуждения с CELP.
модуль вычисления линейной оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP в логарифмической области в ответ на значение параметра t, представляющего классификацию кадра;
модуль вычитания энергии фильтрованного обновляющего кодового вектора из фиксированной кодовой книги в логарифмической области из линейной оценки усиления от модуля вычисления, при этом модуль вычитания вырабатывает усиление в логарифмической области;
преобразователь усиления в логарифмической области из модуля вычитания в линейную область, чтобы вырабатывать оценочное усиление; и
модуль умножения оценочного усиления на коэффициент коррекции, чтобы вырабатывать квантованное усиление вклада фиксированной кодовой книги для возбуждения с CELP.
5. Устройство квантования по п. 1, в котором модуль оценивания для каждого подкадра упомянутого кадра, следующего за первым подкадром, является чувствительным к значению параметра t, представляющего классификацию кадра, и усилениям вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по меньшей мере одного предыдущего подкадра кадра, чтобы оценивать усиление вклада фиксированной кодовой книги для возбуждения с CELP.
6. Устройство квантования по п. 5, в котором модуль оценивания содержит для каждого подкадра, следующего за первым подкадром, модуль вычисления линейной оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP в логарифмической области и преобразователь линейной оценки в логарифмической области в линейную область, чтобы вырабатывать оценочное усиление.
7. Устройство квантования по п. 6, в котором усиления вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по меньшей мере одного предыдущего подкадра кадра являются квантованными усилениями и квантованные усиления вкладов адаптивной кодовой книги для возбуждения с CELP предоставляются в модуль вычисления напрямую, в то время как квантованные усиления вкладов фиксированной кодовой книги для возбуждения с CELP предоставляются в модуль вычисления в логарифмической области через логарифмический модуль вычисления.
8. Устройство квантования по п. 3, в котором модуль вычисления оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP использует в отношении параметра t классификации коэффициенты оценки, определенные с использованием большой базы данных обучения.
9. Устройство квантования по п. 6, в котором модуль вычисления линейной оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP в логарифмической области использует в отношении параметра t классификации кадра и усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по меньшей мере одного предыдущего подкадра коэффициенты оценки, которые являются разными для каждого подкадра и определяются с использованием большой базы данных обучения.
10. Устройство квантования по п. 1, в котором модуль оценивания использует для оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP коэффициенты оценки, различные для каждого подкадра кадра.
11. Устройство квантования по п. 1, в котором модуль оценивания ограничивает оценку усиления вклада фиксированной кодовой книги для возбуждения с CELP в кадре, чтобы увеличивать устойчивость против стирания кадров.
12. Устройство для совместного квантования усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP в кадре кодируемого звукового сигнала, причем возбуждение с CELP подлежит обработке через синтезирующий фильтр LP, чтобы вырабатывать синтез звукового сигнала, при этом упомянутое устройство содержит:
квантователь усиления вклада адаптивной кодовой книги для возбуждения с CELP; и
устройство для квантования усиления вклада фиксированной кодовой книги для возбуждения с CELP, как определено в п. 1.
квантователь усиления вклада адаптивной кодовой книги для возбуждения с CELP; и
устройство для квантования усиления вклада фиксированной кодовой книги для возбуждения с CELP, как определено в п. 1.
13. Устройство для совместного квантования усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 12, содержащее кодовую книгу усилений, имеющую записи, каждая из которых содержит квантованное усиление вклада адаптивной кодовой книги для возбуждения с CELP и коэффициент коррекции для оценочного усиления.
14. Устройство для совместного квантования усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 13, в котором квантователь усиления вклада адаптивной кодовой книги для возбуждения с CELP и предсказывающий квантователь усиления вклада фиксированной кодовой книги для возбуждения с CELP осуществляют поиск в кодовой книге усилений и выбирают усиление вклада адаптивной кодовой книги для возбуждения с CELP из одной записи кодовой книги усилений и коэффициент коррекции той же записи кодовой книги усилений в качестве квантования усиления вклада фиксированной кодовой книги для возбуждения с CELP.
15. Устройство для совместного квантования усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 13, содержащее модуль построения кодовой книги усилений для каждого подкадра кадра.
16. Устройство для совместного квантования усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 15, в котором кодовая книга усилений имеет разные размеры в разных подкадрах кадра.
17. Устройство для совместного квантования усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 14, в котором квантователь усиления вклада адаптивной кодовой книги для возбуждения с CELP и предсказывающий квантователь усиления вклада фиксированной кодовой книги для возбуждения с CELP осуществляют поиск в кодовой книге усилений полностью в каждом подкадре.
18. Устройство для извлечения квантованного усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре кадра кодированного звукового сигнала, причем возбуждение с CELP подлежит обработке через синтезирующий фильтр LP, чтобы выработать синтез звукового сигнала, при этом упомянутое устройство содержит:
приемник индекса кодовой книги усилений;
модуль оценивания усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре, при этом модуль оценивания снабжается параметром t, имеющим значение, представляющее классификацию кадра, и использует значение параметра t в качестве мультипликативного коэффициента в по меньшей мере одном члене функции, используемой для вычисления оценочного усиления вклада фиксированной кодовой книги для возбуждения с CELP;
кодовую книгу усилений для предоставления коэффициента коррекции в ответ на индекс кодовой книги усилений; и
модуль умножения оценочного усиления на коэффициент коррекции, чтобы обеспечивать квантованное усиление вклада фиксированной кодовой книги для возбуждения с CELP в упомянутом подкадре.
приемник индекса кодовой книги усилений;
модуль оценивания усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре, при этом модуль оценивания снабжается параметром t, имеющим значение, представляющее классификацию кадра, и использует значение параметра t в качестве мультипликативного коэффициента в по меньшей мере одном члене функции, используемой для вычисления оценочного усиления вклада фиксированной кодовой книги для возбуждения с CELP;
кодовую книгу усилений для предоставления коэффициента коррекции в ответ на индекс кодовой книги усилений; и
модуль умножения оценочного усиления на коэффициент коррекции, чтобы обеспечивать квантованное усиление вклада фиксированной кодовой книги для возбуждения с CELP в упомянутом подкадре.
19. Устройство для извлечения квантованного усиления вклада фиксированной кодовой книги для возбуждения с CELP по п. 18, в котором модуль оценивания содержит для первого подкадра кадра модуль вычисления первой оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP в ответ на значение параметра t, представляющего классификацию кадра, и модуль вычитания энергии фильтрованного обновляющего кодового вектора из фиксированной кодовой книги из первой оценки, чтобы получать оценочное усиление.
20. Устройство для извлечения квантованного усиления вклада фиксированной кодовой книги для возбуждения с CELP по п. 18, в котором модуль оценивания для каждого подкадра упомянутого кадра, следующего за первым подкадром, является чувствительным к значению параметра t, представляющего классификацию кадра, и усилениям вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по меньшей мере одного предыдущего подкадра кадра, чтобы оценивать усиление вклада фиксированной кодовой книги для возбуждения с CELP.
21. Устройство для извлечения квантованного усиления вклада фиксированной кодовой книги для возбуждения с CELP по п. 18, в котором модуль оценивания использует для оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP коэффициенты оценки, различные для каждого подкадра кадра.
22. Устройство для извлечения квантованного усиления вклада фиксированной кодовой книги для возбуждения с CELP по п. 18, при этом модуль оценивания ограничивает оценку усиления вклада фиксированной кодовой книги для возбуждения с CELP в кадре, чтобы увеличивать устойчивость против стирания кадров.
23. Устройство для извлечения квантованных усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP в подкадре кадра кодированного звукового сигнала, причем возбуждение с CELP подлежит обработке через синтезирующий фильтр LP, чтобы выработать синтез звукового сигнала, при этом упомянутое устройство содержит:
приемник индекса кодовой книги усилений;
модуль оценивания усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре, при этом модуль оценивания снабжается параметром t, имеющим значение, представляющее классификацию кадра, и использует значение параметра t в качестве мультипликативного коэффициента в по меньшей мере одном члене функции, используемой для вычисления оценочного усиления вклада фиксированной кодовой книги для возбуждения с CELP;
кодовую книгу усилений для предоставления квантованного усиления вклада адаптивной кодовой книги для возбуждения с CELP и коэффициента коррекции для подкадра в ответ на индекс кодовой книги усилений; и
модуль умножения оценочного усиления на коэффициент коррекции, чтобы обеспечивать упомянутое квантованное усиление упомянутого вклада фиксированной кодовой книги для возбуждения с CELP в подкадре.
приемник индекса кодовой книги усилений;
модуль оценивания усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре, при этом модуль оценивания снабжается параметром t, имеющим значение, представляющее классификацию кадра, и использует значение параметра t в качестве мультипликативного коэффициента в по меньшей мере одном члене функции, используемой для вычисления оценочного усиления вклада фиксированной кодовой книги для возбуждения с CELP;
кодовую книгу усилений для предоставления квантованного усиления вклада адаптивной кодовой книги для возбуждения с CELP и коэффициента коррекции для подкадра в ответ на индекс кодовой книги усилений; и
модуль умножения оценочного усиления на коэффициент коррекции, чтобы обеспечивать упомянутое квантованное усиление упомянутого вклада фиксированной кодовой книги для возбуждения с CELP в подкадре.
24. Устройство для извлечения квантованных усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 23, в котором кодовая книга усилений содержит записи, каждая из которых содержит квантованное усиление вклада адаптивной кодовой книги для возбуждения с CELP и коэффициент коррекции для оценочного усиления.
25. Устройство для извлечения квантованных усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 23, в котором кодовая книга усилений имеет разные размеры в разных подкадрах кадра.
26. Способ для квантования усиления вклада фиксированной кодовой книги для возбуждения с CELP в кадре, включающем в себя подкадры, кодируемого звукового сигнала, причем возбуждение с CELP подлежит обработке через синтезирующий фильтр LP, чтобы выработать синтез звукового сигнала, при этом способ содержит:
прием параметра t, имеющего значение, представляющее классификацию кадра;
оценку усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре упомянутого кадра с использованием значения параметра t, представляющего классификацию кадра, в качестве мультипликативного коэффициента в по меньшей мере одном члене функции, используемой для вычисления оценочного усиления вклада фиксированной кодовой книги для возбуждения с CELP; и
предсказывающее квантование усиления вклада фиксированной кодовой книги для возбуждения с CELP, в подкадре, используя оценочное усиление.
прием параметра t, имеющего значение, представляющее классификацию кадра;
оценку усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре упомянутого кадра с использованием значения параметра t, представляющего классификацию кадра, в качестве мультипликативного коэффициента в по меньшей мере одном члене функции, используемой для вычисления оценочного усиления вклада фиксированной кодовой книги для возбуждения с CELP; и
предсказывающее квантование усиления вклада фиксированной кодовой книги для возбуждения с CELP, в подкадре, используя оценочное усиление.
27. Способ квантования по п. 26, в котором предсказывающее квантование усиления вклада фиксированной кодовой книги для возбуждения с CELP содержит определение коэффициента коррекции для оценочного усиления в качестве квантования усиления вклада фиксированной кодовой книги для возбуждения с CELP, и при этом оценочное усиление, умноженное на коэффициент коррекции, дает квантованное усиление вклада фиксированной кодовой книги для возбуждения с CELP.
28. Способ квантования по п. 26, в котором оценка усиления вклада фиксированной кодовой книги для возбуждения с CELP содержит для первого подкадра кадра вычисление первой оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP в ответ на значение параметра t, представляющего классификацию кадра, и вычитание энергии фильтрованного обновляющего кодового вектора из фиксированной кодовой книги из первой оценки, чтобы получать оценочное усиление.
29. Способ квантования по п. 27, в котором оценка усиления вклада фиксированной кодовой книги для возбуждения с CELP содержит для первого подкадра кадра:
вычисление линейной оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP в логарифмической области в ответ на значение параметра t, представляющего классификацию кадра;
вычитание энергии фильтрованного обновляющего кодового вектора из фиксированной кодовой книги в логарифмической области из линейной оценки усиления, чтобы вырабатывать усиление в логарифмической области;
преобразование усиления в логарифмической области из вычитания в линейную область, чтобы вырабатывать оценочное усиление; и
умножение оценочного усиления на коэффициент коррекции, чтобы вырабатывать квантованное усиление вклада фиксированной кодовой книги для возбуждения с CELP.
вычисление линейной оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP в логарифмической области в ответ на значение параметра t, представляющего классификацию кадра;
вычитание энергии фильтрованного обновляющего кодового вектора из фиксированной кодовой книги в логарифмической области из линейной оценки усиления, чтобы вырабатывать усиление в логарифмической области;
преобразование усиления в логарифмической области из вычитания в линейную область, чтобы вырабатывать оценочное усиление; и
умножение оценочного усиления на коэффициент коррекции, чтобы вырабатывать квантованное усиление вклада фиксированной кодовой книги для возбуждения с CELP.
30. Способ квантования по п. 26, в котором оценка усиления вклада фиксированной кодовой книги для возбуждения с CELP для каждого подкадра упомянутого кадра, следующего за первым подкадром, является чувствительной к значению параметра t, представляющего классификацию кадра, и усилениям вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по меньшей мере одного предыдущего подкадра кадра, чтобы оценивать усиление вклада фиксированной кодовой книги для возбуждения с CELP.
31. Способ квантования по п. 30, в котором оценка усиления вклада фиксированной кодовой книги для возбуждения с CELP содержит для каждого подкадра, следующего за первым подкадром, вычисление линейной оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP в логарифмической области и преобразование в линейную область линейной оценки в логарифмической области, чтобы вырабатывать оценочное усиление.
32. Способ квантования по п. 31, в котором усиления вкладов адаптивной кодовой книги для возбуждения с CELP по меньшей мере одного предыдущего подкадра кадра являются квантованными усилениями и усиления вкладов фиксированной кодовой книги для возбуждения с CELP по меньшей мере одного предыдущего подкадра кадра являются квантованными усилениями в логарифмической области.
33. Способ квантования по п. 28, в котором вычисление оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP содержит использование в отношении параметра классификации коэффициентов оценки, определенных с использованием большой базы данных обучения.
34. Способ квантования по п. 31, в котором вычисление линейной оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP в логарифмической области содержит использование в отношении параметра классификации кадра и усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по меньшей мере одного предыдущего подкадра коэффициентов оценки, которые являются разными для каждого подкадра и определяются с использованием большой базы данных обучения.
35. Способ квантования по п. 26, в котором оценка усиления вклада фиксированной кодовой книги для возбуждения с CELP содержит использование для оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP коэффициентов оценки, различных для каждого подкадра кадра.
36. Способ квантования по п. 26, в котором оценка усиления вклада фиксированной кодовой книги для возбуждения с CELP ограничивается в кадре, чтобы увеличивать устойчивость против стирания кадров.
37. Способ для совместного квантования усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP в кадре кодируемого звукового сигнала, причем возбуждение с CELP подлежит обработке через синтезирующий фильтр LP, чтобы выработать синтез звукового сигнала, при этом способ содержит:
квантование усиления вклада адаптивной кодовой книги для возбуждения с CELP; и
квантование усиления вклада фиксированной кодовой книги для возбуждения с CELP с использованием способа по п. 26.
квантование усиления вклада адаптивной кодовой книги для возбуждения с CELP; и
квантование усиления вклада фиксированной кодовой книги для возбуждения с CELP с использованием способа по п. 26.
38. Способ для совместного квантования усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 37, используя кодовую книгу усилений, имеющую записи, каждая из которых содержит квантованное усиление вклада адаптивной кодовой книги для возбуждения с CELP и коэффициент коррекции для оценочного усиления.
39. Способ для совместного квантования усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 38, в котором квантование усиления вклада адаптивной кодовой книги для возбуждения с CELP и квантование усиления вклада фиксированной кодовой книги для возбуждения с CELP содержит поиск в кодовой книги усилений и выбор усиления вклада адаптивной кодовой книги для возбуждения с CELP из одной записи кодовой книги усилений и коэффициента коррекции той же записи кодовой книги усилений в качестве квантования усиления вклада фиксированной кодовой книги для возбуждения с CELP.
40. Способ для совместного квантования усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 38, содержащий построение кодовой книги усилений для каждого подкадра кадра.
41. Способ для совместного квантования усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 40, в котором кодовая книга усилений имеет разные размеры в разных подкадрах кадра.
42. Способ для совместного квантования усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 39, в котором квантование усиления вклада адаптивной кодовой книги для возбуждения с CELP и квантование усиления вклада фиксированной кодовой книги для возбуждения с CELP содержат поиск в кодовой книге усилений полностью в каждом подкадре.
43. Способ для извлечения квантованного усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре кадра кодированного звукового сигнала, причем возбуждение с CELP подлежит обработке через синтезирующий фильтр LP, чтобы выработать синтез звукового сигнала, при этом способ содержит:
прием индекса кодовой книги усилений;
оценку усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре с использованием значения параметра t, представляющего классификацию кадра, в качестве мультипликативного коэффициента в по меньшей мере одном члене функции, используемой для вычисления оценочного усиления вклада фиксированной кодовой книги для возбуждения с CELP;
предоставление из кодовой книги усилений и для подкадра коэффициента коррекции в ответ на индекс кодовой книги усилений; и
умножение оценочного усиления на коэффициент коррекции, чтобы обеспечивать квантованное усиление вклада фиксированной кодовой книги для возбуждения с CELP в упомянутом подкадре.
прием индекса кодовой книги усилений;
оценку усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре с использованием значения параметра t, представляющего классификацию кадра, в качестве мультипликативного коэффициента в по меньшей мере одном члене функции, используемой для вычисления оценочного усиления вклада фиксированной кодовой книги для возбуждения с CELP;
предоставление из кодовой книги усилений и для подкадра коэффициента коррекции в ответ на индекс кодовой книги усилений; и
умножение оценочного усиления на коэффициент коррекции, чтобы обеспечивать квантованное усиление вклада фиксированной кодовой книги для возбуждения с CELP в упомянутом подкадре.
44. Способ для извлечения квантованного усиления вклада фиксированной кодовой книги для возбуждения с CELP по п. 43, в котором оценка усиления вклада фиксированной кодовой книги для возбуждения с CELP содержит для первого подкадра кадра вычисление первой оценки усиления вклада фиксированной кодовой книги для возбуждения с CELP в ответ на значение параметра t, представляющего классификацию кадра, и вычитание энергии фильтрованного обновляющего кодового вектора из фиксированной кодовой книги из первой оценки, чтобы получать оценочное усиление.
45. Способ для извлечения квантованного усиления вклада фиксированной кодовой книги для возбуждения с CELP по п. 43, в котором оценка усиления вклада фиксированной кодовой книги для возбуждения с CELP содержит использование в каждом подкадре упомянутого кадра, следующего за первым подкадром, значения параметра t, представляющего классификацию кадра, и усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по меньшей мере одного предыдущего подкадра кадра, чтобы оценивать усиление вклада фиксированной кодовой книги для возбуждения с CELP.
46. Способ для извлечения квантованного усиления вклада фиксированной кодовой книги для возбуждения с CELP по п. 43, в котором оценка усиления вклада фиксированной кодовой книги для возбуждения с CELP содержит использование коэффициентов оценки, различных для каждого подкадра кадра.
47. Способ для извлечения квантованного усиления вклада фиксированной кодовой книги для возбуждения с CELP по п. 43, в котором оценка усиления вклада фиксированной кодовой книги для возбуждения с CELP ограничивает оценку усиления вклада фиксированной кодовой книги возбуждения с CELP в кадре, чтобы увеличивать устойчивость против стирания кадров.
48. Способ для извлечения квантованных усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP в подкадре кадра кодированного звукового сигнала, причем упомянутое CELP возбуждение подлежит обработке через синтезирующий фильтр LP, чтобы выработать синтез звукового сигнала, при этом способ содержит:
прием индекса кодовой книги усилений;
оценку усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре с использованием значения параметра t, представляющего классификацию кадра, в качестве мультипликативного коэффициента в по меньшей мере одном члене функции, используемой для вычисления оценочного усиления вклада фиксированной кодовой книги для возбуждения с CELP;
предоставление из кодовой книги усилений и для подкадра квантованного усиления вклада адаптивной кодовой книги для возбуждения с CELP и коэффициента коррекции в ответ на индекс кодовой книги усилений; и
умножение оценочного усиления на коэффициент коррекции, чтобы обеспечивать упомянутое квантованное усиление вклада фиксированной кодовой книги для возбуждения с CELP в подкадре.
прием индекса кодовой книги усилений;
оценку усиления вклада фиксированной кодовой книги для возбуждения с CELP в подкадре с использованием значения параметра t, представляющего классификацию кадра, в качестве мультипликативного коэффициента в по меньшей мере одном члене функции, используемой для вычисления оценочного усиления вклада фиксированной кодовой книги для возбуждения с CELP;
предоставление из кодовой книги усилений и для подкадра квантованного усиления вклада адаптивной кодовой книги для возбуждения с CELP и коэффициента коррекции в ответ на индекс кодовой книги усилений; и
умножение оценочного усиления на коэффициент коррекции, чтобы обеспечивать упомянутое квантованное усиление вклада фиксированной кодовой книги для возбуждения с CELP в подкадре.
49. Способ для извлечения квантованных усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 48, в котором кодовая книга усилений содержит записи, каждая из которых содержит квантованное усиление вклада адаптивной кодовой книги для возбуждения с CELP и коэффициент коррекции для оценочного усиления.
50. Способ для извлечения квантованных усилений вкладов адаптивной и фиксированной кодовых книг для возбуждения с CELP по п. 48, в котором кодовая книга усилений имеет разные размеры в разных подкадрах кадра.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161442960P | 2011-02-15 | 2011-02-15 | |
US61/442,960 | 2011-02-15 | ||
PCT/CA2012/000138 WO2012109734A1 (en) | 2011-02-15 | 2012-02-14 | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2013142151A RU2013142151A (ru) | 2015-03-27 |
RU2591021C2 true RU2591021C2 (ru) | 2016-07-10 |
Family
ID=46637577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2013142151/08A RU2591021C2 (ru) | 2011-02-15 | 2012-02-14 | Устройство и способ для квантования усилений адаптивного и фиксированного вкладов возбуждения в кодеке celp |
Country Status (18)
Country | Link |
---|---|
US (1) | US9076443B2 (ru) |
EP (2) | EP2676271B1 (ru) |
JP (2) | JP6072700B2 (ru) |
KR (1) | KR101999563B1 (ru) |
CN (2) | CN104505097B (ru) |
AU (1) | AU2012218778B2 (ru) |
CA (1) | CA2821577C (ru) |
DE (1) | DE20163502T1 (ru) |
DK (1) | DK2676271T3 (ru) |
ES (1) | ES2812598T3 (ru) |
HR (1) | HRP20201271T1 (ru) |
HU (1) | HUE052882T2 (ru) |
LT (1) | LT2676271T (ru) |
MX (1) | MX2013009295A (ru) |
RU (1) | RU2591021C2 (ru) |
SI (1) | SI2676271T1 (ru) |
WO (1) | WO2012109734A1 (ru) |
ZA (1) | ZA201305431B (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2754437C1 (ru) * | 2017-09-20 | 2021-09-02 | Войсэйдж Корпорейшн | Способ и устройство для распределения битового бюджета между подкадрами в celp-кодеке |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9626982B2 (en) * | 2011-02-15 | 2017-04-18 | Voiceage Corporation | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec |
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
ES2547457T3 (es) | 2012-09-11 | 2015-10-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Generación de ruido de confort |
FR3007563A1 (fr) * | 2013-06-25 | 2014-12-26 | France Telecom | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
CN104299614B (zh) * | 2013-07-16 | 2017-12-29 | 华为技术有限公司 | 解码方法和解码装置 |
CN108364657B (zh) | 2013-07-16 | 2020-10-30 | 超清编解码有限公司 | 处理丢失帧的方法和解码器 |
EP3038104B1 (en) * | 2013-08-22 | 2018-12-19 | Panasonic Intellectual Property Corporation of America | Speech coding device and method for same |
JP6366705B2 (ja) | 2013-10-18 | 2018-08-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念 |
MX355091B (es) | 2013-10-18 | 2018-04-04 | Fraunhofer Ges Forschung | Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz. |
CN105225666B (zh) | 2014-06-25 | 2016-12-28 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
US11710492B2 (en) * | 2019-10-02 | 2023-07-25 | Qualcomm Incorporated | Speech encoding using a pre-encoded database |
CN117476022A (zh) * | 2022-07-29 | 2024-01-30 | 荣耀终端有限公司 | 声音编解码方法以及相关装置、系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5970442A (en) * | 1995-05-03 | 1999-10-19 | Telefonaktiebolaget Lm Ericsson | Gain quantization in analysis-by-synthesis linear predicted speech coding using linear intercodebook logarithmic gain prediction |
RU2257556C2 (ru) * | 2000-05-19 | 2005-07-27 | Конексант Системз, Инк. | Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением |
US7191122B1 (en) * | 1999-09-22 | 2007-03-13 | Mindspeed Technologies, Inc. | Speech compression system and method |
RU2316059C2 (ru) * | 2003-05-01 | 2008-01-27 | Нокиа Корпорейшн | Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5681862A (en) * | 1993-03-05 | 1997-10-28 | Buckman Laboratories International, Inc. | Ionene polymers as microbicides |
US5450449A (en) * | 1994-03-14 | 1995-09-12 | At&T Ipm Corp. | Linear prediction coefficient generation during frame erasure or packet loss |
CA2185745C (en) * | 1995-09-19 | 2001-02-13 | Juin-Hwey Chen | Synthesis of speech signals in the absence of coded parameters |
JP3230966B2 (ja) * | 1995-10-09 | 2001-11-19 | 日本ガスケット株式会社 | 金属製ガスケット |
TW326070B (en) * | 1996-12-19 | 1998-02-01 | Holtek Microelectronics Inc | The estimation method of the impulse gain for coding vocoder |
US5953679A (en) * | 1997-04-16 | 1999-09-14 | The United States Of America As Represented By The Secretary Of Army | Method for recovery and separation of trinitrotoluene by supercritical fluid extraction |
FI113571B (fi) * | 1998-03-09 | 2004-05-14 | Nokia Corp | Puheenkoodaus |
US6141638A (en) * | 1998-05-28 | 2000-10-31 | Motorola, Inc. | Method and apparatus for coding an information signal |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6314393B1 (en) * | 1999-03-16 | 2001-11-06 | Hughes Electronics Corporation | Parallel/pipeline VLSI architecture for a low-delay CELP coder/decoder |
CN1075733C (zh) * | 1999-07-30 | 2001-12-05 | 赵国林 | 一种养颜口服液及其制作方法 |
EP1132892B1 (en) * | 1999-08-23 | 2011-07-27 | Panasonic Corporation | Speech encoding and decoding system |
AU7486200A (en) * | 1999-09-22 | 2001-04-24 | Conexant Systems, Inc. | Multimode speech encoder |
US6636829B1 (en) * | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
US6574593B1 (en) * | 1999-09-22 | 2003-06-03 | Conexant Systems, Inc. | Codebook tables for encoding and decoding |
DE60233283D1 (de) * | 2001-02-27 | 2009-09-24 | Texas Instruments Inc | Verschleierungsverfahren bei Verlust von Sprachrahmen und Dekoder dafer |
US20070282601A1 (en) * | 2006-06-02 | 2007-12-06 | Texas Instruments Inc. | Packet loss concealment for a conjugate structure algebraic code excited linear prediction decoder |
US8010351B2 (en) * | 2006-12-26 | 2011-08-30 | Yang Gao | Speech coding system to improve packet loss concealment |
US8655650B2 (en) * | 2007-03-28 | 2014-02-18 | Harris Corporation | Multiple stream decoder |
-
2012
- 2012-02-14 DE DE20163502.6T patent/DE20163502T1/de active Pending
- 2012-02-14 CA CA2821577A patent/CA2821577C/en active Active
- 2012-02-14 SI SI201231825T patent/SI2676271T1/sl unknown
- 2012-02-14 LT LTEP12746553.2T patent/LT2676271T/lt unknown
- 2012-02-14 KR KR1020137022984A patent/KR101999563B1/ko active IP Right Grant
- 2012-02-14 US US13/396,371 patent/US9076443B2/en active Active
- 2012-02-14 RU RU2013142151/08A patent/RU2591021C2/ru active
- 2012-02-14 EP EP12746553.2A patent/EP2676271B1/en active Active
- 2012-02-14 CN CN201510023526.6A patent/CN104505097B/zh active Active
- 2012-02-14 WO PCT/CA2012/000138 patent/WO2012109734A1/en active Application Filing
- 2012-02-14 HU HUE12746553A patent/HUE052882T2/hu unknown
- 2012-02-14 DK DK12746553.2T patent/DK2676271T3/da active
- 2012-02-14 MX MX2013009295A patent/MX2013009295A/es active IP Right Grant
- 2012-02-14 AU AU2012218778A patent/AU2012218778B2/en active Active
- 2012-02-14 CN CN201280008952.7A patent/CN103392203B/zh active Active
- 2012-02-14 ES ES12746553T patent/ES2812598T3/es active Active
- 2012-02-14 EP EP20163502.6A patent/EP3686888A1/en active Pending
- 2012-02-14 JP JP2013552805A patent/JP6072700B2/ja active Active
-
2013
- 2013-07-18 ZA ZA2013/05431A patent/ZA201305431B/en unknown
-
2016
- 2016-12-27 JP JP2016252938A patent/JP6316398B2/ja active Active
-
2020
- 2020-08-11 HR HRP20201271TT patent/HRP20201271T1/hr unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5970442A (en) * | 1995-05-03 | 1999-10-19 | Telefonaktiebolaget Lm Ericsson | Gain quantization in analysis-by-synthesis linear predicted speech coding using linear intercodebook logarithmic gain prediction |
US7191122B1 (en) * | 1999-09-22 | 2007-03-13 | Mindspeed Technologies, Inc. | Speech compression system and method |
RU2257556C2 (ru) * | 2000-05-19 | 2005-07-27 | Конексант Системз, Инк. | Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением |
RU2262748C2 (ru) * | 2000-05-19 | 2005-10-20 | Конексант Системз, Инк. | Многорежимное устройство кодирования |
US7660712B2 (en) * | 2000-05-19 | 2010-02-09 | Mindspeed Technologies, Inc. | Speech gain quantization strategy |
RU2316059C2 (ru) * | 2003-05-01 | 2008-01-27 | Нокиа Корпорейшн | Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи |
US7778827B2 (en) * | 2003-05-01 | 2010-08-17 | Nokia Corporation | Method and device for gain quantization in variable bit rate wideband speech coding |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2754437C1 (ru) * | 2017-09-20 | 2021-09-02 | Войсэйдж Корпорейшн | Способ и устройство для распределения битового бюджета между подкадрами в celp-кодеке |
US11276412B2 (en) | 2017-09-20 | 2022-03-15 | Voiceage Corporation | Method and device for efficiently distributing a bit-budget in a CELP codec |
US11276411B2 (en) | 2017-09-20 | 2022-03-15 | Voiceage Corporation | Method and device for allocating a bit-budget between sub-frames in a CELP CODEC |
Also Published As
Publication number | Publication date |
---|---|
MX2013009295A (es) | 2013-10-08 |
EP3686888A1 (en) | 2020-07-29 |
EP2676271B1 (en) | 2020-07-29 |
JP2014509407A (ja) | 2014-04-17 |
WO2012109734A1 (en) | 2012-08-23 |
DE20163502T1 (de) | 2020-12-10 |
US9076443B2 (en) | 2015-07-07 |
CN103392203B (zh) | 2017-04-12 |
CA2821577C (en) | 2020-03-24 |
NZ611801A (en) | 2015-06-26 |
EP2676271A4 (en) | 2016-01-20 |
HUE052882T2 (hu) | 2021-06-28 |
ZA201305431B (en) | 2016-07-27 |
KR20140023278A (ko) | 2014-02-26 |
HRP20201271T1 (hr) | 2020-11-13 |
ES2812598T3 (es) | 2021-03-17 |
LT2676271T (lt) | 2020-12-10 |
AU2012218778A1 (en) | 2013-07-18 |
CN104505097A (zh) | 2015-04-08 |
KR101999563B1 (ko) | 2019-07-15 |
CA2821577A1 (en) | 2012-08-23 |
RU2013142151A (ru) | 2015-03-27 |
EP2676271A1 (en) | 2013-12-25 |
CN103392203A (zh) | 2013-11-13 |
DK2676271T3 (da) | 2020-08-24 |
JP6072700B2 (ja) | 2017-02-01 |
AU2012218778B2 (en) | 2016-10-20 |
JP6316398B2 (ja) | 2018-04-25 |
WO2012109734A8 (en) | 2012-09-27 |
CN104505097B (zh) | 2018-08-17 |
US20120209599A1 (en) | 2012-08-16 |
SI2676271T1 (sl) | 2020-11-30 |
JP2017097367A (ja) | 2017-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2591021C2 (ru) | Устройство и способ для квантования усилений адаптивного и фиксированного вкладов возбуждения в кодеке celp | |
CN105825861B (zh) | 确定加权函数的设备和方法以及量化设备和方法 | |
JP3254687B2 (ja) | 音声符号化方式 | |
WO2024021747A1 (zh) | 声音编解码方法以及相关装置、系统 | |
KR102099293B1 (ko) | 오디오 인코더 및 오디오 신호를 인코딩하는 방법 | |
US10115408B2 (en) | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec | |
CN100487790C (zh) | 选择自适应码本激励信号的方法和装置 | |
NZ611801B2 (en) | Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec | |
JP3146511B2 (ja) | 音声符号化方式 | |
JPH10105196A (ja) | 音声符号化装置 | |
Windmann et al. | Iterative speech enhancement using a non-linear dynamic state model of speech and its parameters | |
JP2002244700A (ja) | 音声符号化装置、音声符号化方法および記憶素子 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20220301 |