RU2351907C2

RU2351907C2 - Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком)

Info

Publication number: RU2351907C2
Application number: RU2005113876/09A
Authority: RU
Inventors: Милан ЖЕЛИНЕК (CA); Милан ЖЕЛИНЕК; Редван САЛАМИ (CA); Редван САЛАМИ
Original assignee: Нокиа Корпорейшн
Priority date: 2002-10-11
Filing date: 2003-10-10
Publication date: 2009-04-10
Also published as: CA2501369A1; EP1554718A2; WO2004034379A3; KR20050049538A; AU2003278014A1; DE60336744D1; JP2006502426A; EP1554718B1; RU2331933C2; CA2501368A1; WO2004034376A2; BR0315216A; AU2003278014A8; US20050267746A1; KR100711280B1; RU2005113877A; MY138212A; CA2501368C; EG23923A; CN1703736A

Abstract

Изобретение относится к цифровому кодированию звуковых сигналов. Предложен управляемый источником многорежимный широкополосный кодек с переменной скоростью в битах, имеющий режим работы, обеспечивающий возможность взаимодействия с адаптивным многоскоростным широкополосным кодеком, при этом предлагаемый кодек предусматривает, по меньшей мере, один режим кодирования с полной скоростью, обеспечивающей возможность взаимодействия, имеющий первую структуру распределения битов, основанную на одном из типов кодирования кодеком, и, по меньшей мере, один тип кодирования посредством генерирования комфортного шума для кодирования неактивного речевого кадра, имеющий вторую структуру распределения битов, основанную на типе кодирования кадров обновления дескрипторов пауз кодеком. Также предложены способы цифрового кодирования звука с использованием управляемого источником кодека для осуществления взаимодействия с кодеком и преобразования кадра сигнала кодека. Техническим результатом от использования изобретения является эффективное взаимодействие между адаптивным многоскоростным широкополосным кодеком и многорежимным широкополосным кодеком с переменной скоростью в битах. 2 н. и 37 з.п. ф-лы, 12 ил., 7 табл.

Description

Область техники

Настоящее изобретение относится к цифровому кодированию звуковых сигналов, в частности, но не исключительно, речевого сигнала, принимая во внимание передачу и синтез этого звукового сигнала. Более конкретно, настоящее изобретение относится к способу осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком и многорежимным широкополосным кодеком с переменной скоростью в битах.

Предшествующий уровень техники

Спрос на эффективные цифровые методы узкополосного и широкополосного кодирования речи с приемлемым компромиссом между субъективным качеством и скоростью в битах растет в различных областях применения, таких как организация телеконференций, мультимедиа и беспроводная связь. Вплоть до недавнего времени полосу пропускания телефонной связи, ограниченную диапазоном 200-3400 Гц, использовали в основном для приложений кодирования речи. Однако широкополосные речевые приложения обеспечивают повышенную разборчивость и естественность связи по сравнению с обычной полосой пропускания телефонной связи. Обнаружено, что полоса пропускания в диапазоне 50-7000 Гц является достаточной для предоставления надлежащего качества обслуживания, создающего впечатление общения лицом к лицу. В случае обычных аудиосигналов эта полоса пропускания дает приемлемое субъективное качество, но все же более низкое, чем качество средств радиосвязи с частотной модуляцией или звучания компакт-дисков, которые работают в диапазонах 20-16000 Гц и 20-20000 Гц, соответственно.

Речевой кодер преобразует речевой сигнал в цифровой поток битов, который передается по каналу связи или хранится на носителе информации. Речевой сигнал преобразуется в цифровую форму, то есть дискретизируется и квантуется, обычно, с 16 битами на выборку. Речевой кодер выполняет функцию представления этих цифровых выборок меньшим количеством битов, поддерживая при этом надлежащее субъективное качество речи. Речевой декодер или синтезатор обрабатывает переданный или сохраненный поток битов и преобразует его обратно в звуковой сигнал.

Хорошо известным путем достижения надлежащего компромисса между субъективным качеством и скоростью в битах является кодирование методом линейного предсказания с кодовым возбуждением (CELP). Этот метод кодирования является основой нескольких стандартов кодирования речи как в беспроводных, так и в проводных приложениях. В случае CELP-кодирования дискретизированный речевой сигнал обрабатывается в последовательных блоках выборок длительностью L, обычно называемых кадрами, где L - предварительно определенное число, в типичном случае соответствующее 10-30 мс. Фильтр линейного предсказания (LP-фильтр) рассчитывается и передается в каждом кадре. Расчет LP-фильтра, как правило, требует упреждающего сегмента речи длительностью 5-15 мс из последующего кадра. Кадр выборки длительностью L делится на меньшие блоки, называемый субкадрами. Количество субкадров обычно составляет три или четыре, что приводит к получению субкадров длительностью 4-10 мс. В каждом субкадре обычно получается сигнал возбуждения из двух компонентов - прошлого возбуждения и нового возбуждения - по фиксированной кодовой книге. Компонент, образуемый из прошлого возбуждения, часто называют возбуждением по адаптивной кодовой книге или возбуждением основного тона. Параметры, характеризующие сигнал возбуждения, кодируются и передаются в декодер, где восстановленный сигнал возбуждения используется в качестве входного для LP-фильтра.

В беспроводных системах, использующих технологию множественного доступа с кодовым разделением каналов (CDMA), применение управляемого источником кодирования речи с переменной скоростью в битах (VBR-кодирования речи) значительно увеличивает пропускную способность системы. При управляемом источником VBR-кодировании речи кодер работает на нескольких скоростях в битах, а для определения скорости в битах, используемой при кодировании каждого речевого кадра на основании характера этого речевого кадра (например, вокализованного, невокализованного, переходного, фонового шума), используется модуль выбора скорости. Целью является достижение наивысшего качества речи при некоторой заданной средней скорости в битах, называемой также средней скоростью передачи данных (ADR). Кодек может работать в разных режимах за счет настройки модуля выбора скорости на достижение разных ADR в разных режимах, при этом рабочая характеристика кодека улучшается при повышенных ADR. Режим работы задается системой в зависимости от канальных условий. Это обеспечивает кодек механизмом достижения компромисса между качеством речи и пропускной способностью системы.

В типичном случае при VBR-кодировании для CDMA-систем используется одна восьмая скорости для кодирования кадров без речевой активности (т.е. кадров пауз или только шума). Когда кадр является стационарно вокализованным или стационарно невокализованным, используется половинная скорость или четвертная скорость, в зависимости от рабочего режима. Если можно использовать половинную скорость, то применяется CELP-модель без кодовой книги основных тонов в случае невокализованного кадра, а в случае вокализованного кадра применяется модификация сигнала для повышения периодичности и уменьшения количества битов для индексов основного тона. Если рабочий режим обуславливает четвертную скорость, согласование сигналов обычно невозможно, поскольку количество битов оказывается недостаточным, и обычно применяется параметрическое кодирование. Полная скорость используется для начальных кадров, переходных кадров и смешанных вокализованных кадров (как правило, используется типичная CELP-модель). В дополнение к управляемой источником работе кодека в CDMA-системах система может ограничивать максимальную скорость в битах в некоторых речевых кадрах для посылки информации внутриполосной сигнализации (называемой размерно-пакетной сигнализацией), или во время плохих канальных условий (например, вблизи границ ячейки), чтобы повысить робастность кодека. Эта скорость упоминается как максимум, равный половинной скорости. Когда модуль выбора скорости выбирает кодируемый кадр как кадр полной скорости, а система накладывает ограничение, например, предписывая кадр половинной скорости (HR-кадра), рабочая характеристика речи ухудшается, потому что специализированные режимы половинной скорости (HR-режимы) не могут обеспечить эффективное кодирование начальных сигналов и переходных сигналов. Для обработки в этих специальных случаях можно предусмотреть другую модель кодирования c половинной скоростью (HR) (или с четвертной скоростью (QR)).

Как можно заметить из вышеизложенного описания, классификация сигналов и определение скорости очень важны для эффективного VBR-кодирования. Выбор скорости является ключевой частью достижения наименьшей средней скорости передачи данных с наилучшим возможным качеством.

Адаптивный многоскоростной широкополосный (AMR-WB) речевой кодек был недавно выбран Сектором стандартизации электросвязи Международного союза электросвязи (ITU-T) для нескольких вариантов широкополосных речевых услуг, а группой "Проект партнерства в создании систем третьего поколения" (3GGP) - для беспроводных систем третьего поколения, работающих в соответствии со стандартами Глобальной системы мобильной электросвязи (GSM) и широкополосного множественного доступа с кодовым разделением каналов (W-CDMA). AMR-WB-кодек предусматривает девять скоростей в битах, а именно 6,6, 8,85, 12,65, 14,25, 15,85, 18,25, 19,85, 23,05 и 23,85 кбит/с. Таким образом, желательным оказывается взаимодействие между CDMA-WB- и AMR-WB-кодеками.

Задачи изобретения

Задача настоящего изобретения в целом состоит в том, чтобы разработать усовершенствованные способы классификации сигналов и выбора скорости для широкополосного кодирования речи с переменной скоростью, в частности в том, чтобы разработать усовершенствованные способы классификации сигналов и выбора скорости для многорежимного широкополосного кодирования речи с переменной скоростью, пригодного для CDMA-систем. Еще одна задача состоит в том, чтобы разработать способы осуществления эффективного взаимодействия между широкополосным VBR-кодеком для CDMA-систем и стандартным AMR-WB кодеком.

Сущность изобретения

Более конкретно, в соответствии с первым аспектом настоящего изобретения предложен управляемый источником многорежимный широкополосный кодек с переменной скоростью в битах (VMR-WB-кодек), имеющий режим работы, который обеспечивает возможность взаимодействия с адаптивным многоскоростным широкополосным кодеком (AMR-WB-кодеком), при этом предлагаемый кодек предусматривает

по меньшей мере, один тип кодирования с полной скоростью, обеспечивающей возможность взаимодействия (I-FR-кодирования), при этом упомянутый, по меньшей мере, один тип I-FR-кодирования имеет первую структуру распределения битов, основанную на типах AMR-WB-кодирования, и

по меньшей мере, один тип кодирования посредством генерирования комфортного шума (CNG) для кодирования неактивного речевого кадра, имеющий вторую структуру распределения битов, основанную на типе AMR-WB-кодирования кадров обновления дескрипторов пауз (SID_UPDATE-кадров).

В соответствии со вторым аспектом настоящего изобретения предложен способ цифрового кодирования звука с использованием управляемого источником многорежимного широкополосного кодека с переменной скоростью в битах (VMR-WB-кодека) для осуществления взаимодействия с адаптивным многоскоростным широкополосным кодеком (AMR-WB-кодеком), заключающийся в том, что

обеспечивают кадры сигнала из дискретизированной версии звука,

для каждого кадра сигнала

i) определяют, является ли кадр сигнала активным речевым кадром или неактивным речевым кадром,

ii) если кадр сигнала является неактивным речевым кадром, то проверяют, является ли этот кадр сигнала кадром дескриптора паузы (SID-кадром),

iii) если кадр сигнала является SID-кадром, то кодируют этот кадр сигнала с помощью алгоритма кодирования посредством генерирования комфортного шума (CNG) с четвертной скоростью (QR) (QR-кодирования посредством CNG),

iv) если кадр сигнала является неактивным речевым кадром, который не является SID-кадром, то кодируют этот кадр сигнала с помощью алгоритма кодирования посредством CNG с одной восьмой скорости (ER) (ER-кодирования посредством CNG), и

v) если кадр сигнала является активным речевым кадром, то кодируют этот кадр сигнала с использованием структуры распределения битов, основанной на AMR-WB-кодеке.

В соответствии с третьим аспектом настоящего изобретения предложен способ преобразования кадра сигнала многорежимного широкополосного кодека с переменной скоростью в битах (VMR-WB-кодека) в кадр сигнала адаптивного многоскоростного широкополосного кодека (AMR-WB-кодека), при этом способ заключается в том, что

i) определяют, является ли кадр сигнала одним из кадра полной скорости с возможностью взаимодействия (I-FR-кадра), кадра половинной скорости с возможностью взаимодействия (I-HR-кадра), кадра генерирования комфортного шума четвертной скорости (CNG-QR-кадра) и кадра генерирования комфортного шума одной восьмой скорости (CNG-ER-кадра),

ii) если кадр сигнала является I-FR-кадром, то пересылают этот кадр сигнала как AMR-WB-кадр, отбрасывая первую группу битов кадра,

iii) если кадр сигнала является I-HR-кадром, то пересылают этот кадр сигнала как AMR-WB-кадр путем генерирования отсутствующих индексов алгебраической кодовой книги и отбрасывания битов, указывающих тип I-HR-кадра,

iv) если кадр сигнала является кадром генерирования комфортного шума (CNG) четвертной скорости (QR) (CNG-QR-кадром), то пересылают этот кадр сигнала как кадр обновления дескриптора паузы (SID_UPDATE-кадр), и

v) если кадр сигнала является кадром генерирования комфортного шума (CNG) одной восьмой скорости (ER) (CNG-ER-кадром), то пересылают этот кадр сигнала как кадр без данных (NO_DATA-кадр).

В соответствии с четвертым аспектом настоящего изобретения предложен способ преобразования кадра сигнала адаптивного многоскоростного широкополосного кодека (AMR-WB-кодека) в кадр сигнала многорежимного широкополосного кодека с переменной скоростью в битах (VMR-WB-кодека), при этом способ заключается в том, что

i) определяют, является ли кадр сигнала одним из кадра обновления дескриптора паузы (SID_UPDATE-кадра), первого кадра дескриптора паузы (SID_FIRST-кадра), кадра без данных (NO_DATA-кадра), стертого кадра и кадра полной скорости (FR-кадра),

ii) если кадр сигнала является SID_UPDATE-кадром, то пересылают этот кадр сигнала как кадр генерирования комфортного шума (CNG) четвертной скорости (QR) (CNG-QR-кадр),

iii) если кадр сигнала является SID_FIRST-кадром или NO_DATA-кадром, то пересылают этот кадр сигнала как кадр пробела одной восьмой скорости (ER) (ER-кадр пробела),

iv) если кадр сигнала является стертым кадром, то пересылают этот кадр сигнала как кадр стирания одной восьмой скорости (ER) (ER-кадр стирания),

v) если кадр сигнала является кадром скорости 12,65, 8,85 или 6,6 кбит/с, имеющим флаг принятия решения о речевой активности, равный единице (РРА_флаг=1), то пересылают этот кадр сигнала как кадр полной скорости с возможностью взаимодействия (I-FR-кадр),

vi) если кадр сигнала является кадром скорости 12,65, 8,85 или 6,6 кбит/с, имеющим флаг принятия решения о речевой активности, равный нулю (РРА_флаг=0), то определяют, является ли этот кадр сигнала первым кадром после активной речи,

vii) если кадр сигнала имеет РРА_флаг=0 и этот кадр сигнала является первым кадром после активной речи, то пересылают этот кадр сигнала как I-FR-кадр, а

viii) если кадр сигнала имеет РРА_флаг=0 и этот кадр сигнала не является первым кадром после активной речи, то пересылают этот кадр сигнала как кадр пробела одной восьмой скорости (ER-кадр пробела).

Другие задачи, преимущества и признаки настоящего изобретения поясняются в нижеследующем неограничительном описании иллюстративных вариантов осуществления изобретения, приводимых лишь в качестве примера, со ссылками на прилагаемые чертежи.

Краткое описание чертежей

Фиг.1 - блок-схема системы речевой связи, иллюстрирующая применение устройств кодирования и декодирования речи в соответствии с первым аспектом настоящего изобретения;

фиг.2 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в соответствии с первым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.3 - схема последовательности операций, иллюстрирующая способ различения невокализованного кадра в соответствии с иллюстративным вариантом осуществления третьего аспекта настоящего изобретения,

фиг.4 - схема последовательности операций, иллюстрирующая способ различения устойчивого вокализованного кадра в соответствии с иллюстративным вариантом осуществления четвертого аспекта настоящего изобретения,

фиг.5 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в высококачественном режиме в соответствии со вторым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.6 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в стандартном режиме в соответствии с третьим иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.7 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в экономичном режиме в соответствии с четвертым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.8 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в режиме, обеспечивающем возможность взаимодействия, в соответствии с пятым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.9 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в высококачественном или стандартном режиме во время работы на максимуме, равном половинной скорости, в соответствии с шестым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.10 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в экономичном режиме во время работы на максимуме, равном половинной скорости, в соответствии с седьмым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,

фиг.11 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в режиме, обеспечивающем возможность взаимодействия, во время работы на максимуме, равном половинной скорости, в соответствии с восьмым иллюстративным вариантом осуществления второго аспекта настоящего изобретения, и

фиг.12 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала с обеспечением взаимодействия между многорежимным широкополосным кодеком с переменной скоростью в битах (VMR-WB-кодеком) и адаптивным многорежимным широкополосным кодеком (AMR-WB-кодеком) в соответствии с иллюстративным вариантом осуществления пятого аспекта настоящего изобретения.

Подробное описание изобретения

На фиг.1 изображена система 10 речевой связи, демонстрирующая применение кодирования и декодирования речи в соответствии с иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Система 10 речевой связи поддерживает передачу и воспроизведение речевого сигнала по каналу 12 связи. Канал 12 связи может представлять собой провод, оптическую либо волоконную линию, или радиочастотную линию. Канал 12 связи также может представлять собой комбинацию различных сред передачи, например, быть частично волоконной линией, а частично - радиочастотной линией. Радиочастотная линия может обеспечивать поддержку множества одновременных речевых передач, требующих совместно используемых ресурсов полосы пропускания, например, в сотовой телефонии. В качестве альтернативы, канал связи может быть заменен запоминающим устройством (не показано) в варианте осуществления системы связи с одним устройством, которое обеспечивает запись и хранение кодированного речевого сигнала для последующего воспроизведения.

Система 10 связи включает в себя кодирующее устройство, состоящее из микрофона 14, аналого-цифрового преобразователя 16, речевого кодера 18 и канального кодера 20 на излучающей (передающей) стороне канала 12 связи, а также канальный декодер 22, речевой декодер 24, цифро-аналоговый преобразователь 26 и динамик 28 на принимающей стороне.

Микрофон 14 вырабатывает аналоговый речевой сигнал, который подается в аналогово-цифровой (АЦ) преобразователь 16 для преобразования этого сигнала в цифровую форму. Речевой кодер 18 кодирует преобразованный в цифровую форму речевой сигнал, вырабатывая набор параметров, которые кодируются с получением их двоичного представления и подаются в канальный кодер 20. Устанавливаемый по выбору канальный кодер 20 вносит избыточность в двоичное представление параметров кодирования перед передачей их по каналу 12 связи. Кроме того, в некоторых приложениях, таких, как приложения в пакетных сетях, осуществляется пакетирование кодированных кадров перед передачей.

На принимающей стороне канальный декодер 22 использует избыточную информацию в принимаемом потоке битов для обнаружения и исправления канальных ошибок, возникающих при передаче. Речевой декодер 24 преобразует поток битов, принимаемый из канального декодера 20, обратно в набор параметров кодирования, чтобы создать синтезированный речевой сигнал. Синтезированный речевой сигнал, восстановленный в речевом декодере 24, преобразуется в аналоговую форму в цифро-аналоговом (ЦА) преобразователе 26 и воспроизводится в блоке 28 динамика.

Микрофон 14 и/или АЦ преобразователь 16 могут быть заменены в некоторых конкретных вариантах осуществления другими источниками речи для речевого кодера 18.

Кодер 20 и декодер 22 конфигурированы с обеспечением возможности воплощения способа кодирования речевого сигнала в соответствии с настоящим изобретением, как описано ниже

Классификация сигналов

На фиг.2 проиллюстрирован способ 100 цифрового кодирования речевого сигнала в соответствии с первым иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Способ 100 включает в себя классификацию речевых сигналов в соответствии с иллюстративным вариантом осуществления второго аспекта настоящего изобретения. Следует отметить, что выражение "речевой сигнал" относится к голосовым сигналам, а также к любому мультимедийному сигналу, который может включать в себя звучащую часть, например, аудиочасть с речевым содержанием (речь между фрагментами музыки, речь с фоновой музыкой, речь со специальными звуковыми эффектами и т.д.).

Как показано на фиг.2, классификацию сигналов проводят в три этапа - 102, 106 и 110, на каждом из которых обеспечивают различение конкретного класса сигналов. Сначала на этапе 102, классификатор первого уровня в форме детектора речевой активности (VAD) (не показан) осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр, то способ 100 кодирования оканчивается кодированием текущего кадра, например, посредством генерирования комфортного шума (CNG) (этап 104). Если на этапе 102 обнаруживается активный речевой кадр, то этот кадр подвергается воздействию классификатора второго уровня (не показан), конфигурированного с обеспечением возможности различения невокализованных кадров. Если классификатор на этапе 106 классифицирует кадр как невокализованной речевой сигнал, то способ 100 кодирования оканчивается на этапе 108, где кадр кодируется способом кодирования, оптимизированным для невокализованных сигналов. В противном случае речевой кадр на этапе 110 пропускается через классификатор третьего уровня (не показан) в форме модуля классификации "устойчивых вокализованных" сигналов (не показан). Если текущий кадр классифицируется как устойчивый вокализованный кадр, то этот кадр кодируется способом кодирования, оптимизированным для устойчивых вокализованных сигналов (этап 112). В противном случае кадр, вероятно, содержит неустойчивый речевой сегмент, например, вокализованный начальный сигнал или часть быстро эволюционирующего сигнала, и этот кадр кодируется с помощью речевого кодера общего назначения с высокой скоростью в битах, позволяющей поддерживать надлежащее субъективное качество (этап 114). Отметим, что если относительная энергия кадра ниже, чем некоторый порог, то эти кадры можно кодировать общим способом кодирования с более низкой скоростью, чтобы дополнительно уменьшить среднюю скорость передачи данных.

Классификаторы и кодеры могут принимать многие формы - от электронных схем до однокристального процессора.

В нижеследующем описании приведено более подробное пояснение классификации различных типов речевого сигнала, а также описаны способы классификации невокализованной и вокализованной речи.

Различение неактивных речевых кадров (с помощью детектора речевой активности)

Различение неактивных речевых кадров осуществляется на этапе 102 с помощью детектора речевой активности (VAD). Схема VAD хорошо известна специалисту в данной области техники, так что более подробное описание ее здесь будет опущено. Пример VAD описан в работе [5].

Различение невокализованных активных речевых кадров

Невокализованные части речевого сигнала характеризуются отсутствием периодичности и могут быть дополнительно подразделены на неустойчивые кадры, в которых энергия и спектр претерпевают быстрое изменение, и устойчивые кадры, в которых упомянутые характеристики остаются относительно неизменными.

На этапе 106 различение невокализованных кадров осуществляется с использованием, по меньшей мере, трех из следующих параметров:

меры звучания, которую можно вычислить как усредненную нормализованную корреляцию (

),

меры (е_t) спектрального наклона,

отношения (dE) энергий сигналов, используемого для оценки вариации энергии кадра в пределах кадра, а значит, и устойчивости кадра, и

относительной энергии кадра.

Мера звучания

На фиг.3 иллюстрируется способ 200 различения невокализованного кадра в соответствии с иллюстративным вариантом третьего аспекта настоящего изобретения.

Нормализованная корреляция, используемая для определения меры звучания, вычисляется как часть модуля 214 исследования основного тона при разомкнутом контуре. В иллюстративном варианте осуществления согласно фиг.3 используются кадры длительностью 20 мс. Модуль исследования основного тона при разомкнутом контуре выдает оценку р основного тона при разомкнутом контуре каждые 10 мс (дважды за кадр). При осуществлении способа 200 этот модуль также используется для выдачи мер r_x нормализованных корреляций. Эти нормализованные корреляции вычисляются по взвешенной речи и по прошлой взвешенной речи с задержкой основного тона при разомкнутом контуре. Взвешенный речевой сигнал s_w(n) вычисляется в перцепционном взвешивающем фильтре 212. В этом иллюстративном варианте осуществления используется перцепционный взвешивающий фильтр 212 с фиксированным знаменателем, пригодный для широкополосных сигналов. Нижеследующее соотношение представляет собой пример передаточной функции для перцепционного взвешивающего фильтра 212

,

где

где А(z) - передаточная функция фильтра с линейным предсказанием (LP-фильтра), вычисляемая в модуле 218, которая задается следующим соотношением:

Мера звучания задается средней корреляцией

_x, которая определяется как

(1)

где r_x(0), r_x(1) и r_x(2) соответственно представляют собой нормализованную корреляцию первой половины текущего кадра, нормализованную корреляцию второй половины текущего кадра и нормализованную корреляцию упреждающей выборки (начала следующего кадра).

К нормализованной корреляции в уравнении (1) можно прибавить поправку r_e на шум, чтобы учесть присутствие фонового шума. В присутствии фонового шума средняя нормализованная корреляция уменьшается. Вместе с тем, применительно к классификации сигналов, это уменьшение не оказывает влияния на распознавание вокализованных и невокализованных кадров, так что упомянутое уменьшение компенсируется введением r_e. Следует отметить, что в случае использования надлежащего алгоритма снижения шума величина r_e является практически нулевой.

При осуществлении способа 200 используется упреждающая выборка длительностью 13 мс. Нормализованная корреляция r_x(k) вычисляется следующим образом:

(2)

где

При осуществлении способа 200, вычисление корреляций происходит следующим образом. Корреляции r_x(k) вычисляются по взвешенному речевому сигналу s_w(n). Моменты t_k относятся к началу текущего полукадра и составляют 0, 128 и 256 выборок, соответственно, для k = 0, 1 и 2 при частоте дискретизации 12800 Гц. Значения p_k= T_OL представляют собой выбранные оценки основного тона при разомкнутом контуре для полукадров. Протяженность L_k вычисления автокорреляции зависит от периода основного тона. Сводка значений L_k в первом варианте осуществления приведена ниже (для частоты дискретизации, составляющей 12,8 кГц):

L_k = 80 выборок для p_k ≤ 62 выборки;

L_k = 124 выборки для 62 выборки < p_k ≤ 122 выборки;

L_k = 230 выборок для p_k > 122 выборки.

Эти протяженности предполагают, что длина коррелированного вектора включает в себя, по меньшей мере, один период основного тона, что способствует робастному обнаружению основного тона в разомкнутом контуре. При длинных периодах основного тона (p₁ > 122 выборки), r_x(1) и r_x(2) идентичны, т.е. вычисляется только одна корреляция, поскольку коррелированные векторы достаточно длинны для того, чтобы анализ по упреждающей выборке оказался больше ненужным.

В альтернативном варианте взвешенный речевой сигнал можно подвергнуть децимации вдвое, чтобы упростить поиск основного тона в разомкнутом контуре. Взвешенный речевой сигнал можно подвергнуть фильтрации нижних частот перед децимацией. В этом случае значения L_kзадаются следующим образом:

L_k = 40 выборок для p_k ≤ 31 выборке;

L_k = 62 выборки для 62 выборки < p_k ≤ 61 выборке;

L_k = 115 выборок для p_k > 61 выборки.

Для вычисления корреляций можно использовать и другие способы. Например, можно вычислять всего одно значение нормализованной корреляции для всего кадра вместо усреднения нескольких нормализованных корреляций. Кроме того, корреляции можно вычислять по сигналам, не являющимся взвешенными речевыми, например, по остаточному сигналу, речевому сигналу или остаточному речевому сигналу или взвешенному речевому сигналу, подвергнутому фильтрации нижних частот.

Спектральный наклон

Параметр спектрального наклона содержит информацию о частотном распределении энергии. При осуществлении способа 200, спектральный наклон оценивают в частотной области как отношение между энергией, сконцентрированной на низких частотах, и энергией, сконцентрированной на высоких частотах. Вместе с тем, спектральный наклон можно оценивать и по-другому, например, как отношение между двумя первыми коэффициентами автокорреляции речевого сигнала.

При осуществлении способа 200 используют дискретное преобразование Фурье для осуществления спектрального анализа в модуле 210, показанном на фиг.10. Частотный анализ и вычисление наклона проводятся дважды за кадр. Используют 256-точечное быстрое преобразование Фурье (БПФ) с перекрытием 50 процентов. Окна анализа располагают так, что используется вся упреждающая выборка. В начале первого окна находятся 24 выборки, следующие после начала текущего кадра. Во втором окне находятся еще 128 выборок. Можно использовать разные окна для взвешивания входного сигнала в целях частотного анализа. Используется корень квадратный из (ширины) окна Хэмминга (что эквивалентно синусоидальному окну). В частности, это окно весьма подходит для способов с перекрытием и суммированием, вследствие чего этот конкретный спектральный анализ можно использовать в реализуемом по выбору алгоритме подавления шумов на основании спектрального вычитания и анализа/синтеза с перекрытием и суммированием. Поскольку такие алгоритмы подавления шумов считаются хорошо известными в данной области техники, более подробное описание их здесь опущено.

Энергия на высоких частотах и на низких частотах вычисляется в следующих перцепционных критических полосах [6]:

Критические полосы = {100,0, 200,0, 300,0, 400,0, 510,0, 630,0, 770,0, 920,0, 1080,0, 1270,0, 1480,0, 1720,0, 2000,0, 2320,0, 2700,0, 3150,0, 3700,0, 4400,0, 5300,0, 6350,0} Гц.

Энергия на высоких частотах вычисляется как среднее значение энергий последних двух критических полос

где Е_СВ(i) - средние энергии, приходящиеся на критическую полосу, вычисленные как

i=0,…,19

где N_СВ(i) - количество интервалов дискретизации по частоте в i-й полосе, а X_R(k) и X_I(k) - соответственно действительная и мнимая части k-го интервала дискретизации по частоте, и j_i - индекс первого интервала дискретизации в i-й критической полосе.

Энергия на низких частотах вычисляется как средняя из энергий в первых 10-ти критических полосах. Критические полосы средних частот исключены из вычисления для улучшения различения между кадрами с высокой концентрацией энергии на низких частотах (обычно - вокализованными) и высокой концентрацией энергии на высоких частотах (обычно - невокализованными). Между этими частотами запас энергии не характеризует никакие классы и увеличивает путаницу при принятии решения.

Энергия на низких частотах вычисляется по-разному для длинных периодов основного тона и коротких периодов основного тона. Для вокализованных охватывающих сегментов речи используется гармоническая структура спектра для улучшения различения вокализованных и невокализованных кадров. Так, для коротких периодов основного тона поинтервально (на каждом интервале дискретизации) вычисляется E_l, а при суммировании учитываются только интервалы дискретизации по частоте, достаточно близкие к гармоникам речи. То есть

где E_BIN(k) - энергии интервалов дискретизации в первых 25-ти интервалах дискретизации по частоте (постоянная составляющая не учитывается). Отметим, что эти 25 интервалов дискретизации соответствуют первым 10-ти критическим полосам. При вышеуказанном суммировании учитываются только члены, связанные с интервалами дискретизации, близкими к гармоникам основного тона, так что значение w_h(k) задается равным 1, если расстояние между интервалом дискретизации и ближайшей гармоникой не превышает некоторый порог частоты (50 Гц), и задается равным 0 в противном случае. Подсчет cnt - это количество ненулевых членов при суммировании. Учитываются только интервалы дискретизации, находящиеся ближе, чем в 50-ти герцах к ближайшим гармоникам. В данном случае, если структура является гармонической на низких частотах, в сумму будут включаться только члены высоких энергий. С другой стороны, если структура не является гармонической, выбор членов будет случайным, а сумма будет меньше. Таким образом, можно обнаружить даже невокализованные сигналы с высоким запасом энергии на низких частотах. Эту обработку нельзя провести для более длительных периодов основного тона, поскольку разрешение по частоте оказывается недостаточным. Для значений длительности основного тона, превышающих 128, или для априори невокализованных сигналов, энергия на низких частотах, приходящаяся на критическую полосу, вычисляется как

Априори невокализованные сигналы определяются, когда r_x(0)+r_x(1)+r_e<0,6, где значение r_e - это поправка, прибавляемая к нормализованной корреляции, как описано выше.

Результирующие энергии на низких и высоких частотах получают путем вычитания оцененной энергии шумов из значений

и

, вычисленных выше. То есть

E_h =

- N_h;

E_l =

- N_l;

где N_h и N_l - усредненные энергии шумов в последних 2-х критических полосах и первых 10-ти критических полосах, соответственно. Оцененные энергии шумов прибавлены к результату вычисления наклона, чтобы учесть присутствие фонового шума.

И, наконец, спектральный наклон задается следующим образом:

Отметим, что вычисление спектрального наклона проводится дважды за кадр, чтобы получить значения e_tilt(0) и e_tilt(1), соответствующие обоим спектральным анализам за кадр. Средний спектральный наклон, используемый в классификации невокализованных кадров, задается следующим образом:

где e_old - наклон, полученный в результате второго спектрального анализа предыдущего кадра.

Вариация энергии, dE

Вариация dE энергии оценивается по речевому сигналу s(n), из которого устранен шум, где n=0 соответствует началу текущего кадра. Энергия сигнала оценивается дважды за субкадр, т.е. 8 раз за кадр, на основании кратковременных сегментов длиной по 32 выборки. Кроме того, вычисляются также кратковременные энергии последних 32-х выборок из следующего кадра. Максимальные кратковременные энергии вычисляются как

j=-1,…,8

где j=-1 и j=8 соответствуют концу предыдущего кадра и началу следующего кадра. Еще один набор из 9-ти максимальных энергий вычисляют путем сдвига индексов речи на 16 выборок. То есть

j=0,…,8

Максимальная вариация dE энергии между последовательными кратковременными сегментами вычисляется как максимум следующих выражений:

	если
	если
	для	j=1…7
	для	j=1…8

В альтернативном варианте можно использовать другие способы, чтобы оценить вариацию энергии в кадре.

Относительная энергия E _rel

Относительная энергия кадра задается разностью между энергией кадра, выраженной в децибелах, и долговременной средней энергией кадра. Энергия кадра вычисляется как

, дБ,

где Е_СВ(i) - средние энергии, приходящиеся на критическую полосу, как описано выше. Долговременная средняя энергия кадра задается следующим образом:

= 0,99

+ 0,01E_t,

с начальным значением

= 45 дБ.

Таким образом, относительная энергия кадра задается следующим образом:

E_rel = E_t -

.

Относительная энергия кадра используется для того, чтобы идентифицировать кадры с низкой энергией, которые не классифицированы как кадры фонового шума или невокализованные кадры. Эти кадры могут кодироваться общим кодером половинной скорости (HR-кодером), чтобы уменьшить среднюю скорость (ADR).

Классификация невокализованной речи

Классификация невокализованных речевых кадров основана на вышеописанных параметрах, а именно, мере

звучания, мере е_t спектрального наклона, вариации dE энергии в пределах кадра сигнала и относительной энергии Е_rel кадра сигнала. Решение принимается на основе, по меньшей мере, трех из этих параметров. Пороги решения устанавливаются на основе рабочего режима (требуемой средней скорости передачи данных). В основном для рабочих режимов с более низкими желаемыми скоростями передачи данных пороги задаются как более благоприятствующие классификации невокализованной речи (поскольку для кодирования кадра будет использоваться кодирование с половинной скоростью или четвертной скоростью). Невокализованные кадры обычно кодируются кодером невокализованной речи половинной скорости (HR-кодером). Однако в случае экономичного режима можно использовать кодер невокализованной речи четвертной скорости (QR-кодер), чтобы дополнительно уменьшить ADR, если удовлетворяются некоторые дополнительные условия.

В высококачественном режиме кадр кодируется как невокализованный HR-кадр, если удовлетворяется следующее условие:

(

< th₁) И (e_t < th₂) И (dE < th₃),

где th₁ = 0,5, th₂ = 1 и th₃ =

Во время принятия решения по речевой активности используется задержка решения. Так, после периодов активной речи, когда в соответствии с алгоритмом принимается решение, что кадр является неактивным речевым кадром, локальное решение по речевой активности (локальное РРА) устанавливается на нуль, а флаг фактического РРА устанавливается на нуль только спустя некоторое количество кадров (т.е. период задержки). Это позволяет избежать "обрезания" смещений речи. Как в стандартном, так и в экономичном режиме, если локальное РРА является нулевым, кадр классифицируется как невокализованной кадр.

В стандартном режиме кадр кодируется как невокализованный HR-кадр, если локальное РРА равно 0 или если удовлетворяется следующее условие:

(

< th₄) И (e_t < th₅) И ((dE < th₆) или (E_rel < th₇)),

где th₄ = 0,695, th₅ = 4, th₆= 40 и th₇= -14.

В экономичном режиме кадр квалифицируется как невокализованный кадр, если локальное РРА равно 0 или если удовлетворяется следующее условие:

(

< th₈) И (e_t < th₉) И ((dE < th₁₀) или (E_rel < th₁₁)),

где th₈ = 0,695, th₉ = 4, th₁₀= 60 и th₁₁= -14.

В экономичном режиме невокализованные кадры обычно кодируются как невокализованные HR-кадры. Однако они также могут кодироваться как невокализованные QR-кадры, если удовлетворяются следующие дополнительные условия: если последний кадр является вокализованным кадром или кадром фонового шума и если в конце кадра энергия сконцентрирована на высоких частотах, а на упреждающей выборке не обнаруживается потенциальная вокализованная начальная часть, то этот кадр кодируется как невокализованный QR-кадр. Последние два условия определяются следующим образом:

(r_x(2) < th₁₂) И (e_tilt(1) < th₁₃), где th₁₂ = 0,73, th₁₃ = 3.

Отметим, что r_x(2) - это нормализованная корреляция на интервале упреждающей выборки, а e_tilt(1) - это наклон во втором спектральном анализе, охватывающем конец кадра и упреждающую выборку.

Конечно, для различения невокализованного кадра можно использовать способы, отличающиеся от способа 200.

Различение устойчивых вокализованных речевых кадров

В случае стандартного и экономичного режимов устойчивые вокализованные кадры могут кодироваться способом кодирования вокализованных HR-сигналов.

Кодирование вокализованных HR-сигналов предусматривает использование модификации сигналов для эффективного кодирования устойчивых вокализованных кадров.

Методы модификации сигналов обеспечивают настройку основного тона сигнала с достижением предварительно определенного профиля задержки. Затем посредством долговременного предсказания прошлый сигнал возбуждения отображается на текущий субкадр с использованием этого профиля задержки и масштабируется с помощью параметра усиления. Профиль задержки получают непосредственным интерполированием между двумя оценками основного тона в разомкнутом контуре, первая из которых получена в предыдущем кадре, а вторая - в текущем кадре. Интерполяция дает значение задержки кадра для каждого момента времени. После получения профиля задержки основной тон в субкадре, подлежащем кодированию в текущий момент, настраивается для отслеживания профиля задержки посредством деформации, изменения временного масштаба сигнала. В случае прерывистой деформации [1, 4, 5] сегмент сигнала сдвигается влево или вправо без изменения длины сегмента. Прерывистая деформация требует процедуры обработки перекрывающихся или пропущенных частей результирующих сигналов. Для уменьшения артефактов в этих операциях, допустимое изменение временного масштаба поддерживается малым. Кроме того, деформация обычно осуществляется с использованием остаточного сигнала LP-фильтра или взвешенного речевого сигнала, чтобы уменьшить получаемые искажения. Использование этих сигналов вместо речевого сигнала облегчает обнаружение импульсов основного тона и областей малой мощности между ними, а значит, и определение сегментов сигнала для деформации. Фактический модифицированный речевой сигнал формируется путем инверсной фильтрации.

После осуществления модификации сигнала для данного субкадра, кодирование может производиться обычным образом, за исключением того, что возбуждение по адаптивной кодовой книге формируется с использованием предварительно определенного профиля задержки.

В рассматриваемом иллюстративном варианте осуществления модификация сигналов по основному тону и кадру осуществляется одновременно, то есть адаптируя один сегмент цикла основного тона в некоторый момент времени в текущем кадре таким образом, что последующий речевой кадр начинается при полном временном согласовании с исходным сигналом. Сегменты цикла основного тона ограничены границами кадра. Это предотвращает перенос временного сдвига через границы кадра, упрощая реализацию кодера и уменьшая риск артефактов в модифицированном речевом сигнале. Это также упрощает работу с переменной скоростью в битах при переходах между типами кодирования с разрешенной и блокированной модификацией сигналов, поскольку каждый новый кадр начинается во временном согласовании с исходным сигналом.

Как показано на фиг.2, если кадр не классифицирован ни как неактивный речевой кадр, ни как невокализованный кадр, то проверяют, является ли он устойчивым вокализованным кадром (этап 110). Классификация устойчивых вокализованных кадров выполняется с использованием метода разомкнутого контура, в связи с процедурой модификации сигналов, используемой для кодирования устойчивых вокализованных кадров.

На фиг.4 проиллюстрирован способ 300 для различения устойчивого вокализованного кадра в соответствии с иллюстративным вариантом осуществления четвертого аспекта настоящего изобретения.

Субпроцедуры, выполняемые при модификации сигналов, обеспечивают получение показателей, количественно характеризующих достижимую рабочую характеристику долговременного предсказания в текущем кадре. Если любой из этих показателей оказывается вне допустимых для него пределов, то процедура модификации сигналов завершается одним из логических блоков. В этом случае исходный сигнал сохраняется нетронутым, а кадр не классифицируется как устойчивый вокализованный кадр. Эта комплексная логика обеспечивает максимизацию качества модифицированного речевого сигнала после модификации сигнала и кодирования с низкой скоростью в битах.

Процедура поиска импульсов основного тона на этапе 302 обеспечивает получение нескольких показателей исходя из периодичности основного кадра. Поэтому логический блок, следующий за этим этапом, является важным компонентом логики классификации. Наблюдается эволюция длительности цикла основного тона. Логический блок сравнивает расстояние до обнаруженных позиций импульсов основного тона с интерполированной оценкой основного тона в разомкнутом контуре, а также с расстоянием до ранее обнаруженных импульсов основного тона. Процедура модификации сигналов завершается, если различие с оценкой основного тона в разомкнутом контуре или с длительностями предыдущего цикла основного тона оказывается слишком большой.

Выбор профиля задержки на этапе 304 дает дополнительную информацию об эволюции циклов основного тона и периодичности текущего речевого кадра. Процедура модификации сигналов продолжается с этого блока, если удовлетворяется условие |d_n - d_n-1|<0,2d_n, где d_n и d_n-1 - задержки основного тона в текущем и прошлом кадрах. По существу, это означает, что при классификации текущего кадра как устойчиво вокализованного допускается лишь малое изменение задержки.

Когда кадры, подвергнутые модификации сигналов, кодируются с низкой скоростью передачи в битах, форма сегментов цикла основного тона поддерживается одной и той же на протяжении кадра, чтобы обеспечить точное моделирование сигнала посредством долговременного предсказания, а значит - и кодирование с низкой скоростью передачи в битах без ухудшения субъективного качества. При модификации сигналов на этапе 306 сходство последовательных сегментов можно количественно охарактеризовать посредством нормализованной корреляции между текущим сегментом и целевым сигналом при оптимальном сдвиге. Сдвиг сегментов цикла основного тона, максимизирующий их корреляцию с целевым сигналом, повышает периодичность и дает значительный выигрыш от долговременного предсказания, если используется модификация сигналов. Успех этой процедуры гарантируется требованием, в соответствии с которым все значения корреляции должны быть больше, чем предварительно определенный порог. Если это условие не выполняется для всех сегментов, процедура модификации сигналов завершается, а исходный сигнал сохраняется нетронутым. В общем случае несколько меньший диапазон порогов допустим для мужских голосов при одинаковой эффективности кодирования. Пороги усиления можно изменять в разных рабочих режимах VBR-кодека, чтобы регулировать использование режимов кодирования, в которых применяется модификация сигналов, следовательно, изменять целевую среднюю скорость в битах.

Как описано выше, вся логика выбора скорости передачи в соответствии со способом 100 предусматривает три этапа, каждый из которых обеспечивает различение конкретного класса сигналов. Один из этапов включает в себя алгоритм модификации сигналов в качестве неотъемлемой части. Во-первых, VAD осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр, то способ классификации заканчивается, так как кадр рассматривается как кадр фонового шума и кодируется, например, с помощью генератора комфортного шума. Если обнаруживается активный речевой кадр, то этот кадр подвергается обработке на втором этапе, предназначенном для различения невокализованных кадров. Если кадр классифицируется как невокализованной речевой сигнал, то цепочка классификации заканчивается, а кадр кодируется в режиме, предназначенном для невокализованных кадров. На последнем этапе речевой кадр обрабатывают посредством предложенной процедуры модификации сигналов, которая разрешает модификацию, если соблюдаются условия, описанные ранее в этом подразделе. В таком случае кадр классифицируется как устойчивый речевой кадр, основной тон исходного сигнала настраивается в соответствии с определенным контуром искусственно создаваемой задержки, а кадр кодируется с использованием конкретного режима, оптимизированного для этих типов кадров. В противном случае кадр, вероятно, содержит неустойчивый речевой сегмент, например, вокализованный начальный или быстро эволюционирующий речевой сигнал. Эти кадры, как правило, требуют более обобщенной модели кодирования. Эти кадры обычно кодируются с использованием FR-кодирования общего типа. Вместе с тем, если относительная энергия кадра меньше, чем некоторый порог, то эти кадры могут кодироваться посредством HR-кодирования общего типа, чтобы дополнительно уменьшить ARD.

Кодирование речи и выбор скорости передачи для многорежимных VBR-систем, использующих технологию CDMA (CDMA-VBR-систем)

Ниже описаны способы выбора скорости передачи и цифрового кодирования звука для звуковых многорежимных CDMA-VBR-систем, которые могут работать в оболочке Rate Set II, в соответствии с иллюстрируемыми вариантами осуществления настоящего изобретения.

Описанный кодек основан на адаптивном многоскоростном широкополосном (AMR-WB) речевом кодеке, который недавно выбран Сектором стандартизации электросвязи Международного союза электросвязи (ITU-T) для нескольких вариантов широкополосных речевых услуг и группой "Проект партнерства в создании систем третьего поколения" (3GGP) для беспроводных систем третьего поколения, работающих в соответствии со стандартами Глобальной системы мобильной электросвязи (GSM) и широкополосного множественного доступа с кодовым разделением каналов (W-CDMA). AMR-WB-кодек предусматривает девять скоростей в битах, а именно, 6,6, 8,85, 12,65, 14,25, 15,85, 18,25, 19,85, 23,05 и 23,85 кбит/с. Управляемый источником VBR-кодек на основе AMR-WB-кодека, предназначенный для CDMA-систем, обеспечивает возможность взаимодействия между CDMA-системами и другими системами, использующими AMR-WB-кодек. В качестве общей скорости между широкополосным VBR-кодеком CDMA-системы и AMR-WB-кодеком можно использовать скорость в битах AMR-WB-кодека, составляющую 12,65 кбит/с и являющуюся той скоростью, которая лучше всего согласуется с полной скоростью, составляющей 13,3 кбит/с, в оболочке Rate Set II, что обеспечит возможность взаимодействия, не требуя преобразования кода (которое ухудшает качество речи). Специально для решения проблемы широкополосного VBR-кодирования в CDMA-системах разработаны типы кодирования с более низкими скоростями, чтобы обеспечить эффективную работу в оболочке Rate Set II. В таком случае кодек может работать в нескольких CDMA-специфичных режимах, используя все скорости, но при этом будет иметь режим, который гарантирует взаимодействие с системами, в которых используется AMR-WB-кодек.

Способы кодирования в соответствии с вариантами осуществления настоящего изобретения сведены в таблицу 1, в которой они все будут именоваться типами кодирования.

Таблица 1
Типы кодирования, используемого в иллюстративных вариантах осуществления, с соответствующими скоростями в битах:
Тип кодирования	Скорость в битах [кбит/с]	Количество битов на кадр длительностью 20 мс
Общий FR	13,3	266
FR с обеспечением возможности взаимодействия	13,3	266
HR вокализованных сигналов	6,2	124
HR невокализованных сигналов	6,2	124
HR с обеспечением возможности взаимодействия	6,2	124
Общий HR	6,2	124
QR невокализованных сигналов	2,7	54
CNG QR	2,7	54
CNG ER	1,0	20

Типы кодирования с полной скоростью (FR) основаны на применении стандартного AMR-WB-кодека, работающего на скорости 12,65 кбит/с. Использование скорости 12,65 кбит/с AMR-WB-кодека позволяет осуществить кодек, работающий с переменной скоростью в битах, для CDMA-системы, выполненной с возможностью взаимодействия с другими системами путем использования стандарта AMR-WB-кодека. Для согласования с полной скоростью, предусматриваемой оболочкой Rate Set II при использовании технологии CDMA, составляющей 13,3 кбит/с, добавляют избыточные 13 битов на кадр. Эти биты используют для повышения робастности кодека в случае стертых кадров и получения существенного различия между типом общего FR и FR с обеспечением возможности взаимодействия (упомянутые биты не используются для типа FR с обеспечением возможности взаимодействия). Типы FR-кодирования основаны на модели линейного предсказания с возбуждением по алгебраическому коду (ACELP-модели), оптимизированной для обычных широкополосных речевых сигналов. Эта модель работает на речевых кадрах длительностью 20 мс с частотой дискретизации 16 кГц. Перед дальнейшей обработкой входной сигнал подвергают субдискретизации с частотой дискретизации 12,8 кГц и предварительной обработке. Параметры LP-фильтра кодируются один раз за кадр с использованием 46 битов. Затем этот кадр делится на четыре субкадра, в которых индексы и усиления адаптивной и фиксированной кодовой книг кодируются один раз за субкадр. Фиксированная кодовая книга формируется с использованием структуры алгебраической кодовой книги, в которой 64 позиции в субкадре разделены на 4 дорожки чередующихся позиций и в которой 2 импульса со знаками помещены в каждую дорожку. Эти два импульса, приходящиеся на дорожку, кодируются с использованием 9 битов, что дает в сумме 36 битов на субкадр. Более подробное описание AMR-WB-кодека содержится в работе [1]. Распределения битов для типов FR-кодирования приведены в таблице 2.

Таблица 2
Распределение битов для типов кодирования с полной скоростью (FR) общего типа и с обеспечением возможности взаимодействия в оболочке Rate Set II стандарта CDMA2000 на основании стандарта на AMR-WB-кодеки при скорости 12,65 кбит/с
	Количество битов на кадр
Параметр	Общий FR	FR с обеспечением возможности взаимодействия
Класс информации	-	-
Бит РРА	-	1
Параметры	46	46
Задержка основного тона	30	30
Фильтрация основного тона	4	4
Усиления	28	28
Алгебраическая кодовая книга	144	144
Биты FER-защиты	14	-
Неиспользованные биты	-	13
Итого	266	266

В случае устойчивых вокализованных кадров используется кодирование вокализованных сигналов с половинной скоростью. Распределение битов вокализованных кадров для половинной скорости приведено в таблице 3. Поскольку кадры, подлежащие кодированию в этом режиме связи, являются - что характерно - весьма периодичными, для поддержания хорошего субъективного качества, например, по сравнению со случаем переходных кадров, оказывается достаточной значительно более низкая скорость в битах. Используют модификацию сигналов, которая обеспечивает удовлетворительное кодирование задерживаемой информации с использованием лишь девяти битов на кадр длительностью 20 мс, что позволяет экономить значительную долю ресурса битов для задания других параметров кодирования сигналов. При модификации сигналов сигнал вынужденно следует некоторому профилю основного тона, который может передаваться с использованием по 9 битов на кадр. Хорошие показатели долговременного предсказания позволяют использовать лишь 12 битов на субкадр длительностью 5 мс для возбуждения по фиксированной кодовой книге без ухудшения субъективного качества речи. Фиксированная кодовая книга представляет собой алгебраическую кодовую книгу и содержит две дорожки, на каждую из которых приходится по одному импульсу, при этом каждая дорожка имеет 32 возможных позиции.

Таблица 3
Распределение битов для кодирования половинной скорости (HR) общего типа, вокализованных и невокализованных кадров в соответствии с оболочкой Rate Set II стандарта CDMA2000
	Количество битов на кадр
Параметр	Общий HR	HR вокализованных сигналов	HR невокализованных сигналов	HR с обеспечением возможности взаимодействия
Класс информации	1	3	2	3
Бит РРА	-	-	-	1
Параметры LP	36	36	46	46
Задержка основного тона	13	9	-	30
Фильтрация основного тона	-	2	-	4
Усиления	26	26	24	28
Алгебраическая кодовая книга	48	48	52	-
Биты FER-защиты	-	-	-	-
Неиспользованные биты	-	-	-	12
Итого	124	124	124	124

В случае невокализованных кадров адаптивная кодовая книга (или кодовая книга основного тона) не используется. В каждом субкадре используется 13-битовая гауссова кодовая книга, причем усиление этой кодовой книги кодируется с использованием 6 битов на субкадр. Следует отметить, что в случаях, когда нужно дополнительно уменьшить среднюю скорость в битах, можно использовать кодирование невокализованных сигналов с четвертной скоростью в случае устойчивых невокализованных кадров.

Для сегментов с низкой энергией используется режим кодирования половинной скорости общего типа. Этот режим общего HR также можно использовать при работе на максимуме, равном половинной скорости, как пояснено ниже. Распределение битов для режима общего HR приведено в таблице 3.

Например, в случае классификационной информации для разных HR-кодеров в случае общего HR 1 бит используется, чтобы указать, является ли кадр кадром общего HR или другого HR. В случае HR невокализованных сигналов для классификации используются 2 бита: первый бит - чтобы указать, что кадр не является кадром общего HR, а второй бит - чтобы указать, что он является невокализованным HR-кадром, а не вокализованным HR-кадром или HR-кадром взаимодействия (это поясняется ниже). В случае HR-кодирования вокализованных сигналов используются 3 бита: первые 2 бита указывают, что кадр не является кадром общего HR или невокализованным HR-кадром, а третий бит указывает, является ли кадр невокализованным кадром или HR-кадром взаимодействия.

В экономичном режиме большинство невокализованных кадров можно кодировать с использованием QR-кодера невокализованных сигналов. В этом случае индексы гауссовой кодовой книги генерируют случайным образом, а усиление кодируется с использованием лишь 5 битов на субкадр. Кроме того, коэффициенты LP-фильтра квантуются с меньшей скоростью в битах. 1 бит используется для различения между двумя типами кодирования с четвертной скоростью: QR-кодированием невокализованных кадров и CNG QR-кодированием. Распределение битов для типов кодирования невокализованных сигналов приведено в [6].

Тип HR-кодирования с обеспечением возможности взаимодействия позволяет осуществлять обработку в ситуациях, когда CDMA-система задает половинную скорость (HR) как максимальную скорость для конкретного кадра, а этот кадр классифицирован как кадр с полной скоростью. HR-кадр взаимодействия получают непосредственно из кодера полной скорости за счет отбрасывания индексов фиксированной кодовой книги после кодирования кадра как кадра с полной скоростью (таблица 4). На декодирующей стороне индексы фиксированной кодовой книги могут генерироваться случайным образом, и декодер будет работать как в режиме полной скорости. Эта схема имеет преимущество, заключающееся в том, что она минимизирует воздействие принудительно устанавливаемого режима половинной скорости во время бестандемной работы между CDMA-системой и другими системами, использующими стандарт на AMR-WB кодеки (такими, как GSM-система или беспроводная W-CDMA-система третьего поколения). Как упоминалось ранее, тип FR-кодирования с обеспечением возможности взаимодействия или тип CNG QR-кодирования используются для бестандемной работы (TFO) с AMR-WB-кодеком. В линии связи с направлением от CDMA2000-системы к системе, использующей AMR-WB-кодек, когда подуровень мультиплексирования указывает запрос режима половинной скорости, VMR-WB-кодек будет использовать тип HR-кодирования с обеспечением возможности взаимодействия. В системном интерфейсе, когда принимается HR-кадр взаимодействия, к потоку битов добавляются индексы алгебраической кодовой книги, что позволяет получить скорость 12,65 кбит/с. AMR-WB-декодер на принимающей стороне будет интерпретировать это как обычный кадр со скоростью 12,65 кбит/с. В другом направлении, т.е. в линии связи от системы, использующей AMR-WB-кодек, к CDMA2000-системе, если в системном интерфейсе принимается запрос режима половинной скорости, то индексы алгебраической кодовой книги отбрасываются, а биты режима, указывающие тип HR-кадра взаимодействия, добавляются. Декодер на стороне, соответствующей стандарту CDMA2000, работает как устройство, предусматривающее тип HR-кодирования с обеспечением возможности взаимодействия, что является частью решения, предусматривающего VMR-WB-кодирование. Без признаков HR-кодирования с обеспечением возможности взаимодействия, принудительно устанавливаемый режим половинной скорости интерпретировался бы как стирание кадров.

Для обработки неактивных речевых кадров используют метод генерирования комфортного шума (CNG). Во время работы в рамках CDMA-системы для кодирования неактивных речевых кадров используют тип кодирования с одной восьмой скорости (ER-кодирования) посредством CNG. При вызове, требующем взаимодействия с аппаратурой, соответствующей стандарту AMR-WB-кодирования речи, использовать CNG ER-кодирование нельзя, потому что обуславливаемая этим стандартом скорость в битах ниже, чем скорость в битах, необходимая для передачи информации обновления для CNG-декодера, соответствующего стандарту AMR-WB-кодирования речи [3]. В этом случае используют CNG QR-кодирование. Вместе с тем, AMR-WB-кодек часто работает в режиме прерывистой передачи (DTX). Во время прерывистой передачи информация о фоновом шуме не обновляется в каждом кадре. Как правило, передается только один кадр из 8-ми последовательных неактивных речевых кадров. Этот кадр обновления называют дескриптором паузы (SID) [4]. В CDMA-системе, где кодируется каждый кадр, работа в режиме DTX не используется. Следовательно, методом CNG QR-кодирования CDMA-стороне нужно кодировать только SID-кадры, а остальные кадры можно по-прежнему кодировать методом CNG ER-кодирования, чтобы снизить среднюю скорость передачи данных (ADR), поскольку эти кадры не используется VMR-WB-аппаратурой на противоположной стороне. При CNG-кодировании, только параметры LP-фильтра и усиление кодируются один раз за кадр. Распределение битов для CNG QR-кодирования приведено в таблице 4, а распределение битов для CNG ER-кодирования приведено в таблице 5.

Таблица 4
Распределение битов для типов QR-кодирования невокализованных сигналов и CNG QR-кодирования
Параметр	QR-кодирование невокализованных сигналов	CNG QR-кодирование
Биты выбора	1	1
Параметры LP	32	28
Усиления	20	6
Неиспользованные биты	1	19
Итого	54	54

Таблица 5
Распределение битов для CNG ER-кодирования
Параметр	CNG ER-кодирование
Параметр	Количество битов на кадр
Параметры LP	14
Усиления	6
Неиспользованные биты	-
Итого	20

Классификация сигналов и выбор скорости в высококачественном режиме

На фиг.5 проиллюстрирован способ 400 цифрового кодирования звукового сигнала в соответствии со вторым иллюстративным вариантом осуществления второго аспекта настоящего изобретения. Следует отметить, что способ 400 представляет собой конкретное приложение способа 100 в высококачественном режиме, предусмотренное для максимизации качества синтезированной речи, достигаемого на доступных скоростях в битах (следует отметить, что случай, когда система ограничивает максимальную доступную скорость для конкретного кадра, будет описан в отдельном подразделе). Следовательно, большинство активных речевых кадров кодируются с полной скоростью, т.е. 13,3 кбит/с.

Аналогично способу 100, проиллюстрированному на фиг.2, детектор речевой активности (VAD) осуществляет различение между активными и неактивными речевыми кадрами (этап 102). Алгоритм принятия решения о речевой активности (РРА) аналогичен для всех режимов работы. Если обнаруживается неактивный речевой кадр (сигнал фонового шума), то способ классификации заканчивается, а кадр кодируется с использованием типа CNG ER-кодирования со скоростью 1,0 кбит/с в соответствии с оболочкой Rate Set II при использовании технологии CDMA(этап 402). Если обнаруживается активный речевой кадр, то этот кадр подвергают воздействию второго классификатора, предназначенного специально для различения невокализованных кадров (этап 404). Поскольку целью высококачественного режима является достижение наилучшего возможного качества, то различение невокализованных кадров является очень строгим, и выбираются только очень стабильные невокализованные кадры. Правила классификации невокализованных кадров и пороги принятия решений являются такими же, как приведенные выше. Если второй классификатор классифицирует кадр как невокализованной речевой сигнал, то способ классификации оканчивается, а кадр кодируется с использованием типа HR-кодирования невокализованных сигналов (этап 408), оптимизированного для невокализованных сигналов (6,2 кбит/с в соответствии с оболочкой Rate Set II при использовании технологии CDMA). Все остальные кадры обрабатываются с использованием типа общего FR-кодирования на основе стандарта на AMR-WB-кодеки со скоростью 12,65 кбит/с (этап 406).

Классификация сигналов и выбор скорости в стандартном режиме

На фиг.6 проиллюстрирован способ 500 цифрового кодирования звукового сигнала в соответствии с третьим иллюстративным вариантом осуществления второго аспекта настоящего изобретения. Способ 500 обеспечивает классификацию речевого сигнала и его кодирование в стандартном режиме.

На этапе 102, VAD осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр, то способ классификации заканчивается, а кадр кодируется с одной восьмой скорости посредством CNG (т.е. как CNG-ER-кадр) (этап 510). Если обнаруживается активный речевой кадр, то этот кадр подвергается воздействию классификатора второго уровня для различения невокализованных кадров (этап 404). Правила классификации невокализованных кадров и пороги принятия решений являются такими же, как описанные выше. Если классификатор второго уровня классифицирует кадр как невокализованной речевой сигнал, то способ классификации заканчивается, а кадр кодируется с использованием типа HR-кодирования невокализованных сигналов (этап 508). В противном случае, речевой кадр пропускается через модуль классификации "устойчивых вокализованных" кадров (этап 502). Различение вокализованных кадров является неотъемлемым признаком алгоритма модификации сигналов, как описано выше. Если кадр пригоден для модификации сигналов, он классифицируется как устойчивый вокализованный кадр и кодируется с использованием типа HR-кодирования вокализованных сигналов (этап 506) в модуле, оптимизированном для устойчивых вокализованных сигналов (6,2 кбит/с в соответствии с оболочкой Rate Set II при использовании технологии CDMA). В противном случае, кадр, вероятно, содержит неустойчивый речевой сегмент, например, вокализованный начальный или быстро эволюционирующий сигнал. Такие кадры обычно требуют высокой скорости в битах для поддержания надлежащего субъективного качества. Вместе с тем, если энергия кадра ниже, чем некоторый порог, то эти кадры можно кодировать с использованием типа общего HR-кодирования. Если на этапе 512 классификатор четвертого уровня обнаруживает сигнал с низкой энергией, то кадр кодируется с использованием типа общего HR-кодирования (этап 514). В противном случае, речевой кадр кодируется как FR-кадр общего типа (13,3 кбит/с в соответствии с оболочкой Rate Set II при использовании технологии CDMA) (этап 504).

Классификация сигналов и выбор скорости в экономичном режиме

На фиг.7 проиллюстрирован способ 600 цифрового кодирования звукового сигнала в соответствии с четвертым иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Способ 600 обеспечивает классификацию речевого сигнала и его кодирование в экономичном режиме.

Экономичный режим обеспечивает максимальную пропускную способность системы и при этом по-прежнему дает высококачественную широкополосную речь. Логика определения скорости аналогична стандартному режиму, за исключением того, что используется также тип QR-кодирования невокализованных кадров, а использование FR-кодирования уменьшается.

Во-первых, на этапе 102, VAD осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр, то способ классификации заканчивается, а кадр кодируется как CNG-ER-кадр (этап 402). Если обнаруживается активный речевой кадр, то этот кадр подвергают воздействию второго классификатора для различения невокализованных кадров (этап 106). Правила классификации невокализованных кадров и пороги принятия решений являются такими же, как описанные выше. Если второй классификатор классифицирует кадр как невокализованной речевой сигнал, то речевой кадр пропускается в первый классификатор третьего уровня (этап 602). Этот классификатор третьего уровня проверяет, является ли кадр переходным от вокализованного сигнала к невокализованному сигналу с помощью правил, описанных выше. В частности, этот классификатор третьего уровня проверяет, является ли последний кадр либо невокализованным кадром, либо кадром фонового шума, и имеет ли место ситуация, в которой энергия в конце кадра сконцентрирована на высоких частотах, а в упреждающей выборке не обнаруживается потенциальная вокализованная начальная часть. Как пояснялось выше, последние два условия определяются следующим образом:

(r_x(2) < th₁₂) И (e_tilt(1) < th₁₃) при th₁₂ = 0,73, th₁₃ = 3,

где r_x(2) - корреляция в упреждающей выборке, а e_tilt(1) - наклон во втором спектральном анализе, который распространяется на конец кадра и упреждающую выборку.

Если кадр содержит переход от вокализованного сигнала к невокализованному сигналу, то этот кадр на этапе 508 кодируется с использованием типа HR-кодирования невокализованных сигналов. В противном случае кадр кодируется с использованием типа QR-кодирования невокализованных сигналов (этап 604). Кадры, не классифицированные как невокализованные, пропускаются через модуль классификации "устойчивых вокализованных" кадров, который является вторым классификатором третьего уровня (этап 110). Различение вокализованных кадров является неотъемлемым признаком алгоритма модификации сигналов, как описано выше. Если кадр пригоден для модификации сигналов, он классифицируется как устойчивый вокализованный кадр и кодируется с использованием типа HR-кодирования вокализованных сигналов на этапе 506. Аналогично стандартному режиму остальные кадры (не классифицированные как невокализованные или стабильные вокализованные) проверяются на малое содержание энергии. Если на этапе 512 обнаруживается сигнал с низкой энергией, этот кадр кодируется на этапе 514 с использованием HR-кодирования общего типа. В противном случае, речевой кадр кодируется как FR-кадр общего типа (13,3 кбит/с в соответствии с оболочкой Rate Set II при использовании технологии CDMA) (этап 504).

Классификация сигналов и выбор скорости в режиме, обеспечивающем возможность взаимодействия

На фиг.8 проиллюстрирован способ 700 цифрового кодирования звукового сигнала в соответствии с пятым иллюстративным вариантом осуществления второго аспекта настоящего изобретения. Способ 700 обеспечивает классификацию речевого сигнала и его кодирование в режиме, обеспечивающем возможность взаимодействия.

Режим, обеспечивающий возможность взаимодействия, обеспечивает бестандемную работу между CDMA-системой и другими системами, использующими стандарт на AMR-WB-кодеки, на скорости 12,65 кбит/с (или более низких скоростях). В отсутствие ограничения скорости, накладываемого CDMA-системой, используется только FR-кодирование с обеспечением возможности взаимодействия и генераторы комфортного шума.

Во-первых, на этапе 102, VAD осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр, на этапе 702 принимается решение, следует ли кодировать этот кадр как SID-кадр. Как упоминалось ранее, SID-кадры служат для обновления параметров CNG на AMR-WB-стороне во время работы в режиме DTX [4]. Во время периодов пауз, как правило, кодируется лишь один из 8 неактивных речевых кадров. Однако после активного речевого сегмента информация обновления SID должна посылаться уже в 4-м кадре (см. [4]). Поскольку для кодирования SID-кадра одной восьмой скорости (ER) оказывается недостаточно, SID-кадры кодируют методом CNG QR-кодирования на этапе 704. Кадры, иные чем неактивные SID-кадры, кодируются методом CNG EQ-кодирования на этапе 402. Если линия связи реализуется в направлении от VMR-WB-аппаратуры, использующей технологию CDMA, к AMR-WB-аппаратуре, конфигурированной для бестандемной работы (TFO), то CNG-ER-кадры отбрасываются в системном интерфейсе, поскольку AMR-WB-аппаратура не использует их. В противоположном направлении эти кадры не передаются (AMR-WB-аппаратура генерирует только SID-кадры) и квалифицируются как стирания кадров. Все активные речевые кадры обрабатываются с использованием типа FR-кодирования с обеспечением возможности взаимодействия (этап 706), который, по существу является стандартом AMR-WB-кодирования, со скоростью 12,65 кбит/с.

Классификация сигналов и выбор скорости при работе на максимуме, равном половинной скорости

На фиг.9 проиллюстрирован способ 800 цифрового кодирования звукового сигнала в соответствии с шестым иллюстративным вариантом осуществления второго аспекта настоящего изобретения. Способ 800 обеспечивает классификацию речевого сигнала и его кодирование при работе на максимуме, равном половинной скорости, для высококачественного и стандартного режимов.

Как описано выше, CDMA-система задает максимальную скорость в битах для конкретного кадра. Чаще всего, максимальная скорость в битах, задаваемая системой, ограничивается половинной скоростью (HR). Вместе с тем, система может задавать и меньшие скорости.

Все активные речевые кадры, которые обычно должны классифицироваться как FR-кадры во время нормальной работы, теперь кодируются с использованием типа HR-кодирования. Тогда механизм классификации и выбора скорости классифицирует все такие вокализованные кадры с использованием типа HR-кодирования вокализованных сигналов (это кодирование происходит на этапе 506), а все такие невокализованные кадры - с использованием типа HR-кодирования невокализованных сигналов (это кодирование происходит на этапе 408). Все остальные кадры, которые должны классифицироваться как FR-кадры во время нормальной работы, кодируются с использованием HR-кодирования общего типа на этапе 514, за исключением того, что в режиме, обеспечивающем возможность взаимодействия, используется тип HR-кодирования, обеспечивающего возможность взаимодействия (этап 908 на фиг.11).

Как можно заметить на фиг.9, механизм классификации сигналов и выбора скорости аналогичен тому, который действует при обычной работе в стандартном режиме. Однако используется HR-кодирование общего типа (этап 514) вместо FR-кодирования общего типа (этап 406 на фиг.5), а пороги, используемые для различения вокализованных и невокализованных кадров, являются более низкими, чтобы обеспечить кодирование как можно большего количества кадров с использованием типов HR-кодирования невокализованных сигналов и HR-кодирования вокализованных сигналов. Как правило, в случае работы на максимуме, равном половинной скорости, в высококачественном и стандартном режимах используются пороги, предназначенные для экономичного режима.

На фиг.10 проиллюстрирован способ 900 цифрового кодирования речевого сигнала в соответствии с седьмым иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Способ 900 обеспечивает классификацию речевого сигнала и кодирование при работе на максимуме, равном половинной скорости, для экономичного режима. Способ 900, проиллюстрированный на фиг.10, аналогичен способу 600, проиллюстрированному на фиг.7, за исключением того, что все кадры, кодировавшиеся методом FR-кодирования общего типа, теперь кодируются методом HR-кодирования общего типа (при работе на максимуме, равном половинной скорости, нет необходимости в классификации кадров с низкой энергией). На фиг.11 проиллюстрирован способ 920 цифрового кодирования речевого сигнала в соответствии с восьмым иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Способ 920 обеспечивает классификацию речевого сигнала и определение скорости в режиме, обеспечивающем возможность взаимодействия, при работе на максимуме, равном половинной скорости. Поскольку способ 920 очень похож на способ 700, проиллюстрированный на фиг.8, ниже будет приведено описание лишь различий между этими двумя способами.

В случае способа 920, не могут использоваться типы кодирования, специфичные для сигналов (HR-кодирование невокализованных сигналов и HR-кодирование вокализованных сигналов), потому что эти типы будут не поняты для AMR-WB-аппаратуры на противоположном конце системы; также нельзя использовать и HR-кодирование общего типа. Поэтому активные речевые кадры при работе на максимуме, равном половинной скорости, кодируют с использованием типа HR-кодирования, обеспечивающего возможность взаимодействия.

Если система ограничивает максимальную скорость в битах величиной, меньшей, чем половинная скорость (HR), то кодирование общего типа не предусматривается для обработки в этих случаях в сущности потому, что эти случаи исключительно редки, а такие кадры могут квалифицироваться как стирания кадров. Вместе с тем, если система ограничивает максимальную скорость в битах величиной, равной четвертной скорости (QR), можно использовать QR-кодирование невокализованных сигналов. Однако это возможно только в режимах, специфичных для CDMA (высококачественном, стандартном, экономичном), потому что AMR-WB-аппаратура на противоположном конце системы не способна интерпретировать QR-кадры.

Эффективное взаимодействие между AMR-WB-кодеком и VMR-WB-кодеком, работающим в оболочке Rate Set II

Ниже со ссылками на фиг.12 описан способ 1000 кодирования речевого сигнала для взаимодействия между AMR-WB- и VMR-WB-кодеками в соответствии с иллюстративным вариантом осуществления четвертого аспекта настоящего изобретения.

Более конкретно, способ 1000 обеспечивает бестандемную работу между стандартным AMR-WB-кодеком и управляемым источником VBR-кодеком, предназначенным, например, для CDMA2000-систем (и именуемым далее VMR-WB-кодеком). В гарантируемом способом 1000 режиме, обеспечивающем возможность взаимодействия, VMR-WB-кодек использует скорости в битах, которые могут интерпретироваться AMR-WB-кодеком и при этом остаются в пределах скоростей в битах, характерных для оболочки Rate Set II и используемых, например, в CDMA-кодеке.

Поскольку характерные для оболочки Rate Set II скорости в битах составляют 13,3 кбит/с (полная скорость, FR), 6,2 кбит/с (половинная скорость, HR), 2,7 кбит/с (четвертная скорость, QR) и 1,0 кбит/с (одна восьмая скорости, ER), то для AMR-WB-кодека можно использовать скорости в битах, величины которых в режиме полной скорости составляют 12,65, 8,85 или 6,6 кбит/с, SID-кадры можно кодировать со скоростью 1,75 кбит/с в режиме четвертной скорости. AMR-WB-кодек, работающий на скорости 12,65 кбит/с, является ближайшим к кодеку стандарта CDMA2000, работающему на полной скорости 13,3 кбит/с (CDMA2000-FR-кодеку), и используется в качестве FR-кодека в этом иллюстративном варианте осуществления. Вместе с тем, когда AMR-WB-кодек используется в GSM-системах, алгоритм адаптации линии связи может способствовать снижению скорости в битах до 8,85 или 6,6 кбит/с, в зависимости от канальных условий (чтобы предоставить больше битов для канального кодирования). Таким образом, работа AMR-WB-кодека на скоростях в битах 8,85 и 6,6 кбит/с может представлять собой часть режима, обеспечивающего возможность взаимодействия, а эти скорости можно использовать в CDMA2000-приемнике в случае, если GSM-система решила использовать одну из этих скоростей в битах. В иллюстративном варианте осуществления, показанном на фиг.12, используются три типа кодирования с полной скоростью, обеспечивающей возможность взаимодействия (I-FR), соответствующие скоростям AMR-WB-кодека, составляющим 12,65, 8,85 и 6,6 кбит/с, которые далее обозначаются символами I-FR-12, I-FR-8 и I-FR-6, соответственно. В случае I-FR-12 имеются 13 неиспользованных битов. Первые 8 битов используются для различения I-FR-кадров и FR-кадров общего типа (которые используют дополнительные биты для улучшения маскировки стирания кадров). Другие 5 битов используются для сигнализации о трех типах I-FR-кадров. При обычной работе, используется I-FR-12, а более низкие скорости используются в случае, если это требуется для адаптации линии связи в GSM-системе.

В CDMA2000-системе средняя скорость передачи данных речевого кодека непосредственно связана с пропускной способностью системы. Следовательно, достижение той наименьшей средней скорости передачи данных (ADR), которая возможна при минимальной потере качества речи, приобретает первостепенное значение. AMR-WB-кодек предназначался в основном для сотовых GSM-систем и радиосвязи третьего поколения на основе эволюции GSM. Таким образом, режим, обеспечивающий возможность взаимодействия, для CDMA2000-системы может привести к повышенной ADR по сравнению с VBR-кодеком, специально предназначенным для CDMA2000-систем. Основными причинами этого являются следующие:

недостаточность режима половинной скорости на уровне 6,2 кбит/с в AMR-WB-кодеке;

скорость в битах для CID-кадров в AMR-WB-кодеке составляет 1,75 кбит/с, что не согласуется с одной восьмой скорости (ER) в оболочке Rate Set II;

при работе в режиме прерывистой передачи (DTX) детектора речевой активности (VAD) AMR-WB-кодека используются несколько кадров (кодированных как речевые кадры), чтобы вычислить первый кадр дескриптора паузы (SID_FIRST-кадр).

Способ кодирования речевого сигнала для взаимодействия между AMR-WB- и VMR-WB-кодеками обеспечивает устранение вышеупомянутых ограничений и приводит к сниженной ADR режима, обеспечивающей возможность взаимодействия, так что он оказывается эквивалентным CDMA-специфичным режимам при сравнимом качестве речи. Ниже приводится описание способов для обоих направлений работы: "VMR-WB-кодирование - AMR-WB-декодирование" и "AMR-WB-кодирование - VMR-WB-декодирование".

"VMR-WB-кодирование - AMR-WB-декодирование"

При кодировании на стороне VMR-WB-кодека в CDMA-системе, операция генерирования комфортного шума в режиме прерывистой передачи для детектора речевой активности (VAD/DTX/CNG) согласно стандарту AMR-WB не требуется. VAD надлежащим образом установлен в VMR-WB-кодек и работает точно так же, как в других CDMA2000-специфичных режимах, т.е. задержка решений по речевой активности (РРА) используется по мере необходимости, чтобы не пропустить невокализованные паузы, так что всякий раз, когда флаг РРА устанавливается в нуль (РРА_флаг=0) (что классифицируется как фоновый шум), применяется кодирование посредством генерирования комфортного шума (CNG).

Операция генерирования комфортного шума для VAD (VAD/CNG) максимально приближена к операции в режиме прерывистой передачи AMR-кодека (AMR/DTX). Операция генерирования комфортного шума в режиме прерывистой передачи для VAD (VAD/DTX/CNG) в AMR-WB-кодеке проводится следующим образом. Семь кадров фонового шума после периода активной речи кодируются как речевые кадры, а бит РРА задается равным нулю (переход DTX). Затем посылают SID_FIRST-кадр. В SID_FIRST-кадре сигнал не кодируется, а параметры CNG получаются в результате DTX-перехода (7 речевых кадров) в декодере. Следует отметить, что AMR-WB-кодек не использует DTX-переход после периодов активной речи, которые короче, чем 24 кадра, чтобы уменьшить перегрузку при DTX-переходе. После SID_FIRST-кадра посылают два кадра как кадры без данных (NO_DATA-кадры), за которыми следует кадр обновления SID (SID_UPDATE-кадр) (1,75 кбит/с). После этого посылают 7 NO_DATA-кадров, за которыми следует SID_UPDATE-кадр, и т.д. Это продолжается до тех пор, пока не будет обнаружен активный речевой кадр (РРА_флаг=1) [4].

В иллюстративном варианте, показанном на фиг.12, VAD в VMR-WB-кодеке не использует DTX-переход. Первый кадр фонового шума после периода активной речи кодируется со скоростью 1,75 кбит/с и передается как QR-кадр, затем кодируют 2 кадра со скоростью 1 кбит/с (одной восьмой скорости), а затем следующий кадр передается со скоростью 1,75 кбит/с как QR-кадр. После этого 7 кадров передаются как ER-кадры, за которыми следует один QR-кадр, и т.д. Это приблизительно соответствует операции прерывистой передачи (DTX) AMR-WB-кодека, за тем исключением, что DTX-переход используется для уменьшения средней скорости передачи данных (ADR).

Хотя операция VAD/CNG в VMR-WB-кодеке, описываемая в этом иллюстративном варианте осуществления, близка к операции DTX в AMR-WB-кодеке, можно использовать и другие способы, которые способствуют дальнейшему уменьшению ADR. Например, QR-кадры генерирования комфортного шума (CNG-QR-кадры) могут передаваться не так часто, например, по одному на каждые 12 кадров. Кроме того, могут оцениваться вариации шума в кодере, а CNG-QR-кадры могут передаваться лишь тогда, когда характеристики шума изменяются (а не по одному на каждые 8-12 кадров).

Чтобы снять ограничение отсутствия половинной скорости на уровне 6,2 кбит/с в AMR-WB-кодере, в режиме, обеспечивающем возможность взаимодействия, предусматривается работа с I-HR - половинной скоростью, при этом предусматривается кодирование кадра как кадра с полной скоростью и последующее отбрасывание битов, соответствующих индексам алгебраической кодовой книги (144 бита на кадр в AMR-WB-кодере при 12,65 кбит/с). Это уменьшает скорость в битах до 5,45 кбит/с, что соответствует половинной скоростью в оболочке Rate Set II согласно стандарту CDMA2000. Перед декодированием отбрасываемые биты могут генерироваться либо случайным образом (т.е. с использованием генератора случайных чисел), либо псевдослучайным образом (т.е. путем повторения части существующего потока битов), либо некоторым предварительно определенным образом. I-HR можно использовать, когда CDMA2000-система передает запрос размерно-пакетной сигнализации или работы на максимуме, равном половинной скорости. Это препятствует оценке речевого кадра как потерянного кадра. I-HR также может использоваться VMR-WB-кодеком в режиме, обеспечивающем возможность взаимодействия, для кодирования невокализованных кадров или кадров, в которых вклад алгебраической кодовой книги в качество синтезируемой речи является минимальным. Это приводит к уменьшенной ADR. Следует заметить, что в этом случае кодер может выбрать кодирование кадров в I-HR-режиме и тем самым минимизировать ухудшение качества речи за счет использования таких кадров.

Как показано на фиг.12, в направлении "VMR-WB-кодирование - AMR-WB-декодирование" речевые кадры кодируют в режиме, обеспечивающем возможность взаимодействия, VMR-WB-кодера 1002, что позволяет получить одну из следующих скоростей в битах: полную скорость в режиме, обеспечивающем возможность взаимодействия, обозначаемую символом I-FR, для активных речевых кадров (т.е. скорость I-FR-12, I-FR-8 или I-FR-6), половинную скорость в режиме, обеспечивающем возможность взаимодействия, обозначаемую символом I-HR, в случае размерно-пакетной сигнализации, или - по выбору - для кодирования некоторых невокализованных кадров или кадров, в которых вклад алгебраической кодовой книги в качество синтезируемой речи является минимальным, четвертную скорость (QR) при генерировании комфортного шума (CNG) для кодирования кадров фонового шума (одного из восьми кадров фонового шума, как описано выше, или в случае, когда обнаруживается вариация в характеристике фонового шума), и одну восьмую скорости (ER) при CNG с получением CNG-ER-кадров для большинства кадров фонового шума (кадры фонового шума не кодируются как CNR-QR-кадры). В системном интерфейсе, который выполнен в форме шлюза, выполняются следующие операции.

Во-первых, проверяется достоверность кадра, принимаемого шлюзом из VMR-WB-кодера. Если он недостоверен, то после этого VMR-WB-кадр посылается как стертый (тип потери речи для AMR-WB-декодера). Кадр считается недостоверным, например, если возникает одно из следующих состояний:

- если принимается кадр со всеми нулями (используемый сетью в случае пробела и пакета), то этот кадр стирается;

- в случае FR-кадров, если 13 битов преамбулы не соответствуют I-FR-12, I-FR-8 или I-FR-6, или если неиспользованные биты не являются нулевыми, то кадр стирается; кроме того, I-FR устанавливает бит РРА равным 1, так что если бит РРА принимаемого кадра не равен 1, то этот кадр стирается;

- в случае HR-кадров, аналогично FR-кадрам, если биты преамбулы не соответствуют I-HR-12, I-HR-8 или I-HR-6, или если неиспользованные биты не являются нулевыми, то кадр стирается; то же самое имеет место для бита РРА;

- в случае QR-кадров, если биты преамбулы не соответствуют QR для CNG, то кадр стирается; кроме того, VMR-WB-кодер устанавливает бит SID_UPDATE равным 1, а биты запроса режима - равными 0010; в противном случае кадр стирается;

- в случае ER-кадров, если принимается кадр со всеми единицами, то этот кадр стирается; кроме того, VMR-WB-кодер использует битовую комбинацию фильтра Internet-сервера (ISF) со всеми нулями (первые 14 битов) для сигнализации о кадрах пробелов; если принимается эта комбинация, то кадр стирается.

Если принимаемый кадр является достоверным кадром в режиме, обеспечивающем возможность взаимодействия, то выполняются следующие операции:

- I-FR-кадры посылаются в AMR-WB-декодер как кадры, закодированные на скорости 12,65, 8,8 или 6,6 кбит/с, в зависимости от типа I-FR-кадров;

- CNG-QR-кадры посылаются в AMR-WB-декодер как SID_UPDATE-кадры;

- CNG-ER-кадры посылаются в AMR-WB-декодер как NO_DATA-кадры;

- I-HR-кадры преобразуются в кадры, кодируемые со скоростью 12,65, 8,8 или 6,6 кбит/с (в зависимости от типа кадров) путем генерирования опускаемых индексов алгебраической кодовой книги на этапе 1010; эти индексы можно генерировать случайным образом, либо посредством повторения части существующих кодовых битов, либо некоторым предварительно определенным образом; при этом также отбрасываются биты, характеризующие тип I-HR-кадров (биты, используемые для различения разных типов кадров, кодируемых с половинной скоростью, в VMR-WB-кодеке).

"AMR-WB-кодирование - VMR-WB-декодирование"

В этом направлении способ 1000 ограничивается операцией в режиме прерывистой передачи (DTX) на стороне AMR-WB-кодека. Вместе с тем, во время кодирования активной речи имеется один бит (1-ый бит данных) в потоке битов, указывающий РРА_флаг (0 - для периода DTX-перехода, 1 - для активной речи). Следовательно, работу в шлюзе можно вкратце охарактеризовать следующим образом:

- SID_UPDATE-кадры пересылаются как CNG-QR-кадры;

- SID_FIRST-кадры и NO_DATA-кадры пересылаются как ER-кадры пробелов;

- стертые кадры (потери речи) пересылаются как ER-кадры стирания;

- первый кадр после активной речи, у которого РРА_флаг=0 (что удостоверяется на этапе 1012) сохраняется как FR-кадр, а следующие кадры, у которых РРА_флаг=0, пересылаются как ER-кадры пробелов;

- если шлюз на этапе 1014 принимает запрос работы на максимуме, равном половинной скорости (сигнализация уровня кадров), и при этом принимает FR-кадры, то кадр преобразуется в I-HR-кадр; это заключается в отбрасывании битов, соответствующих индексам алгебраической кодовой книги, и добавлении битов режима, указывающих тип I-HR-кадров.

В этом иллюстративном варианте первые два бита в ER-кадрах пробелов устанавливаются на 0×00, а в ER-кадрах стирания первые два бита устанавливаются на 0×04. В основном, первые 14 битов соответствуют индексам ISF, а для указания кадров пробелов (все нули) или кадров стирания (все нули, за исключением 14-го бита, установленного на 1, что составляет 0×04 в шестнадцатеричной системе счисления) резервируются две комбинации. Когда в VMR-WB-декодере 1004 обнаруживаются ER-кадры, они обрабатываются посредством декодера генерирования комфортного шума (CNG-декодера) с использованием последних принятых удовлетворительными параметров CNG. Исключением является случай первого принимаемого ER-кадра пробела (инициализация CNG-декодера, когда "старые" параметры CNG еще не известны). Поскольку первый кадр, у которого РРА_флаг=0, передается как FR-кадр, параметры этого кадра, а также параметры прошлого CNG используются для инициализации операции CNG. В случае ER-кадров стирания, декодер использует ту процедуру маскировки, которая используется для стертых кадров.

Отметим, что в иллюстративном варианте осуществления, показанном на фиг.12, для FR-кадров используется скорость 12,65 кбит/с. Однако с тем же успехом можно использовать скорости 8,85 и 6,6 кбит/с в соответствии с алгоритмом адаптации линии связи, который требует использования меньших скоростей в случае плохих канальных условий. Например, при взаимодействии между CDMA2000- и GSM-системами, модуль адаптации линии связи в GSM-системе может принять решение уменьшить скорость в битах до 8,85 и 6,6 кбит/с в случае плохих канальных условий. В таком случае, эти уменьшенные скорости в битах должны быть включены в решение о работе VMR-WB-аппаратуры в соответствии с технологией CDMA.

Работа CDMA-VMR-WB-кодека в оболочке Rate Set I

Скорости, используемые в оболочке Rate Set I, составляют: 8,55 кбит/с - полная скорость (FR); 4,0 кбит/с - половинная скорость (HR); 2,0 кбит/с - четвертная скорость (QR); и 800 бит/с - одна восьмая скорости (ER). В этом случае AMR-WB-кодек можно использовать только на скорости 6,6 кбит/с в качестве FR, а CNG-кадры можно посылать либо как QR-кадры (SID_UPDATE), либо как ER-кадры в качестве других кадров фонового шума (аналогично вышеописанной работе в оболочке Rate Set II). Чтобы снять ограничение по низкому качеству для скорости 6,6 кбит/с, предусмотрена скорость 8,55 кбит/с, обеспечивающая взаимодействие с AMR-WB-кодеком, работающим со скоростью 8,85 кбит/с. Эта скорость будет далее именоваться полной скоростью, обеспечивающей возможность взаимодействия в оболочке Rate Set I (I-FR-I), AMR-WB-кодека. Распределение битов для скорости 8,85 кбит/с и две возможные конфигурации для I-FR-I-кодирования показаны в таблице 6.

Таблица 6
Распределение битов для типов I-FR-I-кодирования в конфигурации оболочки Rate Set I
Параметр	AMR-WB с 8,85 кбит/с	I-FR-I с 8,55 кбит/с (конфигурация 1)	I-FR-I с 8,55 кбит/с (конфигурация 2)
Параметр	Количество битов на кадр	Количество битов на кадр	Количество битов на кадр
Биты режима половинной скорости	-	-
Флаг РРА	1	0	0
Параметры LP	46	41	46
Задержка основного тона	26=8+5+8+5	26	26
Усиления	24=6+6+6+6	24	24
Алгебраическая кодовая книга	80=20+20+20+20	80	75
Итого	177	171	171

При I-FR-I-кодировании, бит "РРА_флаг" и дополнительные 5 битов отбрасываются, чтобы получить скорость 8,55 кбит/с. Отбрасываемые биты можно легко ввести в декодере или системном интерфейсе, так что можно использовать декодер, работающий со скоростью 8,85 кбит/с. Для отбрасывания 5 битов можно использовать несколько способов, которые оказывают малое влияние на качество речи. В конфигурации 1, показанной в таблице 6, 5 битов отбрасываются исходя из квантования параметров линейного предсказания (LP). В AMR-WB-кодере используются 46 битов для квантования параметров LP в домене пар спектра иммитансов (ISP) (с использованием удаления среднего значения и предсказания скользящего среднего). Остаточный (после предсказания) вектор ISP размером 16 квантуется с использованием многостадийного квантования вектора с разбиением. Вектор разбивается на 2 субвектора с размерами 9 и 7, соответственно. Эти 2 субвектора квантуются в две стадии. На первой стадии каждый субвектор квантуется 8 битами. На втором этапе векторы с погрешностью квантования разбиваются на 3 и 2 субвектора, соответственно. Субвекторы, получаемые на второй стадии, имеют размеры 3, 3, 3, 3 и 4, соответственно, и квантуются 6, 7, 7, 5 и 5 битами, соответственно. В предлагаемом I-HR-I-режиме 5 битов последнего субвектора, получаемого на второй стадии, отбрасываются. Они оказывают наименьшее влияние, поскольку соответствуют высокочастотной части спектра. Отбрасывание этих 5 битов реализуется путем фиксации индекса последнего субвектора, получаемого на второй стадии, на конкретном значении, которое не нужно передавать. Факт фиксации этого 5-битового индекса легко учесть во время квантования в VMR-WB-кодере. Этот фиксированный индекс вводится либо в системном интерфейсе (т.е. во время работы VMR-WB-кодера и AMR-WB-декодера) или в декодере (т.е. во время работы AMR-WB-кодера и VMR-WB-декодера). Таким образом, для декодирования I-FR-кадра в оболочке Rate Set I, AMR-WB-декодер используется на скорости 8,85 кбит/с.

Во второй конфигурации согласно иллюстрируемому варианту осуществления, 5 битов отбрасываются, исходя из индексов алгебраической кодовой книги. В AMR-WB-кодеке, работающем со скоростью 8,85 кбит/с, кадр делится на субкадры длиной по 64 выборки. Алгебраическая кодовая книга основана на делении субкадра на 4 дорожки по 16 позиций и размещении импульса со знаком на каждой дорожке. Каждый импульс кодируется 5 битами: 4 бита - для положения, а 1 бит - для знака. Таким образом, для каждого субкадра используется 20-битовая алгебраическая кодовая книга. Один путь отбрасывания пяти битов заключается в том, чтобы отбрасывать один импульс из некоторого субкадра. Например, 4-й импульс в 4-й дорожке с позициями в 4-м субкадре. В VMR-WB-кодере этот импульс можно фиксировать на предварительно определенном значении (т.е. в определенной позиции и с определенным знаком) во время поиска в кодовой книге. Этот известный индекс импульса затем может добавляться в системном интерфейсе и посылаться в AMR-WB-декодер. В другом направлении индекс этого импульса отбрасывается в системном интерфейсе, а в CDMA-VMR-WB-декодере этот индекс импульса может генерироваться случайным образом. Для отбрасывания этих битов можно использовать и другие способы.

Для обработки запроса размерно-пакетной сигнализации или в случае максимума, равного половинной скорости, посылаемого CDMA2000-системой, HR-режим, обеспечивающий возможность взаимодействия, предусмотрен также для кодека, работающего в оболочке Rate Set I (на скорости, обозначаемой символами I-HR-I). Аналогично случаю оболочки Rate Set II, несколько битов должны отбрасываться в системном интерфейсе во время операции "AMR-WB-кодирования - VMR-WB-декодирования", или должны генерироваться в системном интерфейсе во время операции "VMR-WB-кодирования - AMR-WB-декодирования". Распределение битов для скорости 8,85 кбит/с и примерной конфигурации для I-HR-I-кодирования показано в таблице 7.

Таблица 7
Распределение битов для типа I-HR-I-кодирования в конфигурации оболочки Rate Set I
Параметр	AMR-WB с 8,85 кбит/с	I-HR-I с 4,0 кбит/с
Параметр	Количество битов на кадр	Количество битов на кадр
Биты режима половинной скорости	-	-
Флаг РРА	1	0
Параметры LP	46	36
Задержка основного тона	26=8+5+8+5	20
Усиления	24=6+6+6+6	24
Алгебраическая кодовая книга	80=20+20+20+20	0
Итого	177	80

При предлагаемом I-HR-I-режиме 10 битов последних 2 субвекторов, получаемых на второй ступени, при квантовании параметров LP-фильтра отбрасываются или генерируются в системном интерфейсе аналогично вышеописанной работе в оболочке Rate Set II. Задержка основного тона кодируется только с целочисленным разрешением и с распределением битов, обеспечивающим наличие 7, 3, 7 и 3 битов в четырех субкадрах. Вследствие этого работа AMR-WB-кодера и VMR-WB-декодера обеспечивает отбрасывание дробной части основного тона в системном интерфейсе и добавление дифференциальной задержки в 3 бита для 2-го и 4-го субкадров. Индексы алгебраической кодовой книги отбрасываются аналогично тому, как это делается при реализации I-HR-решения в оболочке Rate Set II. Информация об энергии сигнала остается нетронутой.

Остальная работа в режиме, обеспечивающем возможность взаимодействия, в оболочке Rate Set I аналогична работе в таком же режиме в оболочке Rate Set II, описанной выше со ссылкой на фиг.12 (применительно к операции VAD/DTX/CNG), и поэтому подробно не описывается.

Хотя настоящее изобретение описано выше путем рассмотрения иллюстративных вариантов его осуществления, в него можно вносить изменения в рамках сущности и объема настоящего изобретения, охарактеризованных в прилагаемой формуле изобретения. Например, хотя иллюстративных варианты осуществления настоящего изобретения описаны применительно к кодированию речевого сигнала, следует иметь в виду, что эти варианты также применимы к звуковым сигналам, не являющимся речевыми.

ЛИТЕРАТУРА

[1] ITU-T Recommendation G.722.2 "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)", Geneva, 2002.

[2] 3GPP TS 26.190, "AMR Wideband Speech Codec; Transcoding Functions," 3GPP Technical Specification.

[3] 3GPP TS 26.192, "AMR Wideband Speech Codec; Comfort Noise Aspects," 3GPP Technical Specification.

[4] 3GPP TS 26.193 : "AMR Wideband Speech Codec; Source Controlled Rate operation," 3GPP Technical Specification.

[5] M. Jelinek and F. Labonte, "Robust Signal/Noise Discrimination for Wideband Speech and Audio Coding," Proc. IEEE Workshop on Speech Coding, pp. 151-153, Delavan, Wisconsin, USA, September 2000.

[6] J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria," IEEE Jour, on Selected Areas in Communications, vol. 6, no. 2, pp. 314-323.

[7] 3GPP2 C.S0030-0, "Selectable Mode Vocoder Service Option for Wideband Spread Spectrum Communication Systems", 3GPP2 Technical Specification.

20 [8] 3GPP2 C.S0014-0, "Enhanced Variable Rate Codec (EVRC)", 3GPP2 Technical Specification

[9] TIA/ElA/IS-733, "High Rate Speech Service option 17 for Wideband Spread Spectrum Communication Systems". Also 3GPP2 Technical Specification C.S0020-0.

Claims

1. Способ кодирования речевого сигнала в соответствии с первой схемой речевого кодирования, основанной на использовании управляемого источником многорежимного широкополосного кодека с переменной битовой скоростью таким образом, чтобы он мог декодироваться в соответствии со второй схемой речевого кодирования, основанной на использовании адаптивного многоскоростного широкополосного кодека, причем речевой сигнал содержит интервалы активной речи, в течение которых имеется активная речь, и интервалы неактивной речи, в течение которых отсутствует активная речь, причем упомянутая первая схема речевого кодирования имеет первый набор доступных типов кодирования, каждый из первого набора типов кодирования имеет соответствующую битовую скорость при кодировании, упомянутая вторая схема речевого кодирования имеет второй набор доступных типов кодирования, включающих в себя кодирование прерывистой передачи, в котором в течение интервалов неактивной речи генерируются кадры дескриптора паузы, заключающийся в том, что
принимают входной речевой сигнал для кодирования в соответствии с упомянутой первой схемой речевого кодирования,
применяют речевой кадр, полученный из входного речевого сигнала, к функции обнаружения речевой активности для определения, является ли речевой кадр активным речевым кадром, содержащим активную речь, или неактивным речевым кадром, который не содержит активной речи;
если определено, что входной речевой кадр является неактивным речевым кадром, то выполняют операцию определения в соответствии с предварительно определенным правилом, чтобы определить, должен ли в соответствии с упомянутой второй схемой речевого кодирования неактивный речевой кадр кодироваться как кадр дескриптора паузы; и
если определено, что входной речевой кадр должен кодироваться как кадр дескриптора паузы, то кодируют входной речевой кадр с использованием первого предварительно определенного типа кодирования, выбранного из первого набора доступных типов кодирования, который имеет битовую скорость кодирования достаточно высокую, чтобы обеспечить кодирование входного речевого кадра с числом битов, совместимым с кадром дескриптора паузы, согласно упомянутой второй схеме речевого кодирования;
если определено, что входной речевой кадр не должен кодироваться как кадр дескриптора паузы, то кодируют входной речевой кадр с использованием второго предварительно определенного типа кодирования, выбранного из первого набора типов кодирования.

2. Способ по п.1, в котором второй предварительно определенный тип кодирования используют для кодирования неактивных речевых кадров в соответствии с упомянутой первой схемой речевого кодирования.

3. Способ по п.1, в котором упомянутая первая схема речевого кодирования содержит, по меньшей мере, тип кодирования с четвертной скоростью и тип кодирования с одной восьмой скорости, при этом тип кодирования с четвертной скоростью предназначен для формирования речевых кадров, кодированных с четвертной скоростью, имеющих первое предварительно заданное число битов, превышающее число битов, используемых для представления кадра дескриптора паузы в упомянутой второй схеме речевого кодирования, тип кодирования с одной восьмой скорости предназначен для формирования речевых кадров, кодированных с одной восьмой скорости, имеющих второе предварительно заданное число битов, меньшее, чем число битов, используемых для представления кадра дескриптора паузы в упомянутой второй схеме речевого кодирования, и если определено, что входной речевой кадр должен кодироваться как кадр дескриптора паузы, то входной речевой кадр кодируется с числом битов, совместимым с кадром дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, и передается как речевой кадр, кодированный с четвертной скоростью.

4. Способ по п.1, в котором упомянутая первая схема речевого кодирования содержит тип кодирования с полной скоростью, предназначенный для формирования речевых кадров, кодированных с полной скоростью, содержащих первое число битов, тип кодирования с половинной скоростью, предназначенный для формирования речевых кадров, кодированных с половинной скоростью, содержащих второе число битов, меньшее, чем первое число битов, тип кодирования с четвертной скоростью, предназначенный для формирования речевых кадров, кодированных с четвертной скоростью, содержащих третье число битов, меньшее, чем второе число битов, и тип кодирования с одной восьмой скорости, предназначенный для формирования речевых кадров, кодированных с одной восьмой скорости, содержащих четвертое число битов, меньшее, чем третье число битов, причем третье число битов больше, чем число битов, используемое для представления кадра дескриптора паузы в упомянутой второй схеме речевого кодирования, и четвертое число битов меньше, чем число битов, используемое для представления кадра дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, и если определено, что входной речевой кадр должен кодироваться как кадр дескриптора паузы, то входной речевой кадр кодируется с числом битов, совместимым с кадром дескриптора паузы упомянутой второй схемы речевого кодирования, и передается как речевой кадр, кодированный с четвертной скоростью.

5. Способ по п.3 или 4, в котором если определено, что входной речевой кадр не должен кодироваться как кадр дескриптора паузы, то входной речевой кадр кодируется с использованием типа кодирования с одной восьмой скорости.

6. Способ по п.1, в котором упомянутая первая схема речевого кодирования согласована с набором II скоростей CDMA.

7. Способ по п.1, в котором упомянутая первая схема речевого кодирования согласована с набором I скоростей CDMA.

8.Способ по п.1, в котором упомянутая первая схема речевого кодирования определена согласно многорежимному широкополосному кодированию с переменной битовой скоростью (VMR-WB), предложенному для работы в системах CDMA, а упомянутая вторая схема речевого кодирования определена согласно стандарту речевого кодирования AMR-WB.

9. Способ по п.3, в котором первое предварительно заданное число битов равно 54, а второе предварительно заданное число битов равно 20.

10. Способ по п.4, в котором первое число битов равно 266, второе число битов равно 124, третье число битов равно 54 и четвертое число битов равно 20.

11. Способ по п.9, в котором первое предварительно заданное число битов соответствует битовой скорости 2,7 кбит/с, а второе предварительно заданное число битов соответствует битовой скорости 1,0 кбит/с.

12. Способ по п.4, в котором первое число битов соответствует битовой скорости 13,3 кбит/с, второе число битов соответствует битовой скорости 6,2 кбит/с, третье число битов соответствует битовой скорости 2,7 кбит/с и четвертое число битов соответствует битовой скорости 1,0 кбит/с.

13. Способ по п.9 или 10, в котором если определено, что входной речевой кадр должен кодироваться как кадр дескриптора паузы, то входной речевой кадр кодируется с использованием 35 битов, оставляя неиспользуемыми 19 битов речевого кадра, кодированного с четвертной скоростью.

14. Способ по п.3 или 4, в котором число битов, используемых для представления кадра дескриптора паузы, согласно второй схеме речевого кодирования, соответствует 1,75 кбит/с.

15. Способ по п.1, в котором если последовательные входные речевые кадры, следующие за интервалом речевой активности, определены как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то упомянутое предварительно заданное правило определяет, что первый неактивный речевой кадр упомянутой последовательности, четвертый неактивный речевой кадр и после этого каждый восьмой неактивный речевой кадр последовательности должен кодироваться как кадр дескриптора паузы.

16. Способ по п.1, в котором если последовательные входные речевые кадры, следующие за интервалом речевой активности, определены как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то упомянутое предварительно заданное правило определяет, что а) первый неактивный речевой кадр упомянутой последовательности должен кодироваться как кадр дескриптора паузы, b) следующие два неактивных речевых кадра последовательности должны кодироваться с использованием второго предварительно определенного типа кодирования, с) четвертый неактивный речевой кадр последовательности должен кодироваться как кадр дескриптора паузы, d) следующие семь неактивных речевых кадров должны кодироваться с использованием второго предварительно заданного типа кодирования и следующий неактивный речевой кадр должен кодироваться как кадр дескриптора паузы, и этап (d) должен повторяться до тех пор, пока не будет обнаружен активный речевой кадр.

17. Способ по п.1, в котором если последовательные входные речевые кадры, следующие за интервалом речевой активности, определены как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то упомянутое предварительно заданное правило определяет, что первый неактивный речевой кадр упомянутой последовательности должен кодироваться как кадр дескриптора паузы и после этого каждый восьмой неактивный речевой кадр последовательности должен кодироваться как кадр дескриптора паузы.

18. Способ по п.1, в котором если последовательные входные речевые кадры определены как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то упомянутое предварительно заданное правило определяет, что а) первый неактивный речевой кадр упомянутой последовательности должен кодироваться как кадр дескриптора паузы, b) следующие k неактивных речевых кадров последовательности должны кодироваться с использованием второго предварительно определенного типа кодирования и следующий неактивный речевой кадр должен кодироваться как кадр дескриптора паузы, и этап (b) должен повторяться до тех пор, пока не будет обнаружен активный речевой кадр.

19. Способ по п.18, в котором k=7.

20. Способ по п.1, в котором если последовательные входные речевые кадры, следующие за интервалом речевой активности, определены как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то упомянутое предварительно заданное правило определяет, что неактивный речевой кадр должен кодироваться как кадр дескриптора паузы, если шумовые характеристики изменяются.

21. Устройство для кодирования речевого сигнала в соответствии с первой схемой речевого кодирования, основанной на использовании управляемого источником многорежимного широкополосного кодека с переменной битовой скоростью таким образом, чтобы он мог декодироваться в соответствии со второй схемой речевого кодирования, основанной на использовании адаптивного многоскоростного широкополосного кодека, причем речевой сигнал содержит интервалы активной речи, в течение которых имеется активная речь, и интервалы неактивной речи, в течение которых отсутствует активная речь, причем упомянутая первая схема речевого кодирования имеет первый набор доступных типов кодирования, каждый из первого набора типов кодирования имеет соответствующую битовую скорость кодирования, упомянутая вторая схема речевого кодирования имеет второй набор доступных типов кодирования, включающих в себя кодирование прерывистой передачи, в котором в течение интервалов неактивной речи генерируются кадры дескриптора паузы, причем устройство содержит
вход для приема речевого сигнала для кодирования в соответствии с упомянутой первой схемой речевого кодирования,
детектор речевой активности для определения, может ли речевой кадр, полученный из речевого сигнала, классифицироваться как активный речевой кадр, содержащий активную речь, или как неактивный речевой кадр, который не содержит активной речи;
блок обработки неактивного речевого кадра, предназначенный для выполнения операции определения для речевого кадра, классифицированного как неактивный, в соответствии с предварительно заданным правилом, должен ли в соответствии с упомянутой второй схемой речевого кодирования неактивный речевой кадр кодироваться как кадр дескриптора паузы; и
блок кодирования, который в ответ на операцию определения, выполненную блоком обработки неактивного кадра, обеспечивает кодирование входного речевого кадра с использованием первого предварительно определенного типа кодирования, выбранного из первого набора доступных типов кодирования, если определено, что входной речевой кадр должен кодироваться как кадр дескриптора паузы, причем первый предварительно определенный тип кодирования имеет битовую скорость кодирования достаточно высокую, чтобы обеспечить кодирование входного речевого кадра с числом битов, совместимым с кадром дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, и обеспечивает кодирование входного речевого кадра с использованием второго предварительно определенного типа кодирования, выбранного из первого набора типов кодирования, если определено, что входной речевой кадр не должен кодироваться как кадр дескриптора паузы.

22. Устройство по п.21, в котором упомянутая первая схема речевого кодирования содержит, по меньшей мере, тип кодирования с четвертной скоростью и тип кодирования с одной восьмой скорости, при этом тип кодирования с четвертной скоростью предназначен для формирования речевых кадров, кодированных с четвертной скоростью, имеющих первое предварительно заданное число битов, превышающее число битов, используемых для представления кадра дескриптора паузы в упомянутой второй схеме речевого кодирования, тип кодирования с одной восьмой скорости предназначен для формирования речевых кадров, кодированных с одной восьмой скорости, имеющих второе предварительно заданное число битов, меньшее, чем число битов, используемых для представления кадра дескриптора паузы в упомянутой второй схеме речевого кодирования, и блок кодирования выполнен с возможностью кодирования входного речевого кадра с числом битов, совместимым с кадром дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, в речевом кадре, кодированном с четвертной скоростью, если блок обработки неактивного речевого кадра определяет, что входной речевой кадр должен кодироваться как кадр дескриптора паузы.

23. Устройство по п.21, в котором упомянутая первая схема речевого кодирования содержит тип кодирования с полной скоростью, предназначенный для формирования речевых кадров, кодированных с полной скоростью, содержащих первое число битов, тип кодирования с половинной скоростью, предназначенный для формирования речевых кадров, кодированных с половинной скоростью, содержащих второе число битов, меньшее, чем первое число битов, тип кодирования с четвертной скоростью, предназначенный для формирования речевых кадров, кодированных с четвертной скоростью, содержащих третье число битов, меньшее, чем второе число битов, и тип кодирования с одной восьмой скорости, предназначенный для формирования речевых кадров, кодированных с одной восьмой скорости, содержащих четвертое число битов, меньшее, чем третье число битов, причем третье число битов больше, чем число битов, используемое для представления кадра дескриптора паузы в упомянутой второй схеме речевого кодирования, и четвертое число битов меньше, чем число битов, используемое для представления кадра дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, и блок кодирования выполнен с возможностью кодирования входного речевого кадра с числом битов, совместимым с кадром дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, в речевом кадре, кодированном с четвертной скоростью, если блок обработки неактивного речевого кадра определяет, что входной речевой кадр должен кодироваться как кадр дескриптора паузы.

24. Устройство по п.22 или 23, в котором блок кодирования выполнен с возможностью кодирования входного речевого кадра с использованием типа кодирования с одной восьмой скорости, если блок обработки неактивного речевого кадра определяет, что входной речевой кадр не должен кодироваться как кадр дескриптора паузы.

25. Устройство по п.21, выполненное с возможностью работы в соответствии с набором II скоростей CDMA.

26. Устройство по п.21, выполненное с возможностью работы в соответствии с набором I скоростей CDMA.

27. Устройство по п.21, в котором упомянутая первая схема речевого кодирования определена согласно многорежимному широкополосному кодированию с переменной битовой скоростью (VMR-WB), предложенному для работы в системах CDMA, и устройство выполнено с возможностью взаимодействия с второй схемой речевого кодирования, определенной согласно стандарту речевого кодирования AMR-WB.

28. Устройство по п.22, в котором первое предварительно заданное число битов равно 54, а второе предварительно заданное число битов равно 20.

29. Устройство по п.23, в котором первое число битов равно 266, второе число битов равно 124, третье число битов равно 54 и четвертое число битов равно 20.

30. Устройство по п.22, в котором первое предварительно заданное число битов соответствует битовой скорости 2,7 кбит/с, а второе предварительно заданное число битов соответствует битовой скорости 1,0 кбит/с.

31. Устройство по. п.23, в котором первое число битов соответствует битовой скорости 13,3 кбит/с, второе число битов соответствует битовой скорости 6,2 кбит/с, третье число битов соответствует битовой скорости 2,7 кбит/с и четвертое число битов соответствует битовой скорости 1,0 кбит/с.

32. Устройство по п.28 или 29, в котором если блок обработки неактивного речевого кадра определяет, что входной речевой кадр должен кодироваться как кадр дескриптора паузы, то блок кодирования обеспечивает кодирование входного речевого кадра с использованием 35 битов, оставляя неиспользуемыми 19 битов речевого кадра, кодированного с четвертной скоростью.

33. Устройство по п.22 или 23, в котором число битов, используемых для представления кадра дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, соответствует 1,75 кбит/с.

34. Устройство по п.21, в котором если детектор речевой активности определяет последовательные входные речевые кадры, следующие за интервалом речевой активности, как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то блок обработки неактивного речевого кадра определяет согласно упомянутому предварительно заданному правилу, что первый неактивный речевой кадр упомянутой последовательности, четвертый неактивный речевой кадр и после этого каждый восьмой неактивный речевой кадр последовательности должен кодироваться как кадр дескриптора паузы.

35. Устройство по п.21, в котором если детектор речевой активности определяет последовательные входные речевые кадры, следующие за интервалом речевой активности, как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то блок обработки неактивного речевого кадра определяет согласно упомянутому предварительно заданному правилу, что а) первый неактивный речевой кадр упомянутой последовательности должен кодироваться как кадр дескриптора паузы, b) следующие два неактивных речевых кадра последовательности должны кодироваться с использованием второго предварительно определенного типа кодирования, с) четвертый неактивный речевой кадр последовательности должен кодироваться как кадр дескриптора паузы, d) следующие семь неактивных речевых кадров должны кодироваться с использованием второго предварительно заданного типа кодирования и следующий неактивный речевой кадр должен кодироваться как кадр дескриптора паузы, и этап (d) должен повторяться до тех пор, пока не будет обнаружен активный речевой кадр.

36. Устройство по п.21, в котором если детектор речевой активности определяет последовательные входные речевые кадры, следующие за интервалом речевой активности, как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то блок обработки неактивного речевого кадра определяет согласно упомянутому предварительно заданному правилу, что первый неактивный речевой кадр упомянутой последовательности должен кодироваться как кадр дескриптора паузы и после этого каждый восьмой неактивный речевой кадр последовательности должен кодироваться как кадр дескриптора паузы.

37. Устройство по п.21, в котором если детектор речевой активности определяет последовательные входные речевые кадры как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то блок обработки неактивного кадра определяет согласно упомянутому предварительно заданному правилу, что а) первый неактивный речевой кадр упомянутой последовательности должен кодироваться как кадр дескриптора паузы, b) следующие k неактивных речевых кадров последовательности должны кодироваться с использованием второго предварительно определенного типа кодирования и следующий неактивный речевой кадр должен кодироваться как кадр дескриптора паузы, и этап b) должен повторяться до тех пор, пока не будет обнаружен активный речевой кадр.

38. Устройство по п.37, выполненное с возможностью установки k равным 7.

39. Устройство по п.21, в котором если детектор речевой активности определяет последовательные входные речевые кадры, следующие за интервалом речевой активности, как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то блок обработки неактивного кадра определяет согласно упомянутому предварительно заданному правилу, что неактивный речевой кадр должен кодироваться как кадр дескриптора паузы, если шумовые характеристики изменяются.