RU2351907C2 - Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком) - Google Patents

Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком) Download PDF

Info

Publication number
RU2351907C2
RU2351907C2 RU2005113876/09A RU2005113876A RU2351907C2 RU 2351907 C2 RU2351907 C2 RU 2351907C2 RU 2005113876/09 A RU2005113876/09 A RU 2005113876/09A RU 2005113876 A RU2005113876 A RU 2005113876A RU 2351907 C2 RU2351907 C2 RU 2351907C2
Authority
RU
Russia
Prior art keywords
speech
frame
bits
encoded
inactive
Prior art date
Application number
RU2005113876/09A
Other languages
English (en)
Other versions
RU2005113876A (ru
Inventor
Милан ЖЕЛИНЕК (CA)
Милан ЖЕЛИНЕК
Редван САЛАМИ (CA)
Редван САЛАМИ
Original Assignee
Нокиа Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Нокиа Корпорейшн filed Critical Нокиа Корпорейшн
Publication of RU2005113876A publication Critical patent/RU2005113876A/ru
Application granted granted Critical
Publication of RU2351907C2 publication Critical patent/RU2351907C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Studio Devices (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

Изобретение относится к цифровому кодированию звуковых сигналов. Предложен управляемый источником многорежимный широкополосный кодек с переменной скоростью в битах, имеющий режим работы, обеспечивающий возможность взаимодействия с адаптивным многоскоростным широкополосным кодеком, при этом предлагаемый кодек предусматривает, по меньшей мере, один режим кодирования с полной скоростью, обеспечивающей возможность взаимодействия, имеющий первую структуру распределения битов, основанную на одном из типов кодирования кодеком, и, по меньшей мере, один тип кодирования посредством генерирования комфортного шума для кодирования неактивного речевого кадра, имеющий вторую структуру распределения битов, основанную на типе кодирования кадров обновления дескрипторов пауз кодеком. Также предложены способы цифрового кодирования звука с использованием управляемого источником кодека для осуществления взаимодействия с кодеком и преобразования кадра сигнала кодека. Техническим результатом от использования изобретения является эффективное взаимодействие между адаптивным многоскоростным широкополосным кодеком и многорежимным широкополосным кодеком с переменной скоростью в битах. 2 н. и 37 з.п. ф-лы, 12 ил., 7 табл.

Description

Область техники
Настоящее изобретение относится к цифровому кодированию звуковых сигналов, в частности, но не исключительно, речевого сигнала, принимая во внимание передачу и синтез этого звукового сигнала. Более конкретно, настоящее изобретение относится к способу осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком и многорежимным широкополосным кодеком с переменной скоростью в битах.
Предшествующий уровень техники
Спрос на эффективные цифровые методы узкополосного и широкополосного кодирования речи с приемлемым компромиссом между субъективным качеством и скоростью в битах растет в различных областях применения, таких как организация телеконференций, мультимедиа и беспроводная связь. Вплоть до недавнего времени полосу пропускания телефонной связи, ограниченную диапазоном 200-3400 Гц, использовали в основном для приложений кодирования речи. Однако широкополосные речевые приложения обеспечивают повышенную разборчивость и естественность связи по сравнению с обычной полосой пропускания телефонной связи. Обнаружено, что полоса пропускания в диапазоне 50-7000 Гц является достаточной для предоставления надлежащего качества обслуживания, создающего впечатление общения лицом к лицу. В случае обычных аудиосигналов эта полоса пропускания дает приемлемое субъективное качество, но все же более низкое, чем качество средств радиосвязи с частотной модуляцией или звучания компакт-дисков, которые работают в диапазонах 20-16000 Гц и 20-20000 Гц, соответственно.
Речевой кодер преобразует речевой сигнал в цифровой поток битов, который передается по каналу связи или хранится на носителе информации. Речевой сигнал преобразуется в цифровую форму, то есть дискретизируется и квантуется, обычно, с 16 битами на выборку. Речевой кодер выполняет функцию представления этих цифровых выборок меньшим количеством битов, поддерживая при этом надлежащее субъективное качество речи. Речевой декодер или синтезатор обрабатывает переданный или сохраненный поток битов и преобразует его обратно в звуковой сигнал.
Хорошо известным путем достижения надлежащего компромисса между субъективным качеством и скоростью в битах является кодирование методом линейного предсказания с кодовым возбуждением (CELP). Этот метод кодирования является основой нескольких стандартов кодирования речи как в беспроводных, так и в проводных приложениях. В случае CELP-кодирования дискретизированный речевой сигнал обрабатывается в последовательных блоках выборок длительностью L, обычно называемых кадрами, где L - предварительно определенное число, в типичном случае соответствующее 10-30 мс. Фильтр линейного предсказания (LP-фильтр) рассчитывается и передается в каждом кадре. Расчет LP-фильтра, как правило, требует упреждающего сегмента речи длительностью 5-15 мс из последующего кадра. Кадр выборки длительностью L делится на меньшие блоки, называемый субкадрами. Количество субкадров обычно составляет три или четыре, что приводит к получению субкадров длительностью 4-10 мс. В каждом субкадре обычно получается сигнал возбуждения из двух компонентов - прошлого возбуждения и нового возбуждения - по фиксированной кодовой книге. Компонент, образуемый из прошлого возбуждения, часто называют возбуждением по адаптивной кодовой книге или возбуждением основного тона. Параметры, характеризующие сигнал возбуждения, кодируются и передаются в декодер, где восстановленный сигнал возбуждения используется в качестве входного для LP-фильтра.
В беспроводных системах, использующих технологию множественного доступа с кодовым разделением каналов (CDMA), применение управляемого источником кодирования речи с переменной скоростью в битах (VBR-кодирования речи) значительно увеличивает пропускную способность системы. При управляемом источником VBR-кодировании речи кодер работает на нескольких скоростях в битах, а для определения скорости в битах, используемой при кодировании каждого речевого кадра на основании характера этого речевого кадра (например, вокализованного, невокализованного, переходного, фонового шума), используется модуль выбора скорости. Целью является достижение наивысшего качества речи при некоторой заданной средней скорости в битах, называемой также средней скоростью передачи данных (ADR). Кодек может работать в разных режимах за счет настройки модуля выбора скорости на достижение разных ADR в разных режимах, при этом рабочая характеристика кодека улучшается при повышенных ADR. Режим работы задается системой в зависимости от канальных условий. Это обеспечивает кодек механизмом достижения компромисса между качеством речи и пропускной способностью системы.
В типичном случае при VBR-кодировании для CDMA-систем используется одна восьмая скорости для кодирования кадров без речевой активности (т.е. кадров пауз или только шума). Когда кадр является стационарно вокализованным или стационарно невокализованным, используется половинная скорость или четвертная скорость, в зависимости от рабочего режима. Если можно использовать половинную скорость, то применяется CELP-модель без кодовой книги основных тонов в случае невокализованного кадра, а в случае вокализованного кадра применяется модификация сигнала для повышения периодичности и уменьшения количества битов для индексов основного тона. Если рабочий режим обуславливает четвертную скорость, согласование сигналов обычно невозможно, поскольку количество битов оказывается недостаточным, и обычно применяется параметрическое кодирование. Полная скорость используется для начальных кадров, переходных кадров и смешанных вокализованных кадров (как правило, используется типичная CELP-модель). В дополнение к управляемой источником работе кодека в CDMA-системах система может ограничивать максимальную скорость в битах в некоторых речевых кадрах для посылки информации внутриполосной сигнализации (называемой размерно-пакетной сигнализацией), или во время плохих канальных условий (например, вблизи границ ячейки), чтобы повысить робастность кодека. Эта скорость упоминается как максимум, равный половинной скорости. Когда модуль выбора скорости выбирает кодируемый кадр как кадр полной скорости, а система накладывает ограничение, например, предписывая кадр половинной скорости (HR-кадра), рабочая характеристика речи ухудшается, потому что специализированные режимы половинной скорости (HR-режимы) не могут обеспечить эффективное кодирование начальных сигналов и переходных сигналов. Для обработки в этих специальных случаях можно предусмотреть другую модель кодирования c половинной скоростью (HR) (или с четвертной скоростью (QR)).
Как можно заметить из вышеизложенного описания, классификация сигналов и определение скорости очень важны для эффективного VBR-кодирования. Выбор скорости является ключевой частью достижения наименьшей средней скорости передачи данных с наилучшим возможным качеством.
Адаптивный многоскоростной широкополосный (AMR-WB) речевой кодек был недавно выбран Сектором стандартизации электросвязи Международного союза электросвязи (ITU-T) для нескольких вариантов широкополосных речевых услуг, а группой "Проект партнерства в создании систем третьего поколения" (3GGP) - для беспроводных систем третьего поколения, работающих в соответствии со стандартами Глобальной системы мобильной электросвязи (GSM) и широкополосного множественного доступа с кодовым разделением каналов (W-CDMA). AMR-WB-кодек предусматривает девять скоростей в битах, а именно 6,6, 8,85, 12,65, 14,25, 15,85, 18,25, 19,85, 23,05 и 23,85 кбит/с. Таким образом, желательным оказывается взаимодействие между CDMA-WB- и AMR-WB-кодеками.
Задачи изобретения
Задача настоящего изобретения в целом состоит в том, чтобы разработать усовершенствованные способы классификации сигналов и выбора скорости для широкополосного кодирования речи с переменной скоростью, в частности в том, чтобы разработать усовершенствованные способы классификации сигналов и выбора скорости для многорежимного широкополосного кодирования речи с переменной скоростью, пригодного для CDMA-систем. Еще одна задача состоит в том, чтобы разработать способы осуществления эффективного взаимодействия между широкополосным VBR-кодеком для CDMA-систем и стандартным AMR-WB кодеком.
Сущность изобретения
Более конкретно, в соответствии с первым аспектом настоящего изобретения предложен управляемый источником многорежимный широкополосный кодек с переменной скоростью в битах (VMR-WB-кодек), имеющий режим работы, который обеспечивает возможность взаимодействия с адаптивным многоскоростным широкополосным кодеком (AMR-WB-кодеком), при этом предлагаемый кодек предусматривает
по меньшей мере, один тип кодирования с полной скоростью, обеспечивающей возможность взаимодействия (I-FR-кодирования), при этом упомянутый, по меньшей мере, один тип I-FR-кодирования имеет первую структуру распределения битов, основанную на типах AMR-WB-кодирования, и
по меньшей мере, один тип кодирования посредством генерирования комфортного шума (CNG) для кодирования неактивного речевого кадра, имеющий вторую структуру распределения битов, основанную на типе AMR-WB-кодирования кадров обновления дескрипторов пауз (SID_UPDATE-кадров).
В соответствии со вторым аспектом настоящего изобретения предложен способ цифрового кодирования звука с использованием управляемого источником многорежимного широкополосного кодека с переменной скоростью в битах (VMR-WB-кодека) для осуществления взаимодействия с адаптивным многоскоростным широкополосным кодеком (AMR-WB-кодеком), заключающийся в том, что
обеспечивают кадры сигнала из дискретизированной версии звука,
для каждого кадра сигнала
i) определяют, является ли кадр сигнала активным речевым кадром или неактивным речевым кадром,
ii) если кадр сигнала является неактивным речевым кадром, то проверяют, является ли этот кадр сигнала кадром дескриптора паузы (SID-кадром),
iii) если кадр сигнала является SID-кадром, то кодируют этот кадр сигнала с помощью алгоритма кодирования посредством генерирования комфортного шума (CNG) с четвертной скоростью (QR) (QR-кодирования посредством CNG),
iv) если кадр сигнала является неактивным речевым кадром, который не является SID-кадром, то кодируют этот кадр сигнала с помощью алгоритма кодирования посредством CNG с одной восьмой скорости (ER) (ER-кодирования посредством CNG), и
v) если кадр сигнала является активным речевым кадром, то кодируют этот кадр сигнала с использованием структуры распределения битов, основанной на AMR-WB-кодеке.
В соответствии с третьим аспектом настоящего изобретения предложен способ преобразования кадра сигнала многорежимного широкополосного кодека с переменной скоростью в битах (VMR-WB-кодека) в кадр сигнала адаптивного многоскоростного широкополосного кодека (AMR-WB-кодека), при этом способ заключается в том, что
i) определяют, является ли кадр сигнала одним из кадра полной скорости с возможностью взаимодействия (I-FR-кадра), кадра половинной скорости с возможностью взаимодействия (I-HR-кадра), кадра генерирования комфортного шума четвертной скорости (CNG-QR-кадра) и кадра генерирования комфортного шума одной восьмой скорости (CNG-ER-кадра),
ii) если кадр сигнала является I-FR-кадром, то пересылают этот кадр сигнала как AMR-WB-кадр, отбрасывая первую группу битов кадра,
iii) если кадр сигнала является I-HR-кадром, то пересылают этот кадр сигнала как AMR-WB-кадр путем генерирования отсутствующих индексов алгебраической кодовой книги и отбрасывания битов, указывающих тип I-HR-кадра,
iv) если кадр сигнала является кадром генерирования комфортного шума (CNG) четвертной скорости (QR) (CNG-QR-кадром), то пересылают этот кадр сигнала как кадр обновления дескриптора паузы (SID_UPDATE-кадр), и
v) если кадр сигнала является кадром генерирования комфортного шума (CNG) одной восьмой скорости (ER) (CNG-ER-кадром), то пересылают этот кадр сигнала как кадр без данных (NO_DATA-кадр).
В соответствии с четвертым аспектом настоящего изобретения предложен способ преобразования кадра сигнала адаптивного многоскоростного широкополосного кодека (AMR-WB-кодека) в кадр сигнала многорежимного широкополосного кодека с переменной скоростью в битах (VMR-WB-кодека), при этом способ заключается в том, что
i) определяют, является ли кадр сигнала одним из кадра обновления дескриптора паузы (SID_UPDATE-кадра), первого кадра дескриптора паузы (SID_FIRST-кадра), кадра без данных (NO_DATA-кадра), стертого кадра и кадра полной скорости (FR-кадра),
ii) если кадр сигнала является SID_UPDATE-кадром, то пересылают этот кадр сигнала как кадр генерирования комфортного шума (CNG) четвертной скорости (QR) (CNG-QR-кадр),
iii) если кадр сигнала является SID_FIRST-кадром или NO_DATA-кадром, то пересылают этот кадр сигнала как кадр пробела одной восьмой скорости (ER) (ER-кадр пробела),
iv) если кадр сигнала является стертым кадром, то пересылают этот кадр сигнала как кадр стирания одной восьмой скорости (ER) (ER-кадр стирания),
v) если кадр сигнала является кадром скорости 12,65, 8,85 или 6,6 кбит/с, имеющим флаг принятия решения о речевой активности, равный единице (РРА_флаг=1), то пересылают этот кадр сигнала как кадр полной скорости с возможностью взаимодействия (I-FR-кадр),
vi) если кадр сигнала является кадром скорости 12,65, 8,85 или 6,6 кбит/с, имеющим флаг принятия решения о речевой активности, равный нулю (РРА_флаг=0), то определяют, является ли этот кадр сигнала первым кадром после активной речи,
vii) если кадр сигнала имеет РРА_флаг=0 и этот кадр сигнала является первым кадром после активной речи, то пересылают этот кадр сигнала как I-FR-кадр, а
viii) если кадр сигнала имеет РРА_флаг=0 и этот кадр сигнала не является первым кадром после активной речи, то пересылают этот кадр сигнала как кадр пробела одной восьмой скорости (ER-кадр пробела).
Другие задачи, преимущества и признаки настоящего изобретения поясняются в нижеследующем неограничительном описании иллюстративных вариантов осуществления изобретения, приводимых лишь в качестве примера, со ссылками на прилагаемые чертежи.
Краткое описание чертежей
Фиг.1 - блок-схема системы речевой связи, иллюстрирующая применение устройств кодирования и декодирования речи в соответствии с первым аспектом настоящего изобретения;
фиг.2 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в соответствии с первым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,
фиг.3 - схема последовательности операций, иллюстрирующая способ различения невокализованного кадра в соответствии с иллюстративным вариантом осуществления третьего аспекта настоящего изобретения,
фиг.4 - схема последовательности операций, иллюстрирующая способ различения устойчивого вокализованного кадра в соответствии с иллюстративным вариантом осуществления четвертого аспекта настоящего изобретения,
фиг.5 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в высококачественном режиме в соответствии со вторым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,
фиг.6 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в стандартном режиме в соответствии с третьим иллюстративным вариантом осуществления второго аспекта настоящего изобретения,
фиг.7 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в экономичном режиме в соответствии с четвертым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,
фиг.8 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в режиме, обеспечивающем возможность взаимодействия, в соответствии с пятым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,
фиг.9 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в высококачественном или стандартном режиме во время работы на максимуме, равном половинной скорости, в соответствии с шестым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,
фиг.10 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в экономичном режиме во время работы на максимуме, равном половинной скорости, в соответствии с седьмым иллюстративным вариантом осуществления второго аспекта настоящего изобретения,
фиг.11 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала в режиме, обеспечивающем возможность взаимодействия, во время работы на максимуме, равном половинной скорости, в соответствии с восьмым иллюстративным вариантом осуществления второго аспекта настоящего изобретения, и
фиг.12 - схема последовательности операций, иллюстрирующая способ цифрового кодирования звукового сигнала с обеспечением взаимодействия между многорежимным широкополосным кодеком с переменной скоростью в битах (VMR-WB-кодеком) и адаптивным многорежимным широкополосным кодеком (AMR-WB-кодеком) в соответствии с иллюстративным вариантом осуществления пятого аспекта настоящего изобретения.
Подробное описание изобретения
На фиг.1 изображена система 10 речевой связи, демонстрирующая применение кодирования и декодирования речи в соответствии с иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Система 10 речевой связи поддерживает передачу и воспроизведение речевого сигнала по каналу 12 связи. Канал 12 связи может представлять собой провод, оптическую либо волоконную линию, или радиочастотную линию. Канал 12 связи также может представлять собой комбинацию различных сред передачи, например, быть частично волоконной линией, а частично - радиочастотной линией. Радиочастотная линия может обеспечивать поддержку множества одновременных речевых передач, требующих совместно используемых ресурсов полосы пропускания, например, в сотовой телефонии. В качестве альтернативы, канал связи может быть заменен запоминающим устройством (не показано) в варианте осуществления системы связи с одним устройством, которое обеспечивает запись и хранение кодированного речевого сигнала для последующего воспроизведения.
Система 10 связи включает в себя кодирующее устройство, состоящее из микрофона 14, аналого-цифрового преобразователя 16, речевого кодера 18 и канального кодера 20 на излучающей (передающей) стороне канала 12 связи, а также канальный декодер 22, речевой декодер 24, цифро-аналоговый преобразователь 26 и динамик 28 на принимающей стороне.
Микрофон 14 вырабатывает аналоговый речевой сигнал, который подается в аналогово-цифровой (АЦ) преобразователь 16 для преобразования этого сигнала в цифровую форму. Речевой кодер 18 кодирует преобразованный в цифровую форму речевой сигнал, вырабатывая набор параметров, которые кодируются с получением их двоичного представления и подаются в канальный кодер 20. Устанавливаемый по выбору канальный кодер 20 вносит избыточность в двоичное представление параметров кодирования перед передачей их по каналу 12 связи. Кроме того, в некоторых приложениях, таких, как приложения в пакетных сетях, осуществляется пакетирование кодированных кадров перед передачей.
На принимающей стороне канальный декодер 22 использует избыточную информацию в принимаемом потоке битов для обнаружения и исправления канальных ошибок, возникающих при передаче. Речевой декодер 24 преобразует поток битов, принимаемый из канального декодера 20, обратно в набор параметров кодирования, чтобы создать синтезированный речевой сигнал. Синтезированный речевой сигнал, восстановленный в речевом декодере 24, преобразуется в аналоговую форму в цифро-аналоговом (ЦА) преобразователе 26 и воспроизводится в блоке 28 динамика.
Микрофон 14 и/или АЦ преобразователь 16 могут быть заменены в некоторых конкретных вариантах осуществления другими источниками речи для речевого кодера 18.
Кодер 20 и декодер 22 конфигурированы с обеспечением возможности воплощения способа кодирования речевого сигнала в соответствии с настоящим изобретением, как описано ниже
Классификация сигналов
На фиг.2 проиллюстрирован способ 100 цифрового кодирования речевого сигнала в соответствии с первым иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Способ 100 включает в себя классификацию речевых сигналов в соответствии с иллюстративным вариантом осуществления второго аспекта настоящего изобретения. Следует отметить, что выражение "речевой сигнал" относится к голосовым сигналам, а также к любому мультимедийному сигналу, который может включать в себя звучащую часть, например, аудиочасть с речевым содержанием (речь между фрагментами музыки, речь с фоновой музыкой, речь со специальными звуковыми эффектами и т.д.).
Как показано на фиг.2, классификацию сигналов проводят в три этапа - 102, 106 и 110, на каждом из которых обеспечивают различение конкретного класса сигналов. Сначала на этапе 102, классификатор первого уровня в форме детектора речевой активности (VAD) (не показан) осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр, то способ 100 кодирования оканчивается кодированием текущего кадра, например, посредством генерирования комфортного шума (CNG) (этап 104). Если на этапе 102 обнаруживается активный речевой кадр, то этот кадр подвергается воздействию классификатора второго уровня (не показан), конфигурированного с обеспечением возможности различения невокализованных кадров. Если классификатор на этапе 106 классифицирует кадр как невокализованной речевой сигнал, то способ 100 кодирования оканчивается на этапе 108, где кадр кодируется способом кодирования, оптимизированным для невокализованных сигналов. В противном случае речевой кадр на этапе 110 пропускается через классификатор третьего уровня (не показан) в форме модуля классификации "устойчивых вокализованных" сигналов (не показан). Если текущий кадр классифицируется как устойчивый вокализованный кадр, то этот кадр кодируется способом кодирования, оптимизированным для устойчивых вокализованных сигналов (этап 112). В противном случае кадр, вероятно, содержит неустойчивый речевой сегмент, например, вокализованный начальный сигнал или часть быстро эволюционирующего сигнала, и этот кадр кодируется с помощью речевого кодера общего назначения с высокой скоростью в битах, позволяющей поддерживать надлежащее субъективное качество (этап 114). Отметим, что если относительная энергия кадра ниже, чем некоторый порог, то эти кадры можно кодировать общим способом кодирования с более низкой скоростью, чтобы дополнительно уменьшить среднюю скорость передачи данных.
Классификаторы и кодеры могут принимать многие формы - от электронных схем до однокристального процессора.
В нижеследующем описании приведено более подробное пояснение классификации различных типов речевого сигнала, а также описаны способы классификации невокализованной и вокализованной речи.
Различение неактивных речевых кадров (с помощью детектора речевой активности)
Различение неактивных речевых кадров осуществляется на этапе 102 с помощью детектора речевой активности (VAD). Схема VAD хорошо известна специалисту в данной области техники, так что более подробное описание ее здесь будет опущено. Пример VAD описан в работе [5].
Различение невокализованных активных речевых кадров
Невокализованные части речевого сигнала характеризуются отсутствием периодичности и могут быть дополнительно подразделены на неустойчивые кадры, в которых энергия и спектр претерпевают быстрое изменение, и устойчивые кадры, в которых упомянутые характеристики остаются относительно неизменными.
На этапе 106 различение невокализованных кадров осуществляется с использованием, по меньшей мере, трех из следующих параметров:
меры звучания, которую можно вычислить как усредненную нормализованную корреляцию (
Figure 00000001
),
меры (еt) спектрального наклона,
отношения (dE) энергий сигналов, используемого для оценки вариации энергии кадра в пределах кадра, а значит, и устойчивости кадра, и
относительной энергии кадра.
Мера звучания
На фиг.3 иллюстрируется способ 200 различения невокализованного кадра в соответствии с иллюстративным вариантом третьего аспекта настоящего изобретения.
Нормализованная корреляция, используемая для определения меры звучания, вычисляется как часть модуля 214 исследования основного тона при разомкнутом контуре. В иллюстративном варианте осуществления согласно фиг.3 используются кадры длительностью 20 мс. Модуль исследования основного тона при разомкнутом контуре выдает оценку р основного тона при разомкнутом контуре каждые 10 мс (дважды за кадр). При осуществлении способа 200 этот модуль также используется для выдачи мер rx нормализованных корреляций. Эти нормализованные корреляции вычисляются по взвешенной речи и по прошлой взвешенной речи с задержкой основного тона при разомкнутом контуре. Взвешенный речевой сигнал sw(n) вычисляется в перцепционном взвешивающем фильтре 212. В этом иллюстративном варианте осуществления используется перцепционный взвешивающий фильтр 212 с фиксированным знаменателем, пригодный для широкополосных сигналов. Нижеследующее соотношение представляет собой пример передаточной функции для перцепционного взвешивающего фильтра 212
Figure 00000002
,
где
Figure 00000003
Figure 00000004
где А(z) - передаточная функция фильтра с линейным предсказанием (LP-фильтра), вычисляемая в модуле 218, которая задается следующим соотношением:
Figure 00000005
Мера звучания задается средней корреляцией
Figure 00000006
x, которая определяется как
Figure 00000007
(1)
где rx(0), rx(1) и rx(2) соответственно представляют собой нормализованную корреляцию первой половины текущего кадра, нормализованную корреляцию второй половины текущего кадра и нормализованную корреляцию упреждающей выборки (начала следующего кадра).
К нормализованной корреляции в уравнении (1) можно прибавить поправку re на шум, чтобы учесть присутствие фонового шума. В присутствии фонового шума средняя нормализованная корреляция уменьшается. Вместе с тем, применительно к классификации сигналов, это уменьшение не оказывает влияния на распознавание вокализованных и невокализованных кадров, так что упомянутое уменьшение компенсируется введением re. Следует отметить, что в случае использования надлежащего алгоритма снижения шума величина re является практически нулевой.
При осуществлении способа 200 используется упреждающая выборка длительностью 13 мс. Нормализованная корреляция rx(k) вычисляется следующим образом:
Figure 00000008
(2)
где
Figure 00000009
Figure 00000010
Figure 00000011
При осуществлении способа 200, вычисление корреляций происходит следующим образом. Корреляции rx(k) вычисляются по взвешенному речевому сигналу sw(n). Моменты tk относятся к началу текущего полукадра и составляют 0, 128 и 256 выборок, соответственно, для k = 0, 1 и 2 при частоте дискретизации 12800 Гц. Значения pk = TOL представляют собой выбранные оценки основного тона при разомкнутом контуре для полукадров. Протяженность Lk вычисления автокорреляции зависит от периода основного тона. Сводка значений Lk в первом варианте осуществления приведена ниже (для частоты дискретизации, составляющей 12,8 кГц):
Lk = 80 выборок для pk ≤ 62 выборки;
Lk = 124 выборки для 62 выборки < pk ≤ 122 выборки;
Lk = 230 выборок для pk > 122 выборки.
Эти протяженности предполагают, что длина коррелированного вектора включает в себя, по меньшей мере, один период основного тона, что способствует робастному обнаружению основного тона в разомкнутом контуре. При длинных периодах основного тона (p1 > 122 выборки), rx(1) и rx(2) идентичны, т.е. вычисляется только одна корреляция, поскольку коррелированные векторы достаточно длинны для того, чтобы анализ по упреждающей выборке оказался больше ненужным.
В альтернативном варианте взвешенный речевой сигнал можно подвергнуть децимации вдвое, чтобы упростить поиск основного тона в разомкнутом контуре. Взвешенный речевой сигнал можно подвергнуть фильтрации нижних частот перед децимацией. В этом случае значения Lk задаются следующим образом:
Lk = 40 выборок для pk ≤ 31 выборке;
Lk = 62 выборки для 62 выборки < pk ≤ 61 выборке;
Lk = 115 выборок для pk > 61 выборки.
Для вычисления корреляций можно использовать и другие способы. Например, можно вычислять всего одно значение нормализованной корреляции для всего кадра вместо усреднения нескольких нормализованных корреляций. Кроме того, корреляции можно вычислять по сигналам, не являющимся взвешенными речевыми, например, по остаточному сигналу, речевому сигналу или остаточному речевому сигналу или взвешенному речевому сигналу, подвергнутому фильтрации нижних частот.
Спектральный наклон
Параметр спектрального наклона содержит информацию о частотном распределении энергии. При осуществлении способа 200, спектральный наклон оценивают в частотной области как отношение между энергией, сконцентрированной на низких частотах, и энергией, сконцентрированной на высоких частотах. Вместе с тем, спектральный наклон можно оценивать и по-другому, например, как отношение между двумя первыми коэффициентами автокорреляции речевого сигнала.
При осуществлении способа 200 используют дискретное преобразование Фурье для осуществления спектрального анализа в модуле 210, показанном на фиг.10. Частотный анализ и вычисление наклона проводятся дважды за кадр. Используют 256-точечное быстрое преобразование Фурье (БПФ) с перекрытием 50 процентов. Окна анализа располагают так, что используется вся упреждающая выборка. В начале первого окна находятся 24 выборки, следующие после начала текущего кадра. Во втором окне находятся еще 128 выборок. Можно использовать разные окна для взвешивания входного сигнала в целях частотного анализа. Используется корень квадратный из (ширины) окна Хэмминга (что эквивалентно синусоидальному окну). В частности, это окно весьма подходит для способов с перекрытием и суммированием, вследствие чего этот конкретный спектральный анализ можно использовать в реализуемом по выбору алгоритме подавления шумов на основании спектрального вычитания и анализа/синтеза с перекрытием и суммированием. Поскольку такие алгоритмы подавления шумов считаются хорошо известными в данной области техники, более подробное описание их здесь опущено.
Энергия на высоких частотах и на низких частотах вычисляется в следующих перцепционных критических полосах [6]:
Критические полосы = {100,0, 200,0, 300,0, 400,0, 510,0, 630,0, 770,0, 920,0, 1080,0, 1270,0, 1480,0, 1720,0, 2000,0, 2320,0, 2700,0, 3150,0, 3700,0, 4400,0, 5300,0, 6350,0} Гц.
Энергия на высоких частотах вычисляется как среднее значение энергий последних двух критических полос
Figure 00000012
где ЕСВ(i) - средние энергии, приходящиеся на критическую полосу, вычисленные как
Figure 00000003
Figure 00000013
i=0,…,19
где NСВ(i) - количество интервалов дискретизации по частоте в i-й полосе, а XR(k) и XI(k) - соответственно действительная и мнимая части k-го интервала дискретизации по частоте, и ji - индекс первого интервала дискретизации в i-й критической полосе.
Энергия на низких частотах вычисляется как средняя из энергий в первых 10-ти критических полосах. Критические полосы средних частот исключены из вычисления для улучшения различения между кадрами с высокой концентрацией энергии на низких частотах (обычно - вокализованными) и высокой концентрацией энергии на высоких частотах (обычно - невокализованными). Между этими частотами запас энергии не характеризует никакие классы и увеличивает путаницу при принятии решения.
Энергия на низких частотах вычисляется по-разному для длинных периодов основного тона и коротких периодов основного тона. Для вокализованных охватывающих сегментов речи используется гармоническая структура спектра для улучшения различения вокализованных и невокализованных кадров. Так, для коротких периодов основного тона поинтервально (на каждом интервале дискретизации) вычисляется El, а при суммировании учитываются только интервалы дискретизации по частоте, достаточно близкие к гармоникам речи. То есть
Figure 00000014
где EBIN(k) - энергии интервалов дискретизации в первых 25-ти интервалах дискретизации по частоте (постоянная составляющая не учитывается). Отметим, что эти 25 интервалов дискретизации соответствуют первым 10-ти критическим полосам. При вышеуказанном суммировании учитываются только члены, связанные с интервалами дискретизации, близкими к гармоникам основного тона, так что значение wh(k) задается равным 1, если расстояние между интервалом дискретизации и ближайшей гармоникой не превышает некоторый порог частоты (50 Гц), и задается равным 0 в противном случае. Подсчет cnt - это количество ненулевых членов при суммировании. Учитываются только интервалы дискретизации, находящиеся ближе, чем в 50-ти герцах к ближайшим гармоникам. В данном случае, если структура является гармонической на низких частотах, в сумму будут включаться только члены высоких энергий. С другой стороны, если структура не является гармонической, выбор членов будет случайным, а сумма будет меньше. Таким образом, можно обнаружить даже невокализованные сигналы с высоким запасом энергии на низких частотах. Эту обработку нельзя провести для более длительных периодов основного тона, поскольку разрешение по частоте оказывается недостаточным. Для значений длительности основного тона, превышающих 128, или для априори невокализованных сигналов, энергия на низких частотах, приходящаяся на критическую полосу, вычисляется как
Figure 00000015
Априори невокализованные сигналы определяются, когда rx(0)+rx(1)+re<0,6, где значение re - это поправка, прибавляемая к нормализованной корреляции, как описано выше.
Результирующие энергии на низких и высоких частотах получают путем вычитания оцененной энергии шумов из значений
Figure 00000016
и
Figure 00000017
, вычисленных выше. То есть
Eh =
Figure 00000017
- Nh;
El =
Figure 00000016
- Nl;
где Nh и Nl - усредненные энергии шумов в последних 2-х критических полосах и первых 10-ти критических полосах, соответственно. Оцененные энергии шумов прибавлены к результату вычисления наклона, чтобы учесть присутствие фонового шума.
И, наконец, спектральный наклон задается следующим образом:
Figure 00000018
Отметим, что вычисление спектрального наклона проводится дважды за кадр, чтобы получить значения etilt(0) и etilt(1), соответствующие обоим спектральным анализам за кадр. Средний спектральный наклон, используемый в классификации невокализованных кадров, задается следующим образом:
Figure 00000019
где eold - наклон, полученный в результате второго спектрального анализа предыдущего кадра.
Вариация энергии, dE
Вариация dE энергии оценивается по речевому сигналу s(n), из которого устранен шум, где n=0 соответствует началу текущего кадра. Энергия сигнала оценивается дважды за субкадр, т.е. 8 раз за кадр, на основании кратковременных сегментов длиной по 32 выборки. Кроме того, вычисляются также кратковременные энергии последних 32-х выборок из следующего кадра. Максимальные кратковременные энергии вычисляются как
Figure 00000003
Figure 00000020
j=-1,…,8
где j=-1 и j=8 соответствуют концу предыдущего кадра и началу следующего кадра. Еще один набор из 9-ти максимальных энергий вычисляют путем сдвига индексов речи на 16 выборок. То есть
Figure 00000003
Figure 00000021
j=0,…,8
Максимальная вариация dE энергии между последовательными кратковременными сегментами вычисляется как максимум следующих выражений:
Figure 00000022
если
Figure 00000023
Figure 00000024
если
Figure 00000025
Figure 00000026
для j=1…7
Figure 00000027
для j=1…8
В альтернативном варианте можно использовать другие способы, чтобы оценить вариацию энергии в кадре.
Относительная энергия E rel
Относительная энергия кадра задается разностью между энергией кадра, выраженной в децибелах, и долговременной средней энергией кадра. Энергия кадра вычисляется как
Figure 00000028
, дБ,
где ЕСВ(i) - средние энергии, приходящиеся на критическую полосу, как описано выше. Долговременная средняя энергия кадра задается следующим образом:
Figure 00000029
= 0,99
Figure 00000029
+ 0,01Et,
с начальным значением
Figure 00000029
= 45 дБ.
Таким образом, относительная энергия кадра задается следующим образом:
Erel = Et -
Figure 00000029
.
Относительная энергия кадра используется для того, чтобы идентифицировать кадры с низкой энергией, которые не классифицированы как кадры фонового шума или невокализованные кадры. Эти кадры могут кодироваться общим кодером половинной скорости (HR-кодером), чтобы уменьшить среднюю скорость (ADR).
Классификация невокализованной речи
Классификация невокализованных речевых кадров основана на вышеописанных параметрах, а именно, мере
Figure 00000001
звучания, мере еt спектрального наклона, вариации dE энергии в пределах кадра сигнала и относительной энергии Еrel кадра сигнала. Решение принимается на основе, по меньшей мере, трех из этих параметров. Пороги решения устанавливаются на основе рабочего режима (требуемой средней скорости передачи данных). В основном для рабочих режимов с более низкими желаемыми скоростями передачи данных пороги задаются как более благоприятствующие классификации невокализованной речи (поскольку для кодирования кадра будет использоваться кодирование с половинной скоростью или четвертной скоростью). Невокализованные кадры обычно кодируются кодером невокализованной речи половинной скорости (HR-кодером). Однако в случае экономичного режима можно использовать кодер невокализованной речи четвертной скорости (QR-кодер), чтобы дополнительно уменьшить ADR, если удовлетворяются некоторые дополнительные условия.
В высококачественном режиме кадр кодируется как невокализованный HR-кадр, если удовлетворяется следующее условие:
(
Figure 00000001
< th1) И (et < th2) И (dE < th3),
где th1 = 0,5, th2 = 1 и th3 =
Figure 00000030
Во время принятия решения по речевой активности используется задержка решения. Так, после периодов активной речи, когда в соответствии с алгоритмом принимается решение, что кадр является неактивным речевым кадром, локальное решение по речевой активности (локальное РРА) устанавливается на нуль, а флаг фактического РРА устанавливается на нуль только спустя некоторое количество кадров (т.е. период задержки). Это позволяет избежать "обрезания" смещений речи. Как в стандартном, так и в экономичном режиме, если локальное РРА является нулевым, кадр классифицируется как невокализованной кадр.
В стандартном режиме кадр кодируется как невокализованный HR-кадр, если локальное РРА равно 0 или если удовлетворяется следующее условие:
(
Figure 00000001
< th4) И (et < th5) И ((dE < th6) или (Erel < th7)),
где th4 = 0,695, th5 = 4, th6 = 40 и th7 = -14.
В экономичном режиме кадр квалифицируется как невокализованный кадр, если локальное РРА равно 0 или если удовлетворяется следующее условие:
(
Figure 00000001
< th8) И (et < th9) И ((dE < th10) или (Erel < th11)),
где th8 = 0,695, th9 = 4, th10 = 60 и th11 = -14.
В экономичном режиме невокализованные кадры обычно кодируются как невокализованные HR-кадры. Однако они также могут кодироваться как невокализованные QR-кадры, если удовлетворяются следующие дополнительные условия: если последний кадр является вокализованным кадром или кадром фонового шума и если в конце кадра энергия сконцентрирована на высоких частотах, а на упреждающей выборке не обнаруживается потенциальная вокализованная начальная часть, то этот кадр кодируется как невокализованный QR-кадр. Последние два условия определяются следующим образом:
(rx(2) < th12) И (etilt(1) < th13), где th12 = 0,73, th13 = 3.
Отметим, что rx(2) - это нормализованная корреляция на интервале упреждающей выборки, а etilt(1) - это наклон во втором спектральном анализе, охватывающем конец кадра и упреждающую выборку.
Конечно, для различения невокализованного кадра можно использовать способы, отличающиеся от способа 200.
Различение устойчивых вокализованных речевых кадров
В случае стандартного и экономичного режимов устойчивые вокализованные кадры могут кодироваться способом кодирования вокализованных HR-сигналов.
Кодирование вокализованных HR-сигналов предусматривает использование модификации сигналов для эффективного кодирования устойчивых вокализованных кадров.
Методы модификации сигналов обеспечивают настройку основного тона сигнала с достижением предварительно определенного профиля задержки. Затем посредством долговременного предсказания прошлый сигнал возбуждения отображается на текущий субкадр с использованием этого профиля задержки и масштабируется с помощью параметра усиления. Профиль задержки получают непосредственным интерполированием между двумя оценками основного тона в разомкнутом контуре, первая из которых получена в предыдущем кадре, а вторая - в текущем кадре. Интерполяция дает значение задержки кадра для каждого момента времени. После получения профиля задержки основной тон в субкадре, подлежащем кодированию в текущий момент, настраивается для отслеживания профиля задержки посредством деформации, изменения временного масштаба сигнала. В случае прерывистой деформации [1, 4, 5] сегмент сигнала сдвигается влево или вправо без изменения длины сегмента. Прерывистая деформация требует процедуры обработки перекрывающихся или пропущенных частей результирующих сигналов. Для уменьшения артефактов в этих операциях, допустимое изменение временного масштаба поддерживается малым. Кроме того, деформация обычно осуществляется с использованием остаточного сигнала LP-фильтра или взвешенного речевого сигнала, чтобы уменьшить получаемые искажения. Использование этих сигналов вместо речевого сигнала облегчает обнаружение импульсов основного тона и областей малой мощности между ними, а значит, и определение сегментов сигнала для деформации. Фактический модифицированный речевой сигнал формируется путем инверсной фильтрации.
После осуществления модификации сигнала для данного субкадра, кодирование может производиться обычным образом, за исключением того, что возбуждение по адаптивной кодовой книге формируется с использованием предварительно определенного профиля задержки.
В рассматриваемом иллюстративном варианте осуществления модификация сигналов по основному тону и кадру осуществляется одновременно, то есть адаптируя один сегмент цикла основного тона в некоторый момент времени в текущем кадре таким образом, что последующий речевой кадр начинается при полном временном согласовании с исходным сигналом. Сегменты цикла основного тона ограничены границами кадра. Это предотвращает перенос временного сдвига через границы кадра, упрощая реализацию кодера и уменьшая риск артефактов в модифицированном речевом сигнале. Это также упрощает работу с переменной скоростью в битах при переходах между типами кодирования с разрешенной и блокированной модификацией сигналов, поскольку каждый новый кадр начинается во временном согласовании с исходным сигналом.
Как показано на фиг.2, если кадр не классифицирован ни как неактивный речевой кадр, ни как невокализованный кадр, то проверяют, является ли он устойчивым вокализованным кадром (этап 110). Классификация устойчивых вокализованных кадров выполняется с использованием метода разомкнутого контура, в связи с процедурой модификации сигналов, используемой для кодирования устойчивых вокализованных кадров.
На фиг.4 проиллюстрирован способ 300 для различения устойчивого вокализованного кадра в соответствии с иллюстративным вариантом осуществления четвертого аспекта настоящего изобретения.
Субпроцедуры, выполняемые при модификации сигналов, обеспечивают получение показателей, количественно характеризующих достижимую рабочую характеристику долговременного предсказания в текущем кадре. Если любой из этих показателей оказывается вне допустимых для него пределов, то процедура модификации сигналов завершается одним из логических блоков. В этом случае исходный сигнал сохраняется нетронутым, а кадр не классифицируется как устойчивый вокализованный кадр. Эта комплексная логика обеспечивает максимизацию качества модифицированного речевого сигнала после модификации сигнала и кодирования с низкой скоростью в битах.
Процедура поиска импульсов основного тона на этапе 302 обеспечивает получение нескольких показателей исходя из периодичности основного кадра. Поэтому логический блок, следующий за этим этапом, является важным компонентом логики классификации. Наблюдается эволюция длительности цикла основного тона. Логический блок сравнивает расстояние до обнаруженных позиций импульсов основного тона с интерполированной оценкой основного тона в разомкнутом контуре, а также с расстоянием до ранее обнаруженных импульсов основного тона. Процедура модификации сигналов завершается, если различие с оценкой основного тона в разомкнутом контуре или с длительностями предыдущего цикла основного тона оказывается слишком большой.
Выбор профиля задержки на этапе 304 дает дополнительную информацию об эволюции циклов основного тона и периодичности текущего речевого кадра. Процедура модификации сигналов продолжается с этого блока, если удовлетворяется условие |dn - dn-1|<0,2dn, где dn и dn-1 - задержки основного тона в текущем и прошлом кадрах. По существу, это означает, что при классификации текущего кадра как устойчиво вокализованного допускается лишь малое изменение задержки.
Когда кадры, подвергнутые модификации сигналов, кодируются с низкой скоростью передачи в битах, форма сегментов цикла основного тона поддерживается одной и той же на протяжении кадра, чтобы обеспечить точное моделирование сигнала посредством долговременного предсказания, а значит - и кодирование с низкой скоростью передачи в битах без ухудшения субъективного качества. При модификации сигналов на этапе 306 сходство последовательных сегментов можно количественно охарактеризовать посредством нормализованной корреляции между текущим сегментом и целевым сигналом при оптимальном сдвиге. Сдвиг сегментов цикла основного тона, максимизирующий их корреляцию с целевым сигналом, повышает периодичность и дает значительный выигрыш от долговременного предсказания, если используется модификация сигналов. Успех этой процедуры гарантируется требованием, в соответствии с которым все значения корреляции должны быть больше, чем предварительно определенный порог. Если это условие не выполняется для всех сегментов, процедура модификации сигналов завершается, а исходный сигнал сохраняется нетронутым. В общем случае несколько меньший диапазон порогов допустим для мужских голосов при одинаковой эффективности кодирования. Пороги усиления можно изменять в разных рабочих режимах VBR-кодека, чтобы регулировать использование режимов кодирования, в которых применяется модификация сигналов, следовательно, изменять целевую среднюю скорость в битах.
Как описано выше, вся логика выбора скорости передачи в соответствии со способом 100 предусматривает три этапа, каждый из которых обеспечивает различение конкретного класса сигналов. Один из этапов включает в себя алгоритм модификации сигналов в качестве неотъемлемой части. Во-первых, VAD осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр, то способ классификации заканчивается, так как кадр рассматривается как кадр фонового шума и кодируется, например, с помощью генератора комфортного шума. Если обнаруживается активный речевой кадр, то этот кадр подвергается обработке на втором этапе, предназначенном для различения невокализованных кадров. Если кадр классифицируется как невокализованной речевой сигнал, то цепочка классификации заканчивается, а кадр кодируется в режиме, предназначенном для невокализованных кадров. На последнем этапе речевой кадр обрабатывают посредством предложенной процедуры модификации сигналов, которая разрешает модификацию, если соблюдаются условия, описанные ранее в этом подразделе. В таком случае кадр классифицируется как устойчивый речевой кадр, основной тон исходного сигнала настраивается в соответствии с определенным контуром искусственно создаваемой задержки, а кадр кодируется с использованием конкретного режима, оптимизированного для этих типов кадров. В противном случае кадр, вероятно, содержит неустойчивый речевой сегмент, например, вокализованный начальный или быстро эволюционирующий речевой сигнал. Эти кадры, как правило, требуют более обобщенной модели кодирования. Эти кадры обычно кодируются с использованием FR-кодирования общего типа. Вместе с тем, если относительная энергия кадра меньше, чем некоторый порог, то эти кадры могут кодироваться посредством HR-кодирования общего типа, чтобы дополнительно уменьшить ARD.
Кодирование речи и выбор скорости передачи для многорежимных VBR-систем, использующих технологию CDMA (CDMA-VBR-систем)
Ниже описаны способы выбора скорости передачи и цифрового кодирования звука для звуковых многорежимных CDMA-VBR-систем, которые могут работать в оболочке Rate Set II, в соответствии с иллюстрируемыми вариантами осуществления настоящего изобретения.
Описанный кодек основан на адаптивном многоскоростном широкополосном (AMR-WB) речевом кодеке, который недавно выбран Сектором стандартизации электросвязи Международного союза электросвязи (ITU-T) для нескольких вариантов широкополосных речевых услуг и группой "Проект партнерства в создании систем третьего поколения" (3GGP) для беспроводных систем третьего поколения, работающих в соответствии со стандартами Глобальной системы мобильной электросвязи (GSM) и широкополосного множественного доступа с кодовым разделением каналов (W-CDMA). AMR-WB-кодек предусматривает девять скоростей в битах, а именно, 6,6, 8,85, 12,65, 14,25, 15,85, 18,25, 19,85, 23,05 и 23,85 кбит/с. Управляемый источником VBR-кодек на основе AMR-WB-кодека, предназначенный для CDMA-систем, обеспечивает возможность взаимодействия между CDMA-системами и другими системами, использующими AMR-WB-кодек. В качестве общей скорости между широкополосным VBR-кодеком CDMA-системы и AMR-WB-кодеком можно использовать скорость в битах AMR-WB-кодека, составляющую 12,65 кбит/с и являющуюся той скоростью, которая лучше всего согласуется с полной скоростью, составляющей 13,3 кбит/с, в оболочке Rate Set II, что обеспечит возможность взаимодействия, не требуя преобразования кода (которое ухудшает качество речи). Специально для решения проблемы широкополосного VBR-кодирования в CDMA-системах разработаны типы кодирования с более низкими скоростями, чтобы обеспечить эффективную работу в оболочке Rate Set II. В таком случае кодек может работать в нескольких CDMA-специфичных режимах, используя все скорости, но при этом будет иметь режим, который гарантирует взаимодействие с системами, в которых используется AMR-WB-кодек.
Способы кодирования в соответствии с вариантами осуществления настоящего изобретения сведены в таблицу 1, в которой они все будут именоваться типами кодирования.
Таблица 1
Типы кодирования, используемого в иллюстративных вариантах осуществления, с соответствующими скоростями в битах:
Тип кодирования Скорость в битах [кбит/с] Количество битов на кадр длительностью 20 мс
Общий FR 13,3 266
FR с обеспечением возможности взаимодействия 13,3 266
HR вокализованных сигналов 6,2 124
HR невокализованных сигналов 6,2 124
HR с обеспечением возможности взаимодействия 6,2 124
Общий HR 6,2 124
QR невокализованных сигналов 2,7 54
CNG QR 2,7 54
CNG ER 1,0 20
Типы кодирования с полной скоростью (FR) основаны на применении стандартного AMR-WB-кодека, работающего на скорости 12,65 кбит/с. Использование скорости 12,65 кбит/с AMR-WB-кодека позволяет осуществить кодек, работающий с переменной скоростью в битах, для CDMA-системы, выполненной с возможностью взаимодействия с другими системами путем использования стандарта AMR-WB-кодека. Для согласования с полной скоростью, предусматриваемой оболочкой Rate Set II при использовании технологии CDMA, составляющей 13,3 кбит/с, добавляют избыточные 13 битов на кадр. Эти биты используют для повышения робастности кодека в случае стертых кадров и получения существенного различия между типом общего FR и FR с обеспечением возможности взаимодействия (упомянутые биты не используются для типа FR с обеспечением возможности взаимодействия). Типы FR-кодирования основаны на модели линейного предсказания с возбуждением по алгебраическому коду (ACELP-модели), оптимизированной для обычных широкополосных речевых сигналов. Эта модель работает на речевых кадрах длительностью 20 мс с частотой дискретизации 16 кГц. Перед дальнейшей обработкой входной сигнал подвергают субдискретизации с частотой дискретизации 12,8 кГц и предварительной обработке. Параметры LP-фильтра кодируются один раз за кадр с использованием 46 битов. Затем этот кадр делится на четыре субкадра, в которых индексы и усиления адаптивной и фиксированной кодовой книг кодируются один раз за субкадр. Фиксированная кодовая книга формируется с использованием структуры алгебраической кодовой книги, в которой 64 позиции в субкадре разделены на 4 дорожки чередующихся позиций и в которой 2 импульса со знаками помещены в каждую дорожку. Эти два импульса, приходящиеся на дорожку, кодируются с использованием 9 битов, что дает в сумме 36 битов на субкадр. Более подробное описание AMR-WB-кодека содержится в работе [1]. Распределения битов для типов FR-кодирования приведены в таблице 2.
Таблица 2
Распределение битов для типов кодирования с полной скоростью (FR) общего типа и с обеспечением возможности взаимодействия в оболочке Rate Set II стандарта CDMA2000 на основании стандарта на AMR-WB-кодеки при скорости 12,65 кбит/с
Количество битов на кадр
Параметр Общий FR FR с обеспечением возможности взаимодействия
Класс информации - -
Бит РРА - 1
Параметры 46 46
Задержка основного тона 30 30
Фильтрация основного тона 4 4
Усиления 28 28
Алгебраическая кодовая книга 144 144
Биты FER-защиты 14 -
Неиспользованные биты - 13
Итого 266 266
В случае устойчивых вокализованных кадров используется кодирование вокализованных сигналов с половинной скоростью. Распределение битов вокализованных кадров для половинной скорости приведено в таблице 3. Поскольку кадры, подлежащие кодированию в этом режиме связи, являются - что характерно - весьма периодичными, для поддержания хорошего субъективного качества, например, по сравнению со случаем переходных кадров, оказывается достаточной значительно более низкая скорость в битах. Используют модификацию сигналов, которая обеспечивает удовлетворительное кодирование задерживаемой информации с использованием лишь девяти битов на кадр длительностью 20 мс, что позволяет экономить значительную долю ресурса битов для задания других параметров кодирования сигналов. При модификации сигналов сигнал вынужденно следует некоторому профилю основного тона, который может передаваться с использованием по 9 битов на кадр. Хорошие показатели долговременного предсказания позволяют использовать лишь 12 битов на субкадр длительностью 5 мс для возбуждения по фиксированной кодовой книге без ухудшения субъективного качества речи. Фиксированная кодовая книга представляет собой алгебраическую кодовую книгу и содержит две дорожки, на каждую из которых приходится по одному импульсу, при этом каждая дорожка имеет 32 возможных позиции.
Таблица 3
Распределение битов для кодирования половинной скорости (HR) общего типа, вокализованных и невокализованных кадров в соответствии с оболочкой Rate Set II стандарта CDMA2000
Количество битов на кадр
Параметр Общий HR HR вокализованных сигналов HR невокализованных сигналов HR с обеспечением возможности взаимодействия
Класс информации 1 3 2 3
Бит РРА - - - 1
Параметры LP 36 36 46 46
Задержка основного тона 13 9 - 30
Фильтрация основного тона - 2 - 4
Усиления 26 26 24 28
Алгебраическая кодовая книга 48 48 52 -
Биты FER-защиты - - - -
Неиспользованные биты - - - 12
Итого 124 124 124 124
В случае невокализованных кадров адаптивная кодовая книга (или кодовая книга основного тона) не используется. В каждом субкадре используется 13-битовая гауссова кодовая книга, причем усиление этой кодовой книги кодируется с использованием 6 битов на субкадр. Следует отметить, что в случаях, когда нужно дополнительно уменьшить среднюю скорость в битах, можно использовать кодирование невокализованных сигналов с четвертной скоростью в случае устойчивых невокализованных кадров.
Для сегментов с низкой энергией используется режим кодирования половинной скорости общего типа. Этот режим общего HR также можно использовать при работе на максимуме, равном половинной скорости, как пояснено ниже. Распределение битов для режима общего HR приведено в таблице 3.
Например, в случае классификационной информации для разных HR-кодеров в случае общего HR 1 бит используется, чтобы указать, является ли кадр кадром общего HR или другого HR. В случае HR невокализованных сигналов для классификации используются 2 бита: первый бит - чтобы указать, что кадр не является кадром общего HR, а второй бит - чтобы указать, что он является невокализованным HR-кадром, а не вокализованным HR-кадром или HR-кадром взаимодействия (это поясняется ниже). В случае HR-кодирования вокализованных сигналов используются 3 бита: первые 2 бита указывают, что кадр не является кадром общего HR или невокализованным HR-кадром, а третий бит указывает, является ли кадр невокализованным кадром или HR-кадром взаимодействия.
В экономичном режиме большинство невокализованных кадров можно кодировать с использованием QR-кодера невокализованных сигналов. В этом случае индексы гауссовой кодовой книги генерируют случайным образом, а усиление кодируется с использованием лишь 5 битов на субкадр. Кроме того, коэффициенты LP-фильтра квантуются с меньшей скоростью в битах. 1 бит используется для различения между двумя типами кодирования с четвертной скоростью: QR-кодированием невокализованных кадров и CNG QR-кодированием. Распределение битов для типов кодирования невокализованных сигналов приведено в [6].
Тип HR-кодирования с обеспечением возможности взаимодействия позволяет осуществлять обработку в ситуациях, когда CDMA-система задает половинную скорость (HR) как максимальную скорость для конкретного кадра, а этот кадр классифицирован как кадр с полной скоростью. HR-кадр взаимодействия получают непосредственно из кодера полной скорости за счет отбрасывания индексов фиксированной кодовой книги после кодирования кадра как кадра с полной скоростью (таблица 4). На декодирующей стороне индексы фиксированной кодовой книги могут генерироваться случайным образом, и декодер будет работать как в режиме полной скорости. Эта схема имеет преимущество, заключающееся в том, что она минимизирует воздействие принудительно устанавливаемого режима половинной скорости во время бестандемной работы между CDMA-системой и другими системами, использующими стандарт на AMR-WB кодеки (такими, как GSM-система или беспроводная W-CDMA-система третьего поколения). Как упоминалось ранее, тип FR-кодирования с обеспечением возможности взаимодействия или тип CNG QR-кодирования используются для бестандемной работы (TFO) с AMR-WB-кодеком. В линии связи с направлением от CDMA2000-системы к системе, использующей AMR-WB-кодек, когда подуровень мультиплексирования указывает запрос режима половинной скорости, VMR-WB-кодек будет использовать тип HR-кодирования с обеспечением возможности взаимодействия. В системном интерфейсе, когда принимается HR-кадр взаимодействия, к потоку битов добавляются индексы алгебраической кодовой книги, что позволяет получить скорость 12,65 кбит/с. AMR-WB-декодер на принимающей стороне будет интерпретировать это как обычный кадр со скоростью 12,65 кбит/с. В другом направлении, т.е. в линии связи от системы, использующей AMR-WB-кодек, к CDMA2000-системе, если в системном интерфейсе принимается запрос режима половинной скорости, то индексы алгебраической кодовой книги отбрасываются, а биты режима, указывающие тип HR-кадра взаимодействия, добавляются. Декодер на стороне, соответствующей стандарту CDMA2000, работает как устройство, предусматривающее тип HR-кодирования с обеспечением возможности взаимодействия, что является частью решения, предусматривающего VMR-WB-кодирование. Без признаков HR-кодирования с обеспечением возможности взаимодействия, принудительно устанавливаемый режим половинной скорости интерпретировался бы как стирание кадров.
Для обработки неактивных речевых кадров используют метод генерирования комфортного шума (CNG). Во время работы в рамках CDMA-системы для кодирования неактивных речевых кадров используют тип кодирования с одной восьмой скорости (ER-кодирования) посредством CNG. При вызове, требующем взаимодействия с аппаратурой, соответствующей стандарту AMR-WB-кодирования речи, использовать CNG ER-кодирование нельзя, потому что обуславливаемая этим стандартом скорость в битах ниже, чем скорость в битах, необходимая для передачи информации обновления для CNG-декодера, соответствующего стандарту AMR-WB-кодирования речи [3]. В этом случае используют CNG QR-кодирование. Вместе с тем, AMR-WB-кодек часто работает в режиме прерывистой передачи (DTX). Во время прерывистой передачи информация о фоновом шуме не обновляется в каждом кадре. Как правило, передается только один кадр из 8-ми последовательных неактивных речевых кадров. Этот кадр обновления называют дескриптором паузы (SID) [4]. В CDMA-системе, где кодируется каждый кадр, работа в режиме DTX не используется. Следовательно, методом CNG QR-кодирования CDMA-стороне нужно кодировать только SID-кадры, а остальные кадры можно по-прежнему кодировать методом CNG ER-кодирования, чтобы снизить среднюю скорость передачи данных (ADR), поскольку эти кадры не используется VMR-WB-аппаратурой на противоположной стороне. При CNG-кодировании, только параметры LP-фильтра и усиление кодируются один раз за кадр. Распределение битов для CNG QR-кодирования приведено в таблице 4, а распределение битов для CNG ER-кодирования приведено в таблице 5.
Таблица 4
Распределение битов для типов QR-кодирования невокализованных сигналов и CNG QR-кодирования
Параметр QR-кодирование невокализованных сигналов CNG QR-кодирование
Биты выбора 1 1
Параметры LP 32 28
Усиления 20 6
Неиспользованные биты 1 19
Итого 54 54
Таблица 5
Распределение битов для CNG ER-кодирования
Параметр CNG ER-кодирование
Количество битов на кадр
Параметры LP 14
Усиления 6
Неиспользованные биты -
Итого 20
Классификация сигналов и выбор скорости в высококачественном режиме
На фиг.5 проиллюстрирован способ 400 цифрового кодирования звукового сигнала в соответствии со вторым иллюстративным вариантом осуществления второго аспекта настоящего изобретения. Следует отметить, что способ 400 представляет собой конкретное приложение способа 100 в высококачественном режиме, предусмотренное для максимизации качества синтезированной речи, достигаемого на доступных скоростях в битах (следует отметить, что случай, когда система ограничивает максимальную доступную скорость для конкретного кадра, будет описан в отдельном подразделе). Следовательно, большинство активных речевых кадров кодируются с полной скоростью, т.е. 13,3 кбит/с.
Аналогично способу 100, проиллюстрированному на фиг.2, детектор речевой активности (VAD) осуществляет различение между активными и неактивными речевыми кадрами (этап 102). Алгоритм принятия решения о речевой активности (РРА) аналогичен для всех режимов работы. Если обнаруживается неактивный речевой кадр (сигнал фонового шума), то способ классификации заканчивается, а кадр кодируется с использованием типа CNG ER-кодирования со скоростью 1,0 кбит/с в соответствии с оболочкой Rate Set II при использовании технологии CDMA(этап 402). Если обнаруживается активный речевой кадр, то этот кадр подвергают воздействию второго классификатора, предназначенного специально для различения невокализованных кадров (этап 404). Поскольку целью высококачественного режима является достижение наилучшего возможного качества, то различение невокализованных кадров является очень строгим, и выбираются только очень стабильные невокализованные кадры. Правила классификации невокализованных кадров и пороги принятия решений являются такими же, как приведенные выше. Если второй классификатор классифицирует кадр как невокализованной речевой сигнал, то способ классификации оканчивается, а кадр кодируется с использованием типа HR-кодирования невокализованных сигналов (этап 408), оптимизированного для невокализованных сигналов (6,2 кбит/с в соответствии с оболочкой Rate Set II при использовании технологии CDMA). Все остальные кадры обрабатываются с использованием типа общего FR-кодирования на основе стандарта на AMR-WB-кодеки со скоростью 12,65 кбит/с (этап 406).
Классификация сигналов и выбор скорости в стандартном режиме
На фиг.6 проиллюстрирован способ 500 цифрового кодирования звукового сигнала в соответствии с третьим иллюстративным вариантом осуществления второго аспекта настоящего изобретения. Способ 500 обеспечивает классификацию речевого сигнала и его кодирование в стандартном режиме.
На этапе 102, VAD осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр, то способ классификации заканчивается, а кадр кодируется с одной восьмой скорости посредством CNG (т.е. как CNG-ER-кадр) (этап 510). Если обнаруживается активный речевой кадр, то этот кадр подвергается воздействию классификатора второго уровня для различения невокализованных кадров (этап 404). Правила классификации невокализованных кадров и пороги принятия решений являются такими же, как описанные выше. Если классификатор второго уровня классифицирует кадр как невокализованной речевой сигнал, то способ классификации заканчивается, а кадр кодируется с использованием типа HR-кодирования невокализованных сигналов (этап 508). В противном случае, речевой кадр пропускается через модуль классификации "устойчивых вокализованных" кадров (этап 502). Различение вокализованных кадров является неотъемлемым признаком алгоритма модификации сигналов, как описано выше. Если кадр пригоден для модификации сигналов, он классифицируется как устойчивый вокализованный кадр и кодируется с использованием типа HR-кодирования вокализованных сигналов (этап 506) в модуле, оптимизированном для устойчивых вокализованных сигналов (6,2 кбит/с в соответствии с оболочкой Rate Set II при использовании технологии CDMA). В противном случае, кадр, вероятно, содержит неустойчивый речевой сегмент, например, вокализованный начальный или быстро эволюционирующий сигнал. Такие кадры обычно требуют высокой скорости в битах для поддержания надлежащего субъективного качества. Вместе с тем, если энергия кадра ниже, чем некоторый порог, то эти кадры можно кодировать с использованием типа общего HR-кодирования. Если на этапе 512 классификатор четвертого уровня обнаруживает сигнал с низкой энергией, то кадр кодируется с использованием типа общего HR-кодирования (этап 514). В противном случае, речевой кадр кодируется как FR-кадр общего типа (13,3 кбит/с в соответствии с оболочкой Rate Set II при использовании технологии CDMA) (этап 504).
Классификация сигналов и выбор скорости в экономичном режиме
На фиг.7 проиллюстрирован способ 600 цифрового кодирования звукового сигнала в соответствии с четвертым иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Способ 600 обеспечивает классификацию речевого сигнала и его кодирование в экономичном режиме.
Экономичный режим обеспечивает максимальную пропускную способность системы и при этом по-прежнему дает высококачественную широкополосную речь. Логика определения скорости аналогична стандартному режиму, за исключением того, что используется также тип QR-кодирования невокализованных кадров, а использование FR-кодирования уменьшается.
Во-первых, на этапе 102, VAD осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр, то способ классификации заканчивается, а кадр кодируется как CNG-ER-кадр (этап 402). Если обнаруживается активный речевой кадр, то этот кадр подвергают воздействию второго классификатора для различения невокализованных кадров (этап 106). Правила классификации невокализованных кадров и пороги принятия решений являются такими же, как описанные выше. Если второй классификатор классифицирует кадр как невокализованной речевой сигнал, то речевой кадр пропускается в первый классификатор третьего уровня (этап 602). Этот классификатор третьего уровня проверяет, является ли кадр переходным от вокализованного сигнала к невокализованному сигналу с помощью правил, описанных выше. В частности, этот классификатор третьего уровня проверяет, является ли последний кадр либо невокализованным кадром, либо кадром фонового шума, и имеет ли место ситуация, в которой энергия в конце кадра сконцентрирована на высоких частотах, а в упреждающей выборке не обнаруживается потенциальная вокализованная начальная часть. Как пояснялось выше, последние два условия определяются следующим образом:
(rx(2) < th12) И (etilt(1) < th13) при th12 = 0,73, th13 = 3,
где rx(2) - корреляция в упреждающей выборке, а etilt(1) - наклон во втором спектральном анализе, который распространяется на конец кадра и упреждающую выборку.
Если кадр содержит переход от вокализованного сигнала к невокализованному сигналу, то этот кадр на этапе 508 кодируется с использованием типа HR-кодирования невокализованных сигналов. В противном случае кадр кодируется с использованием типа QR-кодирования невокализованных сигналов (этап 604). Кадры, не классифицированные как невокализованные, пропускаются через модуль классификации "устойчивых вокализованных" кадров, который является вторым классификатором третьего уровня (этап 110). Различение вокализованных кадров является неотъемлемым признаком алгоритма модификации сигналов, как описано выше. Если кадр пригоден для модификации сигналов, он классифицируется как устойчивый вокализованный кадр и кодируется с использованием типа HR-кодирования вокализованных сигналов на этапе 506. Аналогично стандартному режиму остальные кадры (не классифицированные как невокализованные или стабильные вокализованные) проверяются на малое содержание энергии. Если на этапе 512 обнаруживается сигнал с низкой энергией, этот кадр кодируется на этапе 514 с использованием HR-кодирования общего типа. В противном случае, речевой кадр кодируется как FR-кадр общего типа (13,3 кбит/с в соответствии с оболочкой Rate Set II при использовании технологии CDMA) (этап 504).
Классификация сигналов и выбор скорости в режиме, обеспечивающем возможность взаимодействия
На фиг.8 проиллюстрирован способ 700 цифрового кодирования звукового сигнала в соответствии с пятым иллюстративным вариантом осуществления второго аспекта настоящего изобретения. Способ 700 обеспечивает классификацию речевого сигнала и его кодирование в режиме, обеспечивающем возможность взаимодействия.
Режим, обеспечивающий возможность взаимодействия, обеспечивает бестандемную работу между CDMA-системой и другими системами, использующими стандарт на AMR-WB-кодеки, на скорости 12,65 кбит/с (или более низких скоростях). В отсутствие ограничения скорости, накладываемого CDMA-системой, используется только FR-кодирование с обеспечением возможности взаимодействия и генераторы комфортного шума.
Во-первых, на этапе 102, VAD осуществляет различение между активными и неактивными речевыми кадрами. Если обнаруживается неактивный речевой кадр, на этапе 702 принимается решение, следует ли кодировать этот кадр как SID-кадр. Как упоминалось ранее, SID-кадры служат для обновления параметров CNG на AMR-WB-стороне во время работы в режиме DTX [4]. Во время периодов пауз, как правило, кодируется лишь один из 8 неактивных речевых кадров. Однако после активного речевого сегмента информация обновления SID должна посылаться уже в 4-м кадре (см. [4]). Поскольку для кодирования SID-кадра одной восьмой скорости (ER) оказывается недостаточно, SID-кадры кодируют методом CNG QR-кодирования на этапе 704. Кадры, иные чем неактивные SID-кадры, кодируются методом CNG EQ-кодирования на этапе 402. Если линия связи реализуется в направлении от VMR-WB-аппаратуры, использующей технологию CDMA, к AMR-WB-аппаратуре, конфигурированной для бестандемной работы (TFO), то CNG-ER-кадры отбрасываются в системном интерфейсе, поскольку AMR-WB-аппаратура не использует их. В противоположном направлении эти кадры не передаются (AMR-WB-аппаратура генерирует только SID-кадры) и квалифицируются как стирания кадров. Все активные речевые кадры обрабатываются с использованием типа FR-кодирования с обеспечением возможности взаимодействия (этап 706), который, по существу является стандартом AMR-WB-кодирования, со скоростью 12,65 кбит/с.
Классификация сигналов и выбор скорости при работе на максимуме, равном половинной скорости
На фиг.9 проиллюстрирован способ 800 цифрового кодирования звукового сигнала в соответствии с шестым иллюстративным вариантом осуществления второго аспекта настоящего изобретения. Способ 800 обеспечивает классификацию речевого сигнала и его кодирование при работе на максимуме, равном половинной скорости, для высококачественного и стандартного режимов.
Как описано выше, CDMA-система задает максимальную скорость в битах для конкретного кадра. Чаще всего, максимальная скорость в битах, задаваемая системой, ограничивается половинной скоростью (HR). Вместе с тем, система может задавать и меньшие скорости.
Все активные речевые кадры, которые обычно должны классифицироваться как FR-кадры во время нормальной работы, теперь кодируются с использованием типа HR-кодирования. Тогда механизм классификации и выбора скорости классифицирует все такие вокализованные кадры с использованием типа HR-кодирования вокализованных сигналов (это кодирование происходит на этапе 506), а все такие невокализованные кадры - с использованием типа HR-кодирования невокализованных сигналов (это кодирование происходит на этапе 408). Все остальные кадры, которые должны классифицироваться как FR-кадры во время нормальной работы, кодируются с использованием HR-кодирования общего типа на этапе 514, за исключением того, что в режиме, обеспечивающем возможность взаимодействия, используется тип HR-кодирования, обеспечивающего возможность взаимодействия (этап 908 на фиг.11).
Как можно заметить на фиг.9, механизм классификации сигналов и выбора скорости аналогичен тому, который действует при обычной работе в стандартном режиме. Однако используется HR-кодирование общего типа (этап 514) вместо FR-кодирования общего типа (этап 406 на фиг.5), а пороги, используемые для различения вокализованных и невокализованных кадров, являются более низкими, чтобы обеспечить кодирование как можно большего количества кадров с использованием типов HR-кодирования невокализованных сигналов и HR-кодирования вокализованных сигналов. Как правило, в случае работы на максимуме, равном половинной скорости, в высококачественном и стандартном режимах используются пороги, предназначенные для экономичного режима.
На фиг.10 проиллюстрирован способ 900 цифрового кодирования речевого сигнала в соответствии с седьмым иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Способ 900 обеспечивает классификацию речевого сигнала и кодирование при работе на максимуме, равном половинной скорости, для экономичного режима. Способ 900, проиллюстрированный на фиг.10, аналогичен способу 600, проиллюстрированному на фиг.7, за исключением того, что все кадры, кодировавшиеся методом FR-кодирования общего типа, теперь кодируются методом HR-кодирования общего типа (при работе на максимуме, равном половинной скорости, нет необходимости в классификации кадров с низкой энергией). На фиг.11 проиллюстрирован способ 920 цифрового кодирования речевого сигнала в соответствии с восьмым иллюстративным вариантом осуществления первого аспекта настоящего изобретения. Способ 920 обеспечивает классификацию речевого сигнала и определение скорости в режиме, обеспечивающем возможность взаимодействия, при работе на максимуме, равном половинной скорости. Поскольку способ 920 очень похож на способ 700, проиллюстрированный на фиг.8, ниже будет приведено описание лишь различий между этими двумя способами.
В случае способа 920, не могут использоваться типы кодирования, специфичные для сигналов (HR-кодирование невокализованных сигналов и HR-кодирование вокализованных сигналов), потому что эти типы будут не поняты для AMR-WB-аппаратуры на противоположном конце системы; также нельзя использовать и HR-кодирование общего типа. Поэтому активные речевые кадры при работе на максимуме, равном половинной скорости, кодируют с использованием типа HR-кодирования, обеспечивающего возможность взаимодействия.
Если система ограничивает максимальную скорость в битах величиной, меньшей, чем половинная скорость (HR), то кодирование общего типа не предусматривается для обработки в этих случаях в сущности потому, что эти случаи исключительно редки, а такие кадры могут квалифицироваться как стирания кадров. Вместе с тем, если система ограничивает максимальную скорость в битах величиной, равной четвертной скорости (QR), можно использовать QR-кодирование невокализованных сигналов. Однако это возможно только в режимах, специфичных для CDMA (высококачественном, стандартном, экономичном), потому что AMR-WB-аппаратура на противоположном конце системы не способна интерпретировать QR-кадры.
Эффективное взаимодействие между AMR-WB-кодеком и VMR-WB-кодеком, работающим в оболочке Rate Set II
Ниже со ссылками на фиг.12 описан способ 1000 кодирования речевого сигнала для взаимодействия между AMR-WB- и VMR-WB-кодеками в соответствии с иллюстративным вариантом осуществления четвертого аспекта настоящего изобретения.
Более конкретно, способ 1000 обеспечивает бестандемную работу между стандартным AMR-WB-кодеком и управляемым источником VBR-кодеком, предназначенным, например, для CDMA2000-систем (и именуемым далее VMR-WB-кодеком). В гарантируемом способом 1000 режиме, обеспечивающем возможность взаимодействия, VMR-WB-кодек использует скорости в битах, которые могут интерпретироваться AMR-WB-кодеком и при этом остаются в пределах скоростей в битах, характерных для оболочки Rate Set II и используемых, например, в CDMA-кодеке.
Поскольку характерные для оболочки Rate Set II скорости в битах составляют 13,3 кбит/с (полная скорость, FR), 6,2 кбит/с (половинная скорость, HR), 2,7 кбит/с (четвертная скорость, QR) и 1,0 кбит/с (одна восьмая скорости, ER), то для AMR-WB-кодека можно использовать скорости в битах, величины которых в режиме полной скорости составляют 12,65, 8,85 или 6,6 кбит/с, SID-кадры можно кодировать со скоростью 1,75 кбит/с в режиме четвертной скорости. AMR-WB-кодек, работающий на скорости 12,65 кбит/с, является ближайшим к кодеку стандарта CDMA2000, работающему на полной скорости 13,3 кбит/с (CDMA2000-FR-кодеку), и используется в качестве FR-кодека в этом иллюстративном варианте осуществления. Вместе с тем, когда AMR-WB-кодек используется в GSM-системах, алгоритм адаптации линии связи может способствовать снижению скорости в битах до 8,85 или 6,6 кбит/с, в зависимости от канальных условий (чтобы предоставить больше битов для канального кодирования). Таким образом, работа AMR-WB-кодека на скоростях в битах 8,85 и 6,6 кбит/с может представлять собой часть режима, обеспечивающего возможность взаимодействия, а эти скорости можно использовать в CDMA2000-приемнике в случае, если GSM-система решила использовать одну из этих скоростей в битах. В иллюстративном варианте осуществления, показанном на фиг.12, используются три типа кодирования с полной скоростью, обеспечивающей возможность взаимодействия (I-FR), соответствующие скоростям AMR-WB-кодека, составляющим 12,65, 8,85 и 6,6 кбит/с, которые далее обозначаются символами I-FR-12, I-FR-8 и I-FR-6, соответственно. В случае I-FR-12 имеются 13 неиспользованных битов. Первые 8 битов используются для различения I-FR-кадров и FR-кадров общего типа (которые используют дополнительные биты для улучшения маскировки стирания кадров). Другие 5 битов используются для сигнализации о трех типах I-FR-кадров. При обычной работе, используется I-FR-12, а более низкие скорости используются в случае, если это требуется для адаптации линии связи в GSM-системе.
В CDMA2000-системе средняя скорость передачи данных речевого кодека непосредственно связана с пропускной способностью системы. Следовательно, достижение той наименьшей средней скорости передачи данных (ADR), которая возможна при минимальной потере качества речи, приобретает первостепенное значение. AMR-WB-кодек предназначался в основном для сотовых GSM-систем и радиосвязи третьего поколения на основе эволюции GSM. Таким образом, режим, обеспечивающий возможность взаимодействия, для CDMA2000-системы может привести к повышенной ADR по сравнению с VBR-кодеком, специально предназначенным для CDMA2000-систем. Основными причинами этого являются следующие:
недостаточность режима половинной скорости на уровне 6,2 кбит/с в AMR-WB-кодеке;
скорость в битах для CID-кадров в AMR-WB-кодеке составляет 1,75 кбит/с, что не согласуется с одной восьмой скорости (ER) в оболочке Rate Set II;
при работе в режиме прерывистой передачи (DTX) детектора речевой активности (VAD) AMR-WB-кодека используются несколько кадров (кодированных как речевые кадры), чтобы вычислить первый кадр дескриптора паузы (SID_FIRST-кадр).
Способ кодирования речевого сигнала для взаимодействия между AMR-WB- и VMR-WB-кодеками обеспечивает устранение вышеупомянутых ограничений и приводит к сниженной ADR режима, обеспечивающей возможность взаимодействия, так что он оказывается эквивалентным CDMA-специфичным режимам при сравнимом качестве речи. Ниже приводится описание способов для обоих направлений работы: "VMR-WB-кодирование - AMR-WB-декодирование" и "AMR-WB-кодирование - VMR-WB-декодирование".
"VMR-WB-кодирование - AMR-WB-декодирование"
При кодировании на стороне VMR-WB-кодека в CDMA-системе, операция генерирования комфортного шума в режиме прерывистой передачи для детектора речевой активности (VAD/DTX/CNG) согласно стандарту AMR-WB не требуется. VAD надлежащим образом установлен в VMR-WB-кодек и работает точно так же, как в других CDMA2000-специфичных режимах, т.е. задержка решений по речевой активности (РРА) используется по мере необходимости, чтобы не пропустить невокализованные паузы, так что всякий раз, когда флаг РРА устанавливается в нуль (РРА_флаг=0) (что классифицируется как фоновый шум), применяется кодирование посредством генерирования комфортного шума (CNG).
Операция генерирования комфортного шума для VAD (VAD/CNG) максимально приближена к операции в режиме прерывистой передачи AMR-кодека (AMR/DTX). Операция генерирования комфортного шума в режиме прерывистой передачи для VAD (VAD/DTX/CNG) в AMR-WB-кодеке проводится следующим образом. Семь кадров фонового шума после периода активной речи кодируются как речевые кадры, а бит РРА задается равным нулю (переход DTX). Затем посылают SID_FIRST-кадр. В SID_FIRST-кадре сигнал не кодируется, а параметры CNG получаются в результате DTX-перехода (7 речевых кадров) в декодере. Следует отметить, что AMR-WB-кодек не использует DTX-переход после периодов активной речи, которые короче, чем 24 кадра, чтобы уменьшить перегрузку при DTX-переходе. После SID_FIRST-кадра посылают два кадра как кадры без данных (NO_DATA-кадры), за которыми следует кадр обновления SID (SID_UPDATE-кадр) (1,75 кбит/с). После этого посылают 7 NO_DATA-кадров, за которыми следует SID_UPDATE-кадр, и т.д. Это продолжается до тех пор, пока не будет обнаружен активный речевой кадр (РРА_флаг=1) [4].
В иллюстративном варианте, показанном на фиг.12, VAD в VMR-WB-кодеке не использует DTX-переход. Первый кадр фонового шума после периода активной речи кодируется со скоростью 1,75 кбит/с и передается как QR-кадр, затем кодируют 2 кадра со скоростью 1 кбит/с (одной восьмой скорости), а затем следующий кадр передается со скоростью 1,75 кбит/с как QR-кадр. После этого 7 кадров передаются как ER-кадры, за которыми следует один QR-кадр, и т.д. Это приблизительно соответствует операции прерывистой передачи (DTX) AMR-WB-кодека, за тем исключением, что DTX-переход используется для уменьшения средней скорости передачи данных (ADR).
Хотя операция VAD/CNG в VMR-WB-кодеке, описываемая в этом иллюстративном варианте осуществления, близка к операции DTX в AMR-WB-кодеке, можно использовать и другие способы, которые способствуют дальнейшему уменьшению ADR. Например, QR-кадры генерирования комфортного шума (CNG-QR-кадры) могут передаваться не так часто, например, по одному на каждые 12 кадров. Кроме того, могут оцениваться вариации шума в кодере, а CNG-QR-кадры могут передаваться лишь тогда, когда характеристики шума изменяются (а не по одному на каждые 8-12 кадров).
Чтобы снять ограничение отсутствия половинной скорости на уровне 6,2 кбит/с в AMR-WB-кодере, в режиме, обеспечивающем возможность взаимодействия, предусматривается работа с I-HR - половинной скоростью, при этом предусматривается кодирование кадра как кадра с полной скоростью и последующее отбрасывание битов, соответствующих индексам алгебраической кодовой книги (144 бита на кадр в AMR-WB-кодере при 12,65 кбит/с). Это уменьшает скорость в битах до 5,45 кбит/с, что соответствует половинной скоростью в оболочке Rate Set II согласно стандарту CDMA2000. Перед декодированием отбрасываемые биты могут генерироваться либо случайным образом (т.е. с использованием генератора случайных чисел), либо псевдослучайным образом (т.е. путем повторения части существующего потока битов), либо некоторым предварительно определенным образом. I-HR можно использовать, когда CDMA2000-система передает запрос размерно-пакетной сигнализации или работы на максимуме, равном половинной скорости. Это препятствует оценке речевого кадра как потерянного кадра. I-HR также может использоваться VMR-WB-кодеком в режиме, обеспечивающем возможность взаимодействия, для кодирования невокализованных кадров или кадров, в которых вклад алгебраической кодовой книги в качество синтезируемой речи является минимальным. Это приводит к уменьшенной ADR. Следует заметить, что в этом случае кодер может выбрать кодирование кадров в I-HR-режиме и тем самым минимизировать ухудшение качества речи за счет использования таких кадров.
Как показано на фиг.12, в направлении "VMR-WB-кодирование - AMR-WB-декодирование" речевые кадры кодируют в режиме, обеспечивающем возможность взаимодействия, VMR-WB-кодера 1002, что позволяет получить одну из следующих скоростей в битах: полную скорость в режиме, обеспечивающем возможность взаимодействия, обозначаемую символом I-FR, для активных речевых кадров (т.е. скорость I-FR-12, I-FR-8 или I-FR-6), половинную скорость в режиме, обеспечивающем возможность взаимодействия, обозначаемую символом I-HR, в случае размерно-пакетной сигнализации, или - по выбору - для кодирования некоторых невокализованных кадров или кадров, в которых вклад алгебраической кодовой книги в качество синтезируемой речи является минимальным, четвертную скорость (QR) при генерировании комфортного шума (CNG) для кодирования кадров фонового шума (одного из восьми кадров фонового шума, как описано выше, или в случае, когда обнаруживается вариация в характеристике фонового шума), и одну восьмую скорости (ER) при CNG с получением CNG-ER-кадров для большинства кадров фонового шума (кадры фонового шума не кодируются как CNR-QR-кадры). В системном интерфейсе, который выполнен в форме шлюза, выполняются следующие операции.
Во-первых, проверяется достоверность кадра, принимаемого шлюзом из VMR-WB-кодера. Если он недостоверен, то после этого VMR-WB-кадр посылается как стертый (тип потери речи для AMR-WB-декодера). Кадр считается недостоверным, например, если возникает одно из следующих состояний:
- если принимается кадр со всеми нулями (используемый сетью в случае пробела и пакета), то этот кадр стирается;
- в случае FR-кадров, если 13 битов преамбулы не соответствуют I-FR-12, I-FR-8 или I-FR-6, или если неиспользованные биты не являются нулевыми, то кадр стирается; кроме того, I-FR устанавливает бит РРА равным 1, так что если бит РРА принимаемого кадра не равен 1, то этот кадр стирается;
- в случае HR-кадров, аналогично FR-кадрам, если биты преамбулы не соответствуют I-HR-12, I-HR-8 или I-HR-6, или если неиспользованные биты не являются нулевыми, то кадр стирается; то же самое имеет место для бита РРА;
- в случае QR-кадров, если биты преамбулы не соответствуют QR для CNG, то кадр стирается; кроме того, VMR-WB-кодер устанавливает бит SID_UPDATE равным 1, а биты запроса режима - равными 0010; в противном случае кадр стирается;
- в случае ER-кадров, если принимается кадр со всеми единицами, то этот кадр стирается; кроме того, VMR-WB-кодер использует битовую комбинацию фильтра Internet-сервера (ISF) со всеми нулями (первые 14 битов) для сигнализации о кадрах пробелов; если принимается эта комбинация, то кадр стирается.
Если принимаемый кадр является достоверным кадром в режиме, обеспечивающем возможность взаимодействия, то выполняются следующие операции:
- I-FR-кадры посылаются в AMR-WB-декодер как кадры, закодированные на скорости 12,65, 8,8 или 6,6 кбит/с, в зависимости от типа I-FR-кадров;
- CNG-QR-кадры посылаются в AMR-WB-декодер как SID_UPDATE-кадры;
- CNG-ER-кадры посылаются в AMR-WB-декодер как NO_DATA-кадры;
- I-HR-кадры преобразуются в кадры, кодируемые со скоростью 12,65, 8,8 или 6,6 кбит/с (в зависимости от типа кадров) путем генерирования опускаемых индексов алгебраической кодовой книги на этапе 1010; эти индексы можно генерировать случайным образом, либо посредством повторения части существующих кодовых битов, либо некоторым предварительно определенным образом; при этом также отбрасываются биты, характеризующие тип I-HR-кадров (биты, используемые для различения разных типов кадров, кодируемых с половинной скоростью, в VMR-WB-кодеке).
"AMR-WB-кодирование - VMR-WB-декодирование"
В этом направлении способ 1000 ограничивается операцией в режиме прерывистой передачи (DTX) на стороне AMR-WB-кодека. Вместе с тем, во время кодирования активной речи имеется один бит (1-ый бит данных) в потоке битов, указывающий РРА_флаг (0 - для периода DTX-перехода, 1 - для активной речи). Следовательно, работу в шлюзе можно вкратце охарактеризовать следующим образом:
- SID_UPDATE-кадры пересылаются как CNG-QR-кадры;
- SID_FIRST-кадры и NO_DATA-кадры пересылаются как ER-кадры пробелов;
- стертые кадры (потери речи) пересылаются как ER-кадры стирания;
- первый кадр после активной речи, у которого РРА_флаг=0 (что удостоверяется на этапе 1012) сохраняется как FR-кадр, а следующие кадры, у которых РРА_флаг=0, пересылаются как ER-кадры пробелов;
- если шлюз на этапе 1014 принимает запрос работы на максимуме, равном половинной скорости (сигнализация уровня кадров), и при этом принимает FR-кадры, то кадр преобразуется в I-HR-кадр; это заключается в отбрасывании битов, соответствующих индексам алгебраической кодовой книги, и добавлении битов режима, указывающих тип I-HR-кадров.
В этом иллюстративном варианте первые два бита в ER-кадрах пробелов устанавливаются на 0×00, а в ER-кадрах стирания первые два бита устанавливаются на 0×04. В основном, первые 14 битов соответствуют индексам ISF, а для указания кадров пробелов (все нули) или кадров стирания (все нули, за исключением 14-го бита, установленного на 1, что составляет 0×04 в шестнадцатеричной системе счисления) резервируются две комбинации. Когда в VMR-WB-декодере 1004 обнаруживаются ER-кадры, они обрабатываются посредством декодера генерирования комфортного шума (CNG-декодера) с использованием последних принятых удовлетворительными параметров CNG. Исключением является случай первого принимаемого ER-кадра пробела (инициализация CNG-декодера, когда "старые" параметры CNG еще не известны). Поскольку первый кадр, у которого РРА_флаг=0, передается как FR-кадр, параметры этого кадра, а также параметры прошлого CNG используются для инициализации операции CNG. В случае ER-кадров стирания, декодер использует ту процедуру маскировки, которая используется для стертых кадров.
Отметим, что в иллюстративном варианте осуществления, показанном на фиг.12, для FR-кадров используется скорость 12,65 кбит/с. Однако с тем же успехом можно использовать скорости 8,85 и 6,6 кбит/с в соответствии с алгоритмом адаптации линии связи, который требует использования меньших скоростей в случае плохих канальных условий. Например, при взаимодействии между CDMA2000- и GSM-системами, модуль адаптации линии связи в GSM-системе может принять решение уменьшить скорость в битах до 8,85 и 6,6 кбит/с в случае плохих канальных условий. В таком случае, эти уменьшенные скорости в битах должны быть включены в решение о работе VMR-WB-аппаратуры в соответствии с технологией CDMA.
Работа CDMA-VMR-WB-кодека в оболочке Rate Set I
Скорости, используемые в оболочке Rate Set I, составляют: 8,55 кбит/с - полная скорость (FR); 4,0 кбит/с - половинная скорость (HR); 2,0 кбит/с - четвертная скорость (QR); и 800 бит/с - одна восьмая скорости (ER). В этом случае AMR-WB-кодек можно использовать только на скорости 6,6 кбит/с в качестве FR, а CNG-кадры можно посылать либо как QR-кадры (SID_UPDATE), либо как ER-кадры в качестве других кадров фонового шума (аналогично вышеописанной работе в оболочке Rate Set II). Чтобы снять ограничение по низкому качеству для скорости 6,6 кбит/с, предусмотрена скорость 8,55 кбит/с, обеспечивающая взаимодействие с AMR-WB-кодеком, работающим со скоростью 8,85 кбит/с. Эта скорость будет далее именоваться полной скоростью, обеспечивающей возможность взаимодействия в оболочке Rate Set I (I-FR-I), AMR-WB-кодека. Распределение битов для скорости 8,85 кбит/с и две возможные конфигурации для I-FR-I-кодирования показаны в таблице 6.
Таблица 6
Распределение битов для типов I-FR-I-кодирования в конфигурации оболочки Rate Set I
Параметр AMR-WB с 8,85 кбит/с I-FR-I с 8,55 кбит/с (конфигурация 1) I-FR-I с 8,55 кбит/с (конфигурация 2)
Количество битов на кадр Количество битов на кадр Количество битов на кадр
Биты режима половинной скорости - -
Флаг РРА 1 0 0
Параметры LP 46 41 46
Задержка основного тона 26=8+5+8+5 26 26
Усиления 24=6+6+6+6 24 24
Алгебраическая кодовая книга 80=20+20+20+20 80 75
Итого 177 171 171
При I-FR-I-кодировании, бит "РРА_флаг" и дополнительные 5 битов отбрасываются, чтобы получить скорость 8,55 кбит/с. Отбрасываемые биты можно легко ввести в декодере или системном интерфейсе, так что можно использовать декодер, работающий со скоростью 8,85 кбит/с. Для отбрасывания 5 битов можно использовать несколько способов, которые оказывают малое влияние на качество речи. В конфигурации 1, показанной в таблице 6, 5 битов отбрасываются исходя из квантования параметров линейного предсказания (LP). В AMR-WB-кодере используются 46 битов для квантования параметров LP в домене пар спектра иммитансов (ISP) (с использованием удаления среднего значения и предсказания скользящего среднего). Остаточный (после предсказания) вектор ISP размером 16 квантуется с использованием многостадийного квантования вектора с разбиением. Вектор разбивается на 2 субвектора с размерами 9 и 7, соответственно. Эти 2 субвектора квантуются в две стадии. На первой стадии каждый субвектор квантуется 8 битами. На втором этапе векторы с погрешностью квантования разбиваются на 3 и 2 субвектора, соответственно. Субвекторы, получаемые на второй стадии, имеют размеры 3, 3, 3, 3 и 4, соответственно, и квантуются 6, 7, 7, 5 и 5 битами, соответственно. В предлагаемом I-HR-I-режиме 5 битов последнего субвектора, получаемого на второй стадии, отбрасываются. Они оказывают наименьшее влияние, поскольку соответствуют высокочастотной части спектра. Отбрасывание этих 5 битов реализуется путем фиксации индекса последнего субвектора, получаемого на второй стадии, на конкретном значении, которое не нужно передавать. Факт фиксации этого 5-битового индекса легко учесть во время квантования в VMR-WB-кодере. Этот фиксированный индекс вводится либо в системном интерфейсе (т.е. во время работы VMR-WB-кодера и AMR-WB-декодера) или в декодере (т.е. во время работы AMR-WB-кодера и VMR-WB-декодера). Таким образом, для декодирования I-FR-кадра в оболочке Rate Set I, AMR-WB-декодер используется на скорости 8,85 кбит/с.
Во второй конфигурации согласно иллюстрируемому варианту осуществления, 5 битов отбрасываются, исходя из индексов алгебраической кодовой книги. В AMR-WB-кодеке, работающем со скоростью 8,85 кбит/с, кадр делится на субкадры длиной по 64 выборки. Алгебраическая кодовая книга основана на делении субкадра на 4 дорожки по 16 позиций и размещении импульса со знаком на каждой дорожке. Каждый импульс кодируется 5 битами: 4 бита - для положения, а 1 бит - для знака. Таким образом, для каждого субкадра используется 20-битовая алгебраическая кодовая книга. Один путь отбрасывания пяти битов заключается в том, чтобы отбрасывать один импульс из некоторого субкадра. Например, 4-й импульс в 4-й дорожке с позициями в 4-м субкадре. В VMR-WB-кодере этот импульс можно фиксировать на предварительно определенном значении (т.е. в определенной позиции и с определенным знаком) во время поиска в кодовой книге. Этот известный индекс импульса затем может добавляться в системном интерфейсе и посылаться в AMR-WB-декодер. В другом направлении индекс этого импульса отбрасывается в системном интерфейсе, а в CDMA-VMR-WB-декодере этот индекс импульса может генерироваться случайным образом. Для отбрасывания этих битов можно использовать и другие способы.
Для обработки запроса размерно-пакетной сигнализации или в случае максимума, равного половинной скорости, посылаемого CDMA2000-системой, HR-режим, обеспечивающий возможность взаимодействия, предусмотрен также для кодека, работающего в оболочке Rate Set I (на скорости, обозначаемой символами I-HR-I). Аналогично случаю оболочки Rate Set II, несколько битов должны отбрасываться в системном интерфейсе во время операции "AMR-WB-кодирования - VMR-WB-декодирования", или должны генерироваться в системном интерфейсе во время операции "VMR-WB-кодирования - AMR-WB-декодирования". Распределение битов для скорости 8,85 кбит/с и примерной конфигурации для I-HR-I-кодирования показано в таблице 7.
Таблица 7
Распределение битов для типа I-HR-I-кодирования в конфигурации оболочки Rate Set I
Параметр AMR-WB с 8,85 кбит/с I-HR-I с 4,0 кбит/с
Количество битов на кадр Количество битов на кадр
Биты режима половинной скорости - -
Флаг РРА 1 0
Параметры LP 46 36
Задержка основного тона 26=8+5+8+5 20
Усиления 24=6+6+6+6 24
Алгебраическая кодовая книга 80=20+20+20+20 0
Итого 177 80
При предлагаемом I-HR-I-режиме 10 битов последних 2 субвекторов, получаемых на второй ступени, при квантовании параметров LP-фильтра отбрасываются или генерируются в системном интерфейсе аналогично вышеописанной работе в оболочке Rate Set II. Задержка основного тона кодируется только с целочисленным разрешением и с распределением битов, обеспечивающим наличие 7, 3, 7 и 3 битов в четырех субкадрах. Вследствие этого работа AMR-WB-кодера и VMR-WB-декодера обеспечивает отбрасывание дробной части основного тона в системном интерфейсе и добавление дифференциальной задержки в 3 бита для 2-го и 4-го субкадров. Индексы алгебраической кодовой книги отбрасываются аналогично тому, как это делается при реализации I-HR-решения в оболочке Rate Set II. Информация об энергии сигнала остается нетронутой.
Остальная работа в режиме, обеспечивающем возможность взаимодействия, в оболочке Rate Set I аналогична работе в таком же режиме в оболочке Rate Set II, описанной выше со ссылкой на фиг.12 (применительно к операции VAD/DTX/CNG), и поэтому подробно не описывается.
Хотя настоящее изобретение описано выше путем рассмотрения иллюстративных вариантов его осуществления, в него можно вносить изменения в рамках сущности и объема настоящего изобретения, охарактеризованных в прилагаемой формуле изобретения. Например, хотя иллюстративных варианты осуществления настоящего изобретения описаны применительно к кодированию речевого сигнала, следует иметь в виду, что эти варианты также применимы к звуковым сигналам, не являющимся речевыми.
ЛИТЕРАТУРА
[1] ITU-T Recommendation G.722.2 "Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)", Geneva, 2002.
[2] 3GPP TS 26.190, "AMR Wideband Speech Codec; Transcoding Functions," 3GPP Technical Specification.
[3] 3GPP TS 26.192, "AMR Wideband Speech Codec; Comfort Noise Aspects," 3GPP Technical Specification.
[4] 3GPP TS 26.193 : "AMR Wideband Speech Codec; Source Controlled Rate operation," 3GPP Technical Specification.
[5] M. Jelinek and F. Labonte, "Robust Signal/Noise Discrimination for Wideband Speech and Audio Coding," Proc. IEEE Workshop on Speech Coding, pp. 151-153, Delavan, Wisconsin, USA, September 2000.
[6] J. D. Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria," IEEE Jour, on Selected Areas in Communications, vol. 6, no. 2, pp. 314-323.
[7] 3GPP2 C.S0030-0, "Selectable Mode Vocoder Service Option for Wideband Spread Spectrum Communication Systems", 3GPP2 Technical Specification.
20 [8] 3GPP2 C.S0014-0, "Enhanced Variable Rate Codec (EVRC)", 3GPP2 Technical Specification
[9] TIA/ElA/IS-733, "High Rate Speech Service option 17 for Wideband Spread Spectrum Communication Systems". Also 3GPP2 Technical Specification C.S0020-0.

Claims (39)

1. Способ кодирования речевого сигнала в соответствии с первой схемой речевого кодирования, основанной на использовании управляемого источником многорежимного широкополосного кодека с переменной битовой скоростью таким образом, чтобы он мог декодироваться в соответствии со второй схемой речевого кодирования, основанной на использовании адаптивного многоскоростного широкополосного кодека, причем речевой сигнал содержит интервалы активной речи, в течение которых имеется активная речь, и интервалы неактивной речи, в течение которых отсутствует активная речь, причем упомянутая первая схема речевого кодирования имеет первый набор доступных типов кодирования, каждый из первого набора типов кодирования имеет соответствующую битовую скорость при кодировании, упомянутая вторая схема речевого кодирования имеет второй набор доступных типов кодирования, включающих в себя кодирование прерывистой передачи, в котором в течение интервалов неактивной речи генерируются кадры дескриптора паузы, заключающийся в том, что
принимают входной речевой сигнал для кодирования в соответствии с упомянутой первой схемой речевого кодирования,
применяют речевой кадр, полученный из входного речевого сигнала, к функции обнаружения речевой активности для определения, является ли речевой кадр активным речевым кадром, содержащим активную речь, или неактивным речевым кадром, который не содержит активной речи;
если определено, что входной речевой кадр является неактивным речевым кадром, то выполняют операцию определения в соответствии с предварительно определенным правилом, чтобы определить, должен ли в соответствии с упомянутой второй схемой речевого кодирования неактивный речевой кадр кодироваться как кадр дескриптора паузы; и
если определено, что входной речевой кадр должен кодироваться как кадр дескриптора паузы, то кодируют входной речевой кадр с использованием первого предварительно определенного типа кодирования, выбранного из первого набора доступных типов кодирования, который имеет битовую скорость кодирования достаточно высокую, чтобы обеспечить кодирование входного речевого кадра с числом битов, совместимым с кадром дескриптора паузы, согласно упомянутой второй схеме речевого кодирования;
если определено, что входной речевой кадр не должен кодироваться как кадр дескриптора паузы, то кодируют входной речевой кадр с использованием второго предварительно определенного типа кодирования, выбранного из первого набора типов кодирования.
2. Способ по п.1, в котором второй предварительно определенный тип кодирования используют для кодирования неактивных речевых кадров в соответствии с упомянутой первой схемой речевого кодирования.
3. Способ по п.1, в котором упомянутая первая схема речевого кодирования содержит, по меньшей мере, тип кодирования с четвертной скоростью и тип кодирования с одной восьмой скорости, при этом тип кодирования с четвертной скоростью предназначен для формирования речевых кадров, кодированных с четвертной скоростью, имеющих первое предварительно заданное число битов, превышающее число битов, используемых для представления кадра дескриптора паузы в упомянутой второй схеме речевого кодирования, тип кодирования с одной восьмой скорости предназначен для формирования речевых кадров, кодированных с одной восьмой скорости, имеющих второе предварительно заданное число битов, меньшее, чем число битов, используемых для представления кадра дескриптора паузы в упомянутой второй схеме речевого кодирования, и если определено, что входной речевой кадр должен кодироваться как кадр дескриптора паузы, то входной речевой кадр кодируется с числом битов, совместимым с кадром дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, и передается как речевой кадр, кодированный с четвертной скоростью.
4. Способ по п.1, в котором упомянутая первая схема речевого кодирования содержит тип кодирования с полной скоростью, предназначенный для формирования речевых кадров, кодированных с полной скоростью, содержащих первое число битов, тип кодирования с половинной скоростью, предназначенный для формирования речевых кадров, кодированных с половинной скоростью, содержащих второе число битов, меньшее, чем первое число битов, тип кодирования с четвертной скоростью, предназначенный для формирования речевых кадров, кодированных с четвертной скоростью, содержащих третье число битов, меньшее, чем второе число битов, и тип кодирования с одной восьмой скорости, предназначенный для формирования речевых кадров, кодированных с одной восьмой скорости, содержащих четвертое число битов, меньшее, чем третье число битов, причем третье число битов больше, чем число битов, используемое для представления кадра дескриптора паузы в упомянутой второй схеме речевого кодирования, и четвертое число битов меньше, чем число битов, используемое для представления кадра дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, и если определено, что входной речевой кадр должен кодироваться как кадр дескриптора паузы, то входной речевой кадр кодируется с числом битов, совместимым с кадром дескриптора паузы упомянутой второй схемы речевого кодирования, и передается как речевой кадр, кодированный с четвертной скоростью.
5. Способ по п.3 или 4, в котором если определено, что входной речевой кадр не должен кодироваться как кадр дескриптора паузы, то входной речевой кадр кодируется с использованием типа кодирования с одной восьмой скорости.
6. Способ по п.1, в котором упомянутая первая схема речевого кодирования согласована с набором II скоростей CDMA.
7. Способ по п.1, в котором упомянутая первая схема речевого кодирования согласована с набором I скоростей CDMA.
8.Способ по п.1, в котором упомянутая первая схема речевого кодирования определена согласно многорежимному широкополосному кодированию с переменной битовой скоростью (VMR-WB), предложенному для работы в системах CDMA, а упомянутая вторая схема речевого кодирования определена согласно стандарту речевого кодирования AMR-WB.
9. Способ по п.3, в котором первое предварительно заданное число битов равно 54, а второе предварительно заданное число битов равно 20.
10. Способ по п.4, в котором первое число битов равно 266, второе число битов равно 124, третье число битов равно 54 и четвертое число битов равно 20.
11. Способ по п.9, в котором первое предварительно заданное число битов соответствует битовой скорости 2,7 кбит/с, а второе предварительно заданное число битов соответствует битовой скорости 1,0 кбит/с.
12. Способ по п.4, в котором первое число битов соответствует битовой скорости 13,3 кбит/с, второе число битов соответствует битовой скорости 6,2 кбит/с, третье число битов соответствует битовой скорости 2,7 кбит/с и четвертое число битов соответствует битовой скорости 1,0 кбит/с.
13. Способ по п.9 или 10, в котором если определено, что входной речевой кадр должен кодироваться как кадр дескриптора паузы, то входной речевой кадр кодируется с использованием 35 битов, оставляя неиспользуемыми 19 битов речевого кадра, кодированного с четвертной скоростью.
14. Способ по п.3 или 4, в котором число битов, используемых для представления кадра дескриптора паузы, согласно второй схеме речевого кодирования, соответствует 1,75 кбит/с.
15. Способ по п.1, в котором если последовательные входные речевые кадры, следующие за интервалом речевой активности, определены как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то упомянутое предварительно заданное правило определяет, что первый неактивный речевой кадр упомянутой последовательности, четвертый неактивный речевой кадр и после этого каждый восьмой неактивный речевой кадр последовательности должен кодироваться как кадр дескриптора паузы.
16. Способ по п.1, в котором если последовательные входные речевые кадры, следующие за интервалом речевой активности, определены как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то упомянутое предварительно заданное правило определяет, что а) первый неактивный речевой кадр упомянутой последовательности должен кодироваться как кадр дескриптора паузы, b) следующие два неактивных речевых кадра последовательности должны кодироваться с использованием второго предварительно определенного типа кодирования, с) четвертый неактивный речевой кадр последовательности должен кодироваться как кадр дескриптора паузы, d) следующие семь неактивных речевых кадров должны кодироваться с использованием второго предварительно заданного типа кодирования и следующий неактивный речевой кадр должен кодироваться как кадр дескриптора паузы, и этап (d) должен повторяться до тех пор, пока не будет обнаружен активный речевой кадр.
17. Способ по п.1, в котором если последовательные входные речевые кадры, следующие за интервалом речевой активности, определены как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то упомянутое предварительно заданное правило определяет, что первый неактивный речевой кадр упомянутой последовательности должен кодироваться как кадр дескриптора паузы и после этого каждый восьмой неактивный речевой кадр последовательности должен кодироваться как кадр дескриптора паузы.
18. Способ по п.1, в котором если последовательные входные речевые кадры определены как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то упомянутое предварительно заданное правило определяет, что а) первый неактивный речевой кадр упомянутой последовательности должен кодироваться как кадр дескриптора паузы, b) следующие k неактивных речевых кадров последовательности должны кодироваться с использованием второго предварительно определенного типа кодирования и следующий неактивный речевой кадр должен кодироваться как кадр дескриптора паузы, и этап (b) должен повторяться до тех пор, пока не будет обнаружен активный речевой кадр.
19. Способ по п.18, в котором k=7.
20. Способ по п.1, в котором если последовательные входные речевые кадры, следующие за интервалом речевой активности, определены как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то упомянутое предварительно заданное правило определяет, что неактивный речевой кадр должен кодироваться как кадр дескриптора паузы, если шумовые характеристики изменяются.
21. Устройство для кодирования речевого сигнала в соответствии с первой схемой речевого кодирования, основанной на использовании управляемого источником многорежимного широкополосного кодека с переменной битовой скоростью таким образом, чтобы он мог декодироваться в соответствии со второй схемой речевого кодирования, основанной на использовании адаптивного многоскоростного широкополосного кодека, причем речевой сигнал содержит интервалы активной речи, в течение которых имеется активная речь, и интервалы неактивной речи, в течение которых отсутствует активная речь, причем упомянутая первая схема речевого кодирования имеет первый набор доступных типов кодирования, каждый из первого набора типов кодирования имеет соответствующую битовую скорость кодирования, упомянутая вторая схема речевого кодирования имеет второй набор доступных типов кодирования, включающих в себя кодирование прерывистой передачи, в котором в течение интервалов неактивной речи генерируются кадры дескриптора паузы, причем устройство содержит
вход для приема речевого сигнала для кодирования в соответствии с упомянутой первой схемой речевого кодирования,
детектор речевой активности для определения, может ли речевой кадр, полученный из речевого сигнала, классифицироваться как активный речевой кадр, содержащий активную речь, или как неактивный речевой кадр, который не содержит активной речи;
блок обработки неактивного речевого кадра, предназначенный для выполнения операции определения для речевого кадра, классифицированного как неактивный, в соответствии с предварительно заданным правилом, должен ли в соответствии с упомянутой второй схемой речевого кодирования неактивный речевой кадр кодироваться как кадр дескриптора паузы; и
блок кодирования, который в ответ на операцию определения, выполненную блоком обработки неактивного кадра, обеспечивает кодирование входного речевого кадра с использованием первого предварительно определенного типа кодирования, выбранного из первого набора доступных типов кодирования, если определено, что входной речевой кадр должен кодироваться как кадр дескриптора паузы, причем первый предварительно определенный тип кодирования имеет битовую скорость кодирования достаточно высокую, чтобы обеспечить кодирование входного речевого кадра с числом битов, совместимым с кадром дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, и обеспечивает кодирование входного речевого кадра с использованием второго предварительно определенного типа кодирования, выбранного из первого набора типов кодирования, если определено, что входной речевой кадр не должен кодироваться как кадр дескриптора паузы.
22. Устройство по п.21, в котором упомянутая первая схема речевого кодирования содержит, по меньшей мере, тип кодирования с четвертной скоростью и тип кодирования с одной восьмой скорости, при этом тип кодирования с четвертной скоростью предназначен для формирования речевых кадров, кодированных с четвертной скоростью, имеющих первое предварительно заданное число битов, превышающее число битов, используемых для представления кадра дескриптора паузы в упомянутой второй схеме речевого кодирования, тип кодирования с одной восьмой скорости предназначен для формирования речевых кадров, кодированных с одной восьмой скорости, имеющих второе предварительно заданное число битов, меньшее, чем число битов, используемых для представления кадра дескриптора паузы в упомянутой второй схеме речевого кодирования, и блок кодирования выполнен с возможностью кодирования входного речевого кадра с числом битов, совместимым с кадром дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, в речевом кадре, кодированном с четвертной скоростью, если блок обработки неактивного речевого кадра определяет, что входной речевой кадр должен кодироваться как кадр дескриптора паузы.
23. Устройство по п.21, в котором упомянутая первая схема речевого кодирования содержит тип кодирования с полной скоростью, предназначенный для формирования речевых кадров, кодированных с полной скоростью, содержащих первое число битов, тип кодирования с половинной скоростью, предназначенный для формирования речевых кадров, кодированных с половинной скоростью, содержащих второе число битов, меньшее, чем первое число битов, тип кодирования с четвертной скоростью, предназначенный для формирования речевых кадров, кодированных с четвертной скоростью, содержащих третье число битов, меньшее, чем второе число битов, и тип кодирования с одной восьмой скорости, предназначенный для формирования речевых кадров, кодированных с одной восьмой скорости, содержащих четвертое число битов, меньшее, чем третье число битов, причем третье число битов больше, чем число битов, используемое для представления кадра дескриптора паузы в упомянутой второй схеме речевого кодирования, и четвертое число битов меньше, чем число битов, используемое для представления кадра дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, и блок кодирования выполнен с возможностью кодирования входного речевого кадра с числом битов, совместимым с кадром дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, в речевом кадре, кодированном с четвертной скоростью, если блок обработки неактивного речевого кадра определяет, что входной речевой кадр должен кодироваться как кадр дескриптора паузы.
24. Устройство по п.22 или 23, в котором блок кодирования выполнен с возможностью кодирования входного речевого кадра с использованием типа кодирования с одной восьмой скорости, если блок обработки неактивного речевого кадра определяет, что входной речевой кадр не должен кодироваться как кадр дескриптора паузы.
25. Устройство по п.21, выполненное с возможностью работы в соответствии с набором II скоростей CDMA.
26. Устройство по п.21, выполненное с возможностью работы в соответствии с набором I скоростей CDMA.
27. Устройство по п.21, в котором упомянутая первая схема речевого кодирования определена согласно многорежимному широкополосному кодированию с переменной битовой скоростью (VMR-WB), предложенному для работы в системах CDMA, и устройство выполнено с возможностью взаимодействия с второй схемой речевого кодирования, определенной согласно стандарту речевого кодирования AMR-WB.
28. Устройство по п.22, в котором первое предварительно заданное число битов равно 54, а второе предварительно заданное число битов равно 20.
29. Устройство по п.23, в котором первое число битов равно 266, второе число битов равно 124, третье число битов равно 54 и четвертое число битов равно 20.
30. Устройство по п.22, в котором первое предварительно заданное число битов соответствует битовой скорости 2,7 кбит/с, а второе предварительно заданное число битов соответствует битовой скорости 1,0 кбит/с.
31. Устройство по. п.23, в котором первое число битов соответствует битовой скорости 13,3 кбит/с, второе число битов соответствует битовой скорости 6,2 кбит/с, третье число битов соответствует битовой скорости 2,7 кбит/с и четвертое число битов соответствует битовой скорости 1,0 кбит/с.
32. Устройство по п.28 или 29, в котором если блок обработки неактивного речевого кадра определяет, что входной речевой кадр должен кодироваться как кадр дескриптора паузы, то блок кодирования обеспечивает кодирование входного речевого кадра с использованием 35 битов, оставляя неиспользуемыми 19 битов речевого кадра, кодированного с четвертной скоростью.
33. Устройство по п.22 или 23, в котором число битов, используемых для представления кадра дескриптора паузы, согласно упомянутой второй схеме речевого кодирования, соответствует 1,75 кбит/с.
34. Устройство по п.21, в котором если детектор речевой активности определяет последовательные входные речевые кадры, следующие за интервалом речевой активности, как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то блок обработки неактивного речевого кадра определяет согласно упомянутому предварительно заданному правилу, что первый неактивный речевой кадр упомянутой последовательности, четвертый неактивный речевой кадр и после этого каждый восьмой неактивный речевой кадр последовательности должен кодироваться как кадр дескриптора паузы.
35. Устройство по п.21, в котором если детектор речевой активности определяет последовательные входные речевые кадры, следующие за интервалом речевой активности, как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то блок обработки неактивного речевого кадра определяет согласно упомянутому предварительно заданному правилу, что а) первый неактивный речевой кадр упомянутой последовательности должен кодироваться как кадр дескриптора паузы, b) следующие два неактивных речевых кадра последовательности должны кодироваться с использованием второго предварительно определенного типа кодирования, с) четвертый неактивный речевой кадр последовательности должен кодироваться как кадр дескриптора паузы, d) следующие семь неактивных речевых кадров должны кодироваться с использованием второго предварительно заданного типа кодирования и следующий неактивный речевой кадр должен кодироваться как кадр дескриптора паузы, и этап (d) должен повторяться до тех пор, пока не будет обнаружен активный речевой кадр.
36. Устройство по п.21, в котором если детектор речевой активности определяет последовательные входные речевые кадры, следующие за интервалом речевой активности, как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то блок обработки неактивного речевого кадра определяет согласно упомянутому предварительно заданному правилу, что первый неактивный речевой кадр упомянутой последовательности должен кодироваться как кадр дескриптора паузы и после этого каждый восьмой неактивный речевой кадр последовательности должен кодироваться как кадр дескриптора паузы.
37. Устройство по п.21, в котором если детектор речевой активности определяет последовательные входные речевые кадры как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то блок обработки неактивного кадра определяет согласно упомянутому предварительно заданному правилу, что а) первый неактивный речевой кадр упомянутой последовательности должен кодироваться как кадр дескриптора паузы, b) следующие k неактивных речевых кадров последовательности должны кодироваться с использованием второго предварительно определенного типа кодирования и следующий неактивный речевой кадр должен кодироваться как кадр дескриптора паузы, и этап b) должен повторяться до тех пор, пока не будет обнаружен активный речевой кадр.
38. Устройство по п.37, выполненное с возможностью установки k равным 7.
39. Устройство по п.21, в котором если детектор речевой активности определяет последовательные входные речевые кадры, следующие за интервалом речевой активности, как неактивные речевые кадры, формирующие последовательность неактивных речевых кадров, то блок обработки неактивного кадра определяет согласно упомянутому предварительно заданному правилу, что неактивный речевой кадр должен кодироваться как кадр дескриптора паузы, если шумовые характеристики изменяются.
RU2005113876/09A 2002-10-11 2003-10-10 Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком) RU2351907C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US41766702P 2002-10-11 2002-10-11
US60/417,667 2002-10-11

Publications (2)

Publication Number Publication Date
RU2005113876A RU2005113876A (ru) 2005-10-10
RU2351907C2 true RU2351907C2 (ru) 2009-04-10

Family

ID=32094059

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2005113877/09A RU2331933C2 (ru) 2002-10-11 2003-10-09 Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
RU2005113876/09A RU2351907C2 (ru) 2002-10-11 2003-10-10 Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком)

Family Applications Before (1)

Application Number Title Priority Date Filing Date
RU2005113877/09A RU2331933C2 (ru) 2002-10-11 2003-10-09 Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах

Country Status (15)

Country Link
US (1) US7203638B2 (ru)
EP (2) EP1550108A2 (ru)
JP (2) JP2006502426A (ru)
KR (2) KR100711280B1 (ru)
CN (2) CN1703736A (ru)
AT (1) ATE505786T1 (ru)
AU (2) AU2003278013A1 (ru)
BR (2) BR0315179A (ru)
CA (2) CA2501368C (ru)
DE (1) DE60336744D1 (ru)
EG (1) EG23923A (ru)
ES (1) ES2361154T3 (ru)
MY (2) MY134085A (ru)
RU (2) RU2331933C2 (ru)
WO (2) WO2004034379A2 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2670469C1 (ru) * 2017-10-19 2018-10-23 Акционерное общество "ОДК-Авиадвигатель" Способ защиты газотурбинного двигателя от многократных помпажей компрессора

Families Citing this family (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7023880B2 (en) * 2002-10-28 2006-04-04 Qualcomm Incorporated Re-formatting variable-rate vocoder frames for inter-system transmissions
US7406096B2 (en) * 2002-12-06 2008-07-29 Qualcomm Incorporated Tandem-free intersystem voice communication
WO2004075582A1 (en) 2003-02-21 2004-09-02 Nortel Networks Limited Data communication apparatus and method for establishing a codec-bypass connection
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US7450570B1 (en) 2003-11-03 2008-11-11 At&T Intellectual Property Ii, L.P. System and method of providing a high-quality voice network architecture
US20060034481A1 (en) * 2003-11-03 2006-02-16 Farhad Barzegar Systems, methods, and devices for processing audio signals
US8019449B2 (en) 2003-11-03 2011-09-13 At&T Intellectual Property Ii, Lp Systems, methods, and devices for processing audio signals
FR2867648A1 (fr) * 2003-12-10 2005-09-16 France Telecom Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
US8027265B2 (en) 2004-03-19 2011-09-27 Genband Us Llc Providing a capability list of a predefined format in a communications network
US7990865B2 (en) 2004-03-19 2011-08-02 Genband Us Llc Communicating processing capabilities along a communications path
US7729346B2 (en) 2004-09-18 2010-06-01 Genband Inc. UMTS call handling methods and apparatus
US7830864B2 (en) 2004-09-18 2010-11-09 Genband Us Llc Apparatus and methods for per-session switching for multiple wireline and wireless data types
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
WO2006104555A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector
US20060262851A1 (en) * 2005-05-19 2006-11-23 Celtro Ltd. Method and system for efficient transmission of communication traffic
US8483173B2 (en) 2005-05-31 2013-07-09 Genband Us Llc Methods and systems for unlicensed mobile access realization in a media gateway
JP4948401B2 (ja) * 2005-05-31 2012-06-06 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
WO2006136901A2 (en) * 2005-06-18 2006-12-28 Nokia Corporation System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission
US7830921B2 (en) * 2005-07-11 2010-11-09 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
KR101116363B1 (ko) 2005-08-11 2012-03-09 삼성전자주식회사 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
US7792150B2 (en) 2005-08-19 2010-09-07 Genband Us Llc Methods, systems, and computer program products for supporting transcoder-free operation in media gateway
US7835346B2 (en) * 2006-01-17 2010-11-16 Genband Us Llc Methods, systems, and computer program products for providing transcoder free operation (TrFO) and interworking between unlicensed mobile access (UMA) and universal mobile telecommunications system (UMTS) call legs using a media gateway
KR100790110B1 (ko) * 2006-03-18 2008-01-02 삼성전자주식회사 모폴로지 기반의 음성 신호 코덱 방법 및 장치
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US8848618B2 (en) * 2006-08-22 2014-09-30 Qualcomm Incorporated Semi-persistent scheduling for traffic spurts in wireless communication
CN101622711B (zh) 2006-12-28 2012-07-18 杰恩邦德公司 用于无声插入描述符(sid)转换的方法、系统
US8279889B2 (en) * 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
BRPI0807703B1 (pt) 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
EP2827327B1 (en) 2007-04-29 2020-07-29 Huawei Technologies Co., Ltd. Method for Excitation Pulse Coding
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
MX2009013519A (es) 2007-06-11 2010-01-18 Fraunhofer Ges Forschung Codificador de audio para codificar una señal de audio que tiene una porcion similar a un impulso y una porcion estacionaria, metodos de codificacion, decodificador, metodo de decodificacion, y señal de audio codificada.
US8090588B2 (en) * 2007-08-31 2012-01-03 Nokia Corporation System and method for providing AMR-WB DTX synchronization
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN101527140B (zh) * 2008-03-05 2011-07-20 上海摩波彼克半导体有限公司 第三代移动通信系统amr计算量化平均对数帧能量的方法
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
US9848314B2 (en) 2008-05-19 2017-12-19 Qualcomm Incorporated Managing discovery in a wireless peer-to-peer network
US9198017B2 (en) 2008-05-19 2015-11-24 Qualcomm Incorporated Infrastructure assisted discovery in a wireless peer-to-peer network
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
JP5551694B2 (ja) 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 多くのスペクトルエンベロープを計算するための装置および方法
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
BRPI0910511B1 (pt) * 2008-07-11 2021-06-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para decodificar e codificar um sinal de áudio
CN103000178B (zh) 2008-07-11 2015-04-08 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
US20120095760A1 (en) * 2008-12-19 2012-04-19 Ojala Pasi S Apparatus, a method and a computer program for coding
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
EP2237269B1 (en) 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
CN101931414B (zh) 2009-06-19 2013-04-24 华为技术有限公司 脉冲编码方法及装置、脉冲解码方法及装置
US8908541B2 (en) 2009-08-04 2014-12-09 Genband Us Llc Methods, systems, and computer readable media for intelligent optimization of digital signal processor (DSP) resource utilization in a media gateway
FR2954640B1 (fr) 2009-12-23 2012-01-20 Arkamys Procede d'optimisation de la reception stereo pour radio analogique et recepteur de radio analogique associe
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
CN102299760B (zh) * 2010-06-24 2014-03-12 华为技术有限公司 脉冲编解码方法及脉冲编解码器
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
JP6000854B2 (ja) 2010-11-22 2016-10-05 株式会社Nttドコモ 音声符号化装置および方法、並びに、音声復号装置および方法
SG192746A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for processing a decoded audio signal in a spectral domain
CN102959620B (zh) 2011-02-14 2015-05-13 弗兰霍菲尔运输应用研究公司 利用重迭变换的信息信号表示
PL3471092T3 (pl) 2011-02-14 2020-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekodowanie pozycji impulsów ścieżek sygnału audio
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
CN103534754B (zh) * 2011-02-14 2015-09-30 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器
ES2534972T3 (es) 2011-02-14 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral
CN102737636B (zh) * 2011-04-13 2014-06-04 华为技术有限公司 一种音频编码方法及装置
US20140114653A1 (en) * 2011-05-06 2014-04-24 Nokia Corporation Pitch estimator
EP2772909B1 (en) * 2011-10-27 2018-02-21 LG Electronics Inc. Method for encoding voice signal
CN102543090B (zh) * 2011-12-31 2013-12-04 深圳市茂碧信息科技有限公司 一种应用于变速率语音和音频编码的码率自动控制系统
CN103200635B (zh) 2012-01-05 2016-06-29 华为技术有限公司 用户设备在无线网络控制器之间迁移的方法、装置及系统
WO2014006837A1 (ja) * 2012-07-05 2014-01-09 パナソニック株式会社 符号化・復号化システム、復号化装置、符号化装置、及び符号化・復号化方法
EP3113184B1 (en) 2012-08-31 2017-12-06 Telefonaktiebolaget LM Ericsson (publ) Method and device for voice activity detection
US8982702B2 (en) 2012-10-30 2015-03-17 Cisco Technology, Inc. Control of rate adaptive endpoints
JP6170172B2 (ja) 2012-11-13 2017-07-26 サムスン エレクトロニクス カンパニー リミテッド 符号化モード決定方法及び該装置、オーディオ符号化方法及び該装置、並びにオーディオ復号化方法及び該装置
BR112015014212B1 (pt) * 2012-12-21 2021-10-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Geração de um ruído de conforto com alta resolução espectro-temporal em transmissão descontínua de sinais de audio
JP6335190B2 (ja) 2012-12-21 2018-05-30 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
CN103915097B (zh) * 2013-01-04 2017-03-22 中国移动通信集团公司 一种语音信号处理方法、装置和系统
US9208775B2 (en) * 2013-02-21 2015-12-08 Qualcomm Incorporated Systems and methods for determining pitch pulse period signal boundaries
US9263054B2 (en) 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
MX371425B (es) 2013-06-21 2020-01-29 Fraunhofer Ges Forschung Aparato y metodo para la ocultacion mejorada del libro de codigo adaptativo en la ocultacion similar a acelp mediante la utilizacion de una estimacion mejorada del retardo de tono.
PL3011555T3 (pl) 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
US9570093B2 (en) * 2013-09-09 2017-02-14 Huawei Technologies Co., Ltd. Unvoiced/voiced decision for speech processing
CN104517612B (zh) * 2013-09-30 2018-10-12 上海爱聊信息科技有限公司 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
EP2980790A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
US9953655B2 (en) * 2014-09-29 2018-04-24 Qualcomm Incorporated Optimizing frequent in-band signaling in dual SIM dual active devices by comparing signal level (RxLev) and quality (RxQual) against predetermined thresholds
CN104299384A (zh) * 2014-10-13 2015-01-21 浙江大学 一种基于Zigbee异质传感器网络的环境监控系统
US20160323425A1 (en) * 2015-04-29 2016-11-03 Qualcomm Incorporated Enhanced voice services (evs) in 3gpp2 network
CN106328169B (zh) * 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
US10568143B2 (en) * 2017-03-28 2020-02-18 Cohere Technologies, Inc. Windowed sequence for random access method and apparatus
CN108737826B (zh) * 2017-04-18 2023-06-30 中兴通讯股份有限公司 一种视频编码的方法和装置
RU2744362C1 (ru) * 2017-09-20 2021-03-05 Войсэйдж Корпорейшн Способ и устройство для эффективного распределения битового бюджета в celp-кодеке
US20220180884A1 (en) * 2019-05-07 2022-06-09 Voiceage Corporation Methods and devices for detecting an attack in a sound signal to be coded and for coding the detected attack
CN110619881B (zh) * 2019-09-20 2022-04-15 北京百瑞互联技术有限公司 一种语音编码方法、装置及设备
CN113519023A (zh) * 2019-10-29 2021-10-19 苹果公司 具有压缩环境的音频编码
JP7332518B2 (ja) * 2020-03-30 2023-08-23 本田技研工業株式会社 会話支援装置、会話支援システム、会話支援方法およびプログラム
CN113611325B (zh) * 2021-04-26 2023-07-04 珠海市杰理科技股份有限公司 基于清浊音实现的语音信号变速方法、装置和音频设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW271524B (ru) * 1994-08-05 1996-03-01 Qualcomm Inc
FI991605A (fi) * 1999-07-14 2001-01-15 Nokia Networks Oy Menetelmä puhekodaukseen ja puhekoodaukseen tarvittavan laskentakapasi teetin vähentämiseksi ja verkkoelementti
JP2001067807A (ja) * 1999-08-25 2001-03-16 Sanyo Electric Co Ltd 音声再生装置
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
AU2002226956A1 (en) * 2000-11-22 2002-06-03 Leap Wireless International, Inc. Method and system for providing interactive services over a wireless communications network
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
JP4518714B2 (ja) * 2001-08-31 2010-08-04 富士通株式会社 音声符号変換方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2670469C1 (ru) * 2017-10-19 2018-10-23 Акционерное общество "ОДК-Авиадвигатель" Способ защиты газотурбинного двигателя от многократных помпажей компрессора

Also Published As

Publication number Publication date
CA2501369A1 (en) 2004-04-22
EP1554718A2 (en) 2005-07-20
WO2004034379A3 (en) 2004-12-23
KR20050049538A (ko) 2005-05-25
AU2003278014A1 (en) 2004-05-04
DE60336744D1 (de) 2011-05-26
JP2006502426A (ja) 2006-01-19
EP1554718B1 (en) 2011-04-13
RU2331933C2 (ru) 2008-08-20
CA2501368A1 (en) 2004-04-22
WO2004034376A2 (en) 2004-04-22
BR0315216A (pt) 2005-08-16
AU2003278014A8 (en) 2004-05-04
US20050267746A1 (en) 2005-12-01
KR100711280B1 (ko) 2007-04-25
RU2005113877A (ru) 2005-10-10
MY138212A (en) 2009-05-29
CA2501368C (en) 2013-06-25
EG23923A (en) 2007-12-30
CN1703736A (zh) 2005-11-30
MY134085A (en) 2007-11-30
AU2003278013A1 (en) 2004-05-04
RU2005113876A (ru) 2005-10-10
BR0315179A (pt) 2005-08-23
WO2004034376A3 (en) 2004-06-10
WO2004034379A2 (en) 2004-04-22
CN1703737A (zh) 2005-11-30
JP2006502427A (ja) 2006-01-19
EP1550108A2 (en) 2005-07-06
ATE505786T1 (de) 2011-04-15
CN1703737B (zh) 2013-05-15
US7203638B2 (en) 2007-04-10
KR20050049537A (ko) 2005-05-25
AU2003278013A8 (en) 2004-05-04
ES2361154T3 (es) 2011-06-14

Similar Documents

Publication Publication Date Title
RU2351907C2 (ru) Способ осуществления взаимодействия между адаптивным многоскоростным широкополосным кодеком (amr-wb-кодеком) и многорежимным широкополосным кодеком с переменной скоростью в битах (vbr-wb-кодеком)
US7657427B2 (en) Methods and devices for source controlled variable bit-rate wideband speech coding
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
JP5173939B2 (ja) Cdma無線システム用可変ビットレート広帯域音声符号化時における効率のよい帯域内ディム・アンド・バースト(dim−and−burst)シグナリングとハーフレートマックス処理のための方法および装置
JP4390803B2 (ja) 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
JP5543405B2 (ja) フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ
JP4870313B2 (ja) 可変レート音声符号器におけるフレーム消去補償方法
JP4927257B2 (ja) 可変レートスピーチ符号化
ES2302754T3 (es) Procedimiento y aparato para codificacion de habla sorda.
JP2010286853A (ja) 合成による分析celp型音声符号化のための適応型ウィンドウ
JP2006525533A5 (ru)
JP4874464B2 (ja) 遷移音声フレームのマルチパルス補間的符号化
EP1204968B1 (en) Method and apparatus for subsampling phase spectrum information
EP1808852A1 (en) Method of interoperation between adaptive multi-rate wideband (AMR-WB) and multi-mode variable bit-rate wideband (VMR-WB) codecs
Drygajilo Speech Coding Techniques and Standards

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20160602