RU2237296C2 - Method for encoding speech with function for altering comfort noise for increasing reproduction precision - Google Patents
Method for encoding speech with function for altering comfort noise for increasing reproduction precision Download PDFInfo
- Publication number
- RU2237296C2 RU2237296C2 RU2001117232/09A RU2001117232A RU2237296C2 RU 2237296 C2 RU2237296 C2 RU 2237296C2 RU 2001117232/09 A RU2001117232/09 A RU 2001117232/09A RU 2001117232 A RU2001117232 A RU 2001117232A RU 2237296 C2 RU2237296 C2 RU 2237296C2
- Authority
- RU
- Russia
- Prior art keywords
- parameters
- variability
- background noise
- values
- noise
- Prior art date
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
Данная заявка на изобретение, согласно статье 35 USC 119(е) (1) свода законов США, имеет приоритет находящей в процессе одновременного рассмотрения предварительной заявки на патент США №60/109,555 с датой подачи 23 ноября 1998 г.This application for invention, in accordance with
ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY
Изобретение относится, в общем случае, к процессу кодирования речи, в частности к процессу кодирования речи, в котором в течение промежутков времени, в которых отсутствует речевая активность, создают искусственный фоновый шум.The invention relates, in General, to the process of encoding speech, in particular to a process for encoding speech, in which for periods of time in which there is no speech activity, create artificial background noise.
ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE INVENTION
Радиопередающие и радиоприемные устройства обычно снабжены устройствами соответственно кодирования и декодирования речи, которые взаимодействуют таким образом, что позволяют осуществлять передачу речевых сигналов между заданными передатчиком и приемником по линии радиосвязи. Совокупность устройства кодирования речи и устройства декодирования речи часто называют кодер-декодером речи. Типичным примером устройства связи, которое обычно содержит радиопередающее устройство, снабженное устройством кодирования речи, и радиоприемное устройство, снабженное устройством декодирования речи, является радиотелефон мобильной связи (например, телефонный аппарат сотовой связи).Radio transmitting and receiving devices are usually equipped with speech encoding and decoding devices, respectively, which interact in such a way that they allow the transmission of speech signals between a given transmitter and receiver via a radio link. The combination of a speech encoding device and a speech decoding device is often referred to as a speech codec. A typical example of a communication device, which typically comprises a radio transmitter equipped with a speech encoding device, and a radio receiver equipped with a speech decoding device, is a mobile radiotelephone (e.g., a cellular telephone).
В обычных устройствах, основанных на поблочном кодировании речи, входящий речевой сигнал разделяют на блоки, называемые кадрами. Для обычной телефонной связи с шириной полосы частот 4 кГц длина кадров обычно равна 20 миллисекундам (мс) или 160 выборкам. Кадры дополнительно разделяют на под-кадры, длина которых обычно равна 5 мс или 40 выборкам.In conventional devices based on block coding of speech, the incoming speech signal is divided into blocks called frames. For regular telephony with a 4 kHz bandwidth, the frame length is usually 20 milliseconds (ms) or 160 samples. Frames are further divided into sub-frames, the length of which is usually 5 ms or 40 samples.
В обычных устройствах кодирования с линейным предсказанием посредством анализа через синтез (ЛПАС) используют модели, обусловленные речеобразованием. Параметры модели, описывающие речевой тракт человека, основной тон речевого сигнала и т.д. извлекают из входного речевого сигнала. Вычисление медленно изменяющихся параметров обычно осуществляют для каждого кадра. Примерами таких параметров являются, в том числе, параметры КСП (краткосрочного предсказания, которые характеризуют речевой тракт устройства, создающего речевой сигнал. Одним из примеров параметров КСП являются коэффициенты линейного предсказания (КПП), которые отображают форму спектра входного речевого сигнала. Примерами более быстро изменяющихся параметров являются, в том числе, параметры основного тона и поправки на форму/усиление, вычисление которых обычно осуществляют для каждого подкадра.Conventional linear prediction coding devices through synthesis analysis (LPAS) use speech-conditioned models. Model parameters describing the human vocal tract, pitch of the speech signal, etc. extracted from the input speech signal. The calculation of slowly varying parameters is usually carried out for each frame. Examples of such parameters are, among other things, PCB parameters (short-term prediction, which characterize the speech path of the device generating the speech signal. One example of PCB parameters are linear prediction coefficients (PPC), which display the shape of the spectrum of the input speech signal. Examples of more rapidly changing The parameters are, among other things, pitch parameters and shape / gain corrections, which are usually calculated for each subframe.
Квантование извлеченных параметров осуществляют с использованием соответствующих известных способов скалярного и векторного квантования. Параметры КСП, например, линейные коэффициенты предсказания, часто преобразуют в более удобный для квантования вид, например, в виде частот с линейчатым спектром (ЧЛС). После квантования параметры передают по каналу связи в устройство декодирования.Quantization of the extracted parameters is carried out using the appropriate known methods of scalar and vector quantization. PCB parameters, for example, linear prediction coefficients, are often converted into a more convenient form for quantization, for example, in the form of frequencies with a linear spectrum (LS). After quantization, the parameters are transmitted over the communication channel to the decoding device.
В обычном устройстве декодирования ЛПАС обычно выполняют операции, противоположные вышеуказанным, и синтезируют речевой сигнал. Для улучшения качества восприятия обычно используют последующую фильтрацию синтезированного речевого сигнала.In a conventional LPAS decoding device, operations opposite to the above are usually performed and a speech signal is synthesized. Subsequent filtering of the synthesized speech signal is usually used to improve perceptual quality.
Для многих обычных типов фонового шума достаточно хорошую модель сигнала получают при значительно меньшей скорости передачи информации в битах, чем та, которая необходима для речевого сигнала. В существующих системах мобильной связи используют этот факт и осуществляют соответствующую регулировку скорости передачи информации в битах во время наличия фонового шума. В обычных системах, в которых применяют способы непрерывной передачи, в устройстве кодирования речи с переменной скоростью передачи (ПСП) может быть использована наиболее низкая скорость передачи информации в битах. В обычных схемах прерывистой передачи (ПРП), передатчик прекращает передачу закодированных кадров речевого сигнала при отсутствии активности говорящего абонента. Через одинаковые или неодинаковые промежутки времени (обычно через каждые 500 мс) передатчик осуществляет передачу надлежащих параметров речевого сигнала для генерации комфортного шума в устройстве декодирования. Кодирование этих параметров для генерации комфортного шума (ГКШ) обычно осуществляют в виде кадров, которые иногда называют кадрами дескриптора тишины (ДТШ). Устройство декодирования в приемнике использует параметры комфортного шума, принятые в кадрах ДТШ, для синтеза искусственного шума посредством обычного алгоритма введения комфортного шума (ВКШ).For many common types of background noise, a reasonably good signal model is obtained at a significantly lower bit rate than that needed for the speech signal. In existing mobile communication systems use this fact and carry out the appropriate adjustment of the bit rate during the presence of background noise. In conventional systems that employ continuous transmission methods, the variable bit rate (CSP) speech coding apparatus can use the lowest bit rate. In conventional discontinuous transmission (PRP) schemes, the transmitter stops transmitting encoded frames of the speech signal when there is no talking activity. At identical or unequal intervals (usually every 500 ms), the transmitter transmits the appropriate parameters of the speech signal to generate comfortable noise in the decoding device. The coding of these parameters to generate comfortable noise (GKSH) is usually carried out in the form of frames, which are sometimes called frames of the silence descriptor (DTSH). The decoding device in the receiver uses the comfort noise parameters adopted in the DTS frames to synthesize artificial noise using a conventional algorithm for introducing comfort noise (VCS).
После генерации комфортного шума в устройстве декодирования обычной системы ПРП шум обычно воспринимается как в высокой степени статический и сильно отличающийся от фонового шума, создаваемого в активном (не ПРП) режиме. Причина такого восприятия заключается в том, что передачу кадров ДТШ при ПРП выполняют реже, чем обычных кадров речевого сигнала. В кодер-декодерах ЛПАС, имеющих режим ПРП, обычно осуществляют оценку (например, усреднение) спектра и энергии фонового шума по нескольким кадрам, а затем вычисленные параметры квантуют и передают по каналу связи в устройство декодирования. На фиг.1 показан пример известного устройства кодирования комфортного шума, которое создает вышеуказанные оценочные параметры фонового шума (комфортного шума). Передачу квантованных параметров комфортного шума обычно осуществляют через каждые 100-500 мс.After comfortable noise is generated in the decoding device of a conventional PDP system, noise is usually perceived as highly static and very different from background noise generated in the active (non-PDP) mode. The reason for this perception is that the transmission of DTL frames during PDP is performed less frequently than ordinary frames of a speech signal. In LPAS codecs-decoders having a PDP mode, the spectrum and energy of background noise are usually estimated (for example, averaged) over several frames, and then the calculated parameters are quantized and transmitted over the communication channel to the decoding device. Figure 1 shows an example of a known device for encoding comfort noise, which creates the above estimated parameters of the background noise (comfort noise). The transmission of quantized comfort noise parameters is usually carried out every 100-500 ms.
Передача кадров ДТШ с низкой скоростью обновления вместо передачи обычных кадров речевого сигнала имеет двойное преимущество. Вследствие снижения потребляемой мощности продлевают ресурс аккумулятора, например, в приемопередатчике мобильной радиосвязи, и снижают помехи, создаваемые передатчиком, посредством чего обеспечивают более высокую пропускную способность системы.Transmitting DTS frames with a low update rate instead of transmitting conventional speech frames has a double advantage. Due to the reduction in power consumption, the battery life is extended, for example, in a mobile radio transceiver, and the interference caused by the transmitter is reduced, thereby providing a higher system throughput.
В обычном устройстве декодирования прием и декодирование параметров комфортного шума могут быть осуществлены так, как показано на фиг.2. Поскольку устройство декодирования не принимает новые параметры комфортного шума также часто, как принимаются параметры речевого сигнала, то для обеспечения плавного изменения параметров при синтезе комфортного шума в блоке 23 обычно выполняют интерполяцию параметров комфортного шума, принятых в кадрах ДТШ. При операции синтеза, обозначенной ссылочной позицией 25, устройство декодирования вводит в синтезирующий фильтр 27 возбуждение в виде нормированного по усилению случайного шума (например, белого шума) и интерполированные параметры спектра. В результате, созданный комфортный шум Sc(n) будет восприниматься как в высокой степени стационарный ("статический") вне зависимости от изменения свойств фонового шума s(n) в устройстве кодирования (см. фиг.1). Эта проблема более явно выражена для сильно изменяющихся фоновых шумов, таких как уличный шум и невнятный шум от многих источников (например, шум в ресторане), но она также возникает в случае автомобильного шума.In a conventional decoding device, reception and decoding of comfort noise parameters can be implemented as shown in FIG. Since the decoding device does not accept new comfort noise parameters as often as the parameters of the speech signal are received, in order to ensure a smooth change in the parameters during the synthesis of comfort noise, the
Одним из традиционных подходов к решению этой проблемы "статического" комфортного шума является простое увеличение скорости обновления параметров комфортного шума при ПРП (например, использование более высокой скорости передачи кадров ДТШ). При подобном решении возникают такие проблемы, как увеличение энергопотребления аккумулятора (например, в приемопередатчике мобильной связи), обусловленное необходимостью более частой работы передатчика, и уменьшение пропускной способности системы вследствие увеличения скорости передачи кадров ДТШ. Поэтому в традиционных системах обычно соглашаются с неизбежностью наличия статического фонового шума.One of the traditional approaches to solving this problem of “static” comfort noise is to simply increase the update rate of comfort noise parameters during PDP (for example, using a higher transmission rate of DTS frames). With such a solution, problems arise such as an increase in battery power consumption (for example, in a mobile communications transceiver), due to the need for more frequent operation of the transmitter, and a decrease in system throughput due to an increase in the transmission speed of DTS frames. Therefore, in traditional systems, they usually agree with the inevitability of static background noise.
Следовательно, желательным является устранение вышеуказанных недостатков, связанных с традиционным способом генерации комфортного шума.Therefore, it is desirable to eliminate the above disadvantages associated with the traditional method of generating comfortable noise.
Согласно изобретению параметры комфортного шума, полученные посредством традиционного способа генерации, изменяют исходя из их свойств реального фонового шума, воспринимаемого устройством кодирования. Комфортный шум, генерируемый исходя из измененных параметров, воспринимается как менее статический по сравнению с комфортным шумом, генерация которого осуществлена традиционным способом, и более похожий на реальный фоновый шум, существующий в устройстве кодирования.According to the invention, comfort noise parameters obtained by the traditional generation method are changed based on their properties of real background noise perceived by the encoding device. Comfort noise generated from the changed parameters is perceived as less static compared to comfort noise generated in the traditional way and more similar to real background noise existing in the encoding device.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS
Фиг.1 - схематичное представление процесса получения параметров комфортного шума в обычном устройстве кодирования речи.Figure 1 is a schematic representation of a process for obtaining comfort noise parameters in a conventional speech encoding device.
Фиг.2 - схематичное представление процесса генерации комфортного шума в обычном устройстве декодирования речи.Figure 2 - schematic representation of the process of generating comfortable noise in a conventional speech decoding device.
Фиг.3 - блок-схема устройства изменения параметров комфортного шума, используемого при генерации комфортного шума согласно изобретению.Figure 3 is a block diagram of a device for changing comfort noise parameters used in generating comfort noise according to the invention.
Фиг.4 - пример варианта осуществления устройства изменения по фиг.3.Figure 4 is an example of an embodiment of the change device of Figure 3.
Фиг.5 - пример варианта осуществления устройства оценки изменчивости по фиг.4.5 is an example of an embodiment of the variability estimation apparatus of FIG. 4.
Фиг.5 - пример устройства управления сигналом ВЫБОРА по фиг.5.FIG. 5 is an example of a SELECT signal control device of FIG. 5.
Фиг.6 - пример варианта осуществления устройства изменения по фиг.3-фиг.5, в котором устройство оценки изменчивости по фиг.5 выполнено частично в устройстве кодирования и частично в устройстве декодирования.FIG. 6 is an example embodiment of the change device of FIG. 3 to FIG. 5, wherein the variability estimation device of FIG. 5 is implemented in part in an encoding device and in part in a decoding device.
Фиг.7 - примерный вариант операций, которые могут быть выполнены устройством изменения по фиг.3 - фиг.6.Fig.7 is an exemplary embodiment of operations that can be performed by the change device of Fig.3 - Fig.6.
Фиг.8 - пример осуществления этапа оценочного вычисления по фиг.7.Fig. 8 is an example implementation of the evaluation calculation step of Fig. 7.
Фиг.9 - блок-схема системы речевой связи, в которой могут быть реализованы варианты осуществления устройства изменения по фиг.3 - фиг.8.Fig.9 is a block diagram of a voice communication system in which embodiments of the change device of Fig.3 - Fig.8 can be implemented.
ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION
На фиг.3 показано устройство 30 изменения параметров комфортного шума для изменения параметров комфортного шума согласно изобретению. Согласно фиг.3, на вход 33 устройства 30 изменения подают обычные интерполированные параметры комфортного шума, например спектральные и энергетические параметры, полученные с выхода интерполятора 23 по фиг.2. Также на вход 31 устройства 30 изменения подают спектральные и энергетические параметры, соответствующие фоновому шуму, поступающему в устройство кодирования. Устройство 30 изменения изменяет полученные параметры комфортного шума исходя из параметров фонового шума, полученных с входа 31, и создает измененные параметры комфортного шума на выходе 35. Измененные параметры комфортного шума могут быть затем поданы, например, в блок 25 синтеза комфортного шума по фиг.2 для их использования в обычных операциях синтеза комфортного шума. Измененные параметры комфортного шума, сформированные на выходе 35, позволяют осуществлять в блоке 25 синтеза генерацию комфортного шума, который более точно воспроизводит реальный фоновый шум, поступающий в устройство кодирования речи.Figure 3 shows a
На фиг.4 показан пример варианта осуществления устройства 30 изменения параметров комфортного шума по фиг.3. Устройство 30 изменения содержит устройство 41 оценки изменчивости, соединенное со входом 31, осуществляющее прием спектральных и энергетических параметров фонового шума. Устройство 41 оценки изменчивости осуществляет оценку характеристик изменчивости параметров фонового шума и подает на выход 43 информацию, характеризующую изменчивость параметров фонового шума. В информации об изменчивости может быть указана степень изменчивости параметра относительно его среднего значения, например дисперсия параметра или максимальное отклонение параметра от его среднего значения.Figure 4 shows an example of an embodiment of a
В информации об изменчивости, полученной на выходе 43, также могут быть указаны корреляционные характеристики, эволюция параметра во времени или другие критерии оценки изменчивости параметра во времени. В качестве примеров информации об изменчивости во времени могут быть приведены, в том числе, простые критерии оценки, такие как скорость изменения параметра (быстрые или медленные изменения), дисперсия параметра, максимальное отклонение от среднего значения, другие статистические критерии оценки, характеризующие изменчивость параметра, и более сложные критерии оценки, такие как автокорреляционные характеристики и коэффициенты фильтрации прогнозирующего устройства с автоматической регрессией (АР), оценочное вычисление которых выполнено исходя из значения параметра. Одним из примеров простого критерия оценки по скорости изменения является вычисление частоты перехода через ноль, то есть, сколько раз параметр меняет знак при просмотре последовательности значений параметра от первого значения параметра до последнего значения параметра. Информацию, полученную на выходе 43 устройства оценки 41, подают на вход устройства 45 объединения, которое объединяет информацию, полученную на выходе 43, с интерполированными параметрами комфортного шума, принимаемыми на входе 33, для формирования на выходе 35 измененных параметров комфортного шума.The information on the variability obtained at the
На фиг.5 показан пример варианта осуществления устройства 41 оценки изменчивости по фиг.4. Устройство оценки по фиг.5 содержит устройство 51 определения среднего значения изменчивости, соединенное со входом 31, для приема спектральных и энергетических параметров фонового шума. Как описано выше, устройство 51 определения среднего значения изменчивости может определять средние значения характеристик изменчивости.FIG. 5 shows an example embodiment of the
Например, если буфер 37 фонового шума из фиг.3 содержит 8 кадров и 32 подкадра, то анализ изменчивости буферизованных спектральных и энергетических параметров может быть выполнен следующим образом. Может быть выполнено вычисление среднего (или усредненного) значения буферизованных спектральных параметров (как обычно делают в устройствах кодирования ПРП для создания кадров ДТШ) и его вычитание из буферизованных значений спектрального параметра, посредством чего получают вектор значений отклонения по спектру. Точно так же может быть выполнено вычисление среднего значения буферизованных энергетических параметров по подкадру (как обычно делают в устройствах кодирования ПРП для создания кадров ДТШ), а затем его вычитание из буферизованных значений энергетического параметра в подкадре, посредством чего получают вектор отклонения значений по энергии. Следовательно, векторы отклонения по спектру и энергии содержат спектральные и энергетические параметры с исключенным средним значением. Векторы отклонения по спектру и энергии передают из устройства 51 определения изменчивости в запоминающее устройство 55 для вектора отклонения через тракт 52 связи.For example, if the
Для того чтобы устройство 53 вычисления коэффициентов могло получать параметры фонового шума, его также соединяют со входом 31. Приведенное в качестве примера устройство 53 вычисления коэффициентов осуществляет обычные оценочные вычисления способом АР с использованием соответствующих спектральных и энергетических параметров. Полученные из оценочных вычислений способом АР коэффициенты фильтрации передают из устройства 53 вычисления коэффициентов в фильтр 57 через тракт 54 связи. Посредством коэффициентов фильтрации, вычисленных в устройстве 53, могут быть заданы, например, соответствующие фильтры полюсов для спектральных и энергетических параметров.In order that the
В одном из вариантов осуществления устройство 53 вычисления коэффициентов выполняет оценочные вычисления АР первого порядка как для спектральных, так и для энергетических параметров, вычисляя коэффициенты фильтрации a1=Rxx(1)/Rxx(0) для каждого параметра обычным способом. Значения Rxx(0) и Rxx(1) представляют собой обычные значения автокорреляционной функции конкретного параметра:In one embodiment, the
В этих операциях вычисления Rxx представляет собой параметр фонового шума (например, спектральный или энергетический). Положительное значение а1 в общем случае означает, что параметр изменяется медленно, а отрицательное значение в общем случае означает, что он изменяется быстро.In these calculation operations, Rxx is a background noise parameter (e.g. spectral or energetic). A positive value of a1 in the general case means that the parameter changes slowly, and a negative value in the general case means that it changes quickly.
Согласно одному из вариантов осуществления для каждого кадра спектральных параметров и для каждого подкадра энергетических параметров может быть, например, осуществлен выбор компоненты x(k) соответствующего вектора отклонения случайным образом (посредством входного сигнала ВЫБОР в запоминающем устройстве 55) и ее фильтрация посредством фильтра 57 с использованием соответствующих коэффициентов фильтрации. Затем выходной сигнал из фильтра нормируют, умножая его на постоянный масштабный коэффициент посредством устройства 59 масштабирования, например умножающего устройства. Нормированный выходной сигнал, обозначенный на фиг.5 как xp(k), подают на вход 43 устройства 45 объединения по фиг.4.According to one embodiment, for each frame of spectral parameters and for each subframe of energy parameters, for example, the component x (k) of the corresponding deviation vector can be selected randomly (by means of the SELECT input signal in memory 55) and filtered by a filter 57 s using appropriate filtering coefficients. Then, the output signal from the filter is normalized by multiplying it by a constant scaling factor by means of a
В одном из вариантов осуществления, который схематически изображен на фиг.5А, устройство 50 определения частоты перехода через ноль соединено с входом 31 для приема буферизованных параметров из блока 37. Устройство 50 определения определяет соответствующие частоты перехода через ноль спектральных и энергетических параметров. То есть для последовательности энергетических параметров, накопленных в буфере 37, а также для последовательности спектральных параметров, накопленных в буфере 37, устройство 50 определения частоты перехода через ноль определяет для соответствующей последовательности то, сколько раз значение соответствующего параметра меняет знак при просмотре буферизованной последовательности от первого значения параметра до последнего значения параметра. Затем эта информация о частоте перехода через ноль может быть использована в блоке 56 для управления сигналом ВЫБОР из фиг.5.In one embodiment, which is shown schematically in FIG. 5A, the zero crossing
Например, для данного вектора отклонения управление сигналом ВЫБОР может быть выполнено для осуществления случайного выбора компонент x(k) вектора отклонения относительно более часто (с частотой каждого кадра или субкадра), если соответствующая этому параметру частота перехода через ноль относительно велика (что указывает на весьма большую изменчивость параметра), и для осуществления случайного выбора компонент x(k) вектора отклонения относительно менее часто (например, с меньшей частотой, чем частота каждого кадра или субкадра) в том случае, если соответствующая этому параметру частота перехода через ноль относительно низка (что указывает на весьма малую изменчивость параметра). В других вариантах осуществления частота выбора компонент x(k) данного вектора отклонения может быть установлена равной заранее заданному требуемому значению.For example, for a given deviation vector, the control of the SELECT signal can be performed to randomly select the components x (k) of the deviation vector relatively more often (with the frequency of each frame or subframe), if the zero crossing frequency corresponding to this parameter is relatively high (which indicates greater variability of the parameter), and to randomly select the components x (k) of the deviation vector, it is relatively less frequent (for example, with a lower frequency than the frequency of each frame or subframe) moreover, if the frequency of crossing through zero corresponding to this parameter is relatively low (which indicates a very small variability of the parameter). In other embodiments, the frequency of component selection x (k) of a given deviation vector may be set to a predetermined desired value.
Устройство объединения по фиг.4 выполняет объединение нормированного выходного сигнала xp(k) с обычными параметрами комфортного шума. Объединение спектральных параметров осуществляют по кадру, а энергетических параметров - по субкадру. В одном из примеров устройство 45 объединения может представлять собой сумматор, который просто добавляет сигнал xp(k) к обычным параметрам комфортного шума. Следовательно, нормированный выходной сигнал xp(k) (фиг.5) может рассматриваться в качестве возмущающего сигнала, который используется в устройстве 45 объединения для оказания возмущающего воздействия на обычные параметры комфортного шума, принятые на входе 33, для формирования измененных (или полученных в результате возмущающего воздействия) параметров комфортного шума, подаваемых на вход блока 25 синтеза комфортного шума (см. фиг. 2 - фиг.4).The combining device of FIG. 4 combines the normalized output signal xp (k) with the usual comfort noise parameters. The combination of spectral parameters is carried out on a frame, and energy parameters on a subframe. In one example, the
Использование полученных в результате возмущающего воздействия параметров комфортного шума в обычном блоке 25 синтеза может быть выполнено традиционным способом. Вследствие наличия возмущающего воздействия на обычные параметры, созданный комфортный шум будет изменяться квазислучайным образом, что значительно улучшает качество восприятия для сильно меняющегося фона, например, для невнятного шума от многих источников и уличного шума, а также автомобильного шума. В качестве одного из примеров, возмущающий сигнал xp(k) может быть выражен следующим образом:The use of comfort noise parameters obtained as a result of the disturbing effect in a
xp(k)=β х· (b0х· x(k)–a1x· γ х· (xp(k-1)),xp (k) = β x · (b0 x · x (k) –a1 x · γ x · (xp (k-1)),
где β х - масштабный коэффициент, b0х и a1x - коэффициенты фильтрации, a γ x - коэффициент расширения полосы частот.where β x is the scale factor, b0 x and a1 x are the filtering coefficients, and γ x is the coefficient of expansion of the frequency band.
Пунктирной линией на фиг.5 показан вариант осуществления, в котором операция фильтрации опущена, а возмущающий сигнал xp(k) содержит в себе нормированные компоненты вектора отклонения.The dotted line in FIG. 5 shows an embodiment in which the filtering operation is omitted, and the disturbing signal xp (k) contains the normalized components of the deviation vector.
В некоторых вариантах осуществления устройство 30 изменения по фиг.3 - фиг.5 полностью выполнено в составе устройства декодирования речи (см. фиг.9), а в других вариантах осуществления устройства изменения по фиг.3-5 распределено между устройством кодирования речи и устройством декодирования речи (см. пунктирные линии на фиг.9). В тех вариантах осуществления, в которых устройство 30 изменения полностью выполнено в устройстве декодирования, устройство декодирования должно опознавать параметры фонового шума, показанные на фиг.3. Это может быть выполнено посредством буферизации в блоке 37 требуемого количества (кадров и субкадров) спектральных и энергетических параметров, полученных из устройства кодирования через канал передачи. В схеме ПРП для принятия решения о том, что буфер 37 содержит только параметры, связанные с фоновым шумом, может быть использована неявная информация, обычно имеющаяся в устройстве декодирования. Например, в том случае, если буфер 37 может осуществить буферизацию N кадров, и если в режиме ПРП после фрагментов речи и до прерывания передачи используют N кадров блокировки при переходе (что является общепринятым), то, как известно, эти последние N кадров перед переключением в режим ПРП содержат только спектральные и энергетические параметры фонового шума. Как описано выше, эти параметры фонового шума могут быть затем использованы в устройстве 30 изменения.In some embodiments, the implementation of the
В тех вариантах осуществления, в которых устройство 30 изменения распределено между устройством кодирования и устройством декодирования, устройство 51 определения среднего значения изменчивости и устройство 53 вычисления коэффициентов могут быть предусмотрены в устройстве кодирования. Следовательно, в таких вариантах осуществления тракты 52 и 54 связи аналогичны обычному каналу связи, используемому для передачи обычных параметров комфортного шума из устройства кодирования в устройство декодирования (см. фиг.1 и 2). В частности, как показано на фиг.6, тракты 52 и 54 проходят через устройство квантования (см. также фиг.1), канал связи (см. также фиг.1 и 2) и блок выполнения операции, обратной квантованию (см. также фиг.2), к запоминающему устройству 55 и к фильтру 57 (см. также фиг.5). Что касается информации о среднем значении изменчивости и коэффициентов фильтрации АР, могут быть применены известные способы квантования скалярных значений и коэффициенты фильтрации АР.In those embodiments in which the
При использовании обычных средств в устройстве кодирования известно о наличии спектральных и энергетических параметров фонового шума, доступных для обработки посредством устройства 51 определения среднего значения изменчивости и устройства 53 вычисления коэффициентов, поскольку те же самые спектральные и энергетические параметры обычно используют в устройстве кодирования для создания обычных параметров комфортного шума. В традиционных устройствах кодирования среднее значение энергии и среднее значение спектрального распределения обычно вычисляют по нескольким кадрам и осуществляют передачу этих средних значений спектральных и энергетических параметров в устройство декодирования в качестве параметров комфортного шума. Поскольку требуется передавать коэффициенты фильтрации, полученные из устройства 53 вычисления коэффициентов, и векторы отклонения, полученные из устройства 51 определения среднего значения изменчивости, из устройства кодирования в устройство декодирования по каналу передачи, как показано на Фиг.6, то необходимо обеспечить дополнительную ширину полосы частот в том случае, когда устройство изменения является распределенным между устройством кодирования и устройством декодирования. В противном случае, когда устройство изменения выполнено полностью в устройстве декодирования, для его осуществления не требуется никакого дополнительного расширения полосы частот.Using conventional means in the encoding device, it is known that the spectral and energy parameters of background noise are available for processing by means of the average
На фиг.7 показаны примеры описанных выше операций, которые могут быть выполнены посредством устройства изменения в вариантах осуществления по фиг.3-5. На этапе 71 определяют, соответствуют ли имеющиеся спектральные и энергетические параметры (например, в буфере 37 из фиг.3) речи или же фоновому шуму. Если имеющиеся параметры соответствуют фоновому шуму, то на этапе 73 вычисляют оценочные значения характеристик фонового шума, например среднее значение изменчивости и степень изменчивости во времени. После этого на этапе 75 в интерполированные параметры комфортного шума вносят возмущение в соответствии с оценочными значениями характеристик фонового шума. Процесс возмущения на этапе 75 выполняют до тех пор, пока на этапе 77 не будет обнаружен фоновый шум. Если на этапе 77 обнаружена речевая активность, то переходят к этапу 71, на котором ожидают получения дополнительных параметров фонового шума.7 shows examples of the above operations that can be performed by the change device in the embodiments of FIGS. 3-5. At
На фиг.8 показан пример операций, которые могут быть осуществлены при выполнении на этапе 73 оценочного вычисления (фиг.7). В процессе обработки на этапе 81 учитывают N кадров и kN подкадров, которые соответствуют вышеупомянутым N буферизованным кадрам. В одном из вариантов осуществления N=8, a k=4. На этапе 83 получают вектор отклонений по спектру, имеющий N компонент, а на этапе 85 получают вектор отклонений по энергии, имеющий kN компонент. На этапе 87 осуществляют выбор компоненты (например, случайным образом) из каждого вектора отклонения. На этапе 89 вычисляют коэффициенты фильтрации и производят соответствующую фильтрацию выбранных компонент векторов. На этапе 88 отфильтрованные векторные компоненты нормируют, создавая возмущающий сигнал, который используют на этапе 75 (фиг.7). Пунктирная линия на фиг.8 соответствует вариантам осуществления, обозначенным на фиг.5 пунктирной линией, то есть вариантам осуществления, в которых опущена фильтрация, а в качестве параметров возмущения используют нормированные компоненты вектора отклонения.On Fig shows an example of operations that can be performed when performing at
На фиг.9 показан пример системы речевой связи, в которой могут быть реализованы варианты осуществления устройства изменения параметров комфортного шума по фиг.3 - 8. Передатчик (ПРД) содержит устройство 91 кодирования речи, которое поддерживает связь с устройством 93 декодирования речи в приемнике (ЦРМ) через канал 95 передачи. Передатчик по фиг.9, приемник по фиг.9, либо оба из них могут являться частью, например, радиотелефона или иной составной части системы радиосвязи. Канал 95 может содержать, например, канал радиосвязи. Как показано на фиг.9, варианты осуществления устройства изменения по фиг.3-8 могут быть реализованы в устройстве декодирования, либо, как описано выше со ссылками на фиг.5 и 6, могут быть распределены между устройством кодирования и устройством декодирования (см. пунктирные линии).FIG. 9 shows an example of a voice communication system in which embodiments of the device for changing comfort noise parameters of FIGS. 3 to 8 can be implemented. The transmitter (TX) comprises a
Для специалистов в данной области техники очевидно, что приведенные на фиг.3-9 варианты осуществления могут быть легко реализованы в обычных устройствах кодирования-декодирования речи, например, посредством надлежащих видоизменений программного обеспечения и/или аппаратных средств.It will be apparent to those skilled in the art that the embodiments shown in FIGS. 3 through 9 can be easily implemented in conventional speech encoding-decoding devices, for example, by appropriate modifications of software and / or hardware.
Описанное выше изобретение улучшает естественность фонового шума (без выделения дополнительной ширины полосы частот или дополнительных затрат мощности в некоторых вариантах осуществления). Это позволяет реализовать в устройствах кодирования-декодирования речи более незаметное и, следовательно, более приемлемое для человеческого уха переключение между режимами наличия речи и отсутствия речи.The invention described above improves the naturalness of background noise (without highlighting additional bandwidth or additional power costs in some embodiments). This allows you to implement in devices encoding-decoding of speech more invisible and, therefore, more acceptable for the human ear, switching between the modes of speech presence and absence of speech.
Несмотря на то, что подробное описание было приведено выше для вариантов осуществления настоящего изобретения, служащих в качестве примеров, это не ограничивает объем изобретения, которое может быть реализовано на практике в различных вариантах осуществления.Although the detailed description has been given above for embodiments of the present invention, serving as examples, this does not limit the scope of the invention, which can be practiced in various embodiments.
Claims (26)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10955598P | 1998-11-23 | 1998-11-23 | |
US60/109,555 | 1998-11-23 | ||
US09/391,768 | 1999-09-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2001117232A RU2001117232A (en) | 2003-06-10 |
RU2237296C2 true RU2237296C2 (en) | 2004-09-27 |
Family
ID=33434391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2001117232/09A RU2237296C2 (en) | 1998-11-23 | 1999-11-08 | Method for encoding speech with function for altering comfort noise for increasing reproduction precision |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2237296C2 (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2454737C2 (en) * | 2008-02-19 | 2012-06-27 | Сименс Энтерпрайз Коммьюникейшнз Гмбх Унд Ко.Кг | Method and apparatus for decoding background noise information |
RU2461080C2 (en) * | 2008-02-19 | 2012-09-10 | Сименс Энтерпрайз Коммьюникейшнз Гмбх Унд Ко.Кг | Method and means for encoding background noise information |
RU2469419C2 (en) * | 2007-03-05 | 2012-12-10 | Телефонактиеболагет Лм Эрикссон (Пабл) | Method and apparatus for controlling smoothing of stationary background noise |
RU2512103C2 (en) * | 2008-07-11 | 2014-04-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Noise background, apparatus for processing noise background, method of providing noise background parameters, method of providing spectral representation of audio signal noise background, computer program and encoded audio signal |
US8949121B2 (en) | 2008-02-19 | 2015-02-03 | Unify Gmbh & Co. Kg | Method and means for encoding background noise information |
US9583114B2 (en) | 2012-12-21 | 2017-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals |
RU2648953C2 (en) * | 2013-01-29 | 2018-03-28 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Noise filling without side information for celp-like coders |
US10147432B2 (en) | 2012-12-21 | 2018-12-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Comfort noise addition for modeling background noise at low bit-rates |
RU2754497C1 (en) * | 2020-11-17 | 2021-09-02 | федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет" (ФГАОУ ВО КФУ) | Method for transmission of speech files over a noisy channel and apparatus for implementation thereof |
-
1999
- 1999-11-08 RU RU2001117232/09A patent/RU2237296C2/en active
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318117B2 (en) | 2007-03-05 | 2016-04-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for controlling smoothing of stationary background noise |
RU2469419C2 (en) * | 2007-03-05 | 2012-12-10 | Телефонактиеболагет Лм Эрикссон (Пабл) | Method and apparatus for controlling smoothing of stationary background noise |
RU2461080C2 (en) * | 2008-02-19 | 2012-09-10 | Сименс Энтерпрайз Коммьюникейшнз Гмбх Унд Ко.Кг | Method and means for encoding background noise information |
RU2454737C2 (en) * | 2008-02-19 | 2012-06-27 | Сименс Энтерпрайз Коммьюникейшнз Гмбх Унд Ко.Кг | Method and apparatus for decoding background noise information |
US8949121B2 (en) | 2008-02-19 | 2015-02-03 | Unify Gmbh & Co. Kg | Method and means for encoding background noise information |
US9711157B2 (en) | 2008-07-11 | 2017-07-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program |
US11024323B2 (en) | 2008-07-11 | 2021-06-01 | Fraunhofer-Gesellschaft zur Fcerderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and a computer program |
US8983851B2 (en) | 2008-07-11 | 2015-03-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Noise filer, noise filling parameter calculator encoded audio signal representation, methods and computer program |
US9449606B2 (en) | 2008-07-11 | 2016-09-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program |
RU2512103C2 (en) * | 2008-07-11 | 2014-04-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Noise background, apparatus for processing noise background, method of providing noise background parameters, method of providing spectral representation of audio signal noise background, computer program and encoded audio signal |
US11869521B2 (en) | 2008-07-11 | 2024-01-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and a computer program |
US9043203B2 (en) | 2008-07-11 | 2015-05-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program |
US10629215B2 (en) | 2008-07-11 | 2020-04-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program |
US9583114B2 (en) | 2012-12-21 | 2017-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals |
RU2650025C2 (en) * | 2012-12-21 | 2018-04-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals |
US10147432B2 (en) | 2012-12-21 | 2018-12-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Comfort noise addition for modeling background noise at low bit-rates |
US10339941B2 (en) | 2012-12-21 | 2019-07-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Comfort noise addition for modeling background noise at low bit-rates |
US10789963B2 (en) | 2012-12-21 | 2020-09-29 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Comfort noise addition for modeling background noise at low bit-rates |
US10269365B2 (en) | 2013-01-29 | 2019-04-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Noise filling without side information for CELP-like coders |
US10984810B2 (en) | 2013-01-29 | 2021-04-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Noise filling without side information for CELP-like coders |
RU2648953C2 (en) * | 2013-01-29 | 2018-03-28 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Noise filling without side information for celp-like coders |
RU2754497C1 (en) * | 2020-11-17 | 2021-09-02 | федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет" (ФГАОУ ВО КФУ) | Method for transmission of speech files over a noisy channel and apparatus for implementation thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7124079B1 (en) | Speech coding with comfort noise variability feature for increased fidelity | |
RU2251750C2 (en) | Method for detection of complicated signal activity for improved classification of speech/noise in audio-signal | |
US9646621B2 (en) | Voice detector and a method for suppressing sub-bands in a voice detector | |
US5812965A (en) | Process and device for creating comfort noise in a digital speech transmission system | |
RU2262748C2 (en) | Multi-mode encoding device | |
US8019599B2 (en) | Speech codecs | |
WO2001035395A1 (en) | Wide band speech synthesis by means of a mapping matrix | |
JP2002528775A (en) | Method and apparatus for adaptive band pitch search in wideband signal coding | |
US6424942B1 (en) | Methods and arrangements in a telecommunications system | |
RU2237296C2 (en) | Method for encoding speech with function for altering comfort noise for increasing reproduction precision | |
US5313554A (en) | Backward gain adaptation method in code excited linear prediction coders | |
KR100735246B1 (en) | Apparatus and method for transmitting audio signal | |
US7031913B1 (en) | Method and apparatus for decoding speech signal | |
JP2762938B2 (en) | Audio coding device | |
JPH07210199A (en) | Method and device for voice encoding |