RU2799033C1 - System and method for generating a series of high-frequency subband signals - Google Patents

System and method for generating a series of high-frequency subband signals Download PDF

Info

Publication number
RU2799033C1
RU2799033C1 RU2022126379A RU2022126379A RU2799033C1 RU 2799033 C1 RU2799033 C1 RU 2799033C1 RU 2022126379 A RU2022126379 A RU 2022126379A RU 2022126379 A RU2022126379 A RU 2022126379A RU 2799033 C1 RU2799033 C1 RU 2799033C1
Authority
RU
Russia
Prior art keywords
high frequency
signal
subband signals
frequency subband
envelope
Prior art date
Application number
RU2022126379A
Other languages
Russian (ru)
Inventor
Кристофер ЧОЭРЛИНГ
Original Assignee
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб filed Critical Долби Интернешнл Аб
Application granted granted Critical
Publication of RU2799033C1 publication Critical patent/RU2799033C1/en

Links

Images

Abstract

FIELD: computer technologies.
SUBSTANCE: invention relates to computer technology for high-frequency reconstruction/regeneration of audio signals. The technical result is to improve the quality of the high-frequency signal. The technical result is achieved by receiving a number of low-frequency subband signals; receiving a set of target energies, where each target energy covers a different target interval within the high frequency interval and is indicative of the required energy of one or more high frequency subband signals lying within the target interval; generating a plurality of high frequency subband signals from a plurality of low frequency subband signals and from a plurality of spectral gains, respectively, associated with the plurality of low frequency subband signals; and adjusting the energy of the plurality of high frequency subband signals using the set of target energies, wherein the energy adjustment of the plurality of high frequency subband signals comprises limiting the energy adjustment of the high frequency subband signals lying within the limit interval.
EFFECT: improving the quality of the high-frequency signal.
3 cl, 14 dwg

Description

ОБЛАСТЬ ТЕХНИЧЕСКОГО ПРИМЕНЕНИЯ TECHNICAL APPLICATION

Данная заявка относится к HFR (высокочастотной реконструкции/регенерации) звуковых сигналов. В частности, заявка относится к способу и системе для выполнения HFR звуковых сигналов, содержащих большие изменения в уровнях энергии в пределах низкочастотного диапазона, который используется для реконструкции высоких частот звукового сигнала.This application relates to HFR (High Frequency Reconstruction/Regeneration) of audio signals. In particular, the application relates to a method and system for performing HFR audio signals containing large changes in energy levels within the low frequency range, which is used to reconstruct the high frequencies of the audio signal.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION

Такие технологии HFR, как технология репликации спектральной полосы (SBR), позволяют значительно усовершенствовать эффективность кодирования традиционных перцептивных кодеков звуковых сигналов. HFR в сочетании с MPEG-4 Advanced Audio Coding (AAC) образует чрезвычайно эффективный кодек звукового сигнала, который уже находится в употреблении в системах XM Satellite Radio и Digital Radio Mondiale, а также стандартизован в 3GPP, DVD Forum и др. Сочетание ААС и SBR носит название aacPlus. Оно является частью стандарта MPEG-4, где именуется High Efficiency AAC Profile (HE-AAC). В общем, технология HFR может комбинироваться с любым перцептивным кодеком звукового сигнала в порядке совместимости сверху вниз и снизу вверх, что дает возможность модернизировать уже установленные системы вещания, такие как система MPEG Layer-2, применяемая в системе Eureka DAB. Способы HFR также могут комбинироваться с речевыми кодеками, что допускает широкополосную речь при сверхмалых битовых скоростях передачи данных.HFR technologies such as Spectral Band Replication (SBR) can significantly improve the coding efficiency of conventional perceptual audio codecs. HFR combined with MPEG-4 Advanced Audio Coding (AAC) forms an extremely efficient audio codec that is already in use in XM Satellite Radio and Digital Radio Mondiale systems, and is also standardized in 3GPP, DVD Forum, and others. Combination of AAC and SBR is called aacPlus. It is part of the MPEG-4 standard, where it is referred to as the High Efficiency AAC Profile (HE-AAC). In general, HFR technology can be combined with any perceptual audio codec in a top-down and bottom-up compatibility order, making it possible to upgrade existing broadcast systems such as the MPEG Layer-2 system used in the Eureka DAB system. HFR techniques can also be combined with speech codecs to enable wideband speech at ultra-low bit rates.

Основная идея, лежащая в основе HFR, представляет собой наблюдение того, что для одного и того же сигнала обычно присутствует сильная корреляция между характеристиками высокочастотного диапазона сигнала и характеристиками низкочастотного диапазона сигнала. Поэтому хорошее приближение для представления оригинального входного высокочастотного диапазона сигнала может достигаться путем преобразования сигнала из низкочастотного диапазона в высокочастотный диапазон.The basic idea behind HFR is the observation that for the same signal, there is usually a strong correlation between the characteristics of the high frequency range of the signal and the characteristics of the low frequency range of the signal. Therefore, a good approximation to represent the original input high frequency range of the signal can be achieved by converting the signal from the low frequency range to the high frequency range.

Данная концепция преобразования была установлена в документе WO 98/57436, который ссылкой включается в данный документ, как способ воссоздания высокочастотной полосы из низкочастотной полосы звукового сигнала. При использовании этой концепции может достигаться значительная экономия битовой скорости передачи данных при кодировании звука и/или речи. В дальнейшем будет делаться отсылка к кодированию звука, однако следует отметить, что описанные способы и системы в равной мере применимы для кодирования речи и в унифицированном кодировании речи и звука (USAC).This transformation concept was established in WO 98/57436, which is incorporated herein by reference, as a method of recreating a high frequency band from a low frequency band of an audio signal. By using this concept, significant bit rate savings can be achieved when encoding audio and/or speech. In the following, reference will be made to audio coding, however, it should be noted that the described methods and systems are equally applicable to speech coding and unified speech and audio coding (USAC).

Высокочастотная реконструкция может выполняться во временной области или в частотной области с использованием выбранного блока фильтров или преобразования. Этот процесс обычно включает несколько этапов, где две главные операции заключается в том, чтобы вначале создать сигнал возбуждения высоких частот, в затем придать сигналу возбуждения высоких частот форму, приближенную к огибающей спектра оригинального спектра высоких частот. Этап создания сигнала возбуждения высоких частот может, например, основываться на модуляции сигнала с одной боковой полосой (SSB), где синусоида с частотой

Figure 00000001
отображается в синусоиду с частотой
Figure 00000002
, где
Figure 00000003
— фиксированный сдвиг частоты. Иными словами, высокочастотный сигнал может генерироваться из низкочастотного сигнала при помощи операции «копирования вверх» низкочастотных поддиапазонов до высокочастотных поддиапазонов. Дальнейший подход к созданию сигнала возбуждения высоких частот может включать гармоническое преобразование низкочастотных поддиапазонов. Гармоническое преобразование порядка Т, как правило, предназначается для отображения синусоиды с частотой
Figure 00000001
низкочастотного сигнала в синусоиду высокочастотного сигнала с частотой
Figure 00000004
, где Т>1.The high frequency reconstruction may be performed in the time domain or in the frequency domain using a selected filter bank or transform. This process usually involves several steps, where the two main operations are to first create a high frequency excitation signal, and then to shape the high frequency excitation signal into a shape that approximates the spectrum envelope of the original high frequency spectrum. The step of creating a high frequency excitation signal may, for example, be based on single sideband (SSB) signal modulation, where a sinusoid with frequency
Figure 00000001
mapped to a sinusoid with a frequency
Figure 00000002
, Where
Figure 00000003
is a fixed frequency shift. In other words, a high frequency signal can be generated from a low frequency signal by copying up the low frequency subbands to the high frequency subbands. A further approach to creating a high frequency excitation signal may involve harmonic transposition of the low frequency subbands. The harmonic transformation of the order T is usually intended to display a sinusoid with a frequency
Figure 00000001
low-frequency signal into a sinusoid of a high-frequency signal with a frequency
Figure 00000004
, where T >1.

Технология HFR может применяться как часть систем кодирования источника, где классифицированная управляющая информация, предназначенная для управления процессом HFR, передается из кодера в декодер наряду с представлением узкополосного/низкочастотного сигнала. Для систем, в которых нельзя передать дополнительный управляющий сигнал, процесс может применяться на стороне декодера с подходящими управляющими данными, оцененными на стороне декодера исходя из доступной информации.HFR technology can be used as part of source encoding systems where classified control information for controlling the HFR process is passed from an encoder to a decoder along with a narrowband/low frequency signal representation. For systems where an additional control signal cannot be transmitted, the process can be applied at the decoder side with the appropriate control data estimated at the decoder side based on the available information.

Вышеупомянутая регулировка огибающей сигнала возбуждения высоких частот нацелена на совершенствование формы спектра, которая имеет сходство с оригинальной высокочастотной полосой. Для осуществления этой регулировки должна модифицироваться форма спектра высокочастотного сигнала. Иными словами, регулировка, которая предназначена для применения к высокочастотной полосе, является функцией существующей огибающей спектра и требуемой целевой огибающей спектра.The aforementioned high frequency drive envelope adjustment aims to improve the shape of the spectrum that resembles the original high frequency band. To implement this adjustment, the shape of the spectrum of the high-frequency signal must be modified. In other words, the adjustment that is intended to be applied to the high frequency band is a function of the existing spectrum envelope and the desired target spectrum envelope.

Для систем, действующих в частотной области, например, в системах HFR, реализованных в блоке псевдо-QMF-фильтров, способы на текущем уровне техники являются в этом отношении субоптимальными, поскольку создание сигнала высокочастотной полосы посредством комбинирования нескольких вкладов из исходного диапазона частот вносит в высокочастотную полосу, которая подвергается регулировке огибающей, неестественную огибающую спектра. Иными словами, высокочастотная полоса, или высокочастотный сигнал, генерируемый из низкочастотного сигнала в ходе процесса HFR, как правило, проявляет неестественную огибающую спектра (как правило, включающую разрывы спектра). Это представляет трудности для регулятора огибающей спектра, поскольку регулятор должен не только иметь возможность применять требуемую огибающую спектра с надлежащей разрешающей способностью по времени и по частоте, но и должен иметь возможность отменять спектральные характеристики, искусственно внесенные генератором сигнала HFR. Это представляет сложные проектные ограничения для регулятора огибающей. В результате данные трудности склонны приводить к доступной для восприятия потере энергии высоких частот и к слышимым разрывам в форме спектра сигнала высокочастотной полосы, в частности, для сигналов речевого типа. Иными словами, традиционные генераторы сигнала HFR склонны к внесению разрывов и изменений уровня в сигнал высокочастотной полосы для сигналов, которые обладают значительными изменениями в уровне в пределах низкочастотного диапазона, например, для шипящих сигналов. Когда к такому сигналу высокочастотной полосы затем получает доступ регулятор огибающей, он не может непротиворечиво и обоснованно отделить вновь внесенный разрыв от какой-либо естественной спектральной характеристики сигнала низкочастотной полосы. For systems operating in the frequency domain, such as HFR systems implemented in a pseudo-QMF filter bank, the methods of the current state of the art are suboptimal in this regard, since creating a high band signal by combining multiple contributions from the original frequency band introduces a high frequency band into the high band. the band that is subjected to envelope adjustment, the unnatural envelope of the spectrum. In other words, the high frequency band or high frequency signal generated from the low frequency signal during the HFR process typically exhibits an unnatural spectrum envelope (typically including spectrum discontinuities). This presents difficulties for the spectrum envelope controller, since the controller must not only be able to apply the desired spectrum envelope with the proper time and frequency resolution, but must also be able to cancel the spectral characteristics artificially introduced by the HFR signal generator. This introduces complex design constraints for the envelope control. As a result, these difficulties tend to result in a perceptible loss of high frequency energy and audible discontinuities in the spectral shape of the high band signal, particularly for speech type signals. In other words, conventional HFR signal generators tend to introduce discontinuities and level changes in the high band signal for signals that have significant level changes within the low frequency range, such as hissing signals. When such a high band signal is then accessed by an envelope controller, it cannot consistently and reasonably separate the newly introduced discontinuity from any natural spectral response of the low band signal.

Настоящий документ описывает решение вышеупомянутой проблемы, которое в результате приводит к повышенному воспринимаемому качеству звука. В частности, настоящий документ описывает решение проблемы генерирования сигнала высокочастотной полосы из сигнала низкочастотной полосы, где огибающая спектра сигнала высокочастотной полосы эффективно регулируется так, чтобы она имела сходство с оригинальной огибающей спектра в высокочастотной полосе без внесения нежелательных артефактов.The present document describes a solution to the aforementioned problem, which results in improved perceived audio quality. In particular, the present document describes a solution to the problem of generating a high band signal from a low band signal, where the spectral envelope of the high band signal is effectively adjusted to resemble the original spectral envelope in the high band without introducing unwanted artifacts.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯBRIEF DESCRIPTION OF THE INVENTION

Настоящий документ предлагает дополнительный этап коррекции как часть генерирования сигнала высокочастотной реконструкции. В результате дополнительного этапа коррекции улучшается качество звукового сигнала высокочастотной составляющей, или высокочастотного сигнала. Дополнительный этап коррекции может применяться ко всем системам кодирования источника, которые используют способы высокочастотной реконструкции, а также к любому единичному законченному способу или системе постобработки, которая нацелена на воссоздание высоких частот звукового сигнала.The present document proposes an additional correction step as part of high frequency reconstruction signal generation. As a result of the additional correction step, the quality of the audio signal of the high frequency component, or high frequency signal, is improved. The additional correction step can be applied to all source encoding systems that use high frequency reconstruction techniques, as well as to any single complete method or post-processing system that aims to recreate the high frequencies of an audio signal.

Согласно одной из особенностей, описывается система, сконфигурированная для генерирования ряда сигналов высокочастотных поддиапазонов, покрывающих высокочастотный интервал. Система может конфигурироваться для генерирования ряда сигналов высокочастотных поддиапазонов исходя из ряда сигналов низкочастотных поддиапазонов. Ряд сигналов низкочастотных поддиапазонов может представлять собой сигналы поддиапазонов низкочастотной полосы звукового сигнала, или узкополосного звукового сигнала, которые можно определить с использованием блока анализирующих фильтров или преобразования. В частности, ряд сигналов низкочастотных поддиапазонов можно определить из сигнала низкочастотной полосы во временной области с использованием блока анализирующих QMF-фильтров (квадратурных зеркальных фильтров) или FFT (быстрого преобразования Фурье). Ряд генерируемых сигналов высокочастотных поддиапазонов может соответствовать приближению к сигналам высокочастотных поддиапазонов оригинального звукового сигнала, из которого был получен ряд сигналов низкочастотных поддиапазонов. В частности, ряд сигналов низкочастотных поддиапазонов и ряд (ре-)генерированных высокочастотных поддиапазонов могут соответствовать поддиапазонам блока QMF-фильтров и/или FFT-преобразования.In one aspect, a system is described that is configured to generate a number of high frequency subband signals covering a high frequency interval. The system may be configured to generate a plurality of high frequency subband signals from a plurality of low frequency subband signals. The set of low-frequency subband signals may be low-band audio or narrow-band audio subband signals that can be determined using an analysis filter bank or transform. In particular, a number of low frequency subband signals can be determined from the low frequency band signal in the time domain using a QMF (Quadrature Mirror Filter) or FFT (Fast Fourier Transform) analysis filter bank. The set of generated high frequency subband signals may correspond to an approximation of the high frequency subband signals of the original audio signal from which the set of low frequency subband signals was derived. In particular, a number of low frequency subband signals and a number of (re-)generated high frequency subbands may correspond to subbands of the QMF filter bank and/or FFT transform.

Система может включать средства для приема ряда сигналов низкочастотных поддиапазонов. В качестве таковой система может размещаться в нисходящем направлении относительно блока анализирующих фильтров или преобразования, которое генерирует ряд сигналов низкочастотных поддиапазонов из сигнала низкочастотной полосы. Сигнал низкочастотной полосы может представлять собой звуковой сигнал, который был декодирован из принимаемого битового потока в базовом декодере. Битовый поток может хранится в памяти на носителе данных, например, на компакт-диске или DVD, или битовый поток может приниматься декодером через передающую среду, например, оптическую или радиопередающую среду.The system may include means for receiving a number of low frequency subband signals. As such, the system may be placed downstream of an analysis filter bank or transform that generates a number of low-frequency subband signals from a low-band signal. The low band signal may be an audio signal that has been decoded from the received bitstream at the core decoder. The bitstream may be stored in memory on a storage medium such as a CD or DVD, or the bitstream may be received by a decoder via a transmission medium such as an optical or radio transmission medium.

Система может включать средства для приема набора целевых энергий, которые также могут именоваться энергиями масштабных коэффициентов. Каждая целевая энергия может покрывать отличающийся целевой интервал, который также может именоваться полосой масштабного коэффициента, в пределах высокочастотного интервала. Как правило, набор целевых интервалов, который соответствует набору целевых энергий, полностью покрывает высокочастотный интервал. Целевая энергия из набора целевых энергий обычно служит признаком требуемой энергии для одного или нескольких сигналов высокочастотных поддиапазонов, лежащих в пределах соответствующего целевого интервала. В частности, целевая энергия может соответствовать средней требуемой энергии для одного или нескольких сигналов высокочастотных поддиапазонов, которые лежат в пределах соответствующего целевого интервала. Целевая энергия целевого интервала, как правило, получается из энергии сигнала высокочастотной полосы оригинального звукового сигнала в пределах целевого интервала. Иными словами, набор целевых энергий, как правило, описывает огибающую спектра высокочастотной части оригинального звукового сигнала.The system may include means for receiving a set of target energies, which may also be referred to as scale factor energies. Each target energy may cover a different target interval, which may also be referred to as a scalefactor band, within the high frequency interval. As a rule, a set of target intervals, which corresponds to a set of target energies, completely covers the high frequency interval. The target energy from a set of target energies is typically indicative of the required energy for one or more high frequency subband signals lying within the respective target interval. In particular, the target energy may correspond to the average required energy for one or more high frequency subband signals that lie within the respective target interval. The target energy of the target interval is generally obtained from the signal energy of the high band of the original audio signal within the target interval. In other words, the set of target energies, as a rule, describes the envelope of the spectrum of the high-frequency part of the original audio signal.

Система может включать средства для генерирования сигналов высокочастотных поддиапазонов исходя из ряда сигналов низкочастотных поддиапазонов. С этой целью, средства для генерирования ряда сигналов высокочастотных поддиапазонов могут конфигурироваться для выполнения преобразования копирования вверх для ряда сигналов низкочастотных поддиапазонов и/или для выполнения гармонического преобразования для ряда сигналов низкочастотных поддиапазонов.The system may include means for generating high frequency subband signals from a plurality of low frequency subband signals. To this end, the means for generating the plurality of high frequency subband signals may be configured to perform copy up transformation on the plurality of low frequency subband signals and/or to perform harmonic transformation on the plurality of low frequency subband signals.

Кроме того, средства для генерирования ряда сигналов высокочастотных поддиапазонов могут в ходе процесса генерирования ряда сигналов высокочастотных поддиапазонов учитывать ряд коэффициентов усиления спектра. Ряд коэффициентов усиления спектра может быть, соответственно, связан с рядом сигналов низкочастотных поддиапазонов. Иными словами, каждый сигнал низкочастотного поддиапазона из ряда сигналов низкочастотных поддиапазонов может содержать соответствующий коэффициент усиления спектра из ряда коэффициентов усиления спектра. Коэффициент усиления спектра из ряда коэффициентов усиления спектра может применяться к соответствующему сигналу низкочастотного поддиапазона.In addition, the means for generating the plurality of high frequency subband signals may take into account a plurality of spectrum gain factors during the process of generating the plurality of high frequency subband signals. A number of spectrum gains may be respectively associated with a number of low frequency subband signals. In other words, each low frequency subband signal from the set of low frequency subband signals may comprise a corresponding spectrum gain from the set of spectrum gains. A spectrum gain from a set of spectrum gains may be applied to the corresponding low band signal.

Ряд коэффициентов усиления спектра может быть связан с энергией соответствующего ряда сигналов низкочастотных поддиапазонов. В частности, каждый коэффициент усиления спектра может быть связан с энергией соответствующего ему сигнала низкочастотного поддиапазона. В одном из вариантов осуществления изобретения коэффициент усиления спектра определяется на основе энергии соответствующего сигнала низкочастотного поддиапазона. С этой целью можно на основе ряда значений энергии для ряда сигналов низкочастотных поддиапазонов определить частотно-зависимую кривую. В этом случае, способ определения ряда коэффициентов усиления может основываться на частотно-зависимой кривой, которая определяется из (например, логарифмического) представления энергий ряда сигналов низкочастотных поддиапазонов.The set of spectrum gains may be related to the energy of the corresponding set of low frequency subband signals. In particular, each spectrum gain may be associated with the energy of its corresponding low-frequency subband signal. In one embodiment of the invention, the spectrum gain is determined based on the energy of the corresponding low frequency subband signal. To this end, it is possible, on the basis of a number of energy values for a number of low-frequency subband signals, to determine a frequency-dependent curve. In this case, the method for determining the set of gains may be based on a frequency dependent curve that is determined from the (eg, logarithmic) representation of the energies of the set of low frequency subband signals.

Иными словами, ряд коэффициентов усиления спектра можно вывести из частотно-зависимой кривой, аппроксимирующей энергию ряда сигналов низкочастотных поддиапазонов. В частности, частотно-зависимая кривая может представлять собой многочлен предварительно определенного порядка/степени. В альтернативном варианте или в дополнение, частотно-зависимая кривая может включать различные отрезки кривой, где различные отрезки кривой приведены в соответствие с энергией ряда сигналов низкочастотных поддиапазонов в различных частотных интервалах. Различные отрезки кривой могут представлять собой различные многочлены предварительно определенного порядка. В одном из вариантов осуществления изобретения различные отрезки кривой представляют собой многочлены нулевого порядка, и, таким образом, отрезки кривой представляют средние значения энергии для энергии ряда сигналов низкочастотных поддиапазонов в пределах соответствующего частотного интервала. В следующем варианте осуществления изобретения частотно-зависимая кривая аппроксимируется к энергии ряда сигналов низкочастотных поддиапазонов путем выполнения операции фильтрации на основе скользящего среднего по различным частотным интервалам.In other words, a number of spectrum gains can be derived from a frequency dependent curve approximating the energy of a number of low frequency subband signals. In particular, the frequency dependent curve may be a polynomial of a predetermined order/degree. Alternatively, or in addition, the frequency dependent curve may include different curve segments, where the different curve segments are mapped to the energy of a number of low frequency subband signals in different frequency intervals. The different segments of the curve may represent different polynomials of a predetermined order. In one embodiment of the invention, the various curve segments are zero order polynomials, and thus the curve segments represent energy averages for the energy of a number of low frequency subband signals within a respective frequency interval. In a further embodiment of the invention, the frequency dependent curve is approximated to the energy of a number of low frequency subband signals by performing a moving average filtering operation over the various frequency intervals.

В одном из вариантов осуществления изобретения коэффициент усиления из ряда коэффициентов усиления выводится исходя из разности средней энергии ряда сигналов низкочастотных поддиапазонов и соответствующего значения частотно-зависимой кривой. Соответствующее значение частотно-зависимой кривой может представлять собой значение кривой на частоте, лежащей в пределах диапазона частот сигнала низкочастотного поддиапазона, которому соответствует коэффициент усиления.In one embodiment of the invention, the gain from the set of gains is derived from the difference between the average energy of the set of low frequency subband signals and the corresponding value of the frequency dependent curve. The corresponding value of the frequency-dependent curve may be the value of the curve at a frequency lying within the frequency range of the low-frequency subband signal to which the gain corresponds.

Как правило, энергия ряда сигналов низкочастотных поддиапазонов определяется в определенной временной сетке, например на покадровой основе, т.е. энергия сигнала низкочастотного поддиапазона в пределах некоторого промежутка времени, определяемого временной сеткой, соответствует средней энергии дискретных значений сигнала низкочастотного поддиапазона в пределах этого промежутка времени, например, в пределах кадра. Поэтому в выбранной временной сетке может определяться другой ряд коэффициентов усиления спектра, например, другой ряд коэффициентов усиления спектра может определяться для каждого кадра звукового сигнала. В одном из вариантов осуществления изобретения ряд коэффициентов усиления спектра может определяться на основе поочередных дискретных значений, например, путем определения энергии ряда низкочастотных поддиапазонов с использованием плавающего окна по дискретным значениям каждого сигнала низкочастотного поддиапазона. Следует отметить, что система может включать средства для определения ряда коэффициентов усиления спектра исходя из ряда сигналов низкочастотных поддиапазонов. Эти средства могут конфигурироваться для выполнения вышеупомянутых способов с целью определения ряда коэффициентов усиления спектра.As a rule, the energy of a number of low frequency subband signals is determined on a certain time grid, for example on a frame-by-frame basis, i.e. the energy of the low-frequency sub-band signal within a certain period of time defined by the time grid corresponds to the average energy of the discrete values of the low-frequency sub-band signal within this period of time, for example, within a frame. Therefore, in the selected time grid, a different set of spectrum gain factors may be determined, for example, a different set of spectrum gain factors may be determined for each frame of the audio signal. In one embodiment of the invention, a set of spectrum gain factors may be determined based on successive samples, for example, by determining the energy of a number of low frequency subbands using a floating window over the samples of each low frequency subband signal. It should be noted that the system may include means for determining a set of spectrum gains from a set of low frequency subband signals. These means may be configured to perform the above methods in order to determine a number of spectrum gain factors.

Средства для генерирования ряда сигналов высокочастотных поддиапазонов могут конфигурироваться для усиления ряда сигналов низкочастотных поддиапазонов с использованием соответствующего ряда коэффициентов усиления спектра. И хотя в нижеследующем описании делается отсылка к «усилению», операция «усиления» может замещаться другими операциями, такими как операция «умножения», операция «изменения масштаба» или операция «регулировки». Усиление может осуществляться путем умножения дискретного значения сигнала низкочастотного поддиапазона на соответствующий ему коэффициент усиления спектра. В частности, средства для генерирования ряда сигналов высокочастотных поддиапазонов могут конфигурироваться для определения дискретного значения сигнала высокочастотного поддиапазона в заданный момент времени из дискретных значений сигнала низкочастотного поддиапазона в заданный момент времени и в, по меньшей мере, один предшествующий момент времени. Кроме того, дискретные значения сигнала низкочастотного поддиапазона могут усиливаться посредством соответствующего коэффициента усиления спектра из множества коэффициентов усиления спектра. В одном из вариантов осуществления изобретения средства для генерирования ряда сигналов высокочастотных поддиапазонов конфигурируются для генерирования ряда сигналов высокочастотных поддиапазонов исходя из ряда сигналов низкочастотных поддиапазонов в соответствии с алгоритмом «копирования вверх», определенным в MPEG-4 SBR. Ряд сигналов низкочастотных поддиапазонов, применяемых в указанном алгоритме «копирования вверх» может быть усилен с использованием ряда коэффициентов усиления спектра, где операция «усиления» может выполняться так, как это описано выше.The means for generating the plurality of high frequency subband signals may be configured to amplify the plurality of low frequency subband signals using an appropriate plurality of spectrum gain factors. Although reference is made to "gain" in the following description, the "gain" operation may be replaced by other operations such as a "multiply" operation, a "zoom" operation, or an "adjust" operation. The amplification can be carried out by multiplying the discrete value of the low-frequency subband signal by the spectrum gain factor corresponding to it. In particular, means for generating a plurality of high frequency subband signals may be configured to determine a sample value of the high frequency subband signal at a given time from the samples of the low frequency subband signal at a given time and at least one prior time. In addition, the samples of the low-frequency subband signal can be amplified by the corresponding spectrum gain factor from the plurality of spectrum gain factors. In one embodiment, the means for generating a plurality of high frequency subband signals are configured to generate a plurality of high frequency subband signals from a plurality of low frequency subband signals in accordance with the "copy up" algorithm defined in the MPEG-4 SBR. The set of low frequency subband signals used in said "copy up" algorithm may be amplified using a number of spectrum gain factors, where the "gain" operation may be performed as described above.

Система может включать средства для регулировки энергии ряда сигналов высокочастотных поддиапазонов с использованием набора целевых энергий. Данная операция, как правило, именуется регулировкой огибающей спектра. Регулировка огибающей спектра может выполняться путем регулировки энергии ряда сигналов высокочастотных поддиапазонов так, чтобы средняя энергия сигналов высокочастотных поддиапазонов, лежащих в пределах целевого интервала, соответствовала соответствующей целевой энергии. Это можно выполнить путем определения значения регулировки огибающей исходя из значений энергии ряда сигналов высокочастотных поддиапазонов, лежащих в пределах целевого интервала, и из соответствующей целевой энергии. В частности, значение регулировки огибающей может определяться исходя из соотношения целевой энергии и значений энергии ряда сигналов высокочастотных поддиапазонов, лежащих в пределах соответствующего целевого интервала. Указанное значение регулировки огибающей может применяться для регулировки энергии ряда сигналов высокочастотных поддиапазонов.The system may include means for adjusting the energy of a number of high frequency subband signals using a set of target energies. This operation is generally referred to as spectrum envelope adjustment. Spectrum envelope adjustment can be performed by adjusting the energy of a number of high frequency subband signals such that the average energy of the high frequency subband signals lying within the target interval matches the corresponding target energy. This can be done by determining the envelope adjustment value from the energy values of a number of high frequency subband signals lying within the target interval and from the corresponding target energy. In particular, the envelope adjustment value may be determined based on the ratio of the target energy and the energy values of a number of high frequency subband signals lying within the corresponding target interval. The specified envelope adjustment value can be used to adjust the energy of a number of high frequency subband signals.

В одном из вариантов осуществления изобретения средства для регулировки энергии включают средства для ограничения регулировки энергии сигналов высокочастотных поддиапазонов, лежащих в пределах ограничительного интервала. Как правило, ограничительный интервал покрывает более одного целевого интервала. Средства для ограничения обычно применяются во избежание нежелательного усиления шума в пределах определенных сигналов высокочастотных поддиапазонов. Например, средства для ограничения могут конфигурироваться для определения среднего значения регулировки огибающей из значений регулировки огибающей, соответствующих целевым интервалам, покрываемым или лежащим в пределах ограничительного интервала. Кроме того, средства для ограничения могут конфигурироваться для ограничения регулировки энергии сигналов высокочастотных поддиапазонов, лежащих в пределах ограничительного интервала, до значения, пропорционального среднему значению регулировки огибающей.In one embodiment of the invention, the means for adjusting the energy include means for limiting the adjustment of the energy of the high frequency subband signals lying within the limit interval. As a rule, the limit interval covers more than one target interval. Limiting means are typically applied to avoid unwanted noise amplification within certain high frequency subband signals. For example, the clipping means may be configured to determine an average envelope adjustment value from the envelope adjustment values corresponding to target intervals covered by or within the clipping interval. In addition, the clipping means may be configured to limit the energy adjustment of the high frequency subband signals lying within the clipping interval to a value proportional to the average value of the envelope trim.

В альтернативном варианте или в дополнение, средства для регулировки энергии ряда сигналов высокочастотных поддиапазонов могут включать средства для обеспечения того, чтобы отрегулированные сигналы высокочастотных поддиапазонов, лежащие в пределах определенного целевого интервала, имели одинаковую энергию. Последние средства часто именуются средствами «интерполяции». Иными словами, средства «интерполяции» обеспечивают то, что энергия каждого из сигналов высокочастотных поддиапазонов, лежащих в пределах определенного целевого интервала, соответствует целевой энергии. Средства «интерполяции» могут быть реализованы путем регулировки каждого сигнала высокочастотного поддиапазона в пределах определенного целевого интервала по отдельности так, чтобы энергия отрегулированного сигнала высокочастотного поддиапазона соответствовала целевой энергии, связанной с определенным целевым интервалом. Это может быть выполнено путем определения отличающегося значения регулировки огибающей для каждого сигнала высокочастотного поддиапазона в пределах определенного целевого интервала. Отличающееся значение регулировки огибающей может определяться на основе энергии определенного сигнала высокочастотного поддиапазона и целевой энергии, соответствующей определенному целевому интервалу. В одном из вариантов осуществления изобретения значение регулирования огибающей для определенного сигнала высокочастотного поддиапазона определяется на основе соотношения целевой энергии и энергии определенного сигнала высокочастотного поддиапазона.Alternatively or in addition, the means for adjusting the energy of a number of high frequency subband signals may include means for ensuring that the adjusted high frequency subband signals lying within a certain target interval have the same energy. The latter means are often referred to as "interpolation" means. In other words, the "interpolation" means ensures that the energy of each of the high frequency subband signals lying within a certain target interval corresponds to the target energy. The "interpolation" means may be implemented by adjusting each high frequency subband signal within a certain target interval individually so that the energy of the adjusted high subband signal matches the target energy associated with the determined target interval. This can be done by determining a different envelope adjustment value for each high frequency subband signal within a certain target interval. The different envelope adjustment value may be determined based on the energy of the determined high frequency subband signal and the target energy corresponding to the determined target interval. In one embodiment of the invention, the envelope adjustment value for a particular high frequency subband signal is determined based on the ratio of the target energy and the energy of the determined high frequency subband signal.

Система также может включать средства для приема управляющих данных. Управляющие данные могут служить признаком того, следует ли применять для генерирования ряда сигналов высокочастотных поддиапазонов ряд коэффициентов усиления спектра. Иными словами, управляющие данные могут служить признаком того, следует выполнять дополнительную регулировку усиления сигналов низкочастотных поддиапазонов или нет. В альтернативном варианте или в дополнение, управляющие данные могут служить признаком способа, который необходимо применить для определения ряда сигналов усиления спектра. Например, управляющие данные могут служить признаком предварительно определенного порядка многочлена, который необходимо применить для определения частотно-зависимой кривой, аппроксимирующей энергии ряда сигналов низкочастотных поддиапазонов. Управляющие данные, как правило, принимаются из соответствующего кодера, который анализирует оригинальный звуковой сигнал и информирует соответствующий декодер, или систему HFR, о том, каким образом следует декодировать битовый поток.The system may also include means for receiving control data. The control data can be an indication of whether a set of spectrum gains should be applied to generate a set of high frequency subband signals. In other words, the control data can serve as an indication of whether additional gain adjustment of the low frequency subband signals should be performed or not. Alternatively, or in addition, the control data may be indicative of the method to be applied to determine the set of spectrum amplification signals. For example, the control data may be indicative of a predetermined polynomial order to be applied to determine a frequency dependent curve approximating the energies of a number of low frequency subband signals. The control data is typically received from an appropriate encoder, which parses the original audio signal and informs the appropriate decoder, or HFR system, on how to decode the bitstream.

Согласно другой особенности, описывается декодер звукового сигнала, сконфигурированный для декодирования битового потока, включающего низкочастотный звуковой сигнал и включающего набор целевых энергий, описывающих огибающую спектра высокочастотного звукового сигнала. Иными словами, описан декодер звукового сигнала, сконфигурированный для декодирования битового потока, служащего признаком низкочастотного звукового сигнала и служащего признаком набора целевых энергий, описывающих огибающую спектра высокочастотного звукового сигнала. Декодер звукового сигнала может включать базовый декодер или/и блок преобразования, сконфигурированный для определения из битового потока ряда сигналов низкочастотных поддиапазонов, связанных с низкочастотным звуковым сигналом. В альтернативном варианте или в дополнение, декодер звукового сигнала может включать блок генерирования высоких частот в соответствии с системой, описанной в настоящем документе, где система может быть сконфигурирована для определения ряда сигналов высокочастотных поддиапазонов исходя из ряда сигналов низкочастотных поддиапазонов и из набора целевых энергий. В альтернативном варианте или в дополнение, декодер может включать блок слияния и/или обратного преобразования, сконфигурированный для генерирования звукового сигнала исходя из ряда сигналов низкочастотных поддиапазонов и ряда сигналов высокочастотных поддиапазонов. Блок слияния и обратного преобразования может включать блок синтезирующих фильтров или преобразование, например, блок обратных QMF-фильтров или обратное FFT.According to another aspect, an audio signal decoder configured to decode a bit stream including a low frequency audio signal and including a set of target energies describing a spectrum envelope of a high frequency audio signal is described. In other words, an audio signal decoder configured to decode a bit stream indicative of a low frequency audio signal and indicative of a set of target energies describing a spectrum envelope of a high frequency audio signal is described. The audio signal decoder may include a base decoder and/or a transform unit configured to determine from the bitstream a number of low frequency subband signals associated with the low frequency audio signal. Alternatively or in addition, the audio decoder may include a high frequency generator in accordance with the system described herein, where the system can be configured to determine a number of high frequency subband signals from a number of low frequency subband signals and a set of target energies. Alternatively or in addition, the decoder may include a merger and/or demapper configured to generate an audio signal from a plurality of low frequency subband signals and a plurality of high frequency subband signals. The merge and inverse transform block may include a synthesis filter block or a transformation, such as an inverse QMF filter block or an inverse FFT.

Согласно следующей особенности, описывается кодер, сконфигурированный для генерирования из звукового сигнала управляющих данных. Кодер звукового сигнала может включать средства для анализа формы спектра звукового сигнала и для определения степени разрывов огибающей спектра, вносимых при регенерации высокочастотной составляющей звукового сигнала из низкочастотной составляющей звукового сигнала. В качестве такового кодер может включать определенные элементы соответствующего декодера. В частности, кодер может включать систему HFR, описываемую в настоящем документе. Это может позволять кодеру определять степень разрывов в огибающей спектра, которые могли бы вноситься в высокочастотную составляющую звукового сигнала на стороне декодера. В альтернативном варианте или в дополнение, кодер может включать средства для генерирования управляющих данных, предназначенных для управления регенерацией высокочастотной составляющей на основе степени разрывов. В частности, управляющие данные могут соответствовать управляющим данным, принимаемым соответствующим декодером системы HFR. Управляющие данные могут служить признаком того, использовать ли ряд коэффициентов усиления спектра в ходе процесса HFR, и/или того, какой предварительно определенный порядок многочлена использовать с целью определения ряда коэффициентов усиления спектра. Для того, чтобы определить указанную информацию, можно определить соотношение выбранных частей низкочастотного диапазона, т.е. диапазон частот, покрываемый рядом сигналов низкочастотных поддиапазонов. Информацию об этом соотношении можно определить, изучая самые низкие частоты в низкочастотной полосе и самые высокие частоты в низкочастотной полосе с целью оценки изменения спектра сигнала низкочастотной полосы, которое затем будет использоваться в декодере для высокочастотной реконструкции. Высокое соотношение может указывать на повышенную степень разрывности. Управляющие данные также могут определяться с использованием детекторов типа сигнала. Например, обнаружение речевых сигналов может указывать на повышенную степень разрывности. С другой стороны, обнаружение в оригинальном звуковом сигнале выраженных синусоид может вести к тому, что в ходе процесса HFR не следует применять ряд коэффициентов усиления спектра.According to the following aspect, an encoder configured to generate control data from an audio signal is described. The audio encoder may include means for analyzing the spectrum shape of the audio signal and for determining the degree of discontinuity in the spectrum envelope introduced by regenerating the high frequency component of the audio signal from the low frequency component of the audio signal. As such, the encoder may include certain elements of the corresponding decoder. In particular, the encoder may include the HFR system described herein. This may allow the encoder to determine the degree of discontinuity in the spectrum envelope that might be introduced into the high frequency component of the audio signal at the decoder side. Alternatively, or in addition, the encoder may include means for generating control data for controlling regeneration of the high frequency component based on the degree of discontinuity. In particular, the control data may correspond to the control data received by the corresponding decoder of the HFR system. The control data can be indicative of whether to use a set of spectrum gain factors during the HFR process and/or which predetermined polynomial order to use to determine the set of spectrum gain factors. In order to determine this information, it is possible to determine the ratio of the selected parts of the low frequency range, i.e. a range of frequencies covered by a number of low frequency subband signals. Information about this relationship can be determined by examining the lowest frequencies in the low band and the highest frequencies in the low band to estimate the change in the spectrum of the low band signal, which will then be used in the decoder for high frequency reconstruction. A high ratio may indicate an increased degree of discontinuity. Control data can also be determined using signal type detectors. For example, the detection of speech signals may indicate an increased degree of discontinuity. On the other hand, the detection of pronounced sinusoids in the original audio signal may lead to the fact that during the HFR process, a number of spectrum gain factors should not be applied.

Согласно другой особенности, описывается способ генерирования ряда сигналов высокочастотных поддиапазонов, покрывающего высокочастотный интервал, исходя из ряда сигналов низкочастотных поддиапазонов. Способ может включать этапы приема ряда сигналов низкочастотных поддиапазонов и/или приема набора целевых энергий. Каждая целевая энергия может покрывать отличающийся целевой интервал в пределах высокочастотного интервала. Кроме того, каждая целевая энергия может служить признаком требуемой энергии одного или нескольких сигналов высокочастотных поддиапазонов, лежащих в пределах целевого интервала. Способ может включать этап генерирования ряда сигналов высокочастотных поддиапазонов исходя из ряда сигналов низкочастотных поддиапазонов и из ряда коэффициентов усиления спектра, соответственно, связанных с рядом сигналов низкочастотных поддиапазонов. В альтернативном варианте или в дополнение, способ может включать этап регулировки энергии ряда сигналов высокочастотных поддиапазонов с использованием набора целевых энергий. Этап регулировки энергии может включать этап ограничения регулировки энергии сигналов высокочастотных поддиапазонов, лежащих в пределах ограничительного интервала. Как правило, ограничительный интервал покрывает более одного целевого интервала.In another aspect, a method for generating a plurality of high frequency subband signals covering a high frequency interval from a plurality of low frequency subband signals is described. The method may include the steps of receiving a number of low frequency subband signals and/or receiving a set of target energies. Each target energy may cover a different target interval within the high frequency interval. In addition, each target energy may be indicative of the desired energy of one or more high frequency subband signals lying within the target interval. The method may include the step of generating a plurality of high frequency subband signals from a plurality of low frequency subband signals and from a plurality of spectrum gains, respectively, associated with the plurality of low frequency subband signals. Alternatively, or in addition, the method may include the step of adjusting the energy of a number of high frequency subband signals using a set of target energies. The step of adjusting the energy may include the step of restricting the adjustment of the energy of the signals of the high frequency subbands lying within the limit interval. As a rule, the limit interval covers more than one target interval.

Согласно следующей особенности, описывается способ декодирования битового потока, служащего признаком или включающего низкочастотный звуковой сигнал и набор целевых энергий, описывающих огибающую спектра соответствующего высокочастотного звукового сигнала. Как правило, низкочастотный и высокочастотный звуковые сигналы соответствуют низкочастотной и высокочастотной составляющим одного и того же исходного звукового сигнала. Способ может включать этап определения ряда сигналов низкочастотных поддиапазонов, связанных с низкочастотным звуковым сигналом из битового потока. В альтернативном варианте или в дополнение, способ может включать этап определения ряда сигналов высокочастотных поддиапазонов исходя из ряда сигналов низкочастотных поддиапазонов и из набора целевых энергий. Этот этап, как правило, выполняется в соответствии со способами HFR, описанными в настоящем документе. Впоследствии способ может включать этап генерирования звукового сигнала исходя из ряда сигналов низкочастотных поддиапазонов и из ряда сигналов высокочастотных поддиапазонов.According to the following feature, a method for decoding a bit stream indicative of or including a low frequency audio signal and a set of target energies describing the spectral envelope of a corresponding high frequency audio signal is described. As a rule, low-frequency and high-frequency audio signals correspond to the low-frequency and high-frequency components of the same original audio signal. The method may include the step of determining a number of low frequency subband signals associated with a low frequency audio signal from the bitstream. Alternatively or in addition, the method may include the step of determining a set of high frequency subband signals from a set of low frequency subband signals and a set of target energies. This step is typically performed in accordance with the HFR methods described herein. Subsequently, the method may include the step of generating an audio signal from a plurality of low frequency subband signals and from a plurality of high frequency subband signals.

Согласно другой особенности, описывается способ генерирования управляющих данных из звукового сигнала. Способ может включать этап анализа формы спектра звукового сигнала с целью определения степени разрывов, вносимых при регенерации высокочастотной составляющей звукового сигнала из низкочастотной составляющей звукового сигнала. Кроме того, способ может включать этап генерирования управляющих данных, предназначенных для управления регенерацией высокочастотной составляющей на основе степени разрывов.According to another aspect, a method for generating control data from an audio signal is described. The method may include the step of analyzing the spectrum shape of the audio signal to determine the degree of discontinuity introduced by regenerating the high frequency component of the audio signal from the low frequency component of the audio signal. In addition, the method may include the step of generating control data for controlling the regeneration of the high frequency component based on the degree of discontinuities.

Согласно следующей особенности, описывается программа, реализованная программно. Программа, реализованная программно, может быть адаптирована для исполнения на процессоре и для выполнения этапов способов, описываемых в настоящем документе, при осуществлении на вычислительном устройстве. According to the following feature, a program implemented in software is described. A program implemented in software may be adapted to execute on a processor and to perform the steps of the methods described herein when executed on a computing device.

Согласно другой особенности, описывается носитель данных. Носитель данных может включать программу, реализованную программно, адаптированную для исполнения на процессоре и для выполнения этапов способов, описываемых в настоящем документе, при осуществлении на вычислительном устройстве.According to another aspect, a storage medium is described. The storage medium may include a program implemented in software adapted to execute on a processor and to perform the steps of the methods described herein when executed on a computing device.

Согласно следующей особенности, описывается компьютерный программный продукт. Компьютерная программа может включать исполняемые команды, предназначенные для выполнения этапов способов, описываемых в настоящем документе, при осуществлении на компьютере.According to the following feature, a computer program product is described. The computer program may include executable instructions for performing the steps of the methods described herein when implemented on a computer.

Следует отметить, что способы и системы, включая предпочтительные варианты их осуществления, как они описаны в настоящей патентной заявке, могут применяться по отдельности или в сочетании с другими способами и системами, раскрытыми в данном документе. Кроме того, все особенности способов и систем, описываемых в настоящей патентной заявке, могут произвольно комбинироваться. В частности, одни характерные признаки пунктов формулы изобретения могут произвольным образом комбинироваться с другими характерными признаками.It should be noted that the methods and systems, including their preferred embodiments, as described in this patent application, can be used alone or in combination with other methods and systems disclosed in this document. In addition, all features of the methods and systems described in this patent application can be arbitrarily combined. In particular, some characteristic features of the claims can be combined in an arbitrary manner with other characteristic features.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВBRIEF DESCRIPTION OF GRAPHICS

Ниже изобретение разъясняется посредством иллюстративных примеров с отсылкой к сопроводительным графическим материалам, гдеThe invention is explained below by means of illustrative examples with reference to the accompanying drawings, where

Фиг. 1а иллюстрирует абсолютный спектр одного из примеров сигнала высокочастотной полосы перед регулировкой огибающей спектра;Fig. 1a illustrates the absolute spectrum of one example of a high band signal before spectrum envelope adjustment;

Фиг. 1b иллюстрирует пример отношения между временными кадрами данных звукового сигнала и временными границами огибающей для огибающих спектра;Fig. 1b illustrates an example of the relationship between audio data time frames and envelope time boundaries for spectrum envelopes;

Фиг. 1с иллюстрирует абсолютный спектр одного из примеров сигнала высокочастотной полосы перед регулировкой огибающей спектра и соответствующие полосы масштабных коэффициентов, ограничительные полосы и склейки HF (высоких частот);Fig. 1c illustrates the absolute spectrum of one example of a high band signal before spectrum envelope adjustment and the corresponding scale factor bands, cutoff bands, and HF (high frequency) glues;

Фиг. 2 иллюстрирует вариант осуществления системы HFR, где к процессу копирования вверх добавлен дополнительный этап регулировки усиления;Fig. 2 illustrates an embodiment of an HFR system where an additional gain control step is added to the copy-up process;

Фиг. 3 иллюстрирует аппроксимацию грубой огибающей спектра для примера сигнала низкочастотной полосы;Fig. 3 illustrates an approximation of the coarse spectral envelope for an example lowband signal;

Фиг. 4 иллюстрирует вариант осуществления дополнительного регулятора усиления, действующего на необязательных управляющих данных, дискретных значениях QMF-поддиапазонов, и выводящего кривую усиления;Fig. 4 illustrates an embodiment of an additional gain controller operating on optional control data, QMF subband samples, and outputting a gain curve;

Фиг. 5 иллюстрирует более подробный вариант осуществления дополнительного регулятора усиления по Фиг. 4;Fig. 5 illustrates a more detailed embodiment of the additional gain control of FIG. 4;

Фиг. 6 иллюстрирует вариант осуществления системы HFR с узкополосным сигналом в качестве входного сигнала и широкополосным сигналом в качестве выходного сигнала;Fig. 6 illustrates an embodiment of an HFR system with a narrowband signal as an input signal and a wideband signal as an output signal;

Фиг. 7 иллюстрирует вариант осуществления системы HFR, включенной в модуль SBR декодера звукового сигнала;Fig. 7 illustrates an embodiment of an HFR system included in an audio decoder module SBR;

Фиг. 8 иллюстрирует вариант осуществления модуля высокочастотной реконструкции на примере декодера звукового сигнала;Fig. 8 illustrates an embodiment of a high frequency reconstruction module using an audio signal decoder as an example;

Фиг. 9 иллюстрирует вариант осуществления примера кодера;Fig. 9 illustrates an embodiment of an example encoder;

Фиг. 10a иллюстрирует спектрограмму примера вокального отрывка, который был декодирован с использованием традиционного декодера;Fig. 10a illustrates a spectrogram of an example of a vocal passage that has been decoded using a conventional decoder;

Фиг. 10b иллюстрирует спектрограмму вокального отрывка по Фиг. 10а, который был декодирован с использованием декодера, применяющего дополнительную обработку регулировки усиления; иFig. 10b illustrates a spectrogram of the vocal passage of FIG. 10a that has been decoded using a decoder applying additional gain control processing; And

Фиг. 10c иллюстрирует спектрограмму вокального отрывка по Фиг. 10а для оригинального некодированного сигнала.Fig. 10c illustrates a spectrogram of the vocal passage of FIG. 10a for the original uncoded signal.

ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯDESCRIPTION OF THE PREFERRED EMBODIMENTS

Нижеописанные варианты осуществления изобретения являются единственно иллюстрациями принципов настоящего изобретения «ОБРАБОТКА ЗВУКОВЫХ СИГНАЛОВ В ХОДЕ ВЫСОКОЧАСТОТНОЙ РЕКОНСТРУКЦИИ». Следует понимать, что модификации и изменения схем и деталей, описанных в данном документе, будут очевидны для специалистов в данной области. Поэтому намерение заключается в ограничении только объемом предстоящей формулы изобретения, а не конкретными деталями, представленными в данном документе с целью описания и разъяснения вариантов осуществления изобретения.The following embodiments of the invention are merely illustrative of the principles of the present invention "PROCESSING AUDIO SIGNALS DURING HIGH FREQUENCY RECONSTRUCTION". It should be understood that modifications and changes to the circuits and details described herein will be apparent to those skilled in the art. Therefore, the intention is to limit only the scope of the following claims and not the specific details provided herein for the purpose of describing and explaining embodiments of the invention.

Как описывалось выше, декодеры звуковых сигналов, использующие способы HFR, как правило включают блок HFR, предназначенный для генерирования высокочастотного звукового сигнала, и следующий за ним блок регулировки огибающей спектра, предназначенный для регулировки огибающей спектра высокочастотного звукового сигнала. Регулировка огибающей спектра звукового сигнала, как правило, осуществляется посредством какой-либо реализации блока фильтров или посредством фильтрации во временной области. Регулировка может либо стремиться к выполнению коррекции абсолютной огибающей спектра, либо она может выполняться посредством фильтрации, что также корректирует фазовые характеристики. Для любого пути регулировка, как правило, представляет собой сочетание двух этапов: устранения текущей огибающей спектра и наложения целевой огибающей спектра.As described above, audio decoders using HFR techniques typically include an HFR block for generating a high frequency audio signal, followed by a spectrum envelope adjuster for adjusting the spectrum envelope of the high frequency audio signal. Adjustment of the spectrum envelope of the audio signal is typically accomplished through some implementation of a filter bank or through filtering in the time domain. The adjustment may either seek to correct the absolute envelope of the spectrum, or it may be performed by filtering, which also corrects the phase characteristics. For any path, adjustment is typically a combination of two steps: removing the current spectrum envelope and overlaying the target spectrum envelope.

Важно отметить, что способы и системы, описываемые в настоящем документе, направлены не только на устранение огибающей спектра звукового сигнала. Способы и системы стремятся выполнить соответствующую спектральную коррекцию огибающей спектра сигнала низкочастотной полосы как часть этапа регенерации высоких частот так, чтобы не вносить разрывности огибающей спектра высоких частот, создаваемые при объединении различных фрагментов низкочастотной полосы, т.е. низкочастотного сигнала, смещаемых или преобразуемых в другие диапазоны частот высокочастотной полосы, т.е. высокочастотного сигнала.It is important to note that the methods and systems described herein are not only aimed at eliminating the envelope spectrum of an audio signal. The methods and systems seek to perform appropriate spectral envelope correction of the low band signal spectrum as part of the high frequency regeneration step so as not to introduce discontinuities in the high band spectrum envelope created by combining different low band fragments, i.e. low-frequency signal, shifted or converted to other frequency ranges of the high-frequency band, i.e. high frequency signal.

На Фиг. 1а показан стилистически изображенный спектр 100, 110 выходного сигнала блока HFR перед прохождением в регулятор огибающей. На верхней панели для генерирования сигнала 105 высокочастотной полосы из сигнала 101 низкочастотной полосы применяется способ копирования вверх (с двумя склейками), например, способ копирования вверх, используемый в MPEG-4 SBR (репликации спектральной полосы), который описан в документе "ISO/IEC 14496-3 Information Technology - Coding of audio-visual objects - Part 3: Audio" и который ссылкой включается в настоящий документ. Способ копирования вверх транслирует части менее высоких частот 101 в более высокие частоты 105. На нижней панели для генерирования сигнала 115 высокочастотной полосы из сигнала 111 низкочастотной полосы применяется способ гармонического преобразования (с двумя склейками), например, способ гармонического преобразования из MPEG-D USAC, который описан в документе "MPEG-D USAC: ISO/IEC 23003-3 - Unified Speech and Audio Coding" и который ссылкой включается в настоящий документ.On FIG. 1a shows a stylistically depicted spectrum 100, 110 of the HFR block's output signal before passing into the envelope controller. On the top panel, to generate the high band signal 105 from the low band signal 101, a copy-up (two-splice) method is used, such as the copy-up method used in MPEG-4 SBR (spectral band replication), which is described in the document "ISO/IEC 14496-3 Information Technology - Coding of audio-visual objects - Part 3: Audio" and which is incorporated by reference into this document. The copy-up method translates parts of the lower frequencies 101 into higher frequencies 105. In the lower panel, a harmonic transformation method (with two splices) is applied to generate the high band signal 115 from the low band signal 111, for example, the harmonic transformation method from MPEG-D USAC, which is described in "MPEG-D USAC: ISO/IEC 23003-3 - Unified Speech and Audio Coding" and which is incorporated herein by reference.

На последующем этапе регулировки огибающей на частотные составляющие 105, 115 накладывается целевая огибающая спектра. Как видно из спектра 105, 115, проходящего в регулятор огибающей, в форме спектра сигнала 105, 115 возбуждения высоких частот, т.е. сигнала высокочастотной полосы, входящего в регулятор огибающей, наблюдаются разрывы (особенно на границах склеек). Эти разрывы возникают в результате того, что для генерирования высокочастотной полосы 105, 115 используется несколько вкладов низких частот 101, 111. Как видно, форма спектра сигнала 105, 115 высокочастотной полосы связана с формой спектра сигнала 101, 111 низкочастотной полосы. Соответственно, определенные формы спектра сигнала 101, 111 низкочастотной полосы, например, градиентная форма, показанная на Фиг. 1а, могут приводить к разрывам в общем спектре 100, 110.In the subsequent envelope adjustment step, the frequency components 105, 115 are overlaid with the target spectrum envelope. As can be seen from the spectrum 105, 115 passing into the envelope controller, in the form of a spectrum of the high frequency drive signal 105, 115, i.e. of the high-frequency band signal included in the envelope control, discontinuities are observed (especially at the boundaries of the glues). These discontinuities result from multiple low frequency contributions 101, 111 being used to generate the high band 105, 115. As can be seen, the spectral shape of the high band signal 105, 115 is related to the spectral shape of the low band signal 101, 111. Accordingly, certain spectrum shapes of the low band signal 101, 111, such as the gradient shape shown in FIG. 1a can lead to discontinuities in the overall spectrum 100, 110.

В дополнение к спектру 100, 110 Фиг. 1а иллюстрирует пример частотных полос 130 данных огибающей спектра, представляющих целевую огибающую спектра. Эти частотные полосы 130 именуются полосами масштабных коэффициентов или целевыми интервалами. Как правило, целевое значение энергии, т.е. энергия масштабного коэффициента, определяется для каждого целевого интервала, т.е. для полосы масштабного коэффициента. Иными словами, полосы масштабных коэффициентов определяют эффективную разрешающую способность по частоте целевой огибающей спектра, поскольку они, как правило, представляют собой единственное целевое значение энергии, приходящееся на целевой интервал. Используя масштабные коэффициенты, или целевые энергии, заданные для полос масштабных коэффициентов, последующий регулятор огибающей стремится отрегулировать сигнал высокочастотной полосы так, чтобы энергия сигнала высокочастотной полосы в пределах полос масштабных коэффициентов была равна энергии принятых данных огибающей спектра, т.е. целевой энергии для соответствующих полос масштабных коэффициентов.In addition to the spectrum 100, 110 of FIG. 1a illustrates an example of frequency bands 130 of spectrum envelope data representing the target spectrum envelope. These frequency bands 130 are referred to as scalefactor bands or target intervals. As a rule, the target value of energy, i.e. the scale factor energy, determined for each target interval, i.e. for the scale factor band. In other words, the scale factor bands determine the effective frequency resolution of the target spectral envelope, since they typically represent a single target energy per target interval. Using the scalefactors, or target energies, specified for the scalefactor bands, the subsequent envelope adjuster seeks to adjust the highband signal so that the energy of the highband signal within the scalefactor bands is equal to the energy of the received spectrum envelope data, i.e. target energy for the respective scale factor bands.

На Фиг. 1с с использованием примера звукового сигнала представлено более подробное описание. На графике изображен спектр реального звукового сигнала 121, входящего в регулятор огибающей, а также соответствующий оригинальный сигнал 120. В данном конкретном примере диапазон SBR, т.е. диапазон высокочастотного сигнала, начинается при 6,4 кГц и продолжается на три различные репликации диапазона полосы низких частот. Частотные диапазоны различных репликаций обозначены как "склейка 1", " склейка 2" и " склейка 3". Из спектрограммы ясно видно, что склеивание вносит разрывы в огибающую спектра при, около, 6,4 кГц, 7,4 кГц и 10,8 кГц. В данном примере эти частоты соответствуют границам склейки.On FIG. 1c, using an example of an audio signal, a more detailed description is provided. The graph shows the spectrum of the actual audio signal 121 entering the envelope control, as well as the corresponding original signal 120. In this particular example, the SBR range, i.e. the high-frequency signal range starts at 6.4 kHz and continues into three different replications of the low-frequency range. The frequency ranges of the various replications are labeled "glue 1", "glue 2" and "glue 3". It is clearly seen from the spectrogram that gluing introduces discontinuities in the spectrum envelope at about 6.4 kHz, 7.4 kHz, and 10.8 kHz. In this example, these frequencies correspond to the gluing boundaries.

Фиг. 1с также иллюстрирует полосы 130 масштабных коэффициентов, а также ограничительные полосы 135, функция которых будет более подробно описана ниже. В иллюстрируемом варианте осуществления изобретения применяется регулятор огибающей MPEG-4 SBR. Данный регулятор огибающей действует с применением блока QMF-фильтров. Главными особенностями работы такого регулятора огибающей являются:Fig. 1c also illustrates scalefactor bands 130 as well as limit bands 135, the function of which will be described in more detail below. In the illustrated embodiment, an MPEG-4 SBR envelope control is used. This envelope control operates using the QMF filter block. The main features of the operation of such an envelope control are:

• вычисление средней энергии в пределах полосы 130 масштабного коэффициента входного сигнала в регулятор огибающей, т.е. сигнала, выходящего из блока HFR; иными словами, в пределах каждой полосы 130 масштабного коэффициента/каждого целевого интервала 130 вычисляется средняя энергия регенерированного сигнала высокочастотной полосы;• calculating the average energy within the scale factor band 130 of the input signal to the envelope controller, ie. a signal output from the HFR block; in other words, within each scalefactor band 130/each target interval 130, the average energy of the regenerated highband signal is calculated;

• определение величины усиления, также именуемой значением регулировки огибающей, для каждой полосы 130 масштабного коэффициента, где значение регулировки огибающей представляет собой квадратный корень из соотношения энергий между целевой энергией (т.е. целевой энергией, полученной из кодера) и средней энергией регенерированного сигнала 121 высокочастотной полосы в пределах соответствующей полосы 130 масштабного коэффициента; • determining a gain amount, also referred to as an envelope adjustment value, for each scalefactor band 130, where the envelope adjustment value is the square root of the energy ratio between the target energy (ie, the target energy obtained from the encoder) and the average energy of the regenerated signal 121 a high frequency band within the corresponding scale factor band 130;

• применение соответствующего значения регулировки огибающей к частотной полосе регенерированного сигнала 121 высокочастотной полосы, где полоса частот соответствует соответствующей полосе 130 масштабного коэффициента.• applying the appropriate envelope adjustment value to the frequency band of the regenerated high band signal 121, where the band corresponds to the corresponding scale factor band 130 .

Кроме того, регулятор огибающей может включать дополнительные этапы и изменения, в частности:In addition, the envelope control can include additional steps and changes, such as:

• ограничительную функцию, которая ограничивает максимально допустимое значение регулировки огибающей, применимое на определенной полосе частот, т.е. на ограничительной полосе 135. Максимально допустимое значение регулировки огибающей является функцией значений регулировки огибающей, определяемых для различных полос 130 масштабных коэффициентов, которые попадают в пределы ограничительной полосы 135. В частности, максимально допустимое значение регулировки огибающей является функцией среднего значений регулировки огибающей, определяемых для различных полос 130 масштабных коэффициентов, которые попадают в пределы ограничительной полосы 135. Например, максимально допустимое значение регулировки огибающей может представлять собой среднее значение соответствующих значений регулировки огибающей, умноженное на ограничительный коэффициент (такой как, например, 1,5). Ограничительная функция, как правило, применяется с целью ограничения внесения шума в регенерированный сигнал 121 высокочастотной полосы. Это особенно значимо для звуковых сигналов, включающих выраженные синусоиды, т.е. звуковых сигналов, имеющих спектр с отчетливыми пиками при определенных частотах. В отсутствие применения ограничительной функции значимые значения могли бы определяться для полос 130 масштабных коэффициентов, для которых оригинальный звуковой сигнал включает отчетливые пики. В результате полоса 130 масштабного коэффициента могла бы регулироваться полностью (а не только ее отчетливый пик), что, таким образом, вносило бы шум;
• функцию интерполяции, которая позволяет вычислять значения регулировки огибающей для каждой отдельного QMF-поддиапазона в пределах полосы масштабного коэффициента вместо вычисления единственного значения регулировки огибающей для всей полосы масштабного коэффициента. Поскольку полосы масштабных коэффициентов, как правило, включают больше одного QMF-поддиапазона, значение регулировки огибающей можно вычислить как соотношение энергии определенного QMF-поддиапазона в пределах полосы масштабного коэффициента и целевой энергии, принимаемой из кодера, вместо вычисления соотношения средней энергии для всех QMF-поддиапазонов в пределах полосы масштабного коэффициента и целевой энергии, принимаемой из кодера. Таким образом, для каждого QMF-поддиапазона в пределах полосы масштабного коэффициента можно вычислить отличающееся значение регулировки огибающей. Следует отметить, что принимаемое значение целевой энергии для полосы масштабного коэффициента, как правило, соответствует средней энергии этого диапазона частот в оригинальном сигнале. То, каким именно образом применять принимаемую среднюю целевую энергию к соответствующей частотной полосе регенерированного сигнала высокочастотной полосы, относится к работе декодера. Это может осуществляться путем применения общего значения регулировки огибающей к QMF-поддиапазонам в пределах полосы масштабного коэффициента регенерированного сигнала высокочастотной полосы или путем применения индивидуального значения регулировки огибающей к каждому QMF-поддиапазону. Последний подход можно представить, как если бы принимаемая информация об огибающей (т.е. одна целевая энергия, приходящаяся на полосу масштабного коэффициента) была «интерполирована» по QMF-поддиапазонам в пределах полосы масштабного коэффициента с целью обеспечения большей разрешающей способности по частоте. Поэтому данный подход именуется в MPEG-4 SBR «интерполяцией».
• a limiting function that limits the maximum allowable envelope adjustment value applicable in a particular frequency band, ie. on the bounding bar 135. The maximum allowable envelope adjustment value is a function of the envelope adjustment values determined for the various scale factor bands 130 that fall within the bounding band 135. In particular, the maximum allowable envelope adjustment value is a function of the average of the envelope adjustment values determined for the various scalefactor bands 130 that fall within the limit band 135. For example, the maximum allowable envelope adjustment value may be the average of the respective envelope adjustment values multiplied by a limit factor (such as, for example, 1.5). The clipping function is generally used to limit the introduction of noise into the regenerated high band signal 121 . This is especially significant for audio signals that include pronounced sinusoids, i.e. audio signals that have a spectrum with distinct peaks at certain frequencies. In the absence of a limiting function, significant values could be determined for scalefactor bands 130 for which the original audio signal includes distinct peaks. As a result, the scale factor band 130 could be fully adjusted (not just its distinct peak), thus introducing noise;
• An interpolation function that allows calculation of envelope adjustment values for each individual QMF subband within a scalefactor band instead of calculating a single envelope adjustment value for the entire scalefactor band. Since scalefactor bands typically include more than one QMF subband, the envelope adjustment value can be calculated as the ratio of the energy of a specific QMF subband within the scalefactor band and the target energy received from the encoder, instead of calculating the ratio of the average energy for all QMF subbands within the scalefactor band and the target energy received from the encoder. Thus, for each QMF subband within the scalefactor band, a different envelope adjustment value can be computed. It should be noted that the received value of the target energy for the scalefactor band, as a rule, corresponds to the average energy of this frequency band in the original signal. Exactly how to apply the received average target energy to the corresponding frequency band of the regenerated highband signal is up to the operation of the decoder. This can be done by applying a common envelope adjustment value to the QMF subbands within the scale factor band of the regenerated highband signal, or by applying an individual envelope adjustment value to each QMF subband. The latter approach can be thought of as if the received envelope information (i.e., one target energy per scalefactor band) were "interpolated" over the QMF subbands within the scalefactor band to provide greater frequency resolution. Therefore, this approach is referred to in MPEG-4 SBR as "interpolation".

Возвращаясь к Фиг. 1с, можно видеть, что регулятор огибающей должен был бы применять высокие значения регулировки огибающей с целью приведения спектра 121 сигнала, входящего в регулятор огибающей, в соответствие со спектром 120 оригинального сигнала. Также можно видеть, что по причине разрывов в пределах ограничительных полос 135 возникают большие изменения значений регулировки огибающей. В результате этих больших изменений значения регулировки огибающей, которые соответствуют локальным минимумам регенерированного спектра 121 буду ограничиваться ограничительной функцией регулятора огибающей. В результате разрывы в регенерированном спектре 121 будут сохраняться даже после выполнения операции регулировки огибающей. С другой стороны, если ограничительная функция не используется, может вноситься нежелательный шум, как это описано выше.Returning to Fig. 1c, it can be seen that the envelope controller would have to apply high envelope adjustment values in order to bring the spectrum 121 of the signal entering the envelope controller into line with the spectrum 120 of the original signal. It can also be seen that large changes in envelope adjustment values occur due to discontinuities within the limit bands 135. As a result of these large changes, envelope adjustment values that correspond to the local minima of the regenerated spectrum 121 will be limited by the limiting function of the envelope regulator. As a result, discontinuities in the regenerated spectrum 121 will persist even after the envelope adjustment operation has been performed. On the other hand, if the limiting function is not used, unwanted noise may be introduced, as described above.

Таким образом, проблема при регенерации сигнала высокочастотной полосы возникает для любого сигнала, который содержит большие изменения в уровне для диапазона низкочастотной полосы. Данная проблема возникает из-за разрывов, вносимых в ходе регенерации высоких частот высокочастотной полосы. Когда впоследствии регулятор огибающей подвергается воздействию этого регенерированного сигнала, он не может непротиворечиво и обоснованно отделить вновь внесенный разрыв от какой-либо «реальной» спектральной характеристики сигнала низкочастотной полосы. Результаты этой проблемы двояки. Во-первых, в сигнал высокочастотной полосы вносятся формы спектров, которые регулятор огибающий не может компенсировать. Соответственно, выходной сигнал имеет неправильную форму спектра. Во-вторых, по причине того, что данный эффект входит и выходит как функция спектральных характеристик низкочастотной полосы, воспринимается эффект неустойчивости.Thus, a problem in regenerating the high band signal occurs for any signal that contains large changes in level for the low band range. This problem occurs due to the discontinuities introduced during high frequency regeneration of the high frequency band. When the envelope controller is subsequently exposed to this regenerated signal, it cannot consistently and reasonably separate the newly introduced discontinuity from any "real" spectral response of the low band signal. The results of this problem are twofold. First, spectral shapes are introduced into the high-band signal that the envelope control cannot compensate for. Accordingly, the output signal has an irregular spectrum shape. Secondly, because this effect enters and exits as a function of the spectral characteristics of the low frequency band, the effect of instability is perceived.

Настоящий документ направлен на решение вышеупомянутой проблемы путем описания способа и системы, которые обеспечивают на входе регулятора огибающей сигнал высокочастотной полосы HFR, который не проявляет разрывов спектра. С этой целью предлагается устранять, или понижать, огибающую спектра сигнала низкочастотной полосы при выполнении высокочастотной регенерации. Поступая таким образом, удастся избежать внесения каких-либо разрывов спектра в сигнал высокочастотной полосы перед выполнением регулировки огибающей. В результате регулятору огибающей не придется манипулировать с указанными разрывами спектра. В частности, может применяться традиционный регулятор огибающей, где во избежание внесения шума в регенерированный сигнал высокочастотной полосы применяется ограничительная функция. Иными словами, описанные способ и система могут применяться для регенерации сигнала высокочастотной полосы HFR, содержащего небольшое количество, или не содержащего, разрывов спектра и имеющего низкий уровень шума.The present document aims to solve the above problem by describing a method and system that provides an envelope controller with an HFR high band signal that does not exhibit spectral discontinuities. To this end, it is proposed to eliminate, or lower, the spectrum envelope of the low-frequency band signal when performing high-frequency regeneration. By doing so, you will be able to avoid introducing any discontinuities in the high-band signal before making the envelope adjustment. As a result, the envelope controller does not have to manipulate the specified discontinuities in the spectrum. In particular, a conventional envelope control can be used where a clipping function is applied to avoid introducing noise into the regenerated high band signal. In other words, the described method and system can be applied to regenerate an HFR high band signal containing little or no discontinuity and having a low noise level.

Следует отметить, что разрешающая способность регулятора огибающей по времени может отличаться от разрешающей способности по времени предлагаемой обработки огибающей спектра в ходе генерирования сигнала высокочастотной полосы. Как отмечалось выше, обработка огибающей спектра в ходе регенерации сигнала высокочастотной полосы предназначена для модификации огибающей спектра сигнала низкочастотной полосы с целью облегчения обработки в последующем регуляторе огибающей. Даная обработка, т.е. модификация огибающей спектра сигнала низкочастотной полосы, может выполняться, например, один раз на кадр звукового сигнала, где регулятор огибающей может регулировать огибающую спектра по нескольким промежуткам времени, т.е. с использованием нескольких принятых огибающих спектра. Это описано на Фиг. 1b, где на верхней панели изображена временная сетка 150 данных огибающей спектра, и на нижней панели изображена временная сетка 155 для обработки огибающей спектра сигнала низкочастотной полосы в ходе регенерации сигнала высокочастотной полосы. Как видно на примере по Фиг. 1b, временные границы данных огибающей спектра изменяются во времени, в то время как обработка огибающей спектра сигнала низкочастотной полосы действует в фиксированной временной сетке. Также можно видеть, что в ходе одного цикла обработки огибающей спектра сигнала низкочастотной полосы может выполняться несколько циклов регулировки огибающей (представленных временными границами 150). В иллюстрируемом примере обработка огибающей спектра сигнала низкочастотной полосы действует на кадре на кадровой основе, что означает: для каждого кадра определяется отличающийся набор коэффициентов усиления спектра. Следует отметить, что обработка сигнала низкочастотного диапазона может действовать в любой временной сетке и что временная сетка указанной обработки необязательно должна совпадать с временной сеткой данных огибающей спектра.It should be noted that the time resolution of the envelope controller may differ from the time resolution of the proposed spectral envelope processing during highband signal generation. As noted above, the spectral envelope processing during highband signal regeneration is intended to modify the spectrum envelope of the lowband signal to facilitate processing in a subsequent envelope controller. This processing, i.e. modification of the spectrum envelope of the low band signal may be performed, for example, once per frame of the audio signal, where the envelope control may adjust the spectrum envelope over several time intervals, i.e. using several accepted spectrum envelopes. This is described in FIG. 1b, where the top panel shows a time grid 150 of the spectrum envelope data and the bottom panel shows a time grid 155 for processing the spectrum envelope of the low band signal during regeneration of the high band signal. As seen in the example of Fig. 1b, the time boundaries of the spectrum envelope data vary with time, while the spectrum envelope processing of the low band signal operates on a fixed time grid. It can also be seen that multiple envelope adjustment cycles (represented by time boundaries 150) can be performed during a single spectrum envelope processing cycle of the low band signal. In the illustrated example, the spectral envelope processing of the lowband signal operates on a frame-by-frame basis, which means that a different set of spectrum gain factors is determined for each frame. It should be noted that the low band signal processing can operate on any time grid and that the time grid of said processing need not be the same as that of the spectral envelope data.

На Фиг. 2 изображена система 200 HFR на основе блока фильтров. Система 200 HFR действует с использованием блока псевдо-QMF-фильтров, и система 200 может применяться для получения сигнала 100 с высокочастотной полосой и с низкочастотной полосой, проиллюстрированного на верхней панели Фиг. 1а. Однако добавлен дополнительный этап регулировки усиления как части процесса генерирования высоких частот, который в иллюстрируемом примере представляет собой процесс копирования вверх. Низкочастотный входной сигнал анализируется 32-полосным QMF 201 с целью генерирования ряда сигналов низкочастотных поддиапазонов. Некоторые, или все, сигналы низкочастотных поддиапазонов склеиваются в более высокочастотных положениях в соответствии с алгоритмом генерирования высоких частот (HF). Кроме того, ряд низкочастотных поддиапазонов непосредственно входят в блок 202 синтезирующих фильтров. Вышеупомянутый блок 202 синтезирующих фильтров представляет собой 64-полосный обратный QMF 202. Для конкретного применения, проиллюстрированного на Фиг. 2, применение 32-полосного блока 201 анализирующих QMF-фильтров и применение 64-полосного блока 202 синтезирующих QMF-фильтров будет приводить в выходной частоте дискретизации выходного сигнала, удвоенной относительно входной частоты дискретизации входного сигнала. Однако следует отметить, что системы, описанные в настоящем документе не ограничиваются системами с отличающимися входными и выходными частотами дискретизации. Специалисты в данной области могут представить себе множество различных соотношений частот дискретизации.On FIG. 2 shows a 200 HFR system based on a filter bank. The HFR system 200 operates using a pseudo-QMF filter bank, and the system 200 can be used to obtain the high-band and low-band signal 100 illustrated in the top panel of FIG. 1a. However, an additional gain adjustment step is added as part of the high frequency generation process, which in the illustrated example is a copy-up process. The low frequency input signal is analyzed by the 32-band QMF 201 to generate a series of low frequency subband signals. Some, or all, of the low frequency subband signals are glued together at higher frequency positions in accordance with a high frequency (HF) generation algorithm. In addition, a number of low-frequency subbands are directly included in the block 202 synthesis filters. The above synthesis filter bank 202 is a 64-band inverse QMF 202. For the specific application illustrated in FIG. 2, the use of a 32-band QMF analysis filter bank 201 and the use of a 64-band QMF synthesis filter bank 202 will result in an output sample rate of the output signal that is twice the input sample rate of the input signal. However, it should be noted that the systems described herein are not limited to systems with different input and output sample rates. Those skilled in the art can imagine many different ratios of sampling rates.

Как описано на Фиг. 2, поддиапазоны с менее высокими частотами отображаются в поддиапазоны с более высокими частотами. Этап 204 регулировки усиления вводится как часть этого процесса копирования вверх. Созданный высокочастотный сигнал, т.е. сгенерированный ряд сигналов высокочастотных поддиапазонов, является входным в регулятор 203 огибающей (который, возможно, включает ограничительную функцию и/или функцию интерполяции) перед объединением с рядом сигналов низкочастотных поддиапазонов в блоке 202 синтезирующих фильтров. Путем применения такой системы 200 HFR и, в частности, путем применения этапа 204 регулировки усиления можно избежать внесения разрывов огибающей спектра, показанных на Фиг. 1. С этой целью этап 204 регулировки огибающей модифицирует огибающую спектра ряда сигналов низкочастотных поддиапазонов так, чтобы модифицированный сигнал низкочастотной полосы мог использоваться для генерирования сигнала высокочастотной полосы, т.е. ряда сигналов высокочастотных поддиапазонов, которые не проявляют разрывов, в особенности — разрывов на границах склейки. С отсылкой к Фиг. 1с, дополнительный этап 204 регулировки усиления обеспечивает то, что огибающая 101, 111 спектра сигнала низкочастотной полосы модифицируется так, что отсутствуют, или ограничиваются, разрывы в генерируемом сигнале 105, 115 высокочастотной полосы.As described in FIG. 2, lower frequency subbands are mapped to higher frequency subbands. The gain adjustment step 204 is introduced as part of this copy-up process. The generated high frequency signal, i.e. the generated set of high frequency subband signals is input to the envelope controller 203 (which optionally includes a limiter and/or interpolation function) before being combined with the set of low frequency subband signals in the synthesis filter bank 202 . By employing such an HFR system 200, and in particular by employing the gain control step 204, the introduction of spectral envelope discontinuities shown in FIG. 1. To this end, the envelope adjustment step 204 modifies the spectrum envelope of a number of low band signals so that the modified low band signal can be used to generate the high band signal, i. a number of high-frequency subband signals that do not show discontinuities, in particular discontinuities at the gluing boundaries. With reference to Fig. 1c, the additional gain control step 204 causes the spectrum envelope 101, 111 of the low band signal to be modified such that there are no or limited discontinuities in the generated high band signal 105, 115.

Модификация огибающей спектра сигнала низкочастотной полосы может быть выполнена путем применения кривой усиления к огибающей спектра сигнала низкочастотной полосы. Указанная кривая усиления может определяться блоком 400 определения кривой усиления, проиллюстрированным на Фиг. 4. Модуль 400 в качестве входного сигнала принимает данные 402 QMF, соответствующие сигналу низкочастотной полосы, используемому для воссоздания сигнала высокочастотной полосы. Иными словами, ряд сигналов низкочастотных поддиапазонов является входным в блок 400 определения кривой усиления. Как уже отмечалось, для генерирования сигнала высокочастотной полосы может использоваться только подмножество доступных QMF-поддиапазонов сигнала низкочастотной полосы, т.е. входным в блок 400 определения кривой усиления может быть только подмножество доступных QMF-поддиапазонов. Кроме того, модуль 400 может принимать необязательные управляющие данные 404, например, управляющие данные, отправленные из соответствующего кодера. Модуль 400 выводит кривую 403 усиления, которая предназначена для применения в ходе процесса регенерации высоких частот. В одном из вариантов осуществления изобретения кривая 403 усиления применяется к QMF-поддиапазонам сигнала низкочастотной полосы, которые используются для генерирования сигнала высокочастотной полосы. Т.е. кривая 403 усиления может применяться в процессе копирования вверх процесса HFR.Modification of the spectrum envelope of the low band signal can be performed by applying a gain curve to the spectrum envelope of the low band signal. Said gain curve may be determined by the gain curve determiner 400 illustrated in FIG. 4. The module 400 receives as input the QMF data 402 corresponding to the low band signal used to recreate the high band signal. In other words, a number of low frequency subband signals are input to the gain curve determiner 400 . As already noted, only a subset of the available QMF subbands of the low band signal can be used to generate the high band signal, i. only a subset of the available QMF subbands can be input to gain curve determiner 400 . In addition, module 400 may receive optional control data 404, such as control data sent from the associated encoder. Module 400 outputs a gain curve 403 that is intended to be applied during the high frequency regeneration process. In one embodiment, the gain curve 403 is applied to the QMF subbands of the low band signal that are used to generate the high band signal. Those. the gain curve 403 may be applied in the copy-up process of the HFR process.

Необязательные управляющие данные 404 могут включать информацию о разрешающей способности грубой огибающей спектра, которую необходимо оценить в модуле 400, и/или информацию о приемлемости применения процесса регулировки усиления. Таким образом, управляющие данные 404 могут управлять объемом дополнительной обработки в ходе процесса регулировки усиления. Управляющие данные 404 также могут запускать обход дополнительного процесса регулировки усиления, если сигналы не являются хорошо приспособленными для оценки грубой огибающей спектра, например, если сигналы включают единичные синусоиды.The optional control data 404 may include coarse spectral envelope resolution information to be estimated at module 400 and/or information on the suitability of applying the gain control process. Thus, the control data 404 can control the amount of additional processing during the gain control process. The control data 404 may also bypass the additional gain control process if the signals are not well suited for estimating the coarse spectral envelope, for example if the signals include single sine waves.

На Фиг. 5 описан более подробный вид модуля 400 по Фиг. 4. Данные 402 QMF сигнала низкочастотной полосы вводятся в блок 501 оценки огибающей, который оценивает огибающую спектра, на пример, в логарифмической шкале энергии. Огибающая спектра затем входит в модуль 502, который оценивает грубую огибающую спектра из огибающей спектра с высокой разрешающей способностью (по частоте), принятой из блока 501 оценки огибающей. В одном из вариантов осуществления изобретения это осуществляется путем аппроксимации многочлена низкого порядка, т.е. многочлена с порядком в интервале, например, 1, 2, 3, 4, к данным огибающей спектра. Грубая огибающая спектра также может определяться путем выполнения операции скользящего среднего огибающей спектра высокого разрешения по оси частот. Определение грубой огибающей 301 спектра сигнала низкочастотной полосы показано на Фиг. 3. Видно, что абсолютный спектр 302 сигнала низкочастотной полосы, т.е. энергии QMF-полос 302, аппроксимируются грубой огибающей 301 спектра, т.е. посредством частотно-зависимой кривой, аппроксимирующей огибающую спектра для ряда сигналов низкочастотных поддиапазонов. Кроме того, показано, что для генерирования сигнала высокочастотной полосы используется только 20 сигналов QMF-поддиапазонов, т.е. в процессе HFR используется только часть из 32 сигналов QMF-поддиапазонов.On FIG. 5 describes a more detailed view of the module 400 of FIG. 4. The QMF data 402 of the lowband signal is input to an envelope estimator 501, which estimates the spectrum envelope, for example, on a logarithmic energy scale. The spectrum envelope then enters a module 502 which estimates the coarse spectrum envelope from the high resolution spectrum envelope (in frequency) received from the envelope estimator 501 . In one embodiment of the invention, this is done by approximating a low order polynomial, i.e. polynomial with an order in the interval, for example, 1, 2, 3, 4, to the spectral envelope data. The coarse envelope of the spectrum can also be determined by performing a moving average operation of the envelope of the high-resolution spectrum on the frequency axis. The determination of the coarse spectrum envelope 301 of the low band signal is shown in FIG. 3. It can be seen that the absolute spectrum 302 of the low-frequency band signal, i.e. energies of the QMF bands 302 are approximated by the coarse envelope 301 of the spectrum, i. e. by means of a frequency-dependent curve approximating the envelope of the spectrum for a number of low-frequency subband signals. In addition, it is shown that only 20 QMF subband signals are used to generate the high band signal, i.e. only a portion of the 32 QMF subbands is used in the HFR process.

Способ, применяемый для определения грубой огибающей спектра из огибающей спектра высокого разрешения и, в частности, порядок многочлена, который аппроксимируется к огибающей спектра высокого разрешения, может управляться при помощи управляющих данных 404. Порядок многочлена может быть функцией размера частотного диапазона 302 сигнала низкочастотной полосы, для которого необходимо определить грубую огибающую 301 спектра, и/или функцией других параметров, относящихся к общей грубой форме спектра соответствующего частотного диапазона 302 сигнала низкочастотной полосы. Полиноминальная аппроксимация вычисляет многочлен, который аппроксимирует данные в значении среднеквадратичной погрешности. Ниже предпочтительный вариант осуществления изобретения описан посредством кода Matlab: The method used to determine the coarse spectrum envelope from the high resolution spectrum envelope, and in particular the order of the polynomial that is approximated to the high resolution spectrum envelope, may be controlled by control data 404. The order of the polynomial may be a function of the size of the frequency band 302 of the lowband signal, for which it is necessary to determine the coarse envelope 301 of the spectrum, and/or a function of other parameters related to the overall coarse shape of the spectrum of the corresponding frequency band 302 of the low band signal. The polynomial fit calculates a polynomial that fits the data in terms of the standard error. The following preferred embodiment of the invention is described by means of Matlab code:

Figure 00000005
Figure 00000005

В приведенном выше коде входными данными является огибающая спектра (LowEnv) сигнала низкочастотной полосы, полученная путем усреднения дискретных значений QMF-поддиапазонов в расчете на поддиапазон по промежутку времени, соответствующему текущему временному кадру данных, на которые действует последующий регулятор огибающей. Как отмечалось выше, обработка регулировки усиления сигнала низкочастотной полосы может выполняться в различных временных сетках. В приведенном выше примере оценочная абсолютная огибающая спектра выражается в логарифмической области. Данные аппроксимируются многочленом низкого порядка, в приведенном выше примере — многочленом порядка 3. Для данного многочлена кривая усиления (GainVec) вычисляется из разности средней энергии сигнала низкочастотной полосы и кривой (lowBandEnvSlope), полученной из многочлена, аппроксимирующего данные. В приведенном выше примере операция определения кривой усиления осуществляется в логарифмической области.In the code above, the input is the spectrum envelope (LowEnv) of the low band signal, obtained by averaging the QMF subband samples per subband over the time period corresponding to the current time frame of the data being affected by the subsequent envelope control. As noted above, the low band signal gain adjustment processing may be performed on different time grids. In the example above, the estimated absolute envelope of the spectrum is expressed in the logarithmic domain. The data is approximated by a low-order polynomial, in the example above, a polynomial of order 3. For this polynomial, the gain curve (GainVec) is calculated from the difference between the average energy of the low band signal and the curve (lowBandEnvSlope) obtained from the polynomial fitting the data. In the above example, the gain curve determination operation is carried out in the logarithmic region.

Вычисление кривой усиления выполняется блоком 503 вычисления кривой усиления. Как отмечалось выше, кривая усиления может определяться из средней энергии части сигнала низкочастотной полосы, используемой для регенерации сигнала высокочастотной полосы, и из огибающей спектра части сигнала низкочастотной полосы, используемой для регенерации сигнала высокочастотной полосы. В частности, кривая усиления может определяться из разности средней энергии и грубой огибающей спектра, представленной, например, многочленом. Т.е. вычисленный многочлен может применяться для определения кривой усиления, которая включает отдельную величину усиления, также именуемую коэффициентом усиления спектра, для каждого относящегося к ней QMF-поддиапазона сигнала низкочастотной полосы. Данная кривая усиления включает величины усиления, которые затем используются в процессе HFR.The gain curve calculation is performed by the gain curve calculator 503 . As noted above, the gain curve may be determined from the average energy of the low band signal portion used to regenerate the high band signal and from the spectral envelope of the low band signal portion used to regenerate the high band signal. In particular, the gain curve can be determined from the difference between the average energy and the coarse envelope of the spectrum, represented, for example, by a polynomial. Those. the calculated polynomial may be used to determine a gain curve that includes a single gain value, also referred to as a spectrum gain, for each associated QMF subband of the low band signal. This gain curve includes gain values that are then used in the HFR process.

В качестве примера далее описан процесс HFR-генерирования в соответствии с MPEG-4 SBR. Генерируемый HF-сигнал может быть получен по следующей формуле (см. документ MPEG-4 Part 3 (ISO/IEC 14496-3), sub-part 4, section 4.6.18.6.2, который ссылкой включается в данный документ):

Figure 00000006
,As an example, the HFR generation process according to MPEG-4 SBR is described below. The generated HF signal can be obtained from the following formula (see MPEG-4 Part 3 (ISO/IEC 14496-3), sub-part 4, section 4.6.18.6.2, which is incorporated herein by reference):
Figure 00000006
,

где р — индекс поддиапазона сигнала низкочастотной полосы, т.е. р определяет один из ряда сигналов низкочастотных поддиапазонов. Приведенную формулу генерирования HF можно заменить следующей формулой, которая в сочетании с генерированием HF выполняет регулировку усиления:

Figure 00000007
,where p is the subband index of the low band signal, i.e. p specifies one of a number of low frequency subband signals. The above formula for generating HF can be replaced by the following formula, which, in combination with generating HF, performs gain control:
Figure 00000007
,

где кривая усиления именуется preGain(p).where the gain curve is called preGain ( p ).

Дальнейшие подробности процесса копирования вверх, например, относящиеся к соотношению между р и k, определены в вышеупомянутом документе MPEG-4, Part 3. В приведенной выше формуле

Figure 00000008
обозначает дискретное значение в момент времени l сигнала низкочастотного поддиапазона, имеющего индекс поддиапазона р. Данное дискретное значение в сочетании с предшествующими дискретными значениями используется для генерирования дискретного значения сигнала высокочастотного поддиапазона
Figure 00000009
, имеющего индекс поддиапазона k.Further details of the copy-up process, such as those relating to the relationship between p and k , are defined in the aforementioned MPEG-4 Part 3 document. In the above formula,
Figure 00000008
denotes a discrete value at time l of the low-frequency subband signal having subband index p . This sample value, in combination with previous samples, is used to generate a sample value of the high-frequency subband signal.
Figure 00000009
, which has subrange index k .

Следует отметить, что особенность регулировки усиления может использоваться в любой системе высокочастотной реконструкции на основе блока фильтров. Это иллюстрируется на Фиг. 6, где настоящее изобретение является частью отдельного блока 601 HFR, который действует на узкополосный, или низкочастотный, сигнал 602 и выводит широкополосный, или высокочастотный, сигнал 604. Модуль 601 может принимать в качестве входного сигнала дополнительные управляющие данные 603, где управляющие данные 603 могут, среди прочего, определять объем обработки, применяемой для описанной регулировки усиления, а также информацию о целевой огибающей спектра сигнала высокочастотной полосы. Однако данные параметры являются лишь примерами необязательных управляющих данных 603. В одном из вариантов осуществления изобретения соответствующая информация также может быть получена из узкополосного сигнала 602, входящего в модуль 601, или при помощи других средств. Т.е. управляющие данные 603 могут быть определены в модуле 601 на основе информации, поставляемой в модуль 601. Следует отметить, что отдельный блок 601 HFR может принимать ряд сигналов низкочастотных поддиапазонов и может выводить ряд сигналов высокочастотных поддиапазонов, т.е. блоки анализирующих/синтезирующих фильтров, или преобразования, могут размещаться снаружи блока 601 HFR.It should be noted that the gain control feature can be used in any high frequency reconstruction system based on a filter bank. This is illustrated in FIG. 6, where the present invention is part of a separate HFR block 601 that operates on a narrowband, or low frequency, signal 602 and outputs a wideband, or high frequency, signal 604. Module 601 may receive additional control data 603 as input, where control data 603 may , among other things, to determine the amount of processing applied to the described gain adjustment, as well as information about the target spectrum envelope of the high band signal. However, these parameters are only examples of optional control data 603. In one embodiment of the invention, the corresponding information can also be obtained from the narrowband signal 602 included in the module 601, or by other means. Those. control data 603 may be determined in module 601 based on information supplied to module 601. analysis/synthesis filter blocks, or transforms, may be placed outside the HFR block 601.

Как уже отмечалось выше, может оказаться полезным передать сигнал об активации обработки регулировки усиления в битовом потоке из кодера в декодер. Для некоторых типов сигнала, например, для единичной синусоиды, обработка регулирования усиления может быть неподходящей, и поэтому может оказаться полезным дать возможность системе кодера/декодера выключать дополнительную обработку для того, чтобы не вносить нежелательные свойства в сигналы в подобных предельных случаях. С этой целью кодер может конфигурироваться для анализа звуковых сигналов и для генерирования управляющих данных, которые включают и выключают обработку регулировки усиления в декодере.As noted above, it may be useful to signal the activation of gain control processing in the bitstream from the encoder to the decoder. For some signal types, such as a single sine wave, gain control processing may not be appropriate, and therefore it may be useful to allow the encoder/decoder system to turn off additional processing in order not to introduce undesirable properties into signals in such extreme cases. To this end, the encoder may be configured to analyze the audio signals and to generate control data that turns on and off the gain control processing in the decoder.

На Фиг. 7 предлагаемый этап регулировки усиления включен в блок 703 высокочастотной реконструкции, который составляет часть кодека звукового сигнала. Одним из примеров такого блока 703 HFR является инструмент MPEG-4 Spectral Band Replication, применяемый как часть кодека High Efficiency AAC или MPEG-D USAC (унифицированного кодека речи и звука). В данном варианте осуществления изобретения битовый поток 704 принимается декодером 700 звукового сигнала. Битовый поток демультиплексируется в демультиплексоре 701. Часть битового потока 708, относящаяся к SBR, подается в модуль SBR или блок 703 HFR, и относящийся к базовому кодеру битовый поток 707, например, данные базового декодера AAC или USAC, направляются в модуль 702 базового кодера. Кроме того, низкочастотный, или узкополосный, сигнал 706 проходит из базового декодера 702 в блок 703 HFR. Настоящее изобретение, например, в соответствии с системой, описанной на Фиг. 2, включается в блок 703 HFR как часть процесса SBR. Блок 703 HFR с использованием обработки, описанной в настоящем документе, выводит широкополосный, или высокочастотный, сигнал 705.On FIG. 7, the proposed gain control step is included in the high frequency reconstruction block 703, which is part of the audio codec. One example of such an HFR block 703 is the MPEG-4 Spectral Band Replication tool used as part of the High Efficiency AAC or MPEG-D USAC (Unified Speech and Audio Codec) codec. In this embodiment, the bitstream 704 is received by the audio decoder 700. The bitstream is demultiplexed in the demultiplexer 701. The SBR portion of the bitstream 708 is provided to the SBR module or HFR unit 703, and the core encoder related bitstream 707, such as AAC or USAC core decoder data, is sent to the core encoder module 702. In addition, a low frequency, or narrowband, signal 706 passes from the base decoder 702 to the HFR block 703. The present invention, for example, in accordance with the system described in FIG. 2 is included in the HFR block 703 as part of the SBR process. The HFR block 703, using the processing described herein, outputs a wideband, or high frequency, signal 705.

На Фиг. 8 более подробно описан один из вариантов осуществления модуля 703 высокочастотной реконструкции. Фиг. 8 иллюстрирует, что генерирование сигнала HF (высоких частот) может быть получено из различных модулей генерирования HF в различные моменты времени. Генерирование HF может основываться либо на копирующем вверх преобразователе 803 на основе QMF, либо генерирование HF может быть основано на гармоническом преобразователе 804 на основе FFT. В обоих модулях генерирования HF-сигнала сигнал низкочастотной полосы обрабатывается 801, 802 как часть генерирования HF с целью определения кривой усиления, которая применяется в процессе копирования вверх 803 или гармонического преобразования 804. Выходные сигналы двух преобразователей селективно вводятся в регулятор 805 огибающей. Решение о том, сигнал какого из преобразователей использовать, управляется битовым потоком 704 или 708. Следует отметить, что по причине копирующей вверх сущности форма огибающей спектра сигнала низкочастотной полосы в преобразователе на основе QMF поддерживается более отчетливо, чем при использовании гармонического преобразователя. Как правило, это приводит к более выраженным разрывам огибающей спектра сигнала высокочастотной полосы при использовании преобразователей с копированием вверх. Это проиллюстрировано на верхней и нижней панелях Фиг. 1а. Соответственно, может оказаться достаточным ввести регулировку усиления только в способ копирования вверх на основе QMF, выполняемый в модуле 803. Тем не менее, применение регулировки усиления для гармонического преобразования, выполняемого в модуле 804, также может оказаться полезным.On FIG. 8 describes one embodiment of the high frequency reconstruction module 703 in more detail. Fig. 8 illustrates that HF (high frequency) signal generation can be obtained from different HF generating modules at different times. The HF generation may be based on either the QMF-based copy-up converter 803, or the HF generation may be based on the FFT-based harmonic converter 804. In both HF signal generation modules, the low band signal is processed 801, 802 as part of the HF generation to determine the gain curve that is applied in the copy up process 803 or harmonic transformation 804. The outputs of the two converters are selectively input to an envelope controller 805. The decision as to which transducer signal to use is controlled by bit stream 704 or 708. It should be noted that, due to the copy-up nature, the shape of the lowband signal spectrum envelope in a QMF-based transducer is maintained more distinctly than with a harmonic transducer. Typically, this results in more pronounced discontinuities in the spectrum envelope of the high-band signal when using copy-up transducers. This is illustrated in the top and bottom panels of FIG. 1a. Accordingly, it may be sufficient to introduce gain control only into the QMF-based copy-up method performed in module 803. However, applying gain control to the harmonic transformation performed in module 804 may also be useful.

На Фиг. 9 описан соответствующий модуль кодера. Кодер 901 может конфигурироваться для анализа определенного входного сигнала 903 и для определения объема обработки регулировки усиления, пригодной для определенного типа входного сигнала 903. В частности, кодер 901 может определять степень разрывности сигнала высокочастотного поддиапазона, которая будет вызвана блоком 703 HFR в декодере. С этой целью кодер 901 может включать блок 703 HFR или, по меньшей мере, соответствующие части блока 703 HFR. На основе анализа входного сигнала 903 могут генерироваться управляющие данные 905 для соответствующего декодера. Информация 905, касающаяся регулировки усиления, которую необходимо выполнить в декодере, объединяется в мультиплексоре 902 с битовым потоком 906 звукового сигнала, таким образом, образуя полный битовый поток 904, который передается в соответствующий декодер.On FIG. 9 describes the corresponding encoder module. The encoder 901 may be configured to analyze a particular input signal 903 and to determine the amount of gain control processing suitable for a particular type of input signal 903. In particular, the encoder 901 may determine the amount of discontinuity in the high frequency subband signal that will be caused by the HFR block 703 in the decoder. To this end, encoder 901 may include an HFR block 703, or at least corresponding portions of an HFR block 703. Based on the analysis of the input signal 903, control data 905 for the corresponding decoder can be generated. Information 905 regarding the gain adjustment to be performed in the decoder is combined in the multiplexer 902 with the audio bitstream 906, thus forming a complete bitstream 904, which is transmitted to the corresponding decoder.

На Фиг. 10 показан выходной спектр реального сигнала. На Фиг. 10а изображен выходной сигнал декодера MPEG USAC, декодирующего монофонический битовый поток с битовой скоростью передачи данных 12 кбит/с. Данный отрывок реального сигнала представляет собой вокальную часть записи a cappella. Абсцисса соответствует временной оси, в то время как ордината соответствует оси частот. Сравнение спектрограммы по Фиг. 10а с Фиг. 10с, которая показывает соответствующую спектрограмму оригинального сигнала, ясно показывает наличие дыр (см. ссылочные позиции 1001, 1002), возникающих в спектре фрикативных частей вокального отрывка. На Фиг. 10b изображен выходной сигнал декодера MPEG USAC, включающего настоящее изобретение. Из спектрограммы видно, что дыры в спектре исчезли (см. ссылочные позиции 1003, 1004, соответствующие ссылочным позициям 1001, 1002).On FIG. 10 shows the output spectrum of a real signal. On FIG. 10a shows the output of an MPEG USAC decoder decoding a mono bitstream at a bit rate of 12 kbps. This snippet of the actual signal is the vocal part of the a cappella recording. The abscissa corresponds to the time axis, while the ordinate corresponds to the frequency axis. Comparison of the spectrogram of FIG. 10a from Fig. 10c, which shows the corresponding spectrogram of the original signal, clearly shows the presence of holes (see references 1001, 1002) occurring in the spectrum of the fricative parts of the vocal passage. On FIG. 10b shows the output of an MPEG USAC decoder incorporating the present invention. It can be seen from the spectrogram that the holes in the spectrum have disappeared (see references 1003, 1004 corresponding to references 1001, 1002).

Сложность предложенного алгоритма регулировки усиления вычислена как взвешенная MOPS, где такие функции, как POW/DIV/TRIG, взвешивались как 25 операций, а все остальные операции взвешивались как одна операция. При таких допущениях вычисленная сложность насчитывает, приблизительно, 0,1 WMOPS и незначительное использование RAM/ROM. Иными словами, предложенная обработка регулировки усиления требует низкой производительности обработки и памяти.The complexity of the proposed gain control algorithm is calculated as a weighted MOPS where functions such as POW/DIV/TRIG are weighted as 25 operations and all other operations are weighted as one operation. Under these assumptions, the computed complexity is approximately 0.1 WMOPS and negligible RAM/ROM usage. In other words, the proposed gain control processing requires low processing and memory performance.

В настоящем документе описаны способ и система для генерирования сигнала высокочастотной полосы из сигнала низкочастотной полосы. Способ и система адаптированы для генерирования сигнала высокочастотной полосы, содержащего небольшое количество, или не содержащего, разрывов спектра, что, таким образом, улучшает перцептивные характеристики способов и систем высокочастотной реконструкции. Способ и система могут быть легко включены в существующие системы кодирования/декодирования звуковых сигналов. В частности, способ и система могут быть включены в обработку регулировки огибающей существующих систем кодирования/декодирования звуковых сигналов без необходимости в их модификации. В особенности это относится к ограничительной функции и функции интерполирования обработки регулировки огибающей, которые могут выполнять предназначенные для них функции. Описанные способ и система как таковые могут применяться для регенерации сигналов высокочастотных полос, содержащих небольшое количество, или не содержащих, разрывов спектра и имеющих низкий уровень шума. Кроме того, описано применение управляющих данных, где управляющие данные могут использоваться для адаптации параметров описанного способа и системы (и вычислительной сложности) к типу звукового сигнала.The present document describes a method and system for generating a high band signal from a low band signal. The method and system are adapted to generate a high frequency band signal containing little or no discontinuity in the spectrum, thereby improving the perceptual performance of high frequency reconstruction methods and systems. The method and system can easily be incorporated into existing audio encoding/decoding systems. In particular, the method and system can be incorporated into the envelope adjustment processing of existing audio encoding/decoding systems without the need to modify them. In particular, this applies to the limiting function and the interpolation function of the envelope adjustment processing, which can perform their intended functions. The described method and system as such can be used to regenerate high frequency band signals with little or no discontinuity and low noise. In addition, the use of control data is described, where the control data can be used to adapt the parameters of the described method and system (and computational complexity) to the type of audio signal.

Способы и системы, описанные в настоящем документе, могут быть реализованы как программное обеспечение, встроенное программное обеспечение и/или как аппаратное обеспечение. Некоторые компоненты могут быть реализованы, например, как программное обеспечение, запускаемое на процессоре обработки цифровых сигналов или микропроцессоре. Другие компоненты могут быть реализованы, например, как аппаратное обеспечение или как специализированные интегральные микросхемы. Сигналы, встречающиеся в описанных способах и системах, могут храниться в памяти таких носителей, как память с произвольным доступом или оптические носители данных. Они могут передаваться посредством сетей, таких как радиосети, спутниковые сети, беспроводные сети или проводные сети, например, Интернет. Типичными устройствами, использующими способы и системы, описанные в настоящем документе, являются переносные электронные устройства или другое оборудование на территории пользователя, которое применяется для хранения в памяти и/или обработки звуковых сигналов. Способы и системы также могут применяться в компьютерных системах, например, на веб-серверах Интернет, которые хранят в памяти и предоставляют для загрузки звуковые сигналы, например, музыкальные сигналы.The methods and systems described herein may be implemented as software, firmware, and/or hardware. Some components may be implemented, for example, as software running on a digital signal processor or microprocessor. Other components may be implemented, for example, as hardware or as ASICs. The signals encountered in the described methods and systems may be stored in memory media such as random access memory or optical storage media. They may be transmitted over networks such as radio networks, satellite networks, wireless networks, or wired networks such as the Internet. Typical devices using the methods and systems described herein are portable electronic devices or other equipment at the user's premises that are used for memory storage and/or processing of audio signals. The methods and systems may also be applied to computer systems, such as Internet web servers, that store and make available for download audio signals, such as music signals.

Claims (11)

1. Система (601, 703), сконфигурированная для генерирования ряда звуковых сигналов (604) высокочастотных поддиапазонов, покрывающих высокочастотный интервал, исходя из ряда сигналов (602) низкочастотных поддиапазонов, где система (601, 703) содержит:1. A system (601, 703) configured to generate a set of high frequency subband audio signals (604) covering a high frequency interval based on a set of low frequency subband signals (602), where the system (601, 703) comprises: – средства для приема ряда сигналов (602) низкочастотных поддиапазонов;– means for receiving a number of signals (602) of low-frequency subbands; – средства для приема набора целевых энергий, где каждая целевая энергия покрывает отличающийся целевой интервал (130) в пределах высокочастотного интервала и служит признаком требуемой энергии одного или нескольких сигналов высокочастотных поддиапазонов, лежащих в пределах целевого интервала (130);– means for receiving a set of target energies, where each target energy covers a different target interval (130) within the high frequency interval and is indicative of the required energy of one or more high frequency subband signals lying within the target interval (130); – средства для генерирования ряда сигналов (604) высокочастотных поддиапазонов, исходя из ряда сигналов (602) низкочастотных поддиапазонов и из ряда коэффициентов усиления спектра, соответственно, связанных с рядом сигналов (602) низкочастотных поддиапазонов; и– means for generating a set of high frequency subband signals (604) from a set of low frequency subband signals (602) and from a set of spectrum gains, respectively, associated with a set of low frequency subband signals (602); And – средства для регулирования энергии (203) ряда сигналов (604) высокочастотных поддиапазонов с использованием набора целевых энергий, при этом средства для регулирования включают средства для ограничения регулирования энергии сигналов (604) высокочастотных поддиапазонов, лежащих в пределах ограничительного интервала (135).– means for regulating the energy (203) of a number of high frequency subband signals (604) using a set of target energies, the means for regulating including means for limiting the regulation of the energy of the high frequency subband signals (604) lying within the limit interval (135). 2. Способ генерирования ряда звуковых сигналов (604) высокочастотных поддиапазонов, покрывающих высокочастотный интервал, исходя из ряда сигналов (602) низкочастотных поддиапазонов, где способ включает:2. A method for generating a series of audio signals (604) of high frequency subbands covering a high frequency interval, based on a series of signals (602) of low frequency subbands, where the method includes: – прием ряда сигналов (602) низкочастотных поддиапазонов;– reception of a number of signals (602) of low-frequency subbands; – прием набора целевых энергий, где каждая целевая энергия покрывает отличающийся целевой интервал (130) в пределах высокочастотного интервала и служит признаком требуемой энергии одного или нескольких сигналов (604) высокочастотных поддиапазонов, лежащих в пределах целевого интервала (130);– receiving a set of target energies, where each target energy covers a different target interval (130) within the high frequency interval and is indicative of the required energy of one or more high frequency subband signals (604) lying within the target interval (130); – генерирование ряда сигналов (604) высокочастотных поддиапазонов, исходя из ряда сигналов (602) низкочастотных поддиапазонов и из ряда коэффициентов усиления спектра, соответственно, связанных с рядом сигналов (602) низкочастотных поддиапазонов; и– generating a set of high frequency subband signals (604) from a set of low frequency subband signals (602) and from a set of spectrum gains, respectively, associated with a set of low frequency subband signals (602); And – регулирование энергии ряда сигналов (604) высокочастотных поддиапазонов с использованием набора целевых энергий, при этом регулирование энергии ряда сигналов высокочастотных поддиапазонов включает ограничение регулирования энергии сигналов (604) высокочастотных поддиапазонов, лежащих в пределах ограничительного интервала (135).– regulation of the energy of a number of signals (604) of high frequency subbands using a set of target energies, while the regulation of the energy of a number of signals of high frequency subbands includes limiting the regulation of the energy of signals (604) of high frequency subbands lying within the limit interval (135). 3. Носитель данных, включающий программу, реализованную программно, адаптированную для исполнения на процессоре и для выполнения этапов способа по п. 2 при осуществлении на вычислительном устройстве.3. A storage medium that includes a program implemented in software, adapted for execution on a processor and for performing the steps of the method according to claim 2 when carried out on a computing device.
RU2022126379A 2010-07-19 2022-10-10 System and method for generating a series of high-frequency subband signals RU2799033C1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US61/365,518 2010-07-19
US61/386,725 2010-09-27

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2021129764A Division RU2782168C1 (en) 2010-07-19 2021-10-13 System and method for generating a number of signals of high-frequency sub-bands

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2023116208A Division RU2805938C1 (en) 2010-07-19 2023-06-20 System and method for generating series of high-frequency subband signals

Publications (1)

Publication Number Publication Date
RU2799033C1 true RU2799033C1 (en) 2023-07-03

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050149339A1 (en) * 2002-09-19 2005-07-07 Naoya Tanaka Audio decoding apparatus and method
US20050171785A1 (en) * 2002-07-19 2005-08-04 Toshiyuki Nomura Audio decoding device, decoding method, and program
US20080140405A1 (en) * 2002-06-17 2008-06-12 Grant Allen Davidson Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US20080162148A1 (en) * 2004-12-28 2008-07-03 Matsushita Electric Industrial Co., Ltd. Scalable Encoding Apparatus And Scalable Encoding Method
RU2388068C2 (en) * 2005-10-12 2010-04-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Temporal and spatial generation of multichannel audio signals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080140405A1 (en) * 2002-06-17 2008-06-12 Grant Allen Davidson Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US20050171785A1 (en) * 2002-07-19 2005-08-04 Toshiyuki Nomura Audio decoding device, decoding method, and program
US20050149339A1 (en) * 2002-09-19 2005-07-07 Naoya Tanaka Audio decoding apparatus and method
US20080162148A1 (en) * 2004-12-28 2008-07-03 Matsushita Electric Industrial Co., Ltd. Scalable Encoding Apparatus And Scalable Encoding Method
RU2388068C2 (en) * 2005-10-12 2010-04-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Temporal and spatial generation of multichannel audio signals

Similar Documents

Publication Publication Date Title
RU2758466C2 (en) System and method for generating a number of signals of high-frequency sub-bands
RU2799033C1 (en) System and method for generating a series of high-frequency subband signals
RU2782168C1 (en) System and method for generating a number of signals of high-frequency sub-bands
RU2805938C1 (en) System and method for generating series of high-frequency subband signals
RU2814460C1 (en) System and method for generating series of high-frequency subband signals