RU2409874C9 - Audio signal compression - Google Patents

Audio signal compression Download PDF

Info

Publication number
RU2409874C9
RU2409874C9 RU2008111884/09A RU2008111884A RU2409874C9 RU 2409874 C9 RU2409874 C9 RU 2409874C9 RU 2008111884/09 A RU2008111884/09 A RU 2008111884/09A RU 2008111884 A RU2008111884 A RU 2008111884A RU 2409874 C9 RU2409874 C9 RU 2409874C9
Authority
RU
Russia
Prior art keywords
signal
segments
low
frequency
low frequency
Prior art date
Application number
RU2008111884/09A
Other languages
Russian (ru)
Other versions
RU2409874C2 (en
RU2008111884A (en
Inventor
Микко ТАММИ (FI)
Микко ТАММИ
Original Assignee
Нокиа Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Нокиа Корпорейшн filed Critical Нокиа Корпорейшн
Priority to RU2008111884/09A priority Critical patent/RU2409874C9/en
Publication of RU2008111884A publication Critical patent/RU2008111884A/en
Publication of RU2409874C2 publication Critical patent/RU2409874C2/en
Application granted granted Critical
Publication of RU2409874C9 publication Critical patent/RU2409874C9/en

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

FIELD: information technology.
SUBSTANCE: to improve audio signal coding, an audio signal is divided on at least a low frequency band and a high frequency band, the high frequency band is divided into at least two high frequency subband signals and parametres are created, based on at least three segments of the low frequency band signal, which best correspond to high frequency subband signals.
EFFECT: improved coding using tonality determination.
20 cl, 10 dwg

Description

Область техникиTechnical field

Настоящее изобретение в целом относится к сжатию звуковых сигналов.The present invention generally relates to compression of audio signals.

Обзор известных технических решенийOverview of known technical solutions

Сжатие звуковых сигналов обычно используется в современных бытовых приборах для записи или передачи цифровых звуковых сигналов. Бытовые приборы могут являться средствами связи, видеоаппаратурой, звуковоспроизводящими устройствами, радиоаппаратурой и другими бытовыми устройствами. Высокие коэффициенты сжатия позволяют лучше использовать емкость запоминающего устройства или осуществлять более эффективную передачу по каналу связи, то есть по каналу радиосвязи или по каналу проводной связи. Однако одновременно с коэффициентом сжатия качество сжатого сигнала должно поддерживаться на высоком уровне. Целью кодирования звуковых сигналов обычно является максимизация качества звукового сигнала относительно заданного коэффициента сжатия, то есть скорости передачи битов.Audio compression is commonly used in modern home appliances to record or transmit digital audio signals. Household appliances can be communications, video equipment, sound reproducing devices, radio equipment and other household devices. High compression ratios make it possible to better use the storage capacity of the storage device or to carry out more efficient transmission over the communication channel, that is, over the radio communication channel or over the wire communication channel. However, at the same time as the compression ratio, the quality of the compressed signal must be maintained at a high level. The goal of encoding audio signals is usually to maximize the quality of the audio signal relative to a given compression ratio, i.e. bit rate.

За прошедшие десятилетия были разработаны многочисленные методы кодирования звуковых сигналов. Усовершенствованные системы кодирования звуковых сигналов эффективно используют характеристики человеческого уха. Основная идея заключается в том, что шумы кодирования могут быть помещены в те области сигнала, где они меньше всего затрагивают воспринимаемое качество, так, чтобы скорость передачи данных могла быть уменьшена без внесения слышимых искажений. Поэтому психоакустические теории являются важной частью современного кодирования звуковых сигналов.Over the past decades, numerous sound coding techniques have been developed. Advanced audio coding systems efficiently utilize the characteristics of the human ear. The basic idea is that coding noise can be placed in areas of the signal where it affects the perceived quality least so that the data transfer rate can be reduced without introducing audible distortion. Therefore, psychoacoustic theories are an important part of modern coding of audio signals.

В известных кодерах звуковых сигналов входной сигнал разделяется на ограниченное число субполос. Каждый из сигналов субполос может быть квантован. Из психоакустической теории известно, что самые высокие частоты в спектре при восприятии менее важны, чем низкие частоты. Это может до некоторой степени учитываться в кодере выделением для квантования субполос высоких частот меньшего числа бит, чем для субполос низких частот.In known audio encoders, the input signal is divided into a limited number of subbands. Each of the subband signals may be quantized. From psychoacoustic theory it is known that the highest frequencies in the spectrum are less important in perception than low frequencies. This can to some extent be taken into account in the encoder by allocating fewer bits to quantize the highband subbands than for the lowband subbands.

Более сложное кодирование сигналов звуковой частоты использует тот факт, что в большинстве случаев имеются сильные зависимости между низкочастотными областями и высокочастотными областями звукового сигнала, то есть верхняя половина спектра, как правило, очень сходна с нижней половиной. Низкочастотную область можно рассматривать как нижнюю половину спектра звукового сигнала, а высокочастотную область можно рассматривать как верхнюю половину спектра звукового сигнала. Должно быть понятно, что граница между низкими и высокими частотами не фиксирована, а может находиться между 2 и 15 кГц и даже вне этих границ.More complex coding of audio signals uses the fact that in most cases there are strong relationships between the low-frequency regions and the high-frequency regions of the audio signal, i.e. the upper half of the spectrum is usually very similar to the lower half. The low-frequency region can be considered as the lower half of the spectrum of the audio signal, and the high-frequency region can be considered as the upper half of the spectrum of the audio signal. It should be understood that the boundary between low and high frequencies is not fixed, but may be between 2 and 15 kHz and even outside these boundaries.

Современный подход к кодированию высокочастотной области известен как копирование спектральных полос (SBR - Spectral Band Replication). Эта технология описана в работах М.Dietz, L.Liljeryd, K.Kjörling and О.Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112th AES Convention, Munich, Germany, May, 2002 и Р.Ekstrand, "Bandwidth extension of audio signals by spectral band replication," in 1st IEEE Benelux Workshop on Model Based Processing and Coding of Audio, Leuven, Belgium, November 2002. Описанный способ может быть применен в обычных кодерах звуковых сигналов, таких, как например, кодеры формата расширенного кодирования звука (ААС - Advanced Audio Coding) или третьего уровня кодирования звука MPEG (Motion Picture Expert Group - группа экспертов по движущимся изображениям) (MPEG-1 Layer III (MP3)), и во многих других современных кодерах.A modern approach to high-frequency coding is known as Spectral Band Replication (SBR). This technology is described by M. Dietz, L. Liljeryd, K. Kjörling and O. Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112th AES Convention, Munich, Germany, May, 2002 and P. Ekstrand , "Bandwidth extension of audio signals by spectral band replication," in 1st IEEE Benelux Workshop on Model Based Processing and Coding of Audio, Leuven, Belgium, November 2002. The described method can be applied to conventional audio encoders, such as, for example, encoders for Advanced Audio Coding (AAC) or the third level of audio encoding MPEG (Motion Picture Expert Group - a group of experts on moving images) (MPEG-1 Layer III (MP3)), and many other modern encoders.

Недостаток способа согласно известному уровню техники состоит в том, что простой перенос полос низких частот в полосы высоких частот может приводить к несходству между исходными высокими частотами и их реконструкцией, использующей перенесенные низкие частоты. Другим недостатком является то, что согласно известным способам к частотному спектру должны добавляться шумовые составляющие и синусоиды.The disadvantage of the method according to the prior art is that the simple transfer of the low frequency bands to the high frequency bands can lead to a dissimilarity between the original high frequencies and their reconstruction using the transferred low frequencies. Another disadvantage is that according to known methods, noise components and sinusoids should be added to the frequency spectrum.

Поэтому целью данной заявки является предложить улучшенный способ кодирования звуковых сигналов. Другой целью данной заявки является предложить способ кодирования, представляющий входной сигнал более правильно с приемлемо низкими скоростями передачи битов.Therefore, the purpose of this application is to offer an improved method of encoding audio signals. Another purpose of this application is to propose a coding method representing the input signal more correctly with reasonably low bit rates.

Сущность изобретенияSUMMARY OF THE INVENTION

Чтобы преодолеть вышеупомянутые недостатки, согласно одному аспекту предусматривается способ кодирования звуковых сигналов с приемом входного звукового сигнала, разделением звукового сигнала по меньшей мере на полосу низких частот и полосу высоких частот, разделением полосы высоких частот по меньшей мере на сигналы двух субполос высоких частот, определением в полосе низких частот сегментов сигнала, которые лучше всего соответствуют сигналам субполос высоких частот, и формированием параметров, которые основаны по меньшей мере на сегментах сигнала полосы низких частот, лучше всего соответствующим сигналам субполос высоких частот.In order to overcome the aforementioned disadvantages, according to one aspect, there is provided a method for encoding audio signals by receiving an input audio signal, dividing the audio signal into at least a low frequency band and a high frequency band, dividing the high frequency band into at least two high frequency subband signals, as defined in the low frequency band of the signal segments that best match the high frequency subband signals, and the formation of parameters that are based at least on the entah low frequency band signal, signals corresponding best high frequency subband.

Заявка предлагает новый подход к кодированию области высоких частот входного сигнала. Входной сигнал может быть разделен на последовательные во времени кадры. Каждый из кадров представляет временной экземпляр входного сигнала. В пределах каждого кадра входной сигнал может быть представлен своими спектральными компонентами. Спектральные компоненты или отсчеты представляют частоты во входном сигнале.The application offers a new approach to coding the high-frequency region of the input signal. The input signal can be divided into sequential frames in time. Each of the frames represents a temporary instance of the input signal. Within each frame, the input signal can be represented by its spectral components. Spectral components or samples represent frequencies in the input signal.

Вместо того, чтобы вслепую транспонировать низкочастотную область в область высоких частот, максимизируется сходство между исходными и кодированными высокочастотными спектральными компонентами. Согласно изобретению высокочастотная область формируется с использованием уже кодированной низкочастотной области сигнала.Instead of blindly transposing the low-frequency region to the high-frequency region, the similarity between the original and coded high-frequency spectral components is maximized. According to the invention, a high-frequency region is formed using the already encoded low-frequency region of the signal.

Сравнением отсчетов сигнала низких частот с субполосами высоких частот принимаемого сигнала может быть найден сегмент сигнала в пределах низких частот, который лучше всего соответствует фактической субполосе высоких частот. Заявка предусматривает поиск во всем спектре низких частот отсчет за отсчетом сегмента сигнала, который наиболее похож на субполосу высоких частот. Если сегмент сигнала соответствует последовательности отсчетов, то, другими словами, заявка предусматривает нахождение последовательности отсчетов, которая лучше всего соответствует субполосе высоких частот. Последовательность отсчетов может начинаться в любом месте в полосе низких частот, за исключением того, что последняя рассматриваемая начальная точка в полосе низких частот должна быть последним отсчетом в полосе низких частот минус длина субполосы высоких частот, с которой необходимо установить соответствие.By comparing the samples of the low-frequency signal with the high-frequency subbands of the received signal, a segment of the signal within the low frequencies that best fits the actual high-frequency subband can be found. The application provides for a search in the entire spectrum of low frequencies, sample after sample of a signal segment, which is most similar to a subband of high frequencies. If the signal segment corresponds to a sequence of samples, then, in other words, the application provides for finding a sequence of samples that best corresponds to a subband of high frequencies. The sequence of samples can start anywhere in the low frequency band, except that the last considered starting point in the low frequency band should be the last sample in the low frequency band minus the length of the high frequency subband with which it is necessary to establish a correspondence.

Индекс или ссылка на сегмент сигнала низких частот, лучше всего соответствующий фактической субполосе высоких частот, может использоваться для моделирования субполосы высоких частот. Только индекс или ссылка должны быть закодированы и сохранены или переданы, чтобы позволить восстановить представление соответствующей субполосы высоких частот на приемном конце.An index or reference to the segment of the low frequency signal that best matches the actual high frequency subband can be used to model the high frequency subband. Only the index or reference should be encoded and stored or transmitted to allow the representation of the corresponding high frequency subband to be restored at the receiving end.

Согласно формам осуществления изобретения, самое похожее соответствие, то есть самая похожая форма спектра сегмента сигнала и субполосы высоких частот, отыскивается в полосе низких частот. Параметры, основанные по меньшей мере на сегменте сигнала, который найден наиболее похожим на субполосу высоких частот, создаются в кодере. Эти параметры могут содержать масштабные коэффициенты для масштабирования найденных сегментов при копировании в полосу высоких частот. На стороне декодера эти параметры используются для транспонирования соответствующих сегментов сигнала низких частот в высокочастотную область, чтобы восстановить субполосы высоких частот.According to embodiments of the invention, the most similar match, that is, the most similar spectrum shape of the signal segment and the high frequency subband, is sought in the low frequency band. Parameters based at least on the segment of the signal that is found to be most similar to the high-frequency subband are created in the encoder. These parameters may contain scale factors for scaling the found segments when copying to the high frequency band. On the decoder side, these parameters are used to transpose the corresponding segments of the low frequency signal into the high frequency region in order to restore the high frequency subbands.

Масштабирование может применяться к копируемым сегментам сигнала низких частот с помощью масштабных коэффициентов. Согласно формам осуществления изобретения, должны кодироваться только масштабные коэффициенты и ссылки на сегменты сигнала низких частот.Scaling can be applied to copied segments of a low-frequency signal using scale factors. According to embodiments of the invention, only scale factors and references to segments of the low frequency signal should be encoded.

Форма высокочастотной области более близко, чем при известных способах, повторяет исходный спектр высоких частот, когда для воссоздания субполос высоких частот используются наиболее похожие сегменты сигнала низких частот. Перцептуально важные спектральные пики могут моделироваться более точно, потому что амплитуда, форма и частотная позиция более сходны с исходным сигналом. Так как смоделированные субполосы высоких частот могут сравниваться с исходными субполосами высоких частот, можно легко обнаруживать отсутствующие спектральные компоненты, то есть синусоиды или шумы, и затем добавлять их.The shape of the high-frequency region more closely than with the known methods repeats the original high-frequency spectrum when the most similar low-frequency signal segments are used to recreate the high-frequency subbands. Perceptually important spectral peaks can be modeled more accurately because the amplitude, shape, and frequency position are more similar to the original signal. Since the simulated high-frequency subbands can be compared with the original high-frequency subbands, missing spectral components, that is, sinusoids or noise, can be easily detected and then added.

Чтобы сделать возможным формирование огибающей, формы осуществления изобретения предусматривают использование низкочастотных сегментов сигнала посредством переноса отсчетов низкочастотного сигнала в сигналы субполос высоких частот с использованием параметров, причем эти параметры содержат масштабные коэффициенты, так что огибающая перенесенных низкочастотных сегментов сигнала повторяет огибающую сигналов субполос высоких частот принимаемого сигнала. Масштабные коэффициенты позволяют корректировать энергию и форму скопированных низкочастотных сегментов сигнала для их лучшего совпадения с фактическими субполосами высоких частот.To enable envelope formation, embodiments of the invention provide for the use of low-frequency signal segments by transferring samples of the low-frequency signal to high-frequency subband signals using parameters, these parameters containing scale factors, so that the envelope of the transferred low-frequency signal segments repeats the envelope of the high-frequency subband signals of the received signal . Scale factors allow you to adjust the energy and shape of the copied low-frequency segments of the signal to better match the actual high-frequency subbands.

Согласно формам осуществления изобретения параметры могут содержать ссылки на сегменты сигнала низких частот, чтобы представлять соответствующие сигналы субполос высоких частот. Ссылки могут быть указателями или индексами для сегментов сигнала низких частот. С помощью этой информации можно ссылаться на сегменты сигнала низких частот при построении субполосы высоких частот.According to embodiments of the invention, the parameters may include references to segments of the low frequency signal to represent respective high frequency subband signals. Links can be pointers or indexes for segments of the low frequency signal. Using this information, you can refer to segments of the low-frequency signal when constructing a high-frequency subband.

Чтобы уменьшить число битов квантования, можно нормализовать огибающую сигналов субполос высоких частот. Нормализация обеспечивает то, что полосы как низких, так и высоких частот будут находиться в пределах нормализованного диапазона амплитуд. Это уменьшает число битов, необходимых для квантования масштабных коэффициентов. Информация, используемая для нормализации, должна предоставляться кодером, чтобы создавать представление субполосы высоких частот в декодере. Формы осуществления изобретения предусматривают нормализацию огибающей с помощью линейного кодирования с предсказанием. Возможна также нормализация огибающей с использованием кепстрального моделирования. Кепстральное моделирование использует обратное преобразование Фурье логарифма спектра мощности сигнала.To reduce the number of quantization bits, the envelope of the high frequency subband signals can be normalized. Normalization ensures that the bands of both low and high frequencies are within the normalized amplitude range. This reduces the number of bits needed to quantize the scale factors. The information used for normalization must be provided by the encoder in order to create a representation of the high frequency subband in the decoder. Embodiments of the invention provide for envelope normalization using linear prediction coding. Envelope normalization using cepstral modeling is also possible. Cepstral modeling uses the inverse Fourier transform of the logarithm of the signal power spectrum.

Формирование масштабных коэффициентов может включать формирование масштабных коэффициентов в линейной области так, чтобы соответствовать по меньшей мере пикам амплитуды в спектре. Согласно формам осуществления изобретения, формирование масштабных коэффициентов может включать также согласование по меньшей мере энергии и/или формы спектра в логарифмической области.The formation of scale factors may include the formation of scale factors in the linear region so as to correspond to at least amplitude peaks in the spectrum. According to embodiments of the invention, the formation of scale factors may also include matching at least the energy and / or shape of the spectrum in the logarithmic region.

Формы осуществления изобретения предусматривают формирование отсчетов сигнала в полосе низких частот и/или полосе высоких частот с использованием модифицированного дискретного косинусного преобразования (MDCT). Преобразование MDCT вычисляет коэффициенты спектра предпочтительно как вещественные числа. Преобразование MDCT согласно формам осуществления изобретения может использоваться с любыми подходящими размерами кадров, в частности, с размерами кадров 2048 отсчетов для нормальных кадров и 256 отсчетов для кадров с транзиентами (резкими переходами), а также с любым другим промежуточным значением.Embodiments of the invention provide for the formation of signal samples in the low frequency band and / or high frequency band using a modified discrete cosine transform (MDCT). The MDCT transform calculates spectrum coefficients, preferably as real numbers. The MDCT transform according to the embodiments of the invention can be used with any suitable frame sizes, in particular with frame sizes of 2048 samples for normal frames and 256 samples for frames with transients (sharp transitions), as well as any other intermediate value.

Для получения сегментов сигнала низких частот, которые лучше всего согласуются с соответствующими сигналами субполос высоких частот, формы осуществления изобретения предусматривают вычисление меры сходства с использованием нормализованной корреляции или евклидова расстояния.In order to obtain the segments of the low frequency signal that are most consistent with the corresponding high frequency subband signals, embodiments of the invention provide for calculating a measure of similarity using normalized correlation or Euclidean distance.

Чтобы кодировать входной сигнал, формы осуществления изобретения предусматривают квантование отсчетов сигнала низких частот и квантование по меньшей мере масштабных коэффициентов. Ссылка на сегмент сигнала низких частот может быть целым числом.In order to encode an input signal, embodiments of the invention provide for quantization of samples of a low frequency signal and quantization of at least scale factors. A reference to a segment of a low frequency signal may be an integer.

Для улучшения качества сигналов высоких частот возможно добавление дополнительных синусоид. Чтобы выполнить добавление таких синусоид, формы осуществления изобретения предусматривают разделение входного сигнала на последовательные во времени кадры и обнаружение тональных сегментов в пределах двух последовательных кадров во входном сигнале. Тональные сегменты могут быть улучшены добавлением дополнительных синусоид. Сегменты, которые являются в высокой степени тональными, могут быть дополнительно улучшены с помощью увеличения числа субполос высоких частот в соответствующих высокочастотных областях. Кадры входного сигнала могут быть разделены на различные группы по степени тональности, например, на нетональные, тональные и чрезвычайно тональные.To improve the quality of high-frequency signals, the addition of additional sinusoids is possible. To perform the addition of such sinusoids, embodiments of the invention provide for dividing the input signal into time-sequential frames and detecting tonal segments within two successive frames in the input signal. Tonal segments can be improved by adding additional sinusoids. Segments that are highly tonal can be further improved by increasing the number of high frequency subbands in the corresponding high frequency regions. The frames of the input signal can be divided into different groups according to the degree of tonality, for example, non-tonal, tonal and extremely tonal.

Обнаружение тональных сегментов может включать использование сдвинутого дискретного преобразования Фурье (SDFT). Результаты SDFT могут быть использованы в кодере для выполнения преобразования MDCT.Tone segment detection may include the use of shifted discrete Fourier transform (SDFT). SDFT results can be used in an encoder to perform MDCT conversion.

Другим аспектом является способ декодирования сигналов звуковой частоты путем приема кодированного битового потока, декодирования из битового потока по меньшей мере сигнала низких частот и по меньшей мере параметров, основанных на сегментах сигнала низких частот, использования отсчетов сигнала низких частот и параметров, основанных на сегментах сигнала низких частот, для восстановления по меньшей мере сигналов двух субполос высоких частот и создания выходного сигнала, содержащего по меньшей мере сигнал низких частот и по меньшей мере сигналы двух субполос высоких частот.Another aspect is a method of decoding audio signals by receiving an encoded bitstream, decoding from the bitstream at least a low frequency signal and at least parameters based on segments of a low frequency signal, using samples of a low frequency signal and parameters based on segments of a low signal frequencies, to restore at least the signals of two subbands of high frequencies and create an output signal containing at least a signal of low frequencies and at least signals of the two high-frequency subband.

Еще одним аспектом заявки является кодер для кодирования звуковых сигналов, содержащий средства приема, приспособленные для приема входного звукового сигнала, средства фильтрации, приспособленные для разделения звукового сигнала по меньшей мере на полосу низких частот и полосу высоких частот, и, кроме того, приспособленные для разделения полосы высоких частот по меньшей мере на два сигнала субполос высоких частот, а также средства кодирования, приспособленные для формирования параметров, которые основаны по меньшей мере на тех сегментах сигнала полосы низких частот, которые лучше всего соответствуют сигналам субполос высоких частот.Another aspect of the application is an encoder for encoding audio signals, comprising reception means adapted to receive an input audio signal, filtering means adapted to divide an audio signal into at least a low frequency band and a high frequency band, and furthermore adapted to separate high-frequency bands for at least two high-frequency subband signals, as well as encoding means adapted to generate parameters that are based on at least that segment Ax of the low frequency band signal that best matches the high frequency subband signals.

Еще одним аспектом заявки является декодер для декодирования звуковых сигналов, содержащий средства приема, приспособленные для приема кодированного битового потока, средства декодирования, приспособленные для декодирования из битового потока по меньшей мере сигнала низких частот и по меньшей мере параметров, основанных на сегментах сигнала низких частот, средства генерации, приспособленные для использования отсчетов сигнала низких частот и параметров, основанных на сегментах сигнала низких частот, для восстановления по меньшей мере двух сигналов субполос высоких частот.Another aspect of the application is a decoder for decoding audio signals, comprising receiving means adapted to receive an encoded bit stream, decoding means adapted to decode at least a low frequency signal and at least parameters based on segments of a low frequency signal from a bit stream, generation means adapted to use low frequency signal samples and parameters based on low frequency signal segments to recover at least e two high frequency subband signals.

Еще одним аспектом заявки является система для сжатия цифровых звуковых сигналов, содержащая описанные декодер и кодер.Another aspect of the application is a system for compressing digital audio signals containing the described decoder and encoder.

Еще один аспект заявки касается компьютерного программного продукта для кодирования звуковых сигналов, программа которого содержит команды, действующие так, чтобы заставлять процессор принимать входной звуковой сигнал, разделять звуковой сигнал по меньшей мере на полосу низких частот и полосу высоких частот, разделять полосу высоких частот по меньшей мере на два сигнала субполос высоких частот и формировать параметры на основе по меньшей мере тех сегментов сигнала полосы низких частот, которые лучше всего соответствуют сигналам субполос высоких частот.Another aspect of the application relates to a computer program product for encoding audio signals, the program of which contains instructions that act to force the processor to receive the input audio signal, divide the audio signal into at least the low frequency band and the high frequency band, and divide the high frequency band at least at least two high-frequency sub-band signals and generate parameters based on at least those segments of the low-frequency band signal that best match the sub-band signals los high frequencies.

Предлагается также компьютерный программный продукт для декодирования битовых потоков, программа которого содержит команды, действующие так, чтобы заставлять процессор принимать кодированный битовый поток, декодировать из битового потока по меньшей мере сигнал низких частот и по меньшей мере параметры, основанные на сегментах сигнала низких частот, использовать отсчеты сигнала низких частот и параметры, основанные на сегментах сигнала низких частот, для восстановления по меньшей мере двух сигналов субполос высоких частот, и производить выходной сигнал, содержащий по меньшей мере сигнал низких частот и по меньшей мере два сигнала субполос высоких частот.A computer program product for decoding bit streams is also proposed, the program of which contains instructions that act to force the processor to receive the encoded bit stream, decode at least a low frequency signal from the bit stream and at least use parameters based on segments of the low frequency signal low-frequency signal samples and parameters based on segments of the low-frequency signal, for reconstructing at least two high-frequency subband signals, and producing have an output signal comprising at least a low frequency signal and at least two high frequency subband signals.

Краткое описание чертежейBrief Description of the Drawings

На фигурах показаны:The figures show:

На фиг.1 - система для кодирования звуковых сигналов согласно известному уровню техники.Figure 1 - system for encoding audio signals according to the prior art.

На фиг.2 - кодер согласно известному уровню техники.Figure 2 - encoder according to the prior art.

На фиг.3 - декодер согласно известному уровню техники.Figure 3 - decoder according to the prior art.

На фиг.4 - кодер SBR.Figure 4 - encoder SBR.

На фиг.5 - декодер SBR.Figure 5 - SBR decoder.

На фиг.6 - спектральное представление звукового сигнала на различных этапах.6 is a spectral representation of an audio signal at various stages.

На фиг.7 - система согласно первой форме осуществления изобретения.7 is a system according to a first embodiment of the invention.

На фиг.8 - система согласно второй форме осуществления изобретения.On Fig - system according to the second form of embodiment of the invention.

На фиг.9 - частотный спектр с нормализацией огибающей.Figure 9 - frequency spectrum with normalization of the envelope.

На фиг.10 - улучшение кодирования с использованием определения тональности.Figure 10 - improvement of coding using the definition of tonality.

Подробное описаниеDetailed description

В общем, системы кодирования звуковых сигналов состоят из кодера и декодера, как схематично показано на фиг.1. На этой фигуре показана система 2 кодирования с кодером 4, носителем информации или каналом 6 мультимедиа и декодером 8.In general, audio coding systems consist of an encoder and a decoder, as shown schematically in FIG. This figure shows an encoding system 2 with an encoder 4, a storage medium or a multimedia channel 6 and a decoder 8.

Кодер 4 сжимает входной звуковой сигнал 10, создавая битовый поток 12, который записывается или передается через канал 6 мультимедиа. Битовый поток 12 может приниматься в декодере 8. Декодер 8 декомпрессирует битовый поток 12 и производит выходной звуковой сигнал 14. Скорость передачи бит потока 12 и качество выходного звукового сигнала 14 относительно входного сигнала 10 являются основными характеристиками, которые определяют эффективность системы 2 кодирования.The encoder 4 compresses the input audio signal 10, creating a bit stream 12, which is recorded or transmitted through the channel 6 multimedia. The bitstream 12 may be received at the decoder 8. The decoder 8 decompresses the bitstream 12 and produces an audio output signal 14. The bit rate of the stream 12 and the quality of the output audio signal 14 relative to the input signal 10 are the main characteristics that determine the efficiency of the encoding system 2.

Типичная структура современного кодера 4 звуковых сигналов схематично представлена на фиг.2. Входной сигнал 10 разделяется на субполосы с помощью структуры 16 банка фильтров анализа. Каждая субполоса может квантоваться и кодироваться в средствах 18 кодирования с использованием информации, предоставляемой психоакустической моделью 20. Кодирование может выполняться с использованием кодов Хаффмана. Установочные параметры квантования, так же как и схема кодирования могут определяться психоакустической моделью 18. Квантованная, кодированная информация используется в устройстве 22 форматирования битового потока для создания битового потока 12.A typical structure of a modern audio encoder 4 is shown schematically in FIG. 2. The input signal 10 is divided into subbands using the analysis filter bank structure 16. Each subband can be quantized and encoded in encoding means 18 using information provided by the psychoacoustic model 20. Encoding can be performed using Huffman codes. The quantization settings, as well as the encoding scheme, can be determined by the psychoacoustic model 18. The quantized, encoded information is used in the bitstream formatter 22 to create the bitstream 12.

Битовый поток 12 может декодироваться в декодере 8, который схематично показан на фиг.3. Декодер 8 может содержать средства 24 распаковки битового потока, средства 26 восстановления субполос и банк 28 фильтров синтеза. Декодер 8 вычисляет функции, обратные функциям кодера 4, и преобразует битовый поток 12 обратно в выходной звуковой сигнал 14. Во время процесса декодирования битовый поток 12 деквантуется в средствах 26 восстановления субполос в сигналы субполос. Сигналы субполос подаются на банк 28 фильтров синтеза, который синтезирует звуковой сигнал из сигналов субполос и создает выходной сигнал 14.Bitstream 12 may be decoded at decoder 8, which is schematically shown in FIG. The decoder 8 may comprise means 24 for decompressing the bitstream, means 26 for recovering the subbands and a bank 28 for synthesis filters. The decoder 8 calculates the functions inverse to the functions of the encoder 4 and converts the bitstream 12 back to the audio output signal 14. During the decoding process, the bitstream 12 is decanted in the subband recovery means 26 to the subband signals. Subband signals are supplied to a synthesis filter bank 28, which synthesizes an audio signal from subband signals and generates an output signal 14.

Во многих случаях имеется возможность эффективно и перцептуально точно синтезировать высокочастотную область, используя только низкочастотную область и ограниченный объем дополнительной информации управления. Оптимально, кодирование высокочастотной части требует лишь небольшого числа параметров управления. Так как вся верхняя часть спектра может синтезироваться с помощью малого объема информации, в полной скорости передачи бит может быть достигнута значительная экономия.In many cases, it is possible to efficiently and perceptually accurately synthesize the high-frequency region, using only the low-frequency region and a limited amount of additional control information. Optimally, coding of the high-frequency part requires only a small number of control parameters. Since the entire upper part of the spectrum can be synthesized using a small amount of information, significant savings can be achieved in the full bit rate.

Современное кодирование, такое как MP3pro, использует эти свойства в звуковых сигналах, вводя схему кодирования SBR в дополнение к психоакустическому кодированию. В технологии SBR высокочастотная область может генерироваться отдельно с использованием кодированной низкочастотной области, как схематично показано на фиг.4 и 5.Modern coding, such as MP3pro, uses these properties in audio signals, introducing an SBR coding scheme in addition to psychoacoustic coding. In SBR technology, the high-frequency region can be generated separately using the coded low-frequency region, as shown schematically in FIGS. 4 and 5.

На фиг.4 схематично показан кодер 4. Кодер 4 содержит средства 30 фильтрации нижних частот, кодирующие средства 31, средства SBR 32, средства 34 извлечения огибающей и устройство 22 форматирования битового потока. Фильтр 30 нижних частот сначала определяет частоту среза, до которой фильтруется входной сигнал 10. Эффект показан на фиг.6а. Только частоты ниже частоты 36 среза проходят через фильтр.Fig. 4 schematically shows an encoder 4. Encoder 4 comprises low-pass filtering means 30, coding means 31, SBR 32 means, envelope extraction means 34, and a bitstream formatter 22. The low pass filter 30 first determines the cutoff frequency to which the input signal 10 is filtered. The effect is shown in FIG. 6a. Only frequencies below 36 cutoff pass through the filter.

Кодирующие средства 31 выполняют квантование и кодирование кодами Хаффмана с 32 субполосами низких частот. Низкочастотное содержание транспонируется в кодирующих средствах 31 в область зеркальных квадратурных фильтров (QMF). Низкочастотное содержание переносится на основе выходного сигнала кодера 31. Транспонирование (частотный сдвиг) выполняется средствами SBR 32. Эффект транспонирования низких частот к высоким частотам показан на фиг.6b. Транспонирование выполняется автоматически так, что отсчеты субполос низких частот лишь копируются в отсчеты субполос высоких частот. Это делается аналогично в каждом кадре входного сигнала и независимо от характеристик входного сигнала.Encoding means 31 perform quantization and encoding with Huffman codes with 32 low-frequency subbands. The low-frequency content is transposed in the coding means 31 to the area of the mirror quadrature filters (QMF). The low-frequency content is transferred based on the output signal of the encoder 31. Transposition (frequency shift) is performed by SBR 32. The effect of transposing low frequencies to high frequencies is shown in FIG. 6b. The transpose is performed automatically so that the low-frequency subband samples are only copied to the high-frequency subband samples. This is done similarly in each frame of the input signal and regardless of the characteristics of the input signal.

В средствах SBR 32 субполосы высоких частот могут корректироваться на основе дополнительной информации. Это выполняется для того, чтобы сделать специфические свойства синтезируемой высокочастотной области более сходными с исходной областью. Дополнительные компоненты, такие как синусоиды или шумы, могут добавляться к высокочастотной области, чтобы увеличить сходство с исходной высокочастотной областью. Наконец, огибающая корректируется в средствах 34 извлечения огибающей, чтобы повторять огибающую исходного высокочастотного спектра. Этот эффект можно видеть на фиг.6с, где высокочастотные компоненты масштабируются, чтобы стать более близкими к фактическим высокочастотным компонентам входного сигнала.In SBR 32, the high frequency subbands can be adjusted based on additional information. This is done in order to make the specific properties of the synthesized high-frequency region more similar to the original region. Additional components, such as sinusoids or noise, can be added to the high-frequency region to increase the similarity with the original high-frequency region. Finally, the envelope is adjusted in the envelope extraction means 34 to repeat the envelope of the original high-frequency spectrum. This effect can be seen in FIG. 6c, where the high-frequency components are scaled to become closer to the actual high-frequency components of the input signal.

В битовом потоке 12 кодированный сигнал низких частот сжимается вместе с параметрами масштабирования и коррекции огибающей. Битовый поток 12 может декодироваться в декодере, как показано на фиг.5.In bitstream 12, the encoded low-frequency signal is compressed along with the scaling and envelope correction parameters. Bitstream 12 may be decoded at the decoder, as shown in FIG.

На фиг.5 показан декодер 8 со средствами 24 распаковки, декодером 38 низких частот, средствами 40 восстановления высоких частот, средствами 42 коррекции компонентов и средствами коррекции 44 огибающей. Субполосы низких частот восстанавливаются в декодере 38. Из субполос низких частот субполосы высоких частот статически восстанавливаются в средствах 40 восстановления высоких частот. Синусоиды могут добавляться и огибающая может корректироваться в средствах 42 коррекции компонентов и средствах 44 коррекции огибающей.5 shows a decoder 8 with decompression means 24, a low frequency decoder 38, high frequency recovery means 40, component correction means 42 and envelope correction means 44. The low frequency subbands are restored in the decoder 38. Of the low frequency subbands, the high frequency subbands are statically restored in the high frequency recovery means 40. Sine waves can be added and the envelope can be adjusted in the means 42 of the correction components and means 44 correction of the envelope.

Согласно данной заявке транспозиция отсчетов сигнала низких частот в субполосы высоких частот выполняется динамически, например, проверяется, какие сегменты сигнала низких частот лучше всего соответствуют субполосе высоких частот. Создается индекс для доступа к соответствующим сегментам сигнала низких частот. Этот индекс кодируется и используется в декодере для создания субполос высоких частот из сигнала низких частот.According to this application, the transposition of low-frequency signal samples into high-frequency subbands is performed dynamically, for example, it is checked which segments of the low-frequency signal best correspond to the high-frequency subband. An index is created to access the corresponding low-frequency signal segments. This index is encoded and used in the decoder to create high frequency subbands from the low frequency signal.

На фиг.7 показана система кодирования с кодером 4 и декодером 8. Кодер 4 состоит из средств 50 кодирования высоких частот, кодера 52 низких частот и устройства 22 форматирования битового потока. Кодер 4 может быть частью более сложной схемы кодирования звуковых сигналов. Данное изобретение может быть использовано почти в любом кодере звуковых сигналов, для которого ставится целью достижение хорошего качества при низких битовых скоростях. Например, устройство согласно изобретению может использоваться совершенно отдельно от конкретного кодера звуковых сигналов с низкой битовой скоростью, например, оно может быть помещено перед психоакустическим кодером, например, по стандарту ААС, стандарту MPEG и т.д.7 shows an encoding system with encoder 4 and decoder 8. Encoder 4 consists of high-frequency encoding means 50, low-frequency encoder 52 and bitstream formatting device 22. Encoder 4 may be part of a more complex audio coding scheme. This invention can be used in almost any audio encoder, for which the goal is to achieve good quality at low bit rates. For example, the device according to the invention can be used completely separately from a particular audio encoder with a low bit rate, for example, it can be placed in front of a psychoacoustic encoder, for example, according to the AAC standard, MPEG standard, etc.

Так как высокочастотная область обычно содержит формы частей спектра, сходные с формами низкочастотной области, как правило, достигается хорошая рабочая характеристика кодирования. Это достигается при относительно низкой общей скорости передачи битов, так как декодеру должны передаваться только индексы копируемого спектра и масштабные коэффициенты.Since the high-frequency region usually contains forms of parts of the spectrum that are similar to the forms of the low-frequency region, as a rule, a good coding performance is achieved. This is achieved with a relatively low overall bit rate, since only the copied spectrum indices and scale factors should be transmitted to the decoder.

В кодере 22 низких частот кодируются низкочастотные отсчеты XL(k). В кодере 50 высоких частот для кодирования создаются параметры α1, α2, i, представляющие преобразование, масштабирование и формирование огибающей, как более подробно будет описано ниже.In low-frequency encoder 22, low-frequency samples X L (k) are encoded. In the high-frequency encoder 50, parameters α 1 , α 2 , i are created for encoding, which represent the transformation, scaling, and envelope formation, as will be described in more detail below.

Спектр высоких частот сначала разделяется на nb субполос. Для каждой субполосы находится самое близкое соответствие (то есть самая похожая форма спектра) из низкочастотной области.The high-frequency spectrum is first divided into n b subbands. For each subband, the closest match (i.e., the most similar shape of the spectrum) from the low frequency region is found.

Способ может работать в области модифицированного дискретного косинусного преобразования (MDCT). Вследствие своих хороших характеристик (50% перекрытие при критической частоте выборки, гибкое переключение окна и т.д.) частотно-временная область MDCT используется в большинстве современных кодеров звуковых сигналов. Преобразование MDCT выполняется следующим образомThe method may work in the field of modified discrete cosine transform (MDCT). Owing to its good characteristics (50% overlap at the critical sampling frequency, flexible window switching, etc.), the time-frequency domain MDCT is used in most modern audio encoders. MDCT conversion is performed as follows

Figure 00000001
Figure 00000001

где х(n) - входной сигнал, h(n) - временное окно анализа с длиной 2N и 0≤k<N. Обычно при кодировании звуковых сигналов N равно 1024 (нормальные кадры) или 128 отсчетов (транзиенты). Спектральные коэффициенты X(k) могут быть вещественными числами. Возможны как упомянутые размеры кадров, так и любые другие размеры кадров.where x (n) is the input signal, h (n) is the analysis time window with a length of 2N and 0≤k <N. Typically, when encoding audio signals, N is 1024 (normal frames) or 128 samples (transients). The spectral coefficients X (k) can be real numbers. Both the mentioned frame sizes and any other frame sizes are possible.

Чтобы создавать параметры, описывающие субполосы высоких частот, необходимо найти сегменты сигнала низких частот, которые лучше всего соответствуют субполосам высоких частот в кодере 50 высоких частот. Кодер 50 высоких частот и кодер 52 низких частот могут создавать N компонентов, кодированных с помощью преобразования MDCT, где XL(k) представляет низкочастотные компоненты, а XH(k) - высокочастотные компоненты.To create parameters that describe the high frequency subbands, you need to find the segments of the low frequency signal that best match the high frequency subbands in the high frequency encoder 50. The high-frequency encoder 50 and the low-frequency encoder 52 can create N components encoded using the MDCT transform, where X L (k) represents the low-frequency components and X H (k) are the high-frequency components.

Кодером 52 низких частот могут кодироваться NL низкочастотных коэффициентов MDCT

Figure 00000002
, 0≤k<NL. Обычно NL=N/2, но могут быть выбраны также и другие варианты.The encoder 52 low frequencies can be encoded N L low-frequency coefficients MDCT
Figure 00000002
, 0≤k <N L. Usually N L = N / 2, but other options may also be selected.

При использовании

Figure 00000003
и исходного спектра XH(k) целью является создать высокочастотный компонент
Figure 00000004
, который при используемых мерах максимально похож на исходный высокочастотный сигнал XH(k)=X(NL+k), 0≤k<N-NL.
Figure 00000005
и
Figure 00000006
вместе формируют синтезируемый спектр
Figure 00000007
:Using
Figure 00000003
and the original spectrum X H (k), the goal is to create a high-frequency component
Figure 00000004
which, with the measures used, is as similar as possible to the original high-frequency signal X H (k) = X (N L + k), 0≤k <NN L.
Figure 00000005
and
Figure 00000006
together form a synthesized spectrum
Figure 00000007
:

Figure 00000008
Figure 00000008

Исходный высокочастотный спектр XH(k) разделяется на nb не перекрывающихся полос. В принципе, как число полос, так и их ширина могут быть выбраны произвольно. Например, восемь частотных полос равной ширины могут использоваться, когда N равняется 1024 отсчетам. Другим обоснованным вариантом является выбор диапазонов на основе перцепционных характеристик человеческого слуха. Например, для выбора числа полос и их ширины может использоваться Барк-шкала (шкала критических полос слуха) или шкала эквивалентных прямоугольных полос (ERB).The original high-frequency spectrum X H (k) is divided into n b non-overlapping bands. In principle, both the number of strips and their width can be arbitrarily selected. For example, eight frequency bands of equal width can be used when N equals 1024 samples. Another reasonable option is to select ranges based on the perceptual characteristics of human hearing. For example, you can use the Bark scale (critical hearing band scale) or the equivalent rectangular band scale (ERB) to select the number of bands and their width.

В кодере высоких частот может быть рассчитана мера сходства между высокочастотным сигналом и низкочастотными компонентами.In a high-frequency encoder, a measure of similarity between a high-frequency signal and low-frequency components can be calculated.

Пусть

Figure 00000009
есть вектор-столбец, содержащий j-ю полосу XH(k) с длиной wj отсчетов.
Figure 00000010
можно сравнить с кодированным низкочастотным спектром
Figure 00000003
следующим образомLet be
Figure 00000009
there is a column vector containing the jth strip X H (k) with a length w j of samples.
Figure 00000010
can be compared to a coded low-frequency spectrum
Figure 00000003
in the following way

Figure 00000011
Figure 00000011

где S(a, b) - мера сходства между векторами а и b, а

Figure 00000012
- вектор, содержащий индексы i(j)≤k<i(j)+wj кодированного низкочастотного спектра
Figure 00000013
Длина желаемого сегмента сигнала низких частот одинакова с длиной текущей высокочастотной субполосы, таким образом, по существу единственной необходимой информацией является индекс i(j), который указывает, где начинается соответствующий сегмент сигнала низких частот.where S (a, b) is a measure of similarity between vectors a and b, and
Figure 00000012
is a vector containing indices i (j) ≤k <i (j) + w j of the encoded low-frequency spectrum
Figure 00000013
The length of the desired segment of the low-frequency signal is the same as the length of the current high-frequency subband, so essentially the only necessary information is the index i (j), which indicates where the corresponding segment of the low-frequency signal begins.

Мера сходства может использоваться, чтобы выбрать индекс i(j), который обеспечивает самое высокое сходство. Мера сходства используется для описания того, насколько похожи формы векторов, в то время как их относительная амплитуда не важна. Есть много вариантов выбора меры сходства. Одной из возможных реализаций может быть нормализованная корреляцияA similarity measure can be used to select the index i (j) that provides the highest similarity. A similarity measure is used to describe how similar the shapes of the vectors are, while their relative amplitude is not important. There are many options for choosing a measure of similarity. One possible implementation may be normalized correlation.

Figure 00000014
Figure 00000014

которая обеспечивает меру, не чувствительную к амплитудам а и b. Другая разумная альтернатива - мера сходства, основанная на евклидовом расстоянииwhich provides a measure that is not sensitive to the amplitudes a and b. Another reasonable alternative is the Euclidean distance similarity measure

Figure 00000015
Figure 00000015

Соответственно, могут использоваться также многие другие меры сходства.Accordingly, many other similarity measures may also be used.

Эти самые похожие сегменты в пределах низкочастотных отсчетов сигнала могут быть скопированы в субполосы высоких частот и масштабированы с использованием фактических масштабных коэффициентов. Масштабные коэффициенты служат для того, чтобы огибающая кодированного высокочастотного спектра повторяла огибающую исходного спектра.These very similar segments within the low-frequency samples of the signal can be copied to the high-frequency subbands and scaled using actual scale factors. The scale factors are used to ensure that the envelope of the encoded high-frequency spectrum repeats the envelope of the original spectrum.

Используя индекс i(j), выбранный вектор

Figure 00000016
, наиболее похожий по форме на
Figure 00000017
, необходимо масштабировать до той же самой амплитуды, что и у
Figure 00000018
. Для масштабирования есть много различных методов. Например, масштабирование может выполняться в два этапа, сначала в линейной области для согласования высоких пиков амплитуды в спектре и затем в логарифмической области для согласования энергии и формы.Using the index i (j), the selected vector
Figure 00000016
most similar in form to
Figure 00000017
, must be scaled to the same amplitude as
Figure 00000018
. There are many different methods for scaling. For example, scaling can be performed in two stages, first in the linear region to match the high amplitude peaks in the spectrum and then in the logarithmic region to match the energy and shape.

Масштабирование вектора

Figure 00000019
этими масштабными коэффициентами дает в результате кодированный высокочастотный компонент
Figure 00000020
.Vector scaling
Figure 00000019
these scaling factors results in an encoded high-frequency component
Figure 00000020
.

Масштабирование в линейной области выполняется просто какLinear scaling is done just like

Figure 00000021
Figure 00000021

где α1(j) получается изwhere α 1 (j) is obtained from

Figure 00000022
Figure 00000022

Обратим внимание, что α1(j) может принимать и положительные, и отрицательные значения. Перед логарифмическим масштабированием как знак отсчетов вектора, так и максимальное логарифмическое значение

Figure 00000023
могут быть сохраненыNote that α 1 (j) can take both positive and negative values. Before logarithmic scaling, both the sign of the vector samples and the maximum logarithmic value
Figure 00000023
can be saved

Figure 00000024
Figure 00000024

Figure 00000025
Figure 00000025

Теперь может быть выполнено логарифмическое масштабирование, и

Figure 00000026
обновлено какLogarithmic scaling can now be done, and
Figure 00000026
updated as

Figure 00000027
Figure 00000027

Figure 00000028
Figure 00000028

где масштабный коэффициент α2(j) получается изwhere the scale factor α 2 (j) is obtained from

Figure 00000029
Figure 00000029

Этот масштабный коэффициент максимизирует сходство между формами колебаний в логарифмической области. Альтернативно α2(j) может быть выбран так, чтобы энергии устанавливались на приблизительно равный уровень:This scale factor maximizes the similarity between waveforms in the logarithmic region. Alternatively, α 2 (j) can be chosen so that the energies are set at approximately equal levels:

Figure 00000030
Figure 00000030

В вышеприведенных уравнениях задача переменной

Figure 00000031
удостовериться, что амплитуды наибольших значений в
Figure 00000032
(то есть спектральные пики) не масштабируются слишком высоко (первый масштабный коэффициент α1(j) уже установил их на правильный уровень). Переменная
Figure 00000033
используется для сохранения знака исходных отсчетов, так как эта информация теряется во время преобразования в логарифмическую область.In the above equations, the variable problem
Figure 00000031
make sure that the amplitudes of the highest values in
Figure 00000032
(i.e. spectral peaks) do not scale too high (the first scale factor α 1 (j) has already set them to the correct level). Variable
Figure 00000033
It is used to preserve the sign of the original samples, since this information is lost during conversion to the logarithmic region.

После того, как полосы были масштабированы, синтезируемый спектр высокой частоты

Figure 00000034
может быть получен объединением векторов
Figure 00000035
, j=0, 1, …, nb-1.After the bands have been scaled, the synthesized high-frequency spectrum
Figure 00000034
can be obtained by combining vectors
Figure 00000035
, j = 0, 1, ..., n b -1.

После того, как параметры были выбраны, их необходимо квантовать для передачи в декодер 8 информации для воссоздания высокочастотной области.After the parameters have been selected, they must be quantized to transmit information to the decoder 8 to recreate the high-frequency region.

Чтобы можно было воссоздать

Figure 00000036
в декодере 8, параметры i(j), α1(j) и α2(j) необходимы для каждой полосы. В декодере 8 эти параметры используют средства 54 генерации высоких частот. Так как индекс i(j) - целое число, он может быть представлен как таковой, а α1(j) и α2(j) можно квантовать, используя, например, скалярное или векторное квантование.So that you can recreate
Figure 00000036
in decoder 8, the parameters i (j), α 1 (j) and α 2 (j) are necessary for each band. In decoder 8, these parameters use high frequency generating means 54. Since the index i (j) is an integer, it can be represented as such, and α 1 (j) and α 2 (j) can be quantized using, for example, scalar or vector quantization.

Квантованные версии этих параметров,

Figure 00000037
и
Figure 00000038
используют в средствах 54 генерации высоких частот для создания
Figure 00000039
согласно уравнениям (6) и (10).The quantized versions of these parameters,
Figure 00000037
and
Figure 00000038
used in the means of 54 high-frequency generation to create
Figure 00000039
according to equations (6) and (10).

Средства 56 декодирования низких частот декодируют сигнал низких частот и вместе с восстановленными субполосами высоких частот формируют выходной сигнал 14 согласно уравнению 2.The low-frequency decoding means 56 decodes the low-frequency signal and, together with the reconstructed high-frequency subbands, generates an output signal 14 according to equation 2.

Система, которая показана на фиг.7, может быть дополнительно усовершенствована средствами для нормализации огибающей. В дополнение к системе, показанной на фиг.7, система, показанная на фиг.8, содержит средства 58 нормализации огибающей и средства 60 синтеза огибающей.The system, which is shown in Fig.7, can be further improved by means for normalizing the envelope. In addition to the system shown in FIG. 7, the system shown in FIG. 8 includes envelope normalization means 58 and envelope synthesis means 60.

В этой системе метод кодирования высоких частот используется для того, чтобы формировать спектр с нормализованный огибающей, используя средства 58 нормализации огибающей в кодере 4. Фактический синтез огибающей выполняется в отдельных средствах 60 синтеза огибающей в декодере 8.In this system, a high-frequency encoding method is used to form a normalized envelope spectrum using envelope normalization means 58 in encoder 4. Actual envelope synthesis is performed in separate envelope synthesis means 60 in decoder 8.

Нормализация огибающей может выполняться с использованием, например, анализа с помощью линейного предсказания (LPC) или кепстрального моделирования. Следует заметить, что при нормализации огибающей ее параметры, описывающие исходную спектральную огибающую высоких частот, должны быть переданы в декодер, как показано на фиг.8.Envelope normalization can be performed using, for example, linear prediction analysis (LPC) or cepstral modeling. It should be noted that during normalization of the envelope, its parameters describing the initial spectral envelope of high frequencies should be transmitted to the decoder, as shown in Fig. 8.

Согласно способу SBR, к области высоких частот добавляются дополнительные синусоиды и шумовые компоненты. То же самое можно сделать также и в вышеописанной заявке. В случае необходимости, легко могут быть добавлены дополнительные компоненты. Это связано с тем, что в описанном способе возможно измерение различия между исходным и синтезируемым спектрами и, таким образом, обнаружение мест, где есть существенные отличия в форме спектра. Так как, например, в обычных кодерах с расширением ширины полосы (BWE) форма спектра значительно отличается от исходного спектра, обычно бывает труднее решить, должны ли быть добавлены дополнительные синусоидальные или шумовые компоненты.According to the SBR method, additional sine waves and noise components are added to the high frequency region. The same can also be done in the above application. If necessary, additional components can easily be added. This is due to the fact that in the described method it is possible to measure the difference between the original and synthesized spectra and, thus, detect places where there are significant differences in the shape of the spectrum. Since, for example, in conventional bandwidth extension (BWE) encoders, the shape of the spectrum is significantly different from the original spectrum, it is usually more difficult to decide whether additional sinusoidal or noise components should be added.

Было замечено, что в некоторых случаях, когда входной сигнал крайне тонален, качество кодированного сигнала может ухудшаться по сравнению с оригиналом. Это связано с тем, что кодированная высокочастотная область от одного кадра до другого не может оставаться столь же периодической, как в исходном сигнале. Периодичность теряется, так как некоторые периодические (синусоидальные) компоненты могут отсутствовать, или амплитуда существующих периодических компонентов изменяется от одного кадра до другого слишком значительно.It was noted that in some cases, when the input signal is extremely tonal, the quality of the encoded signal may deteriorate compared to the original. This is due to the fact that the coded high-frequency region from one frame to another cannot remain as periodic as in the original signal. The frequency is lost, as some periodic (sinusoidal) components may be absent, or the amplitude of the existing periodic components varies from one frame to another too much.

Чтобы включать в состав тональные сегменты, даже когда низкочастотные отсчеты сигнала, используемые для восстановления субполос высоких частот, не представляются полностью синусоидальными, могут быть предусмотрены два дополнительных шага.To include tonal segments, even when the low-frequency samples of the signal used to reconstruct the high-frequency subbands do not appear to be completely sinusoidal, two additional steps may be provided.

На первом шаге могут обнаруживаться тональные сегменты сигнала с возможным снижением качества. Тональные сегменты могут определяться сравнением сходства между двумя последовательными кадрами в области сдвинутого дискретного преобразования Фурье (SDFT). SDFT является полезным преобразованием для этой цели, потому что оно содержит информацию также и о фазе, но остается тесно связанным с преобразованием MDCT, которое используется в других частях кодера.At the first step, tonal segments of the signal can be detected with a possible decrease in quality. Tonal segments can be determined by comparing the similarities between two consecutive frames in the area of the shifted discrete Fourier transform (SDFT). SDFT is a useful transformation for this purpose, because it also contains phase information, but remains closely related to the MDCT transformation, which is used in other parts of the encoder.

Определение тональности может выполняться сразу после обнаружения транзиентов и перед инициализацией кодирования реальной области высоких частот. Так как кадры с транзиентами вообще не содержат тональных компонентов, определение тональности может применяться только в случае, когда и текущий и предыдущий кадры являются кадрами нормальной длины (например, 2048 отсчетов). Определение тональности основано на сдвинутом дискретном преобразовании Фурье, как показано выше, которое может быть определено для кадров с длиной 2N отсчетов какThe definition of tonality can be performed immediately after the detection of transients and before initializing the encoding of the real high-frequency region. Since frames with transients do not contain tonal components at all, the definition of tonality can be applied only when both the current and previous frames are frames of normal length (for example, 2048 samples). The definition of tonality is based on the shifted discrete Fourier transform, as shown above, which can be defined for frames with a length of 2N samples as

Figure 00000040
Figure 00000040

где h(n) - окно, x(n) - входной сигнал, а u и v представляют сдвиги во временной и частотной областях соответственно. Эти сдвиги в областях могут быть выбраны так, чтобы u=(N+1)/2 и v=1/2, так как в таком случае соблюдается, что X(k)=real(Y(k)).where h (n) is the window, x (n) is the input signal, and u and v represent the shifts in the time and frequency domains, respectively. These shifts in the regions can be chosen so that u = (N + 1) / 2 and v = 1/2, since in this case it is observed that X (k) = real (Y (k)).

Таким образом, вместо того, чтобы выполнять преобразования SDFT и MDCT по отдельности, сначала можно выполнять преобразование SDFT для анализа тональности и затем результаты преобразования MDCT получать непосредственно как вещественную часть коэффициентов SDFT. Определение тональности таким способом не вызывает значительного увеличения сложности вычислений.Thus, instead of performing the SDFT and MDCT transforms separately, you can first perform the SDFT transform to analyze tonality and then obtain the MDCT transform results directly as the real part of the SDFT coefficients. The definition of tonality in this way does not cause a significant increase in the complexity of the calculations.

При Y(k)b и Y(k)b-1 представляющих преобразования SDFT текущего и предыдущего кадров, соответственно, сходство между кадрами может быть измерено с использованием выраженияWith Y (k) b and Y (k) b-1 representing the SDFT transforms of the current and previous frames, respectively, the similarity between the frames can be measured using the expression

Figure 00000041
Figure 00000041

где NL+1 соответствует предельной частоте для кодирования высоких частот. Чем меньше параметр S, тем более сходны высокочастотные спектры. На основе значения S кадры могут классифицироваться следующим образомwhere N L +1 corresponds to the limit frequency for encoding high frequencies. The smaller the parameter S, the more similar the high-frequency spectra. Based on the S value, frames can be classified as follows

Figure 00000042
Figure 00000042

Хорошими вариантами выбора для ограничивающих коэффициентов Slim1 и Slim2 являются 0,02 и 0,2 соответственно. Однако могут быть выбраны также и другие значения. Кроме того, могут использоваться различные варианты, а также, например, один из классов может быть полностью удален.Good choices for the limiting coefficients S lim1 and S lim2 are 0.02 and 0.2, respectively. However, other values may also be selected. In addition, various options can be used, and also, for example, one of the classes can be completely deleted.

Как показано на фиг.10, определение (62) тональности, которое описано выше, может выполняться на основе входного сигнала 10.As shown in FIG. 10, the tonality determination (62), which is described above, may be performed based on the input signal 10.

На основе определения (62) тональности, входные кадры разделяют на три группы: не тональные (64), тональные (66) и очень тональные (66), как показано на фиг.10.Based on the definition (62) of tonality, the input frames are divided into three groups: non-tonal (64), tonal (66) and very tonal (66), as shown in Fig. 10.

После определения (62) тональности на втором шаге качество тональных сегментов может быть улучшено добавлением дополнительных синусоид к высокочастотной области и, возможно, увеличением числа субполос высоких частот, используемых для создания высокочастотной области, как описано выше.After determining (62) tonality in the second step, the quality of the tonal segments can be improved by adding additional sinusoids to the high-frequency region and, possibly, increasing the number of high-frequency subbands used to create the high-frequency region, as described above.

Самым типичным случаем является тот, когда сигнал не тонален (64), и тогда кодирование продолжается, как описано выше.The most typical case is when the signal is not tonal (64), and then encoding continues, as described above.

Если входной сигнал классифицирован как тональный (66), дополнительные синусоиды могут быть добавлены к высокочастотному спектру после применения кодирования, как показано выше. Фиксированное число синусоид может быть добавлено к спектру области MDCT. Синусоиды могут непосредственно добавляться к тем частотам, где абсолютное различие между исходным и кодированным спектром является наибольшим. Позиции и амплитуды синусоид квантуются и передаются на декодер.If the input signal is classified as tonal (66), additional sine waves can be added to the high-frequency spectrum after applying coding, as shown above. A fixed number of sinusoids can be added to the spectrum of the MDCT region. Sine waves can be directly added to those frequencies where the absolute difference between the original and encoded spectrum is the largest. The positions and amplitudes of the sine waves are quantized and transmitted to the decoder.

Когда обнаруживается кадр, который является тональным (или очень тональным), к высокочастотной области спектра могут быть добавлены синусоиды. При XH(k) и

Figure 00000043
представляющих исходные и кодированные компоненты субполос высоких частот, соответственно, первая синусоида может быть добавлена к индексу ki, который может быть получен из уравненияWhen a frame that is tonal (or very tonal) is detected, sine waves can be added to the high-frequency region of the spectrum. For X H (k) and
Figure 00000043
representing the original and encoded components of the high frequency subbands, respectively, the first sine wave can be added to the index k i , which can be obtained from the equation

Figure 00000044
Figure 00000044

Амплитуда (включая ее знак) синусоиды может быть определена какThe amplitude (including its sign) of a sinusoid can be defined as

Figure 00000045
Figure 00000045

Наконец,

Figure 00000046
может быть модифицирован какFinally,
Figure 00000046
can be modified as

Figure 00000047
Figure 00000047

Уравнения (17)-(19) могут повторно решаться до тех пор, пока не будет добавлено желаемое число синусоид. Как правило, уже четыре дополнительных синусоиды могут привести к отчетливо улучшенным результатам во время тональных сегментов. Амплитуды синусоид Ai могут квантоваться и передаваться в декодер 8. Позиции ki синусоид также могут передаваться. Кроме того, декодеру 8 может сообщаться о том, что текущий кадр является тональным.Equations (17) - (19) can be re-solved until the desired number of sinusoids is added. As a rule, already four additional sinusoids can lead to distinctly improved results during tonal segments. The amplitudes of the sine waves A i can be quantized and transmitted to the decoder 8. Positions k i of the sine waves can also be transmitted. In addition, the decoder 8 may be notified that the current frame is tonal.

Было замечено, что во время тональных сегментов второй масштабный коэффициент α2 не может улучшить качество и, следовательно, может быть исключен.It was noted that during tonal segments, the second scale factor α 2 cannot improve quality and, therefore, can be excluded.

Когда обнаруживается чисто тональный сегмент (68), известно, что текущий сегмент требует особых усилий для кодирования высокочастотной области. Поэтому добавление только синусоид может быть недостаточным. Качество может быть дополнительно улучшено повышением точности кодирования высоких частот. Это может быть выполнено добавлением числа полос, используемых для создания высокочастотной области.When a purely tonal segment (68) is detected, it is known that the current segment requires special efforts to encode the high-frequency region. Therefore, adding only a sinusoid may be insufficient. Quality can be further improved by increasing the accuracy of high frequency coding. This can be accomplished by adding the number of bands used to create the high frequency region.

Во время чисто тональных сегментов субполосы высоких частот остаются очень похожими от одного кадра до другого. Чтобы сохранить это сходство также и в кодированном сигнале, могут быть применены специальные действия. Особенно, если число субполос высоких частот nb относительно мало (то есть 8 или менее), оно может быть увеличено до больших значений. Например, 16 субполос высоких частот обычно обеспечивают характеристику, которая является более точной.During purely tonal segments, the high frequency subbands remain very similar from one frame to another. To preserve this similarity in the encoded signal, special actions can be applied. Especially if the number of high frequency subbands n b is relatively small (i.e., 8 or less), it can be increased to large values. For example, 16 high-frequency subbands typically provide a response that is more accurate.

В дополнение к большему числу полос может добавляться также большее число синусоид. Вообще, хорошее решение заключается в том, чтобы использовать в два раза больше синусоид, чем во время "обычных" тональных сегментов.In addition to more bands, more sinusoids can also be added. In general, a good solution is to use twice as many sinusoids as during “normal” tonal segments.

Увеличение числа субполос высоких частот, так же как увеличение числа синусоид, легко удваивает скорость передачи битов чисто тональных сегментов по сравнению с "обычными" кадрами. Однако чисто тональные сегменты являются очень частным случаем и появляются очень редко, поэтому увеличение средней скорости передачи битов является очень малым.An increase in the number of high-frequency subbands, as well as an increase in the number of sinusoids, easily doubles the bit rate of purely tonal segments compared to “normal” frames. However, purely tonal segments are a very special case and appear very rarely, so the increase in the average bit rate is very small.

Claims (20)

1. Способ кодирования звуковых сигналов, в котором
принимают входной звуковой сигнал,
разделяют звуковой сигнал, по меньшей мере, на полосу низких частот и полосу высоких частот,
разделяют полосу высоких частот, по меньшей мере, на два сигнала субполос высоких частот,
определяют меру сходства между элементами сигнала полосы низких частот и сигналами субполос высоких частот посредством сравнения отсчетов сигнала низких частот с субполосами высоких частот принятого входного звукового сигнала,
квантуют и кодируют сегменты сигнала полосы низких частот,
формируют параметры на основе, по меньшей мере, тех сегментов сигнала полосы низких частот, которые характеризуются наивысшей мерой сходства, для транспонирования сегментов сигнала полосы низких частот на высокие частоты, чтобы восстановить субполосы высоких частот,
разделяют входной сигнал на последовательные во времени кадры,
обнаруживают тональные сегменты в пределах, по меньшей мере, двух последовательных кадров во входном сигнале,
добавляют параметр, представляющий позицию и амплитуду, по меньшей мере, одной синусоиды, к параметрам тональных сегментов и
создают битовый поток с использованием кодированных сегментов сигнала низких частот и указанных параметров.
1. A method of encoding audio signals, in which
receive an input audio signal,
divide the audio signal into at least a low frequency band and a high frequency band,
divide the high frequency band into at least two high frequency subband signals,
determining a measure of similarity between the elements of the low frequency signal and the high frequency subband signals by comparing the samples of the low frequency signal with the high frequency subbands of the received audio input signal,
quantize and encode segments of the signal of the low frequency band,
generating parameters based on at least those segments of the low-frequency band signal that are characterized by the highest measure of similarity, for transposing the segments of the low-frequency band signal to high frequencies in order to restore the high frequency subbands,
divide the input signal into sequential frames in time,
detect tonal segments within at least two consecutive frames in the input signal,
add a parameter representing the position and amplitude of at least one sinusoid to the parameters of the tonal segments and
create a bit stream using the encoded segments of the low frequency signal and the specified parameters.
2. Способ по п.1, отличающийся тем, что формирование параметров дополнительно включает формирование, по меньшей мере, одного масштабного коэффициента для масштабирования сегментов сигнала полосы низких частот.2. The method according to claim 1, characterized in that the formation of the parameters further includes generating at least one scale factor for scaling the segments of the signal of the low frequency band. 3. Способ по п.2, отличающийся тем, что масштабный коэффициент рассчитывают так, чтобы огибающая сегментов сигнала низких частот, транспонируемых в сигналы субполос высоких частот с использованием указанных параметров, повторяла огибающую сигнала субполосы высоких частот принимаемого сигнала.3. The method according to claim 2, characterized in that the scaling factor is calculated so that the envelope of the segments of the low frequency signal transposed into the signals of the high frequency subbands using these parameters repeats the envelope of the high frequency subband signal of the received signal. 4. Способ по п.2, отличающийся тем, что формирование масштабных коэффициентов включает формирование масштабных коэффициентов в линейной области для обеспечения соответствия, по меньшей мере, пиков амплитуды в спектре.4. The method according to claim 2, characterized in that the formation of scale factors includes the formation of scale factors in the linear region to ensure compliance with at least the amplitude peaks in the spectrum. 5. Способ по п.2, отличающийся тем, что формирование масштабных коэффициентов включает формирование масштабных коэффициентов в логарифмической области для обеспечения соответствия, по меньшей мере, энергии и/или формы спектра.5. The method according to claim 2, characterized in that the formation of scale factors includes the formation of scale factors in the logarithmic region to ensure compliance with at least the energy and / or shape of the spectrum. 6. Способ по п.1, отличающийся тем, что формирование параметров включает формирование ссылок на те сегменты сигнала низких частот, которые представляют соответствующие сигналы субполос высоких частот.6. The method according to claim 1, characterized in that the formation of parameters includes the formation of links to those segments of the low frequency signal that represent the corresponding signals of the high frequency subbands. 7. Способ по п.1, отличающийся тем, что определение в сигнале полосы низких частот сегментов, которые лучше всего соответствуют сигналам субполос высоких частот, включает использование, по меньшей мере, одного из следующего:
а) нормализованной корреляции,
б) евклидова расстояния.
7. The method according to claim 1, characterized in that the determination in the signal of the low frequency band of the segments that best correspond to the signals of the high frequency subbands includes the use of at least one of the following:
a) normalized correlation,
b) Euclidean distance.
8. Способ по п.1, отличающийся тем, что, по меньшей мере, отсчеты сегментов сигнала низких частот формируют с использованием модифицированного дискретного косинусного преобразования.8. The method according to claim 1, characterized in that at least the samples of the low-frequency signal segments are generated using a modified discrete cosine transform. 9. Способ по п.1, дополнительно включающий нормализацию огибающей сигналов субполос высоких частот.9. The method according to claim 1, further comprising normalizing the envelope of the high frequency subband signals. 10. Способ по п.2, дополнительно включающий квантование отсчетов сигнала низких частот и квантование, по меньшей мере, масштабных коэффициентов.10. The method according to claim 2, further comprising quantizing the samples of the low frequency signal and quantizing at least scale factors. 11. Способ по п.1, отличающийся тем, что обнаружение тональных сегментов включает использование сдвинутого дискретного преобразования Фурье.11. The method according to claim 1, characterized in that the detection of tonal segments includes the use of shifted discrete Fourier transform. 12. Способ по п.11, дополнительно включающий увеличение числа субполос высоких частот для тональных сегментов.12. The method according to claim 11, further comprising increasing the number of subbands of high frequencies for tonal segments. 13. Способ декодирования звуковых сигналов, в котором
принимают кодированный битовый поток,
декодируют из битового потока, по меньшей мере, сигнал низких частот и, по меньшей мере, параметры, основанные на сегментах сигнала низких частот и представляющие позицию и амплитуду, по меньшей мере, одной синусоиды, при этом указанные параметры основаны, по меньшей мере, на тех сегментах сигнала полосы низких частот, которые характеризуются наивысшей мерой сходства, для транспонирования сегментов полосы низких частот на высокие частоты, чтобы восстановить субполосы высоких частот,
используют отсчеты сигнала низких частот и параметры, основанные на сегментах сигнала низких частот и представляющие позиции и амплитуды синусоид, для восстановления, по меньшей мере, двух сигналов субполос высоких частот, и
выводят выходной сигнал, содержащий, по меньшей мере, сигнал низких частот и, по меньшей мере, два сигнала субполос высоких частот, причем указанные, по меньшей мере, два сигнала субполос высоких частот восстанавливают из декодированных сигналов низких частот и указанных параметров.
13. A method of decoding audio signals, in which
receive the encoded bit stream,
at least a low-frequency signal and at least parameters based on segments of a low-frequency signal and representing the position and amplitude of at least one sinusoid are decoded from the bit stream, wherein these parameters are based on at least those segments of the signal of the low frequency band, which are characterized by the highest measure of similarity, for transposing the segments of the low frequency band to high frequencies in order to restore the subbands of high frequencies,
using samples of the low frequency signal and parameters based on segments of the low frequency signal and representing the positions and amplitudes of the sinusoids to reconstruct at least two signals of the high frequency subbands, and
outputting an output signal comprising at least a low frequency signal and at least two high frequency subband signals, said at least two high frequency subband signals being restored from the decoded low frequency signals and said parameters.
14. Кодер для кодирования звуковых сигналов, содержащий
средства приема, приспособленные для приема входного звукового сигнала,
средства фильтрации, приспособленные для разделения звукового сигнала, по меньшей мере, на полосу низких частот и полосу высоких частот, для разделения полосы высоких частот, по меньшей мере, на два сигнала субполос высоких частот и, кроме того, приспособленные для разделения входного сигнала на последовательные во времени кадры, для обнаружения тональных сегментов в пределах, по меньшей мере, двух последовательных кадров во входном сигнале, и
кодирующие средства, приспособленные для определения меры сходства между сегментами сигнала полосы низких частот и сигналами субполос высоких частот посредством сравнения отсчетов сигнала низких частот с субполосами высоких частот принимаемого входного звукового сигнала, для формирования параметров на основе, по меньшей мере, тех сегментов сигнала полосы низких частот, которые характеризуются наивысшей мерой сходства, для транспонирования сегментов сигнала полосы низких частот на высокие частоты, чтобы восстановить субполосы высоких частот, и для добавления параметра, представляющего позицию и амплитуду, по меньшей мере, одной синусоиды, к параметрам тональных сегментов,
при этом кодирующие средства также приспособлены для квантования и кодирования сегментов сигнала полосы низких частот, и
средства вывода для создания битового потока с использованием кодированных сегментов сигнала низких частот и указанных параметров.
14. An encoder for encoding audio signals containing
reception means adapted to receive an input audio signal,
filtering means adapted to divide an audio signal into at least a low frequency band and a high frequency band, to divide a high frequency band into at least two high frequency subband signals and, furthermore, adapted to divide an input signal into serial time frames to detect tonal segments within at least two consecutive frames in the input signal, and
encoding means adapted to determine a measure of similarity between the segments of the low frequency signal and the signals of the high frequency subbands by comparing the samples of the low frequency signal with the high frequency subbands of the received audio input signal to generate parameters based on at least those segments of the low frequency signal which are characterized by the highest measure of similarity, for transposing segments of the signal of the low frequency band to high frequencies, in order to restore the subbands of high their frequencies, and for adding a parameter representing the position and amplitude of at least one sinusoid, the parameters tonal segments
wherein encoding means are also adapted to quantize and encode segments of a signal of a low frequency band, and
output means for creating a bitstream using encoded segments of the low frequency signal and the specified parameters.
15. Кодер по п.14, отличающийся тем, что средства кодирования приспособлены для генерирования, по меньшей мере, одного масштабного коэффициента, чтобы масштабировать сегменты сигнала полосы низких частот.15. The encoder of claim 14, wherein the encoding means is adapted to generate at least one scale factor in order to scale the segments of the low frequency band signal. 16. Кодер по п.14, отличающийся тем, что средства кодирования приспособлены для формирования масштабного коэффициента так, чтобы огибающая сегментов сигнала низких частот, транспонируемых в сигналы субполос высоких частот с использованием указанных параметров, повторяла огибающую сигналов субполос высоких частот принимаемого сигнала.16. The encoder of claim 14, wherein the encoding means is adapted to generate a scale factor such that the envelope of the segments of the low frequency signal transposed into the signals of the high frequency subbands using these parameters repeats the envelope of the high frequency subband signals of the received signal. 17. Кодер по п.14, отличающийся тем, что средства фильтрации приспособлены для обнаружения тональных сегментов с использованием сдвинутого дискретного преобразования Фурье.17. The encoder of claim 14, wherein the filtering means is adapted to detect tonal segments using the shifted discrete Fourier transform. 18. Кодер по п.14, отличающийся тем, что средства кодирования приспособлены для увеличения числа субполос высоких частот для тональных сегментов.18. The encoder of claim 14, wherein the encoding means is adapted to increase the number of high frequency subbands for tonal segments. 19. Декодер для декодирования звуковых сигналов, содержащий
приемные средства, приспособленные для приема кодированного битового потока,
декодирующие средства, приспособленные для декодирования из битового потока, по меньшей мере, сигнала низких частот и, по меньшей мере, параметров, основанных на сегментах сигнала низких частот и представляющих позицию и амплитуду, по меньшей мере, одной синусоиды, причем параметры основаны, по меньшей мере, на тех сегментах сигнала полосы низких частот, которые характеризуются наивысшей мерой сходства, для транспонирования сегментов сигнала полосы низких частот на высокие частоты, чтобы восстановить субполосы высоких частот,
средства генерации, приспособленные для использования отсчетов сигнала низких частот и параметров, основанных на сегментах сигнала низких частот и представляющих позиции и амплитуды синусоид, для восстановления, по меньшей мере, двух сигналов субполос высоких частот, причем указанные, по меньшей мере, два сигнала субполос высоких частот восстанавливают из декодированных сигналов низких частот и указанных параметров.
19. A decoder for decoding audio signals containing
receiving means adapted to receive an encoded bitstream,
decoding means adapted to decode from the bitstream at least a low-frequency signal and at least parameters based on segments of a low-frequency signal and representing the position and amplitude of at least one sinusoid, the parameters being based on at least at least on those segments of the signal of the low frequency band which are characterized by the highest measure of similarity, for transposing the segments of the signal of the low frequency band to high frequencies in order to restore the high frequency subbands,
generating means adapted to use low-frequency signal samples and parameters based on segments of the low-frequency signal and representing the positions and amplitudes of the sinusoids to reconstruct at least two high-frequency subband signals, said at least two high-frequency subband signals frequencies recover from the decoded low-frequency signals and the specified parameters.
20. Система для сжатия цифровых звуковых сигналов, содержащая декодер по п.19 и кодер по п.14. 20. A system for compressing digital audio signals, comprising a decoder according to claim 19 and an encoder according to 14.
RU2008111884/09A 2005-11-04 2005-11-04 Audio signal compression RU2409874C9 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2008111884/09A RU2409874C9 (en) 2005-11-04 2005-11-04 Audio signal compression

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2008111884/09A RU2409874C9 (en) 2005-11-04 2005-11-04 Audio signal compression

Publications (3)

Publication Number Publication Date
RU2008111884A RU2008111884A (en) 2009-12-10
RU2409874C2 RU2409874C2 (en) 2011-01-20
RU2409874C9 true RU2409874C9 (en) 2011-05-20

Family

ID=41488806

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2008111884/09A RU2409874C9 (en) 2005-11-04 2005-11-04 Audio signal compression

Country Status (1)

Country Link
RU (1) RU2409874C9 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2610293C2 (en) * 2012-03-29 2017-02-08 Телефонактиеболагет Лм Эрикссон (Пабл) Harmonic audio frequency band expansion
RU2744477C2 (en) * 2012-03-29 2021-03-10 Телефонактиеболагет Л М Эрикссон (Пабл) Converting coding/decoding of harmonious audio signals
RU2825308C2 (en) * 2021-07-14 2024-08-23 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Encoding and decoding of pulse and residual parts of audio signal

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097889B (en) * 2013-02-20 2023-09-01 弗劳恩霍夫应用研究促进协会 Apparatus and method for generating or decoding encoded signals

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2610293C2 (en) * 2012-03-29 2017-02-08 Телефонактиеболагет Лм Эрикссон (Пабл) Harmonic audio frequency band expansion
RU2725416C1 (en) * 2012-03-29 2020-07-02 Телефонактиеболагет Лм Эрикссон (Пабл) Broadband of harmonic audio signal
RU2744477C2 (en) * 2012-03-29 2021-03-10 Телефонактиеболагет Л М Эрикссон (Пабл) Converting coding/decoding of harmonious audio signals
US11264041B2 (en) 2012-03-29 2022-03-01 Telefonaktiebolaget Lm Ericsson (Publ) Transform encoding/decoding of harmonic audio signals
US12027175B2 (en) 2012-03-29 2024-07-02 Telefonaktiebolaget Lm Ericsson (Publ) Transform encoding/decoding of harmonic audio signals
RU2825308C2 (en) * 2021-07-14 2024-08-23 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Encoding and decoding of pulse and residual parts of audio signal

Also Published As

Publication number Publication date
RU2409874C2 (en) 2011-01-20
RU2008111884A (en) 2009-12-10

Similar Documents

Publication Publication Date Title
JP4950210B2 (en) Audio compression
US10115407B2 (en) Method and apparatus for encoding and decoding high frequency signal
US9728196B2 (en) Method and apparatus to encode and decode an audio/speech signal
CN101276587B (en) Audio encoding apparatus and method thereof, audio decoding device and method thereof
KR101171098B1 (en) Scalable speech coding/decoding methods and apparatus using mixed structure
EP2786377B1 (en) Chroma extraction from an audio codec
CN103765509B (en) Code device and method, decoding device and method
US20070282599A1 (en) Method and apparatus to encode and/or decode signal using bandwidth extension technology
EP1852851A1 (en) An enhanced audio encoding/decoding device and method
US7805314B2 (en) Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data
KR20090043983A (en) Apparatus and method for encoding and decoding high frequency signal
CN103366750B (en) A kind of sound codec devices and methods therefor
EP1873753A1 (en) Enhanced audio encoding/decoding device and method
CN103366751B (en) A kind of sound codec devices and methods therefor
US20050254586A1 (en) Method of and apparatus for encoding/decoding digital signal using linear quantization by sections
JP2003108197A (en) Audio signal decoding device and audio signal encoding device
EP0919989A1 (en) Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal
RU2409874C2 (en) Audio signal compression
RU2414009C2 (en) Signal encoding and decoding device and method
Berglund Speech compression and tone detection in a real-time system
Liu The perceptual impact of different quantization schemes in G. 719
Pollak et al. Audio Compression using Wavelet Techniques
MXPA98010783A (en) Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal

Legal Events

Date Code Title Description
TH4A Reissue of patent specification
PC41 Official registration of the transfer of exclusive right

Effective date: 20160602