RU2574851C2 - Transform audio codec and methods for encoding and decoding time segment of audio signal - Google Patents

Transform audio codec and methods for encoding and decoding time segment of audio signal Download PDF

Info

Publication number
RU2574851C2
RU2574851C2 RU2014102965/08A RU2014102965A RU2574851C2 RU 2574851 C2 RU2574851 C2 RU 2574851C2 RU 2014102965/08 A RU2014102965/08 A RU 2014102965/08A RU 2014102965 A RU2014102965 A RU 2014102965A RU 2574851 C2 RU2574851 C2 RU 2574851C2
Authority
RU
Russia
Prior art keywords
residual vector
sign
audio
indicator
audio signal
Prior art date
Application number
RU2014102965/08A
Other languages
Russian (ru)
Other versions
RU2014102965A (en
Inventor
Володя ГРАНЧАРОВ
Сигурдур СВЕРРИССОН
Original Assignee
Телефонактиеболагет Лм Эрикссон (Пабл)
Filing date
Publication date
Application filed by Телефонактиеболагет Лм Эрикссон (Пабл) filed Critical Телефонактиеболагет Лм Эрикссон (Пабл)
Priority claimed from PCT/SE2011/050889 external-priority patent/WO2013002696A1/en
Publication of RU2014102965A publication Critical patent/RU2014102965A/en
Application granted granted Critical
Publication of RU2574851C2 publication Critical patent/RU2574851C2/en

Links

Images

Abstract

FIELD: physics, acoustics.
SUBSTANCE: invention relates to means of encoding/decoding the time segment of an audio signal. The method comprises deriving an indicator z of the position on a frequency scale of a residual vector associated with the time segment of the audio signal; deriving a measure Φ, related to the size of the structure of the residual vector; determining whether a predefined criterion involving the measure Φ, the indicator z and a predefined threshold θ, is fulfilled, which corresponds to estimating whether a change of sign of at least some of the non-zero coefficients of the residual vector would be audible after reconstruction of the audio signal time segment; encoding the respective amplitude of the coefficients of the residual vector, and encoding the signs of the coefficients of the residual vector only when it is determined that the criterion is fulfilled, and thus, that a change of sign would be audible.
EFFECT: high encoding efficiency in a transform audio codec.
26 cl, 8 dwg

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕFIELD OF THE INVENTION

[01] Данное изобретение относится к кодированию и декодированию временного сегмента аудиосигнала, и в частности, к кодированию и декодированию в аудиокодеке с преобразованием.[01] This invention relates to encoding and decoding a time segment of an audio signal, and in particular, to encoding and decoding in an audio transform codec.

УРОВЕНЬ ТЕХНИКИBACKGROUND

[02] Ранее известно использование схем кодирования области преобразования, например, как схема, описанная в [1]. Ниже будет дан общий обзор таких схем кодирования области преобразования.[02] The use of coding schemes for a transform domain is known, for example, as the circuit described in [1]. A general overview of such transform domain coding schemes will be given below.

[03] Колебательный сигнал, который должен быть кодирован, преобразуется на поблочной основе в частотную область. Одним широко используемым преобразованием, используемым для этой цели, является так называемое Модифицированное дискретное косинусное преобразование (MDCT). Полученный таким образом вектор преобразования частотной области разделяется на огибающую спектра (медленно изменяющаяся энергия) и остаток спектра. Остаток спектра получается посредством нормализации полученного вектора частотной области с помощью вышеуказанной огибающей спектра. Огибающая спектра квантуется, и индексы квантования передаются декодеру. Далее, квантованная огибающая спектра используется в качестве входного сигнала для алгоритма распределения битов, и биты для кодирования остаточных векторов распределяются на основе характеристик огибающей спектра. В качестве результата этого этапа, определенное число битов назначается разным частям остатка (остаточным векторам или "подвекторам"). Некоторые остаточные векторы не принимают никакие биты и должны быть заполнены шумом или расширены в полосе пропускания, что проиллюстрировано, например, на Фиг. 1. Обычно, кодирование остаточных векторов является двухэтапной процедурой; сначала кодируются амплитуды элементов вектора, и затем кодируется знак (который не следует путать с "фазой", которая ассоциирована, например, с преобразованиями Фурье) ненулевых элементов, что проиллюстрировано, например, на Фиг. 2. Индексы квантования для амплитуды и знака остатка передаются декодеру, где остаток и огибающая спектра объединяются, и в итоге преобразуются обратно во временную область.[03] The oscillation signal to be encoded is converted on a block basis to the frequency domain. One commonly used transform used for this purpose is the so-called Modified Discrete Cosine Transform (MDCT). The frequency domain transform vector obtained in this way is divided into the spectral envelope (slowly varying energy) and the remainder of the spectrum. The rest of the spectrum is obtained by normalizing the resulting vector of the frequency domain using the above envelope of the spectrum. The spectral envelope is quantized, and quantization indices are transmitted to the decoder. Further, a quantized spectral envelope is used as an input for the bit allocation algorithm, and bits for encoding residual vectors are allocated based on the characteristics of the spectral envelope. As a result of this step, a certain number of bits are assigned to different parts of the remainder (residual vectors or "subvectors"). Some residual vectors do not accept any bits and must be filled with noise or bandwidth-wide, as illustrated, for example, in FIG. 1. Usually, coding of residual vectors is a two-step procedure; first, the amplitudes of the elements of the vector are encoded, and then the sign (which should not be confused with the “phase”, which is associated, for example, with Fourier transforms) of nonzero elements is encoded, as illustrated, for example, in FIG. 2. Quantization indices for the amplitude and sign of the remainder are transmitted to the decoder, where the remainder and the envelope of the spectrum are combined, and eventually converted back to the time domain.

[04] Однако, когда число битов, доступных для кодирования, ограничено, как например, при низких или умеренных скоростях передачи битов, результат кодирования может быть неудовлетворительным.[04] However, when the number of bits available for encoding is limited, such as at low or moderate bit rates, the encoding result may be unsatisfactory.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

[05] Было бы желательно достигнуть улучшенной схемы кодирования области преобразования. Целью данного изобретения является обеспечение возможности эффективного кодирования в аудиокодере с преобразованием и соответствующего декодирования в аудиодекодере с преобразованием.[05] It would be desirable to achieve an improved transform domain coding scheme. An object of the present invention is to enable efficient coding in a transform audio encoder and corresponding decoding in a transform audio decoder.

[06] Согласно первому аспекту, предоставлен способ кодирования временного сегмента аудиосигнала в аудиокодере с преобразованием. Способ содержит этапы, на которых выводят указатель, z, положения на частотной шкале остаточного вектора, ассоциированного с временным сегментом аудиосигнала, и выводят показатель, Φ, относящийся к величине структуры остаточного вектора. Способ дополнительно содержит этап, на котором определяют, удовлетворен ли предварительно заданный критерий, предусматривающий показатель Φ, указатель z и предварительно заданный порог θ, что соответствует оценке, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала. Кодируется соответствующая амплитуда коэффициентов остаточного вектора, и знаки коэффициентов остаточного вектора кодируются, только когда определено, что критерий удовлетворен и, таким образом, что изменение знака будет слышно.[06] According to a first aspect, a method for encoding a time segment of an audio signal in a transform audio encoder is provided. The method comprises the steps of displaying a pointer, z, of the position on the frequency scale of the residual vector associated with the time segment of the audio signal, and deriving an indicator, Φ, related to the size of the residual vector structure. The method further comprises determining whether a predetermined criterion comprising an indicator Φ, a pointer z, and a predetermined threshold θ is satisfied, which corresponds to an assessment whether a change in sign of at least some of the non-zero coefficients of the residual vector after reconstruction of the time segment of the audio signal is heard . The corresponding amplitude of the coefficients of the residual vector is encoded, and the signs of the coefficients of the residual vector are encoded only when it is determined that the criterion is satisfied and so that a change in sign will be heard.

[07] Согласно второму аспекту, предоставлен аудиокодер с преобразованием для кодирования временного сегмента аудиосигнала. Аудиокодер с преобразованием содержит функциональный блок, который выполнен для вывода указателя, z, положения на частотной шкале остаточного вектора, ассоциированного с временным сегментом аудиосигнала, и вывода показателя, Φ, который относится к величине структуры остаточного вектора. Аудиокодер с преобразованием дополнительно содержит функциональный блок, который выполнен для определения, удовлетворен ли критерий, предусматривающий показатель Φ, указатель z, предварительно заданный порог θ. Аудиокодер с преобразованием дополнительно содержит функциональный блок, который выполнен для кодирования амплитуды коэффициентов остаточного вектора и кодирования соответствующего знака коэффициентов остаточного вектора, только когда определено, что критерий удовлетворен.[07] According to a second aspect, a transform audio encoder for encoding a time segment of an audio signal is provided. The audio encoder with the conversion contains a function block that is designed to output a pointer, z, a position on the frequency scale of the residual vector associated with the time segment of the audio signal, and output indicator Φ, which refers to the size of the structure of the residual vector. The audio encoder with the conversion further comprises a function block that is configured to determine if the criterion providing the metric Φ, the index z, a predetermined threshold θ is satisfied. The audio encoder with the conversion further comprises a function block that is configured to encode the amplitude of the coefficients of the residual vector and encode the corresponding sign of the coefficients of the residual vector only when it is determined that the criterion is satisfied.

[08] Вышеприведенный способ и аудиокодер с преобразованием могут быть использованы для обеспечения возможности эффективного кодирования с преобразованием аудиосигналов. При применении вышеописанного способа и аудиокодера с преобразованием, для кодирования аудиосигнала может требоваться меньше битов по сравнению с тем, когда используются ранее известные аудиокодеры с преобразованием. Даже если для кодирования используются меньше битов, воспринимаемое качество реконструированного аудиосигнала не ухудшается по сравнению с тем, когда используются известные ранее аудиокодеры с преобразованием. И наоборот, биты, которые были сбережены, могут вместо этого быть использованы для кодирования частей аудиосигнала, воспринимаемое качество которого могло бы быть улучшено, когда имеется доступ к увеличенному запасу битов для кодирования. Таким образом, вышеприведенный способ и компоновка обеспечивают возможность более эффективной схемы распределения битов для аудиокодеков области преобразования, так как биты могут быть сдвинуты к параметрам сигнала в аудиосигнале, которые более критичны к воспринимаемому качеству реконструированного сигнала. Таким образом, может быть достигнуто общее улучшение качества, в то же время сохраняя определенный запас битов.[08] The above method and the audio encoder with the conversion can be used to enable efficient encoding with the conversion of audio signals. When applying the above method and an audio encoder with conversion, fewer bits may be required to encode an audio signal compared to when previously known audio encoders with conversion are used. Even if fewer bits are used for encoding, the perceived quality of the reconstructed audio signal does not deteriorate compared to when previously known conversion audio encoders are used. Conversely, bits that have been saved can instead be used to encode parts of an audio signal whose perceived quality could be improved when access to an increased supply of bits for encoding is available. Thus, the above method and arrangement allows a more efficient bit allocation scheme for the audio codecs of the transform domain, since the bits can be shifted to the signal parameters in the audio signal, which are more critical to the perceived quality of the reconstructed signal. In this way, an overall improvement in quality can be achieved while maintaining a certain bit margin.

[09] Согласно третьему варианту осуществления, предоставлен способ декодирования кодированного временного сегмента аудиосигнала в аудиодекодере с преобразованием. Способ содержит этап, на котором декодируют амплитуды коэффициентов остаточного вектора сегмента вектора преобразования, ассоциированного с временным сегментом аудиосигнала. Способ дополнительно содержит этапы, на которых выводят указатель, z, положения на частотной шкале остаточного вектора и выводят показатель, Φ, относящийся к величине структуры остаточного вектора. Способ дополнительно содержит этап, на котором определяют, удовлетворен ли предварительно заданный критерий, предусматривающий показатель Φ, указатель z и предварительно заданный порог θ, что соответствует оценке, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала. Когда определено, что критерий удовлетворен, что соответствует тому, что изменение знака будет слышно в реконструированном аудиосигнале, кодируются знаки коэффициентов остаточного вектора. Когда определено, что критерий не удовлетворен, и таким образом, что изменение знака будет не слышно в реконструированном аудиосигнале, генерируется соответствующий произвольный знак для ненулевых коэффициентов остаточного вектора.[09] According to a third embodiment, there is provided a method for decoding an encoded time segment of an audio signal in a transform audio decoder. The method comprises the step of decoding the amplitudes of the coefficients of the residual vector of the segment of the transformation vector associated with the time segment of the audio signal. The method further comprises the steps of displaying a pointer, z, of the position on the frequency scale of the residual vector and deriving an indicator, Φ, related to the size of the structure of the residual vector. The method further comprises determining whether a predetermined criterion comprising an indicator Φ, a pointer z, and a predetermined threshold θ is satisfied, which corresponds to an assessment whether a change in sign of at least some of the non-zero coefficients of the residual vector after reconstruction of the time segment of the audio signal is heard . When it is determined that the criterion is satisfied, which corresponds to the fact that the sign change will be heard in the reconstructed audio signal, the signs of the residual vector coefficients are encoded. When it is determined that the criterion is not satisfied, and so that the sign change is not heard in the reconstructed audio signal, a corresponding arbitrary sign is generated for the non-zero residual vector coefficients.

[010] Согласно четвертому варианту осуществления, предоставлен аудиодекодер с преобразованием для декодирования кодированного временного сегмента аудиосигнала. Аудиодекодер с преобразованием содержит функциональный блок, который выполнен для декодирования соответствующей амплитуды коэффициентов остаточного вектора сегмента вектора преобразования, ассоциированного с временным сегментом аудиосигнала. Аудиодекодер с преобразованием содержит функциональный блок, который выполнен для вывода указателя, z, положения на частотной шкале остаточного вектора и вывода показателя, Φ, относящегося к величине структуры остаточного вектора. Аудиодекодер с преобразованием дополнительно содержит функциональный блок, который выполнен для определения, удовлетворен ли критерий, предусматривающий показатель Φ, указатель z и предварительно заданный порог θ. Аудиодекодер с преобразованием дополнительно выполнен для декодирования знака ненулевых коэффициентов остаточного вектора, только когда определено, что критерий удовлетворен. Аудиодекодер с преобразованием дополнительно содержит функциональный блок, который выполнен для генерирования соответствующего произвольного знака для ненулевых коэффициентов остаточного вектора, когда определено, что критерий не удовлетворен.[010] According to a fourth embodiment, a transform audio decoder is provided for decoding an encoded time segment of an audio signal. The audio decoder with the conversion contains a function block that is designed to decode the corresponding amplitude of the coefficients of the residual vector of the segment of the transformation vector associated with the time segment of the audio signal. The audio decoder with the conversion contains a function block that is designed to display the pointer, z, the position on the frequency scale of the residual vector and the output indicator, Φ, related to the size of the structure of the residual vector. The audio decoder with the conversion further comprises a function block that is configured to determine if the criterion providing the metric Φ, the index z, and the predetermined threshold θ are satisfied. The audio decoder with the conversion is additionally configured to decode the sign of the nonzero coefficients of the residual vector only when it is determined that the criterion is satisfied. The audio decoder with the conversion further comprises a function block that is configured to generate a corresponding arbitrary sign for the non-zero coefficients of the residual vector when it is determined that the criterion is not satisfied.

[011] Вышеприведенный способ в декодере и аудиодекодере/кодеке с преобразованием мог бы быть использован для декодирования аудиосигналов, которые кодированы с использованием способа и аудиокодера с преобразованием, описанными выше, и таким образом обеспечивает возможность эффективного кодирования и улучшенного распределения битов, рассмотренного выше.[011] The above method in the decoder and the audio decoder / codec with the conversion could be used to decode audio signals that are encoded using the method and the audio encoder with the conversion described above, and thus enables efficient encoding and improved bit allocation discussed above.

[012] Вышеприведенные способы и аудиокодер/аудиодекодер, или кодек, с преобразованием могут быть реализованы в разных вариантах осуществления. В некоторых вариантах осуществления, показатель, Φ, является так называемым показателем спектральной неравномерности. Предварительно заданный критерий может быть сформулирован как[012] The above methods and an audio encoder / audio decoder, or codec, with conversion can be implemented in various embodiments. In some embodiments, the metric, Φ, is a so-called spectral non-uniformity metric. A predefined criterion can be formulated as

ω1Φ+ω2z≤θ(b), где ω1 и ω2 являются коэффициентами масштабирования; и θ является порогом, который зависит от скорости передачи битов кодека (кодера/декодера), ω1, ω2 и θ могут быть, по меньшей мере частично, выведены из эмпирических данных восприятия.ω 1 Φ + ω 2 z≤θ (b), where ω 1 and ω 2 are scaling factors; and θ is a threshold that depends on the bit rate of the codec (encoder / decoder), ω 1 , ω 2 and θ can be at least partially derived from empirical sensing data.

[013] К тому же, порог θ может быть выполнен с возможностью увеличения при увеличенной скорости передачи битов кодека. Это дает преимущество того, что кодирование адаптировано для количества битов, которые доступны для кодирования. Например, при высоких скоростях передачи битов, запас битов может обеспечить возможность кодирования знаков ненулевых коэффициентов большинства или даже всех остаточных векторов. Если порог θ выполнен с возможностью увеличения при увеличенной скорости передачи битов (и таким образом запасе битов), порог θ может быть сконфигурирован так, чтобы критерий был удовлетворен для большинства (или всех) остаточных векторов при высоких скоростях передачи битов, тогда как для более низких скоростей передачи битов (и таким образом, ограниченного запаса битов), больше остаточных векторов будут с кодированной амплитудой, но в декодере будут назначены произвольные знаки.[013] In addition, the threshold θ can be configured to increase with an increased bit rate of the codec. This gives the advantage that the encoding is adapted to the number of bits that are available for encoding. For example, at high bit rates, a bit margin may provide the ability to encode characters of non-zero coefficients of most or even all residual vectors. If the threshold θ is configured to increase with an increased bit rate (and thus the bit margin), the threshold θ can be configured so that the criterion is satisfied for most (or all) residual vectors at high bit rates, while for lower bit rates (and thus a limited bit margin), more residual vectors will be with coded amplitude, but arbitrary characters will be assigned in the decoder.

[014] К тому же, показатель, Φ, мог бы быть выведен, только когда указатель, z, указывает, что остаточный вектор размещен в частотах выше предварительно заданной переходной частоты Zc, которая зависит от скорости передачи битов кодека (кодера/декодера). Тем самым, можно было бы избежать довольно сложного вычисления Φ для остаточных векторов, изменение знака некоторых коэффициентов которых было бы вероятно слышно в реконструированном аудиосигнале. Таким образом, можно сберечь вычислительные ресурсы. Переходная частота, которая увеличивается при увеличенной скорости передачи битов и запасе битов, обеспечивает, что знаки одного или более остаточных векторов с кодированной амплитудой будут кодированы, когда запас битов обеспечит возможность для этого.[014] In addition, the index, Φ, could be removed only when the pointer, z, indicates that the residual vector is placed at frequencies above a predetermined transition frequency Z c, which depends on the transmission rate codec bits (encoder / decoder) . Thus, it would be possible to avoid a rather complicated calculation of Φ for residual vectors, the change of sign of some coefficients of which would probably be heard in the reconstructed audio signal. Thus, you can save computing resources. The transition frequency, which increases with increased bit rate and bit stock, ensures that the signs of one or more residual vectors with encoded amplitude are encoded when the bit stock provides the opportunity.

[015] В вариантах осуществления изобретения, где для кодирования остаточного вектора используется схема факториального импульсного кодирования, FPC, показатель ΦFPC мог бы быть выведен очень эффективным с точки зрения низкой сложности вычислений образом, а именно:[015] In embodiments where the vector for coding the residual using factorial pulse coding circuit, FPC, Φ FPC parameter could be derived very efficient in terms of computational complexity low way, namely:

Figure 00000001
Figure 00000001

где NNZP является числом ненулевых положений в остаточном векторе, и NTP является суммарным числом импульсов в остаточном векторе.where N NZP is the number of nonzero positions in the residual vector, and N TP is the total number of pulses in the residual vector.

[016] Вышеприведенные варианты осуществления в основном были описаны в том, что касается способа. Однако, вышеприведенное описание также предназначено для охвата вариантов осуществления аудиокодера и декодера с преобразованием, выполненных для обеспечения возможности выполнения вышеописанных признаков. Разные признаки вышеприведенных примерных вариантов осуществления могут быть скомбинированы разным образом согласно необходимости, требованиям или предпочтению.[016] The above embodiments have mainly been described with regard to the method. However, the above description is also intended to cover embodiments of the audio encoder and the decoder with the conversion, made to enable the fulfillment of the above features. The various features of the above exemplary embodiments may be combined in different ways according to need, requirements or preference.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[017] Теперь данное изобретение будет более подробно описано в качестве примера и со ссылкой на приложенные чертежи, на которых:[017] Now the invention will be described in more detail by way of example and with reference to the attached drawings, in which:

Фиг. 1 является схематичной диаграммой, иллюстрирующей огибающую спектра и кодирование соответствующего остатка, согласно известному уровню техники.FIG. 1 is a schematic diagram illustrating a spectral envelope and coding of a corresponding remainder according to the prior art.

Фиг. 2 является диаграммой, иллюстрирующей две стадии квантования остатка. График сверху иллюстрирует результат первой стадии квантования остатка, где амплитуда каждого элемента вектора кодируется независимо от знака. График снизу иллюстрирует второй этап квантования, где знак добавляется к уже кодированной амплитуде. Добавление знака является эквивалентным умножению на +1 или -1.FIG. 2 is a diagram illustrating two steps of quantizing a remainder. The graph above illustrates the result of the first stage of quantization of the remainder, where the amplitude of each element of the vector is encoded regardless of the sign. The graph below illustrates the second quantization step, where the character is added to the already encoded amplitude. Adding a character is equivalent to multiplying by +1 or -1.

Фиг. 3 является схематичной диаграммой, иллюстрирующей огибающую спектра и соответствующий остаток, согласно приведенному в качестве примера варианту осуществления данного изобретения.FIG. 3 is a schematic diagram illustrating an envelope of a spectrum and a corresponding remainder according to an exemplary embodiment of the present invention.

Фиг. 4 является схемой последовательности операций, иллюстрирующей действия в процедуре в аудиокодере с преобразованием, согласно приведенному в качестве примера варианту осуществления.FIG. 4 is a flowchart illustrating actions in a procedure in a transform audio encoder according to an exemplary embodiment.

Фиг. 5 является блок-схемой, иллюстрирующей аудиокодер с преобразованием, согласно приведенному в качестве примера варианту осуществления.FIG. 5 is a block diagram illustrating a transform audio encoder according to an exemplary embodiment.

Фиг. 6 является схемой последовательности операций, иллюстрирующей действия в процедуре в аудиодекодере с преобразованием, согласно приведенному в качестве примера варианту осуществления.FIG. 6 is a flowchart illustrating steps in a procedure in a transform audio decoder according to an exemplary embodiment.

Фиг. 7 является блок-схемой, иллюстрирующей аудиодекодер с преобразованием, согласно приведенному в качестве примера варианту осуществления.FIG. 7 is a block diagram illustrating a converted audio decoder according to an exemplary embodiment.

Фиг. 8 является блок-схемой, иллюстрирующей компоновку в аудиокодере с преобразованием, согласно приведенному в качестве примера варианту осуществления.FIG. 8 is a block diagram illustrating a layout in a transform audio encoder according to an exemplary embodiment.

ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION

[018] В традиционных схемах, изложенных выше, распределение битов для разных остаточных векторов полностью основано на огибающей спектра. Новая схема для кодирования с преобразованием, описанная в настоящем документе, обеспечивает возможность сбережения битов на основе анализа остаточных векторов, и данная схема может быть применена в схемах кодирования области преобразования, где последовательно кодируются амплитуда и знак, относящиеся к остаточным векторам. Новая схема обеспечивает возможность более эффективного кодирования определенных участков аудиосигналов, по сравнению с традиционными способами, посредством обеспечения возможности сбережения битов, которые были ранее потрачены на кодирование характеристик, в частности остаточных векторов, характеристики которых, фактически, не слышны в первоначальном и/или реконструированном аудиосигнале.[018] In the traditional schemes set forth above, the distribution of bits for different residual vectors is completely based on the spectral envelope. The new scheme for transform coding described in this document provides the possibility of saving bits based on the analysis of residual vectors, and this scheme can be applied in coding schemes of the transform domain, where the amplitude and sign related to the residual vectors are coded. The new scheme provides the possibility of more efficient coding of certain sections of audio signals, compared with traditional methods, by providing the possibility of saving bits that were previously spent on coding characteristics, in particular residual vectors, the characteristics of which are not, in fact, audible in the original and / or reconstructed audio signal .

[019] "Остаточный вектор" в настоящем документе означает часть или сегмент остатка вектора преобразования, относящегося к временному сегменту аудиосигнала. Таким образом, остаточный вектор мог бы быть обозначен как "остаточный подвектор", или аналогично.[019] "Residual vector" as used herein means a portion or segment of the remainder of a transform vector related to a time segment of an audio signal. Thus, the residual vector could be designated as a “residual subvector,” or the like.

[020] Термин "аудиокодек с преобразованием" или "кодек с преобразованием" охватывает пару кодер-декодер и является термином, который обычно используется в данной области техники. В рамках этого раскрытия, термины "аудиокодер с преобразованием" и "аудиодекодер с преобразованием" используются для того, чтобы по отдельности описать функции/части кодека с преобразованием. Термины "аудиокодер с преобразованием" и "аудиодекодер с преобразованием" могли бы таким образом быть заменены на, или интерпретированы как, термин "аудиокодек с преобразованием" или "кодек с преобразованием". Кодер и декодер работают с одинаковой скоростью передачи битов. Таким образом, выражения "скорость передачи битов кодера" и "скорость передачи битов декодера" могли бы быть заменены на, или интерпретированы как, "скорость передачи битов кодека".[020] The term “audio conversion codec” or “conversion codec” encompasses a codec-decoder pair and is a term that is commonly used in the art. For the purposes of this disclosure, the terms “audio encoder with transform” and “audio decoder with transform” are used to separately describe the functions / parts of a transform codec. The terms “audio encoder with conversion” and “audio decoder with conversion” could thus be replaced by, or interpreted as, the term “audio codec with conversion” or “codec with conversion”. The encoder and decoder operate at the same bit rate. Thus, the expressions "encoder bit rate" and "decoder bit rate" could be replaced by, or interpreted as, "codec bit rate".

[021] Фиг. 1 иллюстрирует огибающую спектра вектора преобразования, соответствующего временному сегменту аудиосигнала. К тому же, на Фиг. 1, кодирование соответствующего остатка проиллюстрировано линией 102. Сплошные части линии иллюстрируют остаточные векторы, которые кодированы, и пунктирные части линии иллюстрируют остаточные векторы, которые не кодированы, но которые вместо этого заполнены шумом или расширены в полосе пропускания. Секции, которые заполнены шумом или расширены в полосе пропускания, обычно являются остаточными векторами низкой энергии. Биты не тратятся на кодирование этих остаточных векторов, но вместо этого приемник/декодер, например, заполняет "промежуток" шумом, или копирует другой, например соседний, остаточный вектор (или подвектор), который используется вместо некодированного или "пропущенного" остаточного вектора.[021] FIG. 1 illustrates a spectral envelope of a transform vector corresponding to a time segment of an audio signal. In addition, in FIG. 1, the coding of the corresponding residual is illustrated by line 102. The solid portions of the line illustrate residual vectors that are encoded, and the dotted parts of the line illustrate residual vectors that are not encoded, but which are instead filled with noise or expanded in the passband. Sections that are filled with noise or expanded in the passband are usually low-energy residual vectors. Bits are not spent on encoding these residual vectors, but instead, the receiver / decoder, for example, fills the “gap” with noise, or copies another, for example, neighboring, residual vector (or subvector), which is used instead of the uncoded or “skipped” residual vector.

[022] Фиг. 2 иллюстрирует кодирование квантованного остаточного вектора, содержащего восемь элементов или элементов разрешения по частоте. Верхний график показывает амплитуду элементов остаточного вектора, который кодирован на первом этапе кодирования. Нижний график показывает амплитуду и также знак восьми элементов. Знак каждого элемента кодируется на втором этапе кодирования. "Остаточный вектор" мог содержать разное количество элементов, в зависимости от того, например, какой кодек используется, или размещения в частоте остаточного вектора.[022] FIG. 2 illustrates the encoding of a quantized residual vector containing eight elements or frequency resolution elements. The upper graph shows the amplitude of the elements of the residual vector, which is encoded in the first stage of encoding. The bottom graph shows the amplitude and also the sign of eight elements. The sign of each element is encoded in a second encoding step. The "residual vector" could contain a different number of elements, depending on, for example, which codec is used, or the placement of the frequency of the residual vector.

[023] Как упоминалось ранее, есть участки аудиосигналов, которые могут быть кодированы более эффективно, и таким образом, можно было бы сберечь биты, которые могли бы быть лучше использованы где-либо еще. Однако, для того, чтобы обработать эти участки особым образом, они должны быть идентифицированы, что не является тривиальной проблемой. Ниже будет описана схема для идентификации или выбора таких участков в аудиосигнале и для кодирования этих участков эффективным образом. Чем больше участков, которые могут быть кодированы более эффективно, тем больше битов можно сберечь. Однако, предпочтительно сберегать биты, не вызывая воспринимаемое ухудшение реконструированного аудиосигнала.[023] As mentioned earlier, there are portions of audio signals that can be encoded more efficiently, and thus, bits could be saved that could be better used elsewhere. However, in order to treat these areas in a special way, they must be identified, which is not a trivial problem. A scheme will be described below for identifying or selecting such portions in an audio signal and for encoding these portions in an efficient manner. The more sections that can be encoded more efficiently, the more bits can be saved. However, it is preferable to preserve the bits without causing a perceived degradation of the reconstructed audio signal.

[024] Человеческая слуховая система очень развита и имеет определенные свойства, которые все еще не объяснены, несмотря на многочисленные попытки, сделанные исследователями, например, в области восприятия, чтобы найди объяснение, например, посредством выполнения различных фундаментальных тестов на прослушивание. Одним таким еще не объясненным свойством является значение фазы в аудиосигналах. Однако, фундаментальные тесты на прослушивание, где разные реконструированные аудиостимулы с переменной фазой были представлены слушателям, дали в результате некоторое базовое знание. Например, одним признаком человеческой слуховой системы является то, что "шумоподобные" сегменты сигнала звучат одинаково для слушателя, даже если первоначальная фаза сегментов сигнала изменена. Другими словами, очень трудно для слушателя-человека воспринять разницу между разными реализациями шума. К тому же, чем выше частота сегмента аудиосигнала, тем человеческая слуховая система менее чувствительна к разностям фаз, которые таким образом становятся менее слышны при увеличенной частоте.[024] The human auditory system is highly developed and has certain properties that are still not explained, despite the numerous attempts made by researchers, for example, in the field of perception, to find an explanation, for example, by performing various fundamental listening tests. One such property not yet explained is the phase value in the audio signals. However, fundamental listening tests, where various reconstructed variable-phase audio stimuli were presented to listeners, yielded some basic knowledge. For example, one sign of the human auditory system is that the “noise-like” signal segments sound the same to the listener, even if the initial phase of the signal segments is changed. In other words, it is very difficult for a human listener to perceive the difference between different realizations of noise. Moreover, the higher the frequency of the audio signal segment, the human auditory system is less sensitive to phase differences, which thus become less audible at an increased frequency.

[025] В предложенной в настоящем документе схеме для улучшения эффективности аудиокодирования с преобразованием, вышеописанные свойства человеческой слуховой системы эксплуатируются и используются для кодирования аудиосигнала. В аудиокодировании с преобразованием, знак коэффициентов преобразования относится к фазе аудиосигнала. Данные свойства используются посредством того, что кодируется только амплитуда, а не знак ненулевых элементов или коэффициентов в остаточном векторе, когда ожидается, что изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора не будет слышно после реконструкции временного сегмента аудиосигнала. Это могло быть также выражено, как если кодируются и амплитуда, и знак ненулевых элементов или коэффициентов в остаточном векторе, когда ожидается, что изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора будет слышно после реконструкции временного сегмента аудиосигнала.[025] In the scheme proposed herein to improve the efficiency of audio coding with conversion, the above-described properties of the human auditory system are operated and used to encode an audio signal. In audio conversion coding, the sign of the conversion coefficients refers to the phase of the audio signal. These properties are used by means of the fact that only the amplitude is encoded, and not the sign of nonzero elements or coefficients in the residual vector, when it is expected that a change in the sign of at least some of the nonzero coefficients of the residual vector will not be heard after reconstruction of the time segment of the audio signal. This could also be expressed as if both the amplitude and the sign of the nonzero elements or coefficients in the residual vector are encoded, when it is expected that a change in the sign of at least some of the nonzero coefficients of the residual vector will be heard after reconstruction of the time segment of the audio signal.

[026] Идентификация и выбор остаточных векторов, для которых кодирование знака может быть опущено без воспринимаемого ухудшения реконструированного аудиосигнала, и таким образом, у которых амплитуда остаточных векторов, но не знак, должна быть кодирована, основаны на двух параметрах:[026] The identification and selection of residual vectors for which character encoding can be omitted without perceived deterioration of the reconstructed audio signal, and thus, for which the amplitude of the residual vectors, but not the sign, must be encoded, are based on two parameters:

- показателе, Φ, который отражает "структуру" остаточного вектора, например, так называемом "показателе неравномерности" (где "неравномерность" относится к распределению энергии по частоте). Предпочтительно, должно быть возможно вычислить или вывести показатель Φ на основе остаточного вектора "с кодированной амплитудой" в декодере, так чтобы не требовалось тратить биты на сигнализирование этого показателя от кодера к декодеру. В этом описании, показатель Φ является значением между 0 и 1 (Φ∈(0,1)), где шумоподобные сегменты сигнала, имеющие низкую величину структуры, такую как, например, в белом шуме, воспроизводят значение ближе к Φ=1, и сегменты сигнала, имеющие большую величину структуры, такую как, например, в сигнале, содержащем тоны (синусоиды) в нескольких частотах, воспроизводят значения ближе к Φ=0.- an indicator, Φ, which reflects the "structure" of the residual vector, for example, the so-called "unevenness index" (where "unevenness" refers to the energy distribution over the frequency). Preferably, it should be possible to calculate or derive the metric Φ based on the residual “encoded amplitude” vector in the decoder so that it is not necessary to spend bits on signaling this metric from the encoder to the decoder. In this description, the exponent Φ is a value between 0 and 1 (Φ∈ (0,1)), where noise-like signal segments having a low structure value, such as, for example, in white noise, reproduce a value closer to Φ = 1, and signal segments having a large structure value, such as, for example, in a signal containing tones (sinusoids) at several frequencies, reproduce values closer to Φ = 0.

- индексе частоты, zi, конкретного остаточного вектора i. Индекс zi частоты должен указывать, где на частотной шкале расположен остаточный вектор i. В следующем описании предполагается, что остаточные векторы упорядочены, например так, что: вектор с индексом z=1 занимает, например, частоты 1-200 Гц, вектор с индексом z=2 занимает, например, частоты 201-400 Гц и вектор с индексом z=3 занимает, например, частоты 401-600 Гц, и т.д. Итак, здесь, большее значение индекса zi частоты соответствует остаточному вектору i, который расположен по центру более высоких частот (чем остаточный вектор, имеющий более низкий индекс частоты).- frequency index, z i , a specific residual vector i. The frequency index z i should indicate where the residual vector i is located on the frequency scale. In the following description, it is assumed that the residual vectors are ordered, for example, such that: a vector with index z = 1 takes, for example, 1-200 Hz, a vector with index z = 2 takes, for example, 201-400 Hz and a vector with index z = 3 takes, for example, frequencies 401-600 Hz, etc. So, here, a larger value of the frequency index z i corresponds to the residual vector i, which is located in the center of higher frequencies (than the residual vector having a lower frequency index).

Эти параметры, Φ и z, отражают два свойства человеческой слуховой системы, рассмотренные выше, в том, что:These parameters, Φ and z, reflect the two properties of the human auditory system discussed above in that:

Φ указывает, насколько шумоподобным является сигнал, что отражает свойство, что "шумоподобные" сегменты сигнала звучат одинаково, даже если их первоначальная фаза заменена;Φ indicates how noise-like the signal is, which reflects the property that the “noise-like” segments of the signal sound the same, even if their original phase is replaced;

z указывает положение на частотной шкале, которое отражает свойство, что разницы фаз менее слышны при более высоких частотах.z indicates a position on the frequency scale that reflects the property that phase differences are less audible at higher frequencies.

[027] Так называемый показатель (1) неравномерности относится к распределению энергии по частоте и к величине структуры остаточного вектора и задан как:[027] The so-called non-uniformity indicator (1) refers to the energy distribution in frequency and to the magnitude of the structure of the residual vector and is defined as:

Figure 00000002
Figure 00000002

где xn является остаточным вектором с кодированной амплитудой (т.е. знак не нужен, см. первый график на Фиг. 2) с размерностью N=8. Из определения показателя неравномерности следует, что Φ∈(0,1), и Φ→0, когда величина структуры увеличивается.where x n is a residual vector with encoded amplitude (i.e., the sign is not needed, see the first graph in Fig. 2) with dimension N = 8. From the definition of the non-uniformity index it follows that Φ∈ (0,1), and Φ → 0, when the value of the structure increases.

[028] Так как знак становится более важным с уменьшением Φ (в сторону большей величины структуры) и уменьшением z (в сторону менее слышимых частот), и наоборот, решение, кодировать ли знак или нет, может быть принято на повекторной основе, например, согласно (2), так что знак кодируется, когда удовлетворен определенный критерий, и знак не кодируется, когда определенный критерий не удовлетворен (или наоборот, в зависимости от того, как сформулирован критерий):[028] Since the sign becomes more important with decreasing Φ (towards a larger structure) and decreasing z (towards less audible frequencies), and vice versa, the decision whether to encode the sign or not can be made on a per-vector basis, for example, according to (2), so that the sign is encoded when a certain criterion is satisfied, and the sign is not encoded when a certain criterion is not satisfied (or vice versa, depending on how the criterion is formulated):

Figure 00000003
Figure 00000003

Здесь ω1 и ω2 являются коэффициентами масштабирования, которые были найдены эмпирически. Порог θ(b), который также найден эмпирически, здесь зависит от скорости передачи битов кодека, b, где b, например, может принимать значения b ∈ {24,32,64,96,128} кбит/с. Когда θ(b) спроектирован для увеличения со скоростью передачи битов, несколько векторов будут кодированы с произвольной фазой (т.е. кодированная амплитуда, но не знак) с более высокими скоростями передачи битов.Here, ω 1 and ω 2 are the scaling factors that were found empirically. The threshold θ (b), which is also found empirically, depends on the bit rate of the codec, b, where b, for example, can take values b ∈ {24,32,64,96,128} kbit / s. When θ (b) is designed to increase with the bit rate, several vectors will be encoded with an arbitrary phase (i.e., encoded amplitude, but not sign) with higher bit rates.

[029] Знак является ощутимо важным при низких частотах, и вследствие этого, на практике, знак будет почти без исключения кодирован ниже некоторой определенной частоты. Следовательно, уменьшение сложности может быть достигнуто посредством введения правила, указывающего, что показатель Φ неравномерности не должен вычисляться для остаточных векторов ниже определенной частоты, Z. Например, логика в (2) может быть использована только для остаточных векторов выше предварительно заданной "переходной" частоты Zc(b); тогда как для остаточных векторов ниже "переходной" частоты Zc(b), фаза "всегда" кодируется без вычисления Φ. Это может быть сформулировано в псевдокоде как:[029] The mark is significantly important at low frequencies, and as a result, in practice, the mark will be encoded almost without exception below a certain specific frequency. Therefore, a reduction in complexity can be achieved by introducing a rule indicating that the irregularity factor Φ should not be calculated for residual vectors below a certain frequency, Z. For example, the logic in (2) can only be used for residual vectors above a predetermined "transition" frequency Z c (b); whereas for residual vectors below the "transition" frequency Z c (b), the phase is "always" encoded without calculating Φ. This can be stated in pseudocode as:

Figure 00000004
Figure 00000004

[030] В случае использования схемы факториального импульсного кодирования (FPC), описанной, например, в [2], для кодирования остатка, возможно вычисление Φ c низкой сложностью, по меньшей мере для низких и умеренных скоростей передачи битов кодека. Так как в FPC остаточный вектор с кодированной амплитудой состоит из единичных импульсов, добавленных к определенным положениям или элементам разрешения по частоте/частотам (возможно поверх друг друга), величина структуры в таком остаточном векторе может быть измерена как:[030] In the case of using the factorial pulse coding (FPC) scheme described, for example, in [2], for coding the remainder, it is possible to calculate Φ with low complexity, at least for low and moderate bit rates of the codec. Since in FPC the residual vector with coded amplitude consists of single pulses added to certain positions or frequency / frequency resolution elements (possibly on top of each other), the structure value in such a residual vector can be measured as:

Figure 00000005
Figure 00000005

где NNZP является числом ненулевых положений в векторе, и NTP является суммарным числом импульсов в векторе. Исполнение (4) предусматривает очень низкую сложность, так как все требуемые параметры (NNZP и NTP) легко доступны в традиционном FPC-кодировании. Эта "аппроксимация" или вычисление Φ c низкой сложностью является действительным, когда остаточному вектору назначено умеренное число импульсов.where N NZP is the number of nonzero positions in the vector, and N TP is the total number of pulses in the vector. Execution (4) provides a very low complexity, since all the required parameters (N NZP and N TP ) are easily accessible in traditional FPC encoding. This “approximation” or calculation of Φ with low complexity is valid when a moderate number of pulses is assigned to the residual vector.

[031] Таким образом, для каждого остаточного вектора, для которого кодируется только амплитуда, а не знак, можно сберечь столько битов, сколько ненулевых коэффициентов в векторе, по сравнению с традиционными способами. Сбереженные биты могли бы быть распределены для использования, например, в кодировании остаточных векторов, которое извлекло бы пользу из увеличенного "запаса битов кодирования", в соответствии с известными схемами распределения битов. Фактическая схема для распределения битов не является частью данного изобретения.[031] Thus, for each residual vector for which only the amplitude is encoded, and not the sign, you can save as many bits as there are non-zero coefficients in the vector, compared to traditional methods. The saved bits could be allocated for use, for example, in coding of residual vectors, which would benefit from an increased “supply of coding bits”, in accordance with known bit allocation schemes. The actual scheme for bit allocation is not part of this invention.

[032] На Фиг. 3, остаточные векторы, для которых амплитуда, но не знак, кодируется в соответствии с приведенным в качестве примера вариантом осуществления, проиллюстрированы двойной линией. Одиночная линия и пунктирная линия представляет такое же кодирование, как на Фиг. 1, т.е. кодирование как амплитуды, так и знака (одиночная линия), и отсутствие кодирования вообще (пунктирная линия). Таким образом, может быть видно из Фиг. 3, что использование предложенной схемы для улучшенного кодирования остаточных векторов приводит к сбережению битов по сравнению с кодированием, проиллюстрированным на Фиг. 1.[032] In FIG. 3, residual vectors for which the amplitude, but not the sign, is encoded in accordance with an exemplary embodiment, are illustrated by a double line. The single line and the dashed line represent the same coding as in FIG. 1, i.e. coding of both amplitude and sign (single line), and the lack of coding in general (dashed line). Thus, it can be seen from FIG. 3 that the use of the proposed scheme for improved coding of residual vectors results in bit savings compared to the coding illustrated in FIG. one.

[033] Приведенный в качестве примера вариант осуществления процедуры для кодирования временного сегмента аудиосигнала будет описан ниже, со ссылкой на Фиг. 4. Процедура подходит для использования в аудиокодере с преобразованием, таком как, например, MDCT-кодере, или другом кодере, где амплитуда и знак остаточного вектора кодируются по отдельности или последовательно. В первую очередь подразумевается, что аудиосигнал содержит речь, но может также, или в качестве альтернативы, содержать, например, музыку.[033] An exemplary embodiment of a procedure for encoding a time segment of an audio signal will be described below with reference to FIG. 4. The procedure is suitable for use in an audio encoder with a transform, such as, for example, an MDCT encoder, or another encoder, where the amplitude and sign of the residual vector are encoded individually or sequentially. First of all, it is understood that the audio signal contains speech, but may also, or alternatively, contain, for example, music.

[034] Изначально, остаточный вектор получают в действии 402. Остаточный вектор выводят с использованием любого вследствие этого подходящего способа, например, способа, который используется в традиционных MDCT-кодеках, и выводят из сегмента вектора преобразования, ассоциированного с временным сегментом аудиосигнала. Заранее известно, как вывести остаточный вектор.[034] Initially, the residual vector is obtained in step 402. The residual vector is derived using any suitable method, for example, the method used in traditional MDCT codecs, and is derived from the segment of the transform vector associated with the time segment of the audio signal. It is known in advance how to derive a residual vector.

[035] Затем, указатель, z, положения на частотной шкале остаточного вектора выводят в действии 404. Как описано ранее, z может быть целочисленным, где большее значение z указывает, что остаточный вектор содержит более высокие частоты, так например, z=1 указывает частоты 1-200 Гц; z=2 указывает частоты 201-400 Гц и т.д. Другие альтернативные варианты индексации также возможны, альтернативные варианты которой будут, возможно, требовать соответствующее регулирование других параметров, описанных ниже, для того, чтобы обеспечить возможность корректной идентификации остаточных векторов, для которых должна быть кодирована амплитуда, но не знак.[035] Then, the pointer, z, positions on the frequency scale of the residual vector are output in step 404. As described previously, z can be integer, where a larger value of z indicates that the residual vector contains higher frequencies, for example, z = 1 indicates frequencies of 1-200 Hz; z = 2 indicates frequencies 201-400 Hz, etc. Other alternative indexing options are also possible, alternatives of which will probably require appropriate adjustment of the other parameters described below in order to ensure the correct identification of residual vectors for which the amplitude but not the sign should be encoded.

[036] К тому же, показатель структуры, Φ, выводят в действии 410. Φ мог бы быть выведен как так называемый показатель неравномерности, который задан в уравнении (1) выше. В случае FPC, Φ мог бы быть выведен, как задано в уравнении (4) выше. При применении переходной частоты Zc, ниже которой должны быть кодированы и амплитуда, и знак, в действии 406 может быть определено, указывает ли индекс z остаточного вектора частоты ниже переходной частоты Zc или нет, и это действие может быть предпринято в соответствии с результатом действия 406. Когда обнаружено, что z указывает частоты ниже переходной частоты Zc, в действии 408 кодируют и амплитуду, и знак остаточного вектора; и когда обнаружено, что z указывает частоты выше переходной частоты Zc, в действии 410 выводят показатель Φ.[036] In addition, the exponent of the structure, Φ, is derived in step 410. Φ could be inferred as the so-called non-uniformity exponent, which is given in equation (1) above. In the case of FPC, Φ could be inferred as given in equation (4) above. When applying the transition frequency Z c , below which both the amplitude and the sign should be encoded, in step 406 it can be determined whether the index z indicates the residual frequency vector below the transition frequency Z c or not, and this action can be taken in accordance with the result steps 406. When it is found that z indicates frequencies below the transition frequency Z c , in step 408 both the amplitude and the sign of the residual vector are encoded; and when it is found that z indicates frequencies above the transition frequency Z c , in step 410, the exponent Φ is derived.

[037] К тому же, когда Φ был выведен, в действии 412 определяют, удовлетворен ли критерий, предусматривающий показатель Φ, указатель z, предварительно заданный порог θ. Критерий должен быть сформулирован таким образом, чтобы определение, удовлетворен ли критерий, соответствовало оценке, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала.[037] In addition, when Φ was deduced, it is determined in step 412 whether the criterion providing the exponent Φ, the index z, and a predetermined threshold θ are satisfied. The criterion should be formulated in such a way that the determination of whether the criterion is met corresponds to an assessment of whether the change in sign of at least some of the non-zero coefficients of the residual vector after reconstruction of the time segment of the audio signal will be heard.

[038] Таким образом, когда определено, что критерий удовлетворен, и таким образом, что изменение знака будет слышно, амплитуду и знак кодируют в действии 408. Когда определено, что критерий не удовлетворен, в действии 412 кодируется амплитуда, но не знак. Критерий может в качестве альтернативы быть сформулирован так, что амплитуда и знак должны быть кодированы, когда критерий не удовлетворен, и когда критерий удовлетворен, должна быть кодирована амплитуда, но не знак. Этот альтернативный вариант проиллюстрирован оператором и альтернативными результатами в круглых скобках применительно к действию 412 на Фиг. 4. Считается, что эта альтернативная формулировка критерия должна быть охвачена формулировкой независимых пунктов формулы изобретения, даже если они, по причине разборчивости и ясности, направлены на первый альтернативный вариант.[038] Thus, when it is determined that the criterion is satisfied, and so that the sign change is audible, the amplitude and sign are encoded in step 408. When it is determined that the criterion is not satisfied, the amplitude, but not the sign, is encoded in step 412. Alternatively, the criterion can be formulated so that the amplitude and sign must be encoded when the criterion is not satisfied, and when the criterion is satisfied, the amplitude, but not the sign, must be encoded. This alternative is illustrated by the operator and alternative results in parentheses with reference to act 412 in FIG. 4. It is believed that this alternative formulation of the criterion should be covered by the wording of the independent claims, even if they, due to legibility and clarity, are directed to the first alternative.

[039] Критерий может быть сформулирован как: ω1Φ + ω2z ≤ θ, где ω1 и ω2 являются коэффициентами масштабирования; и θ является порогом, который может зависеть от скорости b передачи битов кодера/кодека. Порог θ предпочтительно выполнен с возможностью увеличения при увеличении скорости передачи битов, как описано ранее.[039] The criterion can be formulated as: ω 1 Φ + ω 2 z ≤ θ, where ω 1 and ω 2 are scaling factors; and θ is a threshold that may depend on the bit rate of the encoder / codec. The threshold θ is preferably configured to increase with increasing bit rate, as described previously.

[040] Коэффициенты ω1 и ω2 масштабирования могут быть найдены эмпирически посредством выполнения тестов на прослушивание. В тестах на прослушивание, слушателям может быть дана инструкция указывать, как воспринимается тестовый аудиосигнал, например, воспринимается ли какое-либо ухудшение сигнала, с использованием тестовых сигналов, выведенных для разных значений ω1 и ω2. Порог θ может быть выведен аналогичным образом в спроектированных вследствие этого тестах на прослушивание, генерирующих эмпирические данные восприятия. В конкретной реализации, где Φ и z отмасштабированы, чтобы быть между 0 и 1, примерными значениями ω1 и ω2 могут быть, например, ω1=0,2 и ω2=0,8; и θ может быть значением между 0<θ<2.[040] The scaling factors ω 1 and ω 2 can be found empirically by performing listening tests. In listening tests, listeners can be instructed to indicate how the test audio signal is perceived, for example, whether any signal degradation is perceived using test signals output for different values of ω 1 and ω 2 . The threshold θ can be deduced in a similar way in the listening tests designed as a result of this, generating empirical perception data. In a particular implementation, where Φ and z are scaled to be between 0 and 1, exemplary values of ω 1 and ω 2 may be, for example, ω 1 = 0.2 and ω 2 = 0.8; and θ may be a value between 0 <θ <2.

[041] Ниже будет описан приведенный в качестве примера аудиокодер с преобразованием, выполненный для выполнения вышеописанной процедуры для кодирования временного сегмента аудиосигнала, со ссылкой на Фиг. 5. Аудиокодер с преобразованием может, например, быть MDCT-кодером, или другим кодером, где амплитуда и знак остаточного вектора кодируются по отдельности или последовательно.[041] An exemplary conversion audio encoder configured to perform the above procedure for encoding a time segment of an audio signal will be described with reference to FIG. 5. The audio encoder with the conversion may, for example, be an MDCT encoder, or another encoder, where the amplitude and sign of the residual vector are encoded individually or sequentially.

[042] Аудиокодер 501 с преобразованием проиллюстрирован как осуществляющий связь с другими объектами через блок 502 связи, который может считаться содержащим традиционные средства для осуществления ввода данных и осуществления вывода данных. Часть аудиокодера с преобразованием, которая выполнена для обеспечения возможности выполнения вышеописанной процедуры, проиллюстрирована как компоновка 500, окруженная штриховой линией. Аудиокодер с преобразованием может дополнительно содержать другие функциональные блоки 514, такие как, например, функциональные блоки, предоставляющие функции обычного кодера, и могут дополнительно содержать один или более запоминающих блоков 512.[042] The audio encoder 501 with conversion is illustrated as communicating with other entities through a communication unit 502, which may be considered to comprise conventional means for performing data input and outputting data. The portion of the audio encoder with the conversion, which is made to enable the above procedure, is illustrated as the layout 500, surrounded by a dashed line. The transform audio encoder may further comprise other function blocks 514, such as, for example, function blocks providing functions of a conventional encoder, and may further comprise one or more memory blocks 512.

[043] Аудиокодер 501 с преобразованием, и/или компоновка 500, может быть реализован, например, посредством одного из: процессора или микропроцессора и соответствующего программного обеспечения, программируемого логического устройства (PLD) или другого электронного компонента(ов).[043] The audio encoder 501 with conversion, and / or layout 500, may be implemented, for example, by one of: a processor or microprocessor and associated software, programmable logic device (PLD), or other electronic component (s).

[044] Аудиокодер с преобразованием содержит блок 504 получения, который выполнен для вывода, приема или извлечения остаточного вектора сегмента вектора преобразования, ассоциированного с временным сегментом аудиосигнала. К тому же, аудиокодер с преобразованием содержит блок 506 вывода, который выполнен для вывода указателя, z, положения на частотной шкале остаточного вектора и показателя, Φ, относящегося к величине структуры остаточного вектора. Аудиокодер с преобразованием дополнительно содержит блок 508 определения, который выполнен для определения, удовлетворен ли предварительно заданный критерий, предусматривающий показатель Φ, указатель z и предварительно заданный порог θ, таким образом оценивая, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала, как описано ранее. К тому же, аудиокодер с преобразованием содержит блок 510 кодирования, выполненный для кодирования амплитуды коэффициентов остаточного вектора и для кодирования знака коэффициентов остаточного вектора, только когда определено, что критерий удовлетворен и, таким образом, что изменение знака будет слышно.[044] The transform audio encoder comprises a receiving unit 504 that is configured to output, receive, or retrieve the residual vector of the transform vector segment associated with the time segment of the audio signal. In addition, the conversion audio encoder comprises an output unit 506 that is configured to output a pointer, z, a position on the frequency scale of the residual vector, and an index, Φ, related to the size of the residual vector structure. The audio encoder further comprises a determination unit 508 that is configured to determine if a predetermined criterion including metric Φ, pointer z, and a predetermined threshold θ is satisfied, thereby evaluating whether a change in sign is heard of at least some of the non-zero residual vector coefficients after reconstruction of the time segment of the audio signal, as described previously. In addition, the audio encoder with the conversion contains a coding unit 510 designed to encode the amplitude of the coefficients of the residual vector and to encode the sign of the coefficients of the residual vector, only when it is determined that the criterion is satisfied and so that the sign change is audible.

[045] Аудиокодер с преобразованием может быть выполнен так, чтобы мог быть выполнен один из альтернативных вариантов процедуры, описанной выше. Например, аудиокодер с преобразованием может быть выполнен для вывода показателя, Φ, в качестве так называемого показателя спектральной неравномерности, например, как[045] The audio encoder with the conversion may be configured such that one of the alternative embodiments of the procedure described above can be performed. For example, an audio encoder with conversion can be performed to output the indicator, Φ, as the so-called indicator of spectral non-uniformity, for example, as

Figure 00000006
или, в случае FPC, как:
Figure 00000007
как описано ранее.
Figure 00000006
or, in the case of FPC, as:
Figure 00000007
as described earlier.

[046] Аудиокодер с преобразованием может дополнительно быть выполнен для вывода показателя, Φ, только когда указатель, z, указывает, что остаточный вектор ассоциирован с частотами выше предварительно заданной переходной частоты Zc. Переходная частота Zc может зависеть от скорости b передачи битов кодера/кодека.[046] An audio encoder with conversion may be further performed to output the metric, Φ, only when the pointer, z, indicates that the residual vector is associated with frequencies above a predetermined transition frequency Z c . The transition frequency Z c may depend on the bit rate of the encoder / codec.

[047] Аудиокодер с преобразованием может дополнительно быть выполнен для применения предварительно заданного критерия ω1Φ + ω2z ≤ θ(b) для оценки, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала, где ω1 и ω2 являются коэффициентами масштабирования, которые могут быть основаны на эмпирических экспериментальных результатах; и θ является порогом, который зависит от скорости передачи битов кодера/кодека.[047] An audio encoder with conversion may further be performed to apply a predetermined criterion ω 1 Φ + ω 2 z ≤ θ (b) to evaluate whether the sign of at least some of the non-zero coefficients of the residual vector will be heard after reconstruction of the time segment of the audio signal, where ω 1 and ω 2 are scaling factors that can be based on empirical experimental results; and θ is a threshold that depends on the bit rate of the encoder / codec.

ДекодерDecoder

[048] Соответствующий приведенный в качестве примера вариант осуществления процедуры для декодирования кодированного временного сегмента аудиосигнала будет описан ниже, со ссылкой на Фиг. 6. Процедура подходит для использования в аудиодекодере с преобразованием, таком как, например, MDCT-кодере, или другом кодере, где амплитуда и знак остаточного вектора кодируются по отдельности или последовательно.[048] A corresponding exemplary embodiment of a procedure for decoding an encoded time segment of an audio signal will be described below with reference to FIG. 6. The procedure is suitable for use in an audio decoder with a transform, such as, for example, an MDCT encoder, or another encoder, where the amplitude and sign of the residual vector are encoded individually or sequentially.

[049] Процедура в аудиодекодере с преобразованием является аналогичной процедуре в аудиокодере с преобразованием, но выполненной для декодирования в нескольких аспектах. Предполагается, что аудиодекодер с преобразованием принимает кодированный аудиосигнал, который был кодирован аудиокодером с преобразованием. Кодированный остаточный вектор сегмента вектора преобразования, ассоциированного с временным сегментом аудиосигнала, получают в действии 602. (Это действие также выполняется в традиционных аудиодекодерах с преобразованием). Соответствующую амплитуду коэффициентов остаточного вектора декодируют в действии 603 (но еще не знак).[049] The procedure in the audio decoder with the conversion is similar to the procedure in the audio encoder with the conversion, but performed for decoding in several aspects. It is assumed that the converted audio decoder receives the encoded audio signal that has been encoded by the converted audio encoder. The encoded residual vector of the transform vector segment associated with the time segment of the audio signal is obtained in step 602. (This step is also performed in conventional transform audio decoders). The corresponding amplitude of the coefficients of the residual vector is decoded in step 603 (but not yet a sign).

[050] Указатель, z, положения на частотной шкале остаточного вектора выводят в действии 604; показатель, Φ, относящийся к величине структуры остаточного вектора выводят в действии 610; и в действии 612 определяют, удовлетворен ли предварительно заданный критерий, предусматривающий показатель Φ, указатель z и предварительно заданный порог θ, таким образом оценивая, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала. Действия 604, 610 и 612 соответствуют ранее описанным действиям 404, 410 и 412 в кодере, но в декодере эти действия выполняются для того, чтобы определить, был ли кодирован знак коэффициентов или нет.[050] A pointer, z, of the position on the frequency scale of the residual vector is output in step 604; an indicator, Φ, related to the size of the residual vector structure is output in step 610; and in step 612, it is determined whether a predetermined criterion providing an indicator Φ, a pointer z, and a predetermined threshold θ are satisfied, thereby evaluating whether a change in sign of at least some of the non-zero coefficients of the residual vector after reconstruction of the time segment of the audio signal is heard. The steps 604, 610 and 612 correspond to the previously described steps 404, 410 and 412 in the encoder, but in the decoder these steps are performed in order to determine whether the sign of the coefficients was encoded or not.

[051] В соответствии с действием 406 в кодере, в действии 606 может быть определено, указывает ли индекс z остаточного вектора частоты ниже переходной частоты Zc или нет. Когда обнаружено, что z указывает частоты ниже переходной частоты Zc, в действии 608 декодируют знаки ненулевых коэффициентов в остаточном векторе; и когда обнаружено, что z указывает частоты выше переходной частоты Zc, в действии 610 выводят показатель Φ.[051] In accordance with step 406 in the encoder, in step 606, it can be determined whether the index z indicates a residual frequency vector below the transition frequency Z c or not. When it is found that z indicates frequencies below the transition frequency Z c , the signs of nonzero coefficients in the residual vector are decoded in step 608; and when it is found that z indicates frequencies above the transition frequency Z c , in step 610, the exponent Φ is derived.

[052] Когда определено в действии 612, что критерий удовлетворен, и таким образом определено, что изменение знака будет слышно, знаки ненулевых коэффициентов остаточного вектора декодируют в действии 608. Когда определено в действии 612, что критерий не удовлетворен, и таким образом определено, что изменение знака не будет слышно, в действии 614 генерируют соответствующий произвольный знак для ненулевых коэффициентов остаточного вектора.[052] When it is determined in step 612 that the criterion is satisfied, and thus it is determined that the sign change will be heard, the signs of the non-zero coefficients of the residual vector are decoded in step 608. When it is determined in step 612 that the criterion is not satisfied, and thus determined, that the sign change will not be heard, in step 614 a corresponding arbitrary sign is generated for the nonzero coefficients of the residual vector.

[053] Ниже будет описан приведенный в качестве примера аудиодекодер с преобразованием, выполненный для выполнения вышеописанной процедуры для декодирования временного сегмента аудиосигнала, со ссылкой на Фиг. 7. Аудиодекодер с преобразованием может, например, быть MDCT-декодером, или другим декодером, где амплитуда и знак остаточного вектора декодируются по отдельности или последовательно.[053] An exemplary converted audio decoder executed to perform the above procedure for decoding a time segment of an audio signal will be described with reference to FIG. 7. The audio decoder with the conversion may, for example, be an MDCT decoder, or another decoder, where the amplitude and sign of the residual vector are decoded individually or sequentially.

[054] Аудиодекодер 701 с преобразованием проиллюстрирован как осуществляющий связь с другими объектами через блок 702 связи, который может считаться содержащим традиционные средства для осуществления ввода данных и осуществления вывода данных. Часть аудиодекодера с преобразованием, которая выполнена для обеспечения возможности выполнения вышеописанной процедуры, проиллюстрирована как компоновка 700, окруженная штриховой линией. Аудиодекодер с преобразованием может дополнительно содержать другие функциональные блоки 716, такие как, например, функциональные блоки, предоставляющие функции обычного декодера, и может дополнительно содержать один или более запоминающих блоков 714.[054] The audio decoder 701 with conversion is illustrated as communicating with other entities via a communication unit 702, which may be considered to comprise conventional means for performing data input and outputting data. The portion of the audio decoder with the conversion, which is made to enable the above procedure, is illustrated as the layout 700, surrounded by a dashed line. The converted audio decoder may further comprise other function blocks 716, such as, for example, function blocks providing functions of a conventional decoder, and may further comprise one or more memory blocks 714.

[055] Аудиодекодер 701 с преобразованием, и/или компоновка 700, может быть реализован, например, посредством одного из: процессора или микропроцессора и соответствующего программного обеспечения, программируемого логического устройства (PLD) или другого электронного компонента(ов).[055] The audio decoder 701 with conversion, and / or layout 700, may be implemented, for example, by one of: a processor or microprocessor and associated software, programmable logic device (PLD), or other electronic component (s).

[056] Аудиодекодер с преобразованием содержит блок 704 получения, который выполнен для приема или извлечения кодированного остаточного вектора сегмента вектора преобразования, ассоциированного с временным сегментом аудиосигнала. К тому же, аудиодекодер с преобразованием содержит блок 710 декодирования, который выполнен для декодирования соответствующей амплитуды коэффициентов остаточного вектора.[056] The transformed audio decoder comprises a receiving unit 704 that is configured to receive or retrieve the encoded residual vector of the transform vector segment associated with the time segment of the audio signal. In addition, the converted audio decoder comprises a decoding unit 710 that is configured to decode the corresponding amplitude of the residual vector coefficients.

К тому же, аудиодекодер с преобразованием содержит блок 706 вывода, который выполнен для вывода указателя, z, положения на частотной шкале остаточного вектора и вывода показателя, Φ, относящегося к величине структуры остаточного вектора. Аудиодекодер с преобразованием дополнительно содержит блок 708 определения, который выполнен для определения, удовлетворен ли предварительно заданный критерий, предусматривающий показатель Φ, указатель z и предварительно заданный порог θ, таким образом оценивая, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала, как описано ранее. Блок 710 декодирования дополнительно выполнен для декодирования соответствующего знака ненулевых коэффициентов остаточного вектора, когда определено, что критерий удовлетворен и, таким образом, что изменение знака будет слышно.In addition, the audio decoder with conversion includes an output unit 706 that is configured to output a pointer, z, a position on the frequency scale of the residual vector, and output an indicator, Φ, related to the size of the residual vector structure. The transform audio decoder further comprises a determining unit 708 that is configured to determine if a predetermined criterion including metric Φ, pointer z and predetermined threshold θ is satisfied, thereby evaluating whether a sign change will be heard of at least some of the non-zero residual vector coefficients after reconstruction of the time segment of the audio signal, as described previously. The decoding unit 710 is further configured to decode the corresponding sign of the non-zero coefficients of the residual vector when it is determined that the criterion is satisfied and so that the sign change is audible.

[058] Аудиодекодер с преобразованием дополнительно содержит генератор 712 знаков, который выполнен для генерирования соответствующего произвольного знака для ненулевых коэффициентов остаточного вектора, когда определено, что критерий, описанный выше, не удовлетворен, и таким образом, что изменение знака будет не слышно.[058] The converted audio decoder further comprises a character generator 712 that is configured to generate a corresponding arbitrary character for non-zero residual vector coefficients when it is determined that the criterion described above is not satisfied, and so that a sign change is not heard.

[059] Аудиодекодер с преобразованием может быть выполнен так, чтобы мог быть выполнен один из альтернативных вариантов процедуры, описанной выше. Например, аудиокодер с преобразованием может быть выполнен для вывода показателя, Φ, в качестве так называемого показателя спектральной неравномерности, например, как[059] The audio decoder with the conversion may be configured such that one of the alternative embodiments of the procedure described above can be performed. For example, an audio encoder with conversion can be performed to output the indicator, Φ, as the so-called indicator of spectral non-uniformity, for example, as

Figure 00000008
или, в случае FPC, как:
Figure 00000009
как описано ранее.
Figure 00000008
or, in the case of FPC, as:
Figure 00000009
as described earlier.

[060] Аудиодекодер с преобразованием может дополнительно быть выполнен для вывода показателя, Φ, только когда указатель, z, указывает, что остаточный вектор ассоциирован с частотами выше предварительно заданной переходной частоты Zc. Переходная частота Zc может зависеть от скорости b передачи битов декодера/кодека.[060] An audio decoder with conversion may additionally be performed to output the metric, Φ, only when the pointer, z, indicates that the residual vector is associated with frequencies above a predetermined transition frequency Z c . The transition frequency Z c may depend on the bit rate of the decoder / codec.

[061] Аудиодекодер с преобразованием может дополнительно быть выполнен для применения предварительно заданного критерия ω1Φ+ω2z≤θ(b) для оценки, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала, где ω1 и ω2 являются коэффициентами масштабирования, которые могут быть основаны на эмпирических экспериментальных результатах; и θ является порогом, который зависит от скорости передачи битов декодера/кодека.[061] An audio decoder with conversion may further be performed to apply a predetermined criterion ω 1 Φ + ω 2 z≤θ (b) to evaluate whether a change in sign of at least some of the non-zero coefficients of the residual vector will be heard after reconstruction of the time segment of the audio signal, where ω 1 and ω 2 are scaling factors that can be based on empirical experimental results; and θ is a threshold that depends on the bit rate of the decoder / codec.

[062] Фиг. 8 схематично показывает вариант осуществления компоновки 800, подходящей для использования в аудиокодере с преобразованием, который также может быть альтернативным способом раскрытия варианта осуществления компоновки для использования в аудиокодере с преобразованием, проиллюстрированном на Фиг. 5. В компоновке 800 здесь содержатся блок 806 обработки, например, с DSP (процессором цифровых сигналов). Блок 806 обработки может быть одиночным блоком или множеством блоков для выполнения разных этапов процедур, описанных в настоящем документе. Компоновка 800 также содержит входной блок 802 для приема сигналов, таких как опорный сигнал в чистой и ухудшенной версии, и выходной блок 804 для осуществления вывода сигнала(ов), таких как оценка качества. Входной блок 802 и выходной блок 804 могут быть скомпонованы как одно целое в аппаратных средствах данной компоновки.[062] FIG. 8 schematically shows an embodiment of a layout 800 suitable for use in a transform audio encoder, which may also be an alternative way of disclosing an embodiment of a layout for use in a transform audio encoder illustrated in FIG. 5. In arrangement 800, there is a processing unit 806, for example, with a DSP (Digital Signal Processor). Processing unit 806 may be a single unit or multiple units for performing the various steps of the procedures described herein. Arrangement 800 also includes an input unit 802 for receiving signals, such as a reference signal in a clean and degraded version, and an output unit 804 for outputting the signal (s), such as a quality estimate. The input unit 802 and the output unit 804 can be configured as a unit in the hardware of this arrangement.

[063] К тому же компоновка 800 содержит по меньшей мере один компьютерный программный продукт 808 в виде энергонезависимой памяти, например, EEPROM, флэш-памяти и жесткого диска. Компьютерный программный продукт 808 содержит компьютерную программу 810, которая содержит кодовое средство, которое при запуске в блоке 806 обработки в компоновке 800 предписывает компоновке и/или аудиокодеру с преобразованием выполнять действия процедуры, описанной ранее применительно к Фиг. 4.[063] In addition, the arrangement 800 includes at least one computer program product 808 in the form of a non-volatile memory, for example, EEPROM, flash memory and hard disk. The computer program product 808 comprises a computer program 810 that contains code means which, when run in the processing unit 806 in the layout 800, instructs the layout and / or the audio encoder to transform to perform the steps of the procedure described previously with respect to FIG. four.

[064] Следовательно, в приведенных в качестве примера описанных вариантах осуществления, кодовое средство в компьютерной программе 810 компоновки 800 может содержать модуль 810a получения для получения остаточного вектора, ассоциированного с временным сегментом аудиосигнала. Компьютерная программа содержит модуль 810b вывода для вывода указателя, z, положения на частотной шкале остаточного вектора и для вывода показателя, Φ, относящегося к величине структуры остаточного вектора. Компьютерная программа дополнительно содержит модуль 810c определения для определения, удовлетворен ли критерий, предусматривающий показатель Φ, указатель z, предварительно заданный порог θ. К тому же, компьютерная программа содержит модуль 810d кодирования для кодирования соответствующей амплитуды коэффициентов остаточного вектора и для кодирования соответствующего знака коэффициентов остаточного вектора, только когда определено, что критерий удовлетворен.[064] Therefore, in the exemplary described embodiments, the code means in the computer program 810 of the layout 800 may comprise a obtaining module 810a for obtaining a residual vector associated with the time segment of the audio signal. The computer program includes an output module 810b for outputting a pointer, z, a position on the frequency scale of the residual vector, and for outputting an indicator, Φ, related to the size of the residual vector structure. The computer program further comprises a determining module 810c for determining whether a criterion providing an indicator Φ, a pointer z, a predetermined threshold θ is satisfied. In addition, the computer program comprises an encoding module 810d for encoding the corresponding amplitude of the residual vector coefficients and for encoding the corresponding sign of the residual vector coefficients only when it is determined that the criterion is satisfied.

[065] Компьютерная программа 810 находится в виде компьютерного программного кода, структурированного в компьютерных программных модулях. Модули 810a-d по существу выполняют действия процесса, проиллюстрированного на Фиг. 4, чтобы эмулировать компоновку 500, проиллюстрированную на Фиг. 5. Другими словами, когда разные модули 810a-d запущены на блоке 806 обработки, они соответствуют блокам 504-510 по фиг. 5.[065] The computer program 810 is in the form of a computer program code structured in computer program modules. Modules 810a-d essentially perform the steps of the process illustrated in FIG. 4 in order to emulate the arrangement 500 illustrated in FIG. 5. In other words, when different modules 810a-d are running on the processing unit 806, they correspond to the blocks 504-510 of FIG. 5.

[066] Хотя кодовые средства в варианте осуществления, раскрытом выше применительно к Фиг. 8, реализованы как компьютерные программные модули, которые при запуске на блоке обработки предписывают компоновке и/или аудиокодеру с преобразованием выполнять этапы, описанные выше применительно к фигурам, упомянутым выше, по меньшей мере одно из кодовых средств может в альтернативных вариантах осуществления быть реализовано по меньшей мере частично как аппаратные схемы.[066] Although the code means in the embodiment disclosed above with respect to FIG. 8 are implemented as computer program modules which, when launched on a processing unit, direct the layout and / or audio encoder with conversion to perform the steps described above with respect to the figures mentioned above, at least one of the code means can in at least alternative embodiments be implemented least partially as hardware circuits.

[067] Аналогичным образом, приведенный в качестве примера вариант осуществления, содержащий компьютерные программные модули, может быть описан для соответствующей компоновки в аудиодекодере с преобразованием, проиллюстрированным на Фиг. 7.[067] Similarly, an exemplary embodiment comprising computer program modules may be described for the corresponding layout in the audio decoder with the transform illustrated in FIG. 7.

[068] Хотя данное изобретение было описано со ссылкой на конкретные примерные варианты осуществления, данное описание в основном только предназначено для иллюстрации изобретательского замысла и не должно считаться ограничивающим объем данного изобретения. Разные признаки приведенных выше в качестве примера вариантов осуществления могут быть скомбинированы разным образом согласно необходимости, требованиям или предпочтению.[068] Although the invention has been described with reference to specific exemplary embodiments, this description is mainly intended to illustrate an inventive concept and should not be construed as limiting the scope of the invention. The various features of the above exemplary embodiments may be combined in various ways according to need, requirements or preference.

ИСПОЛЬЗОВАННАЯ ЛИТЕРАТУРАREFERENCES

[1] ITU-T Rec. G.719, "Low-complexity full-band audio coding for high-quality conversational applications", 2008[1] ITU-T Rec. G.719, "Low-complexity full-band audio coding for high-quality conversational applications", 2008

[2] Mittal, J. Ashley, E. Cruz-Zeno, "Low Complexity Factorial Pulse Coding of MDCT Coefficients using Approximation of Combinatorial Functions", ICASSP 2007[2] Mittal, J. Ashley, E. Cruz-Zeno, "Low Complexity Factorial Pulse Coding of MDCT Coefficients using Approximation of Combinatorial Functions", ICASSP 2007

СОКРАЩЕНИЯABBREVIATIONS

FPC факториальное импульсное кодированиеFPC factorial pulse coding

MDCT модифицированное дискретное косинусное преобразованиеMDCT modified discrete cosine transform

Claims (26)

1. Способ кодирования временного сегмента аудиосигнала в аудиокодере с преобразованием, причем способ содержит этапы, на которых:
- выводят (404) указатель z положения на частотной шкале остаточного вектора сегмента вектора преобразования, ассоциированного с временным сегментом аудиосигнала;
- выводят (406) показатель Ф, относящийся к распределению энергии по частоте остаточного вектора;
- определяют (412), удовлетворен ли предварительно заданный критерий, предусматривающий показатель Ф, указатель z и предварительно заданный порог
Figure 00000010
, таким образом оценивая, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала;
- кодируют амплитуду коэффициентов остаточного вектора; и
- кодируют (408) знак коэффициентов остаточного вектора, только когда определено, что критерий удовлетворен и, таким образом, что изменение знака будет слышно.
1. A method of encoding a time segment of an audio signal in an audio encoder with conversion, the method comprising the steps of:
- derive (404) a position indicator z on the frequency scale of the residual vector of the segment of the transform vector associated with the time segment of the audio signal;
- derive (406) the index Ф related to the distribution of energy over the frequency of the residual vector;
- determine (412) whether a predetermined criterion providing an indicator Φ, a pointer z, and a predetermined threshold is satisfied
Figure 00000010
thus evaluating whether a change in sign of at least some of the non-zero coefficients of the residual vector will be heard after reconstruction of the time segment of the audio signal;
- encode the amplitude of the coefficients of the residual vector; and
- encode (408) the sign of the coefficients of the residual vector, only when it is determined that the criterion is satisfied and, therefore, that the change in sign will be heard.
2. Способ по п. 1, в котором показатель Ф является так называемым показателем спектральной неравномерности.2. The method according to p. 1, in which the indicator f is the so-called indicator of spectral non-uniformity. 3. Способ по п. 1, в котором предварительно заданный критерий сформулирован как:
Figure 00000011

где
Figure 00000012
и
Figure 00000013
являются коэффициентами масштабирования; и
Figure 00000010
является порогом, который зависит от скорости b передачи битов кодера.
3. The method according to p. 1, in which a predefined criterion is formulated as:
Figure 00000011

Where
Figure 00000012
and
Figure 00000013
are scaling factors; and
Figure 00000010
is a threshold that depends on the encoder bit rate b.
4. Способ по п. 3, в котором коэффициенты
Figure 00000012
и
Figure 00000013
масштабирования, по меньшей мере частично, выводят из эмпирических данных восприятия.
4. The method according to p. 3, in which the coefficients
Figure 00000012
and
Figure 00000013
scaling, at least in part, is derived from empirical perceptual data.
5. Способ по п.1, в котором порог
Figure 00000010
выполнен с возможностью увеличения при увеличенной скорости b передачи битов кодера.
5. The method according to claim 1, in which the threshold
Figure 00000010
configured to increase with increased bit rate b of the encoder.
6. Способ по п.1, в котором показатель Ф выводят (410), только когда указатель z указывает (406) частоты выше предварительно заданной переходной частоты Zc, которая зависит от скорости b передачи битов кодера.6. The method according to claim 1, in which the indicator f output (410) only when the pointer z indicates (406) the frequency above a predetermined transition frequency Z c , which depends on the bit rate b of the encoder. 7. Способ по п.1, в котором схема факториального импульсного кодирования FPC используется для кодирования остаточного вектора, при этом показатель ФFPC выводят как:
Figure 00000014

где N NZP является числом ненулевых положений в остаточном векторе и N TP является суммарным числом импульсов в остаточном векторе.
7. The method according to claim 1, in which the scheme of factorial pulse coding FPC is used to encode the residual vector, while the indicator f FPC output as:
Figure 00000014

where N NZP is the number of nonzero positions in the residual vector and N TP is the total number of pulses in the residual vector.
8. Аудиокодер с преобразованием для кодирования временного сегмента аудиосигнала, причем упомянутый кодер содержит:
- блок (506) вывода, выполненный для вывода указателя z положения на частотной шкале остаточного вектора сегмента вектора преобразования, ассоциированного с временным сегментом аудиосигнала, и для вывода показателя Ф, относящегося к распределению энергии по частоте остаточного вектора;
- блок (508) определения, выполненный для определения, удовлетворен ли предварительно заданный критерий, предусматривающий показатель Ф, указатель z и предварительно заданный порог
Figure 00000010
, таким образом оценивая, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала; и
- блок (510) кодирования, выполненный для кодирования амплитуды коэффициентов остаточного вектора и для кодирования знака коэффициентов остаточного вектора, только когда определено, что критерий удовлетворен и, таким образом, что изменение знака будет слышно.
8. An audio encoder with conversion for encoding a time segment of an audio signal, said encoder comprising:
- an output unit (506) made for outputting a position indicator z on the frequency scale of the residual vector of the transform vector segment associated with the time segment of the audio signal, and for outputting the index Ф related to the energy distribution over the frequency of the residual vector;
- a determination unit (508) made to determine whether a predetermined criterion providing an indicator Φ, a pointer z, and a predetermined threshold is satisfied
Figure 00000010
thus evaluating whether a change in sign of at least some of the non-zero coefficients of the residual vector will be heard after reconstruction of the time segment of the audio signal; and
- a coding unit (510), configured to encode the amplitude of the coefficients of the residual vector and to encode the sign of the coefficients of the residual vector, only when it is determined that the criterion is satisfied and so that the sign change is audible.
9. Аудиокодер с преобразованием по п. 8, дополнительно выполненный для вывода показателя Ф в качестве так называемого показателя спектральной неравномерности.9. The audio encoder with the transformation according to claim 8, additionally made to display the indicator f as the so-called indicator of spectral unevenness. 10. Аудиокодер с преобразованием по п. 8, в котором предварительно заданный критерий сформулирован как:
Figure 00000015

где
Figure 00000012
и
Figure 00000013
являются коэффициентами масштабирования; и
Figure 00000010
является порогом, который зависит от скорости b передачи битов кодера.
10. The audio encoder with the transformation according to claim 8, in which a predefined criterion is formulated as:
Figure 00000015

Where
Figure 00000012
and
Figure 00000013
are scaling factors; and
Figure 00000010
is a threshold that depends on the encoder bit rate b.
11. Аудиокодер с преобразованием по п. 8, в котором порог
Figure 00000010
выполнен с возможностью увеличения при увеличенной скорости b передачи битов кодера.
11. The audio encoder with the conversion according to claim 8, in which the threshold
Figure 00000010
configured to increase with increased bit rate b of the encoder.
12. Аудиокодер с преобразованием по п. 8, дополнительно выполненный для вывода показателя Ф, только когда указатель z указывает частоты выше предварительно заданной переходной частоты Zc, которая зависит от скорости b передачи битов кодера.12. The audio encoder according to claim 8, further performed for outputting the index Ф, only when the pointer z indicates a frequency higher than a predetermined transition frequency Z c , which depends on the bit rate b of the encoder. 13. Аудиокодер с преобразованием по п. 8, дополнительно выполненный для использования схемы факториального импульсного кодирования FPC для кодирования остаточного вектора, при этом показатель ФFPC выводится как:
Figure 00000016

где N NZP является числом ненулевых положений в остаточном векторе и N TP является суммарным числом импульсов в остаточном векторе.
13. The audio encoder with the transformation according to claim 8, additionally made to use the factorial pulse coding scheme FPC to encode the residual vector, while the indicator fFpc output as:
Figure 00000016

WhereN Nzp is the number of nonzero positions in the residual vector andN TP is the total number of pulses in the residual vector.
14. Способ декодирования кодированного временного сегмента аудиосигнала в аудиодекодере с преобразованием, причем способ содержит этапы, на которых:
- декодируют (603) амплитуды коэффициентов остаточного вектора сегмента вектора преобразования, ассоциированного с временным сегментом аудиосигнала;
- выводят (604) указатель z положения на частотной шкале остаточного вектора;
- выводят (606) показатель Ф, относящийся к распределению энергии по частоте остаточного вектора;
- определяют (612), удовлетворен ли предварительно заданный критерий, предусматривающий показатель Ф, указатель z и предварительно заданный порог
Figure 00000010
, таким образом оценивая, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала;
- декодируют (608) соответствующий знак ненулевых коэффициентов остаточного вектора, только когда определено, что критерий удовлетворен и, таким образом, что изменение знака будет слышно; и
- генерируют соответствующий произвольный знак для ненулевых коэффициентов остаточного вектора, когда определено, что критерий не удовлетворен и, таким образом, что изменение знака будет не слышно.
14. A method for decoding an encoded time segment of an audio signal in an audio decoder with conversion, the method comprising the steps of:
- decode (603) the amplitude of the coefficients of the residual vector of the segment of the transformation vector associated with the time segment of the audio signal;
- derive (604) a position indicator z on the frequency scale of the residual vector;
- derive (606) the index Ф related to the distribution of energy over the frequency of the residual vector;
- determine (612) whether a predetermined criterion providing an indicator Φ, a pointer z, and a predetermined threshold is satisfied
Figure 00000010
thus evaluating whether a change in sign of at least some of the non-zero coefficients of the residual vector will be heard after reconstruction of the time segment of the audio signal;
- decode (608) the corresponding sign of the non-zero coefficients of the residual vector, only when it is determined that the criterion is satisfied and, thus, that the change in sign will be heard; and
- generate the corresponding arbitrary sign for the non-zero coefficients of the residual vector when it is determined that the criterion is not satisfied and, therefore, that the change in sign will not be heard.
15. Способ по п. 14, в котором показатель Ф является так называемым показателем спектральной неравномерности.15. The method according to p. 14, in which the indicator f is the so-called indicator of spectral non-uniformity. 16. Способ по п. 14, в котором предварительно заданный критерий сформулирован как:
Figure 00000017

где
Figure 00000012
и
Figure 00000013
являются коэффициентами масштабирования и
Figure 00000010
является порогом, который зависит от скорости b передачи битов декодера.
16. The method according to p. 14, in which a predefined criterion is formulated as:
Figure 00000017

Where
Figure 00000012
and
Figure 00000013
are scaling factors and
Figure 00000010
is a threshold that depends on the bit rate b of the decoder.
17. Способ по п. 16, в котором коэффициенты
Figure 00000012
и
Figure 00000013
масштабирования, по меньшей мере частично, выводят из эмпирических данных восприятия.
17. The method according to p. 16, in which the coefficients
Figure 00000012
and
Figure 00000013
scaling, at least in part, is derived from empirical perceptual data.
18. Способ по п. 14, в котором порог
Figure 00000010
выполнен с возможностью увеличения при увеличенной скорости b передачи битов декодера.
18. The method according to p. 14, in which the threshold
Figure 00000010
configured to increase with increased bit rate b of the decoder.
19. Способ по п. 14, в котором показатель Ф выводят (410), только когда указатель z указывает (406) частоты выше предварительно заданной переходной частоты Zc, которая зависит от скорости b передачи битов декодера.19. The method according to p. 14, in which the indicator f output (410) only when the pointer z indicates (406) the frequency above a predetermined transition frequency Z c , which depends on the bit rate b of the decoder. 20. Способ по п. 14, в котором схема факториального импульсного кодирования FPC используется для декодирования остаточного вектора, при этом показатель ФFPC выводят как:
Figure 00000018

где N NZP является числом ненулевых положений в остаточном векторе и N TP является суммарным числом импульсов в остаточном векторе.
20. The method according to p. 14, in which the scheme of factorial pulse coding FPC is used to decode the residual vector, while the indicator f FPC output as:
Figure 00000018

where N NZP is the number of nonzero positions in the residual vector and N TP is the total number of pulses in the residual vector.
21. Аудиодекодер с преобразованием для декодирования кодированного временного сегмента аудиосигнала, причем упомянутый декодер содержит:
- блок (710) декодирования, выполненный для декодирования амплитуд коэффициентов остаточного вектора сегмента вектора преобразования, ассоциированного с временным сегментом аудиосигнала;
- блок (706) вывода, выполненный для вывода указателя z положения на частотной шкале остаточного вектора и для вывода показателя Ф, относящегося к распределению энергии по частоте остаточного вектора;
- блок (708) определения, выполненный для определения, удовлетворен ли предварительно заданный критерий, предусматривающий показатель Ф, указатель z и предварительно заданный порог
Figure 00000010
, таким образом оценивая, будет ли слышно изменение знака по меньшей мере некоторых из ненулевых коэффициентов остаточного вектора после реконструкции временного сегмента аудиосигнала;
- блок (710) декодирования, дополнительно выполненный для декодирования знака ненулевых коэффициентов остаточного вектора, только когда определено, что критерий удовлетворен и, таким образом, что изменение знака будет слышно; и
- генератор (712) знаков, выполненный для генерирования соответствующего произвольного знака для ненулевых коэффициентов остаточного вектора, когда определено, что критерий не удовлетворен и, таким образом, что изменение знака будет не слышно.
21. An audio decoder with conversion for decoding an encoded time segment of an audio signal, said decoder comprising:
a decoding unit (710), designed to decode the amplitudes of the coefficients of the residual vector of the segment of the transformation vector associated with the time segment of the audio signal;
- an output unit (706) made for outputting a position indicator z on the frequency scale of the residual vector and for outputting an index Φ related to the distribution of energy over the frequency of the residual vector;
- a determination unit (708) made to determine whether a predetermined criterion providing an indicator Φ, a pointer z, and a predetermined threshold is satisfied
Figure 00000010
thus evaluating whether a change in sign of at least some of the non-zero coefficients of the residual vector will be heard after reconstruction of the time segment of the audio signal;
- a decoding unit (710), additionally designed to decode the sign of the nonzero coefficients of the residual vector, only when it is determined that the criterion is satisfied and so that the sign change is audible; and
- a character generator (712) made to generate a corresponding arbitrary character for the non-zero coefficients of the residual vector when it is determined that the criterion is not satisfied and thus that the change in sign will not be heard.
22. Аудиодекодер с преобразованием по п. 21, дополнительно выполненный для вывода показателя Ф в качестве так называемого показателя спектральной неравномерности.22. The audio decoder with the transform according to claim 21, further configured to output the metric F as a so-called spectral non-uniformity metric. 23. Аудиодекодер с преобразованием по п. 21, в котором предварительно заданный критерий сформулирован как:
Figure 00000019

где
Figure 00000012
и
Figure 00000013
являются коэффициентами масштабирования и
Figure 00000010
является порогом, который зависит от скорости b передачи битов декодера.
23. The audio decoder with the transform according to claim 21, in which a predefined criterion is formulated as:
Figure 00000019

Where
Figure 00000012
and
Figure 00000013
are scaling factors and
Figure 00000010
is a threshold that depends on the bit rate b of the decoder.
24. Аудиодекодер с преобразованием по п. 21, в котором порог
Figure 00000010
выполнен с возможностью увеличения при увеличенной скорости b передачи битов декодера.
24. The audio decoder with the conversion of claim 21, wherein the threshold
Figure 00000010
configured to increase with increased bit rate b of the decoder.
25. Аудиодекодер с преобразованием по п. 21, дополнительно выполненный для вывода показателя Ф, только когда указатель z указывает частоты выше предварительно заданной переходной частоты Zc, которая зависит от скорости b передачи битов декодера.25. The audio decoder according to claim 21, further performed for outputting the index Ф only when the pointer z indicates frequencies above a predetermined transition frequency Z c , which depends on the bit rate b of the decoder. 26. Аудиодекодер с преобразованием по п. 21, дополнительно выполненный для использования схемы факториального импульсного кодирования FPC для декодирования остаточного вектора, при этом показатель ФFPC выводится как:
Figure 00000020

где N NZP является числом ненулевых положений в остаточном векторе и N TP является суммарным числом импульсов в остаточном векторе.
26. The audio decoder with the transform according to claim 21, further configured to use the factorial pulse coding scheme FPC to decode the residual vector, while the exponent ΦFpc output as:
Figure 00000020

WhereN Nzp is the number of nonzero positions in the residual vector andN TP is the total number of pulses in the residual vector.
RU2014102965/08A 2011-06-30 Transform audio codec and methods for encoding and decoding time segment of audio signal RU2574851C2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/SE2011/050889 WO2013002696A1 (en) 2011-06-30 2011-06-30 Transform audio codec and methods for encoding and decoding a time segment of an audio signal

Publications (2)

Publication Number Publication Date
RU2014102965A RU2014102965A (en) 2015-08-10
RU2574851C2 true RU2574851C2 (en) 2016-02-10

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2325708C2 (en) * 2003-10-02 2008-05-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Device and method for processing signal containing sequence of discrete values
CN101622662A (en) * 2007-03-02 2010-01-06 松下电器产业株式会社 Encoding device and encoding method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2325708C2 (en) * 2003-10-02 2008-05-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Device and method for processing signal containing sequence of discrete values
CN101622662A (en) * 2007-03-02 2010-01-06 松下电器产业株式会社 Encoding device and encoding method

Similar Documents

Publication Publication Date Title
US11074919B2 (en) Encoding method, decoding method, encoder, decoder, program, and recording medium
US8831959B2 (en) Transform audio codec and methods for encoding and decoding a time segment of an audio signal
KR100991448B1 (en) Audio coding system using spectral hole filling
RU2631988C2 (en) Noise filling in audio coding with perception transformation
RU2638734C2 (en) Coding of spectral coefficients of audio signal spectrum
US20170032800A1 (en) Encoding/decoding audio and/or speech signals by transforming to a determined domain
KR101143225B1 (en) Complex-transform channel coding with extended-band frequency coding
RU2575993C2 (en) Linear prediction-based coding scheme using spectral domain noise shaping
CA2848275C (en) Apparatus and method for audio encoding and decoding employing sinusoidal substitution
JP6563338B2 (en) Apparatus and method for efficiently synthesizing sinusoids and sweeps by utilizing spectral patterns
RU2636093C2 (en) Prediction based on model in filter set with critical discreteization
RU2640722C2 (en) Improved quantizer
JP2011527455A (en) Noise filling device, noise filling parameter computing device, method for providing noise filling parameter, method for providing noise filled spectral representation of audio signal, corresponding computer program and encoded audio signal
RU2505921C2 (en) Method and apparatus for encoding and decoding audio signals (versions)
JP4538324B2 (en) Audio signal encoding
JP2011522291A (en) Factoring the overlapping transform into two block transforms
EP2126903A1 (en) Method and apparatus for encoding audio signal and method and apparatus for decoding audio signal
KR101387808B1 (en) Apparatus for high quality multiple audio object coding and decoding using residual coding with variable bitrate
RU2574851C2 (en) Transform audio codec and methods for encoding and decoding time segment of audio signal
US20160035365A1 (en) Sound encoding device, sound encoding method, sound decoding device and sound decoding method