RU2825309C2 - Multiple-delay audio encoding format - Google Patents
Multiple-delay audio encoding format Download PDFInfo
- Publication number
- RU2825309C2 RU2825309C2 RU2022107245A RU2022107245A RU2825309C2 RU 2825309 C2 RU2825309 C2 RU 2825309C2 RU 2022107245 A RU2022107245 A RU 2022107245A RU 2022107245 A RU2022107245 A RU 2022107245A RU 2825309 C2 RU2825309 C2 RU 2825309C2
- Authority
- RU
- Russia
- Prior art keywords
- audio signal
- sub
- reconstructed
- autocorrelation
- band
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 569
- 238000000034 method Methods 0.000 claims abstract description 140
- 238000005311 autocorrelation function Methods 0.000 claims abstract description 98
- 238000001228 spectrum Methods 0.000 claims abstract description 9
- 230000003595 spectral effect Effects 0.000 claims description 110
- 238000013507 mapping Methods 0.000 claims description 28
- 238000010801 machine learning Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 20
- 238000000354 decomposition reaction Methods 0.000 claims description 18
- 238000009499 grossing Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 15
- 238000013459 approach Methods 0.000 description 12
- 239000012634 fragment Substances 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003534 oscillatory effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Abstract
Description
ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS-REFERENCE TO RELATED APPLICATIONS
Данная заявка заявляет приоритет следующих приоритетных заявок: предварительной заявки США 62/889118 (ссылка: D19076USP1), поданной 20 августа 2019 г., и европейской заявки 19192552.8 (ссылка: D19076EP), поданной 20 августа 2019 г., которые включены в настоящий документ посредством ссылки.This application claims priority from the following priority applications: U.S. Provisional Application No. 62/889,118 (Reference: D19076USP1), filed August 20, 2019, and European Application No. 19192552.8 (Reference: D19076EP), filed August 20, 2019, which are incorporated herein by reference.
ОБЛАСТЬ ТЕХНИКИAREA OF TECHNOLOGY
Настоящее изобретение в целом относится к способу кодирования звукового сигнала в закодированное представление и способу декодирования звукового сигнала из закодированного представления. The present invention generally relates to a method for encoding an audio signal into an encoded representation and a method for decoding the audio signal from the encoded representation.
Хотя некоторые варианты осуществления будут описаны в настоящем документе с конкретной ссылкой на настоящее изобретение, следует понимать, что настоящее изобретение не ограничено такой областью использования и может быть применимо в более широких контекстах. Although certain embodiments will be described herein with particular reference to the present invention, it should be understood that the present invention is not limited to such scope of use and may be applicable in broader contexts.
ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION
Любое обсуждение текущего уровня техники во всем настоящем описании никоим образом не следует рассматривать как допущение того, что данный уровень широко известен или образует часть общедоступных знаний в данной области техники.Any discussion of the current state of the art throughout this specification should in no way be construed as an admission that such state of the art is widely known or forms part of the general knowledge in the art.
В системах кодирования звука высокого качества большая часть информации обычно описывает подробные свойства волновых форм сигналов. Меньшая часть информации используется для описания более статистически задаваемых признаков, таких как энергии в полосах частот, или управляющих данных, предназначенных для формирования шума квантования согласно известным свойствам одновременного маскирования слуха (например, дополнительной информации в кодере формы сигнала на основе MDCT, которая передает размер шага квантования и информацию о диапазоне, необходимые для правильного деквантования данных, которые представляют форму сигнала, в декодере). Эти системы кодирования звука высокого качества, однако, требуют сравнительно больших объемов данных для кодирования звукового содержимого, т. е. характеризуются сравнительно низкой эффективностью кодирования.In high-quality audio coding systems, most of the information typically describes the detailed properties of the waveforms. A smaller portion of the information is used to describe more statistically specified features, such as energies in frequency bands, or control data intended to shape the quantization noise according to known properties of simultaneous auditory masking (e.g., additional information in an MDCT-based waveform encoder that conveys the quantization step size and range information needed to correctly dequantize the data representing the waveform in the decoder). These high-quality audio coding systems, however, require comparatively large amounts of data to encode the audio content, i.e., are characterized by comparatively low coding efficiency.
Существует потребность в способах и устройстве кодирования звука, которые могут кодировать звуковые данные с повышенной эффективностью кодирования.There is a need for audio coding methods and apparatus that can encode audio data with improved coding efficiency.
СУЩНОСТЬ ИЗОБРЕТЕНИЯESSENCE OF THE INVENTION
В настоящем изобретении предоставляются способ кодирования звукового сигнала, способ декодирования звукового сигнала, кодер, декодер, компьютерная программа и машиночитаемый носитель данных.The present invention provides a method for encoding an audio signal, a method for decoding an audio signal, an encoder, a decoder, a computer program and a machine-readable storage medium.
Согласно первому аспекту настоящего изобретения предоставляется способ кодирования звукового сигнала. Кодирование может выполняться для каждой из множества последовательных частей (например, групп отсчетов, сегментов, кадров) звукового сигнала. В некоторых реализациях части могут перекрываться одна с другой. Закодированное представление может генерироваться для каждой такой части. Способ может включать генерирование множества звуковых сигналов поддиапазонов на основе звукового сигнала. Генерирование множества звуковых сигналов поддиапазонов на основе звукового сигнала может включать спектральное разложение звукового сигнала, которое может быть выполнено с помощью банка полосовых фильтров (BPF). Разрешающая способность по частоте банка фильтров может быть связана с разрешающей способностью по частоте слуховой системы человека. Например, фильтры BPF могут представлять собой комплекснозначные фильтры BPF. Альтернативно генерирование множества звуковых сигналов поддиапазонов на основе звукового сигнала может включать спектральное и/или временное сглаживание звукового сигнала, необязательно обработку методом окна сглаженного звукового сигнала с помощью оконной функции и спектральное разложение результирующего сигнала на множество звуковых сигналов поддиапазонов. Способ может дополнительно включать определение огибающей спектра звукового сигнала. Способ может дополнительно включать определение для звукового сигнала каждого поддиапазона автокорреляционной информации для звукового сигнала поддиапазона на основе автокорреляционной функции (ACF) звукового сигнала поддиапазона. Способ также может дополнительно включать генерирование закодированного представления звукового сигнала, при этом закодированное представление содержит представление огибающей спектра звукового сигнала и представление автокорреляционной информации для множества звуковых сигналов поддиапазонов. Например, закодированное представление может относиться к части битового потока. В некоторых реализациях закодированное представление может также содержать информацию о форме сигнала, относящуюся к форме сигнала звукового сигнала и/или одной или более формам сигнала звуковых сигналов поддиапазонов. Способ может дополнительно включать вывод закодированного представления.According to a first aspect of the present invention, a method for encoding an audio signal is provided. The encoding may be performed for each of a plurality of consecutive parts (e.g., groups of samples, segments, frames) of the audio signal. In some implementations, the parts may overlap one another. An encoded representation may be generated for each such part. The method may include generating a plurality of sub-band audio signals based on the audio signal. Generating a plurality of sub-band audio signals based on the audio signal may include spectral decomposition of the audio signal, which may be performed using a bandpass filter bank (BPF). The frequency resolution of the filter bank may be related to the frequency resolution of the human auditory system. For example, the BPF filters may be complex-valued BPF filters. Alternatively, generating a plurality of sub-band audio signals based on the audio signal may include spectral and/or temporal smoothing of the audio signal, optionally windowing the smoothed audio signal using a window function and spectral decomposition of the resulting signal into a plurality of sub-band audio signals. The method may further include determining a spectral envelope of the audio signal. The method may further include determining, for the audio signal of each sub-band, autocorrelation information for the sub-band audio signal based on the autocorrelation function (ACF) of the sub-band audio signal. The method may also further include generating an encoded representation of the audio signal, wherein the encoded representation comprises a representation of the spectral envelope of the audio signal and a representation of the autocorrelation information for the plurality of sub-band audio signals. For example, the encoded representation may relate to a portion of a bitstream. In some implementations, the encoded representation may also contain waveform information related to the waveform of the audio signal and/or one or more waveforms of the subband audio signals. The method may further include outputting the encoded representation.
Предложенный способ, выполненный как описано выше, предоставляет закодированное представление звукового сигнала, которое характеризуется чрезвычайно высокой эффективностью кодирования (т. е. требует очень низких битрейтов для кодирования звука), но в то же время содержит соответствующую информацию для достижения очень высокого тонального качества после восстановления. Это осуществляется посредством предоставления, в дополнение к огибающей спектра, еще и автокорреляционной информации для множества поддиапазонов звукового сигнала. В частности было показано, что для достижения высокого тонального качества достаточно двух значений на поддиапазон: одного значения запаздывания и одного значения автокорреляции. The proposed method, implemented as described above, provides an encoded representation of an audio signal that is characterized by extremely high coding efficiency (i.e., requires very low bit rates for encoding the audio), but at the same time contains the appropriate information to achieve very high tonal quality after reconstruction. This is done by providing, in addition to the spectral envelope, also autocorrelation information for a plurality of sub-bands of the audio signal. In particular, it has been shown that two values per sub-band are sufficient to achieve high tonal quality: one delay value and one autocorrelation value.
В некоторых вариантах осуществления автокорреляционная информация для звукового сигнала данного поддиапазона может содержать значение запаздывания для звукового сигнала соответствующего поддиапазона и/или значение автокорреляции для звукового сигнала соответствующего поддиапазона. Предпочтительно автокорреляционная информация может включать как значение запаздывания для звукового сигнала соответствующего поддиапазона, так и значение автокорреляции для звукового сигнала соответствующего поддиапазона. В настоящем документе значение запаздывания может соответствовать значению задержки (например, абсциссе), при котором автокорреляционная функция достигает локального максимума, а значение автокорреляции может соответствовать указанному локальному максимуму (например, ординате). In some embodiments, the autocorrelation information for the audio signal of a given sub-band may comprise a lag value for the audio signal of the corresponding sub-band and/or an autocorrelation value for the audio signal of the corresponding sub-band. Preferably, the autocorrelation information may comprise both a lag value for the audio signal of the corresponding sub-band and an autocorrelation value for the audio signal of the corresponding sub-band. Here, the lag value may correspond to a delay value (e.g., abscissa) at which the autocorrelation function reaches a local maximum, and the autocorrelation value may correspond to said local maximum (e.g., ordinate).
В некоторых вариантах осуществления огибающая спектра может быть определена с первой частотой обновления, а автокорреляционная информация для множества звуковых сигналов поддиапазонов может быть определена со второй частотой обновления. В этом случае первая и вторая частоты обновления могут отличаться друг от друга. Частоты обновления также могут называться частотами дискретизации. В одном таком варианте осуществления первая частота обновления может быть выше второй частоты обновления. Кроме того, разные частоты обновления могут применяться к разным поддиапазонам, т. е. частоты обновления для автокорреляционной информации для звуковых сигналов разных поддиапазонов могут отличаться друг от друга.In some embodiments, the spectral envelope may be determined with a first update rate, and the autocorrelation information for a plurality of sub-band audio signals may be determined with a second update rate. In this case, the first and second update rates may differ from each other. Update rates may also be referred to as sampling rates. In one such embodiment, the first update rate may be higher than the second update rate. In addition, different update rates may be applied to different sub-bands, i.e., the update rates for the autocorrelation information for the audio signals of different sub-bands may differ from each other.
Благодаря снижению частоты обновления автокорреляционной информации по сравнению с частотой обновления для огибающей спектра можно дополнительно повысить эффективность кодирования предложенного способа без воздействия на тональное качество восстановленного звукового сигнала. By reducing the update rate of the autocorrelation information compared to the update rate for the spectral envelope, it is possible to further increase the coding efficiency of the proposed method without affecting the tonal quality of the reconstructed audio signal.
В некоторых вариантах осуществления генерирование множества звуковых сигналов поддиапазонов может включать применение к звуковому сигналу спектрального и/или временного сглаживания. Генерирование множества звуковых сигналов поддиапазонов может дополнительно включать обработку методом окна сглаженного звукового сигнала с помощью оконной функции. Генерирование множества звуковых сигналов поддиапазонов также может дополнительно включать спектральное разложение обработанного методом окна сглаженного звукового сигнала на множество звуковых сигналов поддиапазонов. В этом случае спектральное и/или временное сглаживание звукового сигнала может включать, например, генерирование взвешенного с учетом восприятия остаточного сигнала LPC звукового сигнала.In some embodiments, generating a plurality of sub-band audio signals may include applying spectral and/or temporal smoothing to the audio signal. Generating a plurality of sub-band audio signals may further include windowing the smoothed audio signal using a window function. Generating a plurality of sub-band audio signals may also further include spectral decomposition of the windowed smoothed audio signal into a plurality of sub-band audio signals. In this case, spectral and/or temporal smoothing of the audio signal may include, for example, generating a perceptually weighted residual LPC signal of the audio signal.
В некоторых вариантах осуществления генерирование множества звуковых сигналов поддиапазонов может включать спектральное разложение звукового сигнала. Тогда определение автокорреляционной функции для звукового сигнала данного поддиапазона может включать определение огибающей поддиапазона звукового сигнала поддиапазона. Определение автокорреляционной функции может дополнительно включать сглаживание огибающей звукового сигнала поддиапазона на основе огибающей поддиапазона. Огибающая поддиапазона может быть определен путям взятия значений амплитуды обработанного методом окна звукового сигнала поддиапазона. Определение автокорреляционной функции может дополнительно включать обработку методом окна звукового сигнала поддиапазона со сглаженной огибающей с помощью оконной функции. Определение автокорреляционной функции также может дополнительно включать определение (например, вычисление) автокорреляционной функции обработанного методом окна звукового сигнала поддиапазона со сглаженной огибающей. Автокорреляционная функция может быть определена для вещественнозначного сигнала поддиапазона (обработанного методом окна, со сглаженной огибающей).In some embodiments, generating a plurality of sub-band audio signals may include spectral decomposition of the audio signal. Then, determining an autocorrelation function for the audio signal of the given sub-band may include determining a sub-band envelope of the sub-band audio signal. Determining the autocorrelation function may further include smoothing the envelope of the sub-band audio signal based on the sub-band envelope. The sub-band envelope may be determined by taking amplitude values of the windowed sub-band audio signal. Determining the autocorrelation function may further include windowing the sub-band audio signal with the smoothed envelope using a window function. Determining the autocorrelation function may also further include determining (e.g. calculating) the autocorrelation function of the windowed sub-band audio signal with the smoothed envelope. The autocorrelation function can be defined for a real-valued sub-band signal (windowed, with a smoothed envelope).
Другой аспект настоящего изобретения относится к способу декодирования звукового сигнала из закодированного представления звукового сигнала. Закодированное представление может включать представление огибающей спектра звукового сигнала и представление автокорреляционной информации для каждого из множества звуковых сигналов поддиапазонов (или сгенерированных из) звукового сигнала. Автокорреляционная информация для звукового сигнала данного поддиапазона может быть основана на автокорреляционной функции звукового сигнала поддиапазона. Способ может включать прием закодированного представления звукового сигнала. Способ может дополнительно включать извлечение огибающей спектра и (нескольких фрагментов) автокорреляционной информации из закодированного представления звукового сигнала. Способ также может дополнительно включать определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации. Восстановленный звуковой сигнал может быть определен так, чтобы автокорреляционная функция каждого из множества звуковых сигналов поддиапазонов (или сгенерированных из) восстановленного звукового сигнала удовлетворяла условию, полученному из автокорреляционной информации для звукового сигнала соответствующего поддиапазона (или сгенерированного из) звукового сигнала. Например, восстановленный звуковой сигнал может быть определен так, чтобы для звукового сигнала каждого поддиапазона восстановленного звукового сигнала значение автокорреляционной функции звукового сигнала поддиапазона (или сгенерированного из) восстановленного звукового сигнала при значении запаздывания (например, значении задержки), указанном автокорреляционной информацией для звукового сигнала соответствующего поддиапазона (или сгенерированного из) звукового сигнала, по существу совпадало со значением автокорреляции, указанным автокорреляционной информацией для звукового сигнала соответствующего поддиапазона звукового сигнала. Это может предполагать, что декодер может определять автокорреляционную функцию звуковых сигналов поддиапазонов таким же образом, как это осуществляет кодер. Это может включать любое, некоторое или все из сглаживания, обработки методом окна и нормирования. В некоторых реализациях восстановленный звуковой сигнал может быть определен так, чтобы автокорреляционная информация для каждого из множества сигналов поддиапазонов (или сгенерированных из) восстановленного звукового сигнала поддиапазона по существу совпадала с автокорреляционной информацией для звукового сигнала соответствующего поддиапазона (или сгенерированного из) звукового сигнала. Например, восстановленный звуковой сигнал может быть определен так, что, например, для звукового сигнала каждого поддиапазона (или сгенерированного из) восстановленного звукового сигнала значение автокорреляции и значение запаздывания (например, значение задержки) автокорреляционной функции сигнала поддиапазона восстановленного звукового сигнала по существу совпадает со значением автокорреляции и значением запаздывания, указанными автокорреляционной информацией для звукового сигнала соответствующего поддиапазона (или сгенерированного из) звукового сигнала. Это может предполагать, что декодер может определять автокорреляционную информацию (т. е. значение запаздывания и значение автокорреляции) для сигнала каждого поддиапазона восстановленного звукового сигнала таким же образом, как это осуществляет кодер. Здесь термин «по существу совпадает» может означать, например, «совпадает до предварительно заданного предела». В тех реализациях, в которых закодированное представление содержит информацию о форме сигнала, восстановленный звуковой сигнал может быть определен дополнительно на основе информации о форме сигнала. Звуковые сигналы поддиапазонов могут быть получены, например, путем спектрального разложения соответствующего звукового сигнала (т.е. исходного звукового сигнала на стороне кодера или восстановленного звукового сигнала на стороне декодера), или они могут быть получены путем сглаживания, обработки методом окна и последующего спектрального разложения соответствующего звукового сигнала. Another aspect of the present invention relates to a method for decoding an audio signal from an encoded representation of the audio signal. The encoded representation may include a representation of a spectral envelope of the audio signal and a representation of autocorrelation information for each of a plurality of audio signals of subbands (or generated from) the audio signal. The autocorrelation information for an audio signal of a given subband may be based on an autocorrelation function of the audio signal of the subband. The method may include receiving an encoded representation of the audio signal. The method may further include extracting the spectral envelope and (several fragments of) the autocorrelation information from the encoded representation of the audio signal. The method may also further include determining a reconstructed audio signal based on the spectral envelope and the autocorrelation information. The reconstructed audio signal may be defined so that the autocorrelation function of each of the plurality of audio signals of the sub-bands (or generated from) the reconstructed audio signal satisfies a condition obtained from the autocorrelation information for the audio signal of the corresponding sub-band (or generated from) the audio signal. For example, the reconstructed audio signal may be defined so that for the audio signal of each sub-band of the reconstructed audio signal, the value of the autocorrelation function of the audio signal of the sub-band (or generated from) the reconstructed audio signal at a delay value (for example, a delay value) indicated by the autocorrelation information for the audio signal of the corresponding sub-band (or generated from) the audio signal, substantially coincides with the autocorrelation value indicated by the autocorrelation information for the audio signal of the corresponding sub-band of the audio signal. This may involve that the decoder may determine the autocorrelation function of the subband audio signals in the same manner as the encoder does. This may include any, some, or all of smoothing, windowing, and normalization. In some implementations, the reconstructed audio signal may be determined such that the autocorrelation information for each of a plurality of subband signals of (or generated from) the reconstructed subband audio signal substantially matches the autocorrelation information for the audio signal of the corresponding subband of (or generated from) the audio signal. For example, the reconstructed audio signal may be defined such that, for example, for the audio signal of each subband of (or generated from) the reconstructed audio signal, the autocorrelation value and the lag value (e.g., the delay value) of the autocorrelation function of the subband signal of the reconstructed audio signal substantially coincide with the autocorrelation value and the lag value indicated by the autocorrelation information for the audio signal of the corresponding subband of (or generated from) the audio signal. This may imply that the decoder can determine the autocorrelation information (i.e., the lag value and the autocorrelation value) for the signal of each subband of the reconstructed audio signal in the same way as the encoder does. Here, the term "substantially coincides" may mean, for example, "matches up to a predetermined limit". In those implementations in which the encoded representation comprises waveform information, the reconstructed audio signal may be defined additionally on the basis of the waveform information. The sub-band audio signals can be obtained, for example, by spectral decomposition of the corresponding audio signal (i.e. the original audio signal on the encoder side or the reconstructed audio signal on the decoder side), or they can be obtained by smoothing, windowing and subsequent spectral decomposition of the corresponding audio signal.
Таким образом, можно сказать, что декодер действует в соответствии с подходом «синтез через анализ» в том смысле, что он стремится найти восстановленный звуковой сигнал , который удовлетворял бы по меньшей мере одному условию, полученному из закодированного представления закодированного звукового сигнала или для которого закодированное представление по существу совпадало бы с закодированным представлением исходного звукового сигнала , где представляет собой кодирующее отображение, используемое кодером. Иными словами, можно сказать, что декодер находит такое декодирующее отображение , что . Как было обнаружено, такой подход «синтез через анализ» приводит к результатам, которые для восприятия очень близки к исходному звуковому сигналу, если закодированное представление, которое декодер пытается воспроизвести, содержит огибающие спектра и автокорреляционную информацию, как описано в настоящем изобретении.Thus, it can be said that the decoder operates according to the synthesis-by-analysis approach in the sense that it seeks to find a reconstructed audio signal. , which satisfies at least one condition obtained from the encoded representation coded audio signal or for which the coded representation would essentially coincide with the encoded representation original audio signal , Where is the encoding mapping used by the encoder. In other words, we can say that the decoder finds such a decoding mapping , What . It has been found that this "synthesis by analysis" approach produces results that are perceptually very close to the original audio signal if the encoded representation that the decoder is attempting to reproduce contains spectral envelopes and autocorrelation information as described in the present invention.
В некоторых вариантах осуществления восстановленный звуковой сигнал может быть определен в итеративной процедуре, которая начинается с исходного кандидата для восстановленного звукового сигнала и генерирует соответствующий промежуточный восстановленный звуковой сигнал на каждой итерации. На каждой итерации к промежуточному восстановленному звуковому сигналу может применяться отображение обновления для получения промежуточного восстановленного звукового сигнала для следующей итерации. Отображение обновления может быть приспособлено так, что автокорреляционные функции звуковых сигналов поддиапазонов (или сгенерированных из) промежуточного восстановления звукового сигнала становятся ближе к удовлетворению условия, полученного из автокорреляционной информации для соответствующих звуковых сигналов поддиапазонов (или сгенерированных из) звукового сигнала, и/или так, что разность между измеренными мощностями сигналов звуковых сигналов поддиапазонов (или сгенерированных из) восстановленного звукового сигнала и мощностями сигналов для звукового сигнала соответствующего поддиапазона (или сгенерированного из) звукового сигнала, которые указаны огибающей спектра, уменьшаются от одной итерации к следующей. Если рассматривать и автокорреляционную информацию, и огибающую спектра, можно определить соответствующую метрику разности для степени, в которой удовлетворяются эти условия, и разности между мощностями сигналов для звуковых сигналов поддиапазонов. В некоторых реализациях отображение обновления может быть приспособлено таким образом, что разность между закодированным представлением промежуточного восстановленного звукового сигнала и закодированным представлением звукового сигнала последовательно уменьшается от одной итерации к следующей. С этой целью можно определить и применить соответствующую метрику разности для закодированных представлений (включая огибающие спектра и/или автокорреляционную информацию). Автокорреляционная функция звуковых сигналов поддиапазонов (или сгенерированных из) промежуточного восстановленного звукового сигнала может быть определена таким же образом, как это осуществляет кодер для звуковых сигналов поддиапазонов (или сгенерированных из) звукового сигнала. Аналогично закодированное представление промежуточного восстановленного звукового сигнала может представлять собой закодированное представление, которое было бы получено в случае, если бы промежуточный восстановленный звуковой сигнал был подвергнут воздействию такой же методики кодирования, как та, которая привела к закодированному представлению звукового сигнала.In some embodiments, the reconstructed audio signal may be determined in an iterative procedure that starts with an initial candidate for the reconstructed audio signal and generates a corresponding intermediate reconstructed audio signal at each iteration. At each iteration, an update mapping may be applied to the intermediate reconstructed audio signal to obtain an intermediate reconstructed audio signal for the next iteration. The update mapping may be adapted such that the autocorrelation functions of the sub-band audio signals of (or generated from) the intermediate reconstruction of the audio signal become closer to satisfying a condition obtained from the autocorrelation information for the corresponding sub-band audio signals of (or generated from) the audio signal, and/or such that the difference between the measured signal powers of the sub-band audio signals of (or generated from) the reconstructed audio signal and the signal powers for the audio signal of the corresponding sub-band of (or generated from) the audio signal, which are indicated by the spectral envelope, decrease from one iteration to the next. If both the autocorrelation information and the spectral envelope are considered, a corresponding difference metric can be defined for the degree to which these conditions are satisfied and the difference between the signal powers for the sub-band audio signals. In some implementations, the update mapping may be adapted such that the difference between the encoded representation of the intermediate reconstructed audio signal and the encoded representation of the audio signal is successively reduced from one iteration to the next. For this purpose, a corresponding difference metric for the encoded representations (including spectral envelopes and/or autocorrelation information) may be defined and applied. The autocorrelation function of the audio signals of the subbands of (or generated from) the intermediate reconstructed audio signal may be determined in the same way as the encoder does for the audio signals of the subbands of (or generated from) the audio signal. Similarly, the encoded representation of the intermediate reconstructed audio signal may be the encoded representation that would be obtained if the intermediate reconstructed audio signal were subjected to the same encoding technique as that which resulted in the encoded representation of the audio signal.
Такой итеративный способ обеспечивает возможность простой, но эффективной реализации вышеупомянутого подхода «синтез через анализ».This iterative approach allows for a simple but effective implementation of the above-mentioned synthesis-by-analysis approach.
В некоторых вариантах осуществления определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации может включать применение порождающей модели на основе машинного обучения, которая принимает в качестве входных данных огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов звукового сигнала и генерирует и выводит восстановленный звуковой сигнал. В тех реализациях, в которых закодированное представление содержит информацию о форме сигнала, порождающая модель на основе машинного обучения может дополнительно принимать в качестве входных данных информацию о форме сигнала. Это предполагает, что порождающая модель на основе машинного обучения может также быть подготовлена/обучена с использованием информации о форме сигнала.In some embodiments, determining the reconstructed audio signal based on the spectral envelope and the autocorrelation information may include applying a generative model based on machine learning, which receives as input the spectral envelope of the audio signal and the autocorrelation information for each of the plurality of audio signals of the subbands of the audio signal and generates and outputs the reconstructed audio signal. In those implementations in which the encoded representation comprises waveform information, the generative model based on machine learning may additionally receive waveform information as input. This suggests that the generative model based on machine learning may also be trained using waveform information.
Такой способ на основе машинного обучения обеспечивает возможность чрезвычайно эффективной реализации вышеупомянутого подхода «синтез через анализ» и может добиваться получения восстановленных звуковых сигналов, которые для восприятия очень близки к исходным звуковым сигналам.This machine learning-based method enables the above-mentioned synthesis-by-analysis approach to be implemented extremely efficiently and can achieve reconstructed audio signals that are perceptually very close to the original audio signals.
Другой аспект настоящего изобретения относится к кодеру для кодирования звукового сигнала. Кодер может содержать процессор и запоминающее устройство, соединенное с процессором, при этом процессор приспособлен для выполнения этапов способа согласно любому из способов кодирования, описанных в настоящем изобретении. Another aspect of the present invention relates to an encoder for encoding an audio signal. The encoder may comprise a processor and a memory device connected to the processor, wherein the processor is adapted to perform the steps of the method according to any of the encoding methods described in the present invention.
Еще один аспект настоящего изобретения относится к декодеру для декодирования звукового сигнала из закодированного представления звукового сигнала. Декодер может содержать процессор и запоминающее устройство, соединенное с процессором, при этом процессор приспособлен для выполнения этапов способа согласно любому из способов декодирования, описанных в настоящем изобретении.Another aspect of the present invention relates to a decoder for decoding an audio signal from an encoded representation of the audio signal. The decoder may comprise a processor and a memory device connected to the processor, wherein the processor is adapted to perform the steps of the method according to any of the decoding methods described in the present invention.
Еще один аспект относится к компьютерной программе, содержащей команды для вызова выполнения компьютером, исполняющим эти команды, этапов способа согласно любому из способов, описанных в настоящем изобретении. Another aspect relates to a computer program comprising instructions for causing a computer executing the instructions to perform steps of a method according to any of the methods described in the present invention.
Еще один аспект настоящего изобретения относится к машиночитаемому носителю данных, на котором хранится компьютерная программа согласно предыдущему аспекту.Another aspect of the present invention relates to a machine-readable storage medium on which a computer program according to the previous aspect is stored.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВBRIEF DESCRIPTION OF GRAPHIC MATERIALS
Теперь будут описаны примерные варианты осуществления настоящего изобретения, только в качестве примера, со ссылкой на сопроводительные графические материалы, на которых:Exemplary embodiments of the present invention will now be described, by way of example only, with reference to the accompanying drawings, in which:
фиг. 1 представляет собой структурную схему, иллюстрирующую пример кодера согласно вариантам осуществления настоящего изобретения, Fig. 1 is a block diagram illustrating an example of an encoder according to embodiments of the present invention,
фиг. 2 представляет собой блок-схему, иллюстрирующую пример способа кодирования согласно вариантам осуществления настоящего изобретения, Fig. 2 is a block diagram illustrating an example of a coding method according to embodiments of the present invention,
фиг. 3 представляет схематические изображения примеров форм сигналов, которые могут присутствовать в структуре способа кодирования согласно фиг. 2, Fig. 3 represents schematic representations of examples of signal forms that may be present in the structure of the coding method according to Fig. 2 ,
фиг. 4 представляет собой структурную схему, иллюстрирующую пример подхода «синтез через анализ» для определения декодирующей функции, Fig. 4 is a block diagram illustrating an example of the synthesis-by-analysis approach for determining a decoding function,
фиг. 5 представляет собой блок-схему, иллюстрирующую пример способа декодирования согласно вариантам осуществления настоящего изобретения, Fig. 5 is a block diagram illustrating an example of a decoding method according to embodiments of the present invention,
фиг. 6 представляет собой блок-схему, иллюстрирующую пример этапа в способе декодирования согласно фиг. 5, Fig. 6 is a block diagram illustrating an example of a step in the decoding method according to Fig. 5 ,
фиг. 7 представляет собой структурную схему, иллюстрирующую другой пример кодера согласно вариантам осуществления настоящего изобретения, и Fig. 7 is a block diagram illustrating another example of an encoder according to embodiments of the present invention, and
фиг. 8 представляет собой структурную схему, иллюстрирующую пример декодера согласно вариантам осуществления настоящего изобретения. Fig. 8 is a block diagram illustrating an example of a decoder according to embodiments of the present invention.
ОПИСАНИЕ ПРИМЕРОВ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯDESCRIPTION OF EXAMPLES OF IMPLEMENTATION OPTIONS
ВведениеIntroduction
Системы кодирования звука высокого качества, как правило, требуют сравнительно больших объемов данных для кодирования звукового содержимого, т.е. характеризуются сравнительно низкой эффективностью кодирования. Несмотря на то, что развитие инструментальных средств, таких как заполнение шумом и восстановление высоких частот, показало, что данные, описывающие форму сигнала, можно частично заменить имеющим меньший размер набором управляющих данных, ни один кодек звука высокого качества не полагается в первую очередь на значимые для восприятия признаки. Однако увеличение вычислительной мощности и современные достижения в области машинного обучения повысили живучесть декодирования звука преимущественно из кодеров произвольных форматов. В настоящем изобретении предлагается пример кодера такого формата. High-quality audio coding systems typically require relatively large amounts of data to encode the audio content, i.e., are characterized by relatively low coding efficiency. Although the development of tools such as noise filling and high-frequency restoration have shown that the data describing the waveform can be partially replaced by a smaller set of control data, no high-quality audio codec relies primarily on perceptually significant features. However, increasing computing power and modern advances in machine learning have increased the robustness of audio decoding primarily from arbitrary-format coders. The present invention provides an example of such a format coder.
В более широком смысле, в настоящем изобретении предлагается формат кодирования на основе огибающих поддиапазонов, основывающихся на разрешающей способности слуха, и дополнительной информации. Дополнительная информация включает одно значение автокорреляции и одно значение запаздывания для каждого поддиапазона (и для каждого этапа обновления). Огибающие могут вычисляться с первой частотой обновления, а выборка дополнительной информации может осуществляться со второй частотой обновления. Например, декодирование формата кодирования может происходить с использованием подхода «синтез через анализ», который может быть реализован с помощью итеративных методов или методов на основе машинного обучения.In a broader sense, the present invention proposes a coding format based on sub-band envelopes based on auditory resolution and additional information. The additional information includes one autocorrelation value and one lag value for each sub-band (and for each update step). The envelopes can be calculated at a first update rate, and the additional information can be sampled at a second update rate. For example, decoding of the coding format can be performed using a "synthesis by analysis" approach, which can be implemented using iterative methods or machine learning-based methods.
КодированиеCoding
Формат кодирования (закодированное представление), предложенный в настоящем изобретении, может быть назван «форматом со множественным запаздыванием», поскольку он предусматривает одно запаздывание для каждого поддиапазона (и этапа обновления). На фиг. 1 представлена структурная схема, иллюстрирующая пример кодера 100 для генерирования формата кодирования согласно вариантам осуществления настоящего изобретения. The encoding format (encoded representation) proposed in the present invention can be called a "multiple-delay format" since it provides one delay for each subband (and update stage). Fig. 1 is a block diagram illustrating an example of an encoder 100 for generating an encoding format according to embodiments of the present invention.
Кодер 100 принимает целевой звук 10, который соответствует звуковому сигналу, который нужно закодировать. Звуковой сигнал 10 может содержать множество последовательных или частично перекрывающихся частей (например, групп отсчетов, сегментов, кадров и т.д.), которые обрабатываются кодером. Звуковой сигнал 10 подвергается спектральному разложению на множество звуковых сигналов 20 поддиапазонов в соответствующих частотных поддиапазонах с помощью банка 15 фильтров. Банк 15 фильтров может представлять собой банк полосовых фильтров (bandpass filter, BPF), которые, например, могут представлять собой комплекснозначные BPF фильтры. Для звуковых сигналов естественным является использование банка фильтров BPF с разрешающей способностью по частоте, которая связана со слуховой системой человека. The encoder 100 receives a target sound 10, which corresponds to an audio signal to be encoded. The audio signal 10 may comprise a plurality of consecutive or partially overlapping parts (e.g., groups of samples, segments, frames, etc.), which are processed by the encoder. The audio signal 10 is spectrally decomposed into a plurality of audio signals 20 sub-bands in corresponding frequency sub-bands using a filter bank 15. The filter bank 15 may be a bank of bandpass filters (BPF), which, for example, may be complex-valued BPF filters. For audio signals, it is natural to use a BPF filter bank with a frequency resolution that is associated with the human auditory system.
Огибающая 30 спектра звукового сигнала 10 извлекается в блоке 25 извлечения огибающей. Для каждого поддиапазона мощность измеряется с предварительно определенными временными шагами в качестве базовой модели слуховой огибающей или схемы возбуждения улитки уха в результате входного звукового сигнала, чтобы таким образом определять огибающую 30 спектра звукового сигнала 10. То есть огибающая 30 спектра может быть определена на основе множества звуковых сигналов 20 поддиапазонов, например путем измерения (например, оценивания, вычисления) мощности соответствующего сигнала для каждого из множества звуковых сигналов 20 поддиапазонов. Однако огибающая 30 спектра может быть определена с помощью любого подходящего альтернативного инструментального средства, такого как, например, описание кодирования с линейным предсказанием (LPC). В частности, в некоторых реализациях огибающая спектра может быть определена из звукового сигнала перед спектральным разложением с помощью банка 15 фильтров. The spectral envelope 30 of the audio signal 10 is extracted in the envelope extraction unit 25. For each sub-band, the power is measured with predetermined time steps as a base model of the auditory envelope or the excitation pattern of the cochlea as a result of the input audio signal, in order to thereby determine the spectral envelope 30 of the audio signal 10. That is, the spectral envelope 30 can be determined based on a plurality of audio signals 20 of the sub-bands, for example by measuring (for example, estimating, calculating) the power of the corresponding signal for each of the plurality of audio signals 20 of the sub-bands. However, the spectral envelope 30 can be determined using any suitable alternative tool, such as, for example, a description of linear predictive coding (LPC). In particular, in some implementations, the spectral envelope can be determined from the audio signal before spectral decomposition using the filter bank 15.
Необязательно извлеченная огибающая 30 спектра может быть подвергнута понижающей дискретизации в блоке 35 понижающей дискретизации, и подвергнутая понижающей дискретизации огибающая 40 спектра (или огибающая 30 спектра) выводится как часть формата кодирования, или закодированного представления (соответствующей части), звукового сигнала 10.Optionally, the extracted spectral envelope 30 may be down-sampled in a down-sampling unit 35, and the down-sampled spectral envelope 40 (or spectral envelope 30) is output as part of an encoding format, or an encoded representation (the corresponding part), of the audio signal 10.
Восстановленные сигналы, которые восстановлены только из огибающих спектра, могут по-прежнему характеризоваться недостаточным тональным качеством. Для решения этой проблемы в настоящем изобретении предлагается включение одного значения (т. е. ординаты и абсциссы) автокорреляционной функции сигнала (возможно, со сглаженной огибающей) для каждого поддиапазона, что ведет к значительному повышению качества звука. С этой целью, звуковые сигналы 20 поддиапазонов необязательно сглаживаются (подвергаются сглаживанию огибающей) в делителе 45 и вводятся в блок 55 автокорреляции. Блок 55 автокорреляции определяет автокорреляционную функцию (ACF) его входного сигнала и выводит соответствующие фрагменты автокорреляционной информации 50 для каждого из звуковых сигналов 20 поддиапазонов (т.е. для каждого из поддиапазонов) на основе ACF соответствующих звуковых сигналов 20 поддиапазонов. Автокорреляционная информация 50 для данного поддиапазона содержит представления 50 (т.е. состоит из представлений) значения запаздывания и значения автокорреляции. То есть для каждого поддиапазона в качестве автокорреляционной информации 50, которая является частью закодированного представления, выводятся (например, передаются) одно значение запаздывания и соответствующее (возможно, нормированное) значение автокорреляции (значение ACF). Здесь значение запаздывания соответствует значению задержки, при котором ACF достигает локального максимума, а значение автокорреляции соответствует указанному локальному максимуму. Иными словами, автокорреляционная информация для данного поддиапазона может содержать значение задержки (т.е. абсциссу) и значение автокорреляции (т.е. ординату) локального максимума ACF.Reconstructed signals that are reconstructed only from the spectral envelopes may still be characterized by insufficient tonal quality. To solve this problem, the present invention proposes to include one value (i.e., ordinate and abscissa) of the autocorrelation function of the signal (possibly with a smoothed envelope) for each sub-band, which leads to a significant improvement in the sound quality. For this purpose, the audio signals of the 20 sub-bands are optionally smoothed (subject to envelope smoothing) in the divider 45 and input to the autocorrelation unit 55. The autocorrelation unit 55 determines the autocorrelation function (ACF) of its input signal and outputs corresponding fragments of the autocorrelation information 50 for each of the audio signals of the 20 sub-bands (i.e., for each of the sub-bands) based on the ACF of the corresponding audio signals of the 20 sub-bands. The autocorrelation information 50 for a given subrange contains 50 representations (i.e. consists of representations) of the value lags and values autocorrelations. That is, for each sub-range, one lag value is output (e.g. transmitted) as autocorrelation information 50, which is part of the encoded representation and the corresponding (possibly normalized) value autocorrelation (ACF value). Here the value lag corresponds to the delay value at which the ACF reaches a local maximum, and the value autocorrelation corresponds to the specified local maximum. In other words, the autocorrelation information for a given subrange may contain the delay value (i.e., the abscissa) and the autocorrelation value (i.e., the ordinate) of the local maximum of the ACF.
Таким образом, закодированное представление звукового сигнала содержит огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из поддиапазонов. Автокорреляционная информация для данного поддиапазона включает представления значения запаздывания и значения автокорреляции. Закодированное представление соответствует выходным данным кодера. В некоторых реализациях закодированное представление может дополнительно содержать информацию о форме сигнала, относящуюся к форме сигнала звукового сигнала и/или одной или более формам сигнала звуковых сигналов поддиапазонов.Thus, the encoded representation of the audio signal contains the envelope of the audio signal spectrum and autocorrelation information for each of the sub-ranges. The autocorrelation information for a given sub-range includes representations of the value lags and values autocorrelations. The encoded representation corresponds to the output of the encoder. In some implementations, the encoded representation may further comprise waveform information related to the waveform of the audio signal and/or one or more waveforms of the subband audio signals.
С помощью вышеописанной процедуры определяется кодирующая функция (или кодирующее отображение), которая отображает входной звуковой сигнал в его закодированное представление.Using the above procedure, the coding function is determined. (or encoding mapping) that maps the input audio signal into its encoded representation.
Как отмечено выше, огибающая спектра и автокорреляционная информация для звуковых сигналов поддиапазонов могут быть определены и выведены на разных частотах обновления (частотах выборки). Например, огибающая спектра может быть определена с первой частотой обновления, а автокорреляционная информация для множества звуковых сигналов поддиапазонов может быть определена со второй частотой обновления, отличной от первой частоты обновления. Представление огибающей спектра и представления автокорреляционной информации (для всех поддиапазонов) могут быть записаны в битовый поток на соответствующих частотах обновления (частотах выборки). В этом случае закодированное представление может относиться к части битового потока, выводимого кодером. В этом отношении необходимо отметить, что для каждого момента времени текущая огибающая спектра и текущий набор фрагментов автокорреляционной информации (по одному для каждого поддиапазона) определены битовым потоком и могут быть взяты как закодированное представление. Альтернативно представление огибающей спектра и представления автокорреляционной информации (для всех поддиапазонов) могут быть обновлены в соответствующих единицах выходных данных кодера на соответствующих частотах обновления. В этом случае каждая единица выходных данных (например, закодированный кадр) кодера соответствует экземпляру закодированного представления. Представления огибающей спектра и автокорреляционной информации могут быть одинаковыми во всем ряду последовательных единиц выходных данных, в зависимости от соответствующих частот обновления. As noted above, the spectral envelope and the autocorrelation information for the sub-band audio signals may be determined and output at different update rates (sampling rates). For example, the spectral envelope may be determined at a first update rate, and the autocorrelation information for a plurality of sub-band audio signals may be determined at a second update rate different from the first update rate. The spectral envelope representation and the autocorrelation information representations (for all sub-bands) may be written into the bitstream at the corresponding update rates (sampling rates). In this case, the encoded representation may refer to the portion of the bitstream output by the encoder. In this regard, it should be noted that for each time instant, the current spectral envelope and the current set of autocorrelation information fragments (one for each sub-band) are determined by the bitstream and may be taken as the encoded representation. Alternatively, the spectral envelope representation and the autocorrelation information representation (for all subbands) may be updated in the corresponding encoder output units at the corresponding update rates. In this case, each output unit (e.g., encoded frame) of the encoder corresponds to an instance of the encoded representation. The spectral envelope and autocorrelation information representations may be the same across a series of consecutive output units, depending on the corresponding update rates.
Предпочтительно первая частота обновления выше второй частоты обновления. В одном примере первая частота обновления R1 может быть равна R1 = 1/(2,5 мс), а вторая частота обновления R2 может быть равна R2 = 1/(20 мс), так что обновленное представление огибающей спектра выводится каждые 2,5 мс, тогда как обновленные представления автокорреляционной информации выводятся каждые 20 мс. Что касается частей (например, кадров) звукового сигнала, огибающая спектра может быть определена для каждой n-й части (например, для каждой части), тогда как автокорреляционная информация может быть определена для каждой m-й части, где m > n. Preferably, the first update rate is higher than the second update rate. In one example, the first update rate R 1 may be equal to R 1 = 1/(2.5 ms), and the second update rate R 2 may be equal to R 2 = 1/(20 ms), so that an updated representation of the spectral envelope is output every 2.5 ms, while the updated representations of the autocorrelation information are output every 20 ms. With respect to parts (e.g., frames) of the audio signal, the spectral envelope may be determined for every n-th part (e.g., for every part), while the autocorrelation information may be determined for every m-th part, where m> n.
Закодированное представление(-ия) может быть выведено в виде последовательности кадров с определенной длиной кадра. Среди прочих факторов, длина кадра может зависеть от первой и/или второй частот обновления. Если считать, что кадр характеризуется длиной, равной первому периоду L1 (например, 2,5 мс), который соответствует первой частоте обновления R1 (например, 1/(2,5 мс)), согласно L1 = 1/R1, то этот кадр будет включать одно представление огибающей спектра и представление одного набора фрагментов автокорреляционной информации (по одному фрагменту на звуковой сигнал поддиапазона). Для первой и второй частот обновления, равных, соответственно, 1/(2,5 мс) и 1/(20 мс), автокорреляционная информация будет одинаковой для восьми последовательных кадров закодированных представлений. В целом, автокорреляционная информация была бы одинаковой для R1/R2 последовательных кадров закодированных представлений, с учетом того, что R1 и R2 надлежащим образом выбраны так, чтобы давать целочисленное отношение. С другой стороны, принимая, что кадр имеет длину, равную второму периоду L2 (например, 20 мс), который соответствует второй частоте обновления R2 (например, 1/(20 мс)), согласно L2 = 1 / R2, этот кадр будет содержать представление одного набора фрагментов автокорреляционной информации, и R1ь/R2 (например, восемь) представлений огибающих спектра. The encoded representation(s) may be output as a sequence of frames with a certain frame length. Among other factors, the frame length may depend on the first and/or second refresh rates. If we consider that a frame has a length equal to the first period L 1 (e.g., 2.5 ms), which corresponds to the first refresh rate R 1 (e.g., 1/(2.5 ms)), according to L 1 = 1/R 1 , then this frame will include one representation of the spectral envelope and a representation of one set of fragments of autocorrelation information (one fragment per sub-band audio signal). For the first and second refresh rates equal to 1/(2.5 ms) and 1/(20 ms), respectively, the autocorrelation information will be the same for eight consecutive frames of the encoded representations. In general, the autocorrelation information would be the same for R 1 /R 2 consecutive frames of coded representations, given that R 1 and R 2 are suitably chosen to give an integer ratio. On the other hand, assuming that a frame has a length equal to the second period L 2 (e.g. 20 ms), which corresponds to a second update rate R 2 (e.g. 1/(20 ms)), according to L 2 = 1 / R 2 , this frame will contain a representation of one set of fragments of autocorrelation information, and R 1 Ь /R 2 (e.g. eight) representations of the spectral envelopes.
В некоторых реализациях разные частоты обновления могут применяться даже к разным поддиапазонам, т.е. автокорреляционная информация для разных звуковых сигналов поддиапазонов может генерироваться и выводиться на разных частотах обновления.In some implementations, different update rates may even be applied to different sub-bands, i.e. autocorrelation information for different sub-band audio signals may be generated and output at different update rates.
На фиг. 2 представлена блок-схема, иллюстрирующая пример способа 200 кодирования согласно вариантам осуществления настоящего изобретения. Способ, который может быть реализован кодером 100, описанным выше, принимает звуковой сигнал в качестве входных данных. Fig. 2 is a block diagram illustrating an example of a coding method 200 according to embodiments of the present invention. The method, which can be implemented by the encoder 100 described above, receives an audio signal as input.
На этапе S210 на основе звукового сигнала генерируют множество звуковых сигналов поддиапазонов. Данный этап может включать спектральное разложение звукового сигнала, и в этом случае данный этап может быть выполнен в соответствии с действием вышеописанного банка 15 фильтров. Альтернативно он может включать спектральное и/или временное сглаживание звукового сигнала, необязательно обработку методом окна сглаженного звукового сигнала с помощью оконной функции и спектральное разложение результирующего сигнала на множество звуковых сигналов поддиапазонов.In step S210, a plurality of sub-band audio signals are generated based on the audio signal. This step may include spectral decomposition of the audio signal, in which case this step may be performed in accordance with the action of the above-described filter bank 15. Alternatively, it may include spectral and/or temporal smoothing of the audio signal, optionally windowing the smoothed audio signal using a window function, and spectral decomposition of the resulting signal into a plurality of sub-band audio signals.
На этапе S220 определяют (например, вычисляют) огибающую спектра звукового сигнала. Этот этап может выполняться в соответствии с действием вышеописанного блока 25 извлечения огибающей. In step S220, the envelope of the spectrum of the audio signal is determined (for example, calculated). This step can be performed in accordance with the action of the envelope extraction unit 25 described above.
На этапе S230 для звукового сигнала каждого поддиапазона автокорреляционную информацию определяют для звукового сигнала поддиапазона на основе ACF звукового сигнала поддиапазона. Этот этап может выполняться в соответствии с действием вышеописанного блока 55 автокорреляции. In step S230, for the audio signal of each sub-band, autocorrelation information is determined for the audio signal of the sub-band based on the ACF of the audio signal of the sub-band. This step can be performed in accordance with the action of the above-described autocorrelation block 55.
На этапе S240 генерируют закодированное представление звукового сигнала. Закодированное представление содержит представление огибающей спектра звукового сигнала и представление автокорреляционной информации для каждого из множества звуковых сигналов поддиапазонов.At step S240, an encoded representation of the audio signal is generated. The encoded representation comprises a representation of the spectral envelope of the audio signal and a representation of autocorrelation information for each of the plurality of sub-band audio signals.
Ниже будут описаны примеры с подробностями реализации этапов способа 200. Below, examples will be described with details of the implementation of the stages of method 200.
Например, как отмечено выше, генерирование множества звуковых сигналов поддиапазонов может включать спектральное разложение (или являться эквивалентным спектральному разложению) звукового сигнала, например, с помощью банка фильтров. В этом случае определение автокорреляционной функции для звукового сигнала данного поддиапазона может включать определение огибающей поддиапазона для звукового сигнала поддиапазона. Огибающая поддиапазона может быть определена путем взятия значений амплитуды звукового сигнала поддиапазона. Сама ACF может быть вычислена для вещественнозначного сигнала поддиапазона (обработанного методом окна, со сглаженной огибающей).For example, as noted above, generating a plurality of sub-band audio signals may involve spectral decomposition (or be equivalent to spectral decomposition) of the audio signal, such as by means of a filter bank. In this case, determining the autocorrelation function for the sub-band audio signal may involve determining a sub-band envelope for the sub-band audio signal. The sub-band envelope may be determined by taking the amplitude values of the sub-band audio signal. The ACF itself may be calculated for a real-valued sub-band signal (windowed, with a smoothed envelope).
Полагая, что характеристики фильтров поддиапазонов являются комплекснозначными, при этом преобразования Фурье по существу поддерживаются в отношении положительных частот, сигналы поддиапазонов становятся комплекснозначными. Тогда огибающая поддиапазона может быть определена путем взятия амплитуды комплекснозначного сигнала поддиапазона. Эта огибающая поддиапазона содержит столько же отсчетов, как и сигнал поддиапазона, и может по-прежнему являться в некоторой мере колебательной. Необязательно огибающая поддиапазона может быть подвергнута понижающей дискретизации, например путем вычисления взвешенной с помощью треугольного окна суммы квадратов огибающей в сегментах определенной длины (например, длины 5 мс, с возрастанием на 2,5 мс, падением на 2,5 мс) для каждого сдвига на половину определенной длины (например, 2,5 мс) вдоль сигнала, а затем взятия квадратного корня этой последовательности для получения подвергнутой понижающей дискретизации огибающей поддиапазона. Можно сказать, что она соответствует определению «среднеквадратичной огибающей». Треугольное окно может быть нормировано так, что постоянная огибающая со значением, равным единице, дает последовательность единиц. Также выполнимыми являются другие способы определения огибающей поддиапазона, такие как, например, в случае вещественнозначного сигнала поддиапазона, однополупериодное выпрямление, за которым следует низкочастотная фильтрация. В любом случае можно сказать, что огибающие поддиапазонов несут информацию об энергии в сигналах поддиапазонов (на выбранной частоте обновления).Assuming that the subband filter characteristics are complex-valued, with the Fourier transforms essentially maintained with respect to positive frequencies, the subband signals become complex-valued. The subband envelope can then be determined by taking the amplitude of the complex-valued subband signal. This subband envelope contains the same number of samples as the subband signal and may still be somewhat oscillatory. Optionally, the subband envelope can be downsampled, such as by computing a triangular-window weighted sum of the squares of the envelope in segments of a certain length (e.g., 5 ms long, rising at 2.5 ms, falling at 2.5 ms) for each shift of half a certain length (e.g., 2.5 ms) along the signal, and then taking the square root of this sequence to obtain the downsampled subband envelope. It can be said to correspond to the definition of "root mean square envelope". The triangular window can be normalized such that a constant envelope with a value of one yields a sequence of ones. Other ways of defining the subband envelope are also feasible, such as, for example, in the case of a real-valued subband signal, a half-wave rectification followed by low-pass filtering. In any case, the subband envelopes can be said to carry information about the energy in the subband signals (at the chosen refresh rate).
Тогда звуковой сигнал поддиапазона может быть подвергнут сглаживанию огибающей на основании огибающей поддиапазона. Например, для получения сигнала с мелкой структурой (несущего), на основе которого вычисляют данные ACF, путем линейной интерполяции подвергнутых понижающей дискретизации значений и деления исходных (комплекснозначных) сигналов поддиапазонов на их линейно интерполированную огибающую можно создать новый сигнал огибающей с полной частотой выборки.The sub-band audio signal can then be envelope smoothed based on the sub-band envelope. For example, to obtain a fine-grained (carrier) signal from which to calculate the ACF data, a new envelope signal at full sampling rate can be created by linearly interpolating the down-sampled values and dividing the original (complex-valued) sub-band signals by their linearly interpolated envelope.
Звуковой сигнал поддиапазона со сглаженной огибающей может затем быть обработан методом окна с помощью подходящей оконной функции. Наконец, определяют (например, вычисляют) ACF обработанного методом окна звукового сигнала поддиапазона со сглаженной огибающей. В некоторых реализациях определение ACF для звукового сигнала данного поддиапазона может дополнительно включать нормирование ACF обработанного методом окна звукового сигнала поддиапазона со сглаженной огибающей с помощью автокорреляционной функции оконной функции.The sub-band audio signal with the smoothed envelope may then be windowed using a suitable window function. Finally, the ACF of the windowed sub-band audio signal with the smoothed envelope is determined (e.g., calculated). In some implementations, determining the ACF for the sub-band audio signal may further include normalizing the ACF of the windowed sub-band audio signal with the smoothed envelope using an autocorrelation function of the window function.
На фиг. 3 кривая 310 на верхней панели указывает вещественное значение обработанного методом окна сигнала поддиапазона со сглаженной огибающей, которое используется для вычисления ACF. Сплошная кривая 320 на нижней панели указывает вещественные значения комплексной ACF.In Fig. 3, curve 310 in the upper panel indicates the real value of the windowed subband signal with smoothed envelope, which is used to calculate the ACF. Solid curve 320 in the lower panel indicates the real values of the complex ACF.
Главной идеей теперь является нахождение наибольшего локального максимума ACF сигнала поддиапазона среди тех локальных максимумов, которые лежат выше ACF абсолютного значения импульсной характеристики (комплекснозначного) фильтра поддиапазонов (т.е. соответствующего BPF из банка фильтров). На этом этапе для ACF сигнала поддиапазона, которая является комплекснозначной, можно рассматривать вещественные значения ACF. Нахождение наибольшего локального максимума выше ACF абсолютного значения импульсной характеристики может быть необходимым во избежание захвата запаздываний, связанных с центральной частотой поддиапазона, а не со свойствами входного сигнала. В качестве последнего уточнения, это максимальное значение может быть разделено на максимальное значение ACF оконной функции, использованной для окна ACF поддиапазона (полагая, что сама ACF сигнала поддиапазона была нормирована, например так, что значение автокорреляции для нулевой задержки нормировано на единицу). Это приводит к лучшему использованию интервала между 0 и 1, где является максимальной тональностью.The main idea now is to find the largest local maximum of the subband signal ACF among those local maxima that lie above the absolute value ACF of the impulse response of the (complex-valued) subband filter (i.e. the corresponding BPF from the filter bank). At this point, for a subband signal ACF that is complex-valued, one can consider real values of the ACF. Finding the largest local maximum above the absolute value ACF of the impulse response may be necessary to avoid capturing delays that are related to the subband center frequency rather than to the properties of the input signal. As a final refinement, this maximum value can be divided by the maximum ACF of the window function used to window the subband ACF (assuming that the subband signal ACF itself has been normalized, e.g. such that the autocorrelation value for zero delay is normalized to unity). This results in better use of the interval between 0 and 1, where is the maximum tonality.
Соответственно, определение автокорреляционной информации для звукового сигнала данного поддиапазона на основе ACF звукового сигнала поддиапазона может дополнительно включать сравнение ACF звукового сигнала поддиапазона с ACF абсолютного значения импульсной характеристики соответствующего полосового фильтра, связанного со звуковым сигналом поддиапазона. ACF абсолютного значения импульсной характеристики соответствующего полосового фильтра, связанного со звуковым сигналом поддиапазона, указано сплошной кривой 330 на нижней панели фиг. 3. Автокорреляционную информацию затем определяют на основе наивысшего локального максимума ACF сигнала поддиапазона выше ACF абсолютного значения импульсной характеристики соответствующего полосового фильтра, связанного со звуковым сигналом поддиапазона. На нижней панели фиг. 3 локальные максимумы ACF указаны крестами, а выбранный наивысший локальный максимум ACF сигнала поддиапазона выше ACF абсолютного значения импульсной характеристики соответствующего полосового указан кругом. Необязательно выбранный локальный максимум ACF может быть нормирован посредством значения ACF для ACF оконной функции (полагая, что сама ACF была нормирована, например так, что значение автокорреляции для нулевой задержки нормировано на единицу). Нормированный выбранный наивысший локальный максимум ACF указан звездочкой на нижней панели фиг. 3, а штриховая кривая 340 указывает ACF оконной функции.Accordingly, determining the autocorrelation information for the audio signal of a given sub-band based on the ACF of the sub-band audio signal may further include comparing the ACF of the sub-band audio signal with the ACF of the absolute value of the impulse response of the corresponding band-pass filter associated with the sub-band audio signal. The ACF of the absolute value of the impulse response of the corresponding band-pass filter associated with the sub-band audio signal is indicated by the solid curve 330 in the lower panel of Fig. 3 . The autocorrelation information is then determined based on the highest local maximum of the ACF of the sub-band signal above the ACF of the absolute value of the impulse response of the corresponding band-pass filter associated with the sub-band audio signal. In the lower panel of Fig. 3 the local maxima of the ACF are indicated by crosses, and the selected highest local maximum of the ACF of the sub-band signal above the ACF of the absolute value of the impulse response of the corresponding band-pass filter is indicated by a circle. Optionally, the selected local maximum ACF may be normalized by the ACF value for the window function ACF (assuming that the ACF itself has been normalized, such that the autocorrelation value for zero lag is normalized to unity). The normalized selected highest local maximum ACF is indicated by the asterisk in the lower panel of Fig. 3 , and the dashed curve 340 indicates the window function ACF.
Автокорреляционная информация, определенная на этом этапе, может содержать значение автокорреляции и значение задержки (т.е. ординату и абсциссу) выбранного (нормированного) высшего локального максимума ACF звукового сигнала поддиапазона.The autocorrelation information determined at this stage may contain the autocorrelation value and the delay value (i.e. the ordinate and abscissa) of the selected (normalized) highest local maximum ACF of the sub-band audio signal.
Подобный формат кодирования может быть определен в структуре вокодера на основе LPC. Также в этом случае автокорреляционная информация извлекается из сигнала поддиапазона, на который оказывает влияние по меньшей мере некоторая степень спектрального и/или временного сглаживания. В отличие от вышеупомянутого примера, это осуществляется путем создания (взвешенного с учетом восприятия) остаточного сигнала LPC, его обработки методом окна и его разложения на поддиапазоны для получения множества звуковых сигналов поддиапазонов. За этим следует вычисление ACF и извлечение значения запаздывания и значения автокорреляции для звукового сигнала каждого поддиапазона. A similar coding format can be defined in the LPC-based vocoder structure. Also in this case, the autocorrelation information is extracted from a subband signal that is affected by at least some degree of spectral and/or temporal smoothing. Unlike the above example, this is done by creating a (perceptually weighted) LPC residual signal, windowing it, and decomposing it into subbands to produce a plurality of subband audio signals. This is followed by calculating the ACF and extracting the lag value and the autocorrelation value for each subband audio signal.
Например, генерирование множества звуковых сигналов поддиапазонов может включать применение спектрального и/или временного сглаживания к звуковому сигналу (например, путем генерирования взвешенного с учетом восприятия остаточного сигнала LPC на основе звукового сигнала с использованием фильтра LPC). За этим может следовать обработка методом окна сглаженного звукового сигнала с помощью оконной функции и спектральное разложение обработанного методом окна сглаженного звукового сигнала на множество звуковых сигналов поддиапазонов. Как отмечено выше, результат временного и/или спектрального сглаживания может соответствовать взвешенному с учетом восприятия остаточному сигналу LPC, который затем подвергают обработке методом окна и спектральному разложению на поддиапазоны. Взвешенный с учетом восприятия остаточный сигнал LPC может представлять собой, например, «розовый» остаточный сигнал LPC. For example, generating a plurality of sub-band audio signals may include applying spectral and/or temporal smoothing to an audio signal (e.g., by generating a perceptually weighted LPC residual signal based on the audio signal using an LPC filter). This may be followed by windowing the smoothed audio signal using a window function and spectral decomposition of the windowed smoothed audio signal into a plurality of sub-band audio signals. As noted above, the result of the temporal and/or spectral smoothing may correspond to a perceptually weighted LPC residual signal, which is then windowed and spectrally decomposed into sub-bands. The perceptually weighted LPC residual signal may be, for example, a "pink" LPC residual signal.
ДекодированиеDecoding
Настоящее изобретение относится к декодированию звука, которое основано на подходе «синтез через анализ». На наиболее абстрактном уровне предполагается, что задано кодирующее отображение из сигналов в обусловленную восприятием область, так, что исходный звуковой сигнал представляется как . В лучшем случае, хорошим предсказанием субъективной разности, измеренной с помощью совокупности слушателей, является простой критерий искажения, подобный наименьшим квадратам, в области восприятия.The present invention relates to audio decoding which is based on the "synthesis by analysis" approach. At the most abstract level, it is assumed that a coding mapping is given from signals into the perceptually conditioned region, so that the original sound signal appears as At best, a good predictor of the subjective difference measured by a population of listeners is a simple least-squares-like distortion criterion in the perceptual domain.
Одной остающейся проблемой является построение декодера , выполняющего отображение из (закодированной и декодированной версии) в звуковой сигнал . С этой целью может использоваться концепция «синтез через анализ», которая включает «нахождение формы сигнала, которая находится ближе всего к генерированию заданной картины». Целью является то, что и должны звучать похоже, так что декодер должен решать обратную задачу . Что касается составления отображений, должна аппроксимировать левую обратную функцию , это означает, что . Эта обратная задача часто является некорректно поставленной в том смысле, что она имеет множество решений. Возможность реализации значительной экономии битрейта заключается в том наблюдении, что большое количество разных форм сигналов будет создавать одинаковое впечатление от звука. One remaining problem is the construction of a decoder. , performing the mapping from (encoded and decoded version) into the sound signal . For this purpose, the concept of "synthesis by analysis" can be used, which involves "finding the waveform that comes closest to generating the desired pattern." The goal is that And should sound similar, so the decoder must solve the inverse problem As for the composition of the mappings, should approximate the left inverse function , this means that . This inverse problem is often ill-posed in the sense that it has many solutions. The possibility of realizing significant bitrate savings lies in the observation that a large number of different waveforms will produce the same audio impression.
На фиг. 4 представлена структурная схема, иллюстрирующая пример подхода «синтез через анализ» для определения декодирующей функции (или декодирующего отображения) , при заданной кодирующей функции (или кодирующем отображении) . Исходный звуковой сигнал 410, подвергается воздействию кодирующего отображения , 415, что дает закодированное представление , 420, где . Закодированное представление может быть определено в области восприятия. Целью является нахождение декодирующей функции (декодирующего отображения) , 425, которая отображает закодированное представление в восстановленный звуковой сигнал , 430, свойством которого является то, что применение кодирующего отображения , 435, к восстановленному звуковому сигналу давало бы закодированное представление , 440, по существу совпадающее с закодированным представлением . Здесь термин «по существу совпадает» может означать, например, «совпадает до предварительно заданного предела». Иными словами, при заданном кодирующем отображении целью является нахождение такого декодирующего отображения , что . Fig. 4 shows a block diagram illustrating an example of the synthesis-by-analysis approach to determining a decoding function (or decoding mapping) , given a coding function (or coding mapping) . Original audio signal 410, is affected by the encoding mapping , 415, which gives the encoded representation , 420, where . Encoded representation can be defined in the field of perception. The goal is to find the decoding function (decoding mapping) , 425, which displays the encoded representation into the restored audio signal , 430, the property of which is that the application of the coding mapping , 435, to the restored sound signal would give a coded representation , 440, essentially identical to the encoded representation . Here the term "essentially matches" can mean, for example, "matches up to a predetermined limit." In other words, given the encoding mapping the goal is to find such a decoding mapping , What .
На фиг. 5 представлена блок-схема, иллюстрирующая пример способа 500 декодирования в соответствии с подходом «синтез через анализ» согласно вариантам осуществления настоящего изобретения. Способ 500 представляет собой способ декодирования звукового сигнала из закодированного представления (исходного) звукового сигнала. Предполагается, что закодированное представление включает представление огибающей спектра исходного звукового сигнала и представление автокорреляционной информации для каждого из множества звуковых сигналов поддиапазонов исходного звукового сигнала. Автокорреляционная информация для звукового сигнала данного поддиапазона основана на ACF звукового сигнала поддиапазона. Fig. 5 is a block diagram illustrating an example of a decoding method 500 according to the "synthesis by analysis" approach according to embodiments of the present invention. The method 500 is a method for decoding an audio signal from an encoded representation of the (original) audio signal. It is assumed that the encoded representation includes a representation of the spectral envelope of the original audio signal and a representation of autocorrelation information for each of a plurality of subband audio signals of the original audio signal. The autocorrelation information for the audio signal of a given subband is based on the ACF of the subband audio signal.
На этапе S510 принимают закодированное представление звукового сигнала. In step S510, an encoded representation of the audio signal is received.
На этапе S520 из закодированного представления звукового сигнала извлекают огибающую спектра и автокорреляционную информацию.At step S520, a spectral envelope and autocorrelation information are extracted from the encoded representation of the audio signal.
На этапе S530 на основе огибающей спектра и автокорреляционной информации определяют восстановленный звуковой сигнал. Здесь восстановленный звуковой сигнал определяют так, чтобы автокорреляционная функция каждого из множества сигналов поддиапазонов восстановленного звукового сигнала (по существу) удовлетворяла условию, полученному из автокорреляционной информации для звуковых сигналов соответствующих поддиапазонов звукового сигнала. Это условие может заключаться, например, в том, что для звукового сигнала каждого поддиапазона восстановленного звукового сигнала значение ACF звукового сигнала поддиапазона восстановленного звукового сигнала при значении запаздывания (например, значении задержки), указанном автокорреляционной информацией для звукового сигнала соответствующего поддиапазона звукового сигнала, по существу совпадает со значением автокорреляции, указанным автокорреляционной информацией для звукового сигнала соответствующего поддиапазона звукового сигнала. Это может предполагать, что декодер может определять ACF звуковых сигналов поддиапазонов таким же образом, как это осуществляет кодер. Это может включать любое, некоторое или все из сглаживания, обработки методом окна и нормирования. В одной реализации восстановленный звуковой сигнал может быть определен так, что для звукового сигнала каждого поддиапазона восстановленного звукового сигнала значение автокорреляции и значение запаздывания (например, значение задержки) ACF сигнала поддиапазона восстановленного звукового сигнала по существу совпадают со значением автокорреляции и значением запаздывания, указанными автокорреляционной информацией для звукового сигнала соответствующего поддиапазона исходного звукового сигнала. Это может предполагать, что декодер может определять автокорреляционную информацию для сигнала каждого поддиапазона восстановленного звукового сигнала таким же образом, как это осуществляет кодер. В тех реализациях, в которых закодированное представление также включает информацию о форме сигнала, восстановленный звуковой сигнал может быть определен дополнительно на основе информации о форме сигнала. Звуковые сигналы поддиапазонов восстановленного звукового сигнала могут быть сгенерированы таким же образом, как это осуществляет кодер. Например, это может включать спектральное разложение или последовательность из сглаживания, обработки методом окна и спектрального разложения. In step S530, a reconstructed audio signal is determined based on the spectral envelope and the autocorrelation information. Here, the reconstructed audio signal is determined such that the autocorrelation function of each of the plurality of sub-band signals of the reconstructed audio signal (substantially) satisfies a condition obtained from the autocorrelation information for the audio signals of the corresponding sub-bands of the audio signal. This condition may consist, for example, in that for the audio signal of each sub-band of the reconstructed audio signal, the ACF value of the audio signal of the sub-band of the reconstructed audio signal at a delay value (for example, a lag value) indicated by the autocorrelation information for the audio signal of the corresponding sub-band of the audio signal substantially coincides with the autocorrelation value indicated by the autocorrelation information for the audio signal of the corresponding sub-band of the audio signal. This may imply that the decoder can determine the ACF of the subband audio signals in the same manner as the encoder does. This may include any, some, or all of smoothing, windowing, and normalization. In one implementation, the reconstructed audio signal may be determined such that, for the audio signal of each subband of the reconstructed audio signal, an autocorrelation value and a lag value (e.g., a delay value) of the ACF of the subband signal of the reconstructed audio signal substantially coincide with the autocorrelation value and the lag value indicated by the autocorrelation information for the audio signal of the corresponding subband of the original audio signal. This may imply that the decoder can determine the autocorrelation information for the signal of each subband of the reconstructed audio signal in the same manner as the encoder does. In implementations in which the encoded representation also includes waveform information, the reconstructed audio signal may be determined additionally based on the waveform information. The audio signals of the sub-bands of the reconstructed audio signal can be generated in the same way as the encoder does. For example, this may involve spectral decomposition or a sequence of smoothing, windowing and spectral decomposition.
Предпочтительно определение восстановленного звукового сигнала на этапе S530 также учитывает огибающую спектра исходного звукового сигнала. Тогда восстановленный звуковой сигнал может быть дополнительно определен так, что для звукового сигнала каждого поддиапазона восстановленного звукового сигнала поддиапазона измеренная (например, оценочная или вычисленная) мощность сигнала для звукового сигнала поддиапазона восстановленного звукового сигнала по существу совпадает с мощностью сигнала для звукового сигнала соответствующего поддиапазона исходного звукового сигнала, которая указана огибающей спектра. Preferably, the determination of the reconstructed audio signal in step S530 also takes into account the spectral envelope of the original audio signal. Then, the reconstructed audio signal can be further determined such that, for the audio signal of each sub-band of the reconstructed audio signal of the sub-band, the measured (e.g. estimated or calculated) signal power for the audio signal of the sub-band of the reconstructed audio signal substantially coincides with the signal power for the audio signal of the corresponding sub-band of the original audio signal, which is indicated by the spectral envelope.
Как видно из вышесказанного, можно сказать, что предложенный способ 500 основан на подходе «синтез через анализ» в том смысле, что он стремится найти восстановленный звуковой сигнал , который (по существу) удовлетворяет по меньшей мере одному условию, полученному из закодированного представления исходного звукового сигнала , где представляет собой кодирующее отображение, используемое кодером. В некоторых реализациях даже можно сказать, что предложенный способ действует в соответствии с подходом «синтез через анализ» в том смысле, что он стремится найти восстановленный звуковой сигнал , для которого закодированное представление по существу совпадало бы с закодированным представлением исходного звукового сигнала . Иными словами, можно сказать, что способ декодирования находит такое декодирующее отображение , что . Ниже будут описаны два неограничивающих примера реализаций способа 500.As can be seen from the above, it can be said that the proposed method 500 is based on the “synthesis through analysis” approach in the sense that it seeks to find a reconstructed audio signal , which (essentially) satisfies at least one condition obtained from the encoded representation original audio signal , Where is the encoding mapping used by the encoder. In some implementations, it can even be said that the proposed method operates according to the "synthesis by analysis" approach in the sense that it seeks to find a reconstructed audio signal , for which the encoded representation would essentially coincide with the encoded representation original audio signal . In other words, we can say that the decoding method finds such a decoding mapping , What . Two non-limiting examples of implementations of method 500 will be described below.
Пример 1 реализации: параметрический синтез или итерации для каждого сигналаExample 1 of implementation: parametric synthesis or iterations for each signal
Обратную задачу можно решить с помощью итеративных способов при заданном отображении обновления , которое модифицирует так, что находится ближе к , чем Например, начальная точка итерации (т. е. исходный кандидат для восстановленного звукового сигнала) или может представлять собой случайный шумовой сигнал (например, белый шум), или может быть определена на основе закодированного представления звукового сигнала (например, выполненного вручную нулевого приближения). В последнем случае исходный кандидат для восстановленного звукового сигнала может относиться к обоснованному предположению, которое сделано на основе огибающей спектра и/или автокорреляционной информации для множества звуковых сигналов поддиапазонов. В тех реализациях, в которых закодированное представление включает информацию о форме сигнала, обоснованное предположение может быть сделано дополнительно на основе информации о форме сигнала.The inverse problem can be solved using iterative methods given the update mapping , which modifies So is located closer to , how For example, the starting point of the iteration (i.e., the initial candidate for the reconstructed audio signal) may either be a random noise signal (e.g., white noise), or may be determined based on an encoded representation of the audio signal (e.g., a manually performed zero-order approximation). In the latter case, the initial candidate for the reconstructed audio signal may refer to an educated guess that is made based on the spectral envelope and/or autocorrelation information for a plurality of subband audio signals. In those implementations in which the encoded representation includes waveform information, the educated guess may be made additionally based on the waveform information.
Более подробно, восстановленный звуковой сигнал в этом примере реализации определяют в итеративной процедуре, которая начинается с исходного кандидата для восстановленного звукового сигнала и на каждой итерации генерирует соответствующий промежуточный восстановленный звуковой сигнал. На каждой итерации к промежуточному восстановленному звуковому сигналу применяют отображение обновления для получения промежуточного восстановленного звукового сигнала для следующей итерации. Отображение обновления выбирают так, что разность между закодированным представлением промежуточного восстановленного звукового сигнала и закодированным представлением исходного звукового сигнала последовательно уменьшается от одной итерации к следующей. С этой целью, для оценивания разности может быть определена и применена соответствующая метрика разности для закодированных представлений (например, огибающей спектра, автокорреляционной информации). Закодированное представление промежуточного восстановленного звукового сигнала может представлять собой закодированное представление, которое было бы получено в случае, если бы промежуточный восстановленный звуковой сигнал был подвергнут воздействию такой же схемы кодирования, как та, которая привела к закодированному представлению звукового сигнала.In more detail, the reconstructed audio signal in this implementation example is determined in an iterative procedure that starts with an initial candidate for the reconstructed audio signal and generates a corresponding intermediate reconstructed audio signal at each iteration. At each iteration, an update mapping is applied to the intermediate reconstructed audio signal to obtain an intermediate reconstructed audio signal for the next iteration. The update mapping is chosen such that the difference between the encoded representation of the intermediate reconstructed audio signal and the encoded representation of the original audio signal is successively reduced from one iteration to the next. For this purpose, a corresponding difference metric for the encoded representations (e.g., spectral envelope, autocorrelation information) can be defined and applied to evaluate the difference. The encoded representation of the intermediate reconstructed audio signal may be the encoded representation that would be obtained if the intermediate reconstructed audio signal were subjected to the same encoding scheme as that which resulted in the encoded representation of the audio signal.
В случае, когда в процедуре производят поиск восстановленного звукового сигнала, который удовлетворяет по меньшей мере одному условию, полученному из (нескольких фрагментов) автокорреляционной информации, отображение обновления может быть выбрано так, что автокорреляционные функции звуковых сигналов поддиапазонов промежуточного восстановления звукового сигнала становятся ближе к удовлетворению соответствующих условий, полученных из автокорреляционной информации для соответствующих звуковых сигналов поддиапазонов звукового сигнала, и/или так, что разность между измеренными мощностями сигналов звуковых сигналов поддиапазонов восстановленного звукового сигнала и мощностями сигналов для звукового сигнала соответствующего поддиапазона звукового сигнала, которые указаны огибающей спектра, уменьшаются от одной итерации к следующей. Если учитывать и автокорреляционную информацию, и огибающую спектра, можно определить соответствующую метрику разности для степени, в которой удовлетворяются эти условия, и разность между мощностями сигналов для звуковых сигналов поддиапазонов.In the case where the procedure searches for a reconstructed audio signal that satisfies at least one condition obtained from (several fragments of) autocorrelation information, the update mapping can be selected such that the autocorrelation functions of the audio signals of the intermediate reconstruction sub-bands of the audio signal become closer to satisfying the corresponding conditions obtained from the autocorrelation information for the corresponding audio signals of the sub-bands of the audio signal, and/or such that the difference between the measured signal powers of the audio signals of the sub-bands of the reconstructed audio signal and the signal powers for the audio signal of the corresponding sub-band of the audio signal, which are indicated by the spectral envelope, decrease from one iteration to the next. If both the autocorrelation information and the spectral envelope are taken into account, it is possible to determine a corresponding difference metric for the degree to which these conditions are satisfied and the difference between the signal powers for the audio signals of the sub-bands.
Пример 2 реализации: порождающие модели на основе машинного обученияExample 2 of implementation: generative models based on machine learning
Другой возможностью, которую обеспечивают современные способы машинного обучения, является обучение порождающей модели на основе машинного обучения (или, коротко, порождающей модели) для звукового сигнала , подготавливаемой на данных . То есть при наличии большого набора примеров , где , обучается параметрическое условное распределение от до . Тогда алгоритм декодирования может состоять в выборке отсчетов из распределения . Another possibility provided by modern machine learning methods is training a machine learning-based generative model (or generative model for short) for an audio signal. , prepared on the basis of data . That is, given a large set of examples , Where , a parametric conditional distribution is trained from to . Then the decoding algorithm can consist of sampling from the distribution .
Было найдено, что эта возможность является особенно преимущественной для случая, в котором представляет речевой вокодер и определено с помощью последовательной порождающей модели использующей отсчеты рекуррентной нейронной сети (RNN). Однако соответствующими этой задаче также являются другие порождающие модели, такие как вариационные автокодировщики или порождающие состязательные модели. Таким образом, без предполагаемого ограничения, порождающая модель на основе машинного обучения может представлять собой одно из рекуррентной нейронной сети, вариационного автокодировщика или порождающей состязательной модели (например, Порождающей состязательной сети (GAN)). This possibility was found to be particularly advantageous for the case in which represents a speech vocoder and is defined by a sequential generative model using samples from a recurrent neural network (RNN). However, other generative models such as variational autoencoders or generative adversarial models are also relevant to this task. Thus, without implied restriction, a generative machine learning model can be one of a recurrent neural network, a variational autoencoder, or a generative adversarial model (e.g., a Generative Adversarial Network (GAN)).
В этом примере реализации определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации включает применение порождающей модели на основе машинного обучения, которая принимает в качестве входных данных огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов звукового сигнала и генерирует и выводит восстановленный звуковой сигнал. В тех реализациях, в которых закодированное представление также содержит информацию о форме сигнала, порождающая модель на основе машинного обучения может дополнительно принимать в качестве входных данных информацию о форме сигнала. In this example of implementation, determining the reconstructed audio signal based on the spectral envelope and autocorrelation information includes applying a generative model based on machine learning, which receives as input the spectral envelope of the audio signal and the autocorrelation information for each of the plurality of audio signals of the subbands of the audio signal and generates and outputs the reconstructed audio signal. In those implementations in which the encoded representation also contains information about the waveform, the generative model based on machine learning can additionally receive as input the information about the waveform.
Как описано выше, порождающая модель на основе машинного обучения может содержать параметрическое условное распределение , которое связывает закодированные представления звуковых сигналов и соответствующие звуковые сигналы с соответствующими вероятностями . Тогда определение восстановленного звукового сигнала может включать выборку отсчетов из параметрического условного распределения для закодированного представления звукового сигнала.As described above, a generative machine learning model may contain a parametric conditional distribution , which links encoded representations sound signals and corresponding sound signals with the corresponding probabilities . Then the definition of the reconstructed audio signal may involve sampling from a parametric conditional distribution for coded representation of an audio signal.
На этапе обучения перед декодированием порождающая модель на основе машинного обучения может быть подготовлена/обучена на наборе данных множества звуковых сигналов и соответствующих закодированных представлений звуковых сигналов. Если закодированное представление также содержит информацию о форме сигнала, то порождающая модель на основе машинного обучения может быть также подготовлена/обучена с использованием информации о форме сигнала.In the training stage before decoding, a generative machine learning model can be trained on a dataset of multiple audio signals and corresponding encoded representations of the audio signals. If the encoded representation also contains waveform information, the generative machine learning model can also be trained using the waveform information.
На фиг. 6 представлена блок-схема, иллюстрирующая примерную реализацию 600 этапа S530 способа 500 декодирования согласно фиг. 5. В частности, реализация 600 относится к реализации этапа S530 для каждого поддиапазона. Fig. 6 is a block diagram illustrating an exemplary implementation 600 of step S530 of the decoding method 500 according to Fig. 5. In particular, the implementation 600 relates to an implementation of step S530 for each subband.
На этапе 610 на основе огибающей спектра и автокорреляционной информации определяют множество восстановленных звуковых сигналов поддиапазонов. Здесь множество восстановленных звуковых сигналов поддиапазонов определяют так, чтобы для каждого восстановленного звукового сигнала поддиапазона автокорреляционная функция восстановленного звукового сигнала поддиапазона удовлетворяла условию, полученному из автокорреляционной информации для звукового сигнала соответствующего поддиапазона звукового сигнала. В некоторых реализациях множество восстановленных звуковых сигналов поддиапазонов определяют так, чтобы для каждого восстановленного звукового сигнала поддиапазона автокорреляционная информация для восстановленного звукового сигнала поддиапазона по существу совпадала с автокорреляционной информацией для звукового сигнала соответствующего поддиапазона. At step 610, based on the spectral envelope and the autocorrelation information, a plurality of reconstructed sub-band audio signals are determined. Here, the plurality of reconstructed sub-band audio signals are determined so that for each reconstructed sub-band audio signal, the autocorrelation function of the reconstructed sub-band audio signal satisfies a condition obtained from the autocorrelation information for the audio signal of the corresponding sub-band of the audio signal. In some implementations, the plurality of reconstructed sub-band audio signals are determined so that for each reconstructed sub-band audio signal, the autocorrelation information for the reconstructed sub-band audio signal substantially coincides with the autocorrelation information for the audio signal of the corresponding sub-band.
Предпочтительно определение множества восстановленных звуковых сигналов поддиапазонов на этапе S610 также учитывает огибающую спектра исходного звукового сигнала. Тогда множество восстановленных звуковых сигналов поддиапазонов дополнительно определяют так, что для восстановленного звукового сигнала каждого поддиапазона измеренная (например, оценочная, вычисленная) мощность сигнала восстановленного звукового сигнала поддиапазона по существу совпадает с мощностью сигнала для звукового сигнала соответствующего поддиапазона, которая указана огибающей спектра. Preferably, determining the plurality of reconstructed sub-band audio signals in step S610 also takes into account the spectral envelope of the original audio signal. Then, the plurality of reconstructed sub-band audio signals are further determined so that for the reconstructed audio signal of each sub-band, the measured (e.g. estimated, calculated) signal power of the reconstructed sub-band audio signal substantially coincides with the signal power for the audio signal of the corresponding sub-band, which is indicated by the spectral envelope.
На этапе S620 определяют восстановленный звуковой сигнал на основе множества восстановленных звуковых сигналов поддиапазонов с помощью спектрального синтеза.In step S620, a reconstructed audio signal is determined based on a plurality of reconstructed sub-band audio signals using spectral synthesis.
Вышеописанные Примеры 1 и 2 реализации также могут применяться в реализации этапа S530 для каждого поддиапазона. Для Примера 1 реализации каждый восстановленный звуковой сигнал поддиапазона может быть определен в итеративной процедуре, которая начинается с исходного кандидата для восстановленного звукового сигнала поддиапазона и генерирует соответствующий промежуточный восстановленный звуковой сигнал поддиапазона на каждой итерации. На каждой итерации к промежуточному восстановленному звуковому сигналу поддиапазона может применяться отображение обновления для получения промежуточного восстановленного звукового сигнала поддиапазона для следующей итерации, таким образом, что разность между автокорреляционной информацией для промежуточного восстановленного звукового сигнала поддиапазона и автокорреляционной информацией для звукового сигнала соответствующего поддиапазона последовательно уменьшается от одной итерации к следующей, или таким образом, что восстановленные звуковые сигналы поддиапазонов в большей степени удовлетворяют соответствующим условиям, полученным из автокорреляционной информации для соответствующих звуковых сигналов соответствующих поддиапазонов звукового сигнала.The above-described implementation examples 1 and 2 can also be applied in the implementation of step S530 for each sub-band. For implementation example 1, each reconstructed sub-band audio signal can be determined in an iterative procedure that starts with an initial candidate for the reconstructed sub-band audio signal and generates a corresponding intermediate reconstructed sub-band audio signal at each iteration. At each iteration, an update mapping may be applied to the intermediate reconstructed sub-band audio signal to obtain an intermediate reconstructed sub-band audio signal for the next iteration, such that the difference between the autocorrelation information for the intermediate reconstructed sub-band audio signal and the autocorrelation information for the audio signal of the corresponding sub-band is successively reduced from one iteration to the next, or such that the reconstructed sub-band audio signals satisfy to a greater extent the corresponding conditions obtained from the autocorrelation information for the corresponding audio signals of the corresponding sub-bands of the audio signal.
И снова, на этом этапе может также учитываться огибающая спектра. То есть отображение обновления может быть таким, что (совокупная) разность между соответствующими мощностями сигналов звуковых сигналов поддиапазонов и между соответствующими элементами автокорреляционной информации последовательно уменьшается. Это может предполагать определение соответствующей метрики разности для оценивания (совокупной) разности. В остальном к этому случаю применимы такие же разъяснения, как приведенные выше для Примера 1 реализации.Again, the spectral envelope may also be taken into account at this stage. That is, the update mapping may be such that the (aggregate) difference between the corresponding signal powers of the sub-band audio signals and between the corresponding elements of the autocorrelation information is successively reduced. This may involve defining an appropriate difference metric for estimating the (aggregate) difference. Otherwise, the same explanations as given above for Implementation Example 1 apply to this case.
При применении Примера 2 в реализации этапа S530 для каждого поддиапазона определение множества восстановленных звуковых сигналов поддиапазонов на основе огибающей спектра и автокорреляционной информации может включать применение порождающей модели на основе машинного обучения, которая принимает в качестве входных данных огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов звукового сигнала и генерирует и выводит множество восстановленных звуковых сигналов поддиапазонов. В остальном к этому случаю применимы такие же разъяснения, как приведенные выше для Примера 2 реализации.When applying Example 2 in the implementation of step S530, for each sub-band, determining a plurality of reconstructed sub-band audio signals based on the spectral envelope and the autocorrelation information may include applying a generative model based on machine learning that takes as input the spectral envelope of the audio signal and the autocorrelation information for each of the plurality of sub-band audio signals of the audio signal and generates and outputs the plurality of reconstructed sub-band audio signals. Otherwise, the same explanations as those given above for Implementation Example 2 apply to this case.
Настоящее изобретение дополнительно относится к кодерам для кодирования звукового сигнала, которые выполнены с возможностью и приспособлены для выполнения способов кодирования, описанных в настоящем раскрытии. Пример такого кодера 700 схематически проиллюстрирован на фиг. 7 в форме структурной схемы. Кодер 700 содержит процессор 710 и запоминающее устройство 720, соединенное с процессором 710. Процессор 710 приспособлен для выполнения этапов способа согласно любому из способов кодирования, описанных в настоящем изобретении. С этой целью запоминающее устройство 720 может содержать соответствующие команды для исполнения процессором 710. Кодер 700 может дополнительно содержать интерфейс 730 для приема входного звукового сигнала 740, подлежащего кодированию, и/или вывода закодированного представления 750 звукового сигнала.The present invention further relates to encoders for encoding an audio signal, which are configured and adapted to perform the encoding methods described in the present disclosure. An example of such an encoder 700 is schematically illustrated in Fig. 7 in the form of a block diagram. The encoder 700 comprises a processor 710 and a memory 720 coupled to the processor 710. The processor 710 is adapted to perform the steps of the method according to any of the encoding methods described in the present invention. For this purpose, the memory 720 may contain appropriate instructions for execution by the processor 710. The encoder 700 may further comprise an interface 730 for receiving an input audio signal 740 to be encoded and/or outputting an encoded representation 750 of the audio signal.
Настоящее изобретение дополнительно относится к декодерам для декодирования звукового сигнала из закодированного представления звукового сигнала, которые выполнены с возможностью и приспособлены для выполнения способов декодирования, описанных в настоящем раскрытии. Пример такого декодера 800 схематически проиллюстрирован на фиг. 8 в форме структурной схемы. Декодер 800 содержит процессор 810 и запоминающее устройство 820, соединенное с процессором 810. Процессор 810 приспособлен для выполнения этапов способа согласно любому из способов декодирования, описанных в настоящем раскрытии. С этой целью запоминающее устройство 820 может содержать соответствующие команды для исполнения процессором 810. Декодер 800 может дополнительно содержать интерфейс 830 для приема входного закодированного представления 840 звукового сигнала, подлежащего декодированию, и/или вывода декодированного (т.е. восстановленного) звукового сигнала 850. The present invention further relates to decoders for decoding an audio signal from an encoded representation of the audio signal, which are configured and adapted to perform the decoding methods described in the present disclosure. An example of such a decoder 800 is schematically illustrated in Fig. 8 in the form of a block diagram. The decoder 800 comprises a processor 810 and a memory 820 coupled to the processor 810. The processor 810 is adapted to perform the steps of the method according to any of the decoding methods described in the present disclosure. For this purpose, the memory 820 may contain appropriate instructions for execution by the processor 810. The decoder 800 may further comprise an interface 830 for receiving an input encoded representation 840 of the audio signal to be decoded and/or outputting a decoded (i.e. reconstructed) audio signal 850.
Настоящее изобретение дополнительно относится к компьютерным программам, содержащим команды для вызова выполнения компьютером, исполняющим эти команды, способов кодирования или декодирования, описанных в настоящем изобретении. The present invention further relates to computer programs containing instructions for causing a computer executing the instructions to execute the encoding or decoding methods described in the present invention.
Наконец, настоящее изобретение также относится к машиночитаемому носителю данных, на котором хранятся вышеописанные компьютерные программы.Finally, the present invention also relates to a machine-readable storage medium on which the above-described computer programs are stored.
ТолкованияInterpretations
Если прямо не заявлено иное, как очевидно из следующих обсуждений, следует понимать, что во всем настоящем описании обсуждения, в которых используются такие термины, как «обработка», «вычисление», «расчет», «определение», «анализ» или т. п., относятся к действию и/или процессам компьютера, или вычислительной системы, или аналогичных электронных вычислительных устройств, которые совершают манипуляции и/или преобразование данных, представленных в виде физических, например электронных, величин, в другие данные, аналогично представленные в виде физических величин.Unless otherwise expressly stated, as is evident from the following discussions, it should be understood that throughout this description, discussions that use terms such as “processing,” “calculating,” “computing,” “determining,” “analyzing,” or the like, refer to the action and/or processes of a computer or computing system or similar electronic computing devices that manipulate and/or transform data represented as physical, such as electronic, quantities into other data similarly represented as physical quantities.
Сходным образом, термин «процессор» может относиться к любому устройству или части устройства, которая обрабатывает электронные данные, например из регистров и/или запоминающего устройства, с целью преобразования этих электронных данных в другие электронные данные, которые, например, могут храниться в регистрах и/или в запоминающем устройстве. «Компьютер», или «вычислительная машина», или «вычислительная платформа» может содержать один или более процессоров.Similarly, the term "processor" may refer to any device or part of a device that processes electronic data, such as from registers and/or a memory device, for the purpose of converting that electronic data into other electronic data, such as those stored in registers and/or a memory device. A "computer" or "computing machine" or "computing platform" may include one or more processors.
Методологии, описанные в настоящем документе, в одном примерном варианте осуществления приспособлены для выполнения одним или более процессорами, принимающими читаемый компьютером (также называемый машиночитаемым) код, содержащий набор команд, которые при исполнении одним или более процессорами осуществляют по меньшей мере один из способов, описанных в настоящем документе. Включен любой процессор, приспособленный для (последовательного или иного) исполнения набора команд, которые определяют предпринимаемые действия. Так, одним из примеров является типичная система обработки, которая содержит один или более процессоров. Каждый процессор может содержать одно или более из ЦПУ (центрального процессорного устройства), графического процессора и программируемого блока ЦПОС. Система обработки может дополнительно содержать подсистему запоминающих устройств, содержащую основное ОЗУ (оперативное запоминающее устройство), и/или статическое ОЗУ, и/или ПЗУ (постоянное запоминающее устройство). Для обеспечения связи между компонентами может быть включена подсистема шин. Система обработки дополнительно может представлять собой распределенную систему обработки с процессорами, связанными посредством сети. Если для системы обработки требуется дисплей, такой дисплей может включать, например, жидкокристаллический дисплей (LCD) или дисплей с катодно-лучевой трубкой (CRT). Если требуется ввод данных вручную, система обработки также содержит устройство ввода, такое как одно или более из буквенно-цифрового блока ввода, такого как клавиатура, координатно-указательного устройства, такого как мышь, и т.д. Система обработки может также охватывать систему хранения данных, такую как блок дисковода. Система обработки в некоторых конфигурациях может содержать устройство вывода звука и устройство сетевого интерфейса. Таким образом, подсистема запоминающих устройств содержит машиночитаемый носитель данных, несущий машиночитаемый код (например, программное обеспечение), который содержит набор команд для вызова выполнения, при исполнении одним или более процессорами, одного или более способов, описанных в настоящем документе. Следует отметить, что если способ включает несколько элементов, например несколько этапов, то, если это не отмечено специально, никакое упорядочение этих элементов не подразумевается. Программное обеспечение может находиться на жестком диске или может также находиться, полностью или по меньшей мере частично, в ОЗУ и/или в процессоре во время его исполнения компьютерной системой. Таким образом, запоминающее устройство и процессор также составляют машиночитаемый носитель данных, несущий машиночитаемый код. Кроме того, машиночитаемый носитель данных может образовывать компьютерный программный продукт или может содержаться в нем.The methodologies described herein are, in one exemplary embodiment, adapted for execution by one or more processors receiving computer-readable (also referred to as machine-readable) code comprising a set of instructions that, when executed by the one or more processors, perform at least one of the methods described herein. Any processor adapted to (sequentially or otherwise) execute a set of instructions that define actions to be taken is included. Thus, one example is a typical processing system that includes one or more processors. Each processor may include one or more of a CPU (central processing unit), a graphics processor, and a programmable DSP unit. The processing system may further include a memory subsystem comprising a main RAM (random access memory) and/or a static RAM and/or a ROM (read only memory). A bus subsystem may be included to provide communication between the components. The processing system may further be a distributed processing system with the processors interconnected via a network. If the processing system requires a display, such a display may include, for example, a liquid crystal display (LCD) or a cathode ray tube (CRT) display. If manual data entry is required, the processing system also comprises an input device, such as one or more of an alphanumeric input unit, such as a keyboard, a pointing device, such as a mouse, etc. The processing system may also include a data storage system, such as a disk drive unit. The processing system in some configurations may include an audio output device and a network interface device. Thus, the storage subsystem comprises a machine-readable storage medium carrying machine-readable code (e.g., software) that comprises a set of instructions for causing one or more methods described in this document to be executed by one or more processors. It should be noted that if a method includes several elements, such as several steps, then, unless otherwise noted, no ordering of these elements is implied. The software may be located on a hard disk or may also be located, in whole or at least in part, in RAM and/or in a processor during its execution by a computer system. Thus, the storage device and the processor also constitute a machine-readable data carrier carrying a machine-readable code. In addition, the machine-readable data carrier may form a computer program product or may be contained therein.
В альтернативных примерных вариантах осуществления один или более процессоров действуют как автономное устройство или могут быть соединены, например посредством сети, с другим процессором (процессорами) в объединенную в сеть развернутую систему, причем один или более процессоров могут работать в качестве сервера или клиентской машины в сетевой среде типа клиент-сервер или в качестве одноранговой машины в одноранговой или распределенной сетевой среде. Один или более процессоров могут образовывать персональный компьютер (ПК), планшетный ПК, персональный цифровой помощник (PDA), сотовый телефон, устройство веб-интерфейса, сетевой маршрутизатор, коммутатор, или мост, или любую машину, выполненную с возможностью исполнять набор команд (последовательный или другой), которые задают действия, которые должны быть предприняты этой машиной.In alternative exemplary embodiments, one or more processors operate as a stand-alone device or may be connected, such as via a network, to another processor(s) in a networked deployment, where one or more processors may operate as a server or a client machine in a client-server network environment or as a peer machine in a peer-to-peer or distributed network environment. The one or more processors may form a personal computer (PC), a tablet PC, a personal digital assistant (PDA), a cellular telephone, a web interface device, a network router, a switch, or a bridge, or any machine capable of executing a set of instructions (sequential or otherwise) that specify actions to be taken by the machine.
Следует отметить, что термин «машина» следует воспринимать как включающий любой набор машин, которые вместе или по отдельности исполняют набор (или несколько наборов) команд с целью выполнения любой одной или более методологий, описанных в настоящем документе.It should be noted that the term "machine" should be taken to include any set of machines that, individually or collectively, execute a set (or sets) of instructions for the purpose of performing any one or more of the methodologies described in this document.
Таким образом, один примерный вариант осуществления каждого из способов, описанных в настоящем документе, имеет форму машиночитаемого носителя данных, несущего набор команд, например компьютерную программу, которая предназначена для исполнения на одном или более процессорах, например на одном или более процессорах, которые составляют часть компоновки веб-сервера. Поэтому, как будет понятно специалистам в данной области техники, примерные варианты осуществления настоящего изобретения могут быть осуществлены как способ, устройство, такое как устройство специального назначения, устройство, такое как система обработки данных, или машиночитаемый носитель данных, например компьютерный программный продукт. Машиночитаемый носитель данных несет машиночитаемый код, содержащий набор команд, которые при исполнении на одном или более процессорах вызывают реализацию способа процессором или процессорами. Соответственно, аспекты настоящего изобретения могут принимать форму способа, полностью аппаратного примерного варианта осуществления, полностью программного примерного варианта осуществления или примерного варианта осуществления, сочетающего аспекты программного и аппаратного обеспечения. Кроме того, настоящее изобретение может принимать форму носителя данных (например, компьютерного программного продукта на машиночитаемом носителе данных), несущего машиночитаемый программный код, реализованный на носителе.Thus, one exemplary embodiment of each of the methods described herein has the form of a computer-readable storage medium carrying a set of instructions, such as a computer program, that is adapted to be executed on one or more processors, such as one or more processors that form part of a web server arrangement. Therefore, as will be understood by those skilled in the art, exemplary embodiments of the present invention can be implemented as a method, a device, such as a special-purpose device, a device, such as a data processing system, or a computer-readable storage medium, such as a computer program product. A computer-readable storage medium carries computer-readable code comprising a set of instructions that, when executed on one or more processors, cause the processor or processors to implement the method. Accordingly, aspects of the present invention can take the form of a method, an all-hardware exemplary embodiment, an all-software exemplary embodiment, or an exemplary embodiment combining aspects of software and hardware. Furthermore, the present invention can take the form of a storage medium (e.g., a computer program product on a computer-readable storage medium) carrying computer-readable program code implemented on the medium.
Программное обеспечение может дополнительно передаваться или приниматься по сети с помощью устройства сетевого интерфейса. Несмотря на то что носитель данных в примерном варианте осуществления представляет собой единственный носитель данных, термин «носитель данных» следует воспринимать как включающий единственный носитель данных или множество носителей данных (например, централизованную или распределенную базу данных и/или связанные устройства кэш-памяти и сервера), которые хранят один или более наборов команд. Термин «носитель данных» также следует воспринимать как включающий любой носитель данных, приспособленный для хранения, кодирования или переноса набора команд, предназначенных для исполнения одним или более процессорами и вызывающих выполнение одним или более процессорами любой одной или более методологий настоящего изобретения. Носитель данных может принимать множество форм, включая в качестве неограничивающих примеров энергонезависимые носители данных, энергозависимые носители данных и среды передачи данных. Энергонезависимые носители данных включают, например, оптические, магнитные диски и магнитооптические диски. Энергозависимые носители данных включают динамическое запоминающее устройство, такое как основное запоминающее устройство. Среды передачи данных включают коаксиальные кабели, медный провод и оптоволоконные кабели, включая провода, которые содержат подсистему шин. Среды передачи данных могут также принимать форму акустических или световых волн, таких как волны, которые генерируются во время радиоволновой и инфракрасной передач данных. Например, термин «носитель данных» следует, соответственно, воспринимать как включающий, но без ограничения, твердотельные запоминающие устройства, компьютерный продукт, реализованный на оптическом и магнитном носителях; среду, переносящую распространяющийся сигнал, обнаруживаемый по меньшей мере одним процессором или одним или более процессорами и представляющий собой набор команд, которые при исполнении реализуют способ; и среду передачи данных в сети, переносящую распространяющийся сигнал, обнаруживаемый по меньшей мере одним процессором из одного или более процессоров и представляющий собой набор команд.The software may further be transmitted or received over a network using a network interface device. Although the storage medium in the exemplary embodiment is a single storage medium, the term "storage medium" should be understood to include a single storage medium or a plurality of storage media (e.g., a centralized or distributed database and/or associated cache memory devices and servers) that store one or more sets of instructions. The term "storage medium" should also be understood to include any storage medium adapted to store, encode, or carry a set of instructions intended for execution by one or more processors and to cause the one or more processors to execute any one or more methodologies of the present invention. The storage medium may take many forms, including, but not limited to, non-volatile storage media, volatile storage media, and data transmission media. Non-volatile storage media include, for example, optical, magnetic disks, and magneto-optical disks. Volatile storage media include dynamic storage, such as main memory. Data transmission media include coaxial cables, copper wire and fiber optic cables, including wires that contain a bus subsystem. Data transmission media may also take the form of acoustic or light waves, such as those generated during radio wave and infrared data transmission. For example, the term "data carrier" should accordingly be understood as including, but not limited to, solid-state memory devices, a computer product implemented on optical and magnetic media; a medium carrying a propagating signal detectable by at least one processor or one or more processors and representing a set of instructions that, when executed, implement a method; and a network data transmission medium carrying a propagating signal detectable by at least one processor of one or more processors and representing a set of instructions.
Следует понимать, что обсужденные этапы способов выполняются в одном примерном варианте осуществления надлежащим процессором (или процессорами) системы обработки (например, компьютерной системы), исполняющей команды (машиночитаемый код), хранящиеся в хранилище данных. Также следует понимать, что настоящее изобретение не ограничивается никакой конкретной реализацией или программным техническим решением и что настоящее изобретение можно реализовать с использованием любых надлежащих технических решений для реализации функциональных возможностей, описанных в настоящем документе. Настоящее изобретение не ограничивается никакими конкретными языком программирования или операционной системой.It should be understood that the discussed method steps are performed in one exemplary embodiment by a suitable processor (or processors) of a processing system (e.g., a computer system) executing instructions (machine-readable code) stored in a data store. It should also be understood that the present invention is not limited to any particular implementation or software solution and that the present invention can be implemented using any suitable solutions for implementing the functionality described herein. The present invention is not limited to any particular programming language or operating system.
Отсылка в данном описании к «одному примерному варианту осуществления», «некоторым примерным вариантам осуществления» или «примерному варианту осуществления» означает, что конкретные признак, конструкция или характеристика, описанные в связи с примерным вариантом осуществления, включены в по меньшей мере один примерный вариант осуществления настоящего изобретения. Поэтому появления фраз «в одном примерном варианте осуществления», «в некоторых примерных вариантах осуществления» или «в примерном варианте осуществления» в различных местах данного описания не обязательно относятся к одному и тому же примерному варианту осуществления. Кроме того, конкретные признаки, конструкции или характеристики могут комбинироваться в одном или более примерных вариантах осуществления любым подходящим образом, что должно быть очевидно из данного описания для специалиста в данной области техники.Reference in this specification to "one exemplary embodiment," "some exemplary embodiments," or "an exemplary embodiment" means that a particular feature, structure, or characteristic described in connection with the exemplary embodiment is included in at least one exemplary embodiment of the present invention. Therefore, appearances of the phrases "in one exemplary embodiment," "in some exemplary embodiments," or "in an exemplary embodiment" in various places in this specification are not necessarily all referring to the same exemplary embodiment. Furthermore, particular features, structures, or characteristics may be combined in one or more exemplary embodiments in any suitable manner, as would be apparent from this specification to one skilled in the art.
В контексте настоящего документа, если на указано иное, использование порядковых числительных «первый», «второй», «третий» и т. д. для описания обычного объекта просто указывает на то, что производится ссылка на различные экземпляры сходных объектов, и они не предназначены для обозначения того, что объекты, описанные таким образом, должны находиться в данной последовательности будь то во времени, в пространстве, по рангу или в ином смысле.In the context of this document, unless otherwise indicated, the use of the ordinal numerals "first," "second," "third," etc., to describe an ordinary object merely indicates that reference is being made to different instances of similar objects, and is not intended to indicate that the objects so described are intended to be in a given sequence, whether in time, space, rank, or otherwise.
В приведенной ниже формуле изобретения и в настоящем описании любой из терминов «содержащий», «состоящий из» или «который содержит» является открытым термином, что означает включение по меньшей мере следующих за ним элементов/признаков, но не исключение остальных. Поэтому термин «содержащий» при его использовании в формуле изобретения не следует интерпретировать как ограничивающий в отношении средств, или элементов, или этапов, перечисляемых после него. Например, объем выражения «устройство, содержащее А и В» не следует ограничивать устройствами, состоящими только из элементов А и В. Любой из используемых в настоящем документе терминов «включающий» или «который включает» также представляет собой открытый термин, который также означает включение по меньшей мере элементов/признаков, следующих за этим термином, но не исключение остальных. Таким образом, «включающий» является синонимом и означает «содержащий». In the claims below and in the present description, any of the terms "comprising", "consisting of" or "which comprises" is an open term, which means including at least the elements/features that follow it, but not excluding the rest. Therefore, the term "comprising" when used in the claims should not be interpreted as limiting with respect to the means or elements or steps listed after it. For example, the scope of the expression "a device comprising A and B" should not be limited to devices consisting only of elements A and B. Any of the terms "comprising" or "which comprises" used in this document is also an open term, which also means including at least the elements/features that follow this term, but not excluding the rest. Thus, "comprising" is synonymous and means "comprising".
Следует понимать, что в приведенном выше описании примерных вариантов осуществления настоящего изобретения различные признаки настоящего изобретения иногда группируются вместе в один примерный вариант осуществления, фигуру или их описание с целью выбора оптимального пути описания и для обеспечения понимания одного или более различных аспектов изобретения. Такой способ раскрытия, однако, не следует интерпретировать как отражающий намерение того, что формула изобретения требует большего количества признаков, чем те, которые явно перечислены в каждом пункте формулы изобретения. Вместо этого, как отражает нижеследующая формула изобретения, аспекты изобретения заключаются менее чем во всех признаках одного вышеописанного примерного варианта осуществления. Поэтому формула изобретения, следующая за разделом «Описание», таким образом явно включена в этот раздел «Описание», причем каждый пункт формулы изобретения самостоятельно представляет собой отдельный примерный вариант осуществления настоящего изобретения.It should be understood that in the above description of exemplary embodiments of the present invention, various features of the present invention are sometimes grouped together in a single exemplary embodiment, figure, or description thereof for the purpose of selecting the best way of describing and to provide an understanding of one or more various aspects of the invention. Such manner of disclosure, however, should not be interpreted as reflecting an intention that the claims require more features than those expressly recited in each claim. Instead, as the following claims reflect, aspects of the invention reside in less than all of the features of a single exemplary embodiment described above. Therefore, the claims following the Description section are hereby expressly incorporated into this Description section, with each claim independently representing a separate exemplary embodiment of the present invention.
Кроме того, несмотря на то, что некоторые примерные варианты осуществления, описанные в настоящем документе, включают одни, а не другие признаки, включенные в другие примерные варианты осуществления, комбинации признаков из различных примерных вариантов осуществления подразумеваются как находящиеся в пределах объема настоящего изобретения и образующие другие примерные варианты осуществления, как должно быть понятно специалистам в данной области техники. Например, в нижеследующей формуле изобретения любые заявленные примерные варианты осуществления могут применяться в любой комбинации.Furthermore, although some exemplary embodiments described herein include some and not other features included in other exemplary embodiments, combinations of features from various exemplary embodiments are intended to be within the scope of the present invention and to form other exemplary embodiments, as will be understood by those skilled in the art. For example, in the following claims, any of the claimed exemplary embodiments may be used in any combination.
В приведенном в настоящем документе описании изложено множество конкретных деталей. Однако следует понимать, что примерные варианты осуществления настоящего изобретения могут применяться на практике без этих конкретных деталей. В других случаях хорошо известные способы, конструкции и технологии не показаны подробно, чтобы не затруднять понимание данного описания. The description provided herein sets forth numerous specific details. However, it should be understood that exemplary embodiments of the present invention may be practiced without these specific details. In other instances, well-known methods, structures, and techniques have not been shown in detail in order not to obscure the understanding of this description.
Таким образом, в то время как здесь описано то, что рассматривается как лучшие варианты осуществления настоящего изобретения, специалистам в данной области будет понятно, что в них могут вноситься другие и дополнительные модификации без отступления от идеи настоящего изобретения, и подразумевается, что все указанные изменения и модификации заявляются как находящиеся в пределах объема настоящего изобретения. Например, любые приведенные выше формулы являются только примерами процедур, которые могут использоваться. Функциональные возможности могут добавляться к структурным схемам или исключаться из них, а операции могут быть подвержены взаимному обмену между функциональными блоками. Этапы могут добавляться к способам или исключаться из способов, описанных в пределах объема настоящего изобретения.Thus, while what are considered to be the best embodiments of the present invention have been described herein, those skilled in the art will recognize that other and further modifications may be made thereto without departing from the spirit of the present invention, and all such changes and modifications are intended to be claimed as being within the scope of the present invention. For example, any formulas set forth above are merely examples of procedures that may be used. Functionality may be added to or deleted from block diagrams, and operations may be interchanged between functional blocks. Steps may be added to or deleted from methods described within the scope of the present invention.
Различные аспекты и реализации настоящего изобретения можно понять из перечисленных ниже пронумерованных примерных вариантов осуществления (ППВО). Various aspects and implementations of the present invention can be understood from the following numbered exemplary embodiments (EEAs).
ППВО1. Способ кодирования звукового сигнала, включающий: PPVO1. A method for encoding an audio signal, including:
генерирование множества звуковых сигналов поддиапазонов на основе звукового сигнала; generating a plurality of sub-range audio signals based on an audio signal;
определение огибающей спектра звукового сигнала; determination of the envelope of the spectrum of the audio signal;
определение, для звукового сигнала каждого поддиапазона, автокорреляционной информации для звукового сигнала поддиапазона на основе автокорреляционной функции звукового сигнала поддиапазона; иdetermining, for the audio signal of each sub-band, autocorrelation information for the audio signal of the sub-band based on the autocorrelation function of the audio signal of the sub-band; and
генерирование закодированного представления звукового сигнала, при этом закодированное представление содержит представление огибающей спектра звукового сигнала и представление автокорреляционной информации для множества звуковых сигналов поддиапазонов.generating an encoded representation of the audio signal, wherein the encoded representation comprises a representation of the spectral envelope of the audio signal and a representation of autocorrelation information for a plurality of audio signals of sub-bands.
ППВО 2. Способ согласно ППВО 1, в котором огибающую спектра определяют на основе множества звуковых сигналов поддиапазонов. PPVO 2. The method according to PPVO 1, in which the spectral envelope is determined on the basis of a plurality of sub-range audio signals.
ППВО 3. Способ согласно ППВО 1 или 2, в котором автокорреляционная информация для звукового сигнала данного поддиапазона содержит значение запаздывания для звукового сигнала соответствующего поддиапазона и/или значение автокорреляции для звукового сигнала соответствующего поддиапазона. PPVO 3. The method according to PPVO 1 or 2, in which the autocorrelation information for the audio signal of a given sub-band contains a delay value for the audio signal of the corresponding sub-band and/or an autocorrelation value for the audio signal of the corresponding sub-band.
ППВО 4. Способ согласно предыдущему ППВО, в котором значение запаздывания соответствует значению задержки, при котором автокорреляционная функция достигает локального максимума, и при этом значение автокорреляции соответствует указанному локальному максимуму.PPVO 4. The method according to the previous PPVO, in which the delay value corresponds to the delay value at which the autocorrelation function reaches a local maximum, and the autocorrelation value corresponds to the specified local maximum.
ППВО 5. Способ согласно любому из предыдущих ППВО, в котором огибающую спектра определяют с первой частотой обновления, а автокорреляционную информацию для множества звуковых сигналов поддиапазонов определяют со второй частотой обновления; иPPVO 5. A method according to any of the previous PPVOs, wherein the spectral envelope is determined at a first update rate, and the autocorrelation information for a plurality of sub-band audio signals is determined at a second update rate; and
при этом первая и вторая частоты обновления отличаются друг от друга.where the first and second refresh rates differ from each other.
ППВО 6. Способ согласно предыдущему ППВО, в котором первая частота обновления выше второй частоты обновления.PPVO 6. The method according to the previous PPVO, in which the first update frequency is higher than the second update frequency.
ППВО 7. Способ согласно любому из предыдущих ППВО, в котором генерирование множества звуковых сигналов поддиапазонов включает: PPVO 7. The method according to any of the previous PPVO, in which generating a plurality of sub-band audio signals includes:
применение спектрального и/или временного сглаживания к звуковому сигналу; applying spectral and/or temporal smoothing to an audio signal;
обработку методом окна сглаженного звукового сигнала; иwindow processing of the smoothed audio signal; and
спектральное разложение обработанного методом окна сглаженного звукового сигнала на множество звуковых сигналов поддиапазонов.spectral decomposition of a windowed smoothed audio signal into a set of sub-range audio signals.
ППВО 8. Способ согласно любому из ППВО 1–6,PPVO 8. Method according to any of PPVO 1–6,
в котором генерирование множества звуковых сигналов поддиапазонов включает спектральное разложение звукового сигнала; иwherein generating a plurality of sub-band audio signals comprises spectral decomposition of the audio signal; and
при этом определение автокорреляционной функции для звукового сигнала данного поддиапазона включает:in this case, the definition of the autocorrelation function for the audio signal of a given sub-range includes:
определение огибающей спектра звукового сигнала поддиапазона;determination of the spectrum envelope of a sub-range audio signal;
сглаживание огибающей звукового сигнала поддиапазона на основе огибающей поддиапазона; smoothing the envelope of a sub-range audio signal based on the envelope of the sub-range;
обработку методом окна звукового сигнала поддиапазона со сглаженной огибающей с помощью оконной функции; иwindow processing of a sub-band audio signal with a smoothed envelope using a window function; and
определение автокорреляционной функции обработанного методом окна звукового сигнала поддиапазона со сглаженной огибающей.determination of the autocorrelation function of a windowed audio signal sub-range with a smoothed envelope.
ППВО 9. Способ согласно ППВО 7 или 8, в котором определение автокорреляционной функции для звукового сигнала данного поддиапазона дополнительно включает: PPVO 9. The method according to PPVO 7 or 8, in which the determination of the autocorrelation function for the audio signal of a given sub-range additionally includes:
нормирование автокорреляционной функции обработанного методом окна звукового сигнала поддиапазона со сглаженной огибающей с помощью автокорреляционной функции оконной функции.normalization of the autocorrelation function of a windowed audio signal of a sub-range with a smoothed envelope using the autocorrelation function of the window function.
ППВО 10. Способ согласно любому из предыдущих ППВО, в котором определение автокорреляционной информации для звукового сигнала данного поддиапазона на основе автокорреляционной функции звукового сигнала поддиапазона включает: PPVO 10. A method according to any of the previous PPVOs, in which determining autocorrelation information for an audio signal of a given sub-band based on the autocorrelation function of the audio signal of the sub-band includes:
сравнение автокорреляционной функции звукового сигнала поддиапазона с автокорреляционной функцией абсолютного значения импульсной характеристики соответствующего полосового фильтра, связанного со звуковым сигналом поддиапазона; иcomparing the autocorrelation function of the sub-band audio signal with the autocorrelation function of the absolute value of the impulse response of the corresponding band-pass filter associated with the sub-band audio signal; and
определение автокорреляционной информации на основе наивысшего локального максимума автокорреляционной функции сигнала поддиапазона выше автокорреляционной функции абсолютного значения импульсной характеристики соответствующего полосового фильтра, связанного со звуковым сигналом поддиапазона.determining autocorrelation information based on the highest local maximum of the autocorrelation function of the sub-band signal above the autocorrelation function of the absolute value of the impulse response of the corresponding bandpass filter associated with the sub-band audio signal.
ППВО 11. Способ согласно любому из предыдущих ППВО, в котором определение огибающей спектра включает измерение мощности сигнала для каждого из множества звуковых сигналов поддиапазонов. PPVO 11. A method according to any of the previous PPVOs, wherein determining the spectral envelope includes measuring the signal power for each of a plurality of sub-band audio signals.
ППВО 12. Способ декодирования звукового сигнала из закодированного представления звукового сигнала, причем закодированное представление содержит представление огибающей спектра звукового сигнала и представление автокорреляционной информации для каждого из множества звуковых сигналов поддиапазонов, сгенерированных из звукового сигнала, при этом автокорреляционная информация для звукового сигнала данного поддиапазона основана на автокорреляционной функции звукового сигнала поддиапазона, при этом способ включает: PPVO 12. A method for decoding an audio signal from an encoded representation of the audio signal, wherein the encoded representation comprises a representation of the spectral envelope of the audio signal and a representation of autocorrelation information for each of a plurality of sub-band audio signals generated from the audio signal, wherein the autocorrelation information for the audio signal of a given sub-band is based on the autocorrelation function of the sub-band audio signal, wherein the method includes:
прием закодированного представления звукового сигнала; receiving a coded representation of an audio signal;
извлечение огибающей спектра и автокорреляционной информации из закодированного представления звукового сигнала; иextracting the spectral envelope and autocorrelation information from the encoded representation of the audio signal; and
определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации, determination of the reconstructed audio signal based on the spectral envelope and autocorrelation information,
при этом восстановленный звуковой сигнал определяют так, чтобы автокорреляционная функция для каждого из множества сигналов поддиапазонов, сгенерированных из восстановленного звукового сигнала, удовлетворяла условию, полученному из автокорреляционной информации для звуковых сигналов соответствующих поддиапазонов, сгенерированных из звукового сигнала. wherein the reconstructed audio signal is determined so that the autocorrelation function for each of the plurality of sub-range signals generated from the reconstructed audio signal satisfies a condition obtained from the autocorrelation information for the audio signals of the corresponding sub-ranges generated from the audio signal.
ППВО 13. Способ согласно предыдущему ППВО, в котором восстановленный звуковой сигнал дополнительно определяют так, что для звукового сигнала каждого поддиапазона восстановленного звукового сигнала измеренная мощность сигнала звукового сигнала поддиапазона восстановленного звукового сигнала по существу совпадает с мощностью сигнала для звукового сигнала соответствующего поддиапазона звукового сигнала, которая указана огибающей спектра.PPVO 13. The method according to the previous PPVO, in which the reconstructed audio signal is further determined such that for the audio signal of each sub-band of the reconstructed audio signal, the measured signal power of the audio signal of the sub-band of the reconstructed audio signal substantially coincides with the signal power for the audio signal of the corresponding sub-band of the audio signal, which is indicated by the spectral envelope.
ППВО 14. Способ согласно ППВО 12 или 13,PPVO 14. Method according to PPVO 12 or 13,
в котором восстановленный звуковой сигнал определяют в итеративной процедуре, которая начинается с исходного кандидата для восстановленного звукового сигнала и генерирует соответствующий промежуточный восстановленный звуковой сигнал на каждой итерации; иwherein the reconstructed audio signal is determined in an iterative procedure that starts with an initial candidate for the reconstructed audio signal and generates a corresponding intermediate reconstructed audio signal at each iteration; and
при этом на каждой итерации к промежуточному восстановленному звуковому сигналу применяют отображение обновления для получения промежуточного восстановленного звукового сигнала для следующей итерации, таким образом, что разность между закодированным представлением промежуточного восстановленного звукового сигнала и закодированным представлением звукового сигнала последовательно уменьшается от одной итерации к другой.wherein at each iteration, an update mapping is applied to the intermediate reconstructed audio signal to obtain an intermediate reconstructed audio signal for the next iteration, such that the difference between the encoded representation of the intermediate reconstructed audio signal and the encoded representation of the audio signal is successively reduced from one iteration to the next.
ППВО 15. Способ согласно ППВО 14, в котором исходного кандидата для восстановленного звукового сигнала определяют на основе закодированного представления звукового сигнала. PPVO 15. The method according to PPVO 14, in which the original candidate for the reconstructed audio signal is determined on the basis of the encoded representation of the audio signal.
ППВО 16. Способ согласно ППВО 14, в котором исходным кандидатом для восстановленного звукового сигнала является белый шум. PPVO 16. The method according to PPVO 14, in which the initial candidate for the reconstructed audio signal is white noise.
ППВО 17. Способ согласно ППВО 12 или 13, в котором определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации включает применение порождающей модели на основе машинного обучения, которая принимает в качестве входных данных огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов звукового сигнала и генерирует и выводит восстановленный звуковой сигнал.PPVO 17. The method according to PPVO 12 or 13, in which determining the reconstructed audio signal based on the spectral envelope and autocorrelation information includes applying a generative model based on machine learning, which receives as input data the spectral envelope of the audio signal and the autocorrelation information for each of a plurality of audio signals of sub-bands of the audio signal and generates and outputs the reconstructed audio signal.
ППВО 18. Способ согласно предыдущему ППВО, в котором порождающая модель на основе машинного обучения содержит параметрическое условной распределение, которое связывает закодированные представления звуковых сигналов и соответствующие звуковые сигналы с соответствующими вероятностями; иPPVO 18. The method according to the previous PPVO, wherein the generative model based on machine learning comprises a parametric conditional distribution that associates the encoded representations of the audio signals and the corresponding audio signals with corresponding probabilities; and
при этом определение восстановленного звукового сигнала включает выборку отсчетов из параметрического условного распределения для закодированного представления звукового сигнала.wherein determining the reconstructed audio signal includes sampling from a parametric conditional distribution for an encoded representation of the audio signal.
ППВО 19. Способ согласно ППВО 17 или 18, на этапе обучения дополнительно включающий обучение порождающей модели на основе машинного обучения на наборе данных множества звуковых сигналов и соответствующих закодированных представлений звуковых сигналов.PPVO 19. The method according to PPVO 17 or 18, at the training stage additionally including training a generative model based on machine learning on a data set of a plurality of sound signals and corresponding encoded representations of the sound signals.
ППВО 20. Способ согласно любому из ППВО 17–19, в котором порождающая модель на основе машинного обучения представляет собой одно из рекуррентной нейронной сети, вариационного автокодировщика и порождающей состязательной модели.PPVO 20. The method according to any one of PPVO 17-19, wherein the generative model based on machine learning is one of a recurrent neural network, a variational autoencoder, and a generative adversarial model.
ППВО 21. Способ согласно ППВО 12, в котором определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации включает:PPVO 21. The method according to PPVO 12, in which the determination of the reconstructed audio signal based on the spectral envelope and autocorrelation information includes:
определение множества восстановленных звуковых сигналов поддиапазонов на основе огибающей спектра и автокорреляционной информации; иdetermining a plurality of reconstructed sub-band audio signals based on the spectral envelope and autocorrelation information; and
определение восстановленного звукового сигнала на основе множества восстановленных звуковых сигналов поддиапазонов с помощью спектрального синтеза,determining a reconstructed audio signal based on a plurality of reconstructed sub-band audio signals using spectral synthesis,
при этом множество восстановленных звуковых сигналов поддиапазонов определяют так, чтобы для каждого восстановленного звукового сигнала поддиапазона автокорреляционная функция восстановленного звукового сигнала поддиапазона удовлетворяла условию, полученному из автокорреляционной информации для звукового сигнала соответствующего поддиапазона.wherein the plurality of reconstructed sub-range audio signals are determined so that for each reconstructed sub-range audio signal, the autocorrelation function of the reconstructed sub-range audio signal satisfies the condition obtained from the autocorrelation information for the audio signal of the corresponding sub-range.
ППВО 22. Способ согласно предыдущему ППВО, в котором множество восстановленных звуковых сигналов поддиапазонов дополнительно определяют так, что для каждого восстановленного звукового сигнала поддиапазона измеренная мощность сигнала восстановленного звукового сигнала поддиапазона по существу совпадает с мощностью сигнала для звукового сигнала соответствующего поддиапазона, которая указана огибающей спектра. PPVO 22. The method according to the previous PPVO, in which the plurality of reconstructed sub-band audio signals are further determined such that for each reconstructed sub-band audio signal, the measured signal power of the reconstructed sub-band audio signal substantially coincides with the signal power for the audio signal of the corresponding sub-band, which is indicated by the spectral envelope.
ППВО 23. Способ согласно ППВО 21 или 22, PPVO 23. Method according to PPVO 21 or 22,
в котором каждый восстановленный звуковой сигнал поддиапазона определяют в итеративной процедуре, которая начинается с исходного кандидата для восстановленного звукового сигнала поддиапазона и генерирует соответствующий промежуточный восстановленный звуковой сигнал поддиапазона на каждой итерации; иwherein each reconstructed sub-band audio signal is determined in an iterative procedure that starts with an initial candidate for the reconstructed sub-band audio signal and generates a corresponding intermediate reconstructed sub-band audio signal at each iteration; and
при этом на каждой итерации к промежуточному восстановленному звуковому сигналу поддиапазона применяют отображение обновления для получения промежуточного восстановленного звукового сигнала поддиапазона для следующей итерации, таким образом, что разность между автокорреляционной информацией для промежуточного восстановленного звукового сигнала поддиапазона и автокорреляционной информацией для звукового сигнала соответствующего поддиапазона последовательно уменьшается от одной итерации к другой. wherein at each iteration, an update mapping is applied to the intermediate reconstructed sub-band audio signal to obtain an intermediate reconstructed sub-band audio signal for the next iteration, such that the difference between the autocorrelation information for the intermediate reconstructed sub-band audio signal and the autocorrelation information for the audio signal of the corresponding sub-band is successively reduced from one iteration to the next.
ППВО 24. Способ согласно ППВО 21 или 22, в котором определение множества восстановленных звуковых сигналов поддиапазонов на основе огибающей спектра и автокорреляционной информации включает применение порождающей модели на основе машинного обучения, которая принимает в качестве входных данных огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов звукового сигнала и генерирует и выводит множество восстановленных звуковых сигналов поддиапазонов.PPVO 24. The method according to PPVO 21 or 22, in which determining a plurality of reconstructed sub-band audio signals based on the spectral envelope and autocorrelation information includes applying a generative model based on machine learning, which receives as input data the spectral envelope of the audio signal and the autocorrelation information for each of the plurality of sub-band audio signals of the audio signal and generates and outputs a plurality of reconstructed sub-band audio signals.
ППВО 25. Кодер для кодирования звукового сигнала, содержащий процессор и запоминающее устройство, соединенное с процессором, при этом процессор приспособлен для выполнения этапов способа согласно любому из ППВО 1–11.PPVO 25. An encoder for encoding an audio signal, comprising a processor and a memory device connected to the processor, wherein the processor is adapted to perform the steps of the method according to any of PPVO 1–11.
ППВО 26. Декодер для декодирования звукового сигнала из закодированного представления звукового сигнала, содержащий процессор и запоминающее устройство, соединенное с процессором, при этом процессор приспособлен для выполнения этапов способа согласно любому из ППВО 12–24.PPVO 26. A decoder for decoding an audio signal from an encoded representation of the audio signal, comprising a processor and a memory device connected to the processor, wherein the processor is adapted to perform the steps of the method according to any of PPVO 12–24.
ППВО 27. Компьютерная программа, содержащая команды для вызова выполнения компьютером, при исполнении этих команд, способа согласно любому из ППВО 1–24.PPVO 27. A computer program containing instructions for causing the computer to execute, when executing these instructions, a method according to any of PPVO 1–24.
ППВО 28. Машиночитаемый носитель данных, на котором хранится компьютерная программа согласно предыдущему ППВО.PPVO 28. Machine-readable data carrier on which a computer program is stored in accordance with the previous PPVO.
Claims (66)
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP19192552.8 | 2019-08-20 | ||
| US62/889,118 | 2019-08-20 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| RU2022107245A RU2022107245A (en) | 2023-09-21 |
| RU2825309C2 true RU2825309C2 (en) | 2024-08-23 |
Family
ID=
Non-Patent Citations (1)
| Title |
|---|
| Harmonic-stochastic excitation (HSX) speech coding below 4 kbit/s", IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pp. 204-207, 07.05.1996. * |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11935551B2 (en) | Cross product enhanced harmonic transposition | |
| US20230197089A1 (en) | Harmonic transposition in an audio coding method and system | |
| RU2402826C2 (en) | Methods and device for coding and decoding of high-frequency range voice signal part | |
| AU2018217299B2 (en) | Improving classification between time-domain coding and frequency domain coding | |
| EP3039676B1 (en) | Adaptive bandwidth extension and apparatus for the same | |
| RU2596584C2 (en) | Coding of generalised audio signals at low bit rates and low delay | |
| RU2389085C2 (en) | Method and device for introducing low-frequency emphasis when compressing sound based on acelp/tcx | |
| JP2018510374A (en) | Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time domain envelope | |
| TW201009812A (en) | Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs | |
| JP2020204784A (en) | Method and apparatus for encoding signal and method and apparatus for decoding signal | |
| US20250124934A1 (en) | Multi-lag format for audio coding | |
| JP2017515155A (en) | Improved frame erasure correction using speech information | |
| RU2825309C2 (en) | Multiple-delay audio encoding format | |
| US12424226B2 (en) | Methods and system for waveform coding of audio signals with a generative model by implementing a probability distribution | |
| HK40120551A (en) | Multi-lag format for audio coding | |
| Hang et al. | A low computational complexity bandwidth extension method for mobile audio coding | |
| AU2015221516A1 (en) | Improved Harmonic Transposition | |
| HK1213079A1 (en) | Improved harmonic transposition | |
| HK1213079B (en) | Improved harmonic transposition |