RU2772778C2

RU2772778C2 - Temporary reconciliation of processing data based on quadrature mirror filter

Info

Publication number: RU2772778C2
Application number: RU2018129969A
Authority: RU
Inventors: Кристофер ЧЕРЛИНГ; Хейко ПУРНХАГЕН; Йенс ПОПП
Original assignee: Долби Интернэшнл Аб
Priority date: 2013-09-12
Filing date: 2014-09-08
Publication date: 2022-05-25

Abstract

FIELD: data processing.

SUBSTANCE: invention relates to means for temporary reconciliation of processing data based on a quadrature mirror filter. A set of forms of subband signals is generated based on data on a signal form. Decoded metadata is generated based on metadata. Temporary reconciliation of the set of forms of subband signals and decoded metadata is performed. A restored sound signal frame is generated based on the time-reconciled set of forms of subband signals and decoded metadata. In this case, generation of the set of forms of subband signals based on data on a signal form contains application of signal form delay to a form of a signal that is provided in a time domain. At the same time, constant delay is included that is independent of length N of the restored sound signal frame.

EFFECT: decrease in the delay in sound encoding and decoding.

7 cl, 6 dwg, 1 tbl

Description

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS-REFERENCE TO RELATED APPLICATIONS

Настоящая заявка испрашивает приоритет Предварительной Заявки на Патент Соединенных Штатов № 61/877.194, зарегистрированной 12 сентября 2013 г., и Предварительной Заявки на Патент Соединенных Штатов № 61/909.593, зарегистрированной 27 ноября 2013 г., содержание каждой из которых полностью включено в настоящий документ путем ссылки.This application claims the priority of United States Provisional Application No. 61/877.194, filed September 12, 2013, and United States Provisional Patent Application No. 61/909.593, filed November 27, 2013, the contents of each of which are incorporated herein in their entirety. by reference.

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕFIELD OF TECHNOLOGY TO WHICH THE INVENTION RELATES

Настоящее изобретение относится к временному согласованию кодированных данных звукового кодера с соответствующими метаданными, такими как метаданные копирования спектрального диапазона (SBR), в частности, Высокоэффективного (НЕ) Усовершенствованного Звукового Кодирования (ААС).The present invention relates to the timing of encoded audio encoder data with corresponding metadata, such as spectral band replication (SBR) metadata, in particular High Efficiency (NOT) Advanced Audio Coding (AAC).

УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION

Техническая проблема в области звукового кодирования состоит в создании систем звукового кодирования и декодирования, обладающих малой задержкой, например, с целью обеспечения возможности решения прикладных задач реального времени, таких как прямая трансляция. Кроме того, целесообразно создавать системы звукового кодирования и декодирования, обменивающиеся кодированными битовыми потоками, которые могут соединяться с другими битовыми потоками. Помимо этого, следует создавать вычислительно эффективные системы звукового кодирования и декодирования, чтобы обеспечивать экономически эффективную реализацию систем. В настоящем документе рассматривается техническая проблема создания кодированных битовых потоков, которые могут соединяться эффективным образом, вместе с тем одновременно поддерживая время задержки на соответствующем уровне для прямой трансляции. В настоящем документе описывается система звукового кодирования и декодирования, которая обеспечивает соединение битовых потоков с приемлемыми задержками при кодировании, тем самым, обеспечивая возможность решения прикладных задач, таких как прямая трансляция, в которых транслируемый битовый поток может генерироваться из множества исходных битовых потоков.A technical problem in the field of audio coding is to provide low latency audio coding and decoding systems, for example, to enable real-time applications such as live broadcasts. In addition, it is advantageous to provide audio encoding and decoding systems that exchange encoded bitstreams that can be connected to other bitstreams. In addition, computationally efficient audio encoding and decoding systems should be designed to enable cost-effective implementation of the systems. The present document addresses the technical problem of creating encoded bitstreams that can be connected in an efficient manner while simultaneously maintaining the delay time at an appropriate level for live broadcasting. The present document describes an audio encoding and decoding system that allows bitstreams to be combined with acceptable encoding delays, thereby enabling applications such as live broadcasting, in which a broadcast bitstream can be generated from a plurality of source bitstreams.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

В соответствии с одним из аспектов, описывается звуковой декодер, выполненный с возможностью определения восстановленного кадра звукового сигнала по блоку доступа принимаемого потока данных. Как правило, поток данных содержит последовательность блоков доступа для определения соответствующей последовательности восстановленных кадров звукового сигнала. Кадр звукового сигнала, как правило, содержит заранее задаваемое число N выборок временной области звукового сигнала (при величине N, большей единицы). В этой связи, последовательность блоков доступа может соответственно описывать последовательность кадров звукового сигнала.In accordance with one aspect, an audio decoder is described, configured to determine a reconstructed audio frame from an access block of a received data stream. Typically, the data stream contains a sequence of access blocks to determine the corresponding sequence of recovered audio frames. An audio frame typically contains a predetermined number N of audio time domain samples (when N is greater than one). In this regard, the sequence of blocks of access may respectively describe the sequence of frames of the audio signal.

Блок доступа содержит данные о форме сигнала и метаданные, причем данные о форме сигнала и метаданные связаны с одним и тем же восстановленным кадром звукового сигнала. Иными словами, данные о форме сигнала и метаданные для определения восстановленного кадра звукового сигнала содержатся в одном и том же блоке доступа. Каждый из блоков доступа в последовательности блоков доступа может содержать данные о форме сигнала и метаданные для генерирования соответствующего восстановленного кадра в последовательности восстановленных кадров звукового сигнала. В частности, блок доступа конкретного кадра может содержать (например, все) данные, необходимые для определения восстановленного кадра для конкретного кадра.The access block contains waveform data and metadata, wherein the waveform data and metadata are associated with the same reconstructed audio frame. In other words, the waveform data and the metadata for determining the reconstructed audio frame are contained in the same access block. Each of the access blocks in the sequence of access blocks may contain waveform data and metadata for generating a corresponding reconstructed frame in the sequence of reconstructed audio frames. In particular, a particular frame's access block may contain (eg, all of) the data necessary to determine a reconstructed frame for a particular frame.

В одном из примеров блок доступа конкретного кадра может содержать (например, все) данные, необходимые для реализации схемы восстановления высоких частот (HFR) для генерирования сигнала верхнего диапазона конкретного кадра на основе сигнала нижнего диапазона конкретного кадра (содержащегося в данных о форме сигнала и блока доступа) и на основе декодированных метаданных.In one example, a particular frame access block may contain (e.g., all of) the data necessary to implement a high frequency restoration (HFR) circuit to generate a particular frame high band signal based on a particular frame low band signal (contained in the waveform data and block access) and based on the decoded metadata.

В качестве альтернативы или помимо этого, блок доступа конкретного кадра может содержать (например, все) данные, необходимые для реализации расширения динамического диапазона конкретного кадра. В частности, расширение или развертывание сигнала нижнего диапазона конкретного кадра может осуществляться на основе декодированных метаданных. С этой целью декодированные метаданные могут содержать один или более из параметров развертывания. Указанные один или более из параметров развертывания могут свидетельствовать об одном или более из следующего: должно или нет сжатие/расширение применяться к конкретному кадру; должно или нет сжатие/расширение применяться равномерным образом для всех каналов многоканального звукового сигнала (т.е., должен ли применяться один и тот же коэффициент (коэффициенты) усиления развертывания для всех каналов многоканального звукового сигнала, или должен ли применяться различный коэффициент (коэффициенты) усиления развертывания для различных каналов многоканального звукового сигнала); и/или о временном разрешении коэффициента усиления развертывания.Alternatively, or in addition, a particular frame's access unit may contain (eg, all of) the data necessary to implement the dynamic range extension of the particular frame. In particular, the expansion or expansion of the lower band signal of a particular frame may be performed based on the decoded metadata. To this end, the decoded metadata may contain one or more of the deployment parameters. Said one or more of the deployment parameters may be indicative of one or more of the following: whether or not compression/expansion should be applied to a particular frame; Whether or not compression/expansion should be applied uniformly to all channels of a multi-channel audio signal (i.e., should the same deployment gain(s) be applied to all channels of a multi-channel audio signal, or should different factor(s) be applied) deployment amplification for various channels of a multi-channel audio signal); and/or temporary resolution of the deployment gain.

Обеспечение в последовательности блоков доступа таких блоков доступа, каждый из которых содержит данные, необходимые для генерирования соответствующего восстановленного кадра звукового сигнала, независимо от предыдущего или следующего блока доступа, целесообразно для решения задач соединения, поскольку это позволяет соединять поток данных между двумя смежными блоками доступа, не оказывая влияния на качество восприятия восстановленного кадра звукового сигнала в точке соединения (например, непосредственно вслед за ней).Providing access blocks in sequence with access blocks that each contain the data necessary to generate the corresponding reconstructed audio frame, regardless of the previous or next access block, is useful for solving connection problems, since it allows you to connect the data flow between two adjacent access blocks, without affecting the quality of perception of the restored frame of the audio signal at the connection point (for example, immediately after it).

В одном из примеров восстановленный кадр звукового сигнала содержит сигнал нижнего диапазона и сигнал верхнего диапазона, причем данные о форме сигнала ии указывают сигнал нижнего диапазона, и причем метаданные указывают огибающую спектра сигнала верхнего диапазона. Сигнал нижнего диапазона может соответствовать компоненте звукового сигнала, охватывающей диапазон относительно низких частот (например, содержащей частоты, меньшие заранее задаваемой частоты разделения). Сигнал верхнего диапазона может соответствовать компоненте звукового сигнала, охватывающей диапазон относительно высоких частот (например, содержащей частоты, большие заранее задаваемой частоты разделения). Сигнал нижнего диапазона и сигнал верхнего диапазона могут дополнять друг друга в отношении диапазона частот, охватываемого сигналом нижнего диапазона и сигналом верхнего диапазона. Звуковой декодер может быть выполнен с возможностью осуществления восстановления высоких частот (HFR), такого как копирование спектрального диапазона (SBR), сигнала верхнего диапазона с помощью метаданных и данных о форме сигнала. В этой связи, метаданные могут содержать метаданные HFR или SBR, указывающие огибающую спектра сигнала верхнего диапазона.In one example, the reconstructed audio frame comprises a low band signal and a high band signal, wherein the u waveform data indicates the low band signal, and wherein the metadata indicates the spectrum envelope of the high band signal. The low band signal may correspond to an audio signal component spanning a relatively low frequency range (eg, containing frequencies below a predetermined crossover frequency). The high band signal may correspond to an audio signal component spanning a range of relatively high frequencies (eg, containing frequencies greater than a predetermined crossover frequency). The low band signal and the high band signal may complement each other with respect to the frequency range covered by the low band signal and the high band signal. The audio decoder may be configured to perform high frequency reconstruction (HFR) such as spectral band replication (SBR), high band signal with metadata and waveform data. In this regard, the metadata may comprise HFR or SBR metadata indicating the spectrum envelope of the high band signal.

Звуковой декодер может содержать тракт обработки формы сигнала, выполненный с возможностью генерирования множества форм форм субполосных сигналов по данным о форме сигнала. Множество форм форм субполосных сигналов может соответствовать представлению формы сигнала во временной области в области субполосы (например, в области квадратурного зеркального фильтра (QMF)). Форма сигнала во временной области может соответствовать вышеуказанному сигналу нижнего диапазона, а множество форм форм субполосных сигналов может соответствовать множеству сигнала нижнего диапазона. Кроме того, звуковой декодер может содержать тракт обработки метаданных, выполненный с возможностью генерирования декодированных метаданных по метаданным.The audio decoder may comprise a waveform processing path configured to generate a plurality of subband waveforms from the waveform data. The plurality of subband waveforms may correspond to a time domain waveform representation in the subband domain (eg, quadrature mirror filter (QMF) domain). The time domain waveform may correspond to the above lower band signal, and the plurality of subband waveforms may correspond to the plurality of the lower band signal. In addition, the audio decoder may comprise a metadata processing path configured to generate decoded metadata from the metadata.

Помимо этого, звуковой декодер может содержать блок применения и синтеза метаданных, выполненный с возможностью генерирования восстановленного кадра звукового сигнала по множеству форм форм субполосных сигналов и по декодированным метаданным. В частности, блок применения и синтеза метаданных может быть выполнен с возможностью реализации схемы HFR и/или SBR для генерирования множества (например, масштабированных) субполосных сигналов верхнего диапазона по множеству форм форм субполосных сигналов (т.е., в этом случае по множеству субполосных сигналов нижнего диапазона) и по декодированным метаданным. Восстановленный кадр звукового сигнала может при этом определяться на основе множества (например, масштабированных) субполосных сигналов верхнего диапазона и на основе множества сигналов нижнего диапазона.In addition, the audio decoder may include a metadata application and synthesis unit configured to generate a reconstructed audio frame from the plurality of subband waveforms and from the decoded metadata. In particular, the metadata application and synthesis unit may be configured to implement an HFR and/or SBR scheme to generate a plurality of (e.g., scaled) upper band subband signals from a plurality of subband waveforms (i.e., in this case, from a plurality of subband waveforms). low band signals) and decoded metadata. The reconstructed audio frame can in this case be determined based on a plurality of (eg scaled) upper band sub-band signals and on the basis of a plurality of lower band signals.

В качестве альтернативы или помимо этого, звуковой декодер может содержать блок развертывания, выполненный с возможностью осуществления расширения - или выполненный с возможностью расширения - множества форм форм субполосных сигналов с помощью, по меньшей мере, некоторых декодированных метаданных, в частности, с помощью указанных одного или более из параметров развертывания, входящих в декодированные метаданные. С этой целью блок развертывания может быть выполнен с возможностью применения одного или более из коэффициентов усиления развертывания к множеству форм субполосных сигналов. Блок развертывания может быть выполнен с возможностью определения указанных одного или более из коэффициентов усиления развертывания на основе множества форм субполосных сигналов, на основе одного или более из заранее задаваемых правил или функций сжатия/развертывания и/или на основе указанных одного или более из параметров развертывания.Alternatively or in addition, the audio decoder may comprise a deployer configured to expand - or capable of expanding - a plurality of subband waveforms with at least some decoded metadata, in particular with said one or more than one of the deployment options included in the decoded metadata. To this end, the spreader may be configured to apply one or more of the spread gains to a plurality of subband waveforms. The expander may be configured to determine said one or more of the sweep gains based on a plurality of subband waveforms, based on one or more predefined compression/deployment rules or functions, and/or based on said one or more of the sweep parameters.

Тракт обработки формы сигнала и/или тракт обработки метаданных может включать в себя, по меньшей мере, один блок задержки, выполненный с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных. В частности, указанный, по меньшей мере, один блок задержки может быть выполнен с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных и/или введения, по меньшей мере, одной задержки в тракт обработки формы сигнала и/или в тракт обработки метаданных таким образом, что полная задержка тракта обработки формы сигнала соответствует полной задержке тракта обработки метаданных. В качестве альтернативы или помимо этого, указанный, по меньшей мере, один блок задержки может быть выполнен с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных таким образом, что множество форм субполосных сигналов и декодированные метаданные своевременно выдаются в блок применения и синтеза метаданных для обработки, выполняемой блоком применения и синтеза метаданных. В частности, множество форм субполосных сигналов и декодированные метаданные могут выдаваться в блок применения и синтеза метаданных таким образом, что блок применения и синтеза метаданных не обязательно должен буферизовать множество форм субполосных сигналов и/или декодированные метаданные перед выполнением обработки (например, обработки HFR или SBR) множества форм субполосных сигналов и/или декодированных метаданных.The waveform processing path and/or the metadata processing path may include at least one delay unit configured to timing the plurality of subband waveforms and the decoded metadata. In particular, said at least one delay unit may be configured to time-align a plurality of subband waveforms and decoded metadata and/or introduce at least one delay into the waveform processing path and/or into the metadata processing path such such that the total delay of the waveform processing path corresponds to the total delay of the metadata processing path. Alternatively, or in addition, said at least one delay unit may be configured to time-align the plurality of subband waveforms and the decoded metadata such that the plurality of subband waveforms and the decoded metadata are timely provided to the metadata application and synthesis unit for processing performed by the metadata application and synthesis unit. In particular, the plurality of subband waveforms and decoded metadata may be output to the metadata application and synthesis block such that the metadata application and synthesis block need not buffer the plurality of subband waveforms and/or decoded metadata before performing processing (e.g., HFR or SBR processing). ) a plurality of subband waveforms and/or decoded metadata.

Иными словами, звуковой декодер может быть выполнен с возможностью задержки выдачи декодированных метаданных и/или множества форм субполосных сигналов в блок применения и синтеза метаданных, который может быть выполнен с возможностью реализации схемы HFR, таким образом, что декодированные метаданные и/или множество форм субполосных сигналов выдаются для обработки по мере необходимости. Введенная задержка может выбираться для уменьшения (например, минимизации) полной задержки аудиокодека (содержащего звуковой декодер и соответствующий звуковой кодер), вместе с тем одновременно обеспечивая соединение битового потока, содержащего последовательность блоков доступа. В этой связи, звуковой декодер может быть выполнен с возможностью обработки согласованных по времени блоков доступа, которые содержат данные о форме сигнала и метаданные, для определения конкретного кадра звукового сигнала при минимальном влиянии на полную задержку аудиокодека. Кроме того, звуковой декодер может быть выполнен с возможностью обработки согласованных по времени блоков доступа без необходимости повторной выборки метаданных. При этом звуковой декодер выполнен с возможностью определения конкретного восстановленного кадра звукового сигнала вычислительно эффективным образом и без ухудшения качества звука. Следовательно, звуковой декодер может быть выполнен с возможностью обеспечения решения задач соединения вычислительно эффективным образом, вместе с тем сохраняя высокое качество звука и малую полную задержку.In other words, the audio decoder may be configured to delay output of the decoded metadata and/or the plurality of subband signal forms to the metadata application and synthesis unit, which may be configured to implement the HFR scheme such that the decoded metadata and/or the plurality of subband signal forms signals are issued for processing as needed. The introduced delay may be selected to reduce (eg, minimize) the overall delay of the audio codec (comprising an audio decoder and a corresponding audio encoder) while still allowing the bitstream containing the access block sequence to be connected. In this regard, the audio decoder may be configured to process time-consistent access blocks that contain waveform data and metadata to determine a particular audio frame with minimal impact on overall audio codec delay. In addition, the audio decoder may be configured to process time-consistent access blocks without the need for metadata resampling. At the same time, the audio decoder is configured to determine a specific reconstructed frame of the audio signal in a computationally efficient manner and without degrading the audio quality. Therefore, the audio decoder can be configured to solve connection problems in a computationally efficient manner while maintaining high audio quality and low overall delay.

Кроме того, использование, по меньшей мере, одного блока задержки, выполненного с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных, может обеспечивать точное и стабильное временное согласование множества форм субполосных сигналов и декодированных метаданных в области субполосы (в которой, как правило, выполняется обработка множества форм субполосных сигналов и декодированных метаданных).In addition, using at least one delay unit configured to timing multiple subband waveforms and decoded metadata can provide accurate and stable timing of the multiple subband waveforms and decoded metadata in a subband domain (in which, typically, multiple subband waveforms and decoded metadata are processed).

Тракт обработки метаданных может включать в себя блок задержки метаданных, выполненный с возможностью задержки декодированных метаданных на большее нуля целое кратное длины N восстановленного кадра звукового сигнала. Дополнительная задержка, которая вносится блоком задержки метаданных, может называться задержкой метаданных. Длина N может соответствовать числу N выборок во временной области, содержащихся в восстановленном кадре звукового сигнала. Целое кратное может быть таким, что задержка, вносимая блоком задержки метаданных, больше задержки, вносимой обработкой тракта обработки формы сигнала (например, без учета дополнительной задержки формы сигнала, вносимой в тракт обработки формы сигнала). Задержка метаданных может зависеть от длины N восстановленного кадра звукового сигнала. Это может быть связано с тем, что задержка, вызываемая обработкой в тракте обработки формы сигнала, зависит от длины N кадра. В частности, целое кратное может составлять единицу для длин N кадра, превышающих 960, и/или целое кратное может составлять два для длин N кадра, не превышающих 960.The metadata processing path may include a metadata delay block configured to delay the decoded metadata by a greater than zero integer multiple of the length N of the reconstructed audio frame. The additional delay introduced by the metadata delay block may be referred to as the metadata delay. The length N may correspond to the number N of time domain samples contained in the reconstructed audio frame. An integer multiple may be such that the delay introduced by the metadata delay block is greater than the delay introduced by the waveform processing path (eg, without considering the additional waveform delay introduced by the waveform processing path). The metadata delay may depend on the length N of the reconstructed audio frame. This may be due to the fact that the delay caused by processing in the waveform processing path depends on the length N of the frame. In particular, an integer multiple may be one for frame lengths N greater than 960, and/or an integer multiple may be two for frame lengths N greater than 960.

Как указано выше, блок применения и синтеза метаданных может быть выполнен с возможностью обработки декодированных метаданных и множества форм субполосных сигналов в области субполосы (например, в области QMF). Кроме того, декодированные метаданные могут указывать метаданные (например, указывать спектральные коэффициенты, описывающие огибающую спектра сигнала верхнего диапазона) в области субполосы. Помимо этого, блок задержки метаданных может быть выполнен с возможностью задержки декодированных метаданных. Использование задержек метаданных, которые являются большими нуля целыми кратными длины N кадра, может оказаться целесообразным, поскольку это обеспечивает стабильное выравнивание множества форм субполосных сигналов и декодированных метаданных в области субполосы (например, для обработки в блоке применения и синтеза метаданных). В частности, это гарантирует, что декодированные метаданные могут применяться к надлежащему кадру формы сигнала (т.е., к надлежащему кадру множества форм субполосных сигналов) без необходимости повторной выборки метаданных.As stated above, the metadata application and synthesis unit may be configured to process decoded metadata and multiple subband waveforms in the subband domain (eg, in the QMF domain). In addition, the decoded metadata may indicate metadata (eg, indicate spectral coefficients describing the spectrum envelope of the high band signal) in the subband region. In addition, the metadata delay unit may be configured to delay the decoded metadata. The use of metadata delays that are greater than zero integer multiples of the frame length N may be advantageous as it provides stable alignment of multiple subband waveforms and decoded metadata in the subband domain (eg, for processing in the metadata application and synthesis block). In particular, this ensures that the decoded metadata can be applied to the proper frame of the waveform (ie, the proper frame of the plurality of subband waveforms) without the need for metadata resampling.

Тракт обработки формы сигнала может содержать блок задержки формы сигнала, выполненный с возможностью задержки множества форм субполосных сигналов таким образом, что полная задержка тракта обработки формы сигнала соответствует большему нуля целому кратному длины N восстановленного кадра звукового сигнала. Дополнительная задержка, которая вносится блоком задержки формы сигнала, может называться задержкой формы сигнала. Целое кратное тракта обработки формы сигнала может соответствовать целому кратному тракта обработки метаданных.The waveform processing path may comprise a waveform delay block configured to delay a plurality of subband waveforms such that the total delay of the waveform processing path corresponds to a greater than zero integer multiple of the reconstructed audio frame length N. The additional delay introduced by the waveform delay block may be referred to as waveform delay. An integer multiple of the waveform processing path may correspond to an integer multiple of the metadata processing path.

Блок задержки формы сигнала и/или блок задержки метаданных могут быть реализованы в виде буферов, которые выполнены с возможностью хранения множества форм субполосных сигналов и/или декодированных метаданных в течение промежутка времени, соответствующего задержке формы сигнала, и/или в течение промежутка времени, соответствующего задержке метаданных. Блок задержки формы сигнала может быть установлен в любом месте в тракте обработки формы сигнала перед блоком применения и синтеза метаданных. В этой связи, блок задержки формы сигнала может быть выполнен с возможностью задержки данных о форме сигнала и/или множества форм субполосных сигналов (и/или промежуточных данных или сигналов в тракте обработки формы сигнала). В одном из примеров блок задержки формы сигнала может быть распределен вдоль тракта обработки формы сигнала, причем каждый из распределенных блоков задержки обеспечивает некоторую долю полной задержки формы сигнала. Распределение блока задержки формы сигнала может оказаться целесообразным для экономически-эффективной реализации блока задержки формы сигнала. Аналогично блоку задержки формы сигнала, блок задержки метаданных может быть установлен в любом месте в тракте обработки метаданных перед блоком применения и синтеза метаданных. Кроме того, блок задержки формы сигнала может быть распределен вдоль тракта обработки метаданных.The waveform delay block and/or the metadata delay block may be implemented as buffers that are configured to store a plurality of subband waveforms and/or decoded metadata for a period of time corresponding to the waveform delay and/or for a period of time corresponding to metadata delay. The waveform delay block may be installed anywhere in the waveform processing path before the metadata application and synthesis block. In this regard, the waveform delay block may be configured to delay waveform data and/or multiple subband waveforms (and/or intermediate data or signals in the waveform processing path). In one example, a waveform delay block may be distributed along the waveform processing path, with each of the distributed delay blocks providing some fraction of the total waveform delay. Allocation of the waveform delay block may be appropriate for a cost effective implementation of the waveform delay block. Similar to the waveform delay block, the metadata delay block can be installed anywhere in the metadata processing path before the metadata application and synthesis block. In addition, the waveform delay block may be distributed along the metadata processing path.

Тракт обработки формы сигнала может содержать блок декодирования и деквантизации, выполненный с возможностью декодирования и деквантизации данных о форме сигнала для получения множества частотных коэффициентов, указывающих форму сигнала. В этой связи, данные о форме сигнала могут содержать множество частотных коэффициентов или могут указывать их, что обеспечивает генерирование формы сигнала восстановленного кадра звукового сигнала. Кроме того, тракт обработки формы сигнала может содержать блок синтеза формы сигнала, выполненный с возможностью генерирования формы сигнала по множеству частотных коэффициентов. Блок синтеза формы сигнала может быть выполнен с возможностью осуществления преобразования из частотной области во временную область. В частности, блок синтеза формы сигнала может быть выполнен с возможностью осуществления обратного модифицированного дискретного косинусного преобразования (MDCT). Блок синтеза формы сигнала или обработка блока синтеза формы сигнала могут вносить задержку, которая зависит от длины N восстановленного кадра звукового сигнала. В частности, задержка, вносимая блоком синтеза формы сигнала, может соответствовать длине N кадра.The waveform processing path may include a decoding and dequantization block configured to decode and dequantize the waveform data to obtain a plurality of frequency coefficients indicative of the waveform. In this regard, the waveform data may comprise or indicate a plurality of frequency coefficients, which enables the waveform of the reconstructed audio frame to be generated. Further, the waveform processing path may comprise a waveform synthesis unit configured to generate a waveform from a plurality of frequency coefficients. The waveform synthesis block may be configured to perform a conversion from the frequency domain to the time domain. In particular, the waveform synthesis block may be configured to perform an inverse modified discrete cosine transform (MDCT). The waveform synthesis block or the processing of the waveform synthesis block may introduce a delay that depends on the length N of the reconstructed audio frame. In particular, the delay introduced by the waveform synthesis block may correspond to the frame length N.

После восстановления формы сигнала по данным о форме сигнала может обрабатываться в соответствии с декодированными метаданными. В одном из примеров формы сигнал может использоваться применительно к схеме HFR или SBR для определения сигнала верхнего диапазона с помощью декодированных метаданных. С этой целью тракт обработки формы сигнала может содержать блок анализа, выполненный с возможностью генерирования множества форм субполосных сигналов по форме сигнала. Блок анализа может быть выполнен с возможностью осуществления преобразования из временной области в область субполосы, например, путем применения набора квадратурных зеркальных фильтров (QMF). Как правило, частотное разрешение преобразования, выполняемого блоком синтеза формы сигнала, выше (например, по меньшей мере, в 5 или 10 раз), чем частотное разрешение преобразования, выполняемого блоком анализа. Это может обозначаться терминами «частотная область» и «область субполосы», причем частотная область может быть связана с более высоким частотным разрешением, чем область субполосы. Блок анализа может вносить постоянную задержку, которая не зависит от длины N восстановленного кадра звукового сигнала. Постоянная задержка, которая вносится блоком анализа, может зависеть от длины фильтров в наборе фильтров, используемом блоком анализа. Например, постоянная задержка, которая вносится блоком анализа, может соответствовать 320 выборкам звукового сигнала.After reconstructing the waveform from the waveform data, it can be processed according to the decoded metadata. In one example waveform, the signal may be used with an HFR or SBR scheme to determine the high band signal using the decoded metadata. To this end, the waveform processing path may comprise an analysis unit configured to generate a plurality of subband waveforms from the waveform. The parsing unit may be configured to perform a transformation from the time domain to the subband domain, for example by applying a quadrature mirror filter (QMF) bank. Typically, the frequency resolution of the transformation performed by the waveform synthesis block is higher (eg, at least 5 or 10 times) than the frequency resolution of the transformation performed by the analysis block. This may be referred to by the terms "frequency domain" and "subband domain", wherein the frequency domain may be associated with a higher frequency resolution than the subband domain. The parser may introduce a constant delay that is independent of the length N of the reconstructed audio frame. The constant delay introduced by the parser may depend on the length of the filters in the filterbank used by the parser. For example, the constant delay introduced by the analyzer may correspond to 320 audio samples.

Полная задержка тракта обработки формы сигнала может дополнительно зависеть от заранее определенного прогноза между метаданными и данными о форме сигнала. Такой прогноз может оказаться целесообразным для увеличения непрерывности между смежными восстановленными кадрами звукового сигнала. Заранее задаваемый прогноз и/или соответствующая задержка прогноза могут соответствовать 192 или 384 выборкам звуковой выборки. Задержка прогноза может представлять собой задержку в случае определения метаданных HFR или SBR, указывающих огибающую спектра сигнала верхнего диапазона. В частности, прогноз может позволять соответствующему звуковому кодеру определять метаданные HFR или SBR конкретного кадра звукового сигнала на основе заранее задаваемого числа выборок от непосредственно следующего кадра звукового сигнала. Это может оказаться целесообразным в тех случаях, когда конкретный кадр включает в себя акустический переходный процесс. Задержка прогноза может применяться блоком задержки прогноза, содержащимся в тракте обработки формы сигнала.The overall delay of the waveform processing path may further depend on a predetermined prediction between the metadata and the waveform data. Such a prediction may be useful in order to increase continuity between adjacent reconstructed audio frames. The predetermined prediction and/or the corresponding prediction delay may correspond to 192 or 384 audio samples. The prediction delay may be a delay in case of determining the HFR or SBR metadata indicating the spectrum envelope of the high band signal. In particular, the prediction may allow the corresponding audio encoder to determine the HFR or SBR metadata of a particular audio frame based on a predetermined number of samples from the immediately following audio frame. This may be useful in cases where a particular frame includes an acoustic transient. The prediction delay may be applied by a prediction delay block contained in the waveform processing path.

В этой связи, полная задержка тракта обработки формы сигнала, т.е., задержка формы сигнала может зависеть от различной обработки, которая выполняется в тракте обработки формы сигнала. Кроме того, задержка формы сигнала может зависеть от задержки метаданных, которая вносится в тракт обработки метаданных. Задержка формы сигнала может соответствовать произвольному кратному выборки звукового сигнала. По этой причине может оказаться целесообразным использовать блок задержки формы сигнала, который выполнен с возможностью задержки формы сигнала, причем форма сигнала представлена во временной области. Иными словами, может оказаться целесообразным применять задержку формы сигнала к форме сигнала. При этом может обеспечиваться точное и стабильное применение задержки формы сигнала, которая соответствует произвольному кратному выборки звукового сигнала.In this regard, the total delay of the waveform processing path, i.e., the waveform delay, may depend on various processing that is performed in the waveform processing path. In addition, the waveform delay may depend on the metadata delay that is introduced into the metadata processing path. The waveform delay may correspond to an arbitrary multiple of the audio signal sample. For this reason, it may be advantageous to use a waveform delay block which is configured to delay the waveform, the waveform being represented in the time domain. In other words, it may be useful to apply a waveform delay to the waveform. This can ensure accurate and stable application of a waveform delay that corresponds to an arbitrary multiple of the audio signal sample.

Один из примеров декодера может содержать блок задержки метаданных, который выполнен с возможностью применения задержки метаданных к метаданным, причем метаданные могут быть представлены в области субполосы, и блок задержки формы сигнала, который выполнен с возможностью применения задержки формы сигнала к форме сигнала, представленному во временной области. Блок задержки метаданных может применять задержку метаданных, которая соответствует целому кратному длины N кадра, а блок задержки формы сигнала может применять задержку метаданных, которая соответствует целому кратному выборки звукового сигнала. Вследствие этого, может обеспечиваться точная и стабильное выравнивание множества форм субполосных сигналов и декодированных метаданных для обработки в блоке применения и синтеза метаданных. Обработка множества форм субполосных сигналов и декодированных метаданных может происходить в области субполосы. Выравнивание множества форм субполосных сигналов и декодированных метаданных может достигаться без повторной выборки декодированных метаданных, тем самым обеспечивая вычислительно эффективное и сохраняющее качество средство выравнивания.One example of a decoder may include a metadata delay block that is configured to apply a metadata delay to the metadata, wherein the metadata can be represented in a subband domain, and a waveform delay block that is configured to apply a waveform delay to a waveform represented in time. areas. The metadata delay block may apply a metadata delay that corresponds to an integer multiple of the frame length N, and the waveform delay block may apply a metadata delay that corresponds to an integer multiple of the audio sample. As a result, accurate and stable alignment of the plurality of subband waveforms and decoded metadata for processing in the metadata application and synthesis block can be ensured. Processing of multiple forms of subband signals and decoded metadata may occur in the subband domain. Equalization of multiple subband waveforms and decoded metadata can be achieved without resampling the decoded metadata, thereby providing a computationally efficient and quality-preserving equalization means.

Как отмечалось выше, звуковой декодер может быть выполнен с возможностью реализации схемы HFR или SBR. Блок применения и синтеза метаданных может содержать блок применения метаданных, который выполнен с возможностью осуществления восстановления высоких частот (такого как SBR) с помощью множества сигналов нижнего диапазона и с помощью декодированных метаданных. В частности, блок применения метаданных может быть выполнен с возможностью транспонирования одного или более из множества сигналов нижнего диапазона для генерирования множества субполосных сигналов верхнего диапазона. Кроме того, блок применения метаданных может быть выполнен с возможностью применения декодированных метаданных к множеству субполосных сигналов верхнего диапазона для получения множества масштабированных субполосных сигналов верхнего диапазона. Множество масштабированных субполосных сигналов верхнего диапазона может указывать сигнал верхнего диапазона восстановленного кадра звукового сигнала. Для генерирования восстановленного кадра звукового сигнала блок применения и синтеза метаданных может дополнительно содержать блок синтеза, выполненный с возможностью генерирования восстановленного кадра звукового сигнала из множества сигналов нижнего диапазона и из множества масштабированных субполосных сигналов верхнего диапазона. Блок синтеза может быть выполнен с возможностью осуществления обратного преобразования по отношению к преобразованию, осуществляемому блоком анализа, например, путем применения набора обратных QMF. Число фильтров, содержащихся в наборе фильтров блока синтеза, может быть выше, чем число фильтров, содержащихся в наборе фильтров блока анализа (например, для учета расширенного диапазона частот ввиду множества масштабированных субполосных сигналов верхнего диапазона).As noted above, an audio decoder may be configured to implement an HFR or SBR scheme. The metadata application and synthesis block may comprise a metadata application block that is configured to perform high frequency restoration (such as SBR) with a plurality of lower band signals and with the decoded metadata. In particular, the metadata application unit may be configured to transpose one or more of the plurality of low band signals to generate a plurality of high band subband signals. In addition, the metadata applying unit may be configured to apply the decoded metadata to the plurality of high band subband signals to obtain the plurality of scaled high band subband signals. The plurality of scaled high band subband signals may indicate the high band signal of the reconstructed audio frame. To generate a reconstructed audio frame, the metadata application and synthesis unit may further comprise a synthesis unit configured to generate a reconstructed audio frame from a plurality of low band signals and from a plurality of scaled high band subband signals. The synthesis block may be configured to perform an inverse transformation with respect to the transformation performed by the analysis block, for example, by applying a set of inverse QMFs. The number of filters contained in the synthesis block filter bank may be higher than the number of filters contained in the analysis block filter bank (eg, to account for the extended frequency range due to the many scaled high band subband signals).

Как указано выше, звуковой декодер может содержать блок развертывания. Блок развертывания может быть выполнен с возможностью изменения (например, увеличения) динамического диапазона множества форм субполосных сигналов. Блок развертывания может быть установлен перед блоком применения и синтеза метаданных. В частности, множество развернутых форм субполосных сигналов может использоваться для реализации схемы HFR или SBR. Иными словами, множество сигналов нижнего диапазона, используемых для реализации схемы HFR или SBR, может соответствовать множеству развернутых форм субполосных сигналов на выходе блока развертывания.As stated above, the audio decoder may comprise a deployer. The expander may be configured to change (eg increase) the dynamic range of the plurality of subband waveforms. The deployment block can be placed before the metadata application and synthesis block. In particular, a plurality of expanded subband waveforms may be used to implement an HFR or SBR scheme. In other words, the plurality of lower band signals used to implement the HFR or SBR scheme may correspond to the plurality of unwrapped subband waveforms at the output of the expander.

Блок развертывания предпочтительно устанавливается после блока задержки прогноза. В частности, блок развертывания может устанавливаться между блоком задержки прогноза и блоком применения и синтеза метаданных. Благодаря установке блока развертывания после блока задержки прогноза, т.е., благодаря применению задержки прогноза к данным о форме сигнала до развертывания множества форм субполосных сигналов гарантируется, что указанные один или более из параметров развертывания, содержащихся в метаданных, применяются к надлежащим данным о форме сигнала. Иными словами, осуществление развертывания данных о форме сигнала, которые уже были задержаны с помощью задержки прогноза, гарантирует, что указанные один или более из параметров развертывания из метаданных синхронизированы с данными о форме сигнала.The spread block is preferably installed after the forecast delay block. In particular, the deployment unit may be installed between the prediction delay unit and the metadata application and synthesis unit. By placing the expander after the prediction delay block, i.e., by applying the prediction delay to the waveform data before the multiple subband waveforms are deployed, it is ensured that said one or more of the spreading parameters contained in the metadata are applied to the proper waveform data. signal. In other words, deploying the waveform data that has already been delayed by the prediction delay ensures that said one or more of the metadata spreading parameters are synchronized with the waveform data.

В этой связи, декодированные метаданные могут содержать один или более из параметров развертывания, а звуковой декодер может содержать блок развертывания, выполненный с возможностью генерирования множества развернутых форм субполосных сигналов на основе множества форм субполосных сигналов с помощью указанных одного или более из параметров развертывания. В частности, блок развертывания может быть выполнен с возможностью генерирования множества развернутых форм субполосных сигналов с помощью обратной функции по отношению к заранее задаваемой функции сжатия. Указанные один или более из параметров развертывания могут указывать обратную функцию по отношению к заранее задаваемой функции сжатия. Восстановленный кадр звукового сигнала может определяться по множеству развернутых форм субполосных сигналов.In this regard, the decoded metadata may comprise one or more of the deployment parameters, and the audio decoder may comprise a expander configured to generate a plurality of deployed subband waveforms based on the plurality of subband waveforms using said one or more of the deployment parameters. In particular, the expander may be configured to generate a plurality of unwrapped subband waveforms with an inverse function of a predetermined compression function. Said one or more of the expansion parameters may indicate an inverse function to a predetermined compression function. The reconstructed audio frame may be determined from a plurality of expanded subband waveforms.

Как указано выше, звуковой декодер может содержать блок задержки прогноза, выполненный с возможностью задержки множества форм субполосных сигналов в соответствии с заранее задаваемым прогнозом для получения множества задержанных форм субполосных сигналов. Блок развертывания может быть выполнен с возможностью генерирования множества развернутых форм субполосных сигналов путем развертывания множества задержанных форм субполосных сигналов. Иными словами, блок развертывания может быть установлен после блока задержки прогноза. Это обеспечивает синхронность между указанными одним или более из параметров развертывания и множеством форм субполосных сигналов, к которым применимы указанные один или более из параметров развертывания.As mentioned above, the audio decoder may include a prediction delay unit configured to delay the plurality of subband waveforms in accordance with a predetermined prediction to obtain the plurality of delayed subband waveforms. The expander may be configured to generate a plurality of deployed subband waveforms by unwrapping a plurality of delayed subband waveforms. In other words, the deployment block may be installed after the prediction delay block. This provides synchronism between the specified one or more of the deployment parameters and the plurality of subband waveforms to which the specified one or more of the deployment parameters apply.

Блок применения и синтеза метаданных может быть выполнен с возможностью генерирования восстановленного кадра звукового сигнала с помощью декодированных метаданных (а именно, с помощью соответствующих метаданных SBR/HFR) для временного элемента множества форм субполосных сигналов. Временной элемент может соответствовать числу временных интервалов множества форм субполосных сигналов. Длительность временного элемента может быть переменной, т.е. длительность временного элемента множества форм субполосных сигналов, к которым применяются декодированные метаданные, может изменяться от одного кадра к другому. Иными словами, кадрирование для декодированных метаданных может изменяться. Изменение длительности временного элемента может ограничиваться заранее заданными пределами. Заранее заданные пределы могут соответствовать длительности кадра минус задержка и длительности кадра плюс задержка соответственно. Применение декодированных данных о форме сигнала (или их частей) для временных элементов различных длительностей может оказаться целесообразным для обработки переходных звуковых сигналов.The metadata application and synthesis unit may be configured to generate a reconstructed audio frame with the decoded metadata (namely, with the corresponding SBR/HFR metadata) for the temporal element of the subband waveform set. The time element may correspond to the number of time slots of the plurality of subband waveforms. The duration of the time element can be variable, ie. the duration of the time element of the plurality of subband waveforms to which the decoded metadata is applied may vary from one frame to another. In other words, the framing for the decoded metadata may change. The change in the duration of the time element may be limited to predetermined limits. The predetermined limits may correspond to frame duration minus delay and frame duration plus delay, respectively. The use of decoded waveform data (or portions thereof) for temporal elements of different durations may be useful for processing transient audio signals.

Блок развертывания может быть выполнен с возможностью генерирования множества развернутых форм субполосных сигналов с помощью указанных одного или более из параметров развертывания для одного и того же временного элемента множества форм субполосных сигналов. Иными словами, кадрирование указанных одного или более из параметров развертывания может быть таким же, как и кадрирование декодированных метаданных, которые используются блоком применения и синтеза метаданных (например, кадрирование для метаданных SBR/HFR). При этом может обеспечиваться стабильность схемы SBR и схемы компандирования и может быть улучшено качество системы кодирования.The expander may be configured to generate a plurality of deployed subband waveforms using said one or more of the deployment parameters for the same temporal element of the plurality of subband waveforms. In other words, the framing of said one or more of the deployment parameters may be the same as the framing of the decoded metadata that is used by the metadata application and synthesis block (eg, framing for SBR/HFR metadata). In this way, the stability of the SBR scheme and the companding scheme can be ensured, and the quality of the coding system can be improved.

В соответствии с еще одним аспектом, описывается звуковой кодер, выполненный с возможностью кодирования кадра звукового сигнала в блок доступа потока данных. Звуковой кодер может быть выполнен с возможностью осуществления соответствующих задач обработки с учетом задач обработки, выполняемых звуковым декодером. В частности, звуковой кодер может быть выполнен с возможностью определения данных о форме сигнала и метаданных по кадру звукового сигнала и введения данных о форме сигнала и метаданных в блок доступа. Данные о форме сигнала и метаданные могут указывать кадр, восстановленный из кадра звукового сигнала. Иными словами, данные о форме сигнала и метаданные могут позволить соответствующему звуковому декодеру определить восстановленную версию исходного кадра звукового сигнала. Кадр звукового сигнала может содержать сигнал нижнего диапазона и сигнал верхнего диапазона. Данные о форме сигнала могут указывать сигнал нижнего диапазона, а метаданные могут указывать огибающую спектра сигнала верхнего диапазона.In accordance with yet another aspect, an audio encoder is described, configured to encode a frame of an audio signal into a data stream access block. The audio encoder may be configured to perform appropriate processing tasks in consideration of the processing tasks performed by the audio decoder. In particular, the audio encoder may be configured to determine the waveform data and metadata from the audio frame and input the waveform data and metadata to the access unit. The waveform data and metadata may indicate a frame reconstructed from an audio frame. In other words, the waveform data and metadata may allow the corresponding audio decoder to determine a reconstructed version of the original audio frame. The audio signal frame may comprise a low band signal and a high band signal. The waveform data may indicate the low band signal, and the metadata may indicate the spectrum envelope of the high band signal.

Звуковой кодер может содержать тракт обработки формы сигнала, выполненный с возможностью генерирования данных о форме сигнала по кадру звукового сигнала, например, по сигналу нижнего диапазона (например, с помощью базового звукового декодера, такого как Усовершенствованный Звуковой Кодер (ААС). Кроме того, звуковой кодер содержит тракт обработки метаданных, выполненный с возможностью генерирования метаданных по кадру звукового сигнала, например, по сигналу верхнего диапазона и по сигналу нижнего диапазона. В качестве примера звуковой кодер может быть выполнен с возможностью реализации Высокоэффективного (НЕ) ААС, а соответствующий звуковой декодер может быть выполнен с возможностью декодирования принимаемого потока данных в соответствии с НЕ ААС.The audio encoder may include a waveform processing path configured to generate waveform data per frame of the audio signal, such as a low band signal (eg, using a basic audio decoder such as an Advanced Audio Encoder (AAC). In addition, an audio the encoder comprises a metadata processing path configured to generate metadata per frame of an audio signal, such as on a high band signal and on a low band signal.As an example, an audio encoder may be configured to implement High Efficiency (NOT) AAC, and a corresponding audio decoder may be configured to decode the received data stream in accordance with HE AAC.

Тракт обработки формы сигнала и/или тракт обработки метаданных могут содержать, по меньшей мере, один блок задержки, выполненный с возможностью временного согласования данных о форме сигнала и метаданных таким образом, что блок доступа для кадра звукового сигнала содержит данные о форме сигнала и метаданные для одного и того же кадра звукового сигнала. Указанный, по меньшей мере, один блок задержки может быть выполнен с возможностью временного согласования данных о форме сигнала и метаданных таким образом, что полная задержка тракта обработки формы сигнала соответствует полной задержке тракта обработки метаданных. В частности, указанный, по меньшей мере, один блок задержки может представлять собой блок задержки формы сигнала, выполненный с возможностью внесения дополнительной задержки в тракт обработки формы сигнала таким образом, что полная задержка тракта обработки формы сигнала соответствует полной задержке тракта обработки метаданных. В качестве альтернативы или помимо этого, указанный, по меньшей мере, один блок задержки может быть выполнен с возможностью временного согласования данных о форме сигнала и метаданных таким образом, что данные о форме сигнала и метаданные своевременно выдаются в блок генерирования блока доступа звукового кодера для генерирования одиночного блока доступа по данным о форме сигнала и метаданным. В частности, данные о форме сигнала и метаданные могут выдаваться таким образом, что одиночный блок доступа может генерироваться без необходимости в буфере для буферизации данных о форме сигнала и/или метаданных.The waveform processing path and/or the metadata processing path may comprise at least one delay unit configured to time the waveform data and metadata such that the access unit for the audio frame contains the waveform data and metadata for the same frame of the audio signal. The at least one delay block may be configured to timing the waveform data and metadata such that the total delay of the waveform processing path corresponds to the total delay of the metadata processing path. In particular, said at least one delay block may be a waveform delay block configured to introduce additional delay into the waveform processing path such that the total delay of the waveform processing path corresponds to the total delay of the metadata processing path. Alternatively, or in addition, said at least one delay unit may be configured to timing the waveform data and metadata such that the waveform data and metadata are timely output to the audio encoder access unit generation unit to generate single access block for waveform data and metadata. In particular, the waveform data and metadata can be provided such that a single access block can be generated without the need for a buffer to buffer the waveform data and/or metadata.

Звуковой кодер может содержать блок анализа, выполненный с возможностью генерирования множества субполосных сигналов по кадру звукового сигнала, причем множество субполосных сигналов может включать в себя множество сигналов нижнего диапазона, указывающих сигнал нижнего диапазона. Звуковой кодер может содержать блок сжатия, выполненный с возможностью сжатия множества сигналов нижнего диапазона с помощью функции сжатия для получения множества сжатых сигналов нижнего диапазона. Данные о форме сигнала могут указывать множество сжатых сигналов нижнего диапазона, а метаданные могут указывать функцию сжатия, используемой блоком сжатия. Метаданные, указывающие огибающую спектра сигнала верхнего диапазона, могут быть применимы к тому же элементу звукового сигнала, что и метаданные, указывающие функцию сжатия. Иными словами, метаданные, указывающие огибающую спектра сигнала верхнего диапазона, могут быть синхронизированы с метаданными, указывающими функцию сжатия.The audio encoder may comprise an analysis unit configured to generate a plurality of subband signals per audio signal frame, wherein the plurality of subband signals may include a plurality of lowband signals indicative of a lowband signal. The audio encoder may comprise a despreader configured to compress the plurality of low band signals with a compression function to obtain a plurality of compressed low band signals. The waveform data may indicate a plurality of low band compressed signals, and the metadata may indicate a compression function used by the despreader. The metadata indicating the spectrum envelope of the high band signal may be applicable to the same audio element as the metadata indicating the compression function. In other words, the metadata indicating the spectrum envelope of the high band signal may be synchronized with the metadata indicating the compression function.

В соответствии с еще одним аспектом, описывается поток данных, содержащий последовательность блоков доступа для последовательности кадров звукового сигнала соответственно. Блок доступа из последовательности блоков доступа содержит данные о форме сигнала и метаданные. Данные о форме сигнала и метаданные связаны с одним и тем же конкретным кадром из последовательности кадров звукового сигнала. Данные о форме сигнала и метаданные могут указывать восстановленный кадр конкретного кадра. В одном из примеров конкретный кадр звукового сигнала содержит сигнал нижнего диапазона и сигнал верхнего диапазона, причем данные о форме сигнала указывают сигнал нижнего диапазона и причем метаданные указывают огибающую спектра сигнала верхнего диапазона. Метаданные могут позволять звуковому декодеру генерировать сигнал верхнего диапазона по сигналу нижнего диапазона с помощью схемы HFR. В качестве альтернативы или помимо этого, метаданные могут указывать функцию сжатия, применяемую к сигналу нижнего диапазона. Следовательно, метаданные могут позволять звуковому декодеру выполнять расширение динамического диапазона принимаемого сигнала нижнего диапазона (с помощью обратной функции по отношению к функции сжатия).In accordance with yet another aspect, a data stream is described containing a sequence of access blocks for a sequence of audio frames, respectively. An access block from a sequence of access blocks contains waveform data and metadata. The waveform data and metadata are associated with the same particular frame of the audio frame sequence. The waveform data and metadata may indicate the reconstructed frame of a particular frame. In one example, a particular audio frame comprises a low band signal and a high band signal, wherein the waveform data indicates the low band signal and wherein the metadata indicates the spectrum envelope of the high band signal. The metadata may allow an audio decoder to generate a high band signal from a low band signal using an HFR scheme. Alternatively, or in addition, the metadata may indicate the compression function applied to the lower band signal. Therefore, the metadata may allow the audio decoder to perform dynamic range expansion of the received low band signal (using the inverse function of the compression function).

В соответствии с еще одним аспектом, описывается способ определения восстановленного кадра звукового сигнала по блоку доступа принимаемого потока данных. Блок доступа содержит данные о форме сигнала и метаданные, причем данные о форме сигнала и метаданные связаны с одним и тем же восстановленным кадром звукового сигнала. В одном из примеров восстановленный кадр звукового сигнала содержит сигнал нижнего диапазона и сигнал верхнего диапазона, причем данные о форме сигнала указывают сигнал нижнего диапазона (например, о частотных коэффициентах, описывающих сигнал нижнего диапазона), и причем метаданные указывают огибающую спектра сигнала верхнего диапазона (например, о коэффициентах масштабирования для множества диапазонов коэффициента масштабирования сигнала верхнего диапазона). Способ включает в себя генерирование множества форм субполосных сигналов по данным о форме сигнала и генерирование декодированных метаданных по метаданным. Кроме того, способ включает в себя временное согласование множества форм субполосных сигналов и декодированных метаданных, как описывается в настоящем документе. Кроме того, способ включает в себя генерирование восстановленного кадра звукового сигнала по согласованному по времени множеству форм субполосных сигналов и декодированных метаданных.In accordance with yet another aspect, a method for determining a reconstructed audio frame from an access block of a received data stream is described. The access block contains waveform data and metadata, wherein the waveform data and metadata are associated with the same reconstructed audio frame. In one example, the reconstructed audio frame comprises a low band signal and a high band signal, wherein the waveform data indicates the low band signal (e.g., frequency coefficients describing the low band signal), and wherein the metadata indicates the spectrum envelope of the high band signal (e.g., , about scaling factors for multiple ranges of the scaling factor of the high band signal). The method includes generating a plurality of subband waveforms from the waveform data and generating decoded metadata from the metadata. In addition, the method includes timing a plurality of subband waveforms and decoded metadata, as described herein. In addition, the method includes generating a reconstructed audio frame from a time-consistent plurality of subband waveforms and decoded metadata.

В соответствии с еще одним аспектом, описывается способ кодирования кадра звукового сигнала в блок доступа потока данных. Кадр звукового сигнала кодируется таким образом, что блок доступа содержит данные о форме сигнала и метаданные. Данные о форме сигнала и метаданные указывают кадр, восстановленный из кадра звукового сигнала. В одном из примеров кадр звукового сигнала содержит сигнал нижнего диапазона и сигнал верхнего диапазона, а кадр кодируется таким образом, что данные о форме сигнала указывают сигнал нижнего диапазона, и таким образом, что метаданные указывают огибающую спектра сигнала верхнего диапазона. Способ включает в себя генерирование данных о форме сигнала по кадру звукового сигнала, например, по сигналу нижнего диапазона и генерирование метаданных по кадру звукового сигнала, например, по сигналу верхнего диапазона и по сигналу нижнего диапазона (например, в соответствии со схемой HFR). Кроме того, способ включает в себя временное согласование данных о форме сигнала и метаданных таким образом, что блок доступа для кадра звукового сигнала содержит данные о форме сигнала и метаданные для одного и того же кадра звукового сигнала.In accordance with yet another aspect, a method for encoding a frame of an audio signal into an access unit of a data stream is described. The audio frame is encoded such that the access block contains waveform data and metadata. The waveform data and metadata indicate a frame reconstructed from an audio frame. In one example, an audio frame contains a low band signal and a high band signal, and the frame is encoded such that the waveform data indicates the low band signal and such that the metadata indicates the spectrum envelope of the high band signal. The method includes generating waveform data per audio frame, such as a low band signal, and generating metadata per audio frame, such as a high band signal and a low band signal (eg, in accordance with an HFR scheme). Further, the method includes timing the waveform data and metadata such that an access unit for an audio frame contains waveform data and metadata for the same audio frame.

В соответствии с еще одним аспектом, описывается программа системы программного обеспечения. Программа системы программного обеспечения может быть предназначена для исполнения в процессоре и для реализации этапов способа, излагаемых в настоящем документе, при выполнении в процессоре.According to yet another aspect, a software system program is described. A software system program may be designed to be executed on a processor and to implement the steps of the method set forth herein when executed on the processor.

В соответствии с еще одним аспектом, описывается среда хранения (энергонезависимая среда хранения). Среда хранения может содержать программу системы программного обеспечения, предназначенную для исполнения в процессоре и для реализации этапов способа, излагаемых в настоящем документе, при выполнении в процессоре.According to another aspect, a storage medium (non-volatile storage medium) is described. The storage medium may comprise a software system program for execution on a processor and for implementing the steps of the method set forth herein when executed on the processor.

В соответствии с еще одним аспектом, описывается компьютерный программный продукт. Компьютерная программа может содержать исполнимые команды для реализации этапов способа, излагаемых в настоящем документе, при исполнении в компьютере.In accordance with yet another aspect, a computer program product is described. The computer program may contain executable instructions for implementing the steps of the method set forth herein when executed on a computer.

Необходимо отметить, что способы и системы, включая свои предпочтительные варианты осуществления, излагаемые в настоящей заявке на патент, могут использоваться независимо или в комбинации с другими способами и системами, описываемыми в данном документе. Кроме того, все аспекты способов и систем, излагаемых в настоящей заявке на патент, могут произвольно комбинироваться. В частности, признаки формулы изобретения могут комбинироваться друг с другом произвольным образом.It should be noted that the methods and systems, including their preferred embodiments set forth in this patent application, can be used independently or in combination with other methods and systems described in this document. In addition, all aspects of the methods and systems set forth in this patent application can be arbitrarily combined. In particular, the features of the claims can be combined with each other in an arbitrary manner.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

Изобретение наглядно объясняется ниже со ссылкой на прилагаемые чертежи, на которых:The invention is clearly explained below with reference to the accompanying drawings, in which:

на фиг. 1 изображена блок-схема примера звукового декодера;in fig. 1 is a block diagram of an example audio decoder;

на фиг. 2а изображена блок-схема еще одного примера звукового декодера;in fig. 2a is a block diagram of another example of an audio decoder;

на фиг. 2b изображена блок-схема примера звукового кодера; иin fig. 2b is a block diagram of an example audio encoder; and

на фиг. 3а изображена блок-схема примера звукового декодера, который выполнен с возможностью развертывания звука;in fig. 3a is a block diagram of an example of an audio decoder that is capable of deploying audio;

на фиг. 3b изображена блок-схема примера звукового кодера, который выполнен с возможностью сжатия звука; иin fig. 3b is a block diagram of an example of an audio encoder that is configured to compress audio; and

фиг. 4 иллюстрирует пример кадрирования последовательности кадров звукового сигнала.fig. 4 illustrates an example of framing a sequence of audio signal frames.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

Как указано выше, настоящий документ относится к согласованию метаданных. Далее согласование метаданных излагается применительно к схеме НЕ (Высокоэффективного) ААС (Усовершенствованного Звукового Кодирования) MPEG. Однако следует отметить, что принципы согласования метаданных, которые описываются в настоящем документе, также применимы к другим системам кодирования/декодирования. В частности, схемы согласования метаданных, которые описываются в настоящем документе, применимы к системам звукового кодирования/декодирования, которые используют HFR (Восстановление Высоких Частот) и/или SBR (Копирование Спектрального Диапазона) и которые передают метаданные HFR/SBR от звукового кодера к соответствующему звуковому декодеру. Кроме того, схемы согласования метаданных, которые описываются в настоящем документе, применимы к системам звукового кодирования/декодирования, которые используют применения в области субполосы (а именно, QMF). Одним из примеров такого применения является SBR. Другими примерами являются А-образное соединение, последующая обработка и т.д. Ниже схемы согласования метаданных описываются применительно к согласованию метаданных SBR. Однако следует отметить, что схемы согласования метаданных также применимы к другим типам метаданных, а именно, к другим типам метаданных в области субполосы.As stated above, this document relates to metadata negotiation. Next, the metadata negotiation is set forth in relation to the MPEG HE (High Efficiency) AAC (Advanced Audio Coding) scheme. However, it should be noted that the principles of metadata negotiation that are described in this document are also applicable to other encoding/decoding systems. In particular, the metadata negotiation schemes described herein are applicable to audio encoding/decoding systems that use HFR (High Frequency Recovery) and/or SBR (Spectral Range Copy) and that transmit HFR/SBR metadata from an audio encoder to an appropriate audio decoder. In addition, the metadata negotiation schemes that are described herein are applicable to audio coding/decoding systems that use subband applications (namely, QMF). One example of such an application is SBR. Other examples are A-joint, post-processing, etc. The following metadata negotiation schemes are described in relation to SBR metadata negotiation. However, it should be noted that the metadata negotiation schemes are also applicable to other types of metadata, namely other types of metadata in the subband domain.

Поток данных НЕ-ААС MPEG содержит метаданные SBR (называемые также метаданными A-SPX). Метаданные SBR в конкретном кодированном кадре потока данных (называемом также AU (блоком доступа) потока данных), как правило, относятся к данным о форме сигнала (W) в прошлом. Метаданные SBR и данные о форме сигнала, содержащиеся в AU потока данных, как правило, не соответствуют одному и тому же кадру исходного звукового сигнала. Это связано с тем, что после декодирования данных о форме сигнала данные о форме сигнала подаются на несколько этапов обработки (таких как анализ IMDCT (обратного Модифицированного Дискретного Косинусного Преобразования) и QMF (Квадратурного Зеркального Фильтра)), которые вносят задержку сигнала. В тот момент, когда метаданные SBR применяются к данным о форме сигнала, метаданные SBR согласованы с обработанными данными о форме сигнала. В этой связи, метаданные SBR и данные о форме сигнала вносятся в поток данных НЕ-ААС MPEG таким образом, что метаданные SBR достигают звукового декодера, когда метаданные SBR необходимы для обработки SBR в звуковом декодере. Такая форма доставки метаданных может называться «Своевременной» (JIT) доставкой метаданных, поскольку метаданные SBR вносятся в поток данных таким образом, что метаданные SBR могут непосредственно применяться в сигнальной цепи или цепи обработки звукового декодера.The HE-AAC MPEG data stream contains SBR metadata (also called A-SPX metadata). The SBR metadata in a particular encoded frame of a data stream (also referred to as an AU (Access Unit) of a data stream) typically refers to past waveform (W) data. SBR metadata and waveform data contained in a data stream AU generally do not correspond to the same frame of the original audio signal. This is because after decoding the waveform data, the waveform data is fed to several processing steps (such as IMDCT (Inverse Modified Discrete Cosine Transform) and QMF (Quadrature Mirror Filter) analysis) which introduce signal delay. The moment the SBR metadata is applied to the waveform data, the SBR metadata is consistent with the processed waveform data. In this regard, SBR metadata and waveform data are inserted into the MPEG HE-AAC data stream such that the SBR metadata reaches the audio decoder when the SBR metadata is needed to process the SBR in the audio decoder. This form of metadata delivery may be referred to as "Just in Time" (JIT) metadata delivery because the SBR metadata is inserted into the data stream in such a way that the SBR metadata can be directly applied in the audio decoder's signaling or processing chain.

JIT доставка метаданных может оказаться целесообразной для традиционной цепи «кодирование - передача - декодирование» с целью уменьшения полной задержки кодирования и с целью снижения требований к памяти звукового декодера. Однако соединение потока данных вдоль тракта передачи может привести к несоответствию между данными о форме сигнала и соответствующими метаданными SBR. Такое несоответствие может привести к звуковым артефактам в месте соединения, поскольку для копирования спектрального диапазона в звуковом кодере используются неверные метаданные SBR.JIT delivery of metadata may be appropriate for the traditional chain "encode - transmit - decode" in order to reduce the overall encoding delay and to reduce the memory requirements of the audio decoder. However, the connection of the data stream along the transmission path may lead to a mismatch between the waveform data and the corresponding SBR metadata. This mismatch can lead to audio artifacts at the junction because the audio encoder uses incorrect SBR metadata to copy the spectral range.

В связи с вышеизложенным, целесообразно создать систему звукового кодирования/декодирования, которая обеспечивает соединение потоков данных, вместе с тем одновременно сохраняя малую полную задержку кодирования.In view of the foregoing, it is desirable to provide an audio encoding/decoding system that enables the connection of data streams while simultaneously maintaining a low overall encoding delay.

На фиг. 1 изображена блок-схема примера звукового декодера 100, который решает вышеуказанную техническую проблему. В частности, звуковой декодер 100 на фиг. 1 обеспечивает декодирование потоков данных с AU 110, которые содержат данные 111 о форме сигнала конкретного сегмента (например, кадра) звукового сигнала и которые содержат соответствующие метаданные 112 конкретного сегмента звукового сигнала. Благодаря созданию звуковых декодеров 100, которые декодируют потоки данных, содержащие AU 110 с использованием согласованных во времени данных 111 о форме сигнала и соответствующих метаданных 112, обеспечивается стабильное соединение потока данных. В частности, гарантируется, что поток данных может быть соединен таким образом, что сохраняются соответствующие пары данных 111 о форме сигнала и соответствующих метаданных 112.In FIG. 1 is a block diagram of an example audio decoder 100 that solves the above technical problem. In particular, audio decoder 100 in FIG. 1 enables the decoding of data streams from the AU 110 that contain waveform data 111 of a particular segment (eg, frame) of an audio signal and that contain corresponding metadata 112 of a particular audio segment. By providing audio decoders 100 that decode data streams containing AUs 110 using time-consistent waveform data 111 and associated metadata 112, a stable data stream connection is provided. In particular, it is guaranteed that the data stream can be connected in such a way that the corresponding pairs of waveform data 111 and corresponding metadata 112 are stored.

Звуковой декодер 100 содержит блок 105 задержки в цепи обработки данных 111 о форме сигнала. Блок 105 задержки может быть установлен за блоком 102 синтеза MDCT или после него и до блока 107 синтеза QMF или перед ним в звуковом декодере 100. В частности, блок 105 задержки может быть установлен до блока 106 применения метаданных (например, блоком 106 SBR), который выполнен с возможностью применения декодированных метаданных 128 к обработанным данным о форме сигнала, либо перед ним. Блок 105 задержки (называемый также блоком 105 задержки формы сигналазадержки формы сигнала) выполнен с возможностью применения задержки (называемой задержкой формы сигнала) к обработанным данным о форме сигнала. Задержка формы сигнала предпочтительно выбирается таким образом, что полная задержка обработки цепи обработки формы сигнала или тракта обработки формы сигнала (например, от блока 102 синтеза MDCT до применения метаданных в блоке 106 применения метаданных) суммируется ровно с одним кадром (или с его целым кратным). При этом данные параметрического управления могут задерживаться на кадр (или его целое кратное), и в AU 110 достигается согласование.The audio decoder 100 includes a delay block 105 in the waveform data processing chain 111 . The delay block 105 may be installed after or after the MDCT synthesis block 102 and before or before the QMF synthesis block 107 in the audio decoder 100. In particular, the delay block 105 may be installed before the metadata application block 106 (for example, by the SBR block 106), which is configured to apply the decoded metadata 128 to or before the processed waveform data. A delay block 105 (also called a waveform delay block 105) is configured to apply a delay (called a waveform delay) to the processed waveform data. The waveform delay is preferably chosen such that the total processing delay of the waveform processing chain or waveform processing path (e.g., from MDCT synthesis block 102 to metadata application at metadata application block 106) adds up to exactly one frame (or an integer multiple thereof) . In this case, the parametric control data may be delayed by a frame (or an integer multiple thereof), and matching is achieved in AU 110.

На фиг. 1 изображены компоненты примера звукового декодера 100. Данные 111 о форме сигнала, принимаемые от AU 110, декодируются и деквантуются в блоке 101 декодирования и деквантизации для получения множества частотных коэффициентов 121 (в частотной области). Множество частотных коэффициентов 121 синтезируется в сигнал 122 нижнего диапазона (во временной области) с помощью преобразования из частотной области во временную область (например, обратного MDCT - Модифицированного Дискретного Косинусного Преобразования), применяемого в блоке 102 синтеза нижнего диапазона (например, блоке синтеза MDCT). Затем сигнал 122 нижнего диапазона преобразуется в множество сигналов 123 нижнего диапазона с помощью блока 103 анализа. Блок 103 анализа может быть выполнен с возможностью применения набора квадратурных зеркальных фильтров (QMF) к сигналу 122 нижнего диапазона для получения множества сигналов 123 нижнего диапазона. Метаданные 112, как правило, применяются к множеству сигнала 123 нижнего диапазона (или к их транспонированной версии).In FIG. 1 shows the components of an example audio decoder 100. The waveform data 111 received from the AU 110 is decoded and dequantized in a decoder and dequantizer 101 to obtain a plurality of frequency coefficients 121 (in the frequency domain). A plurality of frequency coefficients 121 is synthesized into a lower band (time domain) signal 122 by a frequency domain to time domain transform (e.g., inverse MDCT - Modified Discrete Cosine Transform) applied in a lower band synthesis block 102 (e.g., MDCT synthesis block) . Then, the lower band signal 122 is converted into a plurality of lower band signals 123 by the analysis unit 103 . The analysis unit 103 may be configured to apply a quadrature mirror filter (QMF) bank to the low band signal 122 to obtain a plurality of low band signals 123. The metadata 112 is typically applied to the low band signal set 123 (or a transposed version thereof).

Метаданные 112 от AU 110 декодируются и деквантуются в блоке 108 декодирования и деквантизации для получения декодированных метаданных 128. Кроме того, звуковой декодер 100 может содержать дополнительный блок 109 задержки (называемый блоком 109 задержки метаданных), который выполнен с возможностью применения задержки (называемой задержкой метаданных) к декодированным метаданным 128. Задержка метаданных может соответствовать целому кратному длины N кадра, например, D₁=N, где D₁ - задержка метаданных. В этой связи, полная задержка цепи обработки метаданных соответствует D₁, т.е., D₁=N.The metadata 112 from the AU 110 is decoded and dequantized in a decoder and dequantizer 108 to obtain the decoded metadata 128. In addition, the audio decoder 100 may include an additional delay block 109 (called a metadata delay block 109) that is configured to apply a delay (called a metadata delay). ) to the decoded metadata 128. The metadata delay may correspond to an integer multiple of the frame length N, eg, D ₁ =N, where D ₁ is the metadata delay. In this regard, the total delay of the metadata processing chain corresponds to D ₁ , ie, D ₁ =N.

Чтобы обеспечивать одновременное поступление обработанных данных о форме сигнала (т.е., задержанного множества сигналов 123 нижнего диапазона) и обработанных метаданных (т.е., задержанных декодированных метаданных 128) в блок 106 применения метаданных, полная задержка цепи (или тракта) обработки формы сигнала должна соответствовать полной задержке цепи (или тракта) обработки метаданных (т.е., D₁). В цепи обработки формы сигнала блок 102 синтеза нижнего диапазона, как правило, вводит задержку, равную N/2 (т.е., половине длительности кадра). Блок 103 анализа, как правило, вносит постоянную задержку (например, 320 выборок). Кроме того, возможно, понадобится учитывать прогноз (т.е., постоянный сдвиг между метаданными и данными о форме сигнала). В случае НЕ-ААС MPEG, например, SBR, прогноз может соответствовать 384 выборкам (представленным блоком 104 прогноза). Блок 104 прогноза (который может также называться блоком 104 задержки прогноза) может быть выполнен с возможностью задержки данных 111 о форме сигнала (например, задержки множества сигналов 123 нижнего диапазона) на постоянную задержку прогноза SBR. Задержка прогноза позволяет соответствующему звуковому кодеру определять метаданные SBR на основе последующего кадра звукового сигнала.To allow processed waveform data (i.e., delayed low band signal set 123) and processed metadata (i.e., delayed decoded metadata 128) to be sent to metadata applicator 106 at the same time, the total processing chain (or path) delay the waveform must match the total delay of the metadata processing chain (or path) (ie, D ₁ ). In the waveform processing chain, low band synthesis block 102 typically introduces a delay equal to N/2 (ie, half the frame duration). Analysis unit 103 typically introduces a constant delay (eg, 320 samples). In addition, prediction (i.e., a constant shift between metadata and waveform data) may need to be taken into account. In the case of HE-AAC MPEG, eg SBR, the prediction may correspond to 384 samples (represented by prediction block 104). The prediction block 104 (which may also be referred to as the prediction delay block 104) may be configured to delay the waveform data 111 (eg, delay the plurality of low band signals 123) by a constant SBR prediction delay. The prediction delay allows the corresponding audio encoder to determine the SBR metadata based on the subsequent audio frame.

Чтобы обеспечивать полную задержку цепи обработки метаданных, которая соответствует полной задержке цепи обработки формы сигнала, задержка D₂ формы сигнала должна быть такой, что:To provide a total metadata processing chain delay that corresponds to a total waveform processing chain delay, the waveform delay D ₂ should be such that:

D₁=320+384+D₂+N/2,D ₁ \u003d 320 + 384 + D ₂ + N / 2,

т.е. D₂=N/2-320-384 (в случае D₁=N).those. D ₂ =N/2-320-384 (in the case of D ₁ =N).

В Таблице 1 показаны задержки D₂ формы сигнала для множества различных длительностей N. Видно, что максимальная задержка D₂ формы сигнала для различных длительностей N НЕ-ААС составляет 928 выборок при полном максимальном времени задержки декодера 2177 выборок. Иными словами, согласование данных 111 о форме сигнала и соответствующих метаданных 112 в одиночном AU 110 приводит к дополнительной задержке РСМ максимум 928 выборок. Для блока размеров кадра N=1920/1536 метаданные задерживаются на 1 кадр, а для размеров кадра N=960/768/512/384 метаданные задерживаются на 2 кадра. Это означает, что задержка воспроизведения в звуковом декодере 100 увеличивается в зависимости от размера N блока, а полная задержка кодирования на 1 или 2 полных кадра. Максимальная задержка РСМ в соответствующем звуковом кодере составляет 1664 выборки (соответствующие собственному времени задержке звукового декодера 100).Table 1 shows waveform delays D ₂ for a variety of different durations N. It can be seen that the maximum waveform delay D ₂ for various HE-AAC durations N is 928 samples, with a total maximum decoder delay time of 2177 samples. In other words, matching the waveform data 111 and the corresponding metadata 112 in a single AU 110 results in an additional PCM delay of maximum 928 samples. For frame size block N=1920/1536, metadata is delayed by 1 frame, and for frame sizes N=960/768/512/384, metadata is delayed by 2 frames. This means that the playback delay in the audio decoder 100 increases depending on the block size N, and the total encoding delay by 1 or 2 full frames. The maximum PCM delay in the respective audio encoder is 1664 samples (corresponding to the inherent delay time of the audio decoder 100).

Таблица 1Table 1 NN Обратное MDCT (N/2)Reverse MDCT (N/2) Анализ QMFQMF Analysis Прогноз SBRSBR forecast Собственное время задержки (Σ)Own delay time (Σ) D₂ _D2 Число кадровNumber of frames D₁ _D1 Синтез QMFQMF synthesis Полное время задержки декодераTotal Decoder Delay Time 19201920 960960 320320 384384 16641664 256256 1one 19201920 257257 21772177 15361536 768768 320320 384384 14721472 6464 1one 15361536 257257 17931793 960960 480480 320320 192192 992992 928928 22 19201920 257257 21772177 768768 384384 320320 192192 896896 640640 22 15361536 257257 17931793 512512 256256 320320 192192 768768 256256 22 10241024 257257 12811281 384384 192192 320320 192192 704704 6464 22 768768 257257 10251025

В этой связи, в настоящем документе предлагается рассмотреть недостаток JIT метаданных путем применения выровненных по сигналам метаданных (SAM) 112, которые выровнены с соответствующими данными 111 о форме сигнала в одиночный AU 110. В частности, предлагается ввести один или более из дополнительных блоков задержки в звуковой декодер 100 и/или в соответствующий звуковой кодер таким образом, что каждый кодированный кадр (или AU) содержит метаданные (например, A-SPX), которые он использует на последующем этапе обработки, например, на этапе обработки, когда метаданные применяются к лежащим в основе данным о форме сигнала.In this regard, this paper proposes to address the disadvantage of JIT metadata by applying signal-aligned metadata (SAM) 112 that is aligned with the corresponding waveform data 111 in a single AU 110. In particular, it is proposed to introduce one or more of the additional delay blocks in audio decoder 100 and/or to a corresponding audio encoder such that each encoded frame (or AU) contains metadata (e.g., A-SPX) that it uses in a subsequent processing step, e.g., in a processing step when the metadata is applied to the underlying based on waveform data.

Необходимо отметить, что - в принципе - можно рассматривать применение задержки D₁ метаданных, которая соответствует некоторой доле длительности N кадра. При этом полная задержка кодирования, возможно, может быть уменьшена. Однако, как показано на фиг. 1, задержка D₁ метаданных применяется в области QMF (т.е., в области субполосы). С учетом этого и с учетом того, что метаданные 112, как правило, задаются лишь один раз за кадр, т.е. с учетом того, что метаданные 112, как правило, содержат один специальный параметр, устанавливаемый на кадр, введение задержки D₁ метаданных, которая соответствует некоторой доле длительности N кадра, может привести к проблемам синхронизации в отношении данных 111 о форме сигнала. С другой стороны, задержка D₂ формы сигнала применяется во временной области (как показано на фиг. 1), где задержки, которые соответствуют некоторой доле кадра, могут быть реализованы с высокой точностью (например, путем задержки сигнала во временной области на некоторое число выборок, которое соответствует задержке D₂ формы сигнала). Следовательно, целесообразно задерживать метаданные 112 на целые кратные кадра (причем кадр соответствует низшему временному разрешению, для которого задаются метаданные 112) и задерживать данные 111 о форме сигнала на задержку D₂ формы сигнала, которая может принимать произвольные значения. Задержка D₁ метаданных, которая соответствует некоторой доле длительности N кадра, может быть реализована в области субполосы с высокой точностью, а задержка D₂ формы сигнала, которая соответствует произвольному кратному выборки, может быть реализована во временной области с высокой точностью. Следовательно, комбинация задержки D₁ метаданных и задержки D₂ формы сигнала обеспечивает точную синхронизацию метаданных 112 и данных 111 о форме сигнала.It should be noted that - in principle - one can consider applying a metadata delay D ₁ that corresponds to a fraction of the frame duration N. In this case, the total encoding delay can possibly be reduced. However, as shown in FIG. 1, the metadata delay D ₁ is applied in the QMF region (ie, in the subband region). With this in mind, and given that the metadata 112 is typically set only once per frame, i.e. given that the metadata 112 typically contains one special parameter set per frame, introducing a metadata delay D ₁ that corresponds to a fraction of the frame duration N can lead to timing problems with respect to the waveform data 111. On the other hand, the D ₂ waveform delay is applied in the time domain (as shown in FIG. 1), where delays that correspond to a fraction of a frame can be realized with high accuracy (for example, by delaying the time domain signal by a number of samples , which corresponds to the delay D ₂ of the waveform). Therefore, it is useful to delay the metadata 112 by integer multiples of a frame (with the frame corresponding to the lowest temporal resolution for which the metadata 112 is defined) and to delay the waveform data 111 by a waveform delay D ₂ , which can take on arbitrary values. The metadata delay D ₁ that corresponds to a fraction of the frame duration N can be implemented in the subband domain with high accuracy, and the waveform delay D ₂ that corresponds to an arbitrary sample multiple can be implemented in the time domain with high accuracy. Therefore, the combination of the metadata delay D ₁ and the waveform delay D ₂ ensures accurate synchronization of the metadata 112 and the waveform data 111.

Применение задержки D₁ метаданных, которая соответствует некоторой доле длительности N кадра, может быть реализовано путем повторной выборки метаданных 112 в соответствии с задержкой D₁ метаданных. Однако повторная выборка метаданных 112, как правило, предполагает значительные вычислительные затраты. Кроме того, повторная выборка метаданных 112 может приводить к искажению метаданных 112, тем самым влияя на качество восстановленного кадра звукового сигнала. Ввиду этого, целесообразно - с учетом вычислительной эффективности и с учетом качества звука - ограничивать задержку D₁ метаданных целыми кратными длительности N кадра.Applying a metadata delay D ₁ that corresponds to a fraction of the frame duration N can be implemented by resampling the metadata 112 in accordance with the metadata delay D ₁ . However, resampling the metadata 112 typically involves significant computational overhead. In addition, resampling the metadata 112 may corrupt the metadata 112, thereby affecting the quality of the reconstructed audio frame. In view of this, it is advisable - taking into account the computational efficiency and taking into account the sound quality - to limit the metadata delay D ₁ to integer multiples of the duration N of the frame.

На фиг. 1 также изображена последующая обработка задержанных метаданных 128 и задержанного множества сигналов 123 нижнего диапазона. Блок 106 применения метаданных выполнен с возможностью генерирования множества (например, масштабированных) субполосных сигналов 126 верхнего диапазона на основе множества сигналов 123 нижнего диапазона и на основе метаданных 128. С этой целью блок 106 применения метаданных может быть выполнен с возможностью транспонирования одного или более из множества сигналов 123 нижнего диапазона для генерирования множества субполосных сигналов верхнего диапазона. Транспонирование может включать в себя процесс копирования указанных одного или более из множества сигналов 123 нижнего диапазона. Кроме того, блок 106 применения метаданных может быть выполнен с возможностью применения метаданных 128 (например, коэффициентов масштабирования, содержащихся в метаданных 128) к множеству субполосных сигналов верхнего диапазона с целью генерирования множества масштабированных субполосных сигналов 126 верхнего диапазона. Множество масштабированных субполосных сигналов 126 верхнего диапазона, как правило, масштабируется с помощью коэффициентов масштабирования таким образом, что огибающая спектра множества масштабированных субполосных сигналов 126 верхнего диапазона воспроизводит огибающую спектра сигнала верхнего диапазона исходного кадра звукового сигнала (который соответствует восстановленному кадру звукового сигнала 127, генерируемого на основе множества сигналов 123 нижнего диапазона и по множеству масштабированных субполосных сигналов 126 верхнего диапазона).In FIG. 1 also shows the post-processing of the delayed metadata 128 and the delayed set of lower band signals 123. The metadata applicator 106 is configured to generate a plurality of (e.g., scaled) high band subband signals 126 based on a plurality of low band signals 123 and based on metadata 128. To this end, the metadata applicator 106 may be configured to transpose one or more of the plurality of low band signals 123 to generate a plurality of high band subband signals. The transposition may include the process of copying said one or more of the plurality of low range signals 123. In addition, the metadata applicator 106 may be configured to apply metadata 128 (eg, scaling factors contained in metadata 128) to a plurality of highband subband signals to generate a plurality of scaled highband subband signals 126. The set of scaled high-band sub-band signals 126 are typically scaled by scaling factors such that the spectrum envelope of the set of scaled high-band sub-band signals 126 reproduces the spectrum envelope of the high-band signal of the original audio frame (which corresponds to the reconstructed audio frame 127 generated at based on a plurality of lower band signals 123 and on a plurality of scaled sub-band signals 126 of a higher band).

Кроме того, звуковой декодер 100 содержит блок 107 синтеза, выполненный с возможностью генерирования восстановленного кадра звукового сигнала 127 из множества сигналов 123 нижнего диапазона и из множества масштабированных субполосных сигналов 126 верхнего диапазона (например, с помощью набора обратных QMF).In addition, audio decoder 100 includes a synthesis unit 107 configured to generate a reconstructed audio frame 127 from a plurality of low band signals 123 and from a plurality of scaled high band subband signals 126 (eg, using a set of inverse QMFs).

На фиг. 2а изображена блок-схема еще одного примера звукового декодера 100. Звуковой декодер 100 на фиг. 2а содержит те же компоненты, что и звуковой декодер на фиг. 1. Кроме того, изображены примеры компонентов 210 для обработки многоканального звука. Видно, что в примере на фиг. 2а блок 105 задержки формы сигнала расположен непосредственно после блока 102 обратного MDCT. Определение восстановленного кадра звукового сигнала 127 может выполняться для каждого канала многоканального звукового сигнала (например, многоканального звукового сигнала 5.1 или 7.1).In FIG. 2a is a block diagram of yet another example of audio decoder 100. Audio decoder 100 in FIG. 2a contains the same components as the audio decoder in FIG. 1. In addition, examples of components 210 for processing multi-channel audio are shown. It can be seen that in the example of Fig. 2a, the waveform delay block 105 is located immediately after the inverse MDCT block 102. Determining the reconstructed audio frame 127 may be performed for each channel of the multi-channel audio (eg, 5.1 or 7.1 multi-channel audio).

На фиг. 2b изображена блок-схема примера звукового кодера 250, соответствующего звуковому декодеру 100 на фиг. 2а. Звуковой кодер 250 выполнен с возможностью генерирования потока данных, содержащего AU 110, который передает пары соответствующих данных 111 о форме сигнала и метаданные 112. Звуковой кодер 250 содержит цепь 256, 257, 258, 259, 260 обработки метаданных для определения метаданных. Цепь обработки метаданных может содержать блок 256 задержки метаданных для выравнивания метаданных с соответствующими данными о форме сигнала. В приведенном примере блок 256 задержки метаданных звукового кодера 250 не вносит какой-либо дополнительной задержки (поскольку задержка, вносимая цепью обработки метаданных, больше задержки, вносимой цепью обработки формы сигнала).In FIG. 2b is a block diagram of an example audio encoder 250 corresponding to audio decoder 100 in FIG. 2a. The audio encoder 250 is configured to generate a data stream comprising an AU 110 that transmits pairs of respective waveform data 111 and metadata 112. The audio encoder 250 includes a metadata processing chain 256, 257, 258, 259, 260 to determine the metadata. The metadata processing chain may include a metadata delay block 256 for aligning the metadata with the corresponding waveform data. In the example shown, the metadata delay block 256 of the audio encoder 250 does not introduce any additional delay (because the delay introduced by the metadata processing chain is greater than that introduced by the waveform processing chain).

Кроме того, звуковой кодер 250 содержит цепь 251, 252, 253, 254, 255 обработки формы сигнала, выполненную с возможностью определения данных о форме сигнала по исходному звуковому сигналу на входе звукового кодера 250. Цепь обработки формы сигнала содержит блок 252 задержки формы сигнала, выполненный с возможностью внесения дополнительной задержки в цепь обработки формы сигнала с целью выравнивания данных о форме сигнала с соответствующими метаданными. Задержка, которая вносится блоком 252 задержки формы сигнала, может быть такой, что полная задержка цепи обработки метаданных (включая задержку формы сигнала, вводимую блоком 252 задержки формы сигнала) соответствует полной задержке цепи обработки формы сигнала. В случае длительности кадра N=2048 задержка блока 252 задержки формы сигнала может составлять 2048-320=1728 выборок.In addition, the audio encoder 250 includes a waveform processing circuit 251, 252, 253, 254, 255 configured to determine waveform data from the original audio signal at the input of the audio encoder 250. The waveform processing circuit includes a waveform delay block 252, configured to introduce additional delay into the waveform processing chain in order to align the waveform data with the corresponding metadata. The delay introduced by the waveform delayer 252 may be such that the total delay of the metadata processing chain (including the waveform delay introduced by the waveform delayer 252) corresponds to the total delay of the waveform processing chain. In the case of a frame duration of N=2048, the delay of the waveform delay block 252 may be 2048-320=1728 samples.

На фиг. 3а изображен фрагмент звукового декодера 300, содержащего блок 301 развертывания. Звуковой декодер 300 на фиг. 3а может соответствовать звуковому декодеру 100 на фиг. 1 и/или 2а и дополнительно содержит блок 301 развертывания, который выполнен с возможностью определения множества развернутых сигналов нижнего диапазона по множеству сигналов 123 нижнего диапазона с помощью одного или более из параметров 310 развертывания, получаемых по декодированным метаданным 128 блока 110 доступа. Как правило, указанные один или более из параметров 310 развертывания связаны с метаданными SBR (например, A-SPX), содержащимися в блоке 110 доступа. Иными словами, указанные один или более из параметров 310 развертывания, как правило, применимы к тому же фрагменту или элементу звукового сигнала, что и метаданные SBR.In FIG. 3a shows a fragment of the audio decoder 300 containing the block 301 deployment. Audio decoder 300 in FIG. 3a may correspond to audio decoder 100 in FIG. 1 and/or 2a and further comprises a deployer 301 that is configured to determine a plurality of deployed low band signals from the plurality of low band signals 123 using one or more of the deployment parameters 310 obtained from the decoded metadata 128 of the access unit 110. Typically, said one or more of the deployment parameters 310 are associated with the SBR metadata (eg, A-SPX) contained in the access block 110 . In other words, the specified one or more of the deployment parameters 310 generally apply to the same fragment or audio element as the SBR metadata.

Как отмечено выше, метаданные 112 блока 110 доступа, как правило, связаны с данными 111 о форме сигнала кадра звукового сигнала, причем кадр содержит заранее заданное число N выборок. Метаданные SBR, как правило, определяются на основе множества сигналов нижнего диапазона (называемого также множеством форм субполосных сигналов), причем множество сигналов нижнего диапазона может определяться с помощью анализа QMF. Анализ QMF дает частотно-временное представление кадра звукового сигнала. В частности, N выборок кадра звукового сигнала могут быть представлены с помощью Q (например, Q=64) сигналов нижнего диапазона, причем каждый из них содержит N/Q временных интервалов или интервалов. Для кадра с N=2048 выборок и для Q=64 каждый сигнал нижнего диапазона содержит N/Q=32 интервала.As noted above, the metadata 112 of the access unit 110 is generally associated with the waveform data 111 of an audio frame, the frame containing a predetermined number N of samples. The SBR metadata is typically determined based on a plurality of lowband signals (also referred to as a plurality of subband waveforms), wherein the plurality of lowband signals may be determined using QMF analysis. QMF analysis gives a time-frequency representation of an audio frame. In particular, N audio frame samples may be represented by Q (eg, Q=64) low band signals, each containing N/Q slots or slots. For a frame with N=2048 samples and for Q=64, each low band signal contains N/Q=32 slots.

В случае переходного процесса в конкретном кадре может оказаться целесообразным определение метаданных SBR на основе выборок непосредственно следующего кадра. Данный признак называется прогнозом SBR. В частности, метаданные SBR могут определяться на основе заранее заданного числа интервалов по следующему кадру. В качестве примера могут приниматься во внимание до 6 интервалов следующего кадра (т.е., Q*6=384 выборки).In the case of a transient in a particular frame, it may be useful to determine the SBR metadata based on the samples of the immediately following frame. This feature is called SBR prediction. In particular, the SBR metadata may be determined based on a predetermined number of slots over the next frame. As an example, up to 6 intervals of the next frame can be taken into account (ie, Q*6=384 samples).

Использование прогноза SBR иллюстрируется на фиг. 4, на которой показана последовательность кадров 401, 402, 403 звукового сигнала, с помощью различного кадрирования 400, 430 для схемы SBR или HFR. В случае кадрирования 400 схема SBR/HFR не использует гибкости, обеспечиваемой прогнозом SBR. Тем не менее, постоянный сдвиг, т.е. постоянная задержка 480 прогноза SBR используется для обеспечения использования прогноза SBR. В приведенном примере постоянный сдвиг соответствует 6 временным интервалам. В результате этого постоянного сдвига 480 метаданные 112 конкретного блока 110 доступа конкретного кадра 402 частично применимы к временным интервалам данных 111 о форме сигнала, содержащихся в блоке 110 доступа, который предшествует конкретному блоку 110 доступа (и который связан с непосредственно предшествующим кадром 401). Это иллюстрируется сдвигом между метаданными 411, 412, 413 SBR и кадрами 401, 402, 403. Следовательно, метаданные 411, 412, 413 SBR, содержащиеся в блоке 110 доступа, могут быть применимы к данным 111 о форме сигнала, которые сдвинуты на задержку 480 прогноза SBR. Метаданные 411, 412, 413 SBR применяются к данным 111 о форме сигнала для получения восстановленных кадров 421, 422, 423.The use of the SBR prediction is illustrated in FIG. 4, which shows a sequence of audio frames 401, 402, 403 using different framing 400, 430 for an SBR or HFR scheme. In the case of framing 400, the SBR/HFR scheme does not take advantage of the flexibility provided by the SBR prediction. However, a permanent shift, i.e. the constant SBR prediction delay 480 is used to ensure that the SBR prediction is used. In the example shown, the constant shift corresponds to 6 time slots. As a result of this constant shift 480, the metadata 112 of a particular access block 110 of a particular frame 402 is partially applicable to the time slots of the waveform data 111 contained in the access block 110 that precedes the particular access block 110 (and that is associated with the immediately preceding frame 401). This is illustrated by a shift between SBR metadata 411, 412, 413 and frames 401, 402, 403. Therefore, SBR metadata 411, 412, 413 contained in access block 110 can be applied to waveform data 111 that is shifted by delay 480 SBR forecast. The SBR metadata 411, 412, 413 is applied to the waveform data 111 to obtain reconstructed frames 421, 422, 423.

Кадрирование 430 использует прогноз SBR. Видно, что метаданные 431 SBR применимы более чем к 32 временным интервалам данных 111 о форме сигнала, например, ввиду возникновения переходного процесса в кадре 401. С другой стороны, метаданные 432 SBR применимы менее чем к 32 временным интервалам данных 111 о форме сигнала. Метаданные 433 SBR, в свою очередь, применимы к 32 временным интервалам. Следовательно, прогноз SBR обеспечивает гибкость в отношении временного разрешения метаданных SBR. Следует отметить, что несмотря на использование прогноза SBR и несмотря на применимость метаданных 411, 412, 413 SBR, восстановленные кадры 421, 422, 423 генерируются с помощью постоянного сдвига 480 относительно кадров 401, 402, 403.Framing 430 uses the SBR prediction. It can be seen that SBR metadata 431 is applicable to more than 32 timeslots of waveform data 111, for example, due to the occurrence of a transient in frame 401. On the other hand, SBR metadata 432 is applicable to less than 32 timeslots of waveform data 111. Metadata 433 SBR, in turn, is applicable to 32 time intervals. Therefore, the SBR prediction provides flexibility regarding the temporal resolution of the SBR metadata. It should be noted that despite the use of the SBR prediction, and despite the applicability of the SBR metadata 411, 412, 413, the reconstructed frames 421, 422, 423 are generated with a constant offset 480 relative to the frames 401, 402, 403.

Звуковой кодер может быть выполнен с возможностью определения метаданных SBR и указанных одного или более из параметров развертывания с помощью одного и того же фрагмента или элемента звукового сигнала. Следовательно, если метаданные SBR определяются с помощью прогноза SBR, указанные один или более из параметров развертывания могут определяться и могут быть применимы для одного и того же прогноза SBR. В частности, указанные один или более из параметров развертывания могут быть применимы для того же числа временных интервалов, что и соответствующие метаданные 431, 432, 433 SBR.The audio encoder may be configured to determine the SBR metadata and said one or more of the deployment parameters using the same audio fragment or element. Therefore, if the SBR metadata is determined using the SBR prediction, the specified one or more of the deployment parameters may be determined and may be applicable for the same SBR prediction. In particular, said one or more of the deployment parameters may be applicable for the same number of time slots as the corresponding SBR metadata 431, 432, 433.

Блок 301 развертывания может быть выполнен с возможностью применения одного или более из коэффициентов усиления развертывания к множеству сигналов 123 нижнего диапазона, причем указанные один или более из коэффициентов развертывания, как правило, зависят от указанных одного или более из параметров 310 развертывания. В частности, указанные один или более параметров 310 развертывания могут оказывать влияние на одно или более из правил сжатия/развертывания, которые используются для определения указанных одного или более из коэффициентов усиления развертывания. Иными словами, указанные один или более из параметров 310 развертывания могут указывать функцию сжатия, которая использована блоком сжатия соответствующего звукового кодера. Указанные один или более из параметров 310 развертывания могут позволять звуковому декодеру определять обратную функцию по отношению к этой функции сжатия.Deployer 301 may be configured to apply one or more of the sweep gains to a plurality of low band signals 123, said one or more of the sweep factors typically being dependent on said one or more of the sweep parameters 310. In particular, said one or more deployment parameters 310 may influence one or more of the compression/expansion rules that are used to determine said one or more of the deployment gains. In other words, said one or more of the deployment parameters 310 may indicate the compression function that is used by the compression unit of the respective audio encoder. Said one or more of the deployment parameters 310 may allow an audio decoder to define an inverse function with respect to this compression function.

Указанные один или более из параметров 310 развертывания могут включать в себя первый параметр развертывания, указывающий сжал ли соответствующий звуковой кодер множество сигналов нижнего диапазона. Если сжатие не применялось, то развертывание звуковым декодером применяться не будет. В этой связи, первый параметр развертывания может использоваться для включения или выключения возможности компандирования.Said one or more of the deployment parameters 310 may include a first deployment parameter indicating whether the corresponding audio encoder has compressed the plurality of low band signals. If no compression has been applied, no expansion by the audio decoder will be applied. In this regard, the first deployment option can be used to enable or disable the companding capability.

В качестве альтернативы или помимо этого, указанные один или более из параметров 310 развертывания могут включать в себя второй параметр развертывания, указывающий должны ли применяться одинаковые один или более из коэффициентов усиления развертывания ко всем каналам многоканального звукового сигнала. В этой связи, второй параметр развертывания может переключать возможность компандирования между применением на канал и применением на множество каналов.Alternatively or in addition, said one or more of the spreading parameters 310 may include a second spreading parameter indicating whether the same one or more of the spreading gains should be applied to all channels of the multi-channel audio signal. In this regard, the second deployment parameter may switch the companding capability between per-channel application and multi-channel application.

В качестве альтернативы или помимо этого, указанные один или более из параметров 310 развертывания могут включать в себя третий параметр развертывания, указывающий применять ли одинаковые один или более из коэффициентов усиления развертывания для всех временных интервалов кадра. В этой связи, третий параметр развертывания может использоваться для управления временным разрешением возможности компандирования.Alternatively or in addition, said one or more of the spreading parameters 310 may include a third spreading parameter indicating whether to apply the same one or more of the spreading gains for all time slots of the frame. In this regard, the third deployment parameter can be used to control the temporal resolution of the companding opportunity.

Используя указанные один или более из параметров 310 развертывания, блок 301 развертывания может определять множество развернутых сигналов нижнего диапазона путем применения обратной функции по отношению к функции сжатия, применяемой в соответствующем звуковом кодере. Функция сжатия, которая применена в соответствующем звуковом кодере, сообщается в звуковой декодер 300 с помощью указанных одного или более из параметров 310 развертывания.Using said one or more of the expander parameters 310, the expander 301 can determine the plurality of deployed low band signals by applying an inverse function to the compression function applied in the corresponding audio encoder. The compression function that is applied in the corresponding audio encoder is reported to the audio decoder 300 using the specified one or more of the deployment parameters 310.

Блок 301 развертывания может быть установлен после блока 104 задержки прогноза. Это гарантирует, что указанные один или более из параметров 310 развертывания применяются к надлежащему элементу множества сигналов 123 нижнего диапазона. В частности, это гарантирует, что указанные один или более из параметров 310 развертывания применяются к тому же элементу множества сигналов 123 нижнего диапазона, что и параметры SBR (в блоке 106 применения SBR). В этой связи, гарантируется, что развертывание работает с тем же временным кадрированием 400, 430, что и схема SBR. Ввиду прогноза SBR, кадрирование 400, 430 может включать в себя переменное число временных интервалов, и вследствие этого развертывание может работать с переменным числом временных интервалов (как изложено применительно к фиг. 4). Благодаря установке блока 301 развертывания после блока 104 задержки прогноза гарантируется, что надлежащее кадрирование 400, 430 применяется к указанным одному или более из параметров развертывания. В результате этого может обеспечиваться высококачественный звуковой сигнал, даже после точки соединения.Deployment block 301 may be installed after prediction delay block 104 . This ensures that the specified one or more of the deployment parameters 310 are applied to the correct element of the set of low band signals 123 . In particular, this ensures that said one or more of the deployment parameters 310 are applied to the same member of the low band signal set 123 as the SBR parameters (at SBR application block 106). In this regard, the deployment is guaranteed to operate with the same temporal framing 400, 430 as the SBR scheme. In view of the SBR prediction, the framing 400, 430 may include a variable number of slots, and as a result, the deployment may operate with a variable number of slots (as described with respect to FIG. 4). By placing the expander 301 after the prediction delay 104, it is ensured that the proper framing 400, 430 is applied to the specified one or more of the deployment parameters. As a result, a high quality audio signal can be provided even after the connection point.

На фиг. 3b изображен фрагмент звукового кодера 350, содержащего блок 351 сжатия. Звуковой кодер 350 может содержать компоненты звукового кодера 250 на фиг. 2b. Блок 351 сжатия может быть выполнен с возможностью сжатия (например, уменьшения динамического диапазона) множества сигналов нижнего диапазона с помощью функции сжатия. Кроме того, блок 351 сжатия может быть выполнен с возможностью определения одного или более из параметров 310 развертывания, которые указывают функцию сжатия, использованной блоком 351 сжатия, для обеспечения применения соответствующим блоком 301 развертывания звукового декодера 300 обратной функции по отношению к функции сжатия.In FIG. 3b shows a fragment of an audio encoder 350 containing a despreader 351. Audio encoder 350 may include components of audio encoder 250 in FIG. 2b. The compressor 351 may be configured to compress (eg, reduce dynamic range) a plurality of lower band signals with a compression function. In addition, the despreader 351 may be configured to determine one or more of the expander parameters 310 that indicate the compression function used by the despreader 351 to cause the corresponding expander 301 of the audio decoder 300 to apply an inverse function to the compression function.

Сжатие множества сигналов нижнего диапазона может выполняться после прогноза 258 SBR. Кроме того, звуковой кодер 350 может содержать блок 353 кадрирования SBR, который выполнен с возможностью обеспечения определения метаданных SBR для того же элемента звукового сигнала, что и указанные один или более из параметров 310 развертывания. Иными словами, блок 353 кадрирования SBR может обеспечивать работу схемы SBR с тем же кадрированием 400, 430, что и схема компандирования. Ввиду того, что схема SBR может работать с расширенными кадрами (например, в случае переходных процессов), схема компандирования может также работать с расширенными кадрами (содержащими дополнительные временные интервалы).The compression of the plurality of low band signals may be performed after the SBR prediction 258 . In addition, the audio encoder 350 may include an SBR framer 353 that is configured to provide an SBR metadata definition for the same audio element as specified one or more of the deployment parameters 310. In other words, the SBR framing unit 353 may operate the SBR scheme with the same framing 400, 430 as the companding scheme. Since the SBR scheme can operate on extended frames (eg, in the case of transients), the companding scheme may also operate on extended frames (containing additional time slots).

В настоящем документе описаны звуковой кодер и соответствующий звуковой декодер, которые обеспечивают кодирование звукового сигнала в последовательность выровненных во времени AU, содержащих данные о форме сигнала и метаданные, связанные с последовательностью сегментов звукового сигнала соответственно. Использование выровненных во времени AU обеспечивает соединение потоков данных с уменьшенными артефактами в точках соединения. Кроме того, звуковой кодер и звуковой декодер выполнены таким образом, что соединяемые потоки данных обрабатываются вычислительно эффективным образом, и таким образом, что полная задержка кодирования остается малой.This document describes an audio encoder and a corresponding audio decoder that encodes an audio signal into a sequence of time-aligned AUs containing waveform data and metadata associated with a sequence of audio segments, respectively. The use of time-aligned AUs ensures the connection of data streams with reduced artifacts at the connection points. In addition, the audio encoder and the audio decoder are designed such that the data streams to be connected are processed in a computationally efficient manner and such that the overall encoding delay remains small.

Способы и системы, описываемые в настоящем документе, могут быть реализованы в виде программных средств, микропрограммных средств и/или аппаратных средств. Некоторые компоненты могут, например, быть реализованы в виде программных средств, выполняемых в цифровом процессоре сигналов или микропроцессоре. Другие компоненты могут, например, быть реализованы в виде аппаратных средств и/или в виде специализированных интегральных схем. Сигналы, встречающиеся в описываемых способах и системах, могут храниться в таких средах, как оперативное запоминающее устройство или оптические среды хранения. Они могут передаваться посредством сетей, таких как сети радиосвязи, спутниковые сети связи, беспроводные сети или проводные сети, например, Интернет. Типичными устройствами, использующими способы и системы, описываемые в настоящем документе, являются переносные электронные устройства или иная бытовая аппаратура, которые используются для хранения и/или воспроизведения звуковых сигналов.The methods and systems described herein may be implemented in software, firmware, and/or hardware. Some components may, for example, be implemented as software running on a digital signal processor or microprocessor. Other components may, for example, be implemented in hardware and/or as ASICs. The signals encountered in the described methods and systems may be stored in media such as random access memory or optical storage media. They may be transmitted over networks such as radio networks, satellite networks, wireless networks, or wired networks such as the Internet. Typical devices using the methods and systems described herein are portable electronic devices or other consumer equipment that are used to store and/or reproduce audio signals.

Claims

1. An audio decoder configured to determine a reconstructed audio frame from an access block of a received data stream; wherein the access block contains waveform data and metadata; wherein the waveform data and metadata are associated with the same reconstructed audio frame; wherein the audio decoder contains

a waveform processing path configured to generate a plurality of subband waveforms from the waveform data;

- a metadata processing path configured to generate decoded metadata from the metadata; and

- a metadata application and synthesis unit configured to generate a reconstructed audio signal frame from the plurality of subband waveforms and from the decoded metadata;

wherein the waveform processing path includes at least one waveform delay block configured to apply a waveform delay to a waveform that is represented in the time domain, and/or the metadata processing path includes at least one metadata delay block, wherein the waveform delay block and/or the metadata delay block are configured to time-match the plurality of subband waveforms and decoded metadata, and wherein said at least one analysis block is configured to include a constant delay that is independent of length N of the reconstructed frame of the audio signal.

2. The audio decoder according to claim 1, wherein the constant delay introduced by the analysis unit corresponds to 320 audio samples.

3. The audio decoder of claim 1, wherein the total delay of the metadata processing path depends on one of: an encoded bitstream or a predetermined prediction between metadata and waveform data.

4. The audio decoder of claim 1, wherein the waveform delay block and/or the metadata delay block are configured to timing the plurality of subband waveforms and the decoded metadata such that the total delay of the waveform processing path corresponds to the total delay of the metadata processing path.

5. The audio decoder of claim 1, wherein the waveform delay block and/or the metadata delay block are configured to time-align the plurality of subband waveforms and decoded metadata such that the plurality of subband waveforms and decoded metadata are output for processing by the block. application and synthesis of metadata.

6. Method for determining the restored frame of the audio signal by the access block of the received data stream; wherein the access block contains waveform data and metadata; wherein the waveform data and metadata are associated with the same reconstructed audio frame; wherein the method includes

- generating a plurality of subband waveforms from the waveform data;

- generating decoded metadata from metadata;

- timing of multiple forms of subband signals and decoded metadata; and

- generating a reconstructed audio frame from a time-consistent set of sub-band waveforms and decoded metadata;

wherein generating the plurality of subband waveforms from the waveform data comprises applying a waveform delay to a waveform that is represented in the time domain and including a constant delay that is independent of the length N of the reconstructed audio frame.

7. A storage medium configured to perform the method of claim 6 when executed by the processor.