RU2823441C2

RU2823441C2 - Method and apparatus for compressing and reconstructing higher-order ambisonic system representation for sound field

Info

Publication number: RU2823441C2
Application number: RU2021104517A
Authority: RU
Inventors: Александр КРЮГЕР; Свен КОРДОН; Йоханнес БЕМ
Original assignee: Долби Интернэшнл Аб
Priority date: 2012-12-12
Filing date: 2021-02-24
Publication date: 2024-07-23

Abstract

FIELD: physics.

SUBSTANCE: invention relates to a method and an apparatus for compressing and reconstructing a higher-order Ambisonic system representation for a sound field. HOA representation is analysed for the presence of dominant sound sources and their directions are evaluated. HOA representation is then decomposed into a number of dominant directional signals and a residual component. This residual component is transformed into a discrete spatial domain in order to obtain functions of common plane waves in uniform directions of sampling, which are predicted from dominant directional signals. Finally, the prediction error is converted back to the HOA region and represents a residual surrounding HOA component for which order reduction is performed, followed by perceptual coding of the dominant directional signals and the residual component.

EFFECT: invention improves the HOA sound field representation compression.

2 cl, 8 dwg

Description

Изобретение относится к способу и к устройству для сжатия и восстановления представления системы Амбисоник высшего порядка для звукового поля.The invention relates to a method and apparatus for compressing and restoring a higher order Ambisonics system representation for a sound field.

Уровень техникиState of the art

Система Амбисоник высшего порядка, обозначаемая HOA, предлагает один способ представления трехмерного звука. Другими способами являются синтез волнового поля (WFS) или основанные на каналах способы, как, например, 22.2. В отличие от основанных на каналах способов, представление HOA предлагает преимущество, что оно является независимым от конкретной системы громкоговорителей. Эта гибкость, однако, обеспечивается за счет обработки декодирования, которая требуется для проигрывания представления HOA на конкретной системе громкоговорителей. По сравнению с подходом WFS, где количество требуемых громкоговорителей является обычно очень большим, HOA также может воспроизводиться на системах, состоящих только из нескольких громкоговорителей. Дополнительное преимущество HOA состоит в том, что одно и то же представление также может использоваться без какой-либо модификации для бинаурального воспроизведения в наушниках.The Higher Order Ambisonics system, referred to as HOA, offers one way to represent three-dimensional sound. Other methods are wavefield synthesis (WFS) or channel-based methods, such as 22.2. Unlike channel-based methods, the HOA representation offers the advantage that it is independent of the specific speaker system. This flexibility, however, comes at the expense of the decoding processing that is required to play the HOA representation on a particular speaker system. Compared to the WFS approach, where the number of loudspeakers required is usually very large, HOA can also be played on systems consisting of only a few loudspeakers. An additional advantage of HOA is that the same representation can also be used without any modification for binaural playback on headphones.

HOA основывается на представлении пространственной плотности комплексных амплитуд гармонических плоских волн посредством усеченного разложения по сферическим гармоникам (SH). Каждый коэффициент разложения является функцией угловой частоты, который может быть эквивалентным образом представлен посредством функции временной области. Следовательно, без потери общности, может предполагаться, что полное представление звукового поля HOA фактически состоит из функций временной области, где обозначает количество коэффициентов разложения. Эти функции временной области в последующем будут эквивалентным образом упоминаться как последовательности коэффициентов HOA.HOA is based on the representation of the spatial density of complex amplitudes of harmonic plane waves through a truncated spherical harmonic (SH) expansion. Each expansion coefficient is a function of angular frequency, which can be equivalently represented by a time domain function. Therefore, without loss of generality, it can be assumed that the complete HOA sound field representation actually consists of time domain functions, where denotes the number of expansion coefficients. These time domain functions will be equivalently referred to as sequences of HOA coefficients in the following.

Пространственное разрешение представления HOA улучшается с ростом максимального порядка разложения. К сожалению, количество коэффициентов разложения растет квадратично с порядком , в частности, . Например, обычные представления HOA, использующие порядок , требуют коэффициентов (разложения) HOA. Согласно вышеизложенным рассмотрениям, полный битрейт (частота следования битов) для передачи представления HOA, при заданных требуемой одноканальной частоте дискретизации и количестве бит в расчете на выборку, определяется посредством . Передача представления HOA порядка с частотой дискретизации = 48 кГц с использованием бит в расчете на выборку дает результатом битрейт, равный 19.2 Мбит/с, что является очень высоким для многих практических применений, например, потоковой передачи. Поэтому сжатие представлений HOA является в высшей степени предпочтительным.Spatial resolution of HOA representation improves with increasing maximum order decomposition. Unfortunately, the number of expansion coefficients increases quadratically with order , in particular, . For example, regular HOA views using the order , require coefficients (expansion) of HOA. According to the above considerations, the total bitrate (bit rate) for transmitting the HOA representation, given the required single-channel sampling rate and number of bits per sample, determined by . Passing the HOA view of the order with sampling rate = 48 kHz using bits per sample results in a bitrate of 19.2 Mbps, which is very high for many practical applications such as streaming. Therefore, compression of HOA representations is highly preferable.

ИзобретениеInvention

Существующие способы, обращающиеся к сжатию представлений HOA (с ), являются достаточно редкими. Наиболее прямой подход, которому следуют в E. Hellerud, I. Burnett, A Solvang and U.P. Svensson, "Encoding Higher Order Ambisonics with AAC", 124^th AES Convention, Amsterdam, 2008, состоит в том, чтобы выполнять прямое кодирование индивидуальных последовательностей коэффициентов HOA с использованием улучшенного кодирования аудио (AAC), которое является алгоритмом перцепционного кодирования. Однако присущей проблемой для этого подхода является перцепционное кодирование сигналов, которые никогда не прослушиваются. Реконструированные сигналы проигрывания обычно получаются посредством взвешенной суммы последовательностей коэффициентов HOA, и имеется высокая вероятность для размаскирования шума перцепционного кодирования, когда восстановленное представление HOA воспроизводится на конкретной системе громкоговорителей. Большой проблемой для размаскирования шума перцепционного кодирования являются высокие взаимные корреляции между индивидуальными последовательностями коэффициентов HOA. Так как сигналы шума кодирования в индивидуальных последовательностях коэффициентов HOA являются обычно некоррелированными друг с другом, может происходить конструктивная суперпозиция шума перцепционного кодирования при том, что в то же время свободные от шума последовательности коэффициентов HOA удаляются при суперпозиции. Дополнительная проблема состоит в том, что эти взаимные корреляции ведут к уменьшенной эффективности перцепционных кодеров.Existing methods that address compression of HOA representations (with ), are quite rare. The most direct approach, followed in E. Hellerud, I. Burnett, A Solvang and UP Svensson, "Encoding Higher Order Ambisonics with AAC", ^124th AES Convention, Amsterdam, 2008, is to directly encode the individual coefficient sequences HOA using Advanced Audio Coding (AAC), which is a perceptual coding algorithm. However, an inherent problem with this approach is the perceptual encoding of signals that are never heard. Reconstructed playback signals are typically obtained by a weighted sum of HOA coefficient sequences, and there is a high likelihood of unmasking perceptual encoding noise when the reconstructed HOA representation is played back on a particular speaker system. A major challenge to unmasking perceptual encoding noise is the high cross-correlations between individual sequences of HOA coefficients. Since the encoding noise signals in individual HOA coefficient sequences are generally uncorrelated with each other, constructive superposition of the perceptual encoding noise can occur while at the same time noise-free HOA coefficient sequences are removed by the superposition. An additional problem is that these cross-correlations lead to reduced efficiency of perceptual coders.

Чтобы минимизировать степень обоих эффектов, в EP 2469742 A2 предложено преобразовывать представление HOA в эквивалентное представление в дискретной пространственной области до перцепционного кодирования. Формально, эта дискретная пространственная область является эквивалентом временной области пространственной плотности комплексных амплитуд гармонических плоских волн, дискретизированной в некоторых дискретных направлениях. Дискретная пространственная область, таким образом, представляется посредством стандартных сигналов временной области, которые могут интерпретироваться как общие плоские волны, сталкивающиеся из направлений дискретизации, и соответствуют сигналам громкоговорителей, если громкоговорители расположены в точности в таких же направлениях, что и направления, предполагаемые для преобразования пространственной области.To minimize the extent of both effects, EP 2469742 A2 proposes to transform the HOA representation into an equivalent discrete spatial domain representation prior to perceptual encoding. Formally, this discrete spatial domain is the equivalent of the time domain of the spatial density of the complex amplitudes of harmonic plane waves, sampled in some discrete directions. The discrete spatial domain is thus represented by standard time-domain signals, which can be interpreted as general plane waves colliding from the sampling directions, and correspond to loudspeaker signals if the loudspeakers are located in exactly the same directions as the directions assumed for the spatial domain transform.

Преобразование в дискретную пространственную область уменьшает взаимные корреляции между индивидуальными сигналами пространственной области, но эти взаимные корреляции полностью не устраняются. Примером для относительно высоких взаимных корреляций является направленный сигнал, чье направление попадает между смежными направлениями, охватываемыми сигналами пространственной области.Conversion to a discrete spatial domain reduces cross-correlations between individual spatial-domain signals, but these cross-correlations are not completely eliminated. An example for relatively high cross-correlations is a directional signal whose direction falls between adjacent directions covered by the spatial domain signals.

Основной недостаток обоих подходов состоит в том, что количество перцепционно кодированных сигналов равняется , и скорость данных для сжатого представления HOA растет квадратично с порядком системы Амбисоник .The main disadvantage of both approaches is that the number of perceptually encoded signals is equal to , and the data rate for the compressed HOA representation grows quadratically with the order of the Ambisonics system .

Чтобы уменьшать количество перцепционно кодированных сигналов, патентная заявка EP 2665208 A1 предлагает разложение представления HOA на заданное максимальное количество доминирующих направленных сигналов и остаточную окружающую компоненту. Уменьшение количества сигналов, подлежащих перцепционному кодированию, достигается посредством уменьшения порядка остаточной окружающей компоненты. Логическое обоснование за этим подходом состоит в том, чтобы сохранять высокое пространственное разрешение по отношению к доминирующим направленным сигналам при представлении остатка с достаточной точностью посредством представления HOA более низкого порядка.To reduce the number of perceptually encoded signals, patent application EP 2665208 A1 proposes a decomposition of the HOA representation into a given maximum number of dominant directional signals and a residual surround component. Reducing the number of signals to be perceptually encoded is achieved by reducing the order of the residual ambient component. The rationale behind this approach is to maintain high spatial resolution with respect to the dominant directional signals while representing the residual with sufficient accuracy through a lower order HOA representation.

Этот подход работает достаточно хорошо до тех пор, пока предположения о звуковом поле удовлетворяются, т.е. что оно состоит из малого количества доминирующих направленных сигналов (представляющих функции общих плоских волн, кодированные с использованием полного порядка N) и остаточной окружающей компоненты без какой-либо направленности. Однако, если последующее разложение остаточной окружающей компоненты все еще содержит некоторые доминирующие направленные компоненты, уменьшение порядка вызывает ошибки, которые воспринимаются различным образом при воспроизведении после восстановления. Обычными примерами представлений HOA, где предположения нарушаются, являются общие плоские волны, кодированные в порядке, более низком, чем N. Такие общие плоские волны порядка, более низкого, чем N, могут проистекать из авторского создания, чтобы делать, чтобы источники звука проявлялись более широко, и также могут происходить при записи представлений звукового поля HOA посредством сферических микрофонов. В обоих примерах звуковое поле представляется посредством большого количества высоко коррелированных сигналов пространственной области (см. также раздел Пространственное разрешение системы Амбисоник высшего порядка для объяснения).This approach works quite well as long as the sound field assumptions are satisfied, i.e. that it consists of a small number of dominant directional signals (representing general plane wave functions encoded using full order N) and a residual ambient component without any directionality. However, if the subsequent decomposition of the residual ambient component still contains some dominant directional components, the order reduction causes errors that are perceived differently when reproduced after reconstruction. Common examples of HOA representations where the assumptions are violated are general plane waves encoded in order lower than N. Such general plane waves of order lower than N may stem from authoring to make sound sources appear more widely, and can also occur when recording HOA sound field presentations using spherical microphones. In both examples, the sound field is represented by a large number of highly correlated spatial domain signals (see also Ambisonics Higher Order Spatial Resolution for an explanation).

Проблема, подлежащая решению посредством изобретения, состоит в том, чтобы устранить недостатки, результирующие из обработки, описанной в патентной заявке EP 2665208 A1, чтобы, тем самым, также избежать вышеописанных недостатков другого процитированного предшествующего уровня техники.The problem to be solved by the invention is to overcome the disadvantages resulting from the processing described in patent application EP 2665208 A1, thereby also avoiding the above-described disadvantages of the other cited prior art.

Эта проблема решается посредством способов, раскрытых в пунктах 1 и 3. Соответствующие устройства, которые используют эти способы, раскрыты в пунктах 2 и 4.This problem is solved by the methods disclosed in claims 1 and 3. Corresponding devices that use these methods are disclosed in claims 2 and 4.

Изобретение улучшает обработку сжатия представления звукового поля HOA, описанную в патентной заявке EP 2665208 A1. Сначала, как и в EP 2665208 A1, представление HOA анализируется на присутствие доминирующих источников звука, чьи направления оцениваются. Со знанием направлений доминирующих источников звука, представление HOA разлагается на некоторое количество доминирующих направленных сигналов, представляющих общие плоские волны, и остаточную компоненту. Однако вместо немедленного уменьшения порядка этой остаточной компоненты HOA, она преобразуется в дискретную пространственную область, чтобы получать функции общих плоских волн в равномерных направлениях дискретизации, представляющие остаточную компоненту HOA. После этого эти функции плоских волн предсказываются из доминирующих направленных сигналов. Причина для этой операции состоит в том, что части остаточной компоненты HOA могут быть высоко коррелированными с доминирующими направленными сигналами.The invention improves on the HOA sound field representation compression processing described in patent application EP 2665208 A1. First, as in EP 2665208 A1, the HOA representation is analyzed for the presence of dominant sound sources, whose directions are evaluated. With knowledge of the directions of the dominant sound sources, the HOA representation is decomposed into a number of dominant directional signals representing common plane waves, and a residual component. However, instead of immediately reducing the order of this HOA residual component, it is converted to a discrete spatial domain to obtain common plane wave functions in uniform sampling directions representing the HOA residual component. These plane wave functions are then predicted from the dominant directional signals. The reason for this operation is that parts of the residual HOA component may be highly correlated with the dominant directional signals.

Это предсказание может быть простым предсказанием, чтобы вырабатывать только малую величину дополнительной (побочной) информации. В наиболее простом случае предсказание состоит из соответствующего масштабирования и задержки. В заключение ошибка предсказания преобразуется назад в область HOA и рассматривается как остаточная окружающая компонента HOA, для которой выполняется уменьшение порядка. Предпочтительно, эффект вычитания предсказуемых сигналов из остаточной компоненты HOA состоит в том, чтобы уменьшать ее полную мощность также как оставшуюся величину доминирующих направленных сигналов и, этим способом, уменьшать ошибку разложения, результирующую из уменьшения порядка.This prediction may be a simple prediction to produce only a small amount of additional (side) information. In the simplest case, prediction consists of appropriate scaling and delay. Finally, the prediction error is converted back to the HOA region and treated as a residual ambient HOA component for which order reduction is performed. Preferably, the effect of subtracting predictive signals from the residual HOA component is to reduce its total power as well as the remaining magnitude of the dominant directional signals and, in this way, reduce the decomposition error resulting from the reduction in order.

В принципе, новый способ сжатия подходит для сжатия представления системы Амбисоник высшего порядка, обозначаемой HOA, для звукового поля, при этом упомянутый способ включает в себя этапы:In principle, the new compression method is suitable for compressing a higher order Ambisonics representation, denoted HOA, to a sound field, the method comprising the steps:

- из текущего временного кадра коэффициентов HOA, оценку направлений доминирующих источников звука;- from the current time frame of HOA coefficients, estimation of the directions of the dominant sound sources;

- в зависимости от упомянутых коэффициентов HOA и от упомянутых направлений доминирующих источников звука, разложение упомянутого представления HOA на доминирующие направленные сигналы во временной области и остаточную компоненту HOA, при этом упомянутая остаточная компонента HOA преобразуется в дискретную пространственную область, чтобы получать функции плоских волн в равномерных направлениях дискретизации, представляющие упомянутую остаточную компоненту HOA, и при этом упомянутые функции плоских волн предсказываются из упомянутых доминирующих направленных сигналов, тем самым, обеспечивая параметры, описывающие упомянутое предсказание, и соответствующая ошибка предсказания преобразуется назад в область HOA;- depending on said HOA coefficients and on said directions of dominant sound sources, decomposing said HOA representation into dominant directional signals in the time domain and a residual HOA component, wherein said residual HOA component is converted into a discrete spatial domain to obtain plane wave functions in uniform sampling directions representing said HOA residual component, and wherein said plane wave functions are predicted from said dominant directional signals, thereby providing parameters describing said prediction, and the corresponding prediction error is converted back to the HOA domain;

- уменьшение текущего порядка упомянутой остаточной компоненты HOA до более низкого порядка, что дает результатом остаточную компоненту HOA уменьшенного порядка;- reducing the current order of said residual HOA component to a lower order, resulting in a reduced order residual HOA component;

- декоррелирование упомянутой остаточной компоненты HOA уменьшенного порядка, чтобы получать соответствующие сигналы временной области остаточной компоненты HOA;- decorrelating said reduced order HOA residual component to obtain corresponding time domain signals of the HOA residual component;

- перцепционное кодирование упомянутых доминирующих направленных сигналов и упомянутых сигналов временной области остаточной компоненты HOA, чтобы обеспечивать сжатые доминирующие направленные сигналы и сжатые сигналы остаточной компоненты.- perceptual encoding of said dominant directional signals and said HOA residual component time domain signals to provide compressed dominant directional signals and compressed residual component signals.

В принципе новое устройство сжатия является подходящим для сжатия представления системы Амбисоник высшего порядка, обозначаемой HOA, для звукового поля, при этом упомянутое устройство включает в себя:In principle, a new compression device is suitable for compressing a higher order Ambisonics representation, referred to as HOA, to a sound field, said device including:

- средство, которое выполнено с возможностью оценки направлений доминирующих источников звука из текущего временного кадра коэффициентов HOA;- means that is configured to estimate the directions of the dominant sound sources from the current time frame of the HOA coefficients;

- средство, которое выполнено с возможностью разложения, в зависимости от упомянутых коэффициентов HOA и от упомянутых направлений доминирующих источников звука, упомянутого представления HOA на доминирующие направленные сигналы во временной области и остаточную компоненту HOA, при этом упомянутая остаточная компонента HOA преобразуется в дискретную пространственную область, чтобы получать функции плоских волн в равномерных направлениях дискретизации, представляющие упомянутую остаточную компоненту HOA, и при этом упомянутые функции плоских волн предсказываются из упомянутых доминирующих направленных сигналов, тем самым, обеспечивая параметры, описывающие упомянутое предсказание, и соответствующая ошибка предсказания преобразуется назад в область HOA;- means that is configured to decompose, depending on said HOA coefficients and on said directions of dominant sound sources, said HOA representation into dominant directional signals in the time domain and a residual HOA component, wherein said residual HOA component is converted into a discrete spatial domain, to obtain plane wave functions in uniform sampling directions representing said HOA residual component, and wherein said plane wave functions are predicted from said dominant directional signals, thereby providing parameters describing said prediction, and the corresponding prediction error is converted back to the HOA domain;

- средство, которое выполнено с возможностью уменьшения текущего порядка упомянутой остаточной компоненты HOA до более низкого порядка, что дает результатом остаточную компоненту HOA уменьшенного порядка;- means that is configured to reduce the current order of said residual HOA component to a lower order, resulting in a reduced order residual HOA component;

- средство, которое выполнено с возможностью декоррелирования упомянутой остаточной компоненты HOA уменьшенного порядка, чтобы получать соответствующие сигналы временной области остаточной компоненты HOA;- means that is configured to decorrelate said reduced-order HOA residual component to obtain corresponding time domain signals of the HOA residual component;

- средство, которое выполнено с возможностью перцепционного кодирования упомянутых доминирующих направленных сигналов и упомянутых сигналов временной области остаточной компоненты HOA, чтобы обеспечивать сжатые доминирующие направленные сигналы и сжатые сигналы остаточной компоненты.- means that is configured to perceptually encode said dominant directional signals and said HOA residual component time domain signals to provide compressed dominant directional signals and compressed residual component signals.

В принципе, новый способ восстановления является подходящим для восстановления представления системы Амбисоник высшего порядка, сжатого согласно вышеописанному способу сжатия, при этом упомянутый способ восстановления включает в себя этапы:In principle, the new recovery method is suitable for recovering a higher order Ambisonics representation compressed according to the compression method described above, wherein said recovery method includes the steps:

- перцепционное декодирование упомянутых сжатых доминирующих направленных сигналов и упомянутых сжатых сигналов остаточной компоненты, чтобы обеспечивать восстановленные доминирующие направленные сигналы и восстановленные сигналы временной области, представляющие остаточную компоненту HOA в пространственной области;- perceptually decoding said compressed dominant directional signals and said compressed residual component signals to provide reconstructed dominant directional signals and reconstructed time domain signals representing the residual HOA component in the spatial domain;

- повторную корреляцию упомянутых восстановленных сигналов временной области, чтобы получать соответствующую остаточную компоненту HOA уменьшенного порядка;- re-correlating said reconstructed time domain signals to obtain a corresponding reduced order residual HOA component;

- увеличение порядка упомянутой остаточной компоненты HOA уменьшенного порядка до исходного порядка, чтобы обеспечивать соответствующую восстановленную остаточную компоненту HOA;- increasing the order of said reduced-order residual HOA component to the original order to provide a corresponding reduced residual HOA component;

- с использованием упомянутых восстановленных доминирующих направленных сигналов, упомянутой восстановленной остаточной компоненты HOA исходного порядка, упомянутых оцененных направлений доминирующих источников звука, и упомянутых параметров, описывающих упомянутое предсказание, конструирование соответствующего восстановленного и реконструированного кадра коэффициентов HOA.- using said recovered dominant directional signals, said recovered residual HOA component of the original order, said estimated directions of dominant sound sources, and said parameters describing said prediction, constructing a corresponding recovered and reconstructed frame of HOA coefficients.

В принципе новое устройство восстановления является подходящим для восстановления представления системы Амбисоник высшего порядка, сжатого согласно вышеописанному способу сжатия, при этом упомянутое устройство восстановления включает в себя:In principle, the new recovery device is suitable for recovering a higher order Ambisonics representation compressed according to the compression method described above, said recovery device including:

- средство, которое выполнено с возможностью перцепционного декодирования упомянутых сжатых доминирующих направленных сигналов и упомянутых сжатых сигналов остаточной компоненты, чтобы обеспечивать восстановленные доминирующие направленные сигналы и восстановленные сигналы временной области, представляющие остаточную компоненту HOA в пространственной области;- means that is configured to perceptually decode said compressed dominant directional signals and said compressed residual component signals to provide reconstructed dominant directional signals and reconstructed time domain signals representing the residual HOA component in the spatial domain;

- средство, которое выполнено с возможностью повторной корреляции упомянутых восстановленных сигналов временной области, чтобы получать соответствующую остаточную компоненту HOA уменьшенного порядка;- means that is configured to re-correlate said reconstructed time domain signals to obtain a corresponding reduced order residual HOA component;

- средство, которое выполнено с возможностью увеличения порядка упомянутой остаточной компоненты HOA уменьшенного порядка до исходного порядка, чтобы обеспечивать соответствующую восстановленную остаточную компоненту HOA;- means that is configured to increase the order of said residual HOA component of the reduced order to the original order to provide a corresponding restored residual HOA component;

- средство, которое выполнено с возможностью конструирования соответствующего восстановленного и реконструированного кадра коэффициентов HOA посредством использования упомянутых восстановленных доминирующих направленных сигналов, упомянутой восстановленной остаточной компоненты HOA исходного порядка, упомянутых оцененных направлений доминирующих источников звука, и упомянутых параметров, описывающих упомянутое предсказание.- means that is configured to construct a corresponding recovered and reconstructed frame of HOA coefficients by using said reconstructed dominant directional signals, said reconstructed residual HOA component of the original order, said estimated directions of dominant sound sources, and said parameters describing said prediction.

Предпочтительные дополнительные варианты осуществления изобретения раскрыты в соответствующих зависимых пунктах формулы изобретения.Preferred further embodiments of the invention are disclosed in the respective dependent claims.

ЧертежиBlueprints

Иллюстративные варианты осуществления изобретения описаны со ссылкой на сопровождающие чертежи, которые показывают:Exemplary embodiments of the invention are described with reference to the accompanying drawings, which show:

Фиг. 1a - этап 1 сжатия: разложение сигнала HOA на некоторое количество доминирующих направленных сигналов, остаточную окружающую компоненту HOA и дополнительную информацию;Fig. 1a - compression stage 1: decomposition of the HOA signal into a number of dominant directional signals, a residual HOA surround component and additional information;

Фиг. 1b - этап 2 сжатия: уменьшение порядка и декоррелирование для окружающей компоненты HOA и перцепционное кодирование обоих компонент;Fig. 1b - compression stage 2: order reduction and decorrelation for the surrounding HOA component and perceptual encoding of both components;

Фиг. 2a - этап 1 восстановления: перцепционное декодирование сигналов временной области, повторная корреляция сигналов, представляющих остаточную окружающую компоненту HOA, и увеличение порядка;Fig. 2a - stage 1 recovery: perceptual decoding of time domain signals, re-correlation of signals representing the residual ambient HOA component, and order enhancement;

Фиг. 2b - этап 2 восстановления: конструирование полного представления HOA;Fig. 2b - recovery stage 2: construction of a complete HOA representation;

Фиг. 3 - разложение HOA;Fig. 3 - HOA decomposition;

Фиг. 4 - конструирование HOA;Fig. 4 - HOA design;

Фиг. 5 - сферическая система координат.Fig. 5 - spherical coordinate system.

Иллюстративные варианты осуществленияExemplary Embodiments

Обработка сжатияCompression processing

Обработка сжатия согласно изобретению включает в себя два последовательных этапа, проиллюстрированных на фиг. 1a и фиг. 1b, соответственно. Точные определения индивидуальных сигналов описаны в разделе Подробное описание разложения и реконструкции HOA. Используется по-кадровая обработка для сжатия с неперекрывающимися входными кадрами последовательностей коэффициентов HOA длины , где k обозначает индекс кадра. Кадры определяются по отношению к последовательностям коэффициентов HOA, определенным в уравнении (42) какThe compression processing according to the invention includes two successive steps illustrated in FIG. 1a and fig. 1b, respectively. The exact definitions of the individual signals are described in the section Detailed Description of HOA Decomposition and Reconstruction. Uses frame-by-frame processing for compression with non-overlapping input frames sequences of HOA coefficients of length , where k denotes the frame index. Frames are defined with respect to the sequences of HOA coefficients defined in equation (42) as

(1) (1)

где обозначает период дискретизации.Where denotes the sampling period.

На фиг. 1a, кадр последовательностей коэффициентов HOA вводится в этап или стадию 11 оценки направлений доминирующих источников звука, который анализирует представление HOA на присутствие доминирующих направленных сигналов, чьи направления оцениваются. Оценка направления может выполняться, например, посредством обработки, описанной в патентной заявке EP 2665208 A1. Оцененные направления обозначаются посредством , где обозначает максимальное количество оценок направлений. Предполагается, что они располагаются в матрице какIn fig. 1a, frame The sequences of HOA coefficients are input to a dominant sound source direction estimation step or stage 11, which analyzes the HOA representation for the presence of dominant directional signals whose directions are being estimated. The direction estimation can be performed, for example, by means of the processing described in patent application EP 2665208 A1. The assessed directions are indicated by , Where denotes the maximum number of direction ratings. They are assumed to be located in a matrix How

(2). (2).

Неявно предполагается, что оценки направлений подходящим образом упорядочены посредством назначения их оценкам направлений из предыдущих кадров. Следовательно, предполагается, что временная последовательность индивидуальной оценки направления описывает направленную траекторию доминирующего источника звука. В частности, если предполагается, что d-ый доминирующий источник звука не является активным, является возможным указать это посредством назначения недействительного значения для . Затем, используя оцененные направления в , представление HOA разлагается на этапе или стадии 12 разложения на некоторое количество максимум доминирующих направленных сигналов , некоторые параметры , описывающие предсказание сигналов пространственной области остаточной компоненты HOA из доминирующих направленных сигналов, и окружающую компоненту HOA , представляющую ошибку предсказания. Подробное описание этого разложения обеспечивается в разделе Разложение HOA.It is implicitly assumed that the direction estimates are appropriately ordered by assigning them to the direction estimates from previous frames. Therefore, the time sequence of an individual's direction estimation is assumed to describe the directional trajectory of the dominant sound source. In particular, if it is assumed that the d-th dominant sound source is not active, it is possible to indicate this by assigning an invalid value to . Then, using the estimated directions in , the HOA representation is decomposed at stage or stage 12 of decomposition into some quantity at most dominant directional signals , some parameters , describing the spatial domain signal prediction of the residual HOA component from the dominant directional signals, and the surrounding HOA component , representing the prediction error. A detailed description of this decomposition is provided in the section HOA Decomposition.

На фиг. 1b показано перцепционное кодирование направленных сигналов и остаточной окружающей компоненты HOA . Направленные сигналы являются стандартными сигналами временной области, которые могут индивидуально сжиматься с использованием любого существующего способа перцепционного сжатия. Сжатие окружающей компоненты области HOA выполняется в двух последовательных этапах или стадиях. На этапе или стадии 13 уменьшения порядка выполняется уменьшение до порядка системы Амбисоник , где, например, , что дает результатом окружающую компоненту HOA . Такое уменьшение порядка выполняется посредством удержания в только коэффициентов HOA и отбрасывания других. На стороне декодера, как описано ниже, для опущенных значений добавляются соответствующие нулевые значения.In fig. Figure 1b shows perceptual coding of directional signals. and residual ambient HOA components . Directional signals are standard time domain signals that can be individually compressed using any existing perceptual compression technique. Compressing the surrounding HOA area performed in two successive steps or stages. In step or stage 13 of order reduction, the reduction is performed to the order of the Ambisonics system , where, for example, , which results in the surrounding HOA component . This order reduction is accomplished by holding in only HOA coefficients and discarding others. On the decoder side, as described below, the corresponding zero values are added for omitted values.

Следует отметить, что, по сравнению с подходом в патентной заявке EP 2665208 A1, уменьшенный порядок может, в общем, выбираться более малым, так как полная мощность также как оставшаяся величина направленности остаточной окружающей компоненты HOA является более малой. Поэтому уменьшение порядка вызывает более малые ошибки по сравнению с EP 2665208 A1.It should be noted that, compared to the approach in patent application EP 2665208 A1, the reduced order can, in general, be selected smaller, since the total power as well as the remaining directivity value of the residual ambient HOA component is smaller. Therefore, reducing the order causes smaller errors compared to EP 2665208 A1.

На последующем этапе или стадии 14 декоррелирования, последовательности коэффициентов HOA, представляющие окружающую компоненту HOA с уменьшенным порядком, декоррелируются, чтобы получать сигналы временной области , которые вводятся в (набор из) параллельные перцепционные кодеры или модули 15 сжатия, работающие согласно любому известному способу перцепционного сжатия. Декоррелирование выполняется, чтобы избегать размаскирования шума перцепционного кодирования при воспроизведении представления HOA, следующем за его восстановлением (см. патентную заявку EP 12305860.4 для объяснения). Приблизительное декоррелирование может достигаться посредством преобразования в эквивалентных сигналов в пространственной области посредством применения сферического гармонического преобразования, как описано в EP 2469742 A2.In a subsequent stage or decorrelation stage 14, sequences of HOA coefficients representing the surrounding HOA component with reduced order, decorrelated to obtain time domain signals , which are input to (a set of) parallel perceptual encoders or compression modules 15 operating according to any known perceptual compression method. Decorrelation is performed to avoid unmasking the perceptual encoding noise when reproducing the HOA representation following its reconstruction (see patent application EP 12305860.4 for an explanation). Approximate decorrelation can be achieved by transforming V equivalent signals in the spatial domain by applying spherical harmonic transformation as described in EP 2469742 A2.

Альтернативно, может использоваться адаптивное сферическое гармоническое преобразование, как предложено в патентной заявке EP 12305861.2, где сетка направлений дискретизации вращается, чтобы достигать наилучшего возможного эффекта декоррелирования. Дополнительным альтернативным способом декоррелирования является преобразование Карунена-Лоэва (KLT), описанное в патентной заявке EP 12305860.4. Следует отметить, что для упомянутых последних двух типов декоррелирования должен обеспечиваться некоторый тип дополнительной информации, обозначенной посредством , чтобы обеспечивать возможность обращения декоррелирования на стадии восстановления HOA.Alternatively, an adaptive spherical harmonic transform can be used, as proposed in patent application EP 12305861.2, where the grid of sampling directions is rotated to achieve the best possible decorrelation effect. An additional alternative decorrelation method is the Karhunen-Loeve transform (KLT), described in patent application EP 12305860.4. It should be noted that for the latter two types of decorrelation, some type of additional information must be provided, indicated by , to allow decorrelation to be reversed during the HOA recovery stage.

В одном варианте осуществления перцепционное сжатие всех сигналов временной области и выполняется совместно, чтобы улучшать эффективность кодирования.In one embodiment, perceptual compression of all time domain signals And performed jointly to improve coding efficiency.

Вывод перцепционного кодирования является сжатыми направленными сигналами и сжатыми окружающими сигналами временной области .The output of perceptual encoding is compressed directional signals and compressed ambient time domain signals .

Обработка восстановленияRecovery Processing

Обработка восстановления показана на фиг. 2a и фиг. 2b. Подобно сжатию, она состоит из двух последовательных этапов. На фиг. 2a перцепционное восстановление направленных сигналов и сигналов временной области , представляющих остаточную окружающую компоненту HOA, выполняется на этапе или стадии 21 перцепционного декодирования или восстановления. Результирующие перцепционно восстановленные сигналы временной области повторно коррелируются на этапе или стадии 22 повторной корреляции, чтобы обеспечивать представление HOA остаточной компоненты порядка . Необязательно, повторная корреляция может выполняться обратным способом, как описано для упомянутых двух альтернативных обработок, описанных для этапа/стадии 14, с использованием переданных или сохраненных параметров в зависимости от способа декоррелирования, который использовался. После этого, из оценивается соответствующее представление HOA порядка на этапе или стадии 23 увеличения порядка посредством увеличения порядка. Увеличение порядка достигается посредством добавления соответствующих строк 'нулевых значений' к , тем самым предполагается, что коэффициенты HOA по отношению к более высоким порядкам имеют нулевые значения.The recovery processing is shown in FIG. 2a and fig. 2b. Like compression, it consists of two successive stages. In fig. 2a perceptual recovery of directional signals and time domain signals , representing the residual ambient HOA component, is performed in a perceptual decoding or reconstruction step or stage 21. Resulting perceptually reconstructed time domain signals re-correlated in a re-correlation step or stage 22 to provide an HOA representation of the residual component order . Optionally, re-correlation may be performed in the reverse manner as described for the two alternative treatments described for step/step 14 using passed or stored parameters depending on the decorrelation method used. After this, from the appropriate HOA submission is evaluated order in a step or step 23 of increasing the order by increasing the order. Increasing the order is achieved by adding corresponding rows of 'null values' to , thus it is assumed that the HOA coefficients with respect to higher orders have zero values.

На фиг. 2b, полное представление HOA реконструируется на этапе или стадии 24 конструирования из восстановленных доминирующих направленных сигналов вместе с соответствующими направлениями и параметрами предсказания , также как из остаточной окружающей компоненты HOA , что дает результатом восстановленный и реконструированный кадр коэффициентов HOA.In fig. 2b, a complete HOA representation is reconstructed in the construction step or stage 24 from the reconstructed dominant directional signals. along with relevant directions and prediction parameters , as well as from the residual ambient HOA component , which results in a restored and reconstructed frame HOA coefficients.

В случае, когда перцепционное сжатие всех сигналов временной области и выполняется совместно, чтобы улучшать эффективность кодирования, перцепционное восстановление сжатых направленных сигналов и сжатых сигналов временной области также выполняется совместно соответствующим способом.In the case where the perceptual compression of all time domain signals And performed jointly to improve encoding efficiency, perceptual recovery of compressed directional signals and compressed time domain signals is also performed jointly in an appropriate manner.

Подробное описание реконструкции обеспечивается в разделе Реконструкция HOA.A detailed description of the reconstruction is provided in the HOA Reconstruction section.

Разложение HOAHOA decomposition

Блок-схема, иллюстрирующая операции, выполняемые для разложения HOA, дана на фиг. 3. Краткое описание операции: Во-первых, сглаженные доминирующие направленные сигналы вычисляются и выводятся для перцепционного сжатия. Далее, остаток между представлением HOA доминирующих направленных сигналов и исходным представлением HOA представляется посредством некоторого количества направленных сигналов , которые могут рассматриваться как общие плоские волны из равномерно распределенных направлений. Эти направленные сигналы предсказываются из доминирующих направленных сигналов , где выводятся параметры предсказания . В заключение вычисляется и выводится остаток между исходным представлением HOA и представлением HOA доминирующих направленных сигналов вместе с представлением HOA предсказанных направленных сигналов из равномерно распределенных направлений.A flow chart illustrating the operations performed for HOA decomposition is given in FIG. 3. Brief description of the operation: First, smooth the dominant directional signals are calculated and output for perceptual compression. Next, the remainder between the HOA submission dominant directional signals and the original HOA representation represented by a certain amount directional signals , which can be considered as general plane waves from uniformly distributed directions. These directional signals are predicted from the dominant directional signals , where the prediction parameters are displayed . Finally, the remainder is calculated and displayed between the original HOA representation and HOA submission dominant directional signals along with HOA representation predicted directional signals from uniformly distributed directions.

Перед тем как углубляться в подробности, следует упомянуть, что изменения направлений между последовательными кадрами может вести к нарушению непрерывности всех вычисленных сигналов в течение конструирования. Следовательно, мгновенные оценки соответствующих сигналов для перекрывающихся кадров вычисляются первыми, которые имеют длину 2B. Во-вторых, результаты последовательных перекрывающихся кадров сглаживаются с использованием соответствующей оконной функции. Каждое сглаживание, однако, вводит задержку одиночного кадра.Before going into detail, it should be mentioned that changes in directions between successive frames can lead to disruption of the continuity of all calculated signals during construction. Therefore, instantaneous estimates of the corresponding signals for overlapping frames are computed first, which have a length of 2B. Second, the results of successive overlapping frames are smoothed using an appropriate windowing function. Each anti-aliasing, however, introduces single-frame delay.

Вычисление мгновенных доминирующих направленных сигналовCalculation of instantaneous dominant directional signals

Вычисление мгновенных доминирующих направленных сигналов на этапе или стадии 30 из оцененных направлений источников звука в для текущего кадра последовательностей коэффициентов HOA основывается на сопоставлении режимов, как описано в M.A. Poletti, "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics", J. Audio Eng. Soc., 53(11), страницы 1004-1025, 2005. В частности, ищутся те направленные сигналы, чье представление HOA дает результатом наилучшее приближение заданного сигнала HOA.Calculation of the instantaneous dominant directional signals at stage or stage 30 from the estimated directions of sound sources in for the current frame HOA coefficient sequences are based on mode mapping as described in M.A. Poletti, “Three-Dimensional Surround Sound Systems Based on Spherical Harmonics,” J. Audio Eng. Soc., 53(11), pages 1004-1025, 2005. In particular, those directional signals are sought whose HOA representation results in the best approximation of the given HOA signal.

Дополнительно, без потери общности, предполагается, что каждая оценка направления активного доминирующего источника звука может однозначно определяться посредством вектора, имеющего угол наклона и азимутальный угол (см. фиг. 5 для иллюстрации) согласноAdditionally, without loss of generality, it is assumed that each direction estimate active dominant sound source can be uniquely determined by a vector having an inclination angle and azimuth angle (see Fig. 5 for illustration) according to

(3). (3).

Во-первых, матрица режимов на основе оценок направлений активных источников звука вычисляется согласноFirst, the mode matrix based on the directional estimates of the active sound sources is calculated according to

(4). (4).

, ,

гдеWhere

(5). (5).

. .

В уравнении (4), обозначает количество активных направлений для k-ого кадра и , показывает их индексы. обозначает вещественнозначные сферические гармоники, которые определены в разделе Определение вещественнозначных сферических гармоник.In equation (4), denotes the number of active directions for the kth frame and , shows their indexes. denotes real-valued spherical harmonics, which are defined in the section Definition of real-valued spherical harmonics.

Во-вторых, вычисляется матрица , содержащая мгновенные оценки всех доминирующих направленных сигналов для (k-1)-ого и k-ого кадров, определенная какSecondly, the matrix is calculated , containing instantaneous estimates of all dominant directional signals for the (k-1)th and kth frames, defined as

, (6) , (6)

гдеWhere

, (7). , (7).

Это выполняется на двух этапах. На первом этапе, выборки направленного сигнала в строках, соответствующих неактивным направлениям, устанавливаются на нуль, т.е.This is done in two stages. In the first stage, the directional signal samples in the rows corresponding to inactive directions are set to zero, i.e.

, если , (8) , If , (8)

где показывает набор активных направлений. На втором этапе, выборки направленного сигнала, соответствующие активным направлениям, получаются посредством сначала расположения их в матрице согласноWhere shows a set of active directions. In the second step, directional signal samples corresponding to active directions are obtained by first arranging them in a matrix according to

(9). (9).

Эта матрица затем вычисляется, чтобы минимизировать евклидову норму ошибкиThis matrix is then calculated to minimize the Euclidean error rate

(10). (10).

Решение дается посредствомThe solution is given by

(11). (eleven).

Временное сглаживаниеTemporal smoothing

Для этапа или стадии 31, сглаживание описывается только для направленных сигналов , так как сглаживание других типов сигналов может выполняться полностью аналогичным способом. Оценки направленных сигналов , , чьи выборки содержатся в матрице согласно уравнению (6), подвергаются оконной обработке посредством соответствующей оконной функции :For stage or stage 31, smoothing is described only for directional signals , since smoothing of other types of signals can be performed in a completely similar way. Directional Signal Estimates , , whose samples are contained in the matrix according to equation (6), are subject to windowing through the corresponding window function :

(12). (12).

Эта оконная функция должна удовлетворять условию, что получается '1' при ее сложении с ее сдвинутой версией (предполагается сдвиг B выборок) в области перекрытия:This window function must satisfy the condition that it produces a '1' when added to its shifted version (assuming a shift of B samples) in the overlap region:

(13). (13).

Пример для такой оконной функции дается посредством периодического окна Хэнна, определенного посредствомAn example for such a window function is given by the periodic Hann window defined by

для (14). For (14).

Сглаженные направленные сигналы для (k-1)-ого кадра вычисляются посредством соответствующей суперпозиции подвергнутых оконной обработке мгновенных оценок согласноThe smoothed directional signals for the (k-1)th frame are calculated by an appropriate superposition of the windowed instantaneous estimates according to

(15). (15).

Выборки всех сглаженных направленных сигналов для (k-1)-ого кадра располагаются в матрицеSamples of all smoothed directional signals for the (k-1)th frame are located in the matrix

(16). (16).

, ,

гдеWhere

(17). (17).

Предполагается, что сглаженные доминирующие направленные сигналы являются непрерывными сигналами, которые последовательно вводятся в перцепционные кодеры.It is assumed that the smoothed dominant directional signals are continuous signals that are sequentially input to perceptual encoders.

Вычисление представления HOA сглаженных доминирующих направленных сигналовComputing the HOA representation of smoothed dominant directional signals

Из и , вычисляется представление HOA сглаженных доминирующих направленных сигналов на этапе или стадии 32 в зависимости от непрерывных сигналов , чтобы имитировать такие же операции, как должны выполняться для конструирования HOA. Так как изменения оценок направлений между последовательными кадрами могут вести к нарушению непрерывности, как только снова вычисляются мгновенные представления HOA перекрывающихся кадров длины и результаты последовательных перекрывающихся кадров сглаживаются посредством использования соответствующей оконной функции. Следовательно, представление HOA получается посредствомFrom And , the HOA representation of the smoothed dominant directional signals at stage or stage 32 is calculated depending on the continuous signals , to simulate the same operations that would be performed to construct an HOA. Since changes in direction estimates between successive frames can lead to discontinuity once the instantaneous HOA representations of overlapping frames of length are computed again and the results of successive overlapping frames are smoothed by using an appropriate windowing function. Therefore, the HOA representation obtained through

, (18) , (18)

гдеWhere

(19) (19)

иAnd

(20) (20)

Представление остаточного представления HOA посредством направленных сигналов на регулярной сеткеHOA Residual Representation via Directed Signals on a Regular Grid

Из и (т.е. , задержанного на задержку 381 кадра), остаточное представление HOA посредством направленных сигналов на регулярной сетке вычисляется на этапе или стадии 33. Цель этой операции состоит в том, чтобы получать направленные сигналы (т.е. функции общих плоских волн), сталкивающиеся из некоторых фиксированных, почти равномерно распределенных направлений , (также упоминаемых как направления сетки), чтобы представлять остаток .From And (those. , delayed by a delay of 381 frames), the residual representation of the HOA by means of directional signals on a regular grid is calculated in step or stage 33. The purpose of this operation is to obtain directional signals (i.e., functions of general plane waves) colliding from some fixed , almost uniformly distributed directions , (also referred to as grid directions) to represent the remainder .

Сначала, по отношению к направлениям сетки матрица режимов вычисляется какFirst, with respect to the grid directions, the mode matrix calculated as

, (21) , (21)

гдеWhere

(22). (22).

Так как направления сетки являются фиксированными в течение всей процедуры сжатия, матрица режимов должна вычисляться только один раз.Since the mesh directions are fixed throughout the compression procedure, the mode matrix must be evaluated only once.

Направленные сигналы на соответствующей сетке получаются какThe directional signals on the corresponding grid are obtained as

(23) (23)

. .

Предсказание направленных сигналов на регулярной сетке из доминирующих направленных сигналовPredicting directional signals on a regular grid of dominant directional signals

Из и , направленные сигналы на регулярной сетке предсказываются на этапе или стадии 34. Предсказание направленных сигналов на регулярной сетке, состоящей из направлений сетки , из направленных сигналов, основывается на двух последовательных кадрах для целей сглаживания, т.е. увеличенный кадр сигналов сетки (длины ) предсказывается из увеличенного кадра сглаженных доминирующих направленных сигналовFrom And , directional signals on a regular grid are predicted in step or step 34. Predicting directional signals on a regular grid consisting of grid directions , from directional signals, is based on two consecutive frames for smoothing purposes, i.e. enlarged frame of grid signals (lengths ) predicted from an enlarged frame of smoothed dominant directional signals

(24). (24).

Во-первых, каждый сигнал сетки , , содержащийся в , назначается доминирующему направленному сигналу , , содержащемуся в . Назначение может основываться на вычислении нормализованной взаимнокорреляционной функции между сигналом сетки и всеми доминирующими направленными сигналами. В частности, этот доминирующий направленный сигнал назначается сигналу сетки, который обеспечивает наивысшее значение нормализованной взаимнокорреляционной функции. Результат назначения может формулироваться посредством функции назначения , назначающей -й сигнал сетки -ому доминирующему направленному сигналу.First, every grid signal , contained in , is assigned to the dominant directional signal , contained in . The assignment may be based on the calculation of a normalized cross-correlation function between the grid signal and all dominant directional signals. Specifically, this dominant directional signal is assigned to the grid signal that provides the highest value of the normalized cross-correlation function. The assignment result can be formulated using the assignment function , appointing th grid signal -th dominant directional signal.

Во-вторых, каждый сигнал сетки предсказывается из назначенного доминирующего направленного сигнала .Secondly, each grid signal predicted from the assigned dominant directional signal .

Предсказанный сигнал сетки вычисляется посредством задержки и масштабирования из назначенного доминирующего направленного сигнала какPredicted grid signal calculated by delay and scaling from the assigned dominant directional signal How

, (25) , (25)

где обозначает коэффициент масштабирования и показывает задержку выборки. Эти параметры выбираются для минимизации ошибки предсказания.Where denotes the scaling factor and shows the sampling delay. These parameters are chosen to minimize the prediction error.

Если мощность ошибки предсказания больше, чем мощность самого сигнала сетки, предполагается, что предсказание потерпело неудачу. Затем, соответствующие параметры предсказания могут устанавливаться на любое недействительное значение.If the power of the prediction error is greater than the power of the grid signal itself, the prediction is assumed to have failed. Then, the corresponding prediction parameters can be set to any invalid value.

Следует отметить, что являются возможными также другие типы предсказания. Например, вместо вычисления коэффициента масштабирования полного диапазона, также является разумным определять коэффициенты масштабирования для перцепционно ориентированных частотных диапазонов. Однако эта операция улучшает предсказание за счет увеличенной величины дополнительной информации.It should be noted that other types of prediction are also possible. For example, instead of calculating the full range scaling factor, it is also reasonable to determine the scaling factors for perceptually oriented frequency ranges. However, this operation improves the prediction due to the increased amount of additional information.

Все параметры предсказания могут располагаться в матрице параметров какAll prediction parameters can be located in the parameter matrix as

(26). (26).

Предполагаются, что все предсказанные сигналы , , располагаются в матрице .It is assumed that all predicted signals , , are located in the matrix .

Вычисление представления HOA предсказанных направленных сигналов на регулярной сеткеComputing the HOA representation of predicted directional signals on a regular grid

Представление HOA предсказанных сигналов сетки вычисляется на этапе или стадии 35 из согласноThe HOA representation of the predicted grid signals is calculated at step or stage 35 of according to

(27). (27).

Вычисление представления HOA остаточной компоненты окружающего звукового поляComputing the HOA representation of the residual component of the ambient sound field

Из , которое является сглаженной по времени версией (на этапе/стадии 36) для , из , которое является задержанной на два кадра версией (задержки 381 и 383) для , и из , которое является задержанной на один кадр версией (задержка 382) для , представление HOA остаточной компоненты окружающего звукового поля вычисляется на этапе или стадии 37 посредствомFrom , which is the time-smoothed version (at stage/stage 36) for , from , which is a two-frame delayed version (delays 381 and 383) for , and from , which is a one-frame delayed version (delay 382) for , the HOA representation of the residual component of the ambient sound field is calculated in step or step 37 by

(28). (28).

Реконструкция HOAHOA reconstruction

Перед подробным описанием обработки индивидуальных этапов или стадий на фиг. 4 в деталях, обеспечивается краткое описание.Before describing in detail the processing of individual steps or stages in FIG. 4 in detail, a brief description is provided.

Направленные сигналы по отношению к равномерно распределенным направлениям предсказываются из декодированных доминирующих направленных сигналов с использованием параметров предсказания . Далее, полное представление HOA конструируется из представления HOA доминирующих направленных сигналов, представления HOA предсказанных направленных сигналов и остаточной окружающей компоненты HOA .Directional signals with respect to uniformly distributed directions are predicted from the decoded dominant directional signals using prediction parameters . Next up is the full HOA view. constructed from the HOA representation dominant directional signals, HOA representations predicted directional signals and residual ambient HOA components .

Вычисление представления HOA доминирующих направленных сигналовComputing the HOA representation of dominant directional signals

и вводятся в этап или стадию 41 для определения представления HOA доминирующих направленных сигналов. После вычисления матриц режимов и из оценок направлений и , на основе оценок направлений активных источников звука для k-ого и (k-1)-ого кадров, представление HOA доминирующих направленных сигналов получается посредством And are input to step or stage 41 to determine the HOA representation of the dominant directional signals. After calculating the mode matrices And from direction estimates And , based on estimates of the directions of active sound sources for the k-th and (k-1)-th frames, the HOA representation of the dominant directional signals obtained through

(29) (29)

гдеWhere

(30) (thirty)

иAnd

(31) (31)

и вводятся в этап или стадию 43 для предсказания направленных сигналов на регулярной сетке из доминирующих направленных сигналов. Увеличенный кадр предсказанных направленных сигналов на регулярной сетке состоит из элементов согласно And are introduced into step or stage 43 to predict directional signals on a regular grid of dominant directional signals. An enlarged frame of predicted directional signals on a regular grid consists of elements according to

, (32) , (32)

которые предсказываются из доминирующих направленных сигналов посредствомwhich are predicted from the dominant directional signals by

(33). (33).

На этапе или стадии 44 для вычисления представления HOA предсказанных направленных сигналов на регулярной сетке, представление HOA предсказанных направленных сигналов сетки получается посредствомIn step or step 44 to calculate the HOA representation of the predicted directional signals on a regular grid, the HOA representation of the predicted directional signals of the grid is obtained by

, (34) , (34)

где обозначает матрицу режимов по отношению к предварительно определенным направлениям сетки (см. уравнение (21) для определения).Where denotes the mode matrix with respect to predefined mesh directions (see equation (21) for definition).

Конструирование представления звукового поля HOAConstructing the HOA Sound Field Representation

Из (т.е. , задержанного посредством задержки 42 кадра), (которое является сглаженной по времени версией для на этапе/стадии 45) и , полное представление звукового поля HOA наконец конструируется на этапе или стадии 46 какFrom (those. , delayed by 42 frame delay), (which is the time-smoothed version for at stage/stage 45) and , the complete HOA sound field representation is finally constructed at stage or stage 46 as

(35). (35).

Основы системы Амбисоник высшего порядкаBasics of the Ambisonics system of the highest order

Система Амбисоник высшего порядка основывается на описании звукового поля внутри компактной области интереса, о которой предполагается, что она является свободной от источников звука. В этом случае пространственно-временное поведение звукового давления в момент времени t и положении x внутри области интереса является физически полностью определенным посредством однородного волнового уравнения. Последующее основывается на сферической системе координат, как показано на фиг. 5. Ось x указывает на положение вперед, ось y указывает влево, и ось z указывает вверх. Положение в пространстве представляется посредством радиуса (т.е. расстояния до начала координат), угла наклона , измеренного от полярной оси z, и азимутального угла , измеренного против часовой стрелки в плоскости x-y от оси x. обозначает транспозицию.The higher order Ambisonics system is based on the description of the sound field within a compact region of interest, which is assumed to be free of sound sources. In this case, the spatiotemporal behavior of sound pressure at time t and position x inside the region of interest is physically completely determined by the homogeneous wave equation. The following is based on a spherical coordinate system, as shown in FIG. 5. The x-axis points to the forward position, the y-axis points to the left, and the z-axis points to the up. Position in space represented by a radius (i.e. distance to the origin), tilt angle , measured from the polar z-axis, and the azimuthal angle , measured counterclockwise in the xy plane from the x axis. denotes transposition.

Можно показать (см. E.G. Williams, "Fourier Acoustics", volume 93 of Applied Mathematical Sciences, Academic Press, 1999), что преобразование Фурье звукового давления по отношению к времени, обозначенное посредством , т.е.It can be shown (see E. G. Williams, "Fourier Acoustics", volume 93 of Applied Mathematical Sciences, Academic Press, 1999) that the Fourier transform of sound pressure with respect to time, denoted by , i.e.

, (36) , (36)

где обозначает угловую частоту и i обозначает мнимую единицу, может быть разложено в ряд сферических гармоник согласноWhere denotes the angular frequency and i denotes the imaginary unit, can be expanded into a series of spherical harmonics according to

, (37) , (37)

где обозначает скорость звука и k обозначает угловой индекс моды, который связан с угловой частотой как , обозначает сферические функции Бесселя первого рода, и обозначает вещественнозначные сферические гармоники порядка n и степени m, которые определены в разделе Определение вещественнозначных сферических гармоник. Коэффициенты разложения зависят только от углового индекса моды k. Отметим, что неявно предполагается, что звуковое давление является пространственно ограниченным по диапазону. Таким образом, ряд является усеченным по отношению к индексу порядка n на верхнем пределе N, который называется порядком представления HOA.Where denotes the speed of sound and k denotes the angular index of the mode, which is related to the angular frequency How , denotes spherical Bessel functions of the first kind, and denotes real-valued spherical harmonics of order n and degree m, which are defined in the section Definition of real-valued spherical harmonics. Expansion coefficients depend only on the angular index of the mode k. Note that the sound pressure is implicitly assumed to be spatially limited in range. Thus, the series is truncated with respect to the order index n at the upper limit of N, which is called the HOA presentation order.

Если звуковое поле представляется посредством суперпозиции бесконечного количества гармонических плоских волн разных угловых частот и прибывает из всех возможных направлений, определенных посредством кортежа углов , можно показать (см. B. Rafaely, "Plane-wave Decomposition of the Sound Field on a Sphere by Spherical Convolution", J. Acoust. Soc. Am., 4(116), страницы 2149-2157, 2004), что соответствующая функция комплексной амплитуды плоской волны может быть выражена посредством разложения по сферическим гармоникамIf the sound field is represented by the superposition of an infinite number of harmonic plane waves of different angular frequencies and comes from all possible directions defined by a tuple of angles , it can be shown (see B. Rafaely, "Plane-wave Decomposition of the Sound Field on a Sphere by Spherical Convolution", J. Acoust. Soc. Am., 4(116), pages 2149-2157, 2004) that the corresponding plane wave complex amplitude function can be expressed through spherical harmonic expansion

, (38) , (38)

где коэффициенты разложения относятся к коэффициентам разложения какwhere are the expansion coefficients refer to expansion coefficients How

(39). (39).

Предполагая, что индивидуальные коэффициенты являются функциями угловой частоты , применение обратного преобразования Фурье (обозначаемого как ) обеспечивает функции временной областиAssuming that the individual coefficients are functions of angular frequency , applying the inverse Fourier transform (denoted as ) provides time domain functions

(40) (40)

для каждого порядка n и степени m, которые могут быть собраны в одиночном вектореfor each order n and degree m that can be collected in a single vector

(41) (41)

. .

Индекс положения функции временной области внутри вектора дается посредством .Time domain function position index inside a vector given through .

Последний формат системы Амбисоник обеспечивает дискретизированную версию с использованием частоты дискретизации какThe latest Ambisonics system format provides a sampled version using sampling rate How

, (42) , (42)

где обозначает период дискретизации. Элементы упоминаются как коэффициенты системы Амбисоник. Отметим, что сигналы временной области и, следовательно, коэффициенты системы Амбисоник являются вещественнозначными.Where denotes the sampling period. Elements are referred to as Ambisonics coefficients. Note that time domain signals and, therefore, the coefficients of the Ambisonics system are real-valued.

Определение вещественнозначных сферических гармоникDefinition of real-valued spherical harmonics

Вещественнозначные сферические гармоники даются посредствомReal-valued spherical harmonics are given through

, (43) , (43)

гдеWhere

. (44) . (44)

Ассоциированные функции Лежандра определяются какAssociated functions of Legendre are defined as

(45) (45)

с полиномом Лежандра и, в отличие от вышеупомянутого учебника E.G. Williams, без члена фазы Кондона-Шортли .with Legendre polynomial and, unlike the above E.G. Williams tutorial, without the Condon-Shortley phase term .

Пространственное разрешение системы Амбисоник высшего порядкаHigher-order spatial resolution of the Ambisonics system

Функция общей плоской волны , прибывающая из направления , представляется в HOA посредствомGeneral plane wave function , arriving from direction , is submitted to the HOA via

(46). (46).

Соответствующая пространственная плотность амплитуд плоской волны дается посредствомCorresponding spatial density of plane wave amplitudes given through

(47) (47)

(48). (48).

Можно видеть из уравнения (48), что она является произведением функции общей плоской волны и функции пространственной дисперсии , для которой можно показать, что она зависит только от угла между и , имеющего свойствоIt can be seen from equation (48) that it is the product of the general plane wave function and spatial dispersion functions , for which it can be shown that it depends only on the angle between And , having the property

(49). (49).

Как ожидается, в пределе бесконечного порядка, т.е. , функция пространственной дисперсии переходит в дельта функцию Дирака , т.е.As expected, in the limit of infinite order, i.e. , the spatial dispersion function transforms into the Dirac delta function , i.e.

(50). (50).

Однако в случае конечного порядка N, вклад общей плоской волны из направления размывается в соседние направления, где степень размытости уменьшается с увеличением порядка. График нормализованной функции для разных значений N показан на фиг. 6. Следует отметить, что любое направление поведения временной области пространственной плотности амплитуд плоской волны является кратным его поведения в любом другом направлении. В частности, функции и для некоторых фиксированных направлений и являются высоко коррелированными друг с другом по отношению к времени t.However, in the case of finite order N, the contribution of the general plane wave from the direction blurs into adjacent directions, where the degree of blur decreases with increasing order. Graph of normalized function for different values of N is shown in Fig. 6. It should be noted that any direction The behavior of the time domain of the spatial amplitude density of a plane wave is a multiple of its behavior in any other direction. In particular, the functions And for some fixed directions And are highly correlated with each other with respect to time t.

Дискретная пространственная областьDiscrete spatial domain

Если пространственная плотность амплитуд плоской волны дискретизируется при некотором количестве пространственных направлений , , которые являются почти равномерно распределенными на единичной сфере, получаются направленных сигналов . Собирая эти сигналы в векторIf the spatial density of plane wave amplitudes is sampled at a certain amount spatial directions , , which are almost uniformly distributed on the unit sphere, are obtained directional signals . Collecting these signals into a vector

, (51) , (51)

можно проверить посредством использования уравнения (47), что этот вектор может быть вычислен из непрерывного представления системы Амбисоник , определенного в уравнении (41), посредством простого матричного умножения какcan be verified by using equation (47) that this vector can be calculated from the continuous representation of the Ambisonics system , defined in equation (41), by simple matrix multiplication as

, (52) , (52)

где обозначает объединенные транспозицию и сопряжение, и обозначает матрицу режимов, определенную посредствомWhere denotes the combined transposition and conjugation, and denotes the mode matrix defined by

, (53) , (53)

гдеWhere

. (54) . (54)

Так как направления являются почти равномерно распределенными на единичной сфере, матрица режимов, в общем, является обратимой. Следовательно, непрерывное представление системы Амбисоник может быть вычислено из направленных сигналов посредствомSince the directions are almost uniformly distributed on the unit sphere, the regime matrix is, in general, invertible. Therefore, a continuous representation of the Ambisonics system can be calculated from the directional signals through

(55). (55).

Оба уравнения составляют преобразование и обратное преобразование между представлением системы Амбисоник и пространственной областью. В этой заявке эти преобразования называются сферическое гармоническое преобразование и обратное сферическое гармоническое преобразование.Both equations constitute a transformation and inverse transformation between the Ambisonics representation and the spatial domain. In this application these transformations are called spherical harmonic transformation and inverse spherical harmonic transformation.

Так как направления являются почти равномерно распределенными на единичной сфере,Since the directions are almost uniformly distributed on the unit sphere,

, (56) , (56)

что оправдывает использование вместо в уравнении (52). Предпочтительно, все упомянутые отношения являются действительными для дискретной временной области, также.what justifies the use instead of in equation (52). Preferably, all of the relationships mentioned are valid for the discrete time domain, as well.

На стороне кодирования также как на стороне декодирования новая обработка может выполняться посредством одиночного процессора или электронной схемы, или посредством нескольких процессоров или электронных схем, работающих параллельно и/или работающих в разных частях новой обработки.On the encoding side as well as on the decoding side, the new processing may be performed by a single processor or electronic circuit, or by several processors or electronic circuits operating in parallel and/or operating in different parts of the new processing.

Изобретение может применяться для обработки соответствующих звуковых сигналов, которые могут воспроизводиться или проигрываться на компоновке громкоговорителей в домашней среде или на компоновке громкоговорителей в кинотеатре.The invention can be used to process corresponding audio signals that may be reproduced or played on a speaker arrangement in a home environment or on a speaker arrangement in a movie theater.

Claims

1. A method for reconstructing a compressed representation of a higher order Ambisonics system (denoted HOA), the method comprising:

perceptually decoding the compressed dominant directional signals and the compressed residual component signals to provide reconstructed dominant directional signals and reconstructed time domain signals representing the residual HOA component in the spatial domain;

re-correlating the reconstructed time domain signals to obtain a corresponding reduced-order residual HOA component;

determining a restored residual HOA component based on a corresponding reduced-order residual HOA component;

determining predicted directional signals based on at least a parameter;

determining a HOA sound field representation based on the reconstructed dominant directional signals, the predicted directional signals, and the reconstructed HOA residual component, and

wherein the parameter refers to the number of active directional signals in the current frame.

2. A device for restoring a higher order representation of the Ambisonics system (denoted HOA), the device comprising:

a decoder that performs perceptual decoding of the compressed dominant directional signals and the compressed residual component signals to provide reconstructed dominant directional signals and reconstructed time domain signals representing the residual HOA component in the spatial domain;

re-correlation means that re-correlate the reconstructed time domain signals to obtain a corresponding reduced-order residual HOA component;

a processor configured to determine a reconstructed residual HOA component based on a corresponding reduced-order residual HOA component, the processor further configured to determine predicted directional signals based on at least a parameter;

wherein the processor is further configured to determine a HOA sound field representation based on the reconstructed dominant directional signals, the predicted directional signals, and the reconstructed residual HOA component, and