RU2798019C2 - Audio data processing based on a directional volume map - Google Patents

Audio data processing based on a directional volume map Download PDF

Info

Publication number
RU2798019C2
RU2798019C2 RU2022106060A RU2022106060A RU2798019C2 RU 2798019 C2 RU2798019 C2 RU 2798019C2 RU 2022106060 A RU2022106060 A RU 2022106060A RU 2022106060 A RU2022106060 A RU 2022106060A RU 2798019 C2 RU2798019 C2 RU 2798019C2
Authority
RU
Russia
Prior art keywords
audio
signals
loudness
encoded
directional
Prior art date
Application number
RU2022106060A
Other languages
Russian (ru)
Other versions
RU2022106060A (en
Inventor
Юрген ХЕРРЕ
Пабло Мануэль ДЕЛЬГАДО
Саша ДИК
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2022106060A publication Critical patent/RU2022106060A/en
Application granted granted Critical
Publication of RU2798019C2 publication Critical patent/RU2798019C2/en

Links

Images

Abstract

FIELD: computer technology for processing audio data.
SUBSTANCE: invention relates to increasing the accuracy of coding the input audio content. It is achieved through the steps that provide one or more coded audio signals based on one or more input audio signals or one or more signals received from them; and adapting (3200) generating one or more coded audio signals depending on one or more directional loudness maps that represent loudness information associated with a plurality of different directions of one or more signals to be coded.
EFFECT: increasing the accuracy of coding the input audio content.
33 cl, 34 dwg

Description

Область техники, к которой относится изобретениеThe field of technology to which the invention belongs

Варианты осуществления в соответствии с изобретением относятся к обработке аудиоданных на основе карты направленной громкости.Embodiments in accordance with the invention relate to processing audio data based on a directional loudness map.

Уровень техникиState of the art

С появлением перцептивных аудиокодеров возник значительный интерес к разработке алгоритмов, которые могут предсказывать качество аудиоданных для кодированных сигналов, не полагаясь на обширные субъективные тесты прослушивания для экономии времени и ресурсов. Широко распространены алгоритмы, выполняющие так называемую объективную оценку качества монауральных кодированных сигналов, такие как PEAQ [3] или POLQA [4]. Однако их рабочие характеристики для сигналов, кодированных с помощью методик пространственного аудио, по-прежнему считаются неудовлетворительными [5]. Кроме того, методики, не сохраняющие форму волны, такие как расширение полосы пропускания (BWE), также известны тем, что эти алгоритмы переоценивают потерю качества [6], поскольку многие функции, извлеченные для анализа, предполагают условия сохранения формы волны. Методики пространственного аудио и BWE в основном используются при кодировании аудиоданных с низкой битовой скоростью (около 32 Кбит/с на канал).With the advent of perceptual audio encoders, there has been considerable interest in developing algorithms that can predict the quality of audio data for encoded signals without relying on extensive subjective listening tests to save time and resources. There are widespread algorithms that perform the so-called objective quality assessment of monaural encoded signals, such as PEAQ [3] or POLQA [4]. However, their performance for signals encoded with spatial audio techniques is still considered unsatisfactory [5]. In addition, non-waveform-preserving techniques such as bandwidth expansion (BWE) are also known for overestimating quality loss [6] because many of the features extracted for analysis assume waveform-preserving conditions. Spatial audio and BWE techniques are mainly used when encoding audio data at a low bit rate (about 32 kbps per channel).

Предполагается, что пространственный аудиосодержимое более чем двух каналов может быть преобразовано посредством преобразования для прослушивания в бинауральное представление сигналов, поступающих в левое и правое ухо, с помощью наборов передаточных функций слухового аппарата (HRTF) и/или бинауральных импульсных характеристик помещения (BRIR) [5, 7]. Большинство предлагаемых расширений для бинауральной объективной оценки качества основаны на хорошо известных бинауральных слуховых ориентирах, связанных с восприятием человеком локализации аудиоданных и воспринимаемой шириной звукового источника, таких как интерауральные разности по уровню (ILD), интерауральные разности по времени (ITD) и интерауральная перекрестная корреляция (IACC) между сигналами, поступающими в левое и правое ухо [1, 5, 8, 9]. В контексте объективной оценки качества признаки извлекаются на основе этих пространственных ориентиров из эталонных и тестовых сигналов, а мера расстояния между ними используется в качестве индекса искажений. Рассмотрение этих пространственных ориентиров и связанных с ними воспринимаемых искажений позволило добиться значительного прогресса в контексте разработки алгоритма пространственного аудиокодирования [7]. Однако в случае использования прогнозирования общего качества пространственного аудиокодирования взаимодействие этих искажений ориентиров друг с другом и с монауральными/тембральными искажениями (особенно в случаях без сохранения формы волны) создает сложный сценарий [10] с изменчивыми результатами при использовании признаков для прогнозирования единой оценки качества, определяемой субъективными тестами качества, такими как MUSHRA [11]. Также были предложены другие альтернативные модели [2], в которых выходные данные бинауральной модели дополнительно обрабатываются посредством алгоритма кластеризации для определения количества участвующих источников в мгновенном слуховом образе, и, следовательно, также являются абстракцией классических моделей искажения слуховых ориентиров. Тем не менее, модель в [2] в основном ориентирована на перемещение источников в пространстве, и ее производительность также ограничена точностью и способностью отслеживания соответствующего алгоритма кластеризации. Количество добавленных функций, позволяющих использовать эту модель, также является значительным.It is contemplated that spatial audio content of more than two channels can be transformed by converting for listening into a binaural representation of signals entering the left and right ear using sets of hearing aid transfer functions (HRTF) and/or binaural room impulse responses (BRIR) [5 , 7]. Most proposed extensions to binaural objective quality assessment are based on well-known binaural auditory cues related to human perception of audio data location and perceived sound source width, such as interaural level differences (ILD), interaural time differences (ITD), and interaural cross-correlation ( IACC) between signals entering the left and right ear [1, 5, 8, 9]. In the context of an objective quality assessment, features are extracted based on these spatial references from reference and test signals, and a measure of the distance between them is used as a distortion index. Consideration of these spatial landmarks and the perceived distortions associated with them has made significant progress in the context of developing a spatial audio coding algorithm [7]. However, in the case of using overall spatial audio quality prediction, the interaction of these landmark distortions with each other and with monaural/timbre distortions (especially in cases without waveform preservation) creates a complex scenario [10] with variable results when using features to predict a single quality score given by subjective quality tests such as MUSHRA [11]. Other alternative models have also been proposed [2], in which the output of the binaural model is further processed through a clustering algorithm to determine the number of participating sources in the instantaneous auditory image, and therefore also an abstraction of the classical models of auditory landmark distortion. However, the model in [2] is mainly focused on the movement of sources in space, and its performance is also limited by the accuracy and tracking ability of the corresponding clustering algorithm. The number of features added to enable this model is also significant.

Системы объективного измерения качества аудиоданных также должны использовать как можно меньше взаимно независимых и наиболее релевантных извлеченных признаков сигнала, чтобы избежать риска чрезмерного обучения с учетом ограниченного количества экспериментальных данных для сопоставления искажений признаков с показателями качества, полученными в ходе тестов прослушивания [3].Objective audio quality measurement systems should also use as few mutually independent and most relevant extracted signal features as possible to avoid the risk of overtraining with limited experimental data to match feature distortions with quality scores obtained from listening tests [3].

Одна из наиболее заметных характеристик искажения, отмечаемых в тестах прослушивания для пространственно кодированных аудиосигналов на низких битовых скоростях, описана как коллапс стереофонического образа в сторону центрального положения и перекрестные помехи канала [12].One of the most notable distortion characteristics noted in listening tests for spatially encoded audio signals at low bit rates has been described as stereo image center collapse and channel crosstalk [12].

Таким образом, желательно разработать концепцию, которая обеспечивала бы улучшенный, эффективный и высокоточный анализ аудиоданных, аудиокодирование и аудиодекодирование.Thus, it is desirable to develop a concept that provides improved, efficient and highly accurate audio data analysis, audio coding and audio decoding.

Это достигается посредством предмета независимых пунктов формулы изобретения настоящей заявки.This is achieved through the subject matter of the independent claims of the present application.

Дополнительные варианты осуществления в соответствии с изобретением определены посредством предмета зависимых пунктов формулы изобретения настоящей заявки.Additional embodiments according to the invention are defined by the subject matter of the dependent claims of the present application.

Раскрытие изобретенияDisclosure of invention

Вариант осуществления в соответствии с настоящим изобретением относится к модулю анализа аудиоданных, например модулю анализа аудиосигнала. Модуль анализа аудиоданных выполнен с возможностью получения представления в спектральной области двух или более входных аудиосигналов. Таким образом, модуль анализа аудиоданных, например, выполнен с возможностью определения или получения представления в спектральной области. В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью получения представления в спектральной области посредством декомпозиции двух или более входных аудиосигналов на частотно-временные ячейки. Кроме того, модуль анализа аудиоданных выполнен с возможностью получения информации о направлении, ассоциированной со спектральными полосами представлений в спектральной области. Информация о направлении представляет собой, например, различные направления (или положения) звуковых компонентов, содержащихся в двух или более входных аудиосигналах. В соответствии с вариантом осуществления информация о направлении может рассматриваться как индекс панорамирования, который описывает, например, исходное местоположение в звуковом поле, созданном двумя или более входными аудиосигналами, при бинауральной обработке. Кроме того, модуль анализа аудиоданных выполнен с возможностью получения информации о громкости, ассоциированной с различными направлениями, в качестве результата анализа, причем вклады в информацию о громкости определяются в зависимости от информации о направлении. Другими словами, модуль анализа аудиоданных, например, выполнен с возможностью получения информации о громкости, ассоциированной с различными направлениями панорамирования или индексами панорамирования, или для множества разных оцененных диапазонов направления в качестве результата анализа. В соответствии с вариантом осуществления различные направления, например, направления панорамирования, индексы панорамирования и/или диапазоны направления могут быть получены из информации о направлении. Информация о громкости содержит, например, карту направленной громкости или информацию об уровне или информацию об энергии. Вклады в информацию о громкости являются, например, вкладами спектральных полос представлений в спектральной области в информацию о громкости. В соответствии с вариантом осуществления вклады в информацию о громкости являются вкладами в значения информации о громкости, ассоциированной с различными направлениями.An embodiment according to the present invention relates to an audio data analysis module, such as an audio signal analysis module. The audio data analysis module is configured to obtain a spectral domain representation of two or more input audio signals. Thus, the audio data analysis module, for example, is configured to determine or obtain a representation in the spectral domain. According to an embodiment, the audio data analysis module is configured to obtain a spectral domain representation by decomposing two or more input audio signals into time-frequency bins. In addition, the audio data analysis module is configured to obtain direction information associated with spectral bands of representations in the spectral domain. The direction information is, for example, different directions (or positions) of audio components contained in two or more input audio signals. According to an embodiment, the direction information may be considered as a panning index, which describes, for example, the original location in the sound field created by two or more input audio signals in binaural processing. In addition, the audio data analysis module is configured to obtain loudness information associated with different directions as an analysis result, wherein the contributions to the loudness information are determined depending on the direction information. In other words, the audio data analysis module, for example, is configured to obtain loudness information associated with different pan directions or pan indices, or for a plurality of different estimated directional ranges, as an analysis result. According to an embodiment, various directions, such as pan directions, pan indices, and/or direction ranges, can be derived from the direction information. The loudness information contains, for example, a directional loudness map or level information or energy information. The contributions to the loudness information are, for example, the contributions of the spectral bands of the representations in the spectral domain to the loudness information. According to an embodiment, the contributions to the loudness information are contributions to the values of the loudness information associated with the different directions.

Этот вариант осуществления основан на идее о том, что выгодно определять информацию о громкости в зависимости от информации о направлении, полученной из двух или более входных аудиосигналов. Это позволяет получить информацию о громкости других источников в стереофоническом звуковом сочетании, реализованном двумя или более аудиосигналами. Таким образом, с помощью модуля анализа аудиоданных восприятие двух или более аудиосигналов может быть проанализировано очень эффективно посредством получения информации о громкости, ассоциированной с различными направлениями, в качестве результата анализа. В соответствии с вариантом осуществления информация о громкости может содержать или представлять собой карту направленной громкости, которая дает, например, информацию о громкости объединения двух или более сигналов по различным направлениям или информацию о громкости по меньшей мере одного общего временного сигнала двух или более входных аудиосигналов, усредненных по всем частотным полосам ERB (эквивалентной прямоугольной полосы пропускания).This embodiment is based on the idea that it is advantageous to determine the loudness information depending on the direction information obtained from two or more input audio signals. This makes it possible to obtain information about the loudness of other sources in a stereo sound combination realized by two or more audio signals. Thus, with the audio data analysis module, the perception of two or more audio signals can be analyzed very efficiently by obtaining loudness information associated with different directions as an analysis result. According to an embodiment, the loudness information may comprise or be a directional loudness map that gives, for example, loudness information of a combination of two or more signals in different directions, or loudness information of at least one common temporal signal of two or more input audio signals, averaged over all ERB (Equivalent Rectangular Bandwidth) frequency bands.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью получения множества взвешенных представлений (например, «направленных сигналов») в спектральной области (например, в частотно-временной области) на основе представлений в спектральной области (например, в частотно-временной области) двух или более входных аудиосигналов. Значения одного или более представлений в спектральной области взвешиваются в зависимости от различных направлений (например, направления панорамирования) (например, представлены весовыми коэффициентами) звуковых компонентов (например, спектральных интервалов или спектральных полос) (например, мелодических тонов инструментов или певца) в двух или более входных аудиосигналах, чтобы получить множество взвешенных представлений в спектральной области (например, «направленных сигналов»). Модуль анализа аудиоданных выполнен с возможностью получения информации о громкости (например, значений громкости для множества различных направлений; например, «карты направленной громкости»), ассоциированной с различными направлениями (например, направлениями панорамирования), на основе взвешенных представлений в спектральной области (например, «направленных сигналов») в качестве результата анализа.According to an embodiment, the audio data analysis module is configured to derive a plurality of weighted representations (e.g., "beam signals") in the spectral domain (e.g., time-frequency domain) based on the spectral-domain (e.g., time-frequency domain) representations. two or more input audio signals. The values of one or more representations in the spectral domain are weighted depending on different directions (e.g., pan direction) (e.g., represented by weighting factors) of audio components (e.g., spectral intervals or spectral bands) (e.g., melodic tones of instruments or a singer) in two or over input audio signals to get many weighted representations in the spectral domain (eg "directional signals"). The audio data analysis module is configured to obtain loudness information (e.g., loudness values for a plurality of different directions; e.g., "directional loudness maps") associated with different directions (e.g., pan directions) based on weighted representations in the spectral domain (e.g., "directional signals") as the result of the analysis.

Это означает, например, что модуль анализа аудиоданных анализирует, в каком направлении из различных направлений звуковых компонентов значения одного или более представлений в спектральной области влияют на информацию о громкости. Каждый спектральный интервал, например, ассоциирован с некоторым направлением, в котором информация о громкости, ассоциированная с некоторым направлением, может быть определена модулем анализа аудиоданных на основе более чем одного спектрального интервала, ассоциированного с этим направлением. Взвешивание может быть выполнено для каждого элемента разрешения или каждой спектральной полосы одного или более представлений в спектральной области. В соответствии с вариантом осуществления значения частотного интервала или группы частот обрабатываются с помощью оконной функции посредством взвешивания в одном из различных направлений. Например, они взвешиваются в направлении, с которым они ассоциированы, и/или в соседних направлениях. Например, направление ассоциировано с направлением, в котором частотный интервал или группа частот влияет на информацию о громкости. Значения, отклоняющиеся от того направления, например, взвешиваются менее значительно. Таким образом, множество взвешенных представлений в спектральной области может обеспечить показатель относительно спектральных интервалов или спектральных полос, влияющих на информацию о громкости в различных направлениях. В соответствии с вариантом осуществления множество взвешенных представлений в спектральной области может представлять собой по меньшей мере частично вклады в информацию о громкости.This means, for example, that the audio data analysis module analyzes in which direction, from different directions of the audio components, the values of one or more representations in the spectral domain affect the loudness information. Each spectral interval is, for example, associated with a direction, in which the loudness information associated with a certain direction can be determined by the audio analysis module based on more than one spectral interval associated with that direction. The weighting may be performed for each bin or each spectral band of one or more representations in the spectral domain. In accordance with an embodiment, the values of the frequency interval or group of frequencies are processed using a window function by weighting in one of the different directions. For example, they are weighted in the direction with which they are associated and/or in adjacent directions. For example, the direction is associated with the direction in which the frequency interval or group of frequencies affects the loudness information. Values deviating from that direction, for example, are weighted less significantly. Thus, a plurality of weighted representations in the spectral domain can provide an indication of the spectral intervals or spectral bands affecting the loudness information in different directions. In accordance with an embodiment, the plurality of weighted representations in the spectral domain may be at least in part contributions to the loudness information.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью анализа (например, преобразования) двух или более входных аудиосигналов в область кратковременного преобразования Фурье (STFT) (например, с использованием окна Ханна) для получения двух или более преобразованных аудиосигналов. Два или более преобразованных аудиосигнала могут представлять собой представления в спектральной области (например, в частотно-временной области) двух или более входных аудиосигналов.In accordance with an embodiment, an audio data analysis module is configured to analyze (eg, transform) two or more input audio signals into a short time Fourier transform (STFT) domain (eg, using a Hann window) to obtain two or more transformed audio signals. The two or more converted audio signals may be spectral domain (eg, time-frequency domain) representations of two or more input audio signals.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью группировки спектральных интервалов двух или более преобразованных аудиосигналов в спектральные полосы двух или более преобразованных аудиосигналов (например, таким образом, что ширина частотной полосы групп или спектральных полос увеличивается с увеличением частоты) (например, на основе частотной селективности передней части ушного лабиринта человека). Кроме того, модуль анализа аудиоданных выполнен с возможностью взвешивания спектральных полос (например, спектральных интервалов в спектральных полосах) с использованием различных весовых коэффициентов на основе модели внешнего уха и среднего уха для получения одного или более представлений в спектральной области двух или более входных аудиосигналов. С помощью специальной группировки спектральных интервалов в спектральные полосы и с помощью взвешивания спектральных полос два или более входных аудиосигнала подготавливаются таким образом, что восприятие громкости двух или более входных аудиосигналов пользователем, слышащим упомянутые сигналы, может быть очень точно и эффективно оценено или определено модулем анализа аудиоданных с точки зрения определения информации о громкости. Посредством этого преобразованные аудиосигналы, соответственно представления в спектральной области двух или более входных аудиосигналов, адаптируются к человеческому уху для повышения содержательности информации о громкости, полученной модулем анализа аудиоданных.According to an embodiment, the audio data analysis module is configured to group spectral intervals of two or more transformed audio signals into spectral bands of two or more transformed audio signals (e.g., such that the bandwidth of the groups or spectral bands increases with frequency) (e.g., by frequency selectivity of the anterior part of the human ear labyrinth). In addition, the audio data analysis module is configured to weight spectral bands (e.g., spectral intervals in spectral bands) using different weighting factors based on the outer ear and middle ear model to obtain one or more spectral domain representations of two or more input audio signals. By special grouping of spectral intervals into spectral bands and by weighting the spectral bands, two or more input audio signals are prepared in such a way that the loudness perception of two or more input audio signals by a user hearing said signals can be very accurately and efficiently estimated or determined by the audio data analysis module. in terms of determining loudness information. By this, the converted audio signals, respectively the spectral domain representations of the two or more input audio signals, are adapted to the human ear to enhance the richness of the loudness information obtained by the audio data analysis module.

В соответствии с вариантом осуществления два или более входных аудиосигнала ассоциированы с различными направлениями или различными положениями громкоговорителей (например, L (левый), R (правый)). Различные направления или различные положения громкоговорителей могут представлять собой различные каналы для стерео и/или многоканальной аудиосцены. Два или более входных аудиосигнала можно отличить друг от друга индексами, которые могут, например, быть представлены буквами алфавита (например, L (левый), R (правый), M (средний)) или, например, положительным целым числом, указывающим номер канала из двух или более входных аудиосигналов. Таким образом, индексы могут указывать различные направления или положения громкоговорителей, с которыми ассоциированы два или более входных аудиосигнала (например, они указывают положение в пространстве прослушивания, из которой исходят входные сигналы). В соответствии с вариантом осуществления различные направления (далее, например, первые различные направления) двух или более входных аудиосигналов не относятся к различным направлениям (далее, например, вторым различным направлениях), с которыми ассоциирована информация о громкости, полученная модулем анализа аудиоданных. Таким образом, направление из первых различных направлений может представлять канал сигнала двух или более входных аудиосигналов, и направление из вторых различных направлений может представлять направление звукового компонента сигнала двух или более входных аудиосигналов. Вторые различные направления могут быть размещены между первыми направлениями. Дополнительно или в качестве альтернативы вторые различные направления могут быть размещены за пределами первых направлений и/или в первых направлениях.According to an embodiment, two or more audio input signals are associated with different directions or different speaker positions (eg, L (left), R (right)). Different directions or different speaker positions may represent different channels for a stereo and/or multi-channel audio scene. Two or more input audio signals can be distinguished from each other by indexes, which can, for example, be represented by letters of the alphabet (for example, L (left), R (right), M (middle)) or, for example, a positive integer indicating the channel number from two or more input audio signals. Thus, the indexes may indicate the different directions or positions of the speakers to which two or more audio inputs are associated (eg, they indicate the position in the listening space from which the inputs originate). According to an embodiment, different directions (hereinafter, eg, first different directions) of two or more input audio signals do not refer to different directions (hereinafter, eg, second different directions) with which the loudness information obtained by the audio analysis module is associated. Thus, the direction from the first different directions may represent the signal path of the two or more input audio signals, and the direction from the second different directions may represent the direction of the audio signal component of the two or more input audio signals. Second different directions may be placed between the first directions. Additionally or alternatively, second different directions may be placed outside of the first directions and/or in the first directions.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью определения зависящего от направления взвешивания (например, на основе направлений панорамирования) для каждого спектрального интервала (например, а также для каждого временного шага/кадра) и для множества заданных направлений (желаемых направлений панорамирования). Заданные направления представляют собой, например, равноудаленные направления, которые могут быть ассоциированы с заданными направлениями/индексами панорамирования. В качестве альтернативы заданные направления, например, определяются с использованием информации о направлении, ассоциированной со спектральными полосами представлений в спектральной области, полученных модулем анализа аудиоданных. В соответствии с вариантом осуществления информация о направлении может содержать заданные направления. Зависящее от направления взвешивание, например, применяется модулем анализа аудиоданных к одному или более представлениям в спектральной области двух или более входных аудиосигналов. С помощью зависящего от направления взвешивания значение спектрального интервала, например, ассоциируется с одним или более направлениями из множества заданных направлений. Это зависящее от направления взвешивание, например, основано на идее, что каждый спектральный интервал представлений в спектральной области двух или более входных аудиосигналов вносит вклад в информацию о громкости в одном или более различных направлениях из множества заданных направлений. Каждый спектральный интервал, например, вносит вклад прежде всего в одном направлении и лишь немного в соседних направлениях, посредством чего выгодно взвешивать значение спектрального интервала по-разному для различных направлений.According to an embodiment, the audio data analysis module is configured to determine direction-dependent weighting (e.g., based on pan directions) for each spectral interval (e.g., and also for each time step/frame) and for a plurality of given directions (desired pan directions) . The preset directions are, for example, equidistant directions that can be associated with preset pan directions/indices. Alternatively, the predetermined directions are, for example, determined using direction information associated with the spectral bands of the spectral domain representations obtained by the audio data analysis module. According to an embodiment, the direction information may comprise predetermined directions. Direction-dependent weighting is, for example, applied by the audio data analysis module to one or more spectral domain representations of two or more input audio signals. With direction-dependent weighting, a spectral spacing value is, for example, associated with one or more directions from a plurality of predetermined directions. This direction-dependent weighting is, for example, based on the idea that each spectral interval of the spectral domain representations of two or more input audio signals contributes to loudness information in one or more different directions from a set of given directions. Each spectral interval, for example, contributes primarily in one direction and only slightly in neighboring directions, whereby it is advantageous to weight the spectral interval value differently for different directions.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью определения зависящего от направления взвешивания с использованием гауссовой функции, в результате чего зависящее от направления взвешивание уменьшается с увеличением отклонения между соответствующими извлеченными значениями направлений (например, ассоциированными с рассматриваемым частотно-временным интервалом) и соответствующими значениями заданного направления. Соответствующие извлеченные значения направлений могут представлять направления звуковых компонентов в двух или более входных аудиосигналах. Интервал для соответствующих извлеченных значений направлений может находиться между направлением полностью налево и направлением полностью направо, причем направления налево и направо рассматриваются относительно пользователя, воспринимающего два или более входных аудиосигналов (например, обращенного к громкоговорителям). В соответствии с вариантом осуществления модуль анализа аудиоданных может определить каждое извлеченное значение направления как значение заданного направления или равноудаленные значения направлений как значения заданного направления. Таким образом, например, один или более спектральных интервалов, соответствующих извлеченному направлению, взвешиваются в заданных направлениях, граничащих с этим извлеченным направлением, в соответствии с гауссовой функцией менее значительно, чем в заданном направлении, соответствующем извлеченному значению направления. Чем больше расстояние заданного направления от извлеченного направлению, тем больше уменьшается взвешивание спектральных интервалов или спектральных полос, в результате чего, например, спектральный интервал почти не имеет влияния или не имеет никакого влияния на восприятие громкости в местоположении, удаленном от соответствующего извлеченного направления.According to an embodiment, the audio data analysis module is configured to determine a direction-dependent weighting using a Gaussian function, whereby the direction-dependent weighting decreases as the deviation increases between the corresponding extracted direction values (e.g., associated with the time-frequency interval in question) and the corresponding direction values. The respective extracted direction values may represent the directions of the audio components in the two or more input audio signals. The interval for the respective extracted direction values may be between a full left direction and a full right direction, with the left and right directions being considered relative to a user receiving two or more audio inputs (eg facing speakers). According to an embodiment, the audio data analysis module may determine each extracted direction value as a given direction value, or equidistant direction values as given direction values. Thus, for example, one or more spectral intervals corresponding to the extracted direction are weighted in given directions adjacent to that extracted direction according to a Gaussian function less significantly than in the given direction corresponding to the extracted direction value. The greater the distance of the given direction from the extracted direction, the more the weighting of the spectral intervals or spectral bands is reduced, whereby, for example, the spectral interval has little or no effect on the perception of loudness at a location away from the corresponding extracted direction.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью определения значения индекса панорамирования как извлеченных значений направлений. Значения индекса панорамирования, например, уникальным образом укажут направление частотно-временных компонентов (т.е. спектральных интервалов) источников в стереомикшированном сигнале, созданном двумя или более входными аудиосигналами.According to an embodiment, the audio data analysis module is configured to determine the pan index value as the extracted direction values. Pan index values, for example, will uniquely indicate the direction of the time-frequency components (ie, spectral intervals) of sources in a stereo downmix created by two or more audio inputs.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью определения извлеченных значений направлений в зависимости от значений в спектральной области входных аудиосигналов (например, значений представлений в спектральной области входных аудиосигналов). Извлеченные значения направлений, например, определяются на основе оценки амплитудного панорамирования компонентов сигнала (например, в частотно-временных интервалах) между входными аудиосигналами или на основе соотношения между амплитудами соответствующих значений в спектральной области входных аудиосигналов. В соответствии с вариантом осуществления извлеченные значения направлений определяют меру сходства между значениями в спектральной области входных аудиосигналов.According to an embodiment, the audio data analysis module is configured to determine the extracted direction values depending on spectral domain values of the input audio signals (eg, spectral domain representation values of the input audio signals). The extracted direction values are, for example, determined based on an estimate of the amplitude panning of the signal components (eg, in time-frequency domains) between the input audio signals, or based on the relationship between the amplitudes of the respective values in the spectral domain of the input audio signals. In accordance with an embodiment, the extracted direction values determine a measure of similarity between values in the spectral domain of the input audio signals.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью получения зависящего от направления взвешивания

Figure 00000001
, ассоциированного с заданным направлением (например, представленным индексом
Figure 00000002
), временем (или временным кадром), обозначенным временным индексом m, и спектральным интервалом, обозначенный индексом спектрального интервала k, в соответствии с
Figure 00000003
, где
Figure 00000004
- заданное значение (которое контролирует, например, ширину гауссова окна).
Figure 00000005
обозначает извлеченные значения направлений, ассоциированные со временем (или временным кадром), обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k, и
Figure 00000002
- значение направления, которое обозначает (или ассоциировано) заданное направление (например, имеющее индекс направления j). Зависящее от направления взвешивание основано на идее, что спектральные значения, или спектральные интервалы, или спектральные полосы с извлеченным значением направления (например, индексом панорамирования), равным
Figure 00000006
(например, равным заданному направлению), пропускаются без модификации зависящим от направления взвешиванием, а спектральные значения, или спектральные интервалы, или спектральные полосы с извлеченным значением направления (например, индексом панорамирования), отклоняющимся от
Figure 00000006
, взвешиваются. В соответствии с вариантом осуществления спектральные значения, или спектральные интервалы, или спектральные полосы с извлеченным значением направления около
Figure 00000006
взвешиваются и пропускаются, а остальная часть значений отбрасывается (например, далее не обрабатывается).According to an embodiment, the audio data analysis module is configured to obtain a direction dependent weighting
Figure 00000001
, associated with a given direction (for example, represented by the index
Figure 00000002
), a time (or time frame) denoted by time index m, and a spectral interval denoted by spectral interval index k, according to
Figure 00000003
, Where
Figure 00000004
is a given value (which controls, for example, the width of the Gaussian window).
Figure 00000005
denotes the extracted direction values associated with a time (or time frame) denoted by time index m and a spectral interval denoted by spectral interval index k, and
Figure 00000002
is a direction value that denotes (or is associated with) a given direction (eg, having a direction index j). Direction-dependent weighting is based on the idea that spectral values, or spectral intervals, or spectral bands with an extracted direction value (e.g., pan index) equal to
Figure 00000006
(e.g., equal to a given direction) are skipped without modification by direction-dependent weighting, and spectral values, or spectral intervals, or spectral bands with an extracted direction value (e.g., pan index) deviating from
Figure 00000006
, are weighed. According to an embodiment, spectral values, or spectral intervals, or spectral bands with an extracted direction value of about
Figure 00000006
are weighted and skipped, and the rest of the values are discarded (for example, not further processed).

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью применения зависящего от направления взвешивания к одному или более представлениям в спектральной области двух или более входных аудиосигналов, чтобы получить взвешенные представления в спектральной области (например, «направленные сигналы»). Таким образом, взвешенные представления в спектральной области содержат, например, спектральные интервалы (т.е. частотно-временные компоненты) одного или более представлений в спектральной области двух или более входных аудиосигналов, которые соответствуют одному или более заданным направлениям, например, в пределах значения допуска (например, также спектральные интервалы, ассоциированные с различными заданными направлениями, граничащими с выбранным заданным направлением). В соответствии с вариантом осуществления для каждого заданного направления взвешенное представление в спектральной области может быть реализовано зависящим от направления взвешиванием (например, взвешенное представление в спектральной области может содержать зависящие от направления взвешенные спектральные значения, спектральные интервалы или спектральные полосы, ассоциированные с заданным направлением, и/или ассоциированные с направлением вблизи заданного направления по времени). В качестве альтернативы для каждого представления в спектральной области (например, двух или более входных аудиосигналов) получается одно взвешенное представление в спектральной области, которое представляет, например, соответствующее представление в спектральной области, нагруженное для всех заданных направлений.According to an embodiment, the audio data analysis module is configured to apply direction-dependent weighting to one or more spectral domain representations of two or more input audio signals to obtain weighted spectral domain representations (eg, "directional signals"). Thus, weighted spectral domain representations comprise, for example, spectral intervals (i.e., time-frequency components) of one or more spectral domain representations of two or more input audio signals that correspond to one or more given directions, for example, within the value tolerance (eg, also spectral intervals associated with different predetermined directions bordering the selected predetermined direction). According to an embodiment, for each given direction, a weighted spectral domain representation may be implemented by direction-dependent weighting (e.g., a weighted spectral domain representation may contain direction-dependent weighted spectral values, spectral intervals, or spectral bands associated with a given direction, and /or associated with a direction near a given direction in time). Alternatively, for each spectral domain representation (eg, two or more input audio signals), one weighted spectral domain representation is obtained that represents, for example, the corresponding spectral domain representation weighted for all given directions.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью получения взвешенных представлений в спектральной области таким образом, что компоненты сигнала, имеющие ассоциированное первое заданное направление (например, первое направление панорамирования), усиливаются по сравнению с компонентами сигнала, имеющими ассоциированные другие направления (которые отличаются от первого заданного направления, и которые, например, ослабляются в соответствии с гауссовой функцией) в первом взвешенном представлении в спектральной области, а также таким образом, что компоненты сигнала, имеющие ассоциированное второе заданное направление (которое отличается от первого заданного направления) (например, второе направление панорамирования), усиливаются по сравнению с компонентами сигнала, имеющими ассоциированные другие направления (которые отличаются от второго заданного направления, и которые, например, ослабляются в соответствии с гауссовой функцией) во втором взвешенном представлении в спектральной области. Таким образом, например, для каждого заданного направления может быть определено взвешенное представление в спектральной области для каждого сигнала из двух или более входных аудиосигналов.According to an embodiment, an audio data analysis module is configured to obtain weighted representations in the spectral domain such that signal components having an associated first predetermined direction (e.g., a first pan direction) are boosted compared to signal components having other directions associated (which different from the first specified direction, and which are, for example, attenuated according to a Gaussian function) in the first weighted representation in the spectral domain, and also in such a way that the signal components having an associated second specified direction (which is different from the first specified direction) (for example , the second panning direction) are boosted compared to signal components having associated other directions (which are different from the second predetermined direction, and which are, for example, attenuated according to a Gaussian function) in the second weighted spectral domain representation. Thus, for example, for each given direction, a weighted representation in the spectral domain can be determined for each signal from two or more input audio signals.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью получения взвешенных представлений в спектральной области

Figure 00000007
, ассоциированных с входным аудиосигналом или объединением входных аудиосигналов, обозначенных индексом i, спектральной полосой, обозначенной индексом b, направлением, обозначенным индексом
Figure 00000008
, временем (или временным кадром), обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k, в соответствии с
Figure 00000009
, где
Figure 00000010
обозначает представление в спектральной области, ассоциированное с входным аудиосигналом или объединением входных аудиосигналов, обозначенных индексом i (например, i=L, или i=R, или i=DM; где L=left (левый), R=right (правый) и DM=downmix (микшированный с понижением)), спектральной полосой, обозначенной индексом b, временем (или временным кадром) обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k, и
Figure 00000001
обозначает зависящее от направления взвешивание (например, функцию взвешивания, такую как гауссова функция), ассоциированное с направлением, обозначенным индексом
Figure 00000002
, временем (или временным кадром), обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k. Таким образом, взвешенные представления в спектральной области могут быть определены, например, посредством взвешивания представления в спектральной области, ассоциированного с входным аудиосигналом или объединением входных аудиосигналов, с помощью зависящего от направления взвешивания.According to an embodiment, the audio data analysis module is configured to obtain weighted representations in the spectral domain
Figure 00000007
associated with the input audio signal or the combination of the input audio signals, indicated by the index i, the spectral band, indicated by the index b, the direction, indicated by the index
Figure 00000008
, a time (or time frame) denoted by time index m, and a spectral interval denoted by spectral interval index k, according to
Figure 00000009
, Where
Figure 00000010
denotes the spectral domain representation associated with the input audio signal or combination of the input audio signals, denoted by index i (e.g., i=L or i=R or i=DM; where L=left (left), R=right (right) and DM=downmix), a spectral band indicated by index b, a time (or time frame) indicated by time index m, and a spectral interval indicated by spectral interval index k, and
Figure 00000001
denotes a direction-dependent weighting (e.g., a weighting function such as a Gaussian function) associated with the direction indicated by the index
Figure 00000002
, a time (or time frame) denoted by time index m, and a spectral slot denoted by spectral slot index k. Thus, weighted spectral domain representations can be determined, for example, by weighting the spectral domain representation associated with the input audio signal or by combining the input audio signals with direction-dependent weighting.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью определения среднего значения по множеству значений громкости полос (например, ассоциированных с различными частотными полосами, но с одним и тем же направлением, например, ассоциированным с заданным направлением и/или направлениями вблизи заданного направления), чтобы получить значение объединенной громкости (например, ассоциированное с определённым направлением или направлением панорамирования, т.е. с заданным направлением). Значение объединенной громкости может представлять информацию о громкости, полученную модулем анализа аудиоданных в качестве результата анализа. В качестве альтернативы информация о громкости, полученная модулем анализа аудиоданных в качестве результата анализа, может содержать значение объединенной громкости. Таким образом информация о громкости может содержать значения объединенной громкости, ассоциированные с разными заданными направлениями, из которых может быть получена карта направленной громкости.In accordance with an embodiment, the audio data analysis module is configured to determine an average value over a plurality of band loudness values (e.g., associated with different frequency bands but with the same direction, e.g., associated with a given direction and/or directions near a given direction) to get the value of the combined volume (for example, associated with a certain direction or panning direction, i.e. with a given direction). The combined loudness value may represent loudness information obtained by the audio analysis module as an analysis result. Alternatively, the loudness information obtained by the audio analysis module as a result of the analysis may contain a combined loudness value. Thus, the loudness information may comprise combined loudness values associated with different predetermined directions, from which a directional loudness map can be derived.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью получения значений громкости полос для множества спектральных полос (например, ERB-полос) на основе взвешенного объединенного представления в спектральной области, представляющего множество входных аудиосигналов (например, объединение двух или более входных аудиосигналов) (причем, например, взвешенное объединенное спектральное представление может объединять взвешенные представления в спектральной области, ассоциированные с входными аудиосигналами). Дополнительно модуль анализа аудиоданных выполнен с возможностью получения в качестве результата анализа множества значений объединенной громкости (охватывающего множество спектральных полос; например, в виде одной скалярной величины) на основе полученных значений громкости частотных полос для множества различных направлений (или направлений панорамирования). Таким образом, например, модуль анализа аудиоданных выполнен с возможностью усреднения по всем значениям громкости частотных полос, ассоциированным с одним и тем же направлением, чтобы получить значение объединенной громкости, ассоциированное с этим направлением (что приводит, например, к множеству значений объединенной громкости). Модуль анализа аудиоданных, например, выполнен с возможностью получения значения объединенной громкости для каждого заданного направления.According to an embodiment, an audio data analysis module is configured to derive band loudness values for a plurality of spectral bands (e.g., ERB bands) based on a weighted combined spectral domain representation representing a plurality of input audio signals (e.g., a combination of two or more input audio signals) ( wherein, for example, the weighted combined spectral representation may combine the weighted spectral domain representations associated with the input audio signals). Additionally, the audio data analysis module is configured to obtain, as an analysis result, a plurality of combined loudness values (covering a plurality of spectral bands; for example, as a single scalar value) based on the obtained frequency band loudness values for a plurality of different directions (or panning directions). Thus, for example, the audio data analysis module is configured to average over all frequency band loudness values associated with the same direction to obtain a combined loudness value associated with that direction (resulting in, for example, multiple combined loudness values). The audio data analysis module, for example, is configured to obtain a combined loudness value for each given direction.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью вычисления среднего значения квадратов спектральных значений взвешенного объединенного представления в спектральной области по спектральным значениям частотной полосы (или по спектральным интервалам частотной полосы) и применения возведения в степень с показателем между 0 и 1/2 (и предпочтительно меньшим или равный 1/3 или ¼) к среднему значению квадратов спектральных значений, чтобы определить значения громкости частотных полос (ассоциированные с соответствующей частотной полосой).In accordance with an embodiment, the audio data analysis module is configured to calculate the average of the squares of the spectral values of the weighted combined representation in the spectral domain over the spectral values of the frequency band (or over the spectral intervals of the frequency band) and apply exponentiation with an exponent between 0 and 1/2 ( and preferably less than or equal to 1/3 or ¼) to the average of the squares of the spectral values to determine the loudness values of the frequency bands (associated with the respective frequency band).

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью получения значений громкости частотных полос

Figure 00000011
, ассоциированных со спектральной полосой, обозначенной индексом b, направлением, обозначенным индексом
Figure 00000002
, временем (или временным кадром), обозначенным временным индексом m, в соответствии с
Figure 00000012
. Коэффициент Kb обозначает количество спектральных интервалов в частотной полосе, имеющей индекс частотной полосы b. Переменная k является бегущей переменной и обозначает спектральные интервалы в частотной полосе, имеющей индекс частотной полосы b, где b обозначает спектральную полосу.
Figure 00000013
обозначает взвешенное объединенное представление в спектральной области, ассоциированное со спектральной полосой, обозначенной индексом b, направлением, обозначенным индексом
Figure 00000002
, временем (или временным кадром), обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k.According to an embodiment, the audio data analysis module is configured to obtain loudness values of the frequency bands
Figure 00000011
, associated with the spectral band, denoted by the index b, the direction, denoted by the index
Figure 00000002
, time (or time frame) denoted by time index m, according to
Figure 00000012
. The coefficient K b denotes the number of spectral slots in a frequency band having a frequency band index b. The variable k is a running variable and denotes the spectral intervals in the frequency band having the frequency band index b, where b denotes the spectral band.
Figure 00000013
denotes the weighted combined spectral domain representation associated with the spectral band denoted by index b, the direction denoted by index
Figure 00000002
, a time (or time frame) denoted by time index m, and a spectral interval denoted by spectral slot index k.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью получения множества значений объединенной громкости L(m,

Figure 00000002
), ассоциированного с направлением, обозначенным индексом
Figure 00000002
, и временем (или временным кадром), обозначенным временным индексом m, в соответствии с
Figure 00000014
, Коэффициент B обозначает общее количество спектральных полос b, и
Figure 00000011
обозначает значения громкости частотных полос, ассоциированные со спектральной полосой, обозначенной индексом b, направлением, обозначенным индексом
Figure 00000002
, и временем (или временным кадром), обозначенным временным индексом m.According to an embodiment, the audio data analysis module is configured to obtain a plurality of combined loudness values L(m,
Figure 00000002
) associated with the direction indicated by the index
Figure 00000002
, and the time (or time frame) denoted by time index m, according to
Figure 00000014
, coefficient B denotes the total number of spectral bands b, and
Figure 00000011
denotes the loudness values of the frequency bands associated with the spectral band indicated by the index b, the direction indicated by the index
Figure 00000002
, and time (or time frame) denoted by time index m.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью распределения вкладов громкости в интервалы гистограммы, ассоциированные с различными направлениями (например, вторыми различными направлениями, как описано выше; например, заданными направлениями) в зависимости от информации о направлении, чтобы получить результат анализа. Вклады громкости, например, представлены множеством значений объединенной громкости или множеством значений громкости частотных полос. Таким образом, например, результат анализа содержит карту направленной громкости, определенную интервалами гистограммы. Каждый интервал гистограммы, например, ассоциирован с одним из заданных направлений.According to an embodiment, the audio data analysis module is configured to distribute loudness contributions to histogram bins associated with different directions (e.g., second different directions as described above; e.g., predetermined directions) depending on direction information to obtain an analysis result. Loudness contributions, for example, are represented by a plurality of combined loudness values or a plurality of frequency band loudness values. Thus, for example, the analysis result contains a directional loudness map defined by histogram intervals. Each interval of the histogram, for example, is associated with one of the given directions.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью получения информации о громкости, ассоциированной со спектральными интервалами, на основе представлений в спектральной области (например, для получения объединенной громкости для каждой частотно-временной (T/F) ячейки). Модуль анализа аудиоданных выполнен с возможностью добавления вклада громкости в один или более интервалов гистограммы на основе информации о громкости, ассоциированной с определённым спектральным интервалом. Вклад громкости, ассоциированный с определённым спектральным интервалом, например, добавляется к различным интервалам гистограммы с различным взвешиванием (например, в зависимости от направления, соответствующего интервалу гистограммы). Выбор, в какой один или более интервалов гистограммы делается (т.е. добавляется) вклад громкости, основан на определении информации о направлении (т.е. извлеченного значения направления) для определённого спектрального интервала. В соответствии с вариантом осуществления каждый интервал гистограммы может представлять ячейку времени/направления. Таким образом интервал гистограммы, например, ассоциирован с громкостью объединенных двух или более входных аудиосигналов в некотором временном кадре и направлении. Для определения информации о направлении для определённого спектрального интервала, например, анализируется информация об уровне для соответствующих спектральных интервалов представлений в спектральной области двух или более входных аудиосигналов.According to an embodiment, the audio data analysis module is configured to obtain loudness information associated with spectral intervals based on spectral domain representations (eg, to obtain combined loudness for each T/F cell). The audio data analysis module is configured to add a loudness contribution to one or more histogram bins based on loudness information associated with a particular spectral bin. The loudness contribution associated with a particular spectral interval, for example, is added to different histogram intervals with different weightings (eg, depending on the direction corresponding to the histogram interval). The choice of which one or more histogram bins the loudness contribution is made (i.e., added to) is based on determining direction information (i.e., the extracted direction value) for a particular spectral bin. According to an embodiment, each histogram bin may represent a time/direction bin. Thus, the histogram interval, for example, is associated with the volume of the combined two or more audio inputs in some time frame and direction. To determine the direction information for a certain spectral interval, for example, the level information for the respective spectral intervals of representations in the spectral domain of two or more input audio signals is analyzed.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью добавления вкладов громкости в множество интервалов гистограммы на основе информации о громкости, ассоциированной с определённым спектральным интервалом, таким образом, что наибольший вклад (например, основной вклад) добавляется к интервалу гистограммы, ассоциированному с направлением, которое соответствует информации о направлении, ассоциированной с определённым спектральным интервалом (т.е. извлеченному значению направления), и таким образом, что сокращенные вклады (например, сравнительно меньшие, чем наибольший вклад или основной вклад) добавляются к одному или более интервалам гистограммы, ассоциированным с дополнительными направлениями (например, по соседству с направлением, которое соответствует информации о направлении, ассоциированной с определённым спектральным интервалом). Как описано выше, каждый интервал гистограммы может представлять ячейку времени/направления. В соответствии с вариантом осуществления множество интервалов гистограммы может определять карту направленной громкости, причем карта направленной громкости определяет, например, громкость для различных направлений по времени для объединения двух или более входных аудиосигналов.According to an embodiment, the audio data analysis module is configured to add loudness contributions to a plurality of histogram bins based on loudness information associated with a certain spectral bin, such that the largest contribution (e.g., the main contribution) is added to the histogram bin associated with direction. , which corresponds to the direction information associated with a particular spectral bin (i.e., the extracted direction value), and such that reduced contributions (eg, comparatively smaller than the largest contribution or main contribution) are added to one or more histogram bins, associated with additional directions (eg, adjacent to a direction that corresponds to direction information associated with a certain spectral interval). As described above, each histogram interval may represent a time/direction cell. According to an embodiment, a plurality of histogram bins may define a directional loudness map, where the directional loudness map defines, for example, loudness for different time directions for combining two or more audio inputs.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью получения информации о направлении на основе аудиосодержимого из двух или более входных аудиосигналов. Информация о направлении содержит, например, направления компонентов или источников в аудиосодержимом из двух или более входных аудиосигналов. Другими словами, информация о направлении может содержать направления панорамирования или индексы панорамирования источников в стереомикшированном сигнале из двух или более входных аудиосигналов.According to an embodiment, the audio data analysis module is configured to obtain direction information based on audio content from two or more input audio signals. The direction information contains, for example, directions of components or sources in the audio content from two or more input audio signals. In other words, the direction information may comprise pan directions or pan indices of sources in a stereo downmix signal from two or more audio inputs.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью получения информации о направлении на основе анализа амплитудного панорамирования аудиосодержимого. Дополнительно или в качестве альтернативы модуль анализа аудиоданных выполнен с возможностью получения информации о направлении на основе анализа фазового соотношения, и/или временной задержки, и/или корреляции между аудиосодержимым двух или более входных аудиосигналов. Дополнительно или в качестве альтернативы модуль анализа аудиоданных выполнен с возможностью получения информации о направлении на основе идентификации расширенных (например, декоррелированных и/или панорамированных) источников. Анализ амплитудного панорамирования аудиосодержимого может содержать анализ корреляции уровней между соответствующими спектральными интервалами представлений в спектральной области двух или более входных аудиосигналов (например, соответствующие спектральные интервалы с одинаковым уровнем могут быть ассоциированы с направлением посередине двух громкоговорителей, каждый из которых передает один из двух входных аудиосигналов). Аналогичным образом, может быть выполнен анализ фазового соотношения, и/или временной задержки, и/или корреляции между аудиосодержимым. Таким образом, например, фазовое соотношение, и/или временная задержка, и/или корреляция между аудиосодержимым анализируется для соответствующих спектральных интервалов представлений в спектральной области двух или более входных аудиосигналов. Дополнительно или в качестве альтернативы, кроме сравнений уровня/разности во времени между каналами существует дополнительный (например, третий) способ для оценки информации о направлении. Этот способ состоит в сопоставлении спектральной информации входящего аудиоданных с заранее измеренными «шаблонными спектральными откликами/фильтрами» функций моделирования восприятия аудиоданных (HRF) в различных направлениях.According to an embodiment, the audio data analysis module is configured to obtain direction information based on amplitude pan analysis of the audio content. Additionally or alternatively, the audio data analysis module is configured to obtain direction information based on an analysis of the phase relationship and/or time delay and/or correlation between the audio content of two or more input audio signals. Additionally or alternatively, the audio data analysis module is configured to obtain directional information based on the identification of extended (eg, decorrelated and/or panned) sources. An analysis of the amplitude panning of audio content may comprise analyzing the level correlation between respective spectral intervals of the spectral domain representations of two or more input audio signals (e.g., corresponding spectral intervals of the same level may be associated with a mid-direction of two loudspeakers each transmitting one of the two input audio signals) . Similarly, phase relationship and/or time delay and/or correlation analysis between audio content can be performed. Thus, for example, the phase relationship and/or time delay and/or correlation between the audio content is analyzed for the respective spectral intervals of the spectral domain representations of the two or more input audio signals. Additionally or alternatively, besides level/time difference comparisons between channels, there is an additional (eg, third) method for estimating direction information. This method consists of comparing the spectral information of the incoming audio data with pre-measured "template spectral responses/filters" of audio perceptual modeling functions (HRFs) in various directions.

Например: в некоторой частотно-временной ячейке огибающая спектра входящего сигнала на 35 градусов от левого и правого каналов может близко совпадать с формой линейных фильтров для левого и правого ушей, измеренных под углом 35 градусов. Затем алгоритм оптимизации или процедура сопоставления с образцом присвоит направление прихода аудиоданных, составляющее 35°. Более подробную информацию можно найти здесь: https://iem.kug.ac.at/fileadmin/media/iem/projects/2011/baumgartner_robert.pdf (см., например, главу 2). Этот способ имеет преимущество, позволяющее оценить входящее направление вертикально поднятых источников аудиоданных (в сагиттальной плоскости) в дополнение к горизонтальным источникам. Этот способ основан, например, на сравнениях спектральных уровней.For example: in some time-frequency cell, the spectrum envelope of the incoming signal at 35 degrees from the left and right channels can closely match the shape of the linear filters for the left and right ears, measured at an angle of 35 degrees. The optimization algorithm or pattern matching procedure will then assign the direction of arrival of the audio data to be 35°. More information can be found here: https://iem.kug.ac.at/fileadmin/media/iem/projects/2011/baumgartner_robert.pdf (see e.g. chapter 2). This method has the advantage of being able to estimate the incoming direction of vertically raised audio sources (in the sagittal plane) in addition to horizontal sources. This method is based, for example, on comparisons of spectral levels.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью расширения информации о громкости в множестве направлений (например, вне направления, обозначенного информацией о направлении) в соответствии с правилом расширения (например, гауссовым правилом расширения или ограниченным, дискретным правилом расширения). Это означает, например, что информация о громкости, соответствующая некоторому спектральному интервалу, ассоциированному с некоторой информацией о направлении, может также вносить вклад в соседние направления (некоторого направления спектрального интервала) в соответствии с правилом расширения. В соответствии с вариантом осуществления правило расширения может содержать зависящее от направления взвешивание или соответствовать ему, причем зависящее от направления взвешивание в этом случае, например, определяет по-разному нагруженные вклады информации о громкости некоторого спектрального интервала в множество направлений.According to an embodiment, the audio data analysis module is configured to spread the loudness information in multiple directions (eg, outside the direction indicated by the direction information) according to a spreading rule (eg, a Gaussian spreading rule or a limited, discrete spreading rule). This means, for example, that loudness information corresponding to some spectral interval associated with some direction information may also contribute to neighboring directions (of some spectral interval direction) according to the spreading rule. According to an embodiment, the extension rule may contain or correspond to a direction-dependent weighting, where the direction-dependent weighting in this case, for example, determines differently weighted contributions of the loudness information of a certain spectral interval in multiple directions.

Вариант осуществления в соответствии с настоящим изобретением относится к модулю оценки сходства аудиоданных, который выполнен с возможностью получения первой информации о громкости (например, карты направленной громкости; например, одного или более значений объединенной громкости), ассоциированной с различными направлениями (например, панорамирования), на основе первого множества из двух или более входных аудиосигналов. Модуль оценки сходства аудиоданных выполнен с возможностью сравнения первой информации о громкости со второй (например, соответствующей) информацией о громкости (например, эталонной информацией о громкости, эталонной картой направленной громкости и/или эталонным значением объединенной громкости), ассоциированной с различными направлениями (например, панорамирования), и с множеством из двух или более эталонных аудиосигналов, чтобы получить информацию о сходстве (например, «выходную переменную модели» (MOV); например, одну скалярную величину), описывающую сходство между первым множеством из двух или более входных аудиосигналов и множеством из двух или более эталонных аудиосигналов (или представляющую, например, качество первого множества из двух или более входных аудиосигналов при сравнении с множеством из двух или более эталонных аудиосигналов).An embodiment according to the present invention relates to an audio similarity estimator that is configured to obtain first loudness information (e.g., a directional loudness map; e.g., one or more combined loudness values) associated with different directions (e.g., panning), based on the first set of two or more input audio signals. The audio similarity estimator is configured to compare the first loudness information with second (e.g., corresponding) loudness information (e.g., reference loudness information, reference directional loudness map, and/or reference combined loudness value) associated with different directions (e.g., pan), and with a set of two or more reference audio signals to obtain similarity information (e.g., a "model output variable" (MOV); e.g., one scalar) describing the similarity between the first set of two or more audio input signals and the set of two or more reference audio signals (or representing, for example, the quality of a first set of two or more input audio signals when compared to a set of two or more reference audio signals).

Этот вариант осуществления основан на идее, что сравнение информации о направленной громкости (например, первой информации о громкости) двух или более входных аудиосигналов с информацией о направленной громкости (например, второй информацией о громкости) двух или более эталонных аудиосигналов является эффективным и улучшает точность показателя качества аудиоданных (например, информации о сходстве). Использование информации о громкости, ассоциированной с различными направлениями, особенно имеет преимущество в отношении стереомикшированных или многоканальных микшированных сигналов, поскольку различные направления могут быть ассоциированы, например, с направлениями (т.е. направлениями панорамирования, индексами панорамирования) источников (т.е. звуковые компонентов) в микшированных сигналах. Таким образом, может быть эффективно измерено ухудшение качества обработанной комбинации двух или более входных аудиосигналов. Другое преимущество состоит в том, что не сохраняющая форму сигнала обработка аудиоданных, такая как расширение частотной полосы (BWE), оказывает лишь минимальное влияние или не влияет на информацию о сходстве, поскольку информация о громкости для стереофонического образа или многоканального образа, например, определяется в области кратковременного преобразования Фурье (STFT). Кроме того, информация о сходстве на основе информации о громкости может быть легко дополнена информацией о монауральном/тембральном сходстве, чтобы улучшить перцептивное предсказание для двух или более входных аудиосигналов. Таким образом, используется только одна информация о сходстве, дополнительная к монауральным дескрипторам качества, что может сократить количество независимых и релевантных признаков сигнала, используемых системой объективного измерения качества аудиоданных, в отношении известных системы, использующих только монауральные дескрипторы качества. Использование меньшего количества признаков для одной и той же производительности снижает риск чрезмерного обучения и указывает на их более высокую перцептивную значимость.This embodiment is based on the idea that comparing directional loudness information (eg, first loudness information) of two or more input audio signals with directional loudness information (eg, second loudness information) of two or more reference audio signals is efficient and improves measure accuracy. the quality of the audio data (eg, similarity information). The use of loudness information associated with different directions is particularly advantageous with respect to stereo or multi-channel mixed signals, since different directions can be associated with, for example, directions (i.e. pan directions, pan indices) of sources (i.e. audio components) in the mixed signals. Thus, deterioration in the quality of the processed combination of two or more input audio signals can be effectively measured. Another advantage is that waveform-preserving processing of audio data, such as frequency band extension (BWE), has only minimal or no effect on the similarity information, since the loudness information for a stereo image or a multi-channel image, for example, is defined in region of the short-time Fourier transform (STFT). In addition, similarity information based on loudness information can be easily supplemented with monaural/timbre similarity information to improve perceptual prediction for two or more input audio signals. Thus, only one similarity information is used in addition to the monaural quality descriptors, which can reduce the number of independent and relevant signal features used by the objective audio quality measurement system in relation to known systems using only monaural quality descriptors. Using fewer features for the same performance reduces the risk of overlearning and indicates their higher perceptual significance.

В соответствии с вариантом осуществления модуль оценки сходства аудиоданных выполнен с возможностью получения первой информации о громкости (например, карты направленной громкости), причем первая информация о громкости (например, вектор, содержащий значения объединенной громкости для множества заданных направлений) содержит множество значений объединенной громкости, ассоциированных с первым множеством из двух или более входных аудиосигналов и ассоциированных с соответствующими заданными направлениями, причем значения объединенной громкости первой информации о громкости описывают громкость компонентов сигнала первого множества из двух или более входных аудиосигналов, ассоциированных с соответствующими заданными направлениями (причем, например, каждое значение объединенной громкости ассоциировано с отдельным направлением). Таким образом, например, каждое значение объединенной громкости может быть представлено векторным определением, например, изменением громкости во времени для некоторого направления. Это означает, например, что одно значение объединенной громкости может содержать одно или более значений громкости, ассоциированных с последовательными временными кадрами. Заданные направления могут быть представлены направлениями/индексами панорамирования компонентов сигнала первого множества из двух или более входных аудиосигналов. Таким образом, например, заданные направления могут быть заданы посредством методик амплитудного панорамирования, используемых для установления положения направленных сигналов в стереофоническом или многоканальном микшировании, представленном первым множеством из двух или более входных аудиосигналов.According to an embodiment, the audio similarity estimator is configured to obtain first loudness information (e.g., directional loudness maps), wherein the first loudness information (e.g., a vector containing combined loudness values for a plurality of given directions) contains a plurality of combined loudness values, associated with the first set of two or more input audio signals and associated with the respective predetermined directions, wherein the combined loudness values of the first loudness information describe the loudness of the signal components of the first set of two or more input audio signals associated with the respective predetermined directions (with, for example, each value combined loudness associated with a separate direction). Thus, for example, each value of the combined loudness can be represented by a vector definition, for example, the change in loudness over time for some direction. This means, for example, that one combined loudness value may contain one or more loudness values associated with successive time frames. The given directions may be represented by pan directions/indices of the signal components of the first set of two or more input audio signals. Thus, for example, given directions may be given by amplitude panning techniques used to position directional signals in a stereo or multi-channel mix represented by a first set of two or more input audio signals.

В соответствии с вариантом осуществления модуль оценки сходства аудиоданных выполнен с возможностью получения первой информации о громкости (например, карты направленной громкости), причем первая информация о громкости ассоциирована с комбинациями множества взвешенных представлений в спектральной области (например, каждого аудиосигнала) первого множества из двух или более входных аудиосигналов, ассоциированных с соответствующими заданными направлениями (например, каждое значение объединенной громкости и/или взвешенное представление в спектральной области ассоциировано с отдельным заданным направлением). Это означает, например, что для каждого входного аудиосигнала вычисляется по меньшей мере одно взвешенное представление в спектральной области, и что затем объединяются все взвешенные представления в спектральной области, ассоциированные с одним и тем же заданным направлением. Таким образом, первая информация о громкости представляет, например, значения громкости, ассоциированные с несколькими спектральными интервалами, ассоциированными с одним и тем же заданным направлением. По меньшей мере некоторые из нескольких спектральных интервалов, например, взвешиваются иначе, чем другие интервалы из нескольких спектральных интервалов.According to an embodiment, the audio similarity estimator is configured to obtain first loudness information (e.g., directional loudness maps), wherein the first loudness information is associated with combinations of a plurality of spectral domain weighted representations (e.g., each audio signal) of a first set of two or more audio inputs associated with respective predetermined directions (eg, each combined loudness value and/or weighted spectral domain representation is associated with a separate predetermined direction). This means, for example, that at least one weighted spectral domain representation is computed for each input audio signal, and that all weighted spectral domain representations associated with the same given direction are then combined. Thus, the first loudness information represents, for example, loudness values associated with multiple spectral intervals associated with the same given direction. At least some of the multiple spectral bins, for example, are weighted differently than other bins of the multiple spectral bins.

В соответствии с вариантом осуществления модуль оценки сходства аудиоданных выполнен с возможностью определения разности между второй информацией о громкости и первой информацией о громкости, чтобы получить разностную информацию о громкости. В соответствии с вариантом осуществления разностная информация о громкости может представлять информацию о сходстве, или информация о сходстве может быть определена на основе разностной информации о громкости. Разностная информация о громкости, например, рассматривается как мера расстояния между второй информацией о громкости и первой информацией о громкости. Таким образом, разностная информация о громкости может рассматриваться как расстояние направленной громкости (например, DirLoudDist). С помощью этого признака качество двух или более входных аудиосигналов, ассоциированных с первой информацией о громкости, может быть определено очень эффективно.According to an embodiment, the audio similarity evaluator is configured to determine a difference between the second loudness information and the first loudness information to obtain the difference loudness information. According to an embodiment, the loudness difference information may represent similarity information, or the similarity information may be determined based on the loudness difference information. The difference loudness information, for example, is regarded as a measure of the distance between the second loudness information and the first loudness information. Thus, the differential loudness information can be thought of as a directional loudness distance (eg, DirLoudDist). With this feature, the quality of two or more input audio signals associated with the first loudness information can be determined very efficiently.

В соответствии с вариантом осуществления модуль оценки сходства аудиоданных выполнен с возможностью определения значения (например, одной скалярной величины), которое определяет величину различия по множеству направлений (и факультативно также по времени, например, по множеству кадров). Модуль оценки сходства аудиоданных, например, выполнен с возможностью определения средней величины разностной информации о громкости по всем направлениям (например, направлениям панорамирования) и по времени как значения, которое определяет величину различия. Тем самым определяется, например, единственное число, называемое выходной переменной модели (MOV), причем MOV определяет сходство первого множества из двух или более входных аудиосигналов относительно множества из двух или более эталонных аудиосигналов.According to an embodiment, the audio similarity estimator is configured to determine a value (eg, a single scalar value) that specifies the amount of difference across multiple directions (and optionally also over time, eg, across multiple frames). The audio similarity estimator, for example, is configured to determine an average value of difference loudness information across all directions (eg, panning directions) and over time as a value that determines the amount of difference. This defines, for example, a single number called the model output variable (MOV), where MOV defines the similarity of the first set of two or more input audio signals relative to the set of two or more reference audio signals.

В соответствии с вариантом осуществления модуль оценки сходства аудиоданных выполнен с возможностью получения первой информации о громкости и/или второй информации о громкости (например, как карты направленной громкости) с использованием модуля анализа аудиоданных в соответствии с одним из вариантов осуществления, описанных в настоящем документе.According to an embodiment, an audio similarity estimator is configured to obtain first loudness information and/or second loudness information (e.g., as directional loudness maps) using an audio data analysis module according to one of the embodiments described herein.

В соответствии с вариантом осуществления модуль оценки сходства аудиоданных выполнен с возможностью получения компонента направления (например, информации о направлении), используемого для получения информации о громкости, ассоциированной с различными направлениями (например, одной или более карт направленной громкости), с использованием метаданных, представляющих информацию о положении громкоговорителей, ассоциированных с входными аудиосигналами. Различные направления не обязательно ассоциированы с компонентом направления. В соответствии с вариантом осуществления компонент направления ассоциирован с двумя или более входными аудиосигналами. Таким образом, компонент направления может представлять идентификатор громкоговорителя или идентификатор канала, выделенный, например, различным направлениям или положениям громкоговорителя. Наоборот, различные направления, с которыми ассоциирована информация о громкости, могут представлять направления или положения звуковых компонентов в аудиосцене, реализованной двумя или более входными аудиосигналами. В качестве альтернативы различные направления могут представлять равномерно распределенные направления или положения в интервале положений (например, [-1; 1], где -1 представляет сигналы, панорамированные полностью налево, и +1 представляет сигналы, панорамированные полностью направо), в котором может разворачиваться аудиосцена, реализованная двумя или более входными аудиосигналами. В соответствии с вариантом осуществления различные направления могут быть ассоциированы с описанными здесь заданными направлениями. Компонент направления, например, ассоциирован с граничными точками интервала положений.According to an embodiment, an audio similarity estimator is configured to obtain a direction component (e.g., direction information) used to obtain loudness information associated with different directions (e.g., one or more directional loudness maps) using metadata representing information about the position of the speakers associated with the input audio signals. The different directions are not necessarily associated with a direction component. In accordance with an embodiment, the direction component is associated with two or more input audio signals. Thus, the direction component may represent a speaker identifier or a channel identifier allocated to, for example, different speaker directions or positions. Conversely, the different directions with which the loudness information is associated may represent directions or positions of audio components in an audio scene realized by two or more input audio signals. Alternatively, different directions may represent evenly spaced directions or positions within a range of positions (e.g., [-1; 1], where -1 represents cues panned all the way to the left and +1 represents cues panned all the way to the right) in which the an audio scene realized by two or more input audio signals. In accordance with an embodiment, different directions may be associated with the predetermined directions described here. A direction component, for example, is associated with endpoints of a position range.

Вариант осуществления в соответствии с настоящим изобретением относится к аудиокодеру для кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов (предпочтительно множество входных аудиосигналов). Аудиокодер выполнен с возможностью обеспечения одного или более кодированных (например, квантованных и затем кодированных без потерь) аудиосигналов (например, кодированных представлений в спектральной области) на основе одного или более входных аудиосигналов (например, сигнала левого канала и сигнала правого канала) или одного или более полученных из них сигналов (например, центрального сигнала, или микшированного с понижением сигнала и бокового сигнала, или сигнала разности). Дополнительно аудиокодер выполнен с возможностью адаптации параметров кодирования (например, для обеспечения одного или более кодированных аудиосигналов; например, параметров квантования) в зависимости от одной или более карт направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений (например, направлением панорамирования) одного или более подлежащих кодированию сигналов (например, в зависимости от вкладов отдельных карт направленной громкости одного или более сигналов, подлежащих квантованию, в общую карту направленной громкости, например, ассоциированную с несколькими входными аудиосигналами (например, с каждым сигналом из одного или более входных аудиосигналов))An embodiment according to the present invention relates to an audio encoder for encoding input audio content containing one or more input audio signals (preferably a plurality of input audio signals). The audio encoder is configured to provide one or more encoded (e.g., quantized and then lossless coded) audio signals (e.g., encoded spectral domain representations) based on one or more input audio signals (e.g., a left channel signal and a right channel signal) or one or more signals derived from them (for example, the center signal, or the downmix signal and the side signal, or the difference signal). Additionally, the audio encoder is adapted to adapt coding parameters (e.g., to provide one or more encoded audio signals; e.g., quantization parameters) depending on one or more directional loudness maps that represent loudness information associated with a plurality of different directions (e.g., pan direction). ) one or more signals to be encoded (for example, depending on the contributions of individual directional loudness maps of one or more signals to be quantized to a common directional loudness map, for example, associated with several input audio signals (for example, with each signal from one or more input audio signals))

Аудиосодержимое, содержащее один входной аудиосигнал, может быть ассоциировано с монауральной аудиосценой, аудиосодержимое, содержащее два входных аудиосигнала, может быть ассоциировано со стереофонической аудиосценой, и аудиосодержимое, содержащее три или более входных аудиосигнала, может быть ассоциировано с многоканальной аудиосценой. В соответствии с вариантом осуществления аудиокодер обеспечивает для каждого входного аудиосигнала отдельный кодированный аудиосигнал в качестве выходного сигнала или обеспечивает один объединенный выходной сигнал, содержащий два или более кодированных аудиосигнала из двух или более входных аудиосигналов.Audio content containing one audio input may be associated with a monaural audio scene, audio content containing two audio inputs may be associated with a stereo audio scene, and audio content containing three or more audio inputs may be associated with a multi-channel audio scene. In accordance with an embodiment, an audio encoder provides, for each input audio signal, a separate encoded audio signal as an output, or provides one combined output signal containing two or more encoded audio signals from two or more input audio signals.

Карты направленной громкости (т.е. DirLoudMap), от которых зависит адаптация параметров кодирования, могут быть разными для различного аудиосодержимого. Таким образом, для монауральной аудиосцены карта направленной громкости, например, содержит отклоняющиеся от нуля значения громкости только для одного направления (на основе единственного входного аудиосигнала), и, например, содержит равные нулю значения громкости для других направлений. Для стереофонической аудиосцены карта направленной громкости представляет, например, информацию о громкости, ассоциированную с обоими входными аудиосигналами, причем различные направления, например, ассоциированы с положениями или направлениями звуковых компонентов двух входных аудиосигналов. В случае трех или более входных аудиосигналов адаптация параметров кодирования зависит, например, от трех или более карт направленной громкости, причем каждая карта направленной громкости соответствует информации о громкости, ассоциированной с двумя из трех входных аудиосигналов (например, первая карта DirLoudMap может соответствовать первому и второму входным аудиосигналам; вторая карта DirLoudMap может соответствовать первому и третьему входным аудиосигналам; и третья карта DirLoudMap может соответствовать второму и третьему входным аудиосигналам). Как описано в отношении стереофонической аудиосцена, различные направления для карт направленной громкости в случае многоканальной аудиосцены, например, ассоциированы с положениями или направлениями звуковых компонентов нескольких входных аудиосигналов.The directional loudness maps (ie DirLoudMap) on which the adaptation of coding parameters depends may be different for different audio content. Thus, for a monaural audio scene, a directional loudness map, for example, contains non-zero loudness values for only one direction (based on a single audio input), and, for example, contains zero loudness values for other directions. For a stereo audio scene, a directional loudness map represents, for example, loudness information associated with both input audio signals, with different directions, for example, associated with the positions or directions of the audio components of the two audio input signals. In the case of three or more input audio signals, the adaptation of the coding parameters depends on, for example, three or more directional loudness maps, with each directional loudness map corresponding to loudness information associated with two of the three audio input signals (for example, the first DirLoudMap may correspond to the first and second input audio signals; the second DirLoudMap may correspond to the first and third audio input signals; and the third DirLoudMap may correspond to the second and third audio input signals). As described in relation to a stereo audio scene, the different directions for directional loudness maps in the case of a multi-channel audio scene are, for example, associated with the positions or directions of audio components of multiple audio inputs.

Варианты осуществления этого аудиокодера основаны на идее, что зависимость адаптации параметров кодирования от одной или более карт направленной громкости является эффективной и улучшает точность кодирования. Параметры кодирования, например, адаптируются в зависимости от разности карты направленной громкости, ассоциированной с одним или более входными аудиосигналами, и картой направленной громкости, ассоциированной с одним или более эталонными аудиосигналами. В соответствии с вариантом осуществления общие карты направленной громкости объединения всех входных аудиосигналов и объединения всех эталонных аудиосигналов сравниваются, или в качестве альтернативы карты направленной громкости отдельных или парных сигналов сравниваются с общей картой направленной громкости всех входных аудиосигналов (например, могут быть определены более чем одна разность). Разность между картами DirLoudMap может представлять качественную меру для кодирования. Таким образом, параметры кодирования, например, адаптируются таким образом, чтобы разность была минимизирована, чтобы гарантировать высококачественное кодирование аудиосодержимого, или параметры кодирования адаптируются таким образом, что кодируются только те сигналы аудиосодержимого, которые соответствуют разности при определенном пороговом значении, чтобы сократить сложность кодирования. В качестве альтернативы параметры кодирования, например, адаптируются в зависимости от отношения (например, вкладов) карт DirLoudMap отдельных сигналов или карт DirLoudMap пар сигналов в общую карту DirLoudMap (например, DirLoudMap, ассоциированную с объединением всех входных аудиосигналов). Аналогично разности это отношение может указывать сходство между отдельными сигналами или парами сигналов аудиосодержимого, или между отдельными сигналами и объединением всех сигналов аудиосодержимого, или парами сигналов и объединением всех сигналов аудиосодержимого, что приводит к высококачественному кодированию и/или сокращению сложности кодирования.Embodiments of this audio encoder are based on the idea that depending on one or more directional loudness adaptations of coding parameters is efficient and improves coding fidelity. The coding parameters are, for example, adapted depending on the difference between a directional loudness map associated with one or more input audio signals and a directional loudness map associated with one or more reference audio signals. In accordance with an embodiment, the overall directional loudness maps of the combination of all input audio signals and the combination of all reference audio signals are compared, or alternatively, the directional loudness maps of individual or paired signals are compared to the overall directional loudness map of all input audio signals (e.g., more than one difference can be determined ). The difference between DirLoudMaps may represent a qualitative measure for encoding. Thus, the coding parameters are, for example, adapted such that the difference is minimized to ensure high-quality audio content coding, or the coding parameters are adapted such that only those audio content signals that match the difference at a certain threshold are coded to reduce the coding complexity. Alternatively, the encoding parameters are, for example, adapted depending on the relationship (eg, contributions) of DirLoudMaps of individual signals or DirLoudMaps of pairs of signals to a common DirLoudMap (eg, DirLoudMap associated with the union of all input audio signals). Like difference, this ratio may indicate the similarity between individual signals or pairs of audio content signals, or between individual signals and a combination of all audio content signals, or pairs of signals and a combination of all audio content signals, resulting in high quality coding and/or reduction in coding complexity.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью адаптации распределения битов между одним или более сигналами и/или параметрами, подлежащими кодированию (или, например, между двумя или более сигналами и/или параметрами, подлежащими кодированию) (например, между разностным сигналом и микшированным с понижением сигналом, или между сигналом левого канала и сигналом правого канала, или между двумя или более сигналами, обеспеченными совместным кодированием нескольких сигналов, или между сигналом и параметрами, обеспеченными совместным кодированием нескольких сигналов) в зависимости от вкладов отдельных карт направленной громкости одного или более сигналов и/или параметров, подлежащих кодированию, в общую карту направленной громкости. Адаптация распределения битов, например, рассматривается как адаптация параметров кодирования аудиокодером. Распределение битов также может рассматриваться как распределение битовой скорости. Распределение битов, например, адаптируется посредством управления точностью квантования одного или более входных аудиосигналов аудиокодера. В соответствии с вариантом осуществления высокий вклад может указывать большое значение соответствующего входного аудиосигнала или пары входных аудиосигналов для высококачественного восприятия аудиосцены, создаваемой аудиосодержимым. Таким образом, например, аудиокодер может быть выполнен с возможностью обеспечения большого количества битов для сигналов с высоким вкладом и обеспечения лишь небольшого количества битов или отсутствия обеспечения битов для сигналов с низким вкладом. Таким образом, может быть достигнуто эффективное и высококачественное кодирование.According to an embodiment, the audio encoder is adapted to adapt the bit distribution between one or more signals and/or parameters to be encoded (or, for example, between two or more signals and/or parameters to be encoded) (for example, between the difference signal and the mixed down signal, or between a left channel signal and a right channel signal, or between two or more signals provided by joint encoding of several signals, or between a signal and parameters provided by joint encoding of several signals) depending on the contributions of individual directional loudness maps of one or more signals and/or parameters to be encoded into a common directional loudness map. Adaptation of the bit allocation, for example, is considered as an adaptation of the coding parameters by the audio encoder. The bit allocation can also be considered as bit rate allocation. The bit allocation is, for example, adapted by controlling the quantization precision of one or more of the audio encoder input audio signals. In accordance with an embodiment, a high contribution may indicate a high value of the respective input audio signal or pair of input audio signals for high quality perception of the audio scene created by the audio content. Thus, for example, an audio encoder can be configured to provide a large number of bits for high contribution signals and provide only few or no bits for low contribution signals. Thus, efficient and high quality coding can be achieved.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью запрещения кодирования определённого одного из подлежащих кодированию сигналов (например, разностного сигнала), когда вклады отдельной карты направленной громкости определённого одного из подлежащих кодированию сигналов (например, разностного сигнала) в общую карту направленной громкости ниже (например, заданного) порогового значения. Например, кодирование запрещается, если среднее отношение или отношение в направлении максимального относительного вклада ниже порогового значения. В качестве альтернативы или дополнительно вклады карт направленной громкости пар сигналов (например, отдельных карт направленной громкости пар сигналов (например, в качестве пары сигналов может рассматриваться комбинация двух сигналов; например, в качестве пары сигналов может рассматриваться комбинация сигналов, ассоциированных с различными каналами, и/или разностными сигналами, и/или микшированными с понижением сигналами)) в общую карту направленной громкости могут использоваться кодером, чтобы запретить кодирование определённого одного из сигналов (например, для трех подлежащих кодированию сигналов: как описано выше, три карты направленной громкости пар сигналов могут быть проанализированы относительно общей карты направленной громкости; таким образом, кодер может быть выполнен с возможностью определения пары сигналов с наиболее высоким вкладом в общую карту направленной громкости и кодирования только этих двух сигналов, и запрещать кодирование для оставшегося сигнала). Запрещение кодирования сигнала, например, рассматривается как адаптация параметров кодирования. Таким образом, не требуется кодировать сигналы, не очень релевантные для восприятия аудиосодержимого слушателем, и это приводит к очень эффективному кодированию. В соответствии с вариантом осуществления пороговое значение может быть установлено меньшим или равным 5%, 10%, 15%, 20% или 50% от информации о громкости общей карты направленной громкости.In accordance with an embodiment, an audio encoder is configured to inhibit encoding of a particular one of the signals to be encoded (e.g., a difference signal) when the contributions of an individual directional loudness map of the determined one of the signals to be encoded (e.g., a difference signal) to the overall directional loudness map are lower (e.g., , given) threshold value. For example, encoding is prohibited if the average ratio or the ratio in the direction of the maximum relative contribution is below a threshold value. Alternatively or additionally, the contributions of signal pair directional loudness maps (e.g., individual signal pair directional loudness maps (e.g., a combination of two signals can be considered as a signal pair; for example, a combination of signals associated with different channels can be considered as a signal pair, and /or difference signals, and/or downmixed signals)) into a common directional loudness map can be used by the encoder to disable encoding of a specific one of the signals (for example, for three signals to be encoded: as described above, the three directional loudness maps of signal pairs can be analyzed with respect to the overall directional loudness map; thus, the encoder can be configured to determine the pair of signals with the highest contribution to the overall directional loudness map and encode only those two signals, and disable encoding for the remaining signal). The inhibition of signal coding, for example, is regarded as an adaptation of the coding parameters. Thus, it is not necessary to encode signals that are not very relevant to the listener's perception of the audio content, and this results in very efficient coding. According to an embodiment, the threshold value may be set to less than or equal to 5%, 10%, 15%, 20%, or 50% of the volume information of the overall directional loudness map.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью адаптации точности квантования одного или более подлежащих кодированию сигналов (например, между разностным сигналом и микшированным с понижением сигналом) в зависимости от вкладов отдельных карт направленной громкости (соответствующего) одного или более подлежащих кодированию сигналов в общую карту направленной громкости. В качестве альтернативы или дополнительно, аналогично описанному выше запрещению, вклады карт направленной громкости пар сигналов в общую карту направленной громкости могут использоваться кодером, чтобы адаптировать точность квантования одного или более подлежащих кодированию сигналов. Адаптация точности квантования может рассматриваться в качестве примера для адаптации параметров кодирования аудиокодером.According to an embodiment, the audio encoder is configured to adapt the quantization accuracy of one or more signals to be coded (e.g., between the difference signal and the downmix signal) depending on the contributions of individual directional loudness maps of the (corresponding) one or more signals to be coded to the overall map. directional volume. Alternatively, or additionally, similar to the prohibition described above, the contributions of the signal pair directional loudness maps to the overall directional loudness map may be used by the encoder to adapt the quantization accuracy of one or more signals to be encoded. Quantization precision adaptation can be considered as an example for adapting coding parameters by an audio encoder.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью квантования представления в спектральной области одного или более входных аудиосигналов (например, сигнала левого канала и сигнала правого канала; например, один или более входных аудиосигналов соответствуют множеству различных каналов; таким образом аудиокодер принимает, например, многоканальный вход) или одного или более полученных из них сигналов (например, центрального сигнала, или микшированного с понижением сигнала и бокового сигнала, или сигнала разности) с использованием одного или более параметров квантования (например, масштабных коэффициентов или параметров, описывающих, какая точность квантования или какой шаг квантования к каким спектральным интервалам или частотным полосам одного или более подлежащих квантованию сигналов следует применять) (причем параметры квантования описывают, например, распределение битов различным подлежащим квантованию сигналам и/или различным частотным полосам), чтобы получить одно или более квантованных представления в спектральной области. Аудиокодер выполнен с возможностью регулировки одного или более параметров квантования (например, чтобы адаптировать распределение битов между одним или более подлежащими кодированию сигналами) в зависимости от одной или более карт направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений (например, направлением панорамирования) одного или более подлежащих квантованию сигналов, чтобы адаптировать обеспечение одного или более кодированных аудиосигналов (например, в зависимости от вкладов отдельных карт направленной громкости одного или более сигналов, подлежащих квантованию, в общую карту направленной громкости, например, ассоциированную с несколькими входными аудиосигналами (например, с каждым сигналом из одного или более входных аудиосигналов)). Дополнительно аудиокодер выполнен с возможностью кодирования одного или более квантованных представлений в спектральной области, чтобы получить один или более кодированных аудиосигналов.According to an embodiment, an audio encoder is configured to quantize a spectral domain representation of one or more input audio signals (e.g., a left channel signal and a right channel signal; for example, one or more input audio signals correspond to a plurality of different channels; thus, the audio encoder receives, for example, a input) or one or more signals derived from them (e.g., a center signal, or a downmix signal and a side signal, or a difference signal) using one or more quantization parameters (e.g., scaling factors or parameters describing how precise the quantization or which quantization step to which spectral intervals or frequency bands of one or more signals to be quantized should be applied) (with quantization parameters describing, for example, the distribution of bits to different signals to be quantized and/or different frequency bands) to obtain one or more quantized representations in the spectral areas. The audio encoder is configured to adjust one or more quantization parameters (e.g., to adapt the bit distribution between one or more signals to be encoded) depending on one or more directional loudness maps that represent loudness information associated with a plurality of different directions (e.g., direction panning) of one or more signals to be quantized in order to adapt the provision of one or more encoded audio signals (e.g., depending on the contributions of individual directional loudness maps of one or more signals to be quantized to a common directional loudness map, for example, associated with several input audio signals ( for example, with each signal from one or more input audio signals)). Additionally, the audio encoder is configured to encode one or more quantized representations in the spectral domain to obtain one or more encoded audio signals.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью регулировки одного или более параметров квантования в зависимости от вкладов отдельных карт направленной громкости одного или более подлежащих квантованию сигналов в общую карту направленной громкости.According to an embodiment, the audio encoder is configured to adjust one or more quantization parameters depending on the contributions of the individual directional loudness maps of the one or more signals to be quantized to the overall directional loudness map.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью определения общей карты направленной громкости на основе входных аудиосигналов, причем общая карта направленной громкости представляет информацию о громкости, ассоциированную с различными направлениями (например, звуковых компонентов; например, с направлениями панорамирования) аудиосцены, представленной (или подлежащей представлению, например, после рендеринга на стороне декодера) посредством входных аудиосигналов (возможно, в сочетании со знаниями или вспомогательной информацией относительно положений громкоговорителей и/или знаниями или вспомогательной информацией, описывающей положения звуковых объектов). Общая карта направленной громкости представляет, например, информацию о громкости, ассоциированную со всеми (например, с объединением) входными аудиосигналами.According to an embodiment, an audio encoder is configured to determine an overall directional loudness map based on input audio signals, where the overall directional loudness map represents loudness information associated with different directions (e.g., audio components; e.g., pan directions) of the audio scene represented by (or to be represented, e.g. after rendering at the decoder side) via input audio signals (perhaps in combination with knowledge or ancillary information regarding speaker positions and/or knowledge or ancillary information describing the positions of audio objects). The overall directional loudness map represents, for example, loudness information associated with all (eg, pooling) audio inputs.

В соответствии с вариантом осуществления один или более подлежащих квантованию сигналов ассоциированы (например, фиксированным, не зависящем от сигналов методом) с различными направлениями (например, первыми различными направлениями) или ассоциированы с различными громкоговорителями (например, в различных заданных положениях громкоговорителей) или ассоциированы с различными звуковыми объектами (например, со звуковыми объектами, подлежащими рендерингу в различных положениях, например, в соответствии с информацией о рендеринге объектов; например, с индексом панорамирования).According to an embodiment, one or more signals to be quantized are associated (e.g., in a fixed, signal-independent manner) with different directions (e.g., first different directions) or associated with different speakers (e.g., at different predetermined speaker positions) or associated with different audio objects (eg, with audio objects to be rendered at different positions, eg, according to object rendering information; eg, pan index).

В соответствии с вариантом осуществления подлежащие квантованию сигналы содержат компоненты (например, центральный сигнал и боковой сигнал стереофонического центрального/бокового кодирования) совместного многосигнального кодирования двух или более входных аудиосигналов.According to an embodiment, the signals to be quantized comprise the components (eg, center signal and stereo center/side coding side signal) of a joint multi-signal coding of two or more input audio signals.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью оценки вклада разностного сигнала совместного многосигнального кодирования в общую карту направленной громкости и регулировки одного или более параметров квантования в зависимости от этого. Оценочный вклад, например, представлен вкладом карты направленной громкости разностного сигнала в общую карту направленной громкости.According to an embodiment, the audio encoder is configured to estimate the contribution of the joint multi-signal coding difference signal to the overall directional loudness map and adjust one or more quantization parameters depending thereon. The estimated contribution, for example, is represented by the contribution of the difference signal directional loudness map to the overall directional loudness map.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью адаптации распределение битов между одним или более сигналами и/или параметрами, подлежащими отдельному кодированию для различных спектральных интервалов или отдельному кодированию для различных частотных полос. Дополнительно или в качестве альтернативы аудиокодер выполнен с возможностью адаптации точности квантования одного или более подлежащих отдельному кодированию сигналов для различных спектральных интервалов или отдельному кодированию для различных частотных полос. С помощью адаптации точности квантования аудиокодер, например, также выполнен с возможностью адаптации распределения битов. Таким образом, аудиокодер, например, выполнен с возможностью адаптации распределения битов между одним или более аудиосигналами аудиосодержимого, подлежащего кодированию аудиокодером. Дополнительно или в качестве альтернативы адаптируется распределение битов между подлежащими кодированию параметрами. Адаптация распределения битов может быть выполнена аудиокодером отдельно для различных спектральных интервалов или отдельно для различных частотных полос. В соответствии с вариантом осуществления также возможно, что адаптируется распределение битов между сигналами и параметрами. Другими словами, каждый сигнал из одного или более подлежащих кодированию аудиокодером сигналов может содержать отдельное распределение битов для различных спектральных интервалов и/или различных частотных полос (например, соответствующего сигнала), и это отдельное распределение битов для каждого одного или более подлежащих кодированию сигналов может быть адаптировано аудиокодером.According to an embodiment, an audio encoder is adapted to adapt the bit distribution between one or more signals and/or parameters to be separately encoded for different spectral intervals or separately encoded for different frequency bands. Additionally or alternatively, the audio encoder is configured to adapt the quantization accuracy of one or more signals to be separately coded for different spectral intervals or separately coded for different frequency bands. By adapting the quantization precision, the audio encoder, for example, is also adapted to adapt the bit allocation. Thus, the audio encoder is, for example, adapted to adapt the bit distribution between one or more audio signals of the audio content to be encoded by the audio encoder. Additionally or alternatively, the bit distribution between the parameters to be encoded is adapted. The bit allocation adaptation may be performed by the audio encoder separately for different spectral intervals or separately for different frequency bands. According to an embodiment, it is also possible that the bit allocation between signals and parameters is adapted. In other words, each signal of the one or more signals to be encoded by the audio encoder may contain a separate bit allocation for different spectral intervals and/or different frequency bands (e.g., the corresponding signal), and this separate bit allocation for each one or more signals to be encoded may be adapted by audio encoder.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью адаптации распределения битов между одним или более сигналами и/или параметрами, подлежащими кодированию (например, отдельно для каждого спектрального интервала или для каждой частотной полосы) в зависимости от оценки пространственного маскирования между двумя или более подлежащими кодированию сигналами. Кроме того, аудиокодер выполнен с возможностью оценки пространственного маскирования на основе карт направленной громкости, ассоциированных с двумя или более подлежащими кодированию сигналами. Это основано, например, на идее, что карты направленной громкости разложены в пространстве и/или во времени. Таким образом, например, тратится лишь немного битов или биты не тратятся для сигналов в маске, и больше битов (например, больше, чем для сигналов в маске) тратится для кодирования релевантных сигналов или компонентов сигналов (например, сигналов или компонентов сигналов, не маскированных другими сигналами или компонентами). В соответствии с вариантом осуществления пространственное маскирование зависит, например, от уровня, ассоциированного со спектральными интервалами и/или частотными полосами двух или более подлежащих кодированию сигналов, на пространственном расстоянии между спектральными интервалами и/или частотными полосами, и/или на временном расстоянии между спектральными интервалами и/или частотными полосами). Карты направленной громкости могут непосредственно обеспечивать информацию о громкости для отдельных спектральных интервалов и/или частотных полос для отдельных сигналов или объединения сигналов (например, пар сигналов), что приводит к эффективному анализу пространственного маскирования кодером.In accordance with an embodiment, an audio encoder is adapted to adapt the bit distribution between one or more signals and/or parameters to be encoded (for example, separately for each spectral interval or for each frequency band) depending on the spatial masking estimate between the two or more to be encoded. signals. In addition, the audio encoder is configured to estimate spatial concealment based on directional loudness maps associated with two or more signals to be encoded. This is based, for example, on the idea that directional loudness maps are spread out in space and/or time. Thus, for example, only few or no bits are wasted for masked signals, and more bits (e.g., more than for masked signals) are spent to encode relevant signals or signal components (e.g., signals or signal components that are not masked). other signals or components). According to an embodiment, the spatial concealment depends, for example, on the level associated with the spectral intervals and/or frequency bands of the two or more signals to be encoded, at the spatial distance between the spectral intervals and/or frequency bands, and/or at the time distance between the spectral intervals and/or frequency bands. intervals and/or frequency bands). Directional loudness maps can directly provide loudness information for individual spectral intervals and/or frequency bands for individual signals or combinations of signals (eg, pairs of signals), resulting in an efficient encoder spatial masking analysis.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью оценки эффекта маскирования вклада громкости, ассоциированного с первым направлением первого подлежащего кодированию сигнала, на вклад громкости, ассоциированный со вторым направлением (которое отличается от первого направления) второго подлежащего кодированию сигнала (в котором, например, эффект маскирования сокращается с увеличением разности углов). Эффект маскирования определяет, например, уместность пространственного маскирования. Это означает, например, что для вкладов громкости, ассоциированных с эффектом маскирования, который ниже порогового значения, тратится больше битов, чем для сигналов (например, пространственно маскированных сигналов), ассоциированных с эффектом маскирования, который выше порогового значения. В соответствии с вариантом осуществления пороговое значение может быть определено как 20%, 50%, 60%, 70% или 75% маскирование от полного маскирования. Это означает, например, что эффект маскирования соседних спектральных интервалов или частотных полос оценивается в зависимости от информации о громкости карт направленной громкости.According to an embodiment, the audio encoder is configured to evaluate the effect of masking the loudness contribution associated with the first direction of the first signal to be coded on the loudness contribution associated with the second direction (which is different from the first direction) of the second signal to be coded (in which, for example, the effect masking decreases as the angle difference increases). The masking effect determines, for example, the appropriateness of the spatial masking. This means, for example, that more bits are wasted for loudness contributions associated with a masking effect that is below a threshold than for signals (eg, spatially masked signals) associated with a masking effect that is above the threshold. According to an embodiment, the threshold value may be defined as 20%, 50%, 60%, 70%, or 75% masking from full masking. This means, for example, that the masking effect of neighboring spectral intervals or frequency bands is estimated depending on the loudness information of the directional loudness maps.

В соответствии с вариантом осуществления аудиокодер содержит модуль анализа аудиоданных в соответствии с одним из описанных в настоящем документе вариантов осуществления, причем информация о громкости (например, «карта направленной громкости»), ассоциированная с различными направлениями, формирует карту направленной громкости.In accordance with an embodiment, an audio encoder comprises an audio parsing module, in accordance with one of the embodiments described herein, wherein loudness information (eg, a "directional loudness map") associated with different directions forms a directional loudness map.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью адаптации шума, вносимого кодером (например, шума квантования), в зависимости от одной или более карт направленной громкости. Таким образом, например, одна или более карт направленной громкости одного или более подлежащих кодированию сигналов могут быть сравнены кодером с одной или более картами направленной громкости одного или более опорных сигналов. На основе этого сравнения аудиокодер, например, выполнен с возможностью оценки разности, указывающей на внесенный шум. Шум может быть адаптирован посредством адаптации квантования, выполняемой аудиокодером.According to an embodiment, the audio encoder is configured to adapt encoder-introduced noise (eg, quantization noise) depending on one or more directional loudness maps. Thus, for example, one or more directional loudness maps of one or more signals to be encoded can be compared by an encoder with one or more directional loudness maps of one or more reference signals. Based on this comparison, the audio encoder is, for example, configured to estimate a difference indicative of the introduced noise. The noise may be adapted by quantization adaptation performed by the audio encoder.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью использования отклонения между картой направленной громкости, которая ассоциирована с определённым не кодированным входным аудиосигналом (или с определённой некодированной входной парой аудиосигналов), и картой направленной громкости, достижимой посредством кодированной версии определённого входного аудиосигнала (или определённой входной пары аудиосигналов), в качестве критерия (например, целевого критерия) для адаптации формирования определённого кодированного аудиосигнала (или определённой кодированной пары аудиосигналов). Следующие примеры описаны только для одного определённого не кодированного входного аудиосигнала, но ясно, что они также применимы для определённой не кодированной входной пары аудиосигналов. Карта направленной громкости, ассоциированная с определённым не кодированным входным аудиосигналом, может быть ассоциирована с эталонной картой направленной громкости или может представлять эталонную карту направленной громкости. Таким образом, отклонение между эталонной картой направленной громкости и картой направленной громкости кодированной версии определённого входного аудиосигнала может указывать на шум, вносимый кодером. Для сокращения шума аудиокодер может быть выполнен с возможностью адаптации параметров кодирования для уменьшения отклонения, чтобы обеспечить высокое качество кодированного аудиосигнал. Это, например, реализуется с помощью контура обратной связи, каждый раз управляющего отклонением. Таким образом, параметры кодирования адаптируются, пока отклонение не станет ниже заданного порогового значения. В соответствии с вариантом осуществления пороговое значение может быть определено как 5%, 10%, 15%, 20% или 25% отклонения. В качестве альтернативы адаптация посредством кодера выполняется с использованием нейронной сети (например, осуществляющей контур с упреждением). С помощью нейронной сети карта направленной громкости для кодированной версии определённого входного аудиосигнала может быть оценена без непосредственного определения ее аудиокодером или модулем анализа аудиоданных. Таким образом, может быть реализовано очень быстрое аудиокодирование высокой точности.According to an embodiment, an audio encoder is configured to exploit the variance between a directional loudness map that is associated with a particular unencoded audio input (or a particular unencoded audio input pair) and a directional loudness map achievable by an encoded version of a particular audio input (or a particular input). pairs of audio signals), as a criterion (for example, a target criterion) for adapting the generation of a certain encoded audio signal (or a certain encoded pair of audio signals). The following examples are only described for one specific non-encoded audio input signal, but it is clear that they are also applicable to a specific non-encoded audio input pair. A directional loudness map associated with a particular uncoded audio input signal may be associated with a directional loudness reference map, or may represent a directional loudness reference map. Thus, the deviation between the directional loudness reference map and the directional loudness map of an encoded version of a particular input audio signal may be indicative of encoder-introduced noise. To reduce noise, the audio encoder may be configured to adapt coding parameters to reduce variance to provide a high quality encoded audio signal. This is, for example, implemented using a feedback loop that controls the deviation each time. Thus, the coding parameters are adapted until the deviation falls below a predetermined threshold. According to an embodiment, the threshold may be defined as 5%, 10%, 15%, 20%, or 25% deviation. Alternatively, the adaptation by the encoder is performed using a neural network (eg, looping preemptively). Using a neural network, a directional loudness map for an encoded version of a particular input audio signal can be estimated without being directly determined by an audio encoder or audio data analysis module. Thus, very fast high fidelity audio coding can be realized.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью активации и деактивации инструмента совместного кодирования (который, например, совместно кодирует два или более из входных аудиосигналов или полученных из них сигналов) (например, чтобы принять решение о включении/выключении M/S (центральный/боковой сигнал)) в зависимости от одной или более карт направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений одного или более подлежащих кодированию сигналов. Чтобы активировать или деактивировать инструмент совместного кодирования, аудиокодер может быть выполнен с возможностью определения вклада карты направленной громкости каждого сигнала или каждой пары возможных сигналов в общую карту направленной громкости общей сцены. В соответствии с вариантом осуществления вклад выше порогового значения (например, вклад, составляющий по меньшей мере 10%, или по меньшей мере 20%, или по меньшей мере 30%, или по меньшей мере 50%, указывает, разумно ли применять совместное кодирование входных аудиосигналов. Например, пороговое значение может быть сравнительно низким для этого варианта использования (например, ниже, чем в других вариантах использования), чтобы прежде всего отфильтровать несоответствующие пары. На основе карт направленной громкости аудиокодер может проверить, приведет ли совместное кодирование сигналов к более эффективному кодированию и/или кодированию с высоким разрешением.According to an embodiment, the audio encoder is configured to activate and deactivate a joint coding tool (which, for example, jointly encodes two or more of or derived audio signals) (for example, to decide on/off M/S (center/ side signal)) depending on one or more directional loudness maps that represent loudness information associated with a plurality of different directions of one or more signals to be encoded. To enable or disable the joint coding tool, the audio encoder can be configured to determine the contribution of the directional loudness map of each signal, or each pair of possible signals, to the overall directional loudness map of the overall scene. According to an embodiment, a contribution above a threshold (e.g., a contribution of at least 10%, or at least 20%, or at least 30%, or at least 50%, indicates whether it is reasonable to apply joint coding of the input audio signals.For example, the threshold value may be relatively low for this use case (for example, lower than in other use cases) in order to primarily filter out inappropriate pairs.Based on directional loudness maps, an audio encoder can check whether the joint encoding of the signals will lead to a more efficient encoding and/or high resolution encoding.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью определения одного или более параметров инструмента совместного кодирования (который, например, совместно кодирует два или более из входных аудиосигналов или полученных из них сигналов) в зависимости от одной или более карт направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений одного или более подлежащих кодированию сигналов (например, чтобы управлять сглаживанием зависящих от частоты коэффициентов предсказания; например, чтобы установить параметры инструмента совместного кодирования с «интенсивным стерео»). Одна или более карт информации о направленной громкости содержат, например, информацию о громкости в заданных направлениях и временных кадрах. Таким образом, например, аудиокодер выполнен с возможностью определения одного или более параметров для текущего временного кадра на основе информации о громкости предыдущих временных кадров. На основе карт направленной громкости эффекты маскирования могут быть проанализированы очень эффективно и могут быть указаны посредством одного или более параметров, посредством чего зависящие от частоты коэффициенты предсказания могут быть определены на основе одного или более параметров таким образом, что предсказанные значения отсчетов близки к первоначальным значениям отсчетов (ассоциированным с подлежащим кодированию сигналом). Таким образом, для кодера возможно определить зависящие от частоты коэффициенты предсказания, представляющие приближение порогового значения маскирования, а не подлежащего кодированию сигнала. Кроме того, карты направленной громкости, например, основаны на психоакустической модели, посредством чего определение зависящих от частоты коэффициентов предсказания на основе одного или более параметров дополнительно улучшается и может привести к очень точному предсказанию. В качестве альтернативы параметры инструмента совместного кодирования определяют, например, какой сигнал или пара сигналов должны быть кодированы совместно аудиокодером. Аудиокодер, например, выполнен с возможностью обоснования определения одного или более параметров на вкладах каждой карты направленной громкости, ассоциированной с подлежащим кодированию сигналом или парой сигналов, в общую карту направленной громкости. Таким образом, например, один или более параметров указывают отдельные сигналы и/или пары сигналов с наиболее высоким вкладом или вкладом, равным или выше порогового значения (см., например, определение порогового значения выше). На основе одного или более параметров аудиокодер, например, выполнен с возможностью совместного кодирования сигналов, указанных посредством одного или более параметров. В качестве альтернативы, например, пары сигналов, имеющие высокую близость/сходство в соответствующей карте направленной громкости, могут быть указаны посредством одного или более параметров инструмента совместного кодирования. Выбранные пары сигналов, например, совместно представлены посредством понижающего микширования. Таким образом количество битов, необходимых для кодирования, минимизируется или сокращается, поскольку микшированный с понижением сигнал или разностный сигнал подлежащих совместному кодированию сигналов очень малы.According to an embodiment, an audio encoder is configured to determine one or more parameters of a joint coding tool (which, for example, jointly encodes two or more of or derived from the input audio signals) depending on one or more directional loudness maps that represent information about loudness associated with a plurality of different directions of the one or more signals to be coded (eg, to control the smoothing of frequency-dependent prediction coefficients; eg, to set parameters of the "intense stereo" joint coding tool). One or more directional loudness information maps contain, for example, loudness information in given directions and time frames. Thus, for example, the audio encoder is configured to determine one or more parameters for the current time frame based on the loudness information of previous time frames. Based on directional loudness maps, masking effects can be analyzed very efficiently and can be indicated by one or more parameters, whereby frequency-dependent prediction coefficients can be determined based on one or more parameters such that the predicted sample values are close to the original sample values. (associated with the signal to be encoded). Thus, it is possible for the encoder to determine frequency dependent prediction coefficients representing an approximation of the masking threshold rather than the signal to be coded. In addition, directional loudness maps, for example, are based on a psychoacoustic model, whereby the determination of frequency-dependent prediction coefficients based on one or more parameters is further improved and can result in very accurate prediction. Alternatively, the parameters of the joint coding tool determine, for example, which signal or pair of signals should be jointly encoded by the audio encoder. The audio encoder is, for example, configured to justify determining one or more parameters on the contributions of each directional loudness map associated with the signal or signal pair to be encoded to the overall directional loudness map. Thus, for example, one or more parameters indicate the individual signals and/or pairs of signals with the highest contribution or a contribution equal to or above a threshold value (see, for example, the definition of a threshold value above). Based on one or more parameters, the audio encoder is, for example, configured to jointly encode the signals indicated by the one or more parameters. Alternatively, for example, pairs of signals having high proximity/similarity in the respective directional loudness map may be indicated by one or more joint coding tool parameters. Selected pairs of signals are, for example, jointly presented by downmixing. In this way, the number of bits required for encoding is minimized or reduced because the downmix signal or the difference signal of the signals to be jointly encoded is very small.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью определения или оценки влияния вариации одного или более управляющих параметров, которые управляют обеспечением одного или более кодированных аудиосигналов, на карту направленной громкости одного или более кодированных сигналов и регулировки одного или более управляющих параметров в зависимости от определения или оценки влияния. Влияние управляющих параметров на карту направленной громкости одного или более кодированных сигналов может содержать меру для индуцируемого шума (например, управляющие параметры относительно положения квантования могут регулироваться) посредством кодирования аудиокодера, меры для искажений аудиоданных и/или меры для падения качества восприятия слушателя. В соответствии с вариантом осуществления управляющие параметры могут быть представлены параметрами кодирования, или параметры кодирования могут содержать управляющие параметры.In accordance with an embodiment, an audio encoder is configured to determine or evaluate the effect of a variation of one or more control parameters that control the provision of one or more encoded audio signals on a directional loudness map of one or more encoded signals and adjust one or more control parameters depending on the determination or impact assessments. The influence of the control parameters on the directional loudness map of one or more of the encoded signals may include a measure for induced noise (e.g., the control parameters relative to the quantization position can be adjusted) by audio encoder coding, a measure for audio data distortion, and/or a measure for a drop in listener quality of experience. According to an embodiment, the control parameters may be represented by encoding parameters, or the encoding parameters may comprise control parameters.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью получения компонента направления (например, информации о направлении), используемого для получения одной или более карт направленной громкости с использованием метаданных, представляющих информацию о положении громкоговорителей, ассоциированных с входными аудиосигналами (эта концепция также может использоваться в других аудиокодерах). Компонент направления, например, представлен в настоящем документе описанными первыми различными направлениями, которые, например, ассоциированы с различными каналами или громкоговорителями, ассоциированными с входными аудиосигналами. В соответствии с вариантом осуществления на основе компонента направления полученная одна или более карт направленной громкости могут быть ассоциированы с входным аудиосигналом и/или парой сигналов из входных аудиосигналов с одинаковым компонентом направления. Таким образом, например, карта направленной громкости может иметь индекс L, и входной аудиосигнал может иметь индекс L, где L указывает левый канал или сигнал для левого громкоговорителя. В качестве альтернативы компонент направления может быть представлен вектором, таким как (1, 3), который указывает комбинацию входных аудиосигналов первого канала и третьего канала. Таким образом, карта направленной громкости с индексом (1, 3) может быть ассоциирована с парой сигналов. В соответствии с вариантом осуществления каждый канал может быть ассоциирован с отдельным громкоговорителем.According to an embodiment, an audio encoder is configured to derive a direction component (e.g., direction information) used to derive one or more directional loudness maps using metadata representing speaker position information associated with audio input signals (this concept can also be used in other audio encoders). The direction component, for example, is represented herein by the first various directions described herein, which are, for example, associated with different channels or speakers associated with audio input signals. According to an embodiment based on the direction component, the resulting one or more directional loudness maps can be associated with an input audio signal and/or a pair of signals from the input audio signals with the same direction component. Thus, for example, a directional volume map may have an index L, and an input audio signal may have an index L, where L indicates the left channel or left speaker signal. Alternatively, the direction component may be represented by a vector such as (1, 3) that indicates the combination of the first channel and third channel audio input signals. Thus, a directional loudness map with index (1, 3) can be associated with a pair of signals. According to an embodiment, each channel may be associated with a separate speaker.

Вариант осуществления в соответствии с настоящим изобретением относится к аудиокодеру для кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов (предпочтительно множество входных аудиосигналов). Аудиокодер выполнен с возможностью обеспечения одного или более кодированных (например, квантованных и затем кодированных без потерь) аудиосигналов (например, кодированных представлений в спектральной области) на основе двух или более входных аудиосигналов (например, сигнала левого канала и сигнала правого канала) или на основе двух или более полученных из них сигналов с использованием совместного кодирования двух или более подлежащих совместному кодированию сигналов (например, с использованием центрального сигнала, или микшированного с понижением сигнала и бокового сигнала, или сигнала разности). Дополнительно аудиокодер выполнен с возможностью выбора подлежащих совместному кодированию сигналов из множества возможных сигналов или из множества пар возможных сигналов (например, из двух или более входных аудиосигналов или из двух или более полученных из них сигналов) в зависимости от карт направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений (например, направлением панорамирования) возможных сигналов или пар возможных сигналов (например, в зависимости от вкладов отдельных карт направленной громкости возможных сигналов в общую карту направленной громкости, например, ассоциированную с несколькими входными аудиосигналами (например, с каждым сигналом из одного или более входных аудиосигналов), или в зависимости от вкладов карт направленной громкости пар возможных сигналов в общую карту направленной громкости (например, ассоциированную со всеми входными аудиосигналами)).An embodiment according to the present invention relates to an audio encoder for encoding input audio content containing one or more input audio signals (preferably a plurality of input audio signals). The audio encoder is configured to provide one or more encoded (e.g., quantized and then lossless coded) audio signals (e.g., coded representations in the spectral domain) based on two or more input audio signals (e.g., a left channel signal and a right channel signal) or based on two or more signals derived therefrom using joint encoding of the two or more signals to be jointly encoded (eg, using a center signal or downmix signal and a side signal or difference signal). Additionally, the audio encoder is configured to select signals to be jointly encoded from a plurality of possible signals or from a plurality of pairs of possible signals (for example, from two or more input audio signals or from two or more signals derived from them) depending on directional loudness maps that represent information about loudness associated with a plurality of different directions (e.g., pan direction) of possible signals or pairs of possible signals (e.g., depending on the contributions of individual candidate loudness directional maps to an overall directional loudness map, e.g., associated with multiple audio input signals (e.g., with each signal from one or more input audio signals), or depending on the contributions of the directional loudness maps of pairs of possible signals to a common directional loudness map (eg, associated with all input audio signals)).

В соответствии с вариантом осуществления аудиокодер может быть выполнен с возможностью активации и деактивации совместного кодирования. Таким образом, например, если аудиосодержимое содержит только один входной аудиосигнал, то совместное кодирование деактивируется, и оно активируется, только если аудиосодержимое содержит два или более входных аудиосигнала. Таким образом, с помощью аудиокодера возможно кодировать монауральное аудиосодержимое, стереофоническое аудиосодержимое и/или аудиосодержимое, содержащее три или более входных аудиосигнала (т.е. многоканальное аудиосодержимое). В соответствии с вариантом осуществления аудиокодер обеспечивает каждому входному аудиосигналу отдельный кодированный аудиосигнал в качестве выходного сигнала (например, подходящий для аудиосодержимого, содержащего только один единственный входной аудиосигнал), или обеспечивает один объединенный выходной сигнал (например, кодированные совместно сигналы), содержащий два или более кодированных аудиосигналов из двух или более входных аудиосигналов.According to an embodiment, the audio encoder may be configured to enable and disable joint coding. Thus, for example, if the audio content contains only one audio input, then joint coding is disabled and it is enabled only if the audio content contains two or more audio inputs. Thus, with the audio encoder, it is possible to encode monaural audio content, stereo audio content, and/or audio content containing three or more input audio signals (ie, multi-channel audio content). According to an embodiment, an audio encoder provides each input audio signal with a separate encoded audio signal as an output signal (e.g., suitable for audio content containing only one single input audio signal), or provides one combined output signal (e.g., jointly coded signals) containing two or more encoded audio signals from two or more input audio signals.

Варианты осуществления этого аудиокодера основаны на идее, что обоснование совместного кодирования на картах направленной громкости является эффективным и улучшает точность кодирования. Использование карт направленной громкости имеет преимущество, поскольку они могут указывать на восприятие аудиосодержимого слушателем и тем самым улучшать качество аудиоданных кодированного аудиосодержимого, особенно в контексте с совместным кодированием. Например, возможно оптимизировать выбор пар сигналов, подлежащих совместному кодированию, анализируя карты направленной громкости. Анализ карт направленной громкости дает, например, информацию о сигналах или парах сигналов, которыми можно пренебречь (например, сигналы, которые имеют лишь малое влияние на восприятие слушателя), что приводит к небольшому количеству битов, необходимых для кодированного аудиокодером аудиосодержимого (например, содержащего два или более кодированных сигнала). Это означает, например, что сигналами с низким вкладом их соответствующей карты направленной громкости в общую карту направленной громкости можно пренебречь. В качестве альтернативы анализ может указывать сигналы, которые имеют высокое сходство (например, сигналы со сходными картами направленной громкости), посредством чего, например, посредством совместного кодирования могут быть получены оптимизированные разностные сигналы.Embodiments of this audio encoder are based on the idea that the rationale for joint coding on directional loudness maps is efficient and improves coding fidelity. The use of directional loudness maps is advantageous because they can indicate the listener's perception of the audio content and thereby improve the audio quality of the encoded audio content, especially in a co-coding context. For example, it is possible to optimize the choice of signal pairs to be jointly encoded by analyzing directional loudness maps. Analysis of directional loudness maps provides, for example, information about signals or pairs of signals that can be neglected (for example, signals that have only a small effect on the listener's perception), resulting in a small number of bits needed for an audio encoder-encoded audio content (for example, containing two or more coded signals). This means, for example, that signals with a low contribution of their respective directional loudness map to the overall directional loudness map can be neglected. Alternatively, the analysis may indicate signals that have high similarity (eg, signals with similar directional loudness maps), whereby, for example, through joint coding, optimized difference signals can be obtained.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью выбора подлежащих совместному кодированию сигналов из множества возможных сигналов или из множества пар возможных сигналов в зависимости от вкладов отдельных карт направленной громкости возможных сигналов в общую карту направленной громкости или в зависимости от вкладов карт направленной громкости пар возможных сигналов в общую карту направленной громкости (например, ассоциированную с несколькими входными аудиосигналами (например, с каждым сигналом из одного или более входных аудиосигналов)) (или ассоциированную с общей (аудио)сценой, например, представленной входными аудиосигналами). Общая карта направленной громкости представляет, например, информацию о громкости, ассоциированную с различными направлениями (например, звуковых компонентов) аудиосцены, представленной (или подлежащей представлению, например, после рендеринга на стороне декодера) посредством входных аудиосигналов (возможно, в сочетании со знаниями или вспомогательной информацией относительно положений громкоговорителей и/или знаниями или вспомогательной информацией, описывающей положения звуковых объектов).In accordance with an embodiment, the audio encoder is configured to select signals to be jointly encoded from a plurality of possible signals or from a plurality of pairs of possible signals depending on the contributions of the individual directional loudness maps of the possible signals to the overall directional loudness map or depending on the contributions of the directional loudness maps of pairs of possible signals to a common directional loudness map (eg, associated with multiple audio inputs (eg, each signal from one or more audio inputs)) (or associated with a common (audio)scene, eg, represented by the audio inputs). The overall directional loudness map represents, for example, loudness information associated with different directions (for example, audio components) of an audio scene represented (or to be represented, for example, after rendering at the decoder side) by input audio signals (perhaps in combination with knowledge or ancillary information regarding the positions of loudspeakers and/or knowledge or ancillary information describing the positions of sound objects).

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью определения вклада пар возможных сигналов в общую карту направленной громкости. Дополнительно аудиокодер выполнен с возможностью выбора одной или более пар возможных сигналов, имеющих наиболее высокий вклад в общую карту направленной громкости, для совместного кодирования, или аудиокодер выполнен с возможностью выбора одной или более пар возможных сигналов, вклад которых в общую карту направленной громкости больше заданного порогового значения (например, вклад составляет по меньшей мере 60%, 70%, 80% или 90%), для совместного кодирования. Что касается наиболее высокого вклада, возможно, что только одна пара возможных сигналов имеет наиболее высокий вклад, но также возможно, что более одной пары возможных сигналов имеют одинаковый вклад, который представляет собой наиболее высокий вклад, или более одной пары возможных сигналов имеют сходные вклады с малыми отклонениями от наиболее высокого вклада. Таким образом, аудиокодер, например, выполнен с возможностью выбора более одного сигнала или пары сигналов для совместного кодирования. С помощью признаков, описанных в этом варианте осуществления, возможно найти релевантные пары сигналов для улучшенного совместного кодирования и отказаться от сигналов или пар сигналов, которые сильно не влияют на восприятие кодированного аудиосодержимого слушателем.According to an embodiment, the audio encoder is configured to determine the contribution of pairs of possible signals to the overall directional loudness map. Additionally, the audio encoder is configured to select one or more pairs of possible signals having the highest contribution to the overall directional loudness map for joint coding, or the audio encoder is configured to select one or more pairs of possible signals whose contribution to the overall directional loudness map is greater than a given threshold. values (eg, the contribution is at least 60%, 70%, 80%, or 90%), for joint coding. With regard to the highest contribution, it is possible that only one pair of candidate signals has the highest contribution, but it is also possible that more than one pair of candidate signals have the same contribution, which is the highest contribution, or more than one pair of candidate signals have similar contributions with small deviations from the highest contribution. Thus, an audio encoder, for example, is configured to select more than one signal or pair of signals for joint coding. With the features described in this embodiment, it is possible to find relevant signal pairs for improved joint coding and discard signals or signal pairs that do not greatly affect the listener's perception of the encoded audio content.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью определения отдельных карт направленной громкости двух или более возможных сигналов (например, карт направленной громкости, ассоциированных с парами сигналов). Дополнительно аудиокодер выполнен с возможностью сравнения отдельных карт направленной громкости двух или более возможных сигналов и выбора двух или более из возможных сигналов для совместного кодирования в зависимости от результата сравнения (например, таким образом, что возможные сигналы (например, пары сигналов, тройки сигналов, четверки сигналов и т.д.), отдельные карты громкости которых содержат максимальное сходство или сходство, которое выше порогового значения сходства, выбираются для совместного кодирования). Таким образом, например, тратится лишь немного битов или биты не тратятся для разностного сигнала (например, бокового канала относительно центрального канала) на поддержание высокого качества кодированного аудиосодержимого.In accordance with an embodiment, the audio encoder is configured to determine separate directional loudness maps of two or more possible signals (eg, directional loudness maps associated with pairs of signals). Additionally, the audio encoder is configured to compare individual directional loudness maps of two or more possible signals and select two or more of the possible signals for co-coding depending on the result of the comparison (e.g., such that the possible signals (e.g., signal pairs, signal triples, quads signals, etc.) whose individual loudness maps contain the maximum similarity or similarity that is above the similarity threshold is chosen for joint coding). Thus, for example, only few bits are wasted or no bits are wasted for the difference signal (eg, side channel relative to the center channel) to maintain a high quality of the encoded audio content.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью определения общей карты направленной громкости с использованием понижающего микширования входных аудиосигналов и/или использования бинаурализации входных аудиосигналов. Понижающее микширование или бинаурализация учитывают, например, направления (например, ассоциации с каналами или громкоговорителем для соответствующих входных аудиосигналов). Общая карта направленной громкости может быть ассоциирована с информацией о громкости, соответствующей аудиосцене, созданной всеми входными аудиосигналами.According to an embodiment, an audio encoder is configured to determine an overall directional loudness map using downmixing of the input audio signals and/or using binauralization of the input audio signals. Downmixing or binauralization takes into account, for example, directions (eg, channel or speaker associations for the respective audio inputs). The overall directional loudness map may be associated with loudness information corresponding to the audio scene created by all audio inputs.

Вариант осуществления в соответствии с настоящим изобретением относится к аудиокодеру для кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов (предпочтительно множество входных аудиосигналов). Аудиокодер выполнен с возможностью обеспечения одного или более кодированных (например, квантованных и кодированных затем без потерь) аудиосигналов (например, кодированных представлений в спектральной области) на основе двух или более входных аудиосигналов (например, сигнала левого канала и сигнала правого канала) или на основе двух или более полученных из них сигналов. Дополнительно аудиокодер выполнен с возможностью определения общей карты направленной громкости (например, целевой карты направленной громкости сцены) на основе входных аудиосигналов и/или определения одной или более отдельных карт направленной громкости, ассоциированных с отдельными входными аудиосигналами (или ассоциированных с двумя или более входными аудиосигналами, такими как пары сигналов). Кроме того, аудиокодер выполнен с возможностью кодирования общей карты направленной громкости и/или одной или более отдельных карт направленной громкости в качестве вспомогательной информации.An embodiment according to the present invention relates to an audio encoder for encoding input audio content containing one or more input audio signals (preferably a plurality of input audio signals). The audio encoder is configured to provide one or more encoded (e.g., quantized and then lossless encoded) audio signals (e.g., coded representations in the spectral domain) based on two or more input audio signals (e.g., a left channel signal and a right channel signal) or based on two or more signals received from them. Additionally, the audio encoder is configured to determine a general directional loudness map (e.g., a target scene directional loudness map) based on input audio signals and/or determine one or more separate directional loudness maps associated with individual input audio signals (or associated with two or more input audio signals, such as signal pairs). In addition, the audio encoder is configured to encode the overall directional loudness map and/or one or more individual directional loudness maps as side information.

Таким образом, например, если аудиосодержимое содержит только один входной аудиосигнал, аудиокодер выполнен с возможностью кодирования только этого сигнала вместе с соответствующей отдельной картой направленной громкости. Если аудиосодержимое содержит два или более входных аудиосигнала, аудиокодер, например, выполнен с возможностью кодирования всех или по меньшей мере некоторых (например, одного отдельного сигнала и одной пары сигналов из трех входных аудиосигналов) сигналов отдельно вместе с соответствующей картой направленной громкости (например, с отдельными картами направленной громкости отдельных кодированных сигналов и/или с картами направленной громкости, соответствующими парам сигналов или другим комбинациям из более чем двух сигналов, и/или с общими картами направленной громкости, ассоциированными со всеми входными аудиосигналами). В соответствии с вариантом осуществления аудиокодер выполнен с возможностью кодирования всех или по меньшей мере некоторых сигналов, что дает в результате один кодированный аудиосигнал, например, вместе с общей картой направленной громкости в качестве выходных данных (например, один объединенный выходной сигнал (например, совместно кодированные сигналы), содержащий, например, два или более кодированных аудиосигнала из двух или более входных аудиосигналов). Таким образом, с помощью аудиокодера возможно кодировать монауральное аудиосодержимое, стереофоническое аудиосодержимое и/или аудиосодержимое, содержащее три или более входных аудиосигнала (т.е. многоканальное аудиосодержимое).Thus, for example, if the audio content contains only one input audio signal, the audio encoder is configured to encode only that signal, along with a corresponding separate directional loudness map. If the audio content contains two or more input audio signals, the audio encoder is, for example, configured to encode all or at least some (e.g., one single signal and one signal pair of three audio input signals) signals separately, along with a corresponding directional loudness map (e.g., with separate directional loudness maps of individual encoded signals and/or with directional loudness maps corresponding to pairs of signals or other combinations of more than two signals, and/or with common directional loudness maps associated with all input audio signals). According to an embodiment, an audio encoder is configured to encode all or at least some of the signals, resulting in one encoded audio signal, for example, together with a common directional loudness map as output (for example, one combined output signal (for example, jointly encoded signals) containing, for example, two or more encoded audio signals from two or more input audio signals). Thus, with the audio encoder, it is possible to encode monaural audio content, stereo audio content, and/or audio content containing three or more input audio signals (ie, multi-channel audio content).

Варианты осуществления этого аудиокодера основаны на идее, что имеется преимущество в определении и кодировании одной или более карт направленной громкости, поскольку они могут указывать восприятие аудиосодержимого слушателем и тем самым улучшить качество аудиоданных кодированного аудиосодержимого. В соответствии с вариантом осуществления одна или более карт направленной громкости могут использоваться кодером для улучшения кодирования, например, посредством адаптации параметров кодирования на основе одной или более карт направленной громкости. Таким образом, кодирование одной или более карт направленной громкости имеет особое преимущество, поскольку они могут представлять информацию относительно влияния кодирования. С помощью одной или более карт направленной громкости в качестве вспомогательной информации в кодированном аудиосодержимом, обеспеченной аудиокодером, может быть достигнуто очень точное декодирование, поскольку аудиодекодером обеспечена информация относительно кодирования (например, в потоке данных).Embodiments of this audio encoder are based on the idea that there is an advantage in defining and encoding one or more directional loudness maps since they can indicate the listener's perception of the audio content and thereby improve the audio quality of the encoded audio content. According to an embodiment, one or more directional loudness maps may be used by an encoder to improve coding, for example by adapting coding parameters based on the one or more directional loudness maps. Thus, encoding one or more directional loudness maps is of particular advantage because they can provide information regarding the impact of the encoding. By using one or more directional loudness maps as ancillary information in the encoded audio content provided by the audio encoder, very accurate decoding can be achieved since the encoding information is provided by the audio decoder (eg, in the data stream).

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью определения общей карты направленной громкости на основе входных аудиосигналов, причем общая карта направленной громкости представляет информацию о громкости, ассоциированную с различными направлениями (например, звуковых компонентов) аудиосцены, представленной (или подлежащей представлению, например, после рендеринга на стороне декодера) посредством входных аудиосигналов (возможно, в сочетании со знаниями или вспомогательной информацией относительно положений громкоговорителей и/или знаниями или вспомогательной информацией, описывающей положения звуковых объектов). Различные направления аудиосцены представляют собой, например, описанные в настоящем документе вторые различные направления.According to an embodiment, an audio encoder is configured to determine an overall directional loudness map based on input audio signals, wherein the overall directional loudness map represents loudness information associated with different directions (e.g., audio components) of an audio scene presented (or to be presented, for example, after rendering at the decoder side) via input audio signals (possibly combined with knowledge or ancillary information regarding speaker positions and/or knowledge or ancillary information describing the positions of audio objects). The different audio scene directions are, for example, the second different directions described herein.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью кодирования общей карты направленной громкости в виде множества (например, скалярных) значений, ассоциированных с различными направлениями (и предпочтительно с множеством частотных интервалов или частотных полос). Если общая карта направленной громкости кодирована в виде множества значений, значение, ассоциированное с некоторым направлением, может содержать информацию о громкости множества частотных интервалов или частотных полос. В качестве альтернативы аудиокодер выполнен с возможностью кодирования общей карты направленной громкости с использованием значения центрального положения (например, с описанием угла или индекса панорамирования, в котором наблюдается максимум общей карты направленной громкости для определённого частотного интервала или частотной полосы) и информации о градиенте (например, одна или более скалярных величин, описывающих градиенты значений общей карты направленной громкости в угловом направлении или в направлении индекса панорамирования). Кодирование общей карты направленной громкости с использованием значения центрального положения и информации о градиенте может быть выполнено для различных определённых частотных интервалов или частотных полос. Таким образом, например, общая карта направленной громкости может содержать информацию о значении центрального положения и информацию о градиенте более чем для одного частотного интервала или частотной полосы. В качестве альтернативы аудиокодер выполнен с возможностью кодирования общей карты направленной громкости в виде полиномиального представления, или аудиокодер выполнен с возможностью кодирования общей карты направленной громкости в виде сплайнового представления. Кодирование общей карты направленной громкости в виде полиномиального представления или сплайнового представления является экономичным кодированием. Хотя эти признаки описаны относительно общей карты направленной громкости, это кодирование также может выполняться для отдельных карт направленной громкости (например, отдельных сигналов, пар сигналов и/или групп из трех или более сигналов). Таким образом, с помощью этих признаков карты направленной громкости кодируются очень эффективно, и обеспечивается информация, на которой основано кодирование.According to an embodiment, the audio encoder is configured to encode the overall directional loudness map as multiple (eg, scalar) values associated with different directions (and preferably multiple frequency intervals or frequency bands). If the overall directional loudness map is encoded as a set of values, the value associated with a certain direction may contain information about the loudness of a set of frequency intervals or frequency bands. Alternatively, the audio encoder is configured to encode the overall directional loudness map using a center position value (e.g., describing the pan angle or index at which the maximum of the overall directional loudness map for a particular frequency interval or frequency band is observed) and gradient information (e.g., one or more scalars describing the gradients of the values of the overall directional loudness map in the angular direction or pan index direction). The encoding of the overall directional loudness map using the center position value and gradient information can be performed for various defined frequency intervals or frequency bands. Thus, for example, an overall directional loudness map may contain center position value information and gradient information for more than one frequency interval or frequency band. Alternatively, the audio encoder is configured to encode the overall directional loudness map as a polynomial representation, or the audio encoder is configured to encode the overall directional loudness map as a spline representation. Encoding the overall directional loudness map as a polynomial representation or a spline representation is an economical encoding. While these features are described in relation to a general directional loudness map, this encoding may also be performed on individual directional loudness maps (eg, individual signals, pairs of signals, and/or groups of three or more signals). Thus, with these features, the directional loudness maps are encoded very efficiently and the information on which the encoding is based is provided.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью кодирования (а также, например, передачи или вставки в кодированное звуковое представление) одного (например, только одного) микшированного с понижением сигнала, полученного на основе множества входных аудиосигналов и общей карты направленной громкости. В качестве альтернативы аудиокодер выполнен с возможностью кодирования (а также, например, передачи или вставки в кодированное звуковое представление) множества сигналов (например, входных аудиосигналов или полученных из них сигналов) и кодирования (а также, например, передачи или вставки в кодированное звуковое представление) отдельных карт направленной громкости множества сигналов, которые кодируются (например, карт направленной громкости отдельных сигналов, и/или пар сигналов, и/или групп из трех или более сигналов). В качестве альтернативы аудиокодер выполнен с возможностью кодирования (а также, например, передачи или вставки в кодированное звуковое представление) общей карты направленной громкости, множества сигналов (например, входных аудиосигналов или полученных из них сигналов) и параметров, описывающих (например, соответствующие) вклады сигналов, которые кодируются в общей карте направленной громкости. В соответствии с вариантом осуществления параметры, описывающие вклады, могут быть представлены скалярными величинами. Таким образом, возможно посредством аудиодекодера, принимающего кодированное звуковое представление (например, аудиосодержимое или поток данных, содержащий кодированные сигналы, общую карту направленной громкости и параметры) воссоздать отдельные карты направленной громкости сигналов на основе общей карты направленной громкости и параметров, описывающих вклады сигналов.In accordance with an embodiment, an audio encoder is configured to encode (and, for example, transmit or insert into an encoded audio representation) a single (e.g., only one) downmix signal derived from a plurality of input audio signals and a common directional loudness map. Alternatively, the audio encoder is configured to encode (and also, for example, transmit or insert into the encoded audio representation) a plurality of signals (for example, input audio signals or signals derived from them) and encode (and also, for example, transmit or insert into the encoded audio representation ) individual directional loudness maps of the plurality of signals that are encoded (eg, directional loudness maps of individual signals and/or pairs of signals and/or groups of three or more signals). Alternatively, the audio encoder is configured to encode (and, for example, transmit or insert into the encoded audio representation) a general directional loudness map, a plurality of signals (for example, input audio signals or signals derived from them), and parameters describing (for example, corresponding) contributions signals that are encoded in a common directional loudness map. According to an embodiment, the parameters describing the contributions may be represented by scalars. Thus, it is possible for an audio decoder receiving an encoded audio representation (e.g., audio content or a data stream containing encoded signals, an overall directional loudness map, and parameters) to recreate individual directional loudness maps of the signals based on the overall directional loudness map and parameters describing the contributions of the signals.

Вариант осуществления в соответствии с настоящим изобретением относится к аудиодекодеру для декодирования кодированного аудиосодержимого. Аудиодекодер выполнен с возможностью приема кодированного представления одного или более аудиосигналов и обеспечения декодированного представления одного или более аудиосигналов (например, с использованием декодирования, подобного AAC, или с использованием декодирования подвергнутых энтропийному кодированию спектральных значений). Кроме того, аудиодекодер выполнен с возможностью приема кодированной информации о картах направленной громкости и декодирования кодированной информации о карте направленной громкости, получения одной или более (например, декодированных) карт направленной громкости. Дополнительно аудиодекодер выполнен с возможностью воссоздания аудиосцены с использованием декодированного представления одного или более аудиосигналов и с использованием одной или более карт направленной громкости. Аудиосодержимое может содержать кодированное представление одного или более аудиосигналов и кодированную информацию о картах направленной громкости. Кодированная информация о картах направленной громкости может содержать карты направленной громкости отдельных сигналов, пар сигналов и/или групп из трех или более сигналов.An embodiment according to the present invention relates to an audio decoder for decoding encoded audio content. The audio decoder is configured to receive an encoded representation of the one or more audio signals and provide a decoded representation of the one or more audio signals (eg, using AAC-like decoding or using decoding of entropy-encoded spectral values). Further, the audio decoder is configured to receive encoded directional loudness map information and decode the encoded directional loudness map information to obtain one or more (eg, decoded) directional loudness maps. Additionally, the audio decoder is configured to recreate the audio scene using a decoded representation of one or more audio signals and using one or more directional loudness maps. The audio content may contain an encoded representation of one or more audio signals and encoded information about directional loudness maps. The encoded directional loudness map information may comprise directional loudness maps of individual signals, pairs of signals, and/or groups of three or more signals.

Вариант осуществления этого аудиодекодера основан на идее, что определение и декодирование одной или более карт направленной громкости имеет преимущество, поскольку они могут указывать восприятие аудиосодержимого слушателем и тем самым улучшить качество аудиоданных декодированного аудиосодержимого. Аудиодекодер, например, выполнен с возможностью определения высококачественного сигнала предсказания на основе одной или более карт направленной громкости, посредством чего может быть улучшено разностное декодирование (или совместное декодирование). В соответствии с вариантом осуществления карты направленной громкости определяют информацию о громкости для различных направлений в аудиосцене по времени. Информация о громкости для некоторого направления в определенный момент времени или в некотором временном кадре может содержать информацию о громкости различных аудиосигналов или одного аудиосигнала, например, в различных частотных интервалах или частотных полосах. Таким образом, например, обеспечение декодированного представления одного или более аудиосигналов аудиодекодером может быть улучшено, например, посредством адаптации декодирования кодированного представления одного или более аудиосигналов на основе декодированных карт направленной громкости. Таким образом, воссозданная аудиосцена оптимизируется, поскольку декодированное представление одного или более аудиосигналов может достигнуть минимального отклонения от первоначального аудиосигнала на основе анализа одной или более карт направленной громкости, что дает в результате высококачественную аудиосцену. В соответствии с вариантом осуществления аудиодекодер может быть выполнен с возможностью использования одной или более карт направленной громкости для адаптации параметров декодирования, чтобы обеспечить эффективное декодированное представление одного или более аудиосигналов с высокой точностью.An embodiment of this audio decoder is based on the idea that determining and decoding one or more directional loudness maps is advantageous because they can indicate the listener's perception of the audio content and thereby improve the audio quality of the decoded audio content. The audio decoder, for example, is configured to determine a high quality prediction signal based on one or more directional loudness maps, whereby differential decoding (or joint decoding) can be improved. According to an embodiment, directional loudness maps determine loudness information for different directions in an audio scene over time. Loudness information for a certain direction at a certain point in time or in a certain time frame may contain information about the loudness of different audio signals or one audio signal, for example, in different frequency intervals or frequency bands. Thus, for example, the provision of a decoded representation of one or more audio signals by an audio decoder can be improved, for example, by adapting the decoding of the encoded representation of one or more audio signals based on the decoded directional loudness maps. Thus, the reconstructed audio scene is optimized because the decoded representation of the one or more audio signals can achieve a minimum deviation from the original audio signal based on the analysis of the one or more directional loudness maps, resulting in a high quality audio scene. In accordance with an embodiment, an audio decoder may be configured to use one or more directional loudness maps to adapt decoding parameters to provide an efficient, high fidelity decoded representation of one or more audio signals.

В соответствии с вариантом осуществления аудиодекодер выполнен с возможностью получения выходных сигналов таким образом, что одна или более карт направленной громкости, ассоциированных с выходными сигналами, приблизительно равны или равны одной или более целевым картам направленной громкости. Одна или более целевых карт направленной громкости основаны на одной или более декодированных картах направленной громкости или равны одной или более декодированным картам направленной громкости. Аудиодекодер, например, выполнен с возможностью использования подходящего масштабирования или объединения одного или более декодированных аудиосигналов для получения выходных сигналов. Целевые карты направленной громкости, например, рассматриваются как эталонные карты направленной громкости. В соответствии с вариантом осуществления целевые карты направленной громкости могут представлять информацию о громкости одного или более аудиосигналов перед кодированием и декодированием аудиосигналов. В качестве альтернативы целевые карты направленной громкости могут представлять информацию о громкости, ассоциированную с кодированным представлением одного или более аудиосигналов (например, одну или более декодированных карт направленной громкости). Аудиодекодер принимает, например, параметры кодирования, используемые для кодирования, чтобы обеспечить кодированное аудиосодержимое. Аудиодекодер, например, выполнен с возможностью определения параметров декодирования на основе параметров кодирования для масштабирования одной или более декодированных карт направленной громкости, чтобы определить одну или более целевых карт направленной громкости. Также возможно, что аудиодекодер содержит модуль анализа аудиоданных, который выполнен с возможностью определения целевых карт направленной громкости на основе декодированных карт направленной громкости и одного или более декодированных аудиосигналов, причем, например, декодированные карты направленной громкости масштабируются на основе одного или более декодированных аудиосигналов. Поскольку одна или более целевых карт направленной громкости могут быть ассоциированы с оптимальной или оптимизированной аудиосценой, реализованной аудиосигналами, полезно минимизировать отклонение между одной или более картами направленной громкости, ассоциированными с выходными сигналами, и одной или более целевыми картами направленной громкости. В соответствии с вариантом осуществления это отклонение может быть минимизировано аудиодекодером посредством адаптации параметров декодирования или адаптации параметров относительно воссоздания аудиосцены. Таким образом, с помощью этого признака осуществляется управление качеством выходных сигналов, например, посредством контура обратной связи, анализирующего одну или более карт направленной громкости, ассоциированных с выходными сигналами. Аудиодекодер, например, выполнен с возможностью определения одной или более карт направленной громкости выходных сигналов (например, аудиодекодер содержит описанный в настоящем документе модуль анализа аудиоданных для определения карт направленной громкости). Таким образом, аудиодекодер обеспечивает выходные сигналы, которые ассоциированы с картами направленной громкости, которые приблизительно равны или равны целевым картам направленной громкости.In accordance with an embodiment, an audio decoder is configured to obtain output signals such that one or more directional loudness maps associated with the output signals are approximately equal to or equal to one or more target directional loudness maps. One or more target directional loudness maps are based on one or more decoded directional loudness maps or equal to one or more decoded directional loudness maps. The audio decoder, for example, is configured to use suitable scaling or combining one or more decoded audio signals to produce output signals. Target directional loudness maps, for example, are considered directional loudness reference maps. According to an embodiment, directional loudness target maps may represent loudness information of one or more audio signals before encoding and decoding the audio signals. Alternatively, the target directional loudness maps may represent loudness information associated with an encoded representation of one or more audio signals (eg, one or more decoded directional loudness maps). The audio decoder receives, for example, encoding parameters used for encoding to provide encoded audio content. The audio decoder is, for example, configured to determine decoding parameters based on the encoding parameters for scaling one or more decoded directional loudness maps to determine one or more target directional loudness maps. It is also possible that the audio decoder comprises an audio data analysis module that is configured to determine target directional loudness maps based on the decoded directional loudness maps and one or more decoded audio signals, wherein, for example, the decoded directional loudness maps are scaled based on the one or more decoded audio signals. Since one or more target directional loudness maps may be associated with an optimal or optimized audio scene implemented by audio signals, it is useful to minimize the variance between one or more directional loudness maps associated with output signals and one or more target directional loudness maps. According to an embodiment, this deviation can be minimized by the audio decoder by adapting the decoding parameters or adapting the parameters relative to the audio scene reconstruction. Thus, this feature controls the quality of the output signals, for example by means of a feedback loop analyzing one or more directional loudness maps associated with the output signals. The audio decoder, for example, is configured to determine one or more directional loudness maps of output signals (eg, the audio decoder includes an audio data analysis module described herein for determining directional loudness maps). Thus, the audio decoder provides output signals that are associated with directional loudness maps that are approximately equal to or equal to the target directional loudness maps.

В соответствии с вариантом осуществления аудиодекодер выполнен с возможностью приема одного (например, только одного) кодированного микшированного с понижением сигнала (например, полученного на основе множества входных аудиосигналов) и общей карты направленной громкости; или множества кодированных аудиосигналов (например, входных аудиосигналов кодера или полученных из них сигналов) и отдельных карт направленной громкости множества кодированных сигналов; или общей карты направленной громкости, множества кодированных аудиосигналов (например, входных аудиосигналов, принятых аудиокодером, или полученных из них сигналов) и параметров, описывающих (например, соответствующие) вклады кодированных аудиосигналов в общую карту направленной громкости. Аудиодекодер выполнен с возможностью обеспечения на основе этого выходных сигналов.In accordance with an embodiment, an audio decoder is configured to receive one (eg, only one) encoded downmix signal (eg, derived from multiple audio inputs) and a common directional loudness map; or a plurality of encoded audio signals (eg, encoder input audio signals or signals derived therefrom) and individual directional loudness maps of the plurality of encoded signals; or an overall directional loudness map, a plurality of encoded audio signals (eg, input audio signals received by the audio encoder or signals derived from them), and parameters describing (eg, appropriate) contributions of the encoded audio signals to the overall directional loudness map. The audio decoder is configured to provide output signals based on this.

Вариант осуществления в соответствии с настоящим изобретением относится к преобразователю формата для преобразования формата аудиосодержимого, который представляет аудиосцену (например, пространственную аудиосцену), из первого формата во второй формат. Первый формат может содержать, например, первое количество каналов или входных аудиосигналов и вспомогательную информацию или пространственную вспомогательную информацию, адаптированную к первому количеству каналов или входных аудиосигналов, и причем второй формат может содержать, например, второе количество каналов или выходных аудиосигналов, которое могут отличаться от первого количества каналов или входных аудиосигналов, и вспомогательную информацию или пространственную вспомогательную информацию, адаптированную ко второму количеству каналов или выходных аудиосигналов. Кроме того, преобразователь формата выполнен с возможностью обеспечения представления аудиосодержимого во втором формате на основе представления аудиосодержимого в первом формате. Дополнительно преобразователь формата выполнен с возможностью регулировки сложности преобразования формата (например, посредством пропуска одного или более входных аудиосигналов первого формата, вклад которых в карту направленной громкости ниже порогового значения, в процессе преобразования формата) в зависимости от вкладов входных аудиосигналов первого формата (например, одного или более аудиосигналов, одного или более микшированных с понижением сигналов, одного или более разностных сигналов и т.д.) в общую карту направленной громкости аудиосцены (причем общая карта направленной громкости, например, может быть описана вспомогательной информацией первого формата, принятой преобразователем формата). Таким образом, например, вклады отдельных карт направленной громкости, ассоциированных с отдельными входными аудиосигналами, в общую карту направленной громкости аудиосцены анализируются для регулировки сложности преобразования формата. В качестве альтернативы эта регулировка может выполняться преобразователем формата в зависимости от вкладов карт направленной громкости, соответствующих комбинациям входных аудиосигналов (например, пар сигналов, центрального сигнала, бокового сигнала, микшированного с понижением сигнала, разностного сигнала, сигнала разности и/или групп из трех или более сигналов) в общую карту направленной громкости аудиосцены.An embodiment according to the present invention relates to a format converter for converting an audio content format that represents an audio scene (eg, a spatial audio scene) from a first format to a second format. The first format may contain, for example, a first number of channels or input audio signals and side information or spatial side information adapted to the first number of channels or input audio signals, and the second format may contain, for example, a second number of channels or audio output signals, which may differ from the first number of channels or input audio signals, and side information or spatial side information adapted to the second number of channels or output audio signals. In addition, the format converter is configured to provide a representation of the audio content in the second format based on the representation of the audio content in the first format. Additionally, the format converter is configured to adjust the complexity of the format conversion (for example, by passing one or more first format input audio signals whose contribution to the directional loudness map is below a threshold during the format conversion process) depending on the contributions of the first format input audio signals (for example, one or more audio signals, one or more downmix signals, one or more difference signals, etc.) into an overall directional loudness map of the audio scene (wherein the overall directional loudness map, for example, can be described by the first format side information received by the format converter) . Thus, for example, the contributions of the individual directional loudness maps associated with individual audio input signals to the overall directional loudness map of the audio scene are analyzed to adjust the complexity of the format conversion. Alternatively, this adjustment can be made by the format converter depending on the contributions of the directional loudness maps corresponding to combinations of input audio signals (e.g., signal pairs, center signal, side signal, downmix signal, difference signal, difference signal, and/or groups of three or more signals) into the overall directional loudness map of the audio scene.

Варианты осуществления преобразователя формата основаны на идее, что преобразование формата аудиосодержимого на основе одной или более карт направленной громкости имеет преимущество, поскольку они могут указывать восприятие аудиосодержимого слушателем, и тем самым реализуется высокое качество аудиосодержимого во втором формате, и сокращается сложность преобразования формата в зависимости от карт направленной громкости. С помощью вкладов возможно получить информацию о сигналах, релевантных для высококачественного восприятия аудиоданных аудиосодержимого с преобразованным форматом. Таким образом, аудиосодержимое во втором формате, например, содержит меньше сигналов (например, только релевантные сигналы в соответствии с картами направленной громкости), чем аудиосодержимое в первом формате, при почти одинаковом качестве аудиоданных.Format converter embodiments are based on the idea that format conversion of audio content based on one or more directional loudness maps is advantageous because they can indicate the perception of the audio content by the listener, and thereby realizing high quality audio content in the second format, and reducing format conversion complexity depending on directional volume maps. With the help of contributions, it is possible to obtain information about the signals relevant for the high-quality perception of the audio data of the format-converted audio content. Thus, the audio content in the second format, for example, contains fewer signals (eg, only relevant signals according to directional loudness maps) than the audio content in the first format, with almost the same quality of the audio data.

В соответствии с вариантом осуществления преобразователь формата выполнен с возможностью приема информации о картах направленной громкости и получения на основе этого общей карты направленной громкости (например, декодированной аудиосцены; например, аудиосодержимого в первом формате) и/или одной или более карт направленной громкости. Информация о картах направленной громкости (т.е. одной или более картах направленной громкости, ассоциированных с отдельными сигналами аудиосодержимого, или ассоциированных с парами сигналов или объединением трех или более сигналов аудиосодержимого) может представлять аудиосодержимое в первом формате, может являться частью аудиосодержимого в первом формате, или может быть определена преобразователем формата на основе аудиосодержимого в первом формате (например, описанным в настоящем документе модулем анализа аудиоданных; например, преобразователь формата содержит модуль анализа аудиоданных). В соответствии с вариантом осуществления преобразователь формата также выполнен с возможностью определения информации о картах направленной громкости аудиосодержимого во втором формате. Таким образом, например, карты направленной громкости до и после преобразования формата могут быть сравнены, чтобы сократить воспринимаемое ухудшение качества вследствие преобразования формата. Это, например, реализуется посредством минимизации отклонения между картой направленной громкости до и после преобразования формата.In accordance with an embodiment, the format converter is configured to receive information about directional loudness maps and, based on this, obtain a general directional loudness map (e.g., a decoded audio scene; e.g., audio content in the first format) and/or one or more directional loudness maps. Information about directional loudness maps (i.e., one or more directional loudness maps associated with individual audio content signals, or associated with signal pairs or a combination of three or more audio content signals) may represent audio content in the first format, may be part of the audio content in the first format , or may be determined by a format converter based on the audio content in the first format (eg, the audio parsing module described herein; for example, the format converter comprises an audio parsing module). According to an embodiment, the format converter is also configured to determine information about directional loudness maps of the audio content in the second format. Thus, for example, directional loudness maps before and after format conversion can be compared to reduce perceived degradation in quality due to format conversion. This is, for example, implemented by minimizing the deviation between the directional loudness map before and after format conversion.

В соответствии с вариантом осуществления преобразователь формата выполнен с возможностью получения общей карты направленной громкости (например, декодированной аудиосцены) из одной или более (например, декодированных) карт направленной громкости (например, ассоциированных с сигналами в первом формате).According to an embodiment, the format converter is configured to derive an overall directional loudness map (eg, decoded audio scene) from one or more (eg, decoded) directional loudness maps (eg, associated with signals in the first format).

В соответствии с вариантом осуществления преобразователь формата выполнен с возможностью вычисления или оценки вклада определённого входного аудиосигнала (например, сигнала в первом формате) в общую карту направленной громкости аудиосцены. Преобразователь формата выполнен с возможностью принятия решения, следует ли рассматривать определённый входной аудиосигнал при преобразовании формата, в зависимости от вычисления или оценки вклада (например, посредством сравнения вычисленного или оцененного вклада с заданным абсолютным или относительным пороговым значением). Если вклад, например, равен или выше абсолютного или относительного порогового значения, соответствующий сигнал может рассматриваться как релевантный, и, таким образом, преобразователь формата может быть выполнен с возможностью принятия решения рассмотреть этот сигнал. Это можно рассматривать как регулировку сложности с помощью преобразователя формата, поскольку не все сигналы в первом формате обязательно преобразовываются во второй формат. Заданное пороговое значение может представлять вклад по меньшей мере 2%, или по меньшей мере 5%, или по меньшей мере 10%, или по меньшей мере 20%, или по меньшей мере 30%. Например, это означает исключение неслышимых и/или не релевантных каналов (или почти неслышимых и/или не релевантных каналов), т.е. пороговое значение должно быть ниже (например, при сравнении с другими вариантами использования), например, 5%, 10%, 20%, 30%.In accordance with an embodiment, the format converter is configured to calculate or estimate the contribution of a certain input audio signal (eg, a signal in the first format) to the overall directional loudness map of the audio scene. The format converter is configured to decide whether a certain input audio signal should be considered in format conversion depending on the calculation or evaluation of the contribution (for example, by comparing the calculated or estimated contribution with a given absolute or relative threshold value). If the contribution is, for example, equal to or greater than an absolute or relative threshold value, the corresponding signal may be considered relevant, and thus the format converter may be configured to decide to consider this signal. This can be thought of as adjusting the complexity with a format converter, since not all signals in the first format are necessarily converted to the second format. The predetermined threshold may represent a contribution of at least 2%, or at least 5%, or at least 10%, or at least 20%, or at least 30%. For example, this means excluding inaudible and/or irrelevant channels (or almost inaudible and/or irrelevant channels), i.e. the threshold should be lower (eg when compared to other use cases), eg 5%, 10%, 20%, 30%.

Вариант осуществления в соответствии с настоящим изобретением относится к аудиодекодеру для декодирования кодированного аудиосодержимого. Аудиодекодер выполнен с возможностью приема кодированного представления одного или более аудиосигналов и обеспечения декодированного представления одного или более аудиосигналов (например, с использованием декодирования, подобного AAC, или с использованием декодирования подвергнутых энтропийному кодированию спектральных значений). Кроме того, аудиодекодер выполнен с возможностью воссоздания аудиосцены с использованием декодированного представления одного или более аудиосигналов и регулировки сложности декодирования в зависимости от вкладов кодированных сигналов (например, одного или более аудиосигналов, одного или более микшированных с понижением сигналов, одного или более разностных сигналов и т.д.) в общую карту направленной громкости декодированной аудиосцены.An embodiment according to the present invention relates to an audio decoder for decoding encoded audio content. The audio decoder is configured to receive an encoded representation of the one or more audio signals and provide a decoded representation of the one or more audio signals (eg, using AAC-like decoding or using decoding of entropy-encoded spectral values). In addition, the audio decoder is configured to reconstruct an audio scene using a decoded representation of one or more audio signals and adjust the decoding complexity depending on the contributions of the encoded signals (e.g., one or more audio signals, one or more downmix signals, one or more difference signals, etc.). .d.) into the overall directional loudness map of the decoded audio scene.

Варианты осуществления этого аудиодекодера основаны на идее, что регулировка сложности декодирования на основе одной или более карт направленной громкости имеет преимущество, поскольку они могут указывать восприятие аудиосодержимого слушателем и тем самым одновременно реализовать сокращение сложности декодирования и улучшение качества аудиоданных декодера аудиосодержимого. Таким образом, например, аудиодекодер выполнен с возможностью принятия решения на основе вкладов, какие кодированные сигналы аудиосодержимого должны декодироваться и использоваться для воссоздания аудиосцены аудиодекодером. Это означает, например, что кодированное представление одного или более аудиосигналов содержит меньше аудиосигналов (например, только релевантные аудиосигналы в соответствии с картами направленной громкости), чем декодированное представление одного или более аудиосигналов, при почти одинаковом качестве аудиоданных.Embodiments of this audio decoder are based on the idea that adjusting the decoding complexity based on one or more directional loudness maps is advantageous because they can indicate the listener's perception of the audio content and thereby simultaneously realize decoding complexity reduction and audio quality improvement of the audio content decoder. Thus, for example, the audio decoder is configured to decide, based on contributions, which encoded audio content signals are to be decoded and used to recreate the audio scene by the audio decoder. This means, for example, that the encoded representation of one or more audio signals contains fewer audio signals (eg, only relevant audio signals according to directional loudness maps) than the decoded representation of one or more audio signals, with almost the same quality of the audio data.

В соответствии с вариантом осуществления аудиодекодер выполнен с возможностью приема кодированной информации о картах направленной громкости и декодирования кодированной информации о картах направленной громкости, получения общей карты направленной громкости (например, декодированной аудиосцены или, например, как целевой карты направленной громкости декодированной аудиосцены) и/или одной или более (декодированных) карт направленной громкости. В соответствии с вариантом осуществления преобразователь формата выполнен с возможностью определения или приема информации о картах направленной громкости кодированного аудиосодержимого (например, принятого) и декодированного аудиосодержимого (например, определенного). Таким образом, например, карты направленной громкости до и после декодирования могут быть сравнены, чтобы сократить воспринимаемое ухудшение качества вследствие декодирования и/или предыдущего кодирования (например, выполняемого описанным в настоящем документе аудиокодером). Это, например, реализуется посредством минимизации отклонения между картой направленной громкости до и после преобразования формата.According to an embodiment, an audio decoder is configured to receive encoded directional loudness map information and decode the encoded directional loudness map information, obtain an overall directional loudness map (e.g., a decoded audio scene or, e.g., a target directional loudness map of a decoded audio scene), and/or one or more (decoded) directional loudness maps. According to an embodiment, the format converter is configured to determine or receive directional loudness map information of encoded audio content (eg, received) and decoded audio content (eg, determined). Thus, for example, directional loudness maps before and after decoding can be compared to reduce perceived quality degradation due to decoding and/or previous encoding (eg, performed by the audio encoder described herein). This is, for example, implemented by minimizing the deviation between the directional loudness map before and after format conversion.

В соответствии с вариантом осуществления аудиодекодер выполнен с возможностью получения общей карты направленной громкости (например, декодированной аудиосцены или, например, как целевой карты направленной громкости декодированной аудиосцены) из одной или более (например, декодированных) карт направленной громкости.According to an embodiment, an audio decoder is configured to derive an overall directional loudness map (eg, a decoded audio scene or, eg, as a target directional loudness map of a decoded audio scene) from one or more (eg, decoded) directional loudness maps.

В соответствии с вариантом осуществления аудиодекодер выполнен с возможностью вычисления или оценки вклада определённого кодированного сигнала в общую карту направленной громкости декодированной аудиосцены. В качестве альтернативы аудиодекодер выполнен с возможностью вычисления вклада определённого кодированного сигнала в общую карту направленной громкости кодированной аудиосцены. Аудиодекодер выполнен с возможностью принятия решения, следует ли декодировать определённый кодированный сигнал, в зависимости от вычисления или оценки вклада (например, посредством сравнения вычисленного или оцененного вклада с заданным абсолютным или относительным пороговым значением). Заданное пороговое значение может представлять вклад по меньшей мере 60%, 70%, 80% или 90%. Для сохранения хорошего качества пороговые значения должны быть ниже для случаев, в которых вычислительная мощность очень ограничена (например, для мобильного устройства), для этого диапазона могут подойти, например, 10%, 20%, 40%, 60%. Другими словами, в некоторых предпочтительных вариантах осуществления заданное пороговое значение должно представлять вклад по меньшей мере 5%, или по меньшей мере 10%, или по меньшей мере 20%, или по меньшей мере 40% или по меньшей мере 60%.In accordance with an embodiment, the audio decoder is configured to calculate or estimate the contribution of a particular encoded signal to the overall directional loudness map of the decoded audio scene. Alternatively, the audio decoder is configured to calculate the contribution of a particular encoded signal to the overall directional loudness map of the encoded audio scene. The audio decoder is configured to decide whether to decode a certain encoded signal, depending on the calculation or assessment of the contribution (for example, by comparing the calculated or estimated contribution with a given absolute or relative threshold value). The predetermined threshold may represent a contribution of at least 60%, 70%, 80%, or 90%. To maintain good quality, thresholds should be lower for cases where processing power is very limited (e.g. for a mobile device), for this range eg 10%, 20%, 40%, 60% may be appropriate. In other words, in some preferred embodiments, the specified threshold should represent a contribution of at least 5%, or at least 10%, or at least 20%, or at least 40%, or at least 60%.

Вариант осуществления в соответствии с настоящим изобретение относится к модулю рендеринга (например, к модулю бинаурального рендеринга, или к модулю рендеринга в виде звуковой панели, или к модулю рендеринга в виде громкоговорителя) для преобразования аудиосодержимого для прослушивания. В соответствии с вариантом осуществления модуль рендеринга для распределения аудиосодержимого, представленного с использованием первого количества входных аудиоканалов и вспомогательной информации, описывающей желаемые пространственные характеристики, такие как размещение звуковых объектов или соотношения между аудиоканалами, в представление, содержащее определённое количество каналов, которое независимо от первого количества входных аудиоканалов (например, больше первого количества входных аудиоканалов или меньше первого количества входных аудиоканалов). Модуль рендеринга выполнен с возможностью воссоздания аудиосцены на основе одного или более входных аудиосигналов (или, например, на основе двух или более входных аудиосигналов). Кроме того, модуль рендеринга выполнен с возможностью регулировки сложности рендеринга (например, посредством пропуска одного или более входных аудиосигналов, вклад которых в карту направленной громкости ниже порогового значения, в процессе рендеринга) в зависимости от вкладов входных аудиосигналов (например, одного или более аудиосигналов, одного или более микшированных с понижением сигналов, одного или более разностных сигналов и т.д.) в общую карту направленной громкости преобразованной для прослушивания аудиосцены. Общая карта направленной громкости, например, может быть описана посредством вспомогательной информации, принятой модулем рендеринга.An embodiment according to the present invention relates to a renderer (eg, a binaural renderer, or a soundbar renderer, or a loudspeaker renderer) for converting audio content for listening. In accordance with an embodiment, a renderer for distributing audio content represented using a first number of input audio channels and ancillary information describing desired spatial characteristics, such as placement of audio objects or relationships between audio channels, into a representation containing a certain number of channels that, regardless of the first number input audio channels (eg, greater than the first number of input audio channels or less than the first number of input audio channels). The rendering module is configured to recreate an audio scene based on one or more input audio signals (or, for example, based on two or more input audio signals). In addition, the renderer is configured to adjust the rendering complexity (e.g., by skipping one or more input audio signals whose contribution to the directional loudness map is below a threshold during the rendering process) depending on the contributions of the input audio signals (e.g., one or more audio signals, one or more downmix signals, one or more difference signals, etc.) into an overall directional loudness map of the listenable audio scene. The overall directional loudness map, for example, can be described by ancillary information received by the renderer.

В соответствии с вариантом осуществления модуль рендеринга выполнен с возможностью получения (например, приема или самостоятельного определения) информации о картах направленной громкости и получения на основе этого общей карты направленной громкости (например, декодированной аудиосцены) и/или одной или более карт направленной громкости.In accordance with an embodiment, the renderer is configured to obtain (e.g., receive or self-determine) information about directional loudness maps and, based on this, obtain a general directional loudness map (e.g., a decoded audio scene) and/or one or more directional loudness maps.

В соответствии с вариантом осуществления модуль рендеринга выполнен с возможностью получения общей карты направленной громкости (например, декодированной аудиосцены) из одной или более (или двух или более) (например, декодированных или самостоятельно полученных) карт направленной громкости.According to an embodiment, the renderer is configured to derive an overall directional loudness map (eg, decoded audio scene) from one or more (or two or more) (eg, decoded or self-derived) directional loudness maps.

В соответствии с вариантом осуществления модуль рендеринга выполнен с возможностью вычисления или оценки вклада определённого входного аудиосигнала в общую карту направленной громкости аудиосцены. Кроме того, модуль рендеринга выполнен с возможностью принятия решения, следует ли рассматривать определённый входной аудиосигнал при рендеринге, в зависимости от вычисления или оценки вклада (например, посредством сравнения вычисленного или оцененного вклада с заданным абсолютным или относительным пороговым значением)In accordance with an embodiment, the renderer is configured to calculate or estimate the contribution of a particular input audio signal to the overall directional loudness map of the audio scene. In addition, the renderer is configured to decide whether a certain input audio signal should be considered when rendering, depending on the calculation or assessment of the contribution (for example, by comparing the calculated or estimated contribution with a given absolute or relative threshold value)

Вариант осуществления в соответствии с настоящим изобретением относится к способу анализа аудиосигнала. Способ содержит получение множества взвешенных в спектральной области (например, в частотно-временной области) представлений (например, «направленных сигналов») на основе одного или более представлений в спектральной области (например, в частотно-временной области) двух или более входных аудиосигналов. Значения одного или более представлений в спектральной области взвешиваются в зависимости от различных направлений (например, направлений панорамирования) (например, представленных весовыми коэффициентами) звуковых компонентов (например, спектральных интервалов или спектральных полос) (например, мелодических тонов инструментов или певца) в двух или более входных аудиосигналах, чтобы получить множество взвешенных представлений в спектральной области (например, «направленных сигналов»). Дополнительно способ содержит получение информации о громкости (например, одну или более «карт направленной громкости»), ассоциированной с различными направлениями (например, направлениями панорамирования), на основе множества взвешенных представлений в спектральной области (например, «направленных сигналов») в качестве результата анализа.An embodiment according to the present invention relates to a method for analyzing an audio signal. The method comprises deriving a plurality of spectral domain (eg, time-frequency domain) weighted representations (eg, "directional signals") based on one or more spectral domain (eg, time-frequency domain) representations of two or more input audio signals. The values of one or more representations in the spectral domain are weighted depending on the different directions (e.g., pan directions) (e.g., represented by weighting factors) of the audio components (e.g., spectral intervals or spectral bands) (e.g., melodic tones of instruments or a singer) in two or over input audio signals to get many weighted representations in the spectral domain (eg "directional signals"). Additionally, the method comprises obtaining loudness information (e.g., one or more "directional loudness maps") associated with different directions (e.g., pan directions) based on a plurality of weighted representations in the spectral domain (e.g., "directional signals") as a result analysis.

Вариант осуществления в соответствии с настоящим изобретением относится к способу оценки сходства аудиосигналов. Способ содержит получение первой информации о громкости (например, карты направленной громкости; например, значений объединенной громкости), ассоциированной с различными направлениями (например, панорамирования), на основе первого множества из двух или более входных аудиосигналов. Дополнительно способ содержит сравнение первой информации о громкости со второй (например, соответствующей) информацией о громкости (например, эталонной информацией о громкости; например, эталонной картой направленной громкости; например, эталонными значениями объединенной громкости), ассоциированной с различными направлениями панорамирования, и с множеством из двух или более эталонных аудиосигналов, чтобы получить информацию о сходстве (например, «выходную переменную модели» (MOV)), описывающую сходство между первым множеством из двух или более входных аудиосигналов и множеством из двух или более эталонных аудиосигналов (или представляющую, например, качество первого множества из двух или более входных аудиосигналов при сравнении с множеством из двух или более эталонных аудиосигналов).An embodiment according to the present invention relates to a method for evaluating the similarity of audio signals. The method comprises obtaining first loudness information (eg, a map of directional loudness; eg, combined loudness values) associated with different directions (eg, panning) based on a first set of two or more input audio signals. The method further comprises comparing the first loudness information with second (e.g., corresponding) loudness information (e.g., reference loudness information; of two or more reference audio signals to obtain similarity information (e.g., a "model output variable" (MOV)) describing the similarity between a first set of two or more input audio signals and a set of two or more reference audio signals (or representing, for example, quality of the first set of two or more input audio signals when compared to a set of two or more reference audio signals).

Вариант осуществления в соответствии с настоящим изобретением относится к способу кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов (предпочтительно множество входных аудиосигналов). Способ содержит обеспечение одного или более кодированных (например, квантованных и затем кодированных без потерь) аудиосигналов (например, кодированных представлений в спектральной области) на основе одного или более входных аудиосигналов (например, сигнала левого канала и сигнала правого канала) или одного или более полученных из них сигналов (например, центрального сигнала, или микшированного с понижением сигнала и бокового сигнала, или сигнала разности). Кроме того, способ содержит адаптацию формирования одного или более кодированных аудиосигналов в зависимости от одной или более карт направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений (например, направлений панорамирования) одного или более подлежащих кодированию сигналов. Адаптация формирования одного или более кодированных аудиосигналов, например, выполняется в зависимости от вкладов отдельных карт направленной громкости (например, ассоциированных с отдельным сигналом, парой сигналов или группой из трех или более сигналов) одного или более подлежащих квантованию сигналов в общую карту направленной громкости, например, ассоциированную с несколькими входными аудиосигналами (например, с каждым сигналом из одного или более входных аудиосигналов)).An embodiment according to the present invention relates to a method for encoding input audio content containing one or more input audio signals (preferably a plurality of input audio signals). The method comprises providing one or more encoded (e.g., quantized and then lossless encoded) audio signals (e.g., encoded spectral domain representations) based on one or more input audio signals (e.g., a left channel signal and a right channel signal) or one or more received of these signals (for example, the center signal, or the downmix signal and the side signal, or the difference signal). In addition, the method comprises adapting the generation of one or more encoded audio signals depending on one or more directional loudness maps that represent loudness information associated with a plurality of different directions (eg, pan directions) of one or more signals to be encoded. Adaptation of the generation of one or more encoded audio signals, for example, is performed depending on the contributions of individual directional loudness maps (eg, associated with a single signal, a pair of signals, or a group of three or more signals) of one or more signals to be quantized to an overall directional loudness map, for example associated with multiple audio inputs (eg, each signal from one or more audio inputs)).

Вариант осуществления в соответствии с настоящим изобретением относится к способу кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов (предпочтительно множество входных аудиосигналов). Способ содержит обеспечение одного или более кодированных (например, квантованных и затем кодированных без потерь) аудиосигналов (например, кодированных представлений в спектральной области) на основе двух или более входных аудиосигналов (например, сигнала левого канала и сигнала правого канала) или на основе двух или более полученных из них сигналов с использованием совместного кодирования двух или более подлежащих совместному кодированию сигналов (например, с использованием центрального сигнала, или микшированного с понижением сигнала и бокового сигнала, или сигнала разности). Кроме того, способ содержит выбор подлежащих совместному кодированию сигналов из множества возможных сигналов или из множества пар возможных сигналов (например, из двух или более входных аудиосигналов или из двух или более полученных из них сигналов) в зависимости от карт направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений (например, направлений панорамирования) возможных сигналов или пар возможных сигналов. В соответствии с вариантом осуществления подлежащие совместному кодированию сигналы выбираются в зависимости от вкладов отдельных карт направленной громкости возможных сигналов в общую карту направленной громкости, ассоциированную с несколькими входными аудиосигналами (например, с каждым сигналом из одного или более входных аудиосигналов), или в зависимости от вкладов карт направленной громкости пар возможных сигналов в общую карту направленной громкости.An embodiment according to the present invention relates to a method for encoding input audio content containing one or more input audio signals (preferably a plurality of input audio signals). The method comprises providing one or more encoded (e.g., quantized and then lossless encoded) audio signals (e.g., encoded spectral domain representations) based on two or more input audio signals (e.g., a left channel signal and a right channel signal), or based on two or more more signals derived from them using joint encoding of two or more signals to be jointly encoded (eg, using a center signal or downmix signal and a side signal or difference signal). In addition, the method comprises selecting signals to be jointly encoded from a plurality of possible signals or from a plurality of pairs of possible signals (for example, from two or more input audio signals or from two or more signals derived from them) depending on directional loudness maps that represent information about loudness associated with a plurality of different directions (eg, panning directions) of possible signals or pairs of possible signals. According to an embodiment, the signals to be jointly encoded are selected depending on the contributions of the individual directional loudness maps of the possible signals to the overall directional loudness map associated with multiple audio inputs (e.g., each signal from one or more audio inputs), or depending on the contributions directional loudness maps of pairs of possible signals into a common directional loudness map.

Вариант осуществления в соответствии с настоящим изобретением относится к способу кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов (предпочтительно множество входных аудиосигналов). Способ содержит обеспечение одного или более кодированных (например, квантованных и затем кодированных без потерь) аудиосигналов (например, кодированных представлений в спектральной области) на основе двух или более входных аудиосигналов (например, сигнала левого канала и сигнала правого канала) или на основе двух или более полученных из них сигналов. Кроме того, способ содержит определение общей карты направленной громкости (например, целевой карты направленной громкости сцены) на основе входных аудиосигналов и/или определение одной или более отдельных карт направленной громкости, ассоциированных с отдельными входными аудиосигналами (и/или определение одной или более карт направленной громкости, ассоциированных с парами входных аудиосигналов). Дополнительно способ содержит кодирование общей карты направленной громкости и/или одной или более отдельных карт направленной громкости в качестве вспомогательной информации.An embodiment according to the present invention relates to a method for encoding input audio content containing one or more input audio signals (preferably a plurality of input audio signals). The method comprises providing one or more encoded (e.g., quantized and then lossless coded) audio signals (e.g., encoded spectral domain representations) based on two or more input audio signals (e.g., a left channel signal and a right channel signal), or based on two or more more signals received from them. In addition, the method comprises determining an overall directional loudness map (e.g., a target scene directional loudness map) based on the input audio signals and/or determining one or more separate directional loudness maps associated with the individual audio input signals (and/or determining one or more directional loudness maps). volume associated with pairs of input audio signals). Additionally, the method comprises encoding a common directional loudness map and/or one or more individual directional loudness maps as ancillary information.

Вариант осуществления в соответствии с настоящим изобретением относится к способу декодирования кодированного аудиосодержимого. Способ содержит прием кодированного представления одного или более аудиосигналов и обеспечение декодированного представления одного или более аудиосигналов (например, с использованием декодирования, подобного AAC, или с использованием декодирования подвергнутых энтропийному кодированию спектральных значений). Кроме того, способ содержит прием кодированной информации о картах направленной громкости и декодирование кодированной информации о картах направленной громкости, чтобы получить одну или более (например, декодированных) карт направленной громкости. Дополнительно способ содержит воссоздание аудиосцены с использованием декодированного представления одного или более аудиосигналов и с использованием одной или более карт направленной громкости.An embodiment according to the present invention relates to a method for decoding encoded audio content. The method comprises receiving an encoded representation of the one or more audio signals and providing a decoded representation of the one or more audio signals (eg, using AAC-like decoding or using decoding of entropy-encoded spectral values). Further, the method comprises receiving encoded directional loudness map information and decoding the encoded directional loudness map information to obtain one or more (eg, decoded) directional loudness maps. Additionally, the method comprises recreating an audio scene using a decoded representation of one or more audio signals and using one or more directional loudness maps.

Вариант осуществления в соответствии с настоящим изобретением относится к способу преобразования формата аудиосодержимого, который представляет аудиосцену (например, пространственную аудиосцену), из первого формата во второй формат. Первый формат может содержать, например, первое количество каналов или входных аудиосигналов и вспомогательную информацию или пространственную вспомогательную информацию, адаптированную к первому количеству каналов или входных аудиосигналов, и причем второй формат может содержать, например, второе количество каналов или выходных аудиосигналов, которое могут отличаться от первого количества каналов или входных аудиосигналов, и вспомогательную информацию или пространственную вспомогательную информацию, адаптированную ко второму количеству каналов или выходных аудиосигналов. Способ содержит обеспечение представления аудиосодержимого во втором формате на основе представления аудиосодержимого в первом формате и регулировку сложности преобразования формата (например, посредством пропуска одного или более входных аудиосигналов первого формата, вклад которых в карту направленной громкости ниже порогового значения, в процессе преобразования формата) в зависимости от вкладов входных аудиосигналов первого формата (например, одного или более аудиосигналов, одного или более микшированных с понижением сигналов, одного или более разностных сигналов, и т.д.) в общую карту направленной громкости аудиосцены. Общая карта направленной громкости, например, может быть описана посредством вспомогательной информации аудиосодержимого в первом формате, принятого преобразователем формата.An embodiment according to the present invention relates to a method for converting an audio content format that represents an audio scene (eg, a spatial audio scene) from a first format to a second format. The first format may contain, for example, a first number of channels or input audio signals and side information or spatial side information adapted to the first number of channels or input audio signals, and the second format may contain, for example, a second number of channels or audio output signals, which may differ from the first number of channels or input audio signals, and side information or spatial side information adapted to the second number of channels or output audio signals. The method comprises providing a representation of the audio content in a second format based on the representation of the audio content in the first format, and adjusting the format conversion complexity (e.g., by passing one or more input audio signals of the first format whose contribution to the directional loudness map is below a threshold during the format conversion) depending on from the contributions of the input audio signals of the first format (eg, one or more audio signals, one or more downmix signals, one or more difference signals, etc.) to the overall directional loudness map of the audio scene. The overall directional loudness map, for example, can be described by the ancillary information of the audio content in the first format received by the format converter.

Вариант осуществления в соответствии с настоящим изобретением относится к способу, который содержит прием кодированного представления одного или более аудиосигналов и обеспечение декодированного представления одного или более аудиосигналов (например, с использованием декодирования, подобного AAC, или с использованием декодирования подвергнутых энтропийному кодированию спектральных значений). Способ содержит восстановление аудиосцены с использованием декодированного представления одного или более аудиосигналов. Кроме того, способ содержит регулировку сложности декодирования в зависимости от вкладов кодированных сигналов (например, одного или более аудиосигналов, одного или более микшированных с понижением сигналов, одного или более разностных сигналов и т.д.) в общую карту направленной громкости декодированной аудиосцены.An embodiment according to the present invention relates to a method that comprises receiving an encoded representation of one or more audio signals and providing a decoded representation of one or more audio signals (e.g., using AAC-like decoding or using decoding of entropy-coded spectral values). The method comprises restoring an audio scene using a decoded representation of one or more audio signals. In addition, the method comprises adjusting the decoding complexity depending on the contributions of the encoded signals (eg, one or more audio signals, one or more downmix signals, one or more difference signals, etc.) to the overall directional loudness map of the decoded audio scene.

Вариант осуществления в соответствии с настоящим изобретением относится к способу рендеринга аудиосодержимого. В соответствии с вариантом осуществления настоящее изобретение относится к способу повышающего микширования аудиосодержимого, представленного с использованием первого количества входных аудиоканалов и вспомогательной информации, описывающей желаемые пространственные характеристики, такие как размещение звуковых объектов или соотношения между аудиоканалами, в представление, содержащее каналы, количество которых больше, чем первое количество входных аудиоканалов. Способ содержит воссоздание аудиосцены на основе одного или более входных аудиосигналов (или на основе двух или более входных аудиосигналов). Кроме того, способ содержит регулировку сложности рендеринга (например, посредством пропуска одного или более входных аудиосигналов, вклад которых в карту направленной громкости ниже порогового значения, в процессе рендеринга) в зависимости от вкладов входных аудиосигналов (например, одного или более аудиосигналов, одного или более микшированных с понижением сигналов, одного или более разностных сигналов и т.д.) в общую карту направленной громкости преобразованной для прослушивания аудиосцены. Общая карта направленной громкости, например, может быть описана посредством вспомогательной информации, принятой модулем рендеринга.An embodiment according to the present invention relates to a method for rendering audio content. According to an embodiment, the present invention relates to a method for upmixing audio content represented using a first number of input audio channels and ancillary information describing desired spatial characteristics, such as placement of audio objects or relationships between audio channels, into a representation containing more channels than than the first number of input audio channels. The method comprises recreating an audio scene based on one or more input audio signals (or based on two or more input audio signals). In addition, the method comprises adjusting the rendering complexity (e.g., by skipping one or more input audio signals whose contribution to the directional loudness map is below a threshold during rendering) depending on the contributions of the input audio signals (e.g., one or more audio signals, one or more downmixed signals, one or more difference signals, etc.) into an overall directional loudness map of the listenable audio scene. The overall directional loudness map, for example, can be described by ancillary information received by the renderer.

Вариант осуществления в соответствии с настоящим изобретением относится к компьютерной программе, имеющей программный код для выполнения описанного в настоящем документе способа при его исполнении на компьютере.An embodiment in accordance with the present invention relates to a computer program having program code for performing the method described herein when executed on a computer.

Вариант осуществления в соответствии с настоящим изобретением относится к кодированному представлению аудиоданных (например, аудиопотоку или потоку данных), содержащему кодированное представление одного или более аудиосигналов и кодированную информацию о картах направленной громкости.An embodiment in accordance with the present invention relates to an encoded representation of audio data (eg, an audio stream or data stream) comprising an encoded representation of one or more audio signals and encoded information about directional loudness maps.

Описанные выше способы основаны на тех же самых соображениях, как описанные выше модуль анализа аудиоданных, модуль оценки сходства аудиоданных, аудиокодер, аудиодекодер, преобразователь формата и/или модуль рендеринга. Между тем способы могут быть дополнены всеми признаками и функциональными возможностями, которые также описаны в отношении модуля анализа аудиоданных, модуля оценки сходства аудиоданных, аудиокодера, аудиодекодера, преобразователя формата и/или модуля рендеринга.The methods described above are based on the same considerations as the audio parsing module, audio similarity estimator, audio encoder, audio decoder, format converter and/or renderer described above. Meanwhile, the methods can be supplemented with all the features and functionality that are also described in relation to the audio analysis module, the audio similarity estimator, the audio encoder, the audio decoder, the format converter and/or the renderer.

Краткое описание чертежейBrief description of the drawings

Чертежи не обязательно должны соблюдать масштаб, вместо этого акцент обычно делается на иллюстрации принципов изобретения. В следующем описании различные варианты осуществления изобретения описаны со ссылкой на следующие чертежи.The drawings are not necessarily drawn to scale; instead, emphasis is usually placed on illustrating the principles of the invention. In the following description, various embodiments of the invention are described with reference to the following drawings.

Фиг. 1 показывает блок-схему модуля анализа аудиоданных в соответствии с вариантом осуществления настоящего изобретения;Fig. 1 shows a block diagram of an audio data analysis module according to an embodiment of the present invention;

Фиг. 2 показывает подробную блок-схему модуля анализа аудиоданных в соответствии с вариантом осуществления настоящего изобретения;Fig. 2 shows a detailed block diagram of an audio data analysis module according to an embodiment of the present invention;

Фиг. 3a показывает блок-схему модуля анализа аудиоданных, использующего первый подход индекса панорамирования, в соответствии с вариантом осуществления настоящего изобретения;Fig. 3a shows a block diagram of an audio data analysis module using the first pan index approach, in accordance with an embodiment of the present invention;

Фиг. 3b показывает блок-схему модуля анализа аудиоданных, использующего второй подход индекса панорамирования, в соответствии с вариантом осуществления настоящего изобретения;Fig. 3b shows a block diagram of an audio data analysis module using a second panning index approach, in accordance with an embodiment of the present invention;

Фиг. 4a показывает блок-схему модуля анализа аудиоданных, использующего первый подход гистограммы, в соответствии с вариантом осуществления настоящего изобретения;Fig. 4a shows a block diagram of an audio data analysis module using the first histogram approach, in accordance with an embodiment of the present invention;

Фиг. 4b показывает блок-схему модуля анализа аудиоданных, использующего второй подход гистограммы, в соответствии с вариантом осуществления настоящего изобретения;Fig. 4b shows a block diagram of an audio data analysis module using a second histogram approach, in accordance with an embodiment of the present invention;

Фиг. 5 показывает схемы представлений в спектральной области, подлежащих анализу модулем анализа аудиоданных, и результаты направленного анализа, вычисления громкости для каждого частотного интервала и вычисления громкости для каждого направления модулем анализа аудиоданных в соответствии с вариантом осуществления настоящего изобретения;Fig. 5 shows diagrams of spectral domain representations to be analyzed by the audio data analysis module and results of directional analysis, loudness calculation for each frequency interval, and loudness calculation for each direction by the audio data analysis module according to an embodiment of the present invention;

Фиг. 6 показывает схематические гистограммы двух сигналов для направленного анализа модулем анализа аудиоданных в соответствии с вариантом осуществления настоящего изобретения;Fig. 6 shows schematic histograms of two signals for directional analysis by an audio data analysis module according to an embodiment of the present invention;

Фиг. 7a показывает матрицы с одним отличным от нуля масштабным коэффициентом для каждой частотно-временной ячейки, ассоциированной с направлением, для масштабирования, выполняемого модулем анализа аудиоданных, в соответствии с вариантом осуществления настоящего изобретения;Fig. 7a shows matrices with one non-zero scaling factor for each time-frequency bin associated with a direction for scaling performed by an audio data analysis module, in accordance with an embodiment of the present invention;

Фиг. 7b показывает матрицы с несколькими отличными от нуля масштабными коэффициентами для каждой частотно-временной ячейки, ассоциированной с направлением, для масштабирования, выполняемого модулем анализа аудиоданных, в соответствии с вариантом осуществления настоящего изобретения;Fig. 7b shows matrices with multiple non-zero scaling factors for each time-frequency bin associated with a direction for scaling performed by an audio data analysis module, in accordance with an embodiment of the present invention;

Фиг. 7c показывает схематическое изображение печатной платы с первой проводящей дорожкой, второй проводящей дорожкой после обработки в соответствии с вариантом осуществления настоящего изобретения;Fig. 7c shows a schematic diagram of a printed circuit board with a first conductive track, a second conductive track after processing according to an embodiment of the present invention;

Фиг. 8 показывает блок-схема модуля оценки сходства аудиоданных в соответствии с вариантом осуществления настоящего изобретения;Fig. 8 shows a block diagram of an audio similarity estimator according to an embodiment of the present invention;

Фиг. 9 показывает блок-схему модуля оценки сходства аудиоданных для анализа стереосигнала в соответствии с вариантом осуществления настоящего изобретения;Fig. 9 shows a block diagram of an audio similarity estimator for stereo analysis according to an embodiment of the present invention;

Фиг. 10a показывает цветной график эталонной карты направленной громкости, которая может использоваться модулем оценки сходства аудиоданных, в соответствии с вариантом осуществления настоящего изобретения;Fig. 10a shows a color plot of a directional loudness reference map that can be used by an audio similarity estimator, in accordance with an embodiment of the present invention;

Фиг. 10b показывает цветной график карты направленной громкости, подлежащей анализу модулем оценки сходства аудиоданных, в соответствии с вариантом осуществления настоящего изобретения;Fig. 10b shows a color plot of a directional loudness map to be analyzed by an audio similarity estimator according to an embodiment of the present invention;

Фиг. 10c показывает цветной график карты направленной громкости разности, определенную модулем оценки сходства аудиоданных, в соответствии с вариантом осуществления настоящего изобретения;Fig. 10c shows a color graph of a difference directional loudness map determined by an audio similarity estimator according to an embodiment of the present invention;

Фиг. 11 показывает блок-схему аудиокодера в соответствии с вариантом осуществления настоящего изобретения;Fig. 11 shows a block diagram of an audio encoder according to an embodiment of the present invention;

Фиг. 12 показывает блок-схему аудиокодера, выполненного с возможностью адаптации параметров квантования, в соответствии с вариантом осуществления настоящего изобретения;Fig. 12 shows a block diagram of an audio encoder capable of adapting quantization parameters, in accordance with an embodiment of the present invention;

Фиг. 13 показывает блок-схему аудиокодера, выполненного с возможностью выбора подлежащих кодированию сигналов, в соответствии с вариантом осуществления настоящего изобретения;Fig. 13 shows a block diagram of an audio encoder capable of selecting signals to be encoded, in accordance with an embodiment of the present invention;

Фиг. 14 показывает схематичный чертеж, иллюстрирующий определение вкладов отдельных карт направленной громкости возможных сигналов в общую карту направленной громкости, выполняемое аудиокодером, в соответствии с вариантом осуществления настоящего изобретения;Fig. 14 shows a schematic drawing illustrating the determination of the contributions of individual directional loudness maps of possible signals to the overall directional loudness map performed by an audio encoder, in accordance with an embodiment of the present invention;

Фиг. 15 показывает блок-схему аудиокодера, выполненную с возможностью кодирования информации о направленной громкости в качестве вспомогательной информации, в соответствии с вариантом осуществления настоящего изобретения;Fig. 15 shows a block diagram of an audio encoder capable of encoding directional loudness information as side information, according to an embodiment of the present invention;

Фиг. 16 показывает блок-схему аудиодекодера в соответствии с вариантом осуществления настоящего изобретения;Fig. 16 shows a block diagram of an audio decoder according to an embodiment of the present invention;

Фиг. 17 показывает блок-схему аудиодекодера, выполненного с возможностью адаптации параметров декодирования, в соответствии с вариантом осуществления настоящего изобретения;Fig. 17 shows a block diagram of an audio decoder capable of adapting decoding parameters according to an embodiment of the present invention;

Фиг. 18 показывает блок-схему преобразователя формата в соответствии с вариантом осуществления настоящего изобретения;Fig. 18 shows a block diagram of a format converter according to an embodiment of the present invention;

Фиг. 19 показывает блок-схему аудиодекодера, выполненного с возможностью регулировки сложности декодирования, в соответствии с вариантом осуществления настоящего изобретения;Fig. 19 shows a block diagram of an audio decoder capable of adjusting decoding complexity according to an embodiment of the present invention;

Фиг. 20 показывает блок-схему модуля рендеринга в соответствии с вариантом осуществления настоящего изобретения;Fig. 20 shows a block diagram of a renderer according to an embodiment of the present invention;

Фиг. 21 показывает блок-схему способа анализа аудиосигнала в соответствии с вариантом осуществления настоящего изобретения;Fig. 21 shows a flowchart of an audio signal analysis method according to an embodiment of the present invention;

Фиг. 22 показывает блок-схему способа оценки сходства аудиосигналов в соответствии с вариантом осуществления настоящего изобретения;Fig. 22 shows a flowchart of an audio similarity estimation method according to an embodiment of the present invention;

Фиг. 23 показывает блок-схему способа кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов, в соответствии с вариантом осуществления настоящего изобретения;Fig. 23 shows a flowchart of a method for encoding input audio content containing one or more input audio signals, in accordance with an embodiment of the present invention;

Фиг. 24 показывает блок-схему способа совместного кодирования аудиосигналов в соответствии с вариантом осуществления настоящего изобретения;Fig. 24 shows a flowchart of an audio joint coding method according to an embodiment of the present invention;

Фиг. 25 показывает блок-схему способа кодирования одной или более карт направленной громкости в качестве вспомогательной информации в соответствии с вариантом осуществления настоящего изобретения;Fig. 25 shows a flowchart of a method for encoding one or more directional loudness maps as ancillary information in accordance with an embodiment of the present invention;

Фиг. 26 показывает блок-схему способа декодирования кодированного аудиосодержимого в соответствии с вариантом осуществления настоящего изобретения;Fig. 26 shows a flowchart of a method for decoding encoded audio content according to an embodiment of the present invention;

Фиг. 27 показывает блок-схему способа преобразования формата аудиосодержимого, который представляет аудиосцену, из первого формата во второй формат в соответствии с вариантом осуществления настоящего изобретения;Fig. 27 shows a flowchart of a method for converting an audio content format that represents an audio scene from a first format to a second format, according to an embodiment of the present invention;

Фиг. 28 показывает блок-схему способа декодирования кодированного аудиосодержимого и регулировки сложности декодирования в соответствии с вариантом осуществления настоящего изобретения; иFig. 28 shows a flowchart of a method for decoding encoded audio content and adjusting decoding difficulty according to an embodiment of the present invention; And

Фиг. 29 показывает блок-схему способа рендеринга аудиосодержимого в соответствии с вариантом осуществления настоящего изобретения.Fig. 29 shows a flowchart of an audio content rendering method according to an embodiment of the present invention.

Осуществление изобретенияImplementation of the invention

Одинаковые или эквивалентные элементы представляют собой элементы с одинаковой или эквивалентной функциональностью. В нижеследующем описании они обозначены равными или эквивалентными ссылочными позициями, даже если они встречаются на разных чертежах.Same or equivalent elements are elements with the same or equivalent functionality. In the following description, they are designated by equal or equivalent reference numerals, even if they occur in different drawings.

В следующем описании изложено множество подробностей, чтобы обеспечить более полное объяснение вариантов осуществления настоящего изобретения. Однако специалистам в данной области техники будет очевидно, что варианты осуществления настоящего изобретения могут быть реализованы на практике без этих конкретных подробностей. В других случаях хорошо известные конструкции и устройства показаны в виде блок-схемы, а не подробно, чтобы не затруднять понимание вариантов осуществления настоящего изобретения. Кроме того, признаки разных описанных ниже вариантов осуществления могут сочетаться друг с другом, если специально не указано иное.In the following description, many details are set forth in order to provide a more complete explanation of the embodiments of the present invention. However, those skilled in the art will appreciate that embodiments of the present invention may be practiced without these specific details. In other instances, well-known structures and devices are shown in block diagram form rather than in detail so as not to obscure the embodiments of the present invention. In addition, the features of the various embodiments described below may be combined with each other, unless specifically indicated otherwise.

На фиг. 1 показана блок-схема модуля 100 анализа аудиоданных, который выполнен с возможностью получения представления 1101 в спектральной области первого входного аудиосигнала, например, XL, b(m, k), и представления 1102 в спектральной области второго входного аудиосигнала, например, XR, b(m, k). Таким образом, например, модуль 100 анализа аудиоданных принимает представления 1101, 1102 в спектральной области в качестве входной информации 110, подлежащей анализу. Это означает, например, что первый входной аудиосигнал и второй входной аудиосигнал преобразовываются в представления 1101, 1102 в спектральной области внешним прибором или устройством и затем обеспечиваются модулю 100 анализа аудиоданных. В качестве альтернативы представления 1101, 1102 в спектральной области могут быть определены модулем 100 анализа аудиоданных, как будет описано в отношении фиг. 2. В соответствии с вариантом осуществления представления 110 в спектральной области могут быть представлены как

Figure 00000015
например, для i={L; R; DM} или для i
Figure 00000016
[1; I].In FIG. 1 shows a block diagram of an audio analysis module 100 that is configured to obtain a spectral domain representation 110 1 of a first input audio signal, such as X L, b (m, k), and a spectral domain representation 110 2 of a second audio input signal, such as X R, b (m, k). Thus, for example, the audio analysis module 100 receives spectral domain representations 110 1 , 110 2 as input 110 to be analyzed. This means, for example, that the first input audio signal and the second input audio signal are converted into spectral domain representations 110 1 , 110 2 by an external instrument or device and then provided to the audio analysis module 100 . Alternatively, spectral domain representations 110 1 , 110 2 may be determined by audio analysis module 100, as will be described with respect to FIG. 2. According to an embodiment, spectral domain representations 110 can be represented as
Figure 00000015
for example, for i={L; R; DM} or for i
Figure 00000016
[1; I].

В соответствии с вариантом осуществления представления 1101, 1102 в спектральной области подаются в модуль 120 определения информации о направлении для получения информации 122 о направлении, например,

Figure 00000017
(m, k), ассоциированной со спектральными полосами (например, спектральными интервалами k во временном кадре m) представлений 1101, 1102 в спектральной области. Информация 122 о направлении представляет, например, различные направления звуковых компонентов, содержащихся в двух или более входных аудиосигналах. Таким образом, информация 122 о направлении может иметь отношение к направлению, с которого слушатель услышит компонент, содержащийся в двух входных аудиосигналах. В соответствии с вариантом осуществления информация о направлении может представлять индексы панорамирования. Таким образом, например, информация 122 о направлении содержит первое направление, указывающее певца в помещении для прослушивания, и дополнительные направления, соответствующие различным музыкальным инструментам частотной полосы в аудиосцене. Информация 122 о направлении, например, определяется модулем 100 анализа аудиоданных посредством анализа отношений уровней между представлениями 1101, 1102 в спектральной области для всех частотных интервалов или групп частот (например, для всех спектральных интервалов k или спектральных полос b). Примеры для модуля 120 определения информации о направленности описаны относительно фиг. 5-7b.In accordance with an embodiment, the representations 110 1 , 110 2 in the spectral domain are fed to the direction information determination module 120 to obtain direction information 122, for example,
Figure 00000017
(m, k) associated with spectral bands (eg, spectral intervals k in time frame m) of representations 110 1 , 110 2 in the spectral domain. Direction information 122 represents, for example, different directions of audio components contained in two or more input audio signals. Thus, direction information 122 may relate to the direction from which the listener will hear the component contained in the two input audio signals. According to an embodiment, the direction information may represent panning indices. Thus, for example, direction information 122 includes a first direction indicating a singer in the listening room and additional directions corresponding to different frequency band musical instruments in the audio scene. The direction information 122 is, for example, determined by the audio data analysis module 100 by analyzing the level relationships between the representations 110 1 , 110 2 in the spectral domain for all frequency intervals or frequency groups (eg, for all spectral intervals k or spectral bands b). Examples for the directivity information determining module 120 are described with respect to FIG. 5-7b.

В соответствии с вариантом осуществления модуль 100 анализа аудиоданных выполнен с возможностью получения информации 122 о направлении на основе анализа амплитудного панорамирования аудиосодержимого; и/или на основе анализа фазового соотношения, и/или временной задержки, и/или корреляции между аудиосодержимым двух или более входных аудиосигналов; и/или на основе идентификации расширенных (например, декоррелированных и/или панорамированных) источников. Аудиосодержимое может содержать входные аудиосигналы и/или представления 110 в спектральной области входных аудиосигналов.According to an embodiment, the audio data analysis module 100 is configured to obtain directional information 122 based on amplitude pan analysis of the audio content; and/or based on the analysis of the phase relationship, and/or time delay, and/or correlation between the audio content of two or more input audio signals; and/or based on the identification of extended (eg, decorrelated and/or panned) sources. The audio content may comprise input audio signals and/or spectral domain representations 110 of the input audio signals.

На основе информации 122 о направлении и представлений 1101, 1102 в спектральной области модуль 100 анализа аудиоданных выполнен с возможностью определения вкладов 132 (например,

Figure 00000018
и
Figure 00000019
) в информацию 142 о громкости. В соответствии с вариантом осуществления первые вклады 1321, ассоциированные с представлением 1101 в спектральной области первого входного аудиосигнала, определяются блоком 130 определения вкладов в зависимости от информации 122 о направлении, и вторые вклады 1322, ассоциированные с представлением 1102 в спектральной области второго входного аудиосигнала, определяются блоком 130 определения вкладов в зависимости от информации 122 о направлении. В соответствии с вариантом осуществления информация 122 о направлении содержит различные направления (например, извлеченные значения направлений
Figure 00000017
(m, k)). Вклады 132 содержат, например, информацию о громкости для заданных направлений
Figure 00000002
в зависимости от информации 122 о направлении. В соответствии с вариантом осуществления вклады 132 определяют информацию об уровне спектральных полос, направление которых
Figure 00000017
(m, k) (соответствующее информации 122 о направлении) равняется заданным направлениям
Figure 00000002
, и/или масштабированную информацию об уровне спектральных полос, направление которых
Figure 00000017
(m, k) граничит с заданным направлением
Figure 00000002
.Based on the direction information 122 and spectral domain representations 110 1 , 110 2 , the audio analysis module 100 is configured to determine contributions 132 (eg,
Figure 00000018
And
Figure 00000019
) to loudness information 142. According to an embodiment, the first contributions 132 1 associated with the representation 110 1 in the spectral domain of the first input audio signal are determined by the contribution determiner 130 depending on the direction information 122, and the second contributions 132 2 associated with the representation 110 2 in the spectral domain of the second of the input audio signal are determined by the contribution determination block 130 depending on the direction information 122 . According to an embodiment, direction information 122 contains various directions (e.g., extracted direction values
Figure 00000017
(m, k)). Contributions 132 contain, for example, loudness information for given directions
Figure 00000002
depending on the information 122 about the direction. In accordance with an embodiment, the contributions 132 define information about the level of spectral bands whose direction
Figure 00000017
(m, k) (corresponding to the direction information 122) equals the given directions
Figure 00000002
, and/or scaled information about the level of spectral bands, the direction of which
Figure 00000017
(m, k) borders on the given direction
Figure 00000002
.

В соответствии с вариантом осуществления извлеченные значения направлений

Figure 00000020
определяются в зависимости от значений в спектральной области (например,
Figure 00000021
как
Figure 00000022
и
Figure 00000023
как
Figure 00000024
в обозначении [13]) входных аудиосигналов.According to an embodiment, the extracted direction values
Figure 00000020
are determined depending on the values in the spectral region (for example,
Figure 00000021
How
Figure 00000022
And
Figure 00000023
How
Figure 00000024
in notation [13]) of audio input signals.

Чтобы получить информацию 142 о громкости (например, L(m,

Figure 00000002
) для множества различных оценочных диапазонов направлений
Figure 00000002
(j
Figure 00000016
[1; J] для J заданных направлений)), ассоциированных с различными направлениями
Figure 00000002
(например, заданными направлениями) как результат анализа посредством модуля 100 анализа аудиоданных, модуль 100 анализа аудиоданных выполнен с возможностью объединения вкладов 1321 (например,
Figure 00000018
), соответствующих представлению 1101 в спектральной области первого входного аудиосигнала, и вкладов 1322 (например,
Figure 00000019
), соответствующих представлению 1102 в спектральной области второго входного аудиосигнала, чтобы принять объединенный сигнал как информацию 142 о громкости, например, двух или более каналов (например, первый канал ассоциирован с первым входным аудиосигналом и представлен индексом L, и второй канал ассоциирован со вторым входным аудиосигналом и представлен индексом R). Тес самым получается информация 142 о громкости, которая определяет громкость с течением времени и для каждого из различных направлений
Figure 00000002
. Это выполняется, например, посредством блока 140 определения информации о громкости.To obtain loudness information 142 (for example, L(m,
Figure 00000002
) for many different estimated ranges of directions
Figure 00000002
(j
Figure 00000016
[1; J] for J given directions)) associated with different directions
Figure 00000002
(for example, given directions) as a result of the analysis by the audio data analysis module 100, the audio data analysis module 100 is configured to combine the contributions 132 1 (for example,
Figure 00000018
) corresponding to the representation 110 1 in the spectral domain of the first input audio signal, and contributions 132 2 (for example,
Figure 00000019
) corresponding to the spectral domain representation 110 2 of the second input audio signal to receive the combined signal as loudness information 142 of, for example, two or more channels (for example, the first channel is associated with the first input audio signal and is represented by index L, and the second channel is associated with the second input audio signal and is represented by index R). This results in loudness information 142 which determines the loudness over time and for each of the various directions.
Figure 00000002
. This is done, for example, by the loudness information determination unit 140 .

На фиг. 2 показан модуль 100 анализа аудиоданных, который может содержать признаки и/или функциональные возможности, как описано в отношении модуля 100 анализа аудиоданных на фиг. 1. В соответствии с вариантом осуществления модуль 100 анализа аудиоданных принимает первый входной аудиосигнал хL 1121 и второй входной аудиосигнал xR 1122. Индекс L ассоциирован с левой стороной, и индекс R ассоциирован с правой стороной. Индексы могут быть ассоциированы с громкоговорителем (например, с установлением положения громкоговорителей). В соответствии с вариантом осуществления индексы могут быть представлены номерами, указывающими канал, ассоциированный с входным аудиосигналом.In FIG. 2 shows an audio parsing module 100, which may include features and/or functionality as described with respect to the audio parsing module 100 of FIG. 1. According to an embodiment, audio analysis module 100 receives a first audio input x L 112 1 and a second audio input x R 112 2 . Index L is associated with the left side and index R is associated with the right side. The indexes may be associated with a loudspeaker (eg, with positioning of loudspeakers). According to an embodiment, the indexes may be represented by numbers indicating the channel associated with the input audio signal.

В соответствии с вариантом осуществления первый входной аудиосигнал 1121 и/или второй входной аудиосигнал 1122 может представлять сигнал во временной области, который может быть преобразован модулем 114 преобразования из временной области в спектральную область, чтобы получить представление 110 в спектральной области из соответствующего входного аудиосигнала. Другими словами, модуль 114 преобразования из временной области в спектральную область может выполнить декомпозицию двух или более входных аудиосигналов 1121, 1122 (например, xL, xR, xi) в область кратковременного преобразования Фурье (STFT), чтобы получить два или более преобразованных аудиосигнала 1151, 1152 (например, X’L, X’R, X’i). Если первый входной аудиосигнал 1121 и/или второй входной аудиосигнал 1122 представляет собой представление 110 в спектральной области, модуль 114 преобразования из временной области в спектральную область может быть опущен.According to an embodiment, the first input audio signal 1121 and/or second audio input signal 1122may represent a time domain signal that may be converted by time domain to spectral domain conversion module 114 to obtain a spectral domain representation 110 from the corresponding input audio signal. In other words, the time-to-spectral domain conversion module 114 may decompose two or more input audio signals 1121, 1122 (e.g. xL, xR, xi) into the Short Time Fourier Transform (STFT) region to obtain two or more transformed audio signals 1151, 1152 (e.g. X'L,X'R,X'i). If the first input audio signal is 1121 and/or second audio input 1122 is a representation 110 in the spectral domain, the time-domain-to-spectral-domain conversion module 114 may be omitted.

Факультативно входные аудиосигналы 112 или преобразованные аудиосигналы 115 обрабатываются модулем 116 преобразования с использованием модели уха для получения представления 110 в спектральной области из соответствующего входного аудиосигнала 1121 и 1122. Спектральные интервалы обрабатываемого сигнала, например, 112 или 115, группируются в спектральные полосы, например, на основе модели для восприятия спектральных полос человеческим ухом, и затем спектральные полосы могут быть взвешены на основе модели внешнего уха и/или среднего уха. Таким образом, посредством модуля 116 обработки с использованием модели уха может быть определено оптимизированное представление 110 в спектральной области входных аудиосигналов 112.Optionally, input audio signals 112 or converted audio signals 115 are processed by transform module 116 using an ear model to obtain a spectral domain representation 110 from the corresponding input audio signal 112 1 and 112 2 . The spectral intervals of the signal to be processed, eg 112 or 115, are grouped into spectral bands, eg based on a model for the perception of spectral bands by the human ear, and then the spectral bands can be weighted based on the outer ear and/or middle ear model. Thus, an optimized representation 110 in the spectral domain of the input audio signals 112 can be determined using the ear model processing module 116.

В соответствии с вариантом осуществления представление 1101 в спектральной области первого входного аудиосигнала 1121, например XL, b(m, k), ассоциировано с информацией об уровне первого входного аудиосигнала 1121 (например, обозначенного индексом L) и различных спектральных полосах (например, обозначенных индексом b). Для каждой спектральной полосы b представление 1101 в спектральной области представляет, например, информацию об уровне для временных кадров m и для всех спектральных интервалов k соответствующей спектральной полосы b.In accordance with an embodiment, the spectral domain representation 110 1 of the first input audio signal 112 1 , such as X L, b (m, k), is associated with information about the level of the first input audio signal 112 1 (for example, denoted by the index L) and various spectral bands ( for example, marked with index b). For each spectral band b, the spectral domain representation 110 1 represents, for example, level information for time frames m and for all spectral slots k of the corresponding spectral band b.

В соответствии с вариантом осуществления представление 1102 в спектральной области второго входного аудиосигнала 1122, например XR, b(m, k), ассоциировано с информацией об уровне второго входного аудиосигнала 1122 (например, обозначенного индексом R) и различных спектральных полосах (например, обозначенных индексом b). Для каждой спектральной полосы b представление 1102 в спектральной области представляет, например, информацию об уровне для временных кадров m и для всех спектральных интервалов k соответствующей спектральной полосы b.In accordance with an embodiment, the spectral domain representation 110 2 of the second audio input signal 112 2 , such as X R, b (m, k), is associated with information about the level of the second audio input signal 112 2 (for example, denoted by the index R) and various spectral bands ( for example, marked with index b). For each spectral band b, the spectral domain representation 110 2 represents, for example, level information for time frames m and for all spectral slots k of the corresponding spectral band b.

На основе представления 1101 в спектральной области первого входного аудиосигнала 112 и представления 1102 в спектральной области второго входного аудиосигнала определение информации 120 о направлении может быть выполнено модулем 100 анализа аудиоданных. С помощью модуля 124 анализа направления может быть определена информация 125 о направлении панорамирования, например,

Figure 00000017
(m, k). Информация 125 о направлении панорамирования представляет, например, индексы панорамирования, соответствующие компонентам сигнала (например, компонентам первого входного аудиосигнала 1121 и второго входного аудиосигнала 1122, панорамированным в некотором направлении). В соответствии с вариантом осуществления входные аудиосигналы 112 ассоциированы с разными указанными направлениями, например, посредством индекса L для левой стороны и индекса R для правой стороны. Индекс панорамирования определяет, например, направление между двумя или более входными аудиосигналами 112 или направление в направлении входного аудиосигнала 112. Таким образом, например, в случае двухканального сигнала, как показано на фиг. 2, информация 125 о направлении панорамирования может содержать индексы панорамирования, соответствующие компонентам сигнала, панорамированным полностью в левую сторону или в правую сторону, или в каком-либо промежуточном направлении.Based on the representation 110 1 in the spectral domain of the first input audio signal 112 and the representation 110 2 in the spectral domain of the second input audio signal, determination of the information 120 about the direction can be performed by the audio analysis module 100 . Using the direction analysis module 124, pan direction information 125 can be determined, for example,
Figure 00000017
(m, k). The pan direction information 125 represents, for example, pan indices corresponding to signal components (eg, components of the first input audio signal 112 1 and the second input audio signal 112 2 panned in a certain direction). In accordance with an embodiment, the input audio signals 112 are associated with different indicated directions, for example, through an index L for the left side and an index R for the right side. The pan index determines, for example, the direction between two or more input audio signals 112, or the direction in the direction of the input audio signal 112. Thus, for example, in the case of a two-channel signal, as shown in FIG. 2, the pan direction information 125 may comprise pan indices corresponding to signal components panned all the way to the left or to the right, or in some direction in between.

В соответствии с вариантом осуществления на основе информации 125 о направлении панорамирования модуль 100 анализа аудиоданных выполнен с возможностью выполнения определения 126 масштабного коэффициента, чтобы определить зависящее от направления взвешивание 127, например,

Figure 00000001
для j
Figure 00000016
[1; i]. Зависящее от направления взвешивание 127 определяет, например, масштабный коэффициент в зависимости от направлений
Figure 00000017
(m, k), извлеченный из информации 125 о направлении панорамирования. Зависящее от направления взвешивание 127 определяется для множества заданных направлений
Figure 00000002
. В соответствии с вариантом осуществления зависящее от направления взвешивание 127 определяет функции для каждого заданного направления. Функции зависят, например, от направлений
Figure 00000017
(m, k), извлеченных из информации 125 о направлении панорамирования. Масштабный коэффициент зависит, например, от расстояния между направлениями
Figure 00000017
(m, k), извлеченных из информации 125 о направлении панорамирования, и заданным направлением
Figure 00000002
. Масштабные коэффициенты, т.е. зависящее от направления взвешивание 127, могут быть определены для каждого спектрального интервала и/или для каждого временного шага/временного кадра.According to an embodiment, based on the pan direction information 125, the audio analysis module 100 is configured to perform a scale factor determination 126 to determine direction-dependent weighting 127, for example,
Figure 00000001
for j
Figure 00000016
[1; i]. The direction-dependent weighting 127 determines, for example, the scaling factor depending on the directions
Figure 00000017
(m, k) extracted from the pan direction information 125 . The direction dependent weighting 127 is determined for a plurality of given directions
Figure 00000002
. In accordance with an embodiment, direction dependent weighting 127 determines functions for each given direction. Functions depend, for example, on directions
Figure 00000017
(m, k) extracted from the pan direction information 125 . The scaling factor depends, for example, on the distance between directions
Figure 00000017
(m, k) extracted from the pan direction information 125 and the given direction
Figure 00000002
. Scale factors, i.e. direction-dependent weighting 127 may be determined for each spectral interval and/or for each time step/time frame.

В соответствии с вариантом осуществления зависящее от направления взвешивание 127 использует гауссову функцию, в результате чего зависящее от направления взвешивание уменьшается с увеличением отклонения между соответствующими извлеченными значениями направлений

Figure 00000017
(m, k) и соответствующими заданными значениями направлений
Figure 00000002
.In accordance with an embodiment, the direction-dependent weighting 127 uses a Gaussian function, whereby the direction-dependent weighting decreases as the deviation between the corresponding extracted direction values increases.
Figure 00000017
(m, k) and corresponding given direction values
Figure 00000002
.

В соответствии с вариантом осуществления модуль 100 анализа аудиоданных выполнен с возможностью получения зависящего от направления взвешивания 127

Figure 00000001
, ассоциированного с заданным направлением (например, представленным индексом
Figure 00000002
), временем (или временным кадром), обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k, в соответствии с
Figure 00000003
, где
Figure 00000004
- заданное значение (которое управляет, например, шириной гауссова окна); где
Figure 00000005
обозначает извлеченные значения направлений, ассоциированные со временем (или временным кадром), обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k; и где
Figure 00000002
- (например, заданное) значение направления, которое обозначает (или которое ассоциировано) заданное направление (например, имеющее индекс направления j).According to an embodiment, the audio data analysis module 100 is configured to obtain a direction dependent weighting 127
Figure 00000001
, associated with a given direction (for example, represented by the index
Figure 00000002
), a time (or time frame) denoted by time index m, and a spectral interval denoted by spectral interval index k, according to
Figure 00000003
, Where
Figure 00000004
- set value (which controls, for example, the width of the Gaussian window); Where
Figure 00000005
denotes the extracted direction values associated with a time (or time frame) denoted by time index m and a spectral interval denoted by spectral slot index k; and where
Figure 00000002
- (eg, given) direction value that denotes (or is associated with) a given direction (eg, having a direction index j).

В соответствии с вариантом осуществления модуль 100 анализа аудиоданных выполнен с возможностью определения, информации о направлении, содержащей информацию 125 о направлении панорамирования и/или зависящее от направления взвешивание 127, посредством использования модуля 120 определения информации о направлении. Эта информация о направлении, например, получается на основе аудиосодержимого двух или более входных аудиосигналов 112.According to an embodiment, the audio data analysis module 100 is configured to determine direction information comprising pan direction information 125 and/or direction-dependent weighting 127 by using the direction information determination module 120 . This direction information is obtained based on the audio content of two or more audio input signals 112, for example.

В соответствии с вариантом осуществления модуль 100 анализа аудиоданных содержит модуль 134 масштабирования и/или модуль 136 объединения для определения 130 вкладов. С помощью модуля 134 масштабирования зависящее от направления взвешивание 127 применяется к одному или более представлениям 110 в спектральной области двух или более входных аудиосигналов 112, чтобы получить взвешенные представления 135 в спектральной области (например,

Figure 00000025
Figure 00000013
для разных
Figure 00000026
(j
Figure 00000016
[1; J] или j = {L; R; DM})). Другими словами, представление 1101 в спектральной области первого входного аудиосигнала и представление 1102 в спектральной области второго входного аудиосигнала взвешиваются для каждого заданного направления
Figure 00000002
индивидуально. Таким образом, например, взвешенное представление 1351 в спектральной области, например,
Figure 00000027
первого входного аудиосигнала может содержать только компоненты сигнала первого входного аудиосигнала 112, соответствующего заданному направлению
Figure 00000028
, или дополнительно взвешенные (например, уменьшенные) компоненты сигнала первого входного аудиосигнала 1121, ассоциированные с соседними заданными направлениями. Таким образом значения одного или более представлений 110 в спектральной области (например,
Figure 00000010
) взвешиваются в зависимости от различных направлений (например, направлений панорамирования
Figure 00000002
) (например, представленных весовыми коэффициентами
Figure 00000020
) звуковых компонентов.In accordance with an embodiment, the audio data analysis module 100 includes a scaling module 134 and/or a combining module 136 to determine 130 contributions. Using a scaler 134, direction-dependent weighting 127 is applied to one or more spectral domain representations 110 of two or more input audio signals 112 to obtain weighted spectral domain representations 135 (e.g.,
Figure 00000025
Figure 00000013
for different
Figure 00000026
(j
Figure 00000016
[1; J] or j = {L; R; DM})). In other words, the spectral domain representation 110 1 of the first audio input signal and the spectral domain representation 110 2 of the second audio input signal are weighted for each given direction.
Figure 00000002
individually. Thus, for example, a weighted representation of 135 1 in the spectral domain, for example,
Figure 00000027
of the first input audio signal may contain only the signal components of the first input audio signal 112 corresponding to the specified direction
Figure 00000028
, or additionally weighted (eg, reduced) signal components of the first input audio signal 112 1 associated with adjacent predetermined directions. Thus, the values of one or more representations 110 in the spectral domain (for example,
Figure 00000010
) are weighted depending on different directions (e.g. pan directions
Figure 00000002
) (for example, represented by weight coefficients
Figure 00000020
) audio components.

В соответствии с вариантом осуществления модуль 126 определения масштабного коэффициента выполнен с возможностью определения зависящего от направления взвешивание 127, в результате чего для каждых заданных компонентов сигнала направления, извлеченные значения направлений

Figure 00000017
(m, k) которых отклоняются от заданного направления
Figure 00000002
, взвешиваются таким образом, чтобы они имели меньшее влияние, чем компоненты сигнала, извлеченные значения направлений
Figure 00000017
(m, k) которых равны заданному направлению
Figure 00000002
. Другими словами, в зависящем от направления взвешивании 127 для первого заданного направления компоненты сигнала
Figure 00000028
, ассоциированные с первым заданным направлением
Figure 00000028
, усиливаются по отношению к компонентам сигнала, ассоциированным с другими направлениями, в первом взвешенном представлении в спектральной области
Figure 00000027
, соответствующем первому заданному направлению
Figure 00000028
.In accordance with an embodiment, the scale factor determination module 126 is configured to determine a direction dependent weighting 127 such that, for each given direction signal components, the extracted direction values
Figure 00000017
(m, k) which deviate from the given direction
Figure 00000002
, are weighted so that they have less influence than the signal components, the extracted direction values
Figure 00000017
(m, k) which are equal to the given direction
Figure 00000002
. In other words, in the direction dependent weighting 127 for the first given direction of the signal component
Figure 00000028
, associated with the first given direction
Figure 00000028
, are amplified with respect to signal components associated with other directions, in the first weighted representation in the spectral domain
Figure 00000027
corresponding to the first given direction
Figure 00000028
.

В соответствии с вариантом осуществления модуль 100 анализа аудиоданных выполнен с возможностью получения взвешенных представлений 135 в спектральной области

Figure 00000007
, ассоциированных с входным аудиосигналом (например, 1101 для i=1 или 1102 для i=2) или объединением входных аудиосигналов (например, с объединением двух входных аудиосигналов 1101 и 1102 для i=1,2), обозначенных индексом i, спектральной полосой, обозначенной индексом b, (например, заданным) направлением, обозначенным индексом
Figure 00000008
, временем (или временным кадром), обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k, в соответствии с
Figure 00000029
где
Figure 00000010
обозначает представление 110 в спектральной области, ассоциированное с входным аудиосигналом 112 или объединением входных аудиосигналов 112, обозначенным индексом i (например, i=L, или i=R, или i=DM, или i представлен номером, указывающим канал), спектральной полосой, обозначенной индексом b, временем (или временным кадром), обозначенным временным индексом m. и спектральным интервалом, обозначенным индексом спектрального интервала k; и где
Figure 00000001
обозначает зависящее от направления взвешивание 127, ассоциированное с (например, заданным) направлением, обозначенным индексом
Figure 00000002
, временем (или временным кадром), обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k.In accordance with an embodiment, the audio data analysis module 100 is configured to obtain weighted representations 135 in the spectral domain
Figure 00000007
associated with the input audio signal (for example, 1101 for i=1 or 1102 for i=2) or by combining the input audio signals (for example, combining two input audio signals 1101 And 1102 for i=1,2) denoted by index i, spectral band denoted by index b, (for example, given) direction denoted by index
Figure 00000008
, a time (or time frame) denoted by time index m, and a spectral interval denoted by spectral interval index k, according to
Figure 00000029
Where
Figure 00000010
denotes a representation 110 in the spectral domain associated with an input audio signal 112 or a combination of input audio signals 112, denoted by index i (for example, i=L or i=R or i=DM or i is represented by a number indicating a channel), a spectral band, indicated by index b, time (or time frame) indicated by time index m. and a spectral interval, denoted by the index of the spectral interval k; and where
Figure 00000001
denotes a direction dependent weighting 127 associated with the (eg given) direction indicated by the index
Figure 00000002
, a time (or time frame) denoted by time index m, and a spectral interval denoted by spectral slot index k.

Дополнительные или альтернативные функциональные возможности модуля 134 масштабирования описаны в отношении фиг. 6-7b.Additional or alternative functionality of scaler 134 is described with respect to FIG. 6-7b.

В соответствии с вариантом осуществления взвешенные представления 1351 в спектральной области первого входного аудиосигнала и взвешенные представления 1352 в спектральной области второго входного аудиосигнала объединяются модулем 136 объединения, чтобы получить взвешенное объединенное представление 137 в спектральной области

Figure 00000030
. Таким образом, с помощью модуля 136 объединения взвешенные представления 135 в спектральной области всех каналов (в случае фиг. 2 первого входного аудиосигнала 1121 и второго входного аудиосигнала 1122) соответствующие заданному направлению
Figure 00000002
, объединяются в один сигнал. Это выполняется, например, для всех заданных направлений
Figure 00000002
(для j
Figure 00000016
[1; i]). В соответствии с вариантом осуществления взвешенное объединенное представление 137 в спектральной области ассоциировано с разными частотными полосами b.In accordance with an embodiment, the weighted spectral domain representations 135 1 of the first input audio signal and the weighted spectral domain representations 135 2 of the second audio input signal are combined by a combiner 136 to obtain a weighted combined spectral domain representation 137
Figure 00000030
. Thus, using the combiner 136, the weighted representations 135 in the spectral domain of all channels (in the case of FIG. 2 of the first input audio signal 112 1 and the second input audio signal 112 2 ) corresponding to a given direction
Figure 00000002
are combined into one signal. This is done, for example, for all given directions
Figure 00000002
(for j
Figure 00000016
[1; i]). According to an embodiment, the weighted combined spectral domain representation 137 is associated with different frequency bands b.

На основе взвешенного объединенного представления 137 в спектральной области выполняется определение 140 информации о громкости, чтобы получить в качестве результата анализа информацию 142 о громкости. В соответствии с вариантом осуществления определение 140 информации о громкости содержит определение 144 громкости в частотных полосах и определение 146 громкости по всем частотным полосам. В соответствии с вариантом осуществления определение 144 громкости в частотных полосах выполнено с возможностью определения значений 145 громкости частотных полос для каждой спектральной полосы b на основе взвешенных объединенных представлений 137 в спектральной области. Другими словами, определение 144 громкости в частотных полосах определяет громкость в каждой спектральной полосе в зависимости от заданных направлений

Figure 00000002
. Таким образом, полученные значения 145 громкости частотных полос больше не зависят от отдельных спектральных интервалов k.Based on the weighted combined representation 137 in the spectral domain, loudness information determination 140 is performed to obtain loudness information 142 as an analysis result. According to an embodiment, the loudness information definition 140 comprises a loudness definition 144 in frequency bands and a loudness definition 146 across all frequency bands. In accordance with an embodiment, the frequency band loudness determination 144 is configured to determine the frequency band loudness values 145 for each spectral band b based on the weighted combined representations 137 in the spectral domain. In other words, determining 144 loudness in frequency bands determines the loudness in each spectral band depending on the given directions.
Figure 00000002
. Thus, the loudness values 145 obtained for the frequency bands no longer depend on the individual spectral intervals k.

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью вычисления среднего значения квадратов спектральных значений взвешенных объединенных представлений 137 в спектральной области (например,

Figure 00000030
) по спектральным значениям частотной полосы (или по спектральным интервалам (k) частотной полосы (b)), и применять возведение в степень с показателем между 0 и 1/2 (и предпочтительно меньше чем 1/3 или ¼) к среднему значению квадратов спектральных значений, чтобы определить значения 145 громкости частотных полос (например,
Figure 00000011
) (например, ассоциированных с соответствующей частотной полосой (b)).In accordance with an embodiment, the audio data analysis module is configured to calculate the average of the squares of the spectral values of the weighted combined representations 137 in the spectral domain (for example,
Figure 00000030
) over the spectral values of the frequency band (or over the spectral intervals (k) of the frequency band (b)), and apply exponentiation with an exponent between 0 and 1/2 (and preferably less than 1/3 or ¼) to the average of the squares of the spectral values to determine the loudness values 145 of the frequency bands (for example,
Figure 00000011
) (eg associated with the corresponding frequency band (b)).

В соответствии с вариантом осуществления модуль анализа аудиоданных выполнен с возможностью получения значений 145 громкости частотных полос

Figure 00000011
, ассоциированных со спектральной полосой, обозначенной индексом b, направлением, обозначенным индексом
Figure 00000002
, временем (или временным кадром), обозначенным временным индексом m, в соответствии с
Figure 00000031
где Kb обозначает количество спектральных интервалов в частотной полосе, имеющей индекс частотной полосы b; где k - бегущая переменная и обозначает спектральные интервалы в частотной полосе, имеющей индекс частотной полосы b; где b обозначает спектральную полосу; и где
Figure 00000013
обозначает взвешенное объединенное представление 137 в спектральной области, ассоциированное со спектральной полосой, обозначенной индексом b, направлением, обозначенным индексом
Figure 00000002
, временем (или временным кадром), обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k.According to an embodiment, the audio data analysis module is configured to obtain loudness values of 145 frequency bands
Figure 00000011
, associated with the spectral band, denoted by the index b, the direction, denoted by the index
Figure 00000002
, the time (or time frame) denoted by time index m, according to
Figure 00000031
where K b denotes the number of spectral intervals in the frequency band having the frequency band index b; where k is a running variable and denotes spectral intervals in a frequency band having a frequency band index b; where b denotes the spectral band; and where
Figure 00000013
denotes the weighted combined representation 137 in the spectral domain associated with the spectral band indicated by the index b, the direction indicated by the index
Figure 00000002
, a time (or time frame) denoted by time index m, and a spectral slot denoted by spectral slot index k.

При определении 146 информации о громкости по всем частотным полосам значения 145 громкости частотных полос, например, усредняются по всем спектральным полосам, чтобы обеспечить информацию 142 о громкости, зависящую от заданного направления и по меньшей мере одного временного кадра m. В соответствии с вариантом осуществления информация 142 о громкости может представлять общую громкость, вызванную входными аудиосигналами 112 в различных направлениях в помещении для прослушивания. В соответствии с вариантом осуществления информация 142 о громкости может быть ассоциирована со значениями объединенной громкости, ассоциированным с различными определёнными или заданными направлениями

Figure 00000002
.In determining 146 loudness information across all frequency bands, the loudness values 145 of the frequency bands are, for example, averaged over all spectral bands to provide loudness information 142 dependent on a given direction and at least one time frame m. According to an embodiment, the loudness information 142 may represent the overall loudness caused by the input audio signals 112 in various directions in the listening room. In accordance with an embodiment, loudness information 142 may be associated with combined loudness values associated with various defined or predetermined directions.
Figure 00000002
.

Модуль анализа аудиоданных по одному из пунктов 1-17, в котором модуль анализа аудиоданных выполнен с возможностью получения множества значений объединенной громкости L(m,

Figure 00000002
), ассоциированных с направлением, обозначенным индексом
Figure 00000002
, и временем (или временным кадром), обозначенным временным индексом m, в соответствии с
Figure 00000032
где B обозначает общее количество спектральных полос b, и где
Figure 00000011
обозначает значения 145 громкости частотных полос, ассоциированных со спектральной полосой, обозначенной индексом b, направлением, обозначенным индексом
Figure 00000002
, и временем [или временным кадром], обозначенным временным индексом m.The audio data analysis module as set forth in any one of 1 to 17, wherein the audio data analysis module is configured to obtain a plurality of combined loudness values L(m,
Figure 00000002
) associated with the direction indicated by the index
Figure 00000002
, and the time (or time frame) denoted by time index m, according to
Figure 00000032
where B denotes the total number of spectral bands b, and where
Figure 00000011
denotes the loudness values 145 of the frequency bands associated with the spectral band indicated by the index b, the direction indicated by the index
Figure 00000002
, and time [or time frame] denoted by time index m.

На фиг. 1 и фиг. 2 модуль 100 анализа аудиоданных выполнен с возможностью анализа представления 110 в спектральной области двух входных аудиосигналов, но модуль 100 анализа аудиоданных также выполнен с возможностью анализа более чем двух представлений 110 в спектральной области.In FIG. 1 and FIG. 2, the audio data analysis module 100 is configured to analyze the spectral domain representation 110 of two input audio signals, but the audio data analysis module 100 is also configured to analyze more than two spectral domain representations 110.

На фиг. 3a-4b показаны различные реализации модуля 100 анализа аудиоданных. Модуль анализа аудиоданных, показанный на фиг. 1-4b, не ограничен признаками и функциональными возможностями, показанными для одной реализации, но также может содержать признаки и функциональные возможности других реализаций модуля анализа аудиоданных, показанного на различных фиг. 1-4b.In FIG. 3a-4b show various implementations of the audio analysis module 100. The audio data analysis module shown in FIG. 1-4b is not limited to features and functionality shown for one implementation, but may also contain features and functionality from other implementations of the audio data parsing module shown in various FIGS. 1-4b.

На фиг. 3a и фиг. 3b показаны два разных подхода для определения информации 142 громкости на основе определения индекса панорамирования посредством модуля 100 анализа аудиоданных.In FIG. 3a and fig. 3b shows two different approaches for determining loudness information 142 based on determining the pan index by the audio analysis module 100 .

Модуль 100 анализа аудиоданных, показанный на фиг. 3a, является аналогичным или эквивалентным модулю 100 анализа аудиоданных, показанному на фиг. 2. Два или более входных сигнала 112 преобразовываются в частотно-временные сигналы 110 посредством частотно-временной декомпозиции 113. В соответствии с вариантом осуществления частотно-временная декомпозиция 113 может содержать преобразование из временной области в спектральную область и/или обработку с использованием модели уха.The audio data analysis module 100 shown in FIG. 3a is similar or equivalent to the audio analysis module 100 shown in FIG. 2. Two or more input signals 112 are converted to time-frequency signals 110 by time-frequency decomposition 113. According to an embodiment, time-frequency decomposition 113 may comprise time domain to spectral domain transformation and/or ear model processing.

На основе частотно-временных сигналов выполняется определение 120 информации о направлении. Определение 120 информации о направлении содержит, например, направленный анализ 124 и определение 126 оконных функций. В блоке 130 определения вкладов направленные сигналы 132 получаются, например, посредством разделения частотно-временных сигналов 110 на направленные сигналы посредством применения зависящих от направления оконных функций 127 к частотно-временным сигналам 110. На основе направленных сигналов 132 выполняется вычисление 140 громкости для получения информации 142 о громкости в качестве результата анализа. Информация 142 о громкости может содержать карту направленной громкости.Based on the time-frequency signals, direction information is determined 120 . Determination 120 information about the direction contains, for example, directional analysis 124 and the definition of 126 window functions. In the contribution determiner 130, directional signals 132 are obtained, for example, by separating the time-frequency signals 110 into directional signals by applying direction-dependent window functions 127 to the time-frequency signals 110. Based on the directional signals 132, loudness calculation 140 is performed to obtain information 142 about loudness as a result of the analysis. Loudness information 142 may include a directional loudness map.

Модуль 100 анализа аудиоданных на фиг. 3b отличается от модуля 100 анализа аудиоданных на фиг. 3a вычислением 140 громкости. В соответствии с фиг. 3b вычисление 140 громкости выполняется до вычисления направленных сигналов частотно-временных сигналов 110. Таким образом, например, в соответствии с фиг. 3b значения 141 громкости частотных полос вычисляются непосредственно на основе частотно-временных сигналов 110. Посредством применения зависящей от направления оконной функции 127 к значениям 141 громкости частотных полос 141 может быть получена информация 142 о направленной громкости в качестве результата анализа.The audio data analysis module 100 in FIG. 3b is different from the audio analysis unit 100 in FIG. 3a by calculating 140 the volume. In accordance with FIG. 3b, the loudness calculation 140 is performed before the calculation of the directional signals of the time-frequency signals 110. Thus, for example, in accordance with FIG. 3b, the loudness values 141 of the frequency bands are computed directly from the time-frequency signals 110. By applying a direction dependent window function 127 to the loudness values 141 of the frequency bands 141, directional loudness information 142 can be obtained as an analysis result.

Фиг. 4a и фиг. 4b показывают модуль 100 анализа аудиоданных который в соответствии с вариантом осуществления выполнен с возможностью определения информации 142 о громкости с использованием подхода с помощью гистограммы. В соответствии с вариантом осуществления модуль 100 анализа аудиоданных выполнен с возможностью использования частотно-временной декомпозиции 113, чтобы определить частотно-временные сигналы 110 на основе двух или более входных сигналов 112.Fig. 4a and FIG. 4b show an audio analysis module 100 which, according to an embodiment, is configured to determine loudness information 142 using a histogram approach. According to an embodiment, audio data analysis module 100 is configured to use time-frequency decomposition 113 to determine time-frequency signals 110 based on two or more input signals 112.

В соответствии с вариантом осуществления на основе частотно-временных сигналов 110 вычисление 140 громкости выполняется для получения значения 145 объединенной громкости для каждой частотно-временной ячейки. Значение 145 объединенной громкости не ассоциировано ни с какой информацией о направлении. Значение объединенной громкости, например, ассоциировано с громкостью, получаемой в результате наложения входных сигналов 112 на частотно-временную ячейку.In accordance with an embodiment based on the time-frequency signals 110, a loudness calculation 140 is performed to obtain a combined loudness value 145 for each time-frequency cell. The combined loudness value 145 is not associated with any direction information. The value of the combined loudness, for example, is associated with the loudness resulting from the imposition of the input signals 112 on the frequency-time cell.

Кроме того, модуль 100 анализа аудиоданных выполнен с возможностью выполнения анализа 124 направления частотно-временных сигналов 110, чтобы получить информацию 122 о направлении. В соответствии с фиг. 4a информация 122 о направлении содержит один или более векторов направления со значениями отношений, указывающими частотно-временные ячейки с одинаковым отношением уровня между двумя или более входными сигналами 112. Этот анализ 124 направления, например, выполняется, как описано в отношении фиг. 5 или фиг. 6.In addition, the audio data analysis module 100 is configured to perform direction analysis 124 of the time-frequency signals 110 to obtain direction information 122 . In accordance with FIG. 4a, direction information 122 comprises one or more direction vectors with ratio values indicating time-frequency cells with the same level relationship between two or more input signals 112. This direction analysis 124, for example, is performed as described with respect to FIG. 5 or FIG. 6.

Модуль 100 анализа аудиоданных на фиг. 4b отличается от модуля 100 анализа аудиоданных, показанного на фиг. 4a, в том, что после анализа 124 направления факультативно выполняется направленное размытие 126 значений 1221 направлений. С помощью направленного размытия 126 также частотно-временные ячейки, ассоциированные с направлениями, соседствующими с заданным направлением, могут быть ассоциированы с заданным направлением, в котором полученная информация 1222 о направлении может дополнительно содержать для этих частотно-временных ячеек масштабный коэффициент, чтобы минимизировать влияние в заданном направлении.The audio data analysis module 100 in FIG. 4b is different from the audio analysis unit 100 shown in FIG. 4a in that, after the direction analysis 124, a directional blur 126 of the direction values 122 1 is optionally performed. With directional blur 126, also, time-frequency cells associated with directions adjacent to a given direction can be associated with a given direction, in which the obtained direction information 122 2 may further comprise a scale factor for these time-frequency cells to minimize the effect of in the given direction.

На фиг. 4a и фиг. 4b модуль 100 анализа аудиоданных выполнен с возможностью накопления 146 объединенных значений 145 громкости в интервалах гистограммы направления на основе информации 122 о направлении, ассоциированной с частотно-временными ячейками.In FIG. 4a and FIG. 4b, audio data analysis module 100 is configured to accumulate 146 combined loudness values 145 in direction histogram bins based on direction information 122 associated with time-frequency bins.

Более подробная информация об модуле 100 анализа аудиоданных в фиг. 3a и фиг. 3b описана далее в главе «Обобщенные этапы для вычисления карты направленной громкости» и в главе «Варианты осуществления различных форм вычисления карт громкости с использованием обобщенных критериальных функций».More details about the audio analysis module 100 in FIG. 3a and fig. 3b is described further in the chapter "Generalized Steps for Computing a Directional Loudness Map" and in the chapter "Embodiments for Various Forms of Computing Loudness Maps Using Generalized Criteria Functions".

На фиг. 5 показано представление 1101 в спектральной области первого входного аудиосигнала и представление 1102 в спектральной области второго входного аудиосигнала, подлежащих анализу посредством описанного здесь модуля анализа аудиоданных. Анализ 124 направления представлений 110 в спектральной области дает в результате информацию 122 о направлении. В соответствии с вариантом осуществления информация 122 о направлении представляет вектор направления со значениями отношения между представлением 1101 в спектральной области первого входного аудиосигнала и представлением 1102 в спектральной области второго входного аудиосигнала. Таким образом, например, частотные ячейки, например, частотно-временные ячейки представлений 110 в спектральной области с одинаковым отношением уровня ассоциируются с одним и тем же направлением 125.In FIG. 5 shows a spectral domain representation 110 1 of a first input audio signal and a spectral domain representation 110 2 of a second audio input signal to be analyzed by the audio analysis module described herein. An analysis 124 of the direction of representations 110 in the spectral domain results in information 122 about the direction. According to an embodiment, the direction information 122 represents a direction vector with relationship values between the spectral domain representation 110 1 of the first input audio signal and the spectral domain representation 110 2 of the second audio input signal. Thus, for example, frequency bins, eg, time-frequency bins of representations 110 in the spectral domain with the same level ratio, are associated with the same direction 125.

В соответствии с вариантом осуществления вычисление 140 громкости дает в результате значения 145 объединенной громкости, например, для каждой частотно-временной ячейки. Значения 145 объединенной громкости, например, ассоциируются с объединением первого входного аудиосигнала и второго входного аудиосигнала (например, объединением двух или более входных аудиосигналов).In accordance with an embodiment, loudness calculation 140 results in combined loudness values 145, for example, for each time-frequency cell. The combined volume values 145 are, for example, associated with a combination of a first audio input signal and a second audio input signal (eg, a combination of two or more audio input signals).

На основе информации 122 о направлении и значений 145 объединенной громкости значения 145 объединенной громкости могут быть накоплены 146 в интервалах гистограммы, зависящих от направления и времени. Таким образом, например, суммируются все значения 145 объединенной громкости, ассоциированные с некоторым направлением. В соответствии с информацией 122 о направлении направления ассоциируются с частотно-временными ячейками. С помощью накопления 146 в результате получается гистограмма направленной громкости, которая может представлять информацию 142 о громкости как результат анализа описанного здесь модуля анализа аудиоданных.Based on the direction information 122 and the combined loudness values 145, combined loudness values 145 can be accumulated 146 over direction and time dependent histogram intervals. Thus, for example, all combined loudness values 145 associated with some direction are summed. According to direction information 122, directions are associated with time-frequency cells. With the accumulation 146, the result is a directional loudness histogram that can represent loudness information 142 as a result of the analysis of the audio data analysis module described here.

Также возможно, что частотно-временные ячейки, соответствующие одному и тому же направлению и/или соседним направлениям в другом или соседнем временном кадре (например, в предыдущем или последующем временном кадре), могут быть ассоциированы с направлением на текущем временном этапе или временном кадре. Это означает, например, что информация 122 о направлении содержит информацию о направлении для каждой частотной ячейки (или частотного интервала) в зависимости от вовремя. Таким образом, например, информация 122 о направлении получается для нескольких временных кадров или для всех временных кадров.It is also possible that time-frequency cells corresponding to the same direction and/or adjacent directions in a different or adjacent time frame (e.g., in a previous or next time frame) may be associated with a direction in the current time step or time frame. This means, for example, that direction information 122 contains direction information for each frequency cell (or frequency slot) as a function of time. Thus, for example, direction information 122 is obtained for several time frames or for all time frames.

Более подробная информация о подходе с использованием гистограммы, показанном на фиг. 5, будет описана в главе «Варианты осуществления различных форм вычисления карт громкости с использованием обобщенных критериальных функций», вариант 2.More details on the histogram approach shown in FIG. 5 will be described in the chapter "Variants for the implementation of various forms of calculation of loudness maps using generalized criterion functions", option 2.

На фиг. 6 показано определение 130 вкладов на основе информации о направлении панорамирования, выполняемое описанным здесь модулем анализа аудиоданных. На фиг. 6a показано представление в спектральной области первого входного аудиосигнала, и на фиг. 6b показано представление в спектральной области второго входного аудиосигнала. В соответствии с фиг. 6a1- 6a3.1 и фиг. 6b1-6b3.1 спектральные интервалы или спектральные полосы, соответствующие одному и тому же направлению панорамирования, выбираются для вычисления информации о громкости в этом направлении панорамирования. Фиг. 6a3.2 и фиг. 6b3.2 показывают альтернативный процесс, в котором рассматриваются не только частотные интервалы или частотные полосы, соответствующие направлению панорамирования, но также и другие частотные интервалы или группы частот, которые взвешиваются или масштабируются для меньшего влияния. Более подробная информация относительно фиг. 6 описана в главе «Восстановление направленных сигналов с помощью функции оконной обработки/выбора, полученной из индекса панорамирования».In FIG. 6 shows the determination of 130 contributions based on the pan direction information performed by the audio analysis module described herein. In FIG. 6a shows a spectral domain representation of the first input audio signal, and FIG. 6b shows the spectral domain representation of the second input audio signal. In accordance with FIG. 6a1-6a3.1 and FIGS. 6b1 to 6b3.1, spectral intervals or spectral bands corresponding to the same pan direction are selected to calculate loudness information in that pan direction. Fig. 6a3.2 and fig. 6b3.2 show an alternative process in which not only the frequency slots or frequency bands corresponding to the pan direction are considered, but also other frequency slots or frequency groups that are weighted or scaled for less influence. More details regarding FIG. 6 is described in the chapter "Restoring Directional Signals Using the Windowing/Selection Function Derived from the Pan Index".

В соответствии с вариантом осуществления информация 122 о направлении может содержать масштабные коэффициенты, ассоциированные с направлением 121 и частотно-временными ячейками 123, как показано на фиг. 7a и/или фиг. 7b. В соответствии с вариантом осуществления на фиг. 7a и фиг. 7b частотно-временные ячейки 123 показаны только для одного временного этапа или временного кадра. Фиг. 7a показывает масштабные коэффициенты, в которых рассматриваются только частотно-временные ячейки 123, которые вносят вклад в некотором (например, заданном) направлении 121, как например описано в отношении фиг. 6a1- 6a3.1 и фиг. 6b1-6b3.1. В качестве альтернативы на фиг. 7b также рассматриваются соседние направления, но они масштабируются, чтобы уменьшить влияние соответствующей частотно-временной ячейки 123 в соседних направлениях. В соответствии с фиг. 7b частотно-временная ячейка 123 масштабируется таким образом, что ее влияние будет уменьшаться по мере увеличения отклонения от ассоциированного направления. Вместо этого на фиг. 6a3.2 и фиг. 6b3.2 все частотно-временные ячейки, соответствующие другому направлению панорамирования, масштабируются одинаково. Возможны различные вычисления или взвешивания. В зависимости от масштабирования может быть улучшена точность результата анализа модуля анализа аудиоданных.In accordance with an embodiment, direction information 122 may comprise scale factors associated with direction 121 and time-frequency bins 123, as shown in FIG. 7a and/or FIG. 7b. According to the embodiment in FIG. 7a and FIG. 7b, time-frequency cells 123 are shown for only one time step or time frame. Fig. 7a shows scaling factors that consider only time-frequency cells 123 that contribute in some (eg, given) direction 121, as eg described with respect to FIG. 6a1-6a3.1 and figs. 6b1-6b3.1. Alternatively, in FIG. 7b also considers neighboring directions, but these are scaled to reduce the influence of the respective time-frequency cell 123 in neighboring directions. In accordance with FIG. 7b, the time-frequency cell 123 is scaled such that its influence will decrease as the deviation from the associated direction increases. Instead, in FIG. 6a3.2 and fig. 6b3.2, all time-frequency bins corresponding to a different panning direction are scaled equally. Various calculations or weightings are possible. Depending on the scaling, the accuracy of the analysis result of the audio data analysis module can be improved.

На фиг. 8 показан вариант осуществления модуля 200 оценки сходства аудиоданных. Модуль 200 оценки сходства аудиоданных выполнен с возможностью получения первой информации 1421 о громкости (например, L1(m,

Figure 00000008
)) и второй информации 1422 о громкости (например, L2(m,
Figure 00000008
)). Первая информация 1421 о громкости ассоциирована с различными направлениями (например, с заданными направлениями панорамирования
Figure 00000002
) на основе первого множества из двух или более входных аудиосигналов 112a (например, xL, xR или xi для i ϵ [1;n]), и вторая информация 1422 о громкости ассоциирована с различными направлениями на основе второго множества из двух или более входных аудиосигналов, которые могут быть представлены множеством эталонных аудиосигналов 112b (например, x2,R, x2,L, x2,i для i ϵ [1;n]). Первое множество входных аудиосигналов 112a и множество эталонных аудиосигналов 112b могут содержать n аудиосигналов, где n представляет целое число больше или равное 2. Каждый аудиосигнал первого множества входных аудиосигналов 112a и множества эталонных аудиосигналов 112b может быть ассоциировано с разными громкоговорителями, помещенными в разные положения в пространстве прослушивания. Первая информация 1421 о громкости и вторая информация 1422 о громкости могут представлять распределение громкости в пространстве прослушивания (например, в положениях громкоговорителей или между ними). В соответствии с вариантом осуществления первая информация 1421 о громкости и вторая информация 1422 о громкости содержат значения громкости для дискретных положений или направлений в пространстве прослушивания. Различные направления могут быть ассоциированы с направлениями панорамирования аудиосигналов, выделенными для одного множества аудиосигналов 112a или 112b в зависимости от того, какое множество соответствует информации о громкости, подлежащей вычислению.In FIG. 8 shows an embodiment of an audio similarity estimator 200 . Audio similarity estimator 200 is configured to obtain first loudness information 142 1 (for example, L 1 (m,
Figure 00000008
)) and second loudness information 142 2 (for example, L 2 (m,
Figure 00000008
)). The first volume information 142 1 is associated with different directions (for example, given pan directions
Figure 00000002
) based on a first set of two or more input audio signals 112a (e.g., x L , x R or x i for i ϵ [1;n]), and second loudness information 142 2 is associated with different directions based on a second set of two or more input audio signals, which may be represented by a plurality of reference audio signals 112b (eg, x 2,R , x 2,L , x 2,i for i ϵ [1;n]). The first set of input audio signals 112a and the set of reference audio signals 112b may contain n audio signals, where n represents an integer greater than or equal to 2. Each audio signal of the first set of input audio signals 112a and the set of reference audio signals 112b may be associated with different speakers placed at different positions in space listening. The first loudness information 142 1 and the second loudness information 142 2 may represent the distribution of loudness in the listening space (eg, at or between speaker positions). According to an embodiment, the first loudness information 142 1 and the second loudness information 142 2 contain loudness values for discrete positions or directions in the listening space. Different directions may be associated with audio pan directions allocated to one set of audio signals 112a or 112b, depending on which set corresponds to the loudness information to be calculated.

Первая информация 1421 о громкости и вторая информация 1422 о громкости могут быть определены посредством определения 100 информации о громкости, которое может быть выполнено модулем 200 оценки сходства аудиоданных. В соответствии с вариантом осуществления определение 100 информации о громкости может быть выполнено модулем анализа аудиоданных. Таким образом, например, модуль 200 оценки сходства аудиоданных может содержать модуль анализа аудиоданных или принимать первую информацию 1421 о громкости и/или вторую информацию 1422 о громкости от внешнего модуля анализа аудиоданных. В соответствии с вариантом осуществления модуль анализа аудиоданных может содержать признаки и/или функциональные возможности, как описано в отношении модуля анализа аудиоданных на фиг. 1-4b. В качестве альтернативы только первая информация 1421 о громкости определяется посредством определения 100 информации о громкости, а вторая информация 1422 о громкости принимается или получается модулем 200 оценки сходства аудиоданных из банка данных с эталонной информацией о громкости. В соответствии с вариантом осуществления банк данных может содержать эталонные карты информации о громкости для различных настроек громкоговорителей и/или конфигураций громкоговорителей, и/или различные множества эталонных аудиосигналов 112b.First information 1421 about volume and second information 1422 about the loudness can be determined by determining 100 information about the loudness, which can be performed by the module 200 evaluating the similarity of audio data. According to an embodiment, the loudness information determination 100 may be performed by an audio analysis module. Thus, for example, the audio data similarity estimator 200 may comprise an audio data analysis module or receive first information 1421 volume and/or other information 1422 volume from an external audio analysis module. According to an embodiment, the audio data analysis module may comprise features and/or functionality as described with respect to the audio data analysis module in FIG. 1-4b. Alternatively, only the first information 1421 about the loudness is determined by determining 100 information about the loudness, and the second information 1422 about the loudness is received or obtained by the module 200 evaluating the similarity of audio data from the data bank with the reference information about the loudness. In accordance with an embodiment, the data bank may contain reference maps of loudness information for various speaker settings and/or speaker configurations, and/or various sets of reference audio signals 112b.

В соответствии с вариантом осуществления множество эталонных аудиосигналов 112b может представлять идеальное множество аудиосигналов для оптимизированного восприятия аудиоданных слушателем в пространстве прослушивания.In accordance with an embodiment, the set of reference audio signals 112b may represent an ideal set of audio signals for an optimized listener experience of audio data in the listening space.

В соответствии с вариантом осуществления первая информация 1421 о громкости (например, вектор, содержащий элементы от L1(m,

Figure 00000028
) до L1(m,
Figure 00000033
)) и/или вторая информация 1422 о громкости (например, вектор, содержащий элементы от L2(m,
Figure 00000028
) до L2(m,
Figure 00000033
)), могут содержать множество значений объединенной громкости, ассоциированных с соответствующими входными аудиосигналами (например, входными аудиосигналами, соответствующими первому множеству входных аудиосигналов 112a, или эталонными аудиосигналами, соответствующими множеству эталонных аудиосигналов 112b (и ассоциированными с соответствующими заданными направлениями)). Соответствующие заданные направления могут представлять индексы панорамирования. Поскольку каждый входной аудиосигнал, например, ассоциирован с громкоговорителем, соответствующие заданные направления могут восприниматься как равномерно распределенные положения между соответствующими громкоговорителями (например, между соседними громкоговорителями и/или другими парами громкоговорителей). Другими словами, модуль 200 оценки сходства аудиоданных выполнен с возможностью получения компонента направления (например, описанного здесь первого направления), используемого для получения информации 1421 и/или 1422 о громкости с другими направлениями (например, описанным здесь вторым направлением) с использованием метаданных, представляющих информацию о положении громкоговорителей, ассоциированных с входными аудиосигналами. Значения объединенной громкости первой информации 1421 о громкости и/или второй информации 1422 о громкости описывают громкость компонентов сигнала соответствующего множества входных аудиосигналов 112a и 112b, ассоциированных с соответствующими заданными направлениями. Первая информация 1421 о громкости и/или вторая информация 1422 о громкости ассоциированы с комбинациями множества взвешенных представлений в спектральной области, ассоциированных с соответствующим заданным направлением.According to an embodiment, the first loudness information 142 1 (for example, a vector containing elements from L 1 (m,
Figure 00000028
) to L 1 (m,
Figure 00000033
)) and/or second loudness information 142 2 (eg, a vector containing elements from L 2 (m,
Figure 00000028
) to L 2 (m,
Figure 00000033
)) may comprise a plurality of combined loudness values associated with respective input audio signals (e.g., audio input signals corresponding to the first set of audio input signals 112a, or reference audio signals corresponding to the set of reference audio signals 112b (and associated with the respective predetermined directions)). The respective predetermined directions may represent panning indices. Since each input audio signal is, for example, associated with a loudspeaker, the respective predetermined directions may be perceived as evenly spaced positions between the respective loudspeakers (eg, between adjacent loudspeakers and/or other pairs of loudspeakers). In other words, audio similarity estimator 200 is configured to obtain a direction component (eg, the first direction described here) used to obtain loudness information 142 1 and/or 142 2 with other directions (eg, the second direction described here) using metadata. , representing information about the position of the speakers associated with the input audio signals. The combined loudness values of the first loudness information 142 1 and/or the second loudness information 142 2 describe the loudness of the signal components of the respective plurality of input audio signals 112a and 112b associated with the respective predetermined directions. The first loudness information 142 1 and/or the second loudness information 142 2 are associated with combinations of a plurality of spectral domain weighted representations associated with the respective predetermined direction.

Модуль 200 оценки сходства аудиоданных выполнен с возможностью сравнения первой информации 1421 о громкости со второй информацией 1422 о громкости, чтобы получить информацию 210 о сходстве, описывающую сходство между первым множеством из двух или более входных аудиосигналов 112a и множеством из двух или более эталонных аудиосигналов 112b. Это может быть выполнено блоком 220 сравнения информации о громкости. Информация 210 о сходстве может указывать качество первого множества входных аудиосигналов 112a. Чтобы дополнительно улучшить предсказание восприятия первого множества входных аудиосигналов 112a на основе информации 210 о сходстве, можно рассматривать только подмножество частотных полос в первой информации 1421 о громкости и/или во второй информации 1422 о громкости. В соответствии с вариантом осуществления первая информация 1421 о громкости и/или вторая информация 1422 о громкости определяются только для частотных полос с частотами 1,5 кГц и выше. Таким образом, подвергнутая сравнению информация 1421 и 1422 о громкости может быть оптимизирована на основе чувствительности слуховой системы человека. Таким образом, блок 220 сравнения информации о громкости выполнен с возможностью сравнения информации 1421 и 1422 о громкости, которая содержит только значения громкости релевантных частотных полос. Релевантные частотные полосы могут быть ассоциированы с частотными полосами, соответствующими чувствительности (например, человеческого уха) выше заданного порогового значения для заданных разностей уровней.The audio similarity evaluator 200 is configured to compare the first loudness information 142 1 with the second loudness information 142 2 to obtain similarity information 210 describing the similarity between the first set of two or more input audio signals 112a and the set of two or more reference audio signals. 112b. This may be performed by the loudness information comparer 220 . Similarity information 210 may indicate the quality of the first set of input audio signals 112a. To further improve the perception prediction of the first set of input audio signals 112a based on the similarity information 210, only a subset of the frequency bands in the first loudness information 142 1 and/or the second loudness information 142 2 can be considered. According to an embodiment, the first loudness information 142 1 and/or the second loudness information 142 2 are only determined for frequency bands of 1.5 kHz and above. Thus, the compared loudness information 142 1 and 142 2 can be optimized based on the sensitivity of the human auditory system. Thus, the loudness information comparer 220 is configured to compare the loudness information 142 1 and 142 2 which contains only the loudness values of the relevant frequency bands. Relevant frequency bands may be associated with frequency bands corresponding to sensitivity (eg, human ear) above a given threshold for given level differences.

Чтобы получить информацию 210 о сходстве, например, вычисляется разность между второй информацией 1422 о громкости и первой информацией 1421 о громкости.To obtain similarity information 210, for example, the difference between the second loudness information 142 2 and the first loudness information 142 1 is calculated.

Эта разность может представлять разностную информацию о громкости и уже может определять информацию 210 о сходстве. В качестве альтернативы разностная информация о громкости дополнительно обрабатывается для получения информации 210 о сходстве. В соответствии с вариантом осуществления блок 220 оценки сходства аудиоданных выполнен с возможностью определения значения, которое определяет величину разности по множеству направлений. Это значение может представлять собой одну скалярную величину, представляющую информацию 210 о сходстве. Для получения скалярной величины блок 220 сравнения информации о громкости может быть выполнен с возможностью вычисления разности для участков или полной продолжительности первого множества входных аудиосигналов 112a и/или множества эталонных аудиосигналов 112b и затем усреднения полученной разностной информации о громкости по всем направлениям панорамирования (например, по различным направлениям, с которыми ассоциирована первая информация 1421 о громкости и/или вторая информация 1422 о громкости) и по времени для получения одного числа, называемого выходной переменной модели (MOV).This difference may represent difference loudness information and may already define similarity information 210. Alternatively, the difference loudness information is further processed to obtain similarity information 210. According to an embodiment, the audio data similarity estimator 220 is configured to determine a value that determines the magnitude of a multi-directional difference. This value may be a single scalar value representing the similarity information 210 . To obtain a scalar value, the loudness information comparer 220 may be configured to calculate a difference for sections or total duration of the first set of input audio signals 112a and/or a set of reference audio signals 112b and then average the obtained difference loudness information over all panning directions (e.g., over different directions with which the first loudness information 142 1 and/or the second loudness information 142 2 are associated) and over time to produce a single number called the model output variable (MOV).

На фиг. 9 показан вариант осуществления модуля 200 оценки сходства аудиоданных для вычисления информации 210 о сходстве на основе эталонного входного стереосигнала 112b (REF) и стереосигнала 112a, подлежащего анализу (например, в данном случае тестируемого сигнала (SUT)). В соответствии с вариантом осуществления модуль 200 оценки сходства аудиоданных может содержать признаки и/или функциональные возможности, как описано в отношении модуля оценки сходства аудиоданных на фиг. 8. Два стереосигнала 112a и 112b могут быть обработаны посредством периферийной модели 116 уха для получения представлений 110a и 110b в спектральной области входных стереосигналов 112a и 112b.In FIG. 9 shows an embodiment of an audio similarity estimator 200 for calculating similarity information 210 based on a stereo reference input signal 112b (REF) and a stereo signal 112a to be analyzed (eg, in this case, a signal under test (SUT)). According to an embodiment, the audio similarity estimator 200 may comprise features and/or functionality as described with respect to the audio similarity estimator in FIG. 8. The two stereo signals 112a and 112b may be processed by peripheral ear model 116 to obtain spectral domain representations 110a and 110b of stereo input signals 112a and 112b.

В соответствии с вариантом осуществления на следующем этапе звуковые компоненты стереосигналов 112a и 112b могут быть проанализированы на предмет их информации о направлении. Различные направления 125 панорамирования могут быть заданы и могут быть объединены с шириной 128 окна для получения зависящего от направления взвешивания 1271-1277. На основе зависящего от направления взвешивания 127 и представления 110a и/или 110b в спектральной области соответствующего входного стереосигнала 112a и/или 112b может быть выполнена направленная декомпозиция 130 индекса панорамирования, чтобы получить вклады 132a и/или 132b. В соответствии с вариантом осуществления вклады 132a и/или 132b затем обрабатываются, например, посредством вычисления 144 громкости, чтобы получить громкость 145a и/или 145b для каждой частотной полосы и направления панорамирования. В соответствии с вариантом осуществления выполняется частотное усреднение 146 с учетом ERB (эквивалентной прямоугольной полосы пропускания) сигналов 145b и/или 145a громкости, чтобы получить карты 142a и/или 142b направленной громкости для сравнения 220 информации о громкости. Сравнение 220 информации о громкости, например, выполнено с возможностью вычисления меры расстояния на основе двух карт 142a и 142b направленной громкости. Мера расстояния может представлять карту направленной громкости, содержащую разности между двумя картами 142a и 142b направленной громкости. В соответствии с вариантом осуществления одно число, называемое выходной переменной модели MOV, может быть получено в качестве информации 210 о сходстве посредством усреднения меры расстояния по всем направлениям панорамирования и времени.According to an embodiment, in a next step, the audio components of the stereo signals 112a and 112b can be analyzed for their direction information. Different pan directions 125 may be specified and may be combined with the window width 128 to obtain a direction dependent weighting 127 1 -127 7 . Based on the direction-dependent weighting 127 and spectral domain representation 110a and/or 110b of the respective stereo input signal 112a and/or 112b, pan index directional decomposition 130 can be performed to obtain contributions 132a and/or 132b. According to an embodiment, the contributions 132a and/or 132b are then processed, for example, by loudness calculation 144, to obtain loudness 145a and/or 145b for each frequency band and pan direction. According to an embodiment, ERB (Equivalent Rectangular Bandwidth) frequency averaging 146 of loudness signals 145b and/or 145a is performed to obtain directional loudness maps 142a and/or 142b for comparing 220 loudness information. The comparison 220 of the loudness information, for example, is configured to calculate a distance measure based on the two directional loudness maps 142a and 142b. The distance measure may represent a directional loudness map containing the differences between the two directional loudness maps 142a and 142b. In accordance with an embodiment, a single number, called the output variable of the MOV model, can be obtained as similarity information 210 by averaging a distance measure over all pan directions and time.

Фиг. 10c показывает меру расстояния, как описано на фиг. 9, или информацию о сходстве, как описано на фиг. 8, представленные картой 210 направленной громкости, показывающей различия громкости между картой 142b направленной громкости, показанный на фиг. 10a, и картой 142a направленной громкости, показанной на фиг. 10b. Карты направленной громкости, показанные на фиг. 10a-10c, представляют, например, значения громкости с течением временем и по направлениям панорамирования. Карта направленной громкости, показанная на фиг. 10a, может представлять значения громкости, соответствующие входному сигналу с эталонным значением. Эта карта направленной громкости может быть вычислена, как описано на фиг. 9, или посредством модуля анализа аудиоданных, как описано на фиг. 1- 4b, или в качестве альтернативы может быть взята из базы данных. Карта направленной громкости, показанная на фиг. 10b, соответствует, например, тестируемому стереосигналу, и может представлять информацию о громкости, определенную модулем анализа аудиоданных, как разъяснено на фиг. 1-4b и фиг. 8 или 9.Fig. 10c shows a distance measure as described in FIG. 9 or similarity information as described in FIG. 8 represented by a directional loudness map 210 showing loudness differences between the directional loudness map 142b shown in FIG. 10a and the directional volume map 142a shown in FIG. 10b. The directional loudness maps shown in FIG. 10a-10c represent, for example, volume values over time and across panning directions. The directional loudness map shown in FIG. 10a may represent loudness values corresponding to an input signal with a reference value. This directional loudness map can be computed as described in FIG. 9 or via an audio data analysis module as described in FIG. 1-4b, or alternatively may be taken from a database. The directional loudness map shown in FIG. 10b corresponds to, for example, the stereo signal being tested, and may represent loudness information determined by the audio data analysis module as explained in FIG. 1-4b and FIG. 8 or 9.

На фиг. 11 показан аудиокодер 300 для кодирования 310 входного аудиосодержимого 112, содержащего один или более входных аудиосигналов (например, xi). Входной аудиосодержимое 112 содержит предпочтительно множество входных аудиосигналов, таких как стереосигналы или многоканальные сигналы. Аудиокодер 300 выполнен с возможностью обеспечения одного или более кодированных аудиосигналов 320 на основе одного или более входных аудиосигналов 112 или на основе одного или более сигналов 110, полученных из одного или более входных аудиосигналов 112 посредством факультативной обработки 330. Таким образом, либо один или более входных аудиосигналов 112, либо один или более сигналов 110, полученных из них, кодируются 310 аудиокодером 300. Обработка 330 может содержать центральную/боковую обработку, обработку понижающего микширования или разности, преобразование из временной области в спектральную область и/или обработку с использованием модели уха. Кодирование 310 содержит, например, квантование и затем кодирование без потерь.In FIG. 11 shows an audio encoder 300 for encoding 310 audio input content 112 containing one or more audio input signals (eg x i ). The input audio content 112 preferably contains a plurality of input audio signals such as stereo or multi-channel signals. Audio encoder 300 is configured to provide one or more encoded audio signals 320 based on one or more input audio signals 112 or based on one or more signals 110 obtained from one or more input audio signals 112 through optional processing 330. Thus, either one or more input audio signals 112, or one or more signals 110 derived therefrom, are encoded 310 by audio encoder 300. Processing 330 may include center/side processing, downmix or difference processing, time domain to spectral domain conversion, and/or ear model processing. Encoding 310 includes, for example, quantization and then lossless coding.

Аудиокодер 300 выполнен с возможностью адаптировать 340 параметры кодирования в зависимости от одной или более карт 142 направленной громкости (например, Li(m,

Figure 00000002
) для множества различных
Figure 00000026
), которые представляют информацию о громкости, ассоциированную с множеством различных направлений (например, заданных направлений или направлений одного или более сигналов 112, подлежащих кодированию). В соответствии с вариантом осуществления параметры кодирования содержат параметры квантования и/или другие параметры кодирования, такие как распределение битов и/или параметры, относящиеся к запрещению/разрешению кодирования 310.Audio encoder 300 is configured to adapt 340 encoding parameters depending on one or more directional loudness maps 142 (e.g., L i (m,
Figure 00000002
) for many different
Figure 00000026
) that represent loudness information associated with a plurality of different directions (eg, given directions or directions of one or more signals 112 to be encoded). According to an embodiment, the coding parameters comprise quantization parameters and/or other coding parameters such as bit allocation and/or parameters related to coding inhibit/enable 310.

В соответствии с вариантом осуществления аудиокодер 300 выполнен с возможностью выполнения определения 100 информации о громкости для получения карты 142 направленной громкости на основе входного аудиосигнала 112 или на основе обработанного входного аудиосигнала 110. Таким образом, например, аудиокодер 300 может содержать модуль 100 анализа аудиоданных, как описано в отношении фиг. 1- 4b. В качестве альтернативы аудиокодер 300 может принимать карту 142 направленной громкости от внешнего модуля анализа аудиоданных, выполняющего определение 100 информации о громкости. В соответствии с вариантом осуществления аудиокодер 300 может получать более чем одну карту 142 направленной громкости, относящуюся к входным аудиосигналам 112 и/или к обработанным входным аудиосигналам 110.In accordance with an embodiment, audio encoder 300 is configured to perform determination 100 of loudness information to obtain a directional loudness map 142 based on input audio signal 112 or based on processed input audio signal 110. Thus, for example, audio encoder 300 may comprise an audio analysis module 100 as described with respect to FIG. 1-4b. Alternatively, the audio encoder 300 may receive a directional loudness map 142 from an external audio analysis module that performs loudness information determination 100 . According to an embodiment, audio encoder 300 may receive more than one directional loudness map 142 related to audio input signals 112 and/or processed audio input signals 110.

В соответствии с вариантом осуществления аудиокодер 300 может принимать только один входной аудиосигнал 112. В этом случае карта 142 направленной громкости содержит, например, значения громкости только для одного направления. В соответствии с вариантом осуществления карта 142 направленной громкости может содержать значения громкости, равные нулю для направлений, отличающихся от направления, ассоциированного с входным аудиосигналом 112. В случае только одного входного аудиосигнала 112 аудиокодер 300 может принимать решение на основе карты 142 направленной громкости, должна ли быть выполнена адаптация 340 параметров кодирования. Таким образом, например, адаптация 340 параметров кодирования может содержать установку параметров кодирования к стандартным параметрам кодирования для моносигналов.According to an embodiment, the audio encoder 300 can only receive one input audio signal 112. In this case, the directional loudness map 142 contains, for example, loudness values for only one direction. In accordance with an embodiment, the directional loudness map 142 may contain volume values equal to zero for directions other than the direction associated with the input audio signal 112. be performed adaptation 340 of the encoding parameters. Thus, for example, adaptation 340 of the coding parameters may comprise setting the coding parameters to standard coding parameters for mono signals.

Если аудиокодер 300 принимает стереосигнал или многоканальный сигнал в качестве входного аудиосигнала 112, карта 142 направленной громкости может содержать значения громкости для различных направлений (например, отличных от нуля). В случае входного стереосигнала аудиокодер 300 получает, например, одну карту 142 направленной громкости, ассоциированную с двумя входными аудиосигналами 112. В случае многоканального входного аудиосигнала 112 аудиокодер 300 получает, например, одну или более карт 142 направленной громкости на основе входных аудиосигналов 112. Если многоканальный сигнал 112 кодируется аудиокодером 300, то, например, общая карта 142 направленной громкости на основе всех сигналов каналов и/или карт направленной громкости и/или одна или более карт 142 направленной громкости на основе пар сигналов многоканального входного аудиосигнала 112 могут быть получены посредством определения 100 информации о громкости. Таким образом, например, аудиокодер 300 может выполнен с возможностью выполнения адаптации 340 параметров кодирования в зависимости от вкладов отдельных карт 142 направленной громкости, например, пар сигналов, центрального сигнала, бокового сигнала, микшированного с понижением сигнала, сигнала разности и/или групп из трех или более сигналов в общую карту 142 направленной громкости, например, ассоциированную с несколькими входными аудиосигналами, например, ассоциированную со всеми сигналами многоканального входного аудиосигнала 112 или обработанного многоканального входного аудиосигнала 110.If audio encoder 300 receives a stereo or multi-channel signal as input audio signal 112, directional loudness map 142 may contain loudness values for different directions (eg, non-zero). In the case of a stereo input signal, audio encoder 300 obtains, for example, one directional volume map 142 associated with two input audio signals 112. signal 112 is encoded by audio encoder 300, then, for example, a general directional loudness map 142 based on all channel signals and/or directional loudness maps and/or one or more directional loudness maps 142 based on signal pairs of multi-channel input audio signal 112 can be obtained by determining 100 volume information. Thus, for example, audio encoder 300 may be configured to adapt 340 coding parameters depending on the contributions of individual directional loudness maps 142, such as signal pairs, center signal, side signal, downmix signal, difference signal, and/or groups of three. or more signals into a common directional volume map 142, e.g., associated with multiple audio inputs, e.g., associated with all signals of multi-channel audio input 112 or processed multi-channel audio input 110.

Определение 100 информации о громкости, как описано в отношении фиг. 11, является иллюстративным и может быть выполнено идентичным или аналогичным образом всеми последующими аудиокодерами или декодерами.Loudness information determination 100 as described with respect to FIG. 11 is illustrative and may be performed in the same or similar manner by all subsequent audio encoders or decoders.

На фиг. 12 показан вариант осуществления аудиокодера 300, который может содержать признаки и/или функциональные возможности, как описано в отношении аудиокодера на фиг. 11. В соответствии с вариантом осуществления кодирование 310 может содержать квантование посредством модуля 312 квантования и кодирование посредством блока 314 кодирования, например, энтропийное кодирование. Таким образом, например, адаптация параметров 340 кодирования может содержать адаптацию параметров 342 квантования и адаптацию параметров 344 кодирования. Аудиокодер 300 выполнен с возможностью кодирования 310 входного аудиосодержимого 112, содержащего, например, два или более входных аудиосигнала, для обеспечения кодированного аудиосодержимого 320, содержащего, например, кодированные два или более входных аудиосигнала. Это кодирование 310 зависит, например, от карты 142 направленной громкости или множества карт 142 направленной громкости (например, Li(m,

Figure 00000002
)), которые представляют собой входной аудиосодержимое 112 и/или кодированную версию 320 входного аудиосодержимого 112, или которые основаны на них.In FIG. 12 shows an embodiment of an audio encoder 300, which may include features and/or functionality as described with respect to the audio encoder in FIG. 11. According to an embodiment, coding 310 may comprise quantization by quantizer 312 and coding by coding unit 314, such as entropy coding. Thus, for example, adapting encoding parameters 340 may comprise adapting quantization parameters 342 and adapting encoding parameters 344. The audio encoder 300 is configured to encode 310 audio input content 112 comprising, for example, two or more audio inputs, to provide encoded audio content 320 comprising, for example, encoded two or more audio inputs. This encoding 310 depends on, for example, a directional loudness map 142 or a plurality of directional loudness maps 142 (for example, L i (m,
Figure 00000002
)) that are or are based on the input audio content 112 and/or the encoded version 320 of the input audio content 112.

В соответствии с вариантом осуществления входной аудиосодержимое 112 может быть непосредственно кодирован 310 или факультативно обработан 330 ранее. Как уже описано выше, аудиокодер 300 может быть кодирован для определения представления в спектральной области 110 одного или более входных аудиосигналов входного аудиосодержимого 112 посредством обработки 330. В качестве альтернативы обработка 330 может содержать дальнейшие этапы обработки для получения одного или более сигналов входного аудиосодержимого 112, которые могут подвергаться преобразованию из временной области в спектральную область для получения представления 110 в спектральной области. В соответствии с вариантом осуществления сигналы, полученные посредством обработки 330, могут содержать, например, центральный сигнал или микшированный с понижением сигнал и боковой сигнал или сигнал разности.According to an embodiment, the input audio content 112 may be directly encoded 310 or optionally processed 330 earlier. As already described above, audio encoder 300 may be encoded to determine the spectral domain representation 110 of one or more input audio signals of input audio content 112 through processing 330. Alternatively, processing 330 may include further processing steps to obtain one or more input audio content signals 112 that may be converted from the time domain to the spectral domain to obtain a representation 110 in the spectral domain. In accordance with an embodiment, the signals obtained by processing 330 may comprise, for example, a center signal or downmix signal and a side signal or difference signal.

В соответствии с вариантом осуществления сигналы входного аудиосодержимого 112 или представления 110 в спектральной области могут подвергаться квантованию посредством модуля 312 квантования. Модуль 312 квантования использует, например, один или более параметров квантования для получения одного или более квантованных представлений 313 в спектральной области. Эти один или более квантованных представлений 313 в спектральной области могут быть кодированы блоком 314 кодирования для получения одного или более кодированных аудиосигналов кодированного аудиосодержимого 320.According to an embodiment, signals of input audio content 112 or spectral domain representation 110 may be quantized by a quantizer 312 . Quantization module 312 uses, for example, one or more quantization parameters to obtain one or more quantized representations 313 in the spectral domain. These one or more quantized spectral domain representations 313 may be encoded by an encoder 314 to obtain one or more encoded audio signals of the encoded audio content 320.

Для оптимизации кодирование 310 посредством аудиокодера 300 аудиокодер 300 может быть выполнен с возможностью адаптации 342 параметров квантования. Параметры квантования, например, содержат масштабные коэффициенты или параметры, описывающие, какую точность квантования или какие этапы квантования к каким спектральным интервалам частотных полос одного или более сигналов, подлежащих квантованию, следует применять. В соответствии с вариантом осуществления параметры квантования описывают, например, распределение битов различным сигналам, подлежащим квантованию, и/или различным частотным полосам. Адаптация 342 параметров квантования может пониматься как адаптация точности квантования и/или адаптация шума, вносимого кодером 300, и/или как адаптация распределения битов между одним или более сигналами 112/110 и/или параметрами, подлежащими кодированию аудиокодером 300. Другими словами, аудиокодер 300 выполнен с возможностью регулировки одного или более параметров квантования, чтобы адаптировать распределение битов для адаптации точности квантования и/или адаптации шума. Дополнительно параметры квантования и/или параметры кодирования могут быть кодированы 310 аудиокодером.To optimize encoding 310 by audio encoder 300, audio encoder 300 may be configured to adapt 342 quantization parameters. The quantization parameters, for example, contain scaling factors or parameters describing which quantization precision or which quantization steps are to be applied to which spectral intervals of the frequency bands of the one or more signals to be quantized. According to an embodiment, the quantization parameters describe, for example, the allocation of bits to different signals to be quantized and/or different frequency bands. Adaptation 342 of the quantization parameters can be understood as adapting the quantization accuracy and/or adapting the noise introduced by the encoder 300 and/or adapting the bit distribution between one or more signals 112/110 and/or parameters to be encoded by the audio encoder 300. In other words, the audio encoder 300 configured to adjust one or more quantization parameters to adapt the bit allocation for quantization accuracy adaptation and/or noise adaptation. Additionally, the quantization parameters and/or coding parameters may be encoded 310 by the audio encoder.

В соответствии с вариантом осуществления адаптация 340 кодирования параметров, такая как адаптация 342 параметров квантования и адаптация 344 параметров кодирования, может выполняться в зависимости от одной или более карт 142 направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений, направлений панорамирования, одного или более сигналов 112/110, подлежащих квантованию. Точнее говоря, адаптация 340 может быть выполнена в зависимости от вкладов отдельных карт 142 направленной громкости одного или более сигналов, подлежащих кодированию, в общую карту 142 направленной громкости. Это может быть выполнено, как описано в отношении фиг. 11. Таким образом, например, адаптация распределения битов, адаптация точности квантования и/или адаптация шума могут выполняться в зависимости от вкладов отдельных карт направленной громкости одного или более сигналов 112/110, подлежащих кодированию, в общую карту направленной громкости. Это выполняется, например, посредством регулировки одного или более параметров квантования посредством адаптации 342.According to an embodiment, parameter encoding adaptation 340, such as quantization parameter adaptation 342 and encoding parameter adaptation 344, may be performed depending on one or more directional loudness maps 142 that represent loudness information associated with a plurality of different directions, pan directions, one or more signals 112/110 to be quantized. More specifically, the adaptation 340 may be performed depending on the contributions of the individual directional loudness maps 142 of one or more signals to be encoded to the overall directional loudness map 142. This can be done as described with respect to FIG. 11. Thus, for example, bit allocation adaptation, quantization accuracy adaptation, and/or noise adaptation may be performed depending on the contributions of individual directional loudness maps of one or more signals to be encoded 112/110 to the overall directional loudness map. This is done, for example, by adjusting one or more quantization parameters through adaptation 342.

В соответствии с вариантом осуществления аудиокодер 300 выполнен с возможностью определения общей карты направленной громкости на основе входных аудиосигналов 112 или представления 110 в спектральной области, в результате чего общая карта направленной громкости представляет информацию о громкости, ассоциированную с различными направлениями, например, звуковых компонентов аудиосцены, представленной входным аудиосодержимым 112. В качестве альтернативы общая карта направленной громкости может представлять информацию о громкости, ассоциированную с различными направлениями аудиосцены, которая будет представлена, например, после рендеринга на стороне декодера. В соответствии с вариантом осуществления различные направления могут быть получены посредством определения 100 информации о громкости, возможно в сочетании со знаниями или вспомогательной информацией относительно положений громкоговорителей и/или знаниями или вспомогательной информацией, описывающей положения звуковых объектов. Эти знания или вспомогательная информация могут быть получены на основе одного или более сигналов 112/110, подлежащих квантованию, поскольку эти сигналы 112/110, например, ассоциированы фиксированным, не зависящим от сигнала образом с различными направлениями или с разными громкоговорителями, или с разными звуковыми объектами. Например, сигнал ассоциирован с некоторым каналом, который может быть интерпретирован как направление из различных направлений (например, описанных здесь первых направлений). В соответствии с вариантом осуществления звуковые объекты одного или более сигналов панорамируются в различных направлениях или преобразовываются для прослушивания в различных направлениях, которые могут быть получены посредством определения 100 информации о громкости как информация о рендеринге объекта. Эти знания или вспомогательная информация могут быть получены посредством определения 100 информации о громкости для групп из двух или более входных аудиосигналов входного аудиосодержимого 112 или представления 110 в спектральной области.According to an embodiment, audio encoder 300 is configured to determine an overall directional loudness map based on input audio signals 112 or spectral domain representation 110, whereby the overall directional loudness map represents loudness information associated with different directions, for example, audio components of an audio scene, represented by input audio content 112. Alternatively, the overall directional loudness map may represent loudness information associated with different directions of the audio scene to be represented, for example, after rendering at the decoder side. According to an embodiment, different directions can be obtained by determining 100 loudness information, possibly in combination with knowledge or ancillary information regarding speaker positions and/or knowledge or ancillary information describing the positions of sound objects. This knowledge or ancillary information may be derived from one or more of the signals 112/110 to be quantized, since these signals 112/110, for example, are associated in a fixed, signal-independent manner with different directions, or with different speakers, or with different audio objects. For example, the signal is associated with some channel, which can be interpreted as a direction from various directions (for example, the first directions described here). According to an embodiment, sound objects of one or more signals are panned in different directions or transformed to be heard in different directions, which can be obtained by defining 100 loudness information as object rendering information. This knowledge or ancillary information can be obtained by determining 100 loudness information for groups of two or more input audio signals of the input audio content 112 or a representation 110 in the spectral domain.

В соответствии с вариантом осуществления сигналы 112/110, подлежащие квантованию, могут содержать компоненты, например, центральный сигнал и боковой сигнал стереофонического центрального/бокового кодирования, совместного многосигнального кодирования двух или более входных аудиосигналов 112. Таким образом, аудиокодер 300 выполнен с возможностью оценки вышеупомянутых вкладов карт 142 направленной громкости одного или более разностных сигналов совместного многосигнального кодирования в общую карту 142 направленной громкости и регулировки одного или более параметров 340 кодирования в зависимости них.According to an embodiment, the signals 112/110 to be quantized may comprise components such as a center signal and a side signal of a stereo center/side coding, joint multi-signal coding of two or more input audio signals 112. Thus, the audio encoder 300 is configured to evaluate the aforementioned contributions of directional loudness maps 142 of one or more joint multi-signal coding differential signals to a common directional loudness map 142 and adjusting one or more coding parameters 340 depending on them.

В соответствии с вариантом осуществления аудиокодер 300 выполнен с возможностью адаптации распределения битов между одним или более сигналами 112/110 и/или параметрами, подлежащими кодированию, и/или адаптации точности квантования одного или более сигналов 112/110, подлежащих кодированию, и/или адаптации шума, вносимого кодером 300, индивидуально для разных спектральных интервалов или индивидуально для разных частотных полос. Это означает, например, что адаптация 342 параметров квантования выполняется таким образом, что кодирование 310 улучшается для индивидуальных спектральных интервалов или индивидуальных разных частотных полос.According to an embodiment, the audio encoder 300 is configured to adapt the bit distribution between one or more signals 112/110 and/or parameters to be encoded and/or adapt the quantization accuracy of one or more signals 112/110 to be encoded and/or adapt noise introduced by the encoder 300 individually for different spectral intervals or individually for different frequency bands. This means, for example, that the adaptation 342 of the quantization parameters is performed such that the coding 310 is improved for individual spectral intervals or individual different frequency bands.

В соответствии с вариантом осуществления аудиокодер 300 выполнен с возможностью адаптации распределения битов между одним или более сигналами 112/110 и/или параметрами, подлежащими кодированию, в зависимости от оценки пространственного маскирования между двумя или более подлежащими кодированию сигналами. Аудиокодер, например, выполнен с возможностью оценки пространственного маскирования на основе карт 142 направленной громкости, ассоциированных с двумя или более сигналами 112/110, подлежащими кодированию. Дополнительно или в качестве альтернативы аудиокодер выполнен с возможностью оценки пространственного маскирования или эффекта маскирования вклада громкости, ассоциированного с первым направлением первого сигнала, подлежащего кодированию, на вклад громкости, ассоциированный со вторым направлением, которое отличается от первого направления, второго сигнала, подлежащего кодированию. В соответствии с вариантом осуществления вклад громкости, ассоциированный с первым направлением, может представлять, например, информацию о громкости звукового объекта или звукового компонента сигналов входного аудиосодержимого, и вклад громкости, ассоциированный со вторым направлением, может представлять, например, информацию о громкости, ассоциированную с другим звуковым объектом или звуковым компонентом сигналов входного аудиосодержимого. В зависимости от информации о громкости вклада громкости, ассоциированного с первым направлением, и вклада громкости, ассоциированного со вторым направлением, и в зависимости от расстояния между первым направлением и вторым направлением может быть оценен эффект маскирования или пространственного маскирования. В соответствии с вариантом осуществления эффект маскирования уменьшается с увеличением разности углов между первым направлением и вторым направлением. Аналогичным образом, может быть оценено временное маскирование.In accordance with an embodiment, audio encoder 300 is configured to adapt the bit allocation between one or more signals 112/110 and/or parameters to be encoded depending on an estimate of the spatial masking between the two or more signals to be encoded. The audio encoder is, for example, configured to estimate spatial concealment based on directional loudness maps 142 associated with two or more signals 112/110 to be encoded. Additionally or alternatively, the audio encoder is configured to evaluate the spatial masking or masking effect of the loudness contribution associated with the first direction of the first signal to be encoded on the loudness contribution associated with the second direction, which is different from the first direction of the second signal to be encoded. According to an embodiment, the loudness contribution associated with the first direction may represent, for example, loudness information of an audio object or audio component of input audio content signals, and the loudness contribution associated with the second direction may represent, for example, loudness information associated with another audio object or audio component of input audio content signals. Depending on the loudness information of the loudness contribution associated with the first direction and the loudness contribution associated with the second direction, and depending on the distance between the first direction and the second direction, a masking or spatial masking effect can be estimated. According to an embodiment, the masking effect decreases as the angle difference between the first direction and the second direction increases. Similarly, temporal masking may be evaluated.

В соответствии с вариантом осуществления адаптация 342 параметров квантования может быть выполнена аудиокодером 300, чтобы адаптировать шум, вносимый кодером 300, на основе карты направленной громкости, достижимой с помощью кодированной версии 320 входного аудиосодержимого 112. Таким образом аудиокодер 300, например, выполнен с возможностью использования отклонения между картой 142 направленной громкости, которая ассоциирована с определённым не кодированным входным аудиосигналом 112/110 (или двумя или более входными аудиосигналами), и картой направленной громкости, достижимой с помощью кодированной версии 320 определённого входного аудиосигнала 112/110 (или двух или более входных аудиосигналов), в качестве критерия адаптации формирования определённого кодированного аудиосигнала или аудиосигналов кодированного аудиосодержимого 320. Это отклонение может представлять качество кодирования 310 кодера 300. Тем самым кодер 300 может быть выполнен с возможностью адаптации 340 параметров кодирования таким образом, что отклонение находится ниже определенного порогового значения. Таким образом, реализован контур 322 обратной связи для улучшения кодирования 310 аудиокодером 300 на основе карт 142 направленной громкости кодированного аудиосодержимого 320 и карт 142 направленной громкости не кодированного входного аудиосодержимого 112 или не кодированных представлений 110 в спектральной области. В соответствии с вариантом осуществления в контуре 322 обратной связи кодированный аудиосодержимое 320 декодируется для выполнения определения 100 информации о громкости на основе декодированных аудиосигналов. В качестве альтернативы также возможно, что карты 142 направленной громкости кодированного аудиосодержимого 320 осуществляются посредством упреждения, реализованного нейронной сетью (например, предсказываются).According to an embodiment, quantization parameter adaptation 342 may be performed by audio encoder 300 to adapt the noise introduced by encoder 300 based on a directional loudness map achievable with encoded version 320 of input audio content 112. Thus, audio encoder 300 is, for example, configured to use deviation between the directional loudness map 142 that is associated with a particular unencoded 112/110 audio input (or two or more audio inputs) and the directional loudness map achievable with an encoded version 320 of a particular 112/110 audio input (or two or more audio inputs). audio signals), as a criterion for adapting the generation of a certain encoded audio signal or audio signals of the encoded audio content 320. This deviation may represent the quality of the encoding 310 of the encoder 300. Thus, the encoder 300 may be configured to adapt 340 encoding parameters such that the deviation is below a certain threshold. . Thus, a feedback loop 322 is implemented to improve encoding 310 by audio encoder 300 based on directional loudness maps 142 of encoded audio content 320 and directional loudness maps 142 of uncoded input audio content 112 or uncoded spectral domain representations 110. According to an embodiment, in the feedback loop 322, the encoded audio content 320 is decoded to perform loudness information determination 100 based on the decoded audio signals. Alternatively, it is also possible that the directional loudness maps 142 of the encoded audio content 320 are performed by a neural network-implemented feedforward (eg, predicted).

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью регулировки одного или более параметров квантования посредством адаптации 342, чтобы адаптировать обеспечение одного или более кодированных аудиосигналов кодированного аудиосодержимого 320.In accordance with an embodiment, an audio encoder is configured to adjust one or more quantization parameters through adaptation 342 to adapt the provision of one or more encoded audio signals of the encoded audio content 320.

В соответствии с вариантом осуществления адаптация 340 параметров кодирования может выполняться, чтобы запретить или разрешить кодирование 310 и/или активировать и деактивировать инструмент совместного кодирования инструмент, который, например, используется блоком 314 кодирования. Например, это выполняется посредством адаптации 344 параметров кодирования. В соответствии с вариантом осуществления адаптация 344 параметров кодирования может зависеть от тех же самых критериев, как и адаптация 342 параметров квантования. Таким образом, в соответствии с вариантом осуществления аудиокодер 300 выполнен с возможностью запрещения кодирования 310 определённого одного из подлежащих кодированию сигналов, например, разностного сигнала, когда вклады отдельной карты 142 направленной громкости определённого одного из подлежащих кодированию сигналов (или, например, когда вклады карты 142 направленной громкости пары подлежащих кодированию сигналов или группы из трех или более подлежащих кодированию сигналов) в общую карту направленной громкости находятся ниже порогового значения. Таким образом, аудиокодер 300 выполнен с возможностью эффективного кодирования 310 только релевантной информации.In accordance with an embodiment, encoding parameter adaptation 340 may be performed to disable or enable encoding 310 and/or enable and disable a collaborative coding tool that is used by coding unit 314, for example. For example, this is done by adapting 344 coding parameters. In accordance with an embodiment, the adaptation 344 of the coding parameters may depend on the same criteria as the adaptation 342 of the quantization parameters. Thus, in accordance with an embodiment, the audio encoder 300 is configured to inhibit encoding 310 of a specific one of the signals to be coded, such as a difference signal, when the contributions of a particular directional loudness map 142 of the specified one of the signals to be coded (or, for example, when the contributions of the map 142 directional loudness of a pair of signals to be encoded or a group of three or more signals to be encoded) into a common directional loudness map are below the threshold value. Thus, audio encoder 300 is configured to efficiently encode 310 only relevant information.

В соответствии с вариантом осуществления инструмент совместного кодирования блока 314 кодирования, например, выполнен с возможностью совместного кодирования двух или более из входных аудиосигналов 112 или полученных из них сигналов 110, например, чтобы принять решение о включении/выключении M/S (центральный/боковой сигнал). Адаптация 344 параметров кодирования может быть выполнена таким образом, что инструмент совместного кодирования активируется или деактивируется в зависимости от одной или более карт 142 направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений одного или более сигналов 112/110, подлежащих кодированию. В качестве альтернативы или дополнительно аудиокодер 300 может быть выполнен с возможностью определения одного или более параметров инструмента совместного кодирования как параметров кодирования в зависимости от одной или более карт 142 направленной громкости. Таким образом, с помощью адаптации 344 параметров кодирования, например, можно управлять сглаживанием зависимых от частоты коэффициентов предсказания, например, чтобы установить параметры инструмента совместного кодирования с «интенсивным стерео».In accordance with an embodiment, the joint coding tool of the coding unit 314, for example, is configured to jointly encode two or more of the input audio signals 112 or signals 110 derived from them, for example, to decide on/off M/S (center/side signal ). The encoding parameter adaptation 344 may be performed such that the joint encoding tool is enabled or disabled depending on one or more directional loudness maps 142 that represent loudness information associated with multiple different directions of one or more signals 112/110 to be coded. Alternatively or additionally, audio encoder 300 may be configured to define one or more joint coding tool parameters as coding parameters depending on one or more directional loudness maps 142 . Thus, with the adaptation 344 of the coding parameters, for example, it is possible to control the smoothing of the frequency-dependent prediction coefficients, for example, to set the parameters of the "intense stereo" joint coding tool.

В соответствии с вариантом осуществления параметры квантования и/или параметры кодирования могут рассматриваться как управляющие параметры, которые могут управлять обеспечением одного или более кодированных аудиосигналов 320. Таким образом, аудиокодер 300 выполнен с возможностью определения или оценки влияния вариации одного или более управляющих параметров на карту 142 направленной громкости одного или более кодированных сигналов 320 и регулировки одного или более управляющих параметров в зависимости от определения или оценки влияния. Это может быть реализовано посредством контура 322 обратной связи и/или упреждения, как описано выше.In accordance with an embodiment, the quantization parameters and/or coding parameters may be considered as control parameters that may control the provision of one or more encoded audio signals 320. Thus, the audio encoder 300 is configured to determine or evaluate the effect of variation of one or more control parameters on the map 142 directional loudness of one or more encoded signals 320; and adjusting one or more control parameters depending on the impact determination or evaluation. This may be implemented by a feedback and/or feedforward loop 322 as described above.

На фиг. 13 показан аудиокодер 300 для кодирования 310 входного аудиосодержимого 112, содержащего один или более входных аудиосигналов 1121, 1122. Предпочтительно, как показано на фиг. 13, входное аудиосодержимое 112 содержит множество входных аудиосигналов, например, два или более входных аудиосигнала 1121, 1122. В соответствии с вариантом осуществления входное аудиосодержимое 112 может содержать сигналы во временной области или сигналы в спектральной области. В некоторых случаях сигналы входного аудиосодержимого 112 могут быть обработаны 330 аудиокодером 300, чтобы определить возможные сигналы, например, первый возможный сигнал 1101 и/или второй возможный сигнал 1102. Обработка 330 может содержать, например, преобразованием из временной области в спектральную область, если входные аудиосигналы 112 являются сигналами во временной области.In FIG. 13 shows an audio encoder 300 for encoding 310 audio input content 112 comprising one or more audio input signals 112 1 , 112 2 . Preferably, as shown in FIG. 13, the audio input content 112 comprises a plurality of audio input signals, such as two or more audio input signals 112 1 , 112 2 . In accordance with an embodiment, the input audio content 112 may comprise signals in the time domain or signals in the spectral domain. In some cases, input audio content signals 112 may be processed 330 by audio encoder 300 to determine candidate signals, such as first candidate signal 110 1 and/or second candidate signal 110 2 . Processing 330 may comprise, for example, a time domain to spectral domain conversion if the input audio signals 112 are time domain signals.

Аудиокодер 300 выполнен с возможностью выбора 350 сигналов, подлежащих совместному кодированию 310, из множества возможных сигналов 110 или из множества пар возможных сигналов 110 в зависимости от карт 142 направленной громкости. Карты 142 направленной громкости представляют информацию о громкости, ассоциированную с множеством различных направлений, например, направления панорамирования, возможные сигналы 110 или пары возможных сигналов 110, и/или заданные направления.The audio encoder 300 is configured to select 350 signals to be jointly encoded 310 from a plurality of possible signals 110 or from a plurality of pairs of possible signals 110 depending on the directional volume maps 142. Directional volume maps 142 represent loudness information associated with a variety of different directions, such as pan directions, possible signals 110 or pairs of possible signals 110, and/or predetermined directions.

В соответствии с вариантом осуществления карты 142 направленной громкости могут быть вычислены посредством определения 100 информации о громкости согласно настоящему описанию. Таким образом, определение 100 информации о громкости может быть реализовано, как описано в отношении аудиокодера 300, описанного на фиг. 11 или фиг. 12. Карты 142 направленной громкости основаны на возможных сигналах 110, причем возможные сигналы представляют входные аудиосигналы входного аудиосодержимого 112, если аудиокодером 300 не применяется обработка 330.According to an embodiment, directional loudness maps 142 may be computed by determining loudness information 100 as described herein. Thus, the loudness information determination 100 may be implemented as described with respect to the audio encoder 300 described in FIG. 11 or FIG. 12. Directional volume maps 142 are based on candidate signals 110, with candidate signals representing input audio signals of input audio content 112, unless processing 330 is applied by audio encoder 300.

Если входное аудиосодержимое 112 содержит только один входной аудиосигнал, этот сигнал выбирается посредством выбора 350 как подлежащего кодированию аудиокодером 300, например, с использованием энтропийного кодирования, чтобы обеспечить один кодированный аудиосигнал в качестве кодированного аудиосодержимого 320. В этом случае, например, аудиокодер выполнен с возможностью запрещения совместного кодирования 310 и переключения на кодирование только одного сигнала.If the input audio content 112 contains only one input audio signal, that signal is selected by selecting 350 as to be encoded by the audio encoder 300, for example using entropy coding, to provide one encoded audio signal as the encoded audio content 320. In this case, for example, the audio encoder is configured to disabling joint coding 310 and switching to coding only one signal.

Если входное аудиосодержимое 112 содержит два входных аудиосигнала 1121 и 1122, которые могут быть описаны как X1 и X2, оба сигнала 1121 и 1122 выбираются 350 аудиокодером 300 для совместного кодирования 310, чтобы обеспечить один или более кодированных сигналов в кодированном аудиосодержимом 320. Таким образом, кодированное аудиосодержимое 320 факультативно содержит центральный сигнал и боковой сигнал, или микшированный с понижением сигнал и сигнал разности, или только один из этих четырех сигналов.If the input audio content 112 contains two input audio signals 1121 and 1122, which can be described as X1 and X2, both signals 1121 and 1122 are selected 350 by the audio encoder 300 for joint encoding 310 to provide one or more encoded signals in the encoded audio content 320. Thus, the encoded audio content 320 optionally comprises a center signal and a side signal, or a downmix signal and a difference signal, or only one of these four signals.

Если входное аудиосодержимое 112 содержит три или более входных аудиосигнала, выбор 350 сигнала основан на картах 142 направленной громкости возможных сигналов 110. В соответствии с вариантом осуществления аудиокодер 300 выполнен с возможностью использования выбора 350 сигнала, чтобы выбрать одну пару сигналов из множества возможных сигналов 110, для которой в соответствии с картой 142 направленной громкости могут быть реализованы эффективное аудиокодирование и высококачественный выходной аудиосигнал. В качестве альтернативы или дополнительно также возможно, что выбор 350 сигнала выбирает три или более сигнала из возможных сигналов 110, подлежащих совместному кодированию 310. В качестве альтернативы или дополнительно возможно, что аудиокодер 300 использует выбор 350 сигнала, чтобы выбрать более чем одну пару сигналов или группу сигналов для совместного кодирования 310. Выбор 350 сигналов 352, подлежащих кодированию, может зависеть от вкладов отдельных карт 142 направленной громкости объединения двух или более сигналов в общую карту направленной громкости. В соответствии с вариантом осуществления общая карта направленной громкости ассоциирована с несколькими выбранными входными аудиосигналами или с каждым сигналом входного аудиосодержимого 112. То, каким образом этот выбор 350 сигнала может быть выполнен аудиокодером 300, в качестве примера описано на фиг. 14 для входного аудиосодержимого 112, содержащего три входных аудиосигнала.If input audio content 112 contains three or more input audio signals, signal selection 350 is based on directional loudness maps 142 of possible signals 110. According to an embodiment, audio encoder 300 is configured to use signal selection 350 to select one pair of signals from a plurality of possible signals 110, for which, according to the directional volume map 142, efficient audio coding and high quality audio output can be realized. Alternatively, or additionally, it is also possible that the signal selection 350 selects three or more signals from the possible signals 110 to be jointly encoded 310. Alternatively, or additionally, the audio encoder 300 uses the signal selection 350 to select more than one pair of signals or a group of signals to be co-coded 310. The selection 350 of the signals 352 to be coded may depend on the contributions of the individual directional loudness maps 142 of combining two or more signals into a common directional loudness map. According to an embodiment, a common directional loudness map is associated with multiple selected audio input signals, or with each signal of input audio content 112. How this signal selection 350 can be performed by audio encoder 300 is described by way of example in FIG. 14 for input audio content 112 containing three input audio signals.

Таким образом, аудиокодер 300 выполнен с возможностью обеспечения одного или более кодированных, например, квантованных и затем кодированных без потерь аудиосигналов, например, кодированных представлений в спектральной области на основе двух или более входных аудиосигналов 1121, 1122 или на основе двух или более полученных из них сигналов 1101, 1102 с использованием совместного кодирования 310 двух или более сигналов 352, подлежащих совместному кодированию.Thus, audio encoder 300 is configured to provide one or more encoded, such as quantized and then lossless encoded audio signals, such as encoded spectral domain representations, based on two or more input audio signals 112 1 , 112 2 , or based on two or more received of these, signals 110 1 , 110 2 using joint encoding 310 of two or more signals 352 to be jointly encoded.

В соответствии с вариантом осуществления аудиокодер 300, например, выполнен с возможностью определения отдельных карт 142 направленной громкости двух или более возможных сигналов и сравнения отдельных карт 142 направленной громкости двух или более возможных сигналов. Дополнительно аудиокодер, например, выполнен с возможностью выбора двух или более из возможных сигналов для совместного кодирования в зависимости от результата сравнения, например, таким образом, что для совместного кодирования выбираются возможные сигналы, отдельные карты громкости которых содержат максимальное сходство или сходство, которое выше порогового значения сходства. Посредством этого оптимизированного выбора может быть реализовано очень эффективное кодирование, поскольку высокое сходство подлежащих совместному кодированию сигналов может привести к кодированию с использованием только небольшого количества битов. Это означает, например, что микшированный с понижением сигнал или разностный сигнал выбранной пары возможных сигналов могут быть эффективно совместно кодированы.According to an embodiment, the audio encoder 300, for example, is configured to determine separate directional loudness maps 142 of two or more candidate signals and compare separate directional loudness maps 142 of the two or more possible signals. Additionally, the audio encoder, for example, is configured to select two or more of the possible signals for joint coding depending on the result of the comparison, for example, in such a way that possible signals are selected for joint coding, the individual loudness maps of which contain the maximum similarity or similarity that is higher than the threshold similarity values. By means of this optimized selection, very efficient coding can be realized since the high similarity of the signals to be jointly encoded can lead to coding using only a small number of bits. This means, for example, that the downmix signal or the difference signal of a selected pair of candidate signals can be efficiently jointly encoded.

На фиг. 14 показан вариант осуществления выбора 350 сигнала, который может быть выполнен любым описанным здесь аудиокодером 300, каким как аудиокодер 300 на фиг. 13. Аудиокодер может быть выполнен с возможностью использования выбора 350 сигнала, как показано на фиг. 14, или применения описанного выбора 350 сигнала более чем к трем входным аудиосигналам, для выбора сигналов, подлежащих совместному кодированию, из множества возможных сигналов или из множества пар возможных сигналов в зависимости от вкладов отдельных карт направленной громкости возможных сигналов в общую карту 142b направленной громкости или в зависимости от вкладов карт 142a1-142a3 направленной громкости пар возможных сигналов в общую карту 142b направленной громкости, как показано на фиг. 14.In FIG. 14 shows an embodiment of signal selection 350 that can be performed by any audio encoder 300 described here, such as audio encoder 300 in FIG. 13. An audio encoder may be configured to use signal selection 350 as shown in FIG. 14, or applying the described signal selection 350 to more than three input audio signals to select signals to be jointly encoded from a plurality of possible signals or from a plurality of pairs of possible signals depending on the contributions of the individual directional loudness maps of the possible signals to the overall directional loudness map 142b, or depending on the contributions of the directional loudness maps 142a 1 -142a 3 of pairs of possible signals to the overall directional loudness map 142b, as shown in FIG. 14.

В соответствии с фиг. 14 для каждой возможной пары сигналов карта 142a1-142a3 направленной громкости, например, получается посредством выбора 350 сигнала, и общая карта 142b направленной громкости, ассоциированная со всеми тремя сигналами входного аудиосодержимого, получается посредством блока 350 выбора сигнала. Карты 142 направленной громкости, например, карты 142a1-142a3 направленной громкости пар сигналов и общая карта 142b направленной громкости могут быть приняты от модуля анализа аудиоданных или могут быть определены аудиокодером и выданы блоку 350 выбора сигнала. В соответствии с вариантом осуществления общая карта 142b направленной громкости может представлять общую аудиосцену, например, представленную входным аудиосодержимым, например, перед обработкой аудиокодером. В соответствии с вариантом осуществления общая карта 142b направленной громкости представляет информацию о громкости, ассоциированную с различными направлениями, например, звуковых компонентов представленной или подлежащей представлению аудиосцены, например, после рендеринга на стороне декодера посредством входных аудиосигналов 1121-1123. Общая карта направленной громкости, например, представлена как DirLoudMap(1, 2, 3). В соответствии с вариантом осуществления общая карта 142b направленной громкости определяется аудиокодером с использованием понижающего микширования входных аудиосигналов 1121-1123 или с использование бинаурализации входных аудиосигналов 1121-1123.In accordance with FIG. 14, for each possible pair of signals, a directional loudness map 142a 1 -142a 3 , for example, is obtained by signal selection 350, and a general directional loudness map 142b associated with all three input audio content signals is obtained by signal selector 350. Directional loudness maps 142, such as signal pair directional loudness maps 142a 1 -142a 3 and overall directional loudness map 142b, may be received from an audio analysis module, or may be determined by an audio encoder and provided to a signal selector 350 . According to an embodiment, the overall directional volume map 142b may represent the overall audio scene, such as represented by the input audio content, such as before being processed by the audio encoder. According to an embodiment, the overall directional loudness map 142b represents loudness information associated with different directions, for example, of the audio components of a presented or to be presented audio scene, for example, after rendering at the decoder side via audio input signals 112 1 -112 3 . A general directional loudness map, for example, is represented as DirLoudMap(1, 2, 3). In accordance with an embodiment, the overall directional loudness map 142b is determined by the audio encoder using downmix of the input audio signals 112 1 -112 3 or using binauralization of the input audio signals 112 1 -112 3 .

На фиг. 14 показан выбор 350 сигнала для трех каналов CH1-CH3 соответственно, ассоциированных с первым входным аудиосигналом 1121, вторым входным аудиосигналом 1122 или третьим входным аудиосигналом 1123. Первая карта 142a1 направленной громкости, например, DirLoudMap (1, 2), основана на первом входном аудиосигнале 1121 и втором входном аудиосигнале 1122, вторая карта 142a2 направленной громкости, например, DirLoudMap (2, 3), основана на втором входном аудиосигнале 1122 и третьем входном аудиосигнале 1123, и третья карта 142a3 направленной громкости, например, DirLoudMap (1, 3), основана на первом входном аудиосигнале 1121 и третьем входном аудиосигнале 1123.In FIG. 14 shows signal selection 350 for three channels CH1-CH3 respectively associated with first audio input 112 1 , second audio input 112 2 , or third audio input 112 3 . The first directional volume map 142a 1 , such as DirLoudMap (1, 2), is based on the first audio input 112 1 and the second audio input 112 2 , the second directional volume map 142a 2 , such as DirLoudMap (2, 3), is based on the second input audio signal 112 2 and a third audio input signal 112 3 , and a third directional volume map 142a 3 , such as DirLoudMap(1, 3), is based on the first audio input signal 112 1 and the third audio input signal 112 3 .

В соответствии с вариантом осуществления каждая карта 142 направленной громкости представляет информацию о громкости, ассоциированную с различными направлениями. Различные направления обозначены на фиг. 14 линией между L и R, где L ассоциировано с панорамированием звуковых компонентов в левую сторону, и где R ассоциировано с панорамированием звуковых компонентов в правую сторону. Таким образом, различные направления содержат левую сторону и правую сторону и направления или углы между левой и правой стороной. Карты 142 направленной громкости, показанные на фиг. 14, представлены как диаграммы, но в качестве альтернативы также возможно, что карты 142 направленной громкости могут быть представлены гистограммами направленной громкости, как показано на фиг. 5, или матрицей, как показано на фиг. 10a-10c. Ясно, что только информация, ассоциированная с картами 142 направленной громкости, является релевантной для выбора 350 сигнала, и что графическое представление предназначено только для улучшения понимания.In accordance with an embodiment, each directional loudness map 142 represents loudness information associated with different directions. The different directions are indicated in Fig. 14 with a line between L and R, where L is associated with audio component panning to the left side, and where R is associated with audio component panning to the right side. Thus, the various directions comprise a left side and a right side and directions or angles between the left and right side. The directional volume maps 142 shown in FIG. 14 are presented as charts, but alternatively it is also possible that directional loudness maps 142 can be represented by directional loudness histograms as shown in FIG. 5 or a matrix as shown in FIG. 10a-10c. It is clear that only the information associated with directional volume maps 142 is relevant to signal selection 350, and that the graphical representation is only intended to improve understanding.

В соответствии с вариантом осуществления выбор 350 сигнала выполняется таким образом, что определяется вклад пар возможных сигналов в общую карту 142b направленной громкости. Отношение между общей картой 142b направленной громкости и картами 142a1-142a3 направленной громкости пар возможных сигналов может быть описано формулойIn accordance with an embodiment, signal selection 350 is performed such that the contribution of pairs of possible signals to the overall directional loudness map 142b is determined. The relationship between the overall directional loudness map 142b and the directional loudness maps 142a 1 -142a 3 of the pairs of possible signals can be described by the formula

DirLoudMap (1,2,3) = a*DirLoudMap (1,2,3) + b*DirLoudMap (2,3) + c*DirLoudMap (1,3).DirLoudMap(1,2,3) = a*DirLoudMap(1,2,3) + b*DirLoudMap(2,3) + c*DirLoudMap(1,3).

Вклад, определяемый аудиокодером посредством использования выбора сигнала, может быть представлен коэффициентами a, b и c.The contribution determined by the audio encoder through the use of signal selection may be represented by coefficients a, b and c.

В соответствии с вариантом осуществления аудиокодер выполнен с возможностью выбора для совместного кодирования одной или более пар возможных сигналов 1121-1123, имеющих наиболее высокий вклад в общую карту 142b направленной громкости. Это означает, например, что посредством выбора 350 сигнала выбирается пара возможных сигналов, которая ассоциирована с наиболее высоким коэффициентом из коэффициентов a, b и c.According to an embodiment, the audio encoder is configured to select for joint encoding one or more pairs of possible signals 112 1 -112 3 having the highest contribution to the overall directional loudness map 142b. This means, for example, that by signal selection 350, a pair of possible signals is selected that is associated with the highest coefficient of the coefficients a, b, and c.

В качестве альтернативы аудиокодер выполнен с возможностью выбора для совместного кодирования одной или более пар возможных сигналов 1121-1123, имеющих вклад в общую карту 142b направленной громкости, который больше заданного порогового значения. Это означает, например, что выбрано заданное пороговое значение, и что каждый коэффициент a, b, c сравнивается с заданным пороговым значением для выбора каждой пары сигналов, ассоциированной с коэффициентом, который больше заданного порогового значения.Alternatively, the audio encoder is configured to select for joint encoding one or more pairs of candidate signals 112 1 -112 3 having a contribution to the overall directional loudness map 142b that is greater than a predetermined threshold. This means, for example, that a predetermined threshold has been selected, and that each coefficient a, b, c is compared with a predetermined threshold to select each pair of signals associated with a coefficient that is greater than the predetermined threshold.

В соответствии с вариантом осуществления вклады могут находиться в диапазоне от 0% до 100%, что означает, например, для коэффициентов a, b и c диапазон от 0 до 1. Вклад 100%, например, ассоциирован с картой 142a направленной громкости, которая точно равна общей карте 142b направленной громкости. В соответствии с вариантом осуществления заданное пороговое значение зависит от того, сколько входных аудиосигналов включено во входное аудиосодержимое. В соответствии с вариантом осуществления заданное пороговое значение может быть определено как вклад по меньшей мере 35%, или по меньшей мере 50%, или по меньшей мере 60%, или по меньшей мере 75%.According to an embodiment, the contributions may range from 0% to 100%, which means, for example, for the coefficients a, b, and c, the range from 0 to 1. The 100% contribution, for example, is associated with a directional loudness map 142a that is exactly is equal to the overall directional volume map 142b. According to an embodiment, the predetermined threshold depends on how many input audio signals are included in the input audio content. According to an embodiment, the predetermined threshold may be defined as a contribution of at least 35%, or at least 50%, or at least 60%, or at least 75%.

В соответствии с вариантом осуществления заданное пороговое значение зависит от того, сколько сигналов должно быть выбрано посредством выбора 350 сигнала для совместного кодирования. Например, если должны быть выбраны по меньшей мере две пары сигналов, то могут быть выбраны две пары сигналов, которые ассоциированы с картами 142a направленной громкости, имеющими наиболее высокий вклад в общую карту 142b направленной громкости. Это означает, например, что выбирается 350 пара сигналов с наиболее высоким вкладом и со вторым наиболее высоким вкладом.According to an embodiment, the given threshold depends on how many signals are to be selected by signal selection 350 for joint coding. For example, if at least two pairs of signals are to be selected, then the two pairs of signals that are associated with the directional loudness maps 142a having the highest contribution to the overall directional loudness map 142b can be selected. This means, for example, that the 350 pair of signals with the highest contribution and the second highest contribution are selected.

Выгодно основывать выбор подлежащих кодированию сигналов аудиокодером на картах 142 направленной громкости, поскольку сравнение карт направленной громкости может указывать качество восприятия кодированных аудиосигналов слушателем. В соответствии с вариантом осуществления выбор 350 сигнала выполняется аудиокодером таким образом, что выбирается пара сигналов или пары сигналов, для которых их карта 142a направленной громкости является наиболее сходной с общей картой 142b направленной громкости. Это может привести к сходному восприятию выбранной пары и пар возможных сигналов по сравнению с восприятием всех входных аудиосигналов. Таким образом, качество кодированного аудиосодержимого может быть улучшено.It is advantageous to base the audio encoder's selection of signals to be encoded on directional loudness maps 142, since comparison of directional loudness maps can indicate the quality of the listener's perception of the encoded audio signals. According to an embodiment, signal selection 350 is performed by the audio encoder such that a pair of signals or pairs of signals is selected for which their directional loudness map 142a is most similar to the overall directional loudness map 142b. This can lead to a similar perception of the selected pair and pairs of possible signals compared to the perception of all input audio signals. Thus, the quality of the encoded audio content can be improved.

На фиг. 15 показан вариант осуществления аудиокодера 300 для кодирования 310 входного аудиосодержимого 112, содержащего один или более входных аудиосигналов. Предпочтительно два или более входных аудиосигналов кодируются 310 аудиокодером 300. Аудиокодер 300 выполнен с возможностью обеспечения одного или более кодированных аудиосигналов 320 на основе двух или более входных аудиосигналов 112 или на основе двух или более полученных из них сигналов 110. Сигнал 110 может быть получен из входного аудиосигнала 112 посредством факультативной обработки 330. В соответствии с вариантом осуществления факультативная обработка 330 может содержать признаки и/или функциональные возможности, как описано в отношении других описанных здесь аудиокодеров 300. С помощью кодирования 310 подлежащие кодированию сообщения, например, квантуются и затем кодируются без потерь.In FIG. 15 shows an embodiment of an audio encoder 300 for encoding 310 audio input content 112 comprising one or more audio input signals. Preferably, two or more input audio signals are encoded 310 by audio encoder 300. Audio encoder 300 is configured to provide one or more encoded audio signals 320 based on two or more input audio signals 112, or based on two or more signals 110 derived from them. Signal 110 may be obtained from input audio signal 112 through optional processing 330. According to an embodiment, optional processing 330 may include features and/or functionality as described in relation to other audio encoders 300 described here. .

Аудиокодер 300 выполнен с возможностью определения 100 общей карты направленной громкости на основе входных аудиосигналов 112 и/или определения 100 одной или более отдельных карт 142 направленной громкости, ассоциированных с отдельными входными аудиосигналами 112. Общая карта направленной громкости может быть представлена как L(m,Ψ0,j), и отдельные карты направленной громкости могут быть представлены как Li(m,Ψ0,j). В соответствии с вариантом осуществления общая карта направленной громкости может представлять целевую карту направленной громкости сцены. Другими словами, общая карта направленной громкости может быть ассоциирована с желаемой картой направленной громкости для объединения кодированных аудиосигналов. Дополнительно или в качестве альтернативы возможно, что аудиокодером 300 могут быть определены 100 карты направленной громкости Li(m,Ψ0,j) пар сигналов или групп из трех или более сигналов.Audio encoder 300 is configured to determine 100 an overall directional loudness map based on audio input signals 112 and/or determine 100 one or more individual directional loudness maps 142 associated with individual audio input signals 112. The overall directional loudness map can be represented as L(m,Ψ 0,j ), and individual directional loudness maps can be represented as L i (m,Ψ 0,j ). In accordance with an embodiment, the overall directional loudness map may represent a target directional loudness map of a scene. In other words, a general directional loudness map may be associated with a desired directional loudness map for combining encoded audio signals. Additionally or alternatively, it is possible that 100 directional loudness maps L i (m,Ψ 0,j ) of signal pairs or groups of three or more signals can be determined by audio encoder 300.

Аудиокодер 300 выполнен с возможностью кодирования 310 общей карты 142 направленной громкости и/или одной или более отдельных карт 142 направленной громкости и/или одной или более карт направленной громкости пар сигналов или групп из трех или более входных аудиосигналов 112 в качестве вспомогательной информация. Таким образом, кодированное аудиосодержимое 320 содержит кодированные аудиосигналы и кодированные карты направленной громкости. В соответствии с вариантом осуществления кодирование 310 может зависеть от одной или более карт 142 направленной громкости, посредством чего выгодно также кодировать эти карты 142 направленной громкости, чтобы обеспечить возможность высококачественного декодирования кодированного аудиосодержимого 320. С помощью карт 142 направленной громкости в качестве кодированной вспомогательной информации первоначально намеченная характеристика качества (например, подлежащая достижению посредством кодирования 310 и/или с помощью аудиодекодера) обеспечивается кодированным аудиосодержимым 320.Audio encoder 300 is configured to encode 310 a general directional loudness map 142 and/or one or more individual directional loudness maps 142 and/or one or more directional loudness maps of signal pairs or groups of three or more input audio signals 112 as ancillary information. Thus, the encoded audio content 320 comprises encoded audio signals and encoded directional loudness maps. According to an embodiment, encoding 310 may be dependent on one or more directional loudness maps 142, whereby it is advantageous to also encode these directional loudness maps 142 to enable high quality decoding of encoded audio content 320. With directional loudness maps 142 as coded side information, initially the intended quality characteristic (eg, to be achieved by encoding 310 and/or by an audio decoder) is provided by the encoded audio content 320.

В соответствии с вариантом осуществления аудиокодер 300 выполнен с возможностью определения 100 общей карты направленной громкости L(m,Ψ0,j) на основе входных аудиосигналов 112, в результате чего общая карта направленной громкости представляет информацию о громкости, ассоциированную с различными направлениями, например, звуковых компонентов аудиосцены, представленной входными аудиосигналами 112. В качестве альтернативы общая карта направленной громкости L(m,Ψ0,j) представляет информацию о громкости, ассоциированную с различными направлениями, например, звуковых компонентов аудиосцены, которая будет представлена, например, после рендеринга на стороне декодера входными аудиосигналами. Определение 100 информации о громкости может быть выполнено аудиокодером 300 факультативно в сочетании со знаниями или вспомогательной информацией относительно положений громкоговорителей и/или знаниями или вспомогательной информацией, описывающей положения звуковых объектов во входных аудиосигналах 112.According to an embodiment, audio encoder 300 is configured to determine 100 an overall directional loudness map L(m,Ψ 0,j ) based on input audio signals 112, whereby the overall directional loudness map represents loudness information associated with different directions, for example, audio components of the audio scene represented by the input audio signals 112. Alternatively, the overall directional loudness map L(m,Ψ 0,j ) represents the loudness information associated with different directions, for example, the audio components of the audio scene, which will be presented, for example, after rendering on side of the decoder with the input audio signals. Loudness information determination 100 can optionally be performed by audio encoder 300 in conjunction with knowledge or ancillary information regarding speaker positions and/or knowledge or ancillary information describing the positions of audio objects in input audio signals 112.

В соответствии с вариантом осуществления определение 100 информации о громкости может быть реализовано, как описано с помощью других описанных здесь аудиокодеров 300.According to an embodiment, loudness information determination 100 may be implemented as described with the other audio encoders 300 described herein.

Аудиокодер 300, например, выполнен с возможностью кодирования 310 общей карты направленной громкости L(m,Ψ0,j) в форме множества значений, например, скалярных величин, ассоциированных с различными направлениями. В соответствии с вариантом осуществления значения дополнительно ассоциированы с множеством частотных интервалов частотных полос. Каждое значение или значения в дискретных направлениях общей карты направленной громкости могут быть кодированы. Это означает, например, что каждое значение цветовой матрицы, как показано на фиг. 10a-10c, или значения различных интервалов гистограммы, как показано на фиг. 5, или значения кривой карты направленной громкости, как показано на фиг. 14, кодируются для дискретных направлений.Audio encoder 300, for example, is configured to encode 310 a general directional loudness map L(m,Ψ 0,j ) in the form of a set of values, such as scalars, associated with different directions. In accordance with an embodiment, the values are further associated with a plurality of frequency bands. Each value or values in the discrete directions of the overall directional loudness map may be encoded. This means, for example, that each color matrix value, as shown in FIG. 10a-10c, or values of different histogram bins as shown in FIG. 5, or directional loudness map curve values as shown in FIG. 14 are encoded for discrete directions.

В качестве альтернативы аудиокодер 300, например, выполнен с возможностью кодирования общей карты направленной громкости L(m,Ψ0,j) с использованием значения центрального положения и информации о градиенте. Значение центрального положения описывает, например, угол или направление, в котором расположен максимум общей карты направленной громкости для данной частотной полосы или частотного интервала, или для множества частотных интервалов или частотных полос. Информация о градиенте представляет, например, одну или более скалярных величин, описывающих градиенты значений общей карты направленной громкости в угловом направлении. Скалярные величины информации о градиенте являются, например, значениями общей карты направленной громкости для направлений, граничащих со значением центрального положения. Значение центрального положения может представлять скалярную величину информации о громкости и/или скалярную величину направления, соответствующего значению громкости.Alternatively, audio encoder 300, for example, is configured to encode a general directional loudness map L(m,Ψ 0,j ) using a center position value and gradient information. The center position value describes, for example, the angle or direction in which the maximum of the overall directional loudness map is located for a given frequency band or frequency interval, or for a plurality of frequency intervals or frequency bands. The gradient information represents, for example, one or more scalars describing the gradients of the values of the overall directional loudness map in the angular direction. The gradient information scalars are, for example, the overall directional loudness map values for directions adjacent to the center position value. The center position value may represent a scalar value of the loudness information and/or a scalar value of the direction corresponding to the loudness value.

В качестве альтернативы аудиокодер, например, выполнен с возможностью кодирования общей карты направленной громкости L(m,Ψ0,j) в виде полиномиального представления или в виде сплайнового представления.Alternatively, the audio encoder, for example, is configured to encode the overall directional loudness map L(m,Ψ 0,j ) as a polynomial representation or as a spline representation.

В соответствии с вариантом осуществления описанные выше возможности кодирования 310 для общей карты направленной громкости L(m,Ψ0,j) также могут быть применены для отдельных карт направленной громкости Li(m,Ψ0,j) и/или для карт направленной громкости, ассоциированных с парами сигналов или группами из трех или более сигналов.In accordance with an embodiment, the coding capabilities 310 described above for the overall directional loudness map L(m,Ψ 0,j ) can also be applied to individual directional loudness maps L i (m,Ψ 0,j ) and/or directional loudness maps associated with pairs of signals or groups of three or more signals.

В соответствии с вариантом осуществления аудиокодер 300 выполнен с возможностью кодирования одного микшированного с понижением сигнала, полученного на основе множества входных аудиосигналов 112 и общей карты направленной громкости L(m,Ψ0,j). Факультативно также вклад карты направленной громкости, ассоциированной с микшированным с понижением сигналом, например, кодируется с общей картой направленной громкости в качестве вспомогательной информации.In accordance with an embodiment, audio encoder 300 is configured to encode a single downmix signal derived from a plurality of audio input signals 112 and a common directional loudness map L(m,Ψ 0,j ). Optionally, also the contribution of the directional loudness map associated with the downmixed signal is, for example, encoded with the common directional loudness map as side information.

В качестве альтернативы аудиокодер 300, например, выполнен с возможностью кодирования 310 множества сигналов, например, входных аудиосигналов 112 или полученных из них сигналов 110 и кодирования 310 отдельных карт громкости Li(m,Ψ0,j) множества кодируемых 310 сигналов 112/110 (например, отдельных сигналов, пар сигналов или групп из трех или более сигналов). Кодированное множество сигналов и кодированные отдельные карты направленной громкости, например, передаются в кодированное звуковое представление 320 или вставляются в кодированное звуковое представление 320.Alternatively, the audio encoder 300 is, for example, configured to encode 310 a plurality of signals, such as input audio signals 112 or signals 110 derived therefrom, and encode 310 individual loudness maps L i (m,Ψ 0,j ) of the plurality of signals 112/110 to be encoded 310 (for example, individual signals, pairs of signals, or groups of three or more signals). The encoded set of signals and the encoded individual directional loudness maps are, for example, transmitted to an encoded audio representation 320 or inserted into an encoded audio representation 320.

В соответствии с альтернативным вариантом осуществления аудиокодер 300 выполнен с возможностью кодирования 310 общей карты направленной громкости L(m,Ψ0,j), множества сигналов, например, входных аудиосигналов 112 или полученных из них сигналов 110 и параметров, описывающих вклады, например, относительные вклады сигналов, которые кодируются с общей картой направленной громкости. В соответствии с вариантом осуществления параметры могут быть представлены параметрами a, b и c, как описано на фиг. 14. Таким образом, например, аудиокодер 300 выполнен с возможностью кодирования 310 всей информации, на которой основано кодирование 310, чтобы обеспечить, например, информацию для высококачественного декодирования обеспеченного кодированного аудиосодержимого 320.In accordance with an alternative embodiment, audio encoder 300 is configured to encode 310 a general directional loudness map L(m,Ψ 0,j ), a plurality of signals, such as input audio signals 112 or signals 110 derived from them, and parameters describing contributions, such as relative signal contributions that are encoded with a common directional loudness map. According to an embodiment, the parameters may be represented by parameters a, b, and c, as described in FIG. 14. Thus, for example, the audio encoder 300 is configured to encode 310 all of the information on which the encoding 310 is based to provide, for example, information for high quality decoding of the provided encoded audio content 320.

В соответствии с вариантом осуществления аудиокодер может содержать или объединять отдельные признаки и/или функциональные возможности, как описано в отношении одного или более аудиокодеров 300, описанных на фиг. 11-15.According to an embodiment, an audio encoder may comprise or combine individual features and/or functionality as described in relation to one or more audio encoders 300 described in FIG. 11-15.

На фиг. 16 показан вариант осуществления аудиодекодера 400 для декодирования 410 кодированного аудиосодержимого 420. Кодированное аудиосодержимое 420 может содержать кодированные представления 422 одного или более аудиосигналов и кодированную информацию 424 о картах направленной громкости.In FIG. 16 shows an embodiment of an audio decoder 400 for decoding 410 encoded audio content 420. Encoded audio content 420 may include encoded representations 422 of one or more audio signals and encoded directional loudness map information 424.

Аудиодекодер 400 выполнен с возможностью приема кодированного представления 422 одного или более аудиосигналов и обеспечения декодированного представления 412 одного или более аудиосигналов. Кроме того, аудиодекодер 400 выполнен с возможностью приема кодированной информации 424 о картах направленной громкости и декодирования 410 кодированной информации 424 о картах направленной громкости для получения одной или более декодированных карт 414 направленной громкости. Декодированные карты 414 направленной громкости могут содержать признаки и/или функциональные возможности, как описано в отношении вышеописанных карт 142 направленной громкости.Audio decoder 400 is configured to receive an encoded representation 422 of one or more audio signals and provide a decoded representation 412 of one or more audio signals. In addition, the audio decoder 400 is configured to receive encoded directional loudness map information 424 and decode 410 the encoded directional loudness map information 424 to obtain one or more decoded directional loudness maps 414. The decoded directional loudness maps 414 may contain features and/or functionality as described with respect to the directional loudness maps 142 described above.

В соответствии с вариантом осуществления декодирование 410 может выполняться аудиодекодером 400 с использованием декодирования, подобного AAC, или с использованием декодирования подвергнутых энтропийному кодированию спектральных значений, или с использованием декодирования подвергнутых энтропийному кодированию значений громкости.According to an embodiment, decoding 410 may be performed by audio decoder 400 using AAC-like decoding, or using entropy-coded spectral value decoding, or using entropy-coded loudness decoding.

Аудиодекодер 400 выполнен с возможностью воссоздания 430 аудиосцены с использованием декодированного представления 412 одного или более аудиосигналов и с использованием одной или более карт 414 направленной громкости. На основе воссоздания 430 аудиодекодером 400 может быть определено декодированное аудиосодержимое 432, такое как многоканальное представление.Audio decoder 400 is configured to reconstruct 430 an audio scene using a decoded representation 412 of one or more audio signals and using one or more directional volume maps 414 . Based on the recreation 430 by the audio decoder 400, the decoded audio content 432, such as a multi-channel representation, can be determined.

В соответствии с вариантом осуществления карта 414 направленной громкости может представлять целевую карту направленной громкости, подлежащую достижению посредством декодированного аудиосодержимого 432. Таким образом, с помощью карты 414 направленной громкости воссоздание аудиосцены 430 может быть оптимизировано и привести к высококачественному восприятию слушателем декодированного аудиосодержимого 432. Это основано на идее, что карта 414 направленной громкости может указывать на желаемое восприятие для слушателя.According to an embodiment, the directional loudness map 414 may represent a target directional loudness map to be achieved by the decoded audio content 432. Thus, with the directional loudness map 414, the recreation of the audio scene 430 can be optimized and result in a high quality listener experience of the decoded audio content 432. This is based on the idea that the directional loudness map 414 can indicate a desired listening experience.

На фиг. 17 показан кодер 400, показанный на фиг. 16, с факультативным признаком адаптации 440 параметров декодирования. В соответствии с вариантом осуществления декодированное аудиосодержимое может содержать выходные сигналы 432, которые представляют, например, сигналы во временной области или сигналы в спектральной области. Аудиодекодер 400, например, выполнен с возможностью получения выходных сигналов 432 таким образом, что одна или более карт направленной громкости, ассоциированных с выходными сигналами 432, приблизительно равны или равны одной или более целевым картам направленной громкости. Одна или более целевых карт направленной громкости основаны на одной или более декодированных картах 414 направленной громкости, или равны одной или более декодированным картам 414 направленной громкости. В некоторых случаях аудиодекодер 400 выполнен с возможностью использования подходящего масштабирования или объединения одной или более декодированных карт 414 направленной громкости, чтобы определить целевую карту или карты направленной громкости.In FIG. 17 shows the encoder 400 shown in FIG. 16 with the optional decoding parameter adaptation feature 440. According to an embodiment, the decoded audio content may comprise output signals 432 that represent, for example, signals in the time domain or signals in the spectral domain. Audio decoder 400, for example, is configured to obtain output signals 432 such that one or more directional loudness maps associated with output signals 432 are approximately equal to or equal to one or more target directional loudness maps. One or more target directional loudness maps are based on one or more decoded directional loudness maps 414, or equal to one or more decoded directional loudness maps 414. In some cases, audio decoder 400 is configured to use suitable scaling or combining one or more decoded directional loudness maps 414 to determine the target directional loudness map or maps.

В соответствии с вариантом осуществления одна или более карт направленной громкости, ассоциированных с выходными сигналами 432, могут быть определены аудиодекодером 400. Аудиодекодер 400 содержит, например, модуль анализа аудиоданных для определения одной или более карт направленной громкости, ассоциированных с выходными сигналами 432, или выполнен с возможностью приема от внешнего модуля 100 анализа аудиоданных одной или более карт направленной громкости, ассоциированных с выходными сигналами 432.According to an embodiment, one or more directional loudness maps associated with output signals 432 may be determined by audio decoder 400. Audio decoder 400 includes, for example, an audio parsing module for determining one or more directional loudness maps associated with output signals 432, or is configured capable of receiving from the external audio analysis module 100 one or more directional volume maps associated with the output signals 432.

В соответствии с вариантом осуществления аудиодекодер 400 выполнен с возможностью сравнения одной или более карт направленной громкости, ассоциированных с выходными сигналами 432, и декодированных карт 414 направленной громкости; или сравнения одной или более карт направленной громкости, ассоциированных с выходными сигналами 432, с картой направленной громкости, полученной из декодированной карты 414 направленной громкости, и адаптации 440 параметров декодирования или воссоздания 430 на основе этого сравнения. В соответствии с вариантом осуществления аудиодекодер 400 выполнен с возможностью адаптации 440 параметров декодирования или адаптации воссоздания 430 таким образом, что отклонение между одной или более картами направленной громкости, ассоциированными с выходными сигналами 432, и одной или более целевыми картами направленной громкости ниже заданного порогового значения. Это может представлять собой контур обратной связи, посредством чего декодирование 410 и/или воссоздание 430 адаптированы таким образом, что одна или более карт направленной громкости, ассоциированных с выходными сигналами 432, приближаются к одной или более целевым картам направленной громкости по меньшей мере на 75%, или по меньшей мере на 80%, или по меньшей мере на 85%, или по меньшей мере на 90%, или по меньшей мере на 95%.In accordance with an embodiment, audio decoder 400 is configured to compare one or more directional loudness maps associated with output signals 432 and decoded directional loudness maps 414; or comparing one or more directional loudness maps associated with output signals 432 with a directional loudness map obtained from decoded directional loudness map 414 and adapting 440 decoding parameters or recreating 430 based on this comparison. According to an embodiment, audio decoder 400 is configured to adapt 440 decoding parameters or adapt reconstruction 430 such that the deviation between one or more directional loudness maps associated with output signals 432 and one or more target directional loudness maps is below a predetermined threshold. This may be a feedback loop, whereby decoding 410 and/or reconstruction 430 are adapted such that one or more directional loudness maps associated with output signals 432 approximate one or more target directional loudness maps by at least 75%. , or at least 80%, or at least 85%, or at least 90%, or at least 95%.

В соответствии с вариантом осуществления аудиодекодер 400 выполнен с возможностью приема кодированного микшированного с понижением сигнала как кодированного представления 422 одного или более аудиосигналов и общей карты направленной громкости как кодированной информации 424 о картах направленной громкости. Кодированный микшированный с понижением сигнал, например, получается на основе множества входных аудиосигналов. В качестве альтернативы аудиодекодер 400 выполнен с возможностью приема множества кодированных аудиосигналов как кодированного представления 422 одного или более аудиосигналов и отдельных карт направленной громкости множества кодированных сигналов как кодированной информации 424 о картах направленной громкости. Кодированный аудиосигнал представляет собой, например, входные аудиосигналы, кодированные кодером, или сигналы, полученные из входных аудиосигналов, кодированных кодером. В качестве альтернативы аудиодекодер 400 выполнен с возможностью приема общей карты направленной громкости как кодированной информации 424 о картах направленной громкости, множества кодированных аудиосигналов как кодированного представления 422 одного или более аудиосигналов, и дополнительно параметров, описывающих вклады кодированных аудиосигналов в общую карту направленной громкости. Таким образом кодированное аудиосодержимое 420 может дополнительно содержать параметры, и аудиодекодер 400 может быть выполнен с возможностью использования этих параметров, чтобы улучшить адаптацию 440 параметров декодирования и/или улучшить воссоздание 430 аудиосцены.According to an embodiment, the audio decoder 400 is configured to receive the encoded downmix signal as an encoded representation 422 of one or more audio signals and the overall directional loudness map as encoded directional loudness map information 424. An encoded downmix signal, for example, is obtained based on a plurality of input audio signals. Alternatively, the audio decoder 400 is configured to receive a plurality of encoded audio signals as an encoded representation 422 of one or more audio signals and individual directional loudness maps of the plurality of encoded signals as encoded directional loudness map information 424. The encoded audio signal is, for example, input audio signals encoded by an encoder or signals derived from input audio signals encoded by an encoder. Alternatively, the audio decoder 400 is configured to receive the overall directional loudness map as encoded directional loudness map information 424, a plurality of encoded audio signals as an encoded representation 422 of one or more audio signals, and further parameters describing the contributions of the encoded audio signals to the overall directional loudness map. Thus, the encoded audio content 420 may further comprise parameters, and the audio decoder 400 may be configured to use these parameters to improve the adaptation 440 of the decoding parameters and/or improve the reconstruction 430 of the audio scene.

Аудиодекодер 400 выполнен с возможностью обеспечения выходных сигналов 432 на основе одного из ранее упомянутого кодированного аудиосодержимого 420.Audio decoder 400 is configured to provide output signals 432 based on one of the previously mentioned encoded audio content 420.

На фиг. 18 показан вариант осуществления преобразователя 500 формата для преобразования 510 формата аудиосодержимого 520, которое представляет аудиосцену. Преобразователь 500 формата принимает, например, аудиосодержимое 520 в первом формате и преобразует 510 аудиосодержимое 520 в аудиосодержимое 530 во втором формате. Другими словами, преобразователь 500 формата выполнен с возможностью обеспечения представления 530 аудиосодержимого во втором формате на основе представления 520 аудиосодержимого в первом формате. В соответствии с вариантом осуществления аудиосодержимое 520 и/или аудиосодержимое 530 могут представлять пространственную аудиосцену.In FIG. 18 shows an embodiment of a format converter 500 for format conversion 510 of audio content 520 that represents an audio scene. Format converter 500 receives, for example, audio content 520 in a first format, and converts 510 audio content 520 to audio content 530 in a second format. In other words, the format converter 500 is configured to provide a presentation 530 of the audio content in the second format based on the presentation 520 of the audio content in the first format. According to an embodiment, audio content 520 and/or audio content 530 may represent a spatial audio scene.

Первый формат, например, может содержать первое количество каналов или входных аудиосигналов и вспомогательную информацию или пространственную вспомогательную информацию, адаптированную к первому количеству каналов или входных аудиосигналов. Второй формат, например, может содержать второе количество каналов или выходных аудиосигналов, которое может отличаться от первого количества каналов или входных аудиосигналов, и вспомогательную информацию или пространственную вспомогательную информацию, адаптированную ко второму количеству каналов или выходных аудиосигналов. Аудиосодержимое 520 в первом формате содержит, например, один или более аудиосигналов, один или более микшированных с понижением сигналов, один или более разностных сигналов, один или более центральных сигналов, один или более боковых сигналов и/или один или более других сигналов.The first format may, for example, comprise a first number of channels or input audio signals and side information or spatial side information adapted to the first number of channels or input audio signals. The second format, for example, may contain a second number of channels or audio outputs, which may be different from the first number of channels or audio inputs, and side information or spatial side information adapted to the second number of channels or audio outputs. The audio content 520 in the first format comprises, for example, one or more audio signals, one or more downmix signals, one or more difference signals, one or more center signals, one or more side signals, and/or one or more other signals.

Преобразователь 500 формата выполнен с возможностью регулировки 540 сложности преобразования 510 формата в зависимости от вкладов входных аудиосигналов первого формата в общую карту 142 направленной громкости аудиосцены. Аудиосодержимое 520 содержит, например, входные аудиосигналы первого формата. Вклады могут непосредственно представлять собой вклады входных аудиосигналов первого формата в общую карту 142 направленной громкости аудиосцены, или могут представлять собой вклады отдельных карт направленной громкости входных аудиосигналов первого формата в общую карту 142 направленной громкости, или могут представлять собой вклады карт направленной громкости пар входных аудиосигналов первого формата в общую карту 142 направленной громкости. В соответствии с вариантом осуществления вклады могут быть вычислены преобразователем 500 формата, как описано на фиг. 13 или фиг. 14. В соответствии с вариантом осуществления общая карта 142 направленной громкости, например, может быть описана с помощью вспомогательной информации первого формата, принятой преобразователем 500 формата. В качестве альтернативы преобразователь 500 формата выполнен с возможностью определения общей карты 142 направленной громкости на основе входных аудиосигналов аудиосодержимого 520. В некоторых случаях преобразователь 500 формата содержит модуль анализа аудиоданных, как описано в отношении фиг. 1-4b, для вычисления общей карты 142 направленной громкости, или преобразователь 500 формата выполнен с возможностью приема общей карты 142 направленной громкости от внешнего модуля анализа аудиоданных, как описано в отношении фиг. 1-4b.The format converter 500 is configured to adjust 540 the complexity of the format conversion 510 depending on the contributions of the first format input audio signals to the overall audio scene directional volume map 142 . The audio content 520 contains, for example, the input audio signals of the first format. The contributions may directly represent the contributions of the first format audio inputs to the overall audio scene directional loudness map 142, or may be the contributions of individual first format audio input directional loudness maps to the overall directional loudness map 142, or may be the contributions of the first format directional loudness maps of pairs of audio input signals format into a common map 142 directional volume. In accordance with an embodiment, the contributions may be calculated by the format converter 500 as described in FIG. 13 or FIG. 14. According to an embodiment, the overall directional loudness map 142, for example, can be described using the first format side information received by the format converter 500. Alternatively, the format converter 500 is configured to determine an overall directional loudness map 142 based on the input audio signals of the audio content 520. In some cases, the format converter 500 includes an audio parsing module, as described with respect to FIG. 1-4b to calculate the overall directional loudness map 142, or the format converter 500 is configured to receive the overall directional loudness map 142 from an external audio analysis module as described with respect to FIG. 1-4b.

Аудиосодержимое 520 в первом формате может содержать информацию о картах направленной громкости входных аудиосигналов в первом формате. На основе информации о картах направленной громкости преобразователь 500 формата, например, выполнен с возможностью получения общей карты 142 направленной громкости и/или одной или более карт направленной громкости. Одна или более карт направленной громкости могут представлять собой карты направленной громкости каждого входного аудиосигналы в первом формате и/или карты направленной громкости групп или пар сигналов в первом формате. Преобразователь 500 формата, например, выполнен с возможностью получения общей карты 142 направленной громкости из одной или более карт направленной громкости или информации о картах направленной громкости.The audio content 520 in the first format may contain information about directional loudness maps of the input audio signals in the first format. Based on the information about the directional loudness maps, the format converter 500, for example, is configured to obtain a common directional loudness map 142 and/or one or more directional loudness maps. One or more directional loudness maps may be directional loudness maps of each input audio signal in the first format and/or directional loudness maps of groups or pairs of signals in the first format. Format converter 500, for example, is configured to derive a general directional loudness map 142 from one or more directional loudness maps or directional loudness map information.

Регулировка 540 сложности, например, выполняется таким образом, чтобы проверять, возможен ли пропуск одного или более входных аудиосигналов первого формата, вклад которых в карту направленной громкости ниже порогового значения. Другими словами, преобразователь 500 формата, например, выполнен с возможностью вычисления или оценки вклада определённого входного аудиосигнала в общую карту 142 направленной громкости аудиосцены и принятия решения, следует ли рассмотреть определённый входной аудиосигнал в преобразование 510 формата, в зависимости от вычисления или оценки вклада. Вычисленный или оцененный вклад, например, сравнивается преобразователем 500 формата с заданным абсолютным или относительным пороговым значением.Complexity adjustment 540, for example, is performed to check whether it is possible to skip one or more first format audio inputs whose contribution to the directional loudness map is below a threshold. In other words, the format converter 500, for example, is configured to calculate or evaluate the contribution of a certain input audio signal to the overall audio scene directional loudness map 142 and decide whether to consider the certain input audio signal to the format transformation 510, depending on the calculation or estimation of the contribution. The calculated or estimated contribution is, for example, compared by the format converter 500 against a predetermined absolute or relative threshold value.

Вклады входных аудиосигналов первого формата в общую карту 142 направленной громкости могут указывать на релевантность соответствующего входного аудиосигнала для качества восприятия аудиосодержимого 530 во втором формате. Таким образом, например, только аудиосигналы в первом формате с высокой релевантностью подвергаются преобразованию 510 формата. Это может дать в результате высококачественное аудиосодержимое 530 во втором формате.The contributions of the first format audio input signals to the overall directional loudness map 142 may indicate the relevance of the corresponding input audio signal to the perceptual quality of the audio content 530 in the second format. Thus, for example, only audio signals in the first high-relevance format are subjected to format conversion 510 . This can result in high quality audio content 530 in the second format.

На фиг. 19 показан аудиодекодер 400 для декодирования 410 кодированного аудиосодержимого 420. Аудиодекодер 400 выполнен с возможностью приема кодированного представления 420 одного или более аудиосигналов и обеспечения декодированного представления 412 одного или более аудиосигналов. Декодирование 410 использует, например, декодирование, подобное AAC, или декодирование подвергнутых энтропийному кодированию спектральных значений. Аудиодекодер 400 выполнен с возможностью воссоздания 430 аудиосцены с использованием декодированного представления 412 одного или более аудиосигналов. Аудиодекодер 400 выполнен с возможностью регулировки 440 сложности декодирования в зависимости от вкладов кодированных сигналов в общую карту 142 направленной громкости декодированной аудиосцены 434.In FIG. 19 shows an audio decoder 400 for decoding 410 encoded audio content 420. Audio decoder 400 is configured to receive an encoded representation 420 of one or more audio signals and provide a decoded representation 412 of one or more audio signals. Decoding 410 uses, for example, AAC-like decoding or decoding of entropy-coded spectral values. Audio decoder 400 is configured to reconstruct 430 an audio scene using a decoded representation 412 of one or more audio signals. The audio decoder 400 is configured to adjust 440 the complexity of the decoding depending on the contributions of the encoded signals to the overall directional loudness map 142 of the decoded audio scene 434.

Регулировка 440 сложности декодирования может быть выполнена аудиодекодером 400 аналогично регулировке 540 сложности преобразователя 500 формата на фиг. 18.Decoding complexity adjustment 440 may be performed by audio decoder 400 in a manner similar to complexity adjustment 540 of format converter 500 in FIG. 18.

В соответствии с вариантом осуществления аудиодекодер 400 выполнен с возможностью приема кодированной информации о картах направленной громкости, например, извлеченной из кодированного аудиосодержимого 420. Кодированная информация о картах направленной громкости может быть декодирована 410 аудиодекодером 400, чтобы определить декодированную информацию 414 о направленной громкости. На основе декодированной информации 414 о направленной громкости может быть получена общая карта направленной громкости одного или более аудиосигналов кодированного аудиосодержимого 420 и/или одна или более отдельных карт направленной громкости одного или более аудиосигналов кодированного аудиосодержимого 420. Общая карта направленной громкости одного или более аудиосигналов кодированного аудиосодержимого 420, например, получаются из одной или более отдельных карт направленной громкости.According to an embodiment, audio decoder 400 is configured to receive encoded directional loudness map information, such as extracted from encoded audio content 420. The encoded directional loudness map information can be decoded 410 by audio decoder 400 to determine decoded directional loudness information 414. Based on the decoded directional loudness information 414, an overall directional loudness map of one or more encoded audio content audio signals 420 and/or one or more individual directional loudness maps of one or more encoded audio content audio signals 420 can be derived. An overall directional loudness map of one or more encoded audio content audio signals 420, for example, are derived from one or more separate directional loudness maps.

Общая карта 142 направленной громкости декодированной аудиосцены 434 может быть вычислена посредством определения 100 карты направленной громкости, которое может быть факультативно выполнено аудиодекодером 400. В соответствии с вариантом осуществления аудиодекодер 400 содержит модуль анализа аудиоданных, как описано в отношении фиг. 1-4b, для выполнения определения 100 карты направленной громкости, или аудиодекодер 400 может передать декодированную аудиосцену 434 внешнему модулю анализа аудиоданных и принять от внешнего модуля анализа аудиоданных общую карту 142 направленной громкости декодированной аудиосцены 434.The overall directional loudness map 142 of the decoded audio scene 434 may be computed by directional loudness map determination 100, which may optionally be performed by audio decoder 400. In accordance with an embodiment, audio decoder 400 includes an audio data analysis module as described with respect to FIG. 1-4b to perform the directional loudness map determination 100, or the audio decoder 400 may send the decoded audio scene 434 to an external audio analysis module and receive a general directional loudness map 142 of the decoded audio scene 434 from the external audio analysis module.

В соответствии с вариантом осуществления аудиодекодер 400 выполнен с возможностью вычисления или оценки вклада определённого кодированного сигнала в общую карту 142 направленной громкости декодированной аудиосцены и принятия решения, следует ли декодировать 410 определённый кодированный сигнал, в зависимости от вычисления или оценки вклада. Таким образом, например, общая карта направленной громкости одного или более аудиосигналов кодированного аудиосодержимого 420 может быть сравнена с общей картой направленной громкости декодированной аудиосцены 434. Определение вкладов может быть выполнено, как описано выше (например, как описано относительно фиг. 13 или фиг. 14), или аналогичным образом.In accordance with an embodiment, the audio decoder 400 is configured to calculate or estimate the contribution of a certain encoded signal to the overall directional loudness map 142 of the decoded audio scene and decide whether to decode 410 the certain encoded signal depending on the calculation or estimate of the contribution. Thus, for example, the overall directional loudness map of one or more audio signals of the encoded audio content 420 may be compared to the overall directional loudness map of the decoded audio scene 434. The determination of the contributions may be performed as described above (eg, as described with respect to FIG. 13 or FIG. 14 ) or similar.

В качестве альтернативы аудиодекодер 400 выполнен с возможностью вычисления или оценки вклада определённого кодированного сигнала в декодированную общую карту 414 направленной громкости кодированной аудиосцены и принятия решения, следует ли декодировать 410 определённый кодированный сигнал, в зависимости от вычисления или оценки вклада.Alternatively, the audio decoder 400 is configured to calculate or estimate the contribution of a certain encoded signal to the decoded overall directional loudness map 414 of the encoded audio scene and decide whether to decode 410 the certain encoded signal depending on the calculation or estimate of the contribution.

Регулировка 440 сложности, например, выполняется таким образом, чтобы проверять, возможен ли пропуск одного или более кодированных представлений одного или более входных аудиосигналов, вклад которых в карту направленной громкости ниже порогового значения.Complexity adjustment 440, for example, is performed to check if it is possible to skip one or more encoded representations of one or more input audio signals whose contribution to the directional loudness map is below a threshold.

Дополнительно или в качестве альтернативы регулировка 440 сложности декодирования может быть выполнена с возможностью адаптации параметров декодирования на основе вкладов.Additionally or alternatively, decoding complexity adjustment 440 may be configured to adapt decoding parameters based on contributions.

Дополнительно или в качестве альтернативы регулировка 440 сложности декодирования может быть выполнена с возможностью сравнения декодированных карт 414 направленной громкости с общей картой направленной громкости декодированной аудиосцены 434 (например, общая карта направленной громкости декодированной аудиосцены 434 является целевой картой направленной громкости) для адаптации параметров декодирования.Additionally or alternatively, the decoding complexity adjustment 440 can be configured to compare the decoded directional loudness maps 414 with the overall directional loudness map of the decoded audio scene 434 (e.g., the overall directional loudness map of the decoded audio scene 434 is the target directional loudness map) to adapt the decoding parameters.

На фиг. 20 показан вариант осуществления модуля 600 рендеринга (преобразования для прослушивания). Модуль 600 рендеринга представляет собой, например, модуль бинаурального рендеринга, или модуль рендеринга в виде звуковую панели, или модуль рендеринга в виде громкоговорителя. С помощью модуля 600 рендеринга аудиосодержимое 620 подвергается рендерингу для получения преобразованного для прослушивания аудиосодержимого 630. Аудиосодержимое 620 может содержать один или более входных аудиосигналов 622. Модуль 600 рендеринга использует, например, один или более входных аудиосигналов 622 для воссоздания 640 аудиосцены. Предпочтительно воссоздание 640, выполняемое модулем 600 рендеринга, основано на двух или более входных аудиосигналах 622. В соответствии с вариантом осуществления входной аудиосигнал 622 может содержать один или более аудиосигналов, один или более микшированных с понижением сигналов, один или более разностных сигналов, другие аудиосигналы и/или дополнительную информацию.In FIG. 20 shows an embodiment of a rendering module 600 (listening transforms). The renderer 600 is, for example, a binaural renderer, or a soundbar renderer, or a loudspeaker renderer. With the help of the renderer 600, the audio content 620 is rendered to obtain the listener-transformed audio content 630. The audio content 620 may contain one or more input audio signals 622. The renderer 600 uses, for example, one or more input audio signals 622 to recreate 640 the audio scene. Preferably, the rendering 640 performed by the renderer 600 is based on two or more input audio signals 622. According to an embodiment, the input audio signal 622 may comprise one or more audio signals, one or more downmix signals, one or more difference signals, other audio signals, and /or additional information.

В соответствии с вариантом осуществления для воссоздания 640 аудиосцены модуль 600 рендеринга выполнен с возможностью анализа одного или более входных аудиосигналов 622, чтобы оптимизировать рендеринг для получения требуемой аудиосцены. Таким образом, например, модуль 600 рендеринга выполнен с возможностью модификации пространственного размещения звуковых объектов аудиосодержимого 620. Это означает, например, что модуль 600 рендеринга может воссоздать 640 новую аудиосцену. Новая аудиосцена содержит, например, перестроенные звуковые объекты по сравнению с первоначальной аудиосценой аудиосодержимого 620. Это означает, например, что гитарист, и/или певец, и/или другие звуковые объекты помещаются в новую аудиосцену в других пространственных местоположениях по сравнению с первоначальной аудиосценой.In accordance with an embodiment, to recreate 640 an audio scene, renderer 600 is configured to analyze one or more input audio signals 622 to optimize rendering to obtain the desired audio scene. Thus, for example, the renderer 600 is configured to modify the spatial arrangement of the audio objects of the audio content 620. This means, for example, that the renderer 600 can recreate 640 a new audio scene. The new audio scene contains, for example, rearranged audio objects compared to the original audio content audio scene 620. This means, for example, that a guitarist and/or singer and/or other audio objects are placed in the new audio scene at different spatial locations compared to the original audio scene.

Дополнительно или в качестве альтернативы модулем 600 рендеринга преобразовываются для прослушивания количество аудиоканалов или соотношение между аудиоканалами. Таким образом, например, модуль 600 рендеринга может преобразовать аудиосодержимое 620, содержащий многоканальный сигнал, например, в двухканальный сигнал. Например, это желательно, если для представления аудиосодержимого 620 доступны только два громкоговорителя.Additionally or alternatively, the number of audio channels or the ratio between audio channels is converted by the renderer 600 for listening. Thus, for example, the renderer 600 may convert audio content 620 containing a multi-channel signal to, for example, a two-channel signal. For example, this is desirable if only two speakers are available to present audio content 620.

В соответствии с вариантом осуществления рендеринг выполняется модулем 600 рендеринга таким образом, что новая аудиосцена проявляет линь незначительные отклонения относительно первоначальной аудиосцены.In accordance with an embodiment, rendering is performed by renderer 600 such that the new audio scene exhibits minor deviations from the original audio scene.

Модуль 600 рендеринга выполнен с возможностью регулировки 650 сложности рендеринга в зависимости от вкладов входных аудиосигналов 622 в общую карту 142 направленной громкости преобразованной для прослушивания аудиосцены 642. В соответствии с вариантом осуществления преобразованная для прослушивания аудиосцена 642 может представлять собой новую аудиосцену, описанную выше. В соответствии с вариантом осуществления аудиосодержимое 620 может содержать общую карту 142 направленной громкости как вспомогательную информацию. Эта общая карта 142 направленной громкости, принятая как вспомогательная информация модулем 600 рендеринга, может указывать на требуемую аудиосцену для преобразованного для прослушивания аудиосодержимого 630. В качестве альтернативы определение 100 карты направленной громкости может определять общую карту 142 направленной громкости на основе преобразованной для прослушивания аудиосцены, принятой от блока 640 воссоздания. В соответствии с вариантом осуществления модуль 600 рендеринга может содержать определение 100 карты направленной громкости или принимать общую карту 142 направленной громкости внешнего определения 100 карты направленной громкости. В соответствии с вариантом осуществления определение 100 карты направленной громкости может быть выполнено модулем анализа аудиоданных, как описано выше.The renderer 600 is configured to adjust 650 the rendering complexity depending on the contributions of the input audio signals 622 to the overall directional loudness map 142 of the listener-transformed audio scene 642. In accordance with an embodiment, the listener-transformed audio scene 642 may be the new audio scene described above. According to an embodiment, the audio content 620 may include a general directional loudness map 142 as ancillary information. This general directional loudness map 142, received as ancillary information by the renderer 600, may indicate a desired audio scene for the listener-transformed audio content 630. from block 640 recreation. According to an embodiment, the renderer 600 may comprise a directional volume map definition 100, or receive a generic directional volume map 142 of an external directional volume map definition 100. According to an embodiment, directional loudness map determination 100 may be performed by an audio analysis module as described above.

В соответствии с вариантом осуществления регулировка 650 сложности рендеринга, например, выполняется посредством пропуска одного или более входных аудиосигналов 622. Входные аудиосигналы 622, подлежащие пропуску, например, являются сигналами, вклад которых в карту 142 направленной громкости ниже порогового значения. Таким образом, модулем 600 рендеринга преобразуются для прослушивания только релевантные входные аудиосигналы.According to an embodiment, rendering complexity adjustment 650 is, for example, performed by skipping one or more audio input signals 622. Audio input signals 622 to be skipped, for example, are signals whose contribution to directional loudness map 142 is below a threshold. Thus, only the relevant input audio signals are converted by the renderer 600 for listening.

В соответствии с вариантом осуществления модуль 600 рендеринга выполнен с возможностью вычисления или оценки вклада определённого входного аудиосигнала 622 в общую карту 142 направленной громкости аудиосцены, например, преобразованной для прослушивания аудиосцены 642. Кроме того, модуль 600 рендеринга выполнен с возможностью принятия решения, следует ли рассматривать определённый входной аудиосигнал при рендеринге, в зависимости от вычисления или оценки вклада. Таким образом, например, вычисленный или оцененный вклад сравнивается с заданным абсолютным или относительным пороговым значением.In accordance with an embodiment, the renderer 600 is configured to calculate or evaluate the contribution of a particular input audio signal 622 to the overall directional loudness map 142 of an audio scene, such as a listening-transformed audio scene 642. In addition, the renderer 600 is configured to decide whether to consider a specific input audio signal when rendering, depending on the calculation or evaluation of the contribution. Thus, for example, the calculated or estimated contribution is compared to a predetermined absolute or relative threshold value.

На фиг. 21 показан способ 1000 анализа аудиосигнала. Способ содержит получение 1100 множества взвешенных в спектральной области (например, в частотно-временно области) представлений (

Figure 00000025
Figure 00000013
для различных
Figure 00000026
(j
Figure 00000016
[1; J]); «направленных сигналов») на основе одного или более представлений (например,
Figure 00000015
, для i = {L; R}; или
Figure 00000034
) в спектральной области (например, в частотно-временной области) двух или более входных аудиосигналов (xL, xR, xi). Значения одного или более представлений в спектральной области (например)
Figure 00000010
взвешиваются 1200 в зависимости от различных направлений (например, направления панорамирования)
Figure 00000026
(например, представленных весовыми коэффициентами)
Figure 00000020
звуковых компонентов (например, спектральных интервалов или спектральных полос) (например, мелодических тонов инструментов или певца) в двух или более входных аудиосигналах, чтобы получить множество взвешенных представлений в спектральной области (
Figure 00000025
Figure 00000013
для разных
Figure 00000026
(j
Figure 00000016
[1; J]); «направленных сигналов»). Кроме того, способ содержит получение 1300 информации о громкости (например, L(m,
Figure 00000002
) для множества различных
Figure 00000026
; например, «карты направленной громкости»), ассоциированной с разными направлениями (например, направлением панорамирования)
Figure 00000026
на основе множества взвешенных представлений в спектральной области (
Figure 00000025
Figure 00000013
для различных
Figure 00000026
(j
Figure 00000016
[1; J]); «направленных сигналов») в качестве результата анализа.In FIG. 21 shows a method 1000 for analyzing an audio signal. The method comprises obtaining 1100 a plurality of weighted spectral domain (e.g., time-frequency domain) representations (
Figure 00000025
Figure 00000013
for various
Figure 00000026
(j
Figure 00000016
[1; J]); "directional signals") based on one or more representations (for example,
Figure 00000015
, for i = {L; R}; or
Figure 00000034
) in the spectral domain (eg, time-frequency domain) of two or more input audio signals (x L , x R , x i ). The values of one or more representations in the spectral domain (for example)
Figure 00000010
weighted 1200 depending on different directions (like pan direction)
Figure 00000026
(e.g. represented by weights)
Figure 00000020
audio components (e.g. spectral intervals or spectral bands) (e.g. melodic tones of instruments or a singer) in two or more input audio signals to obtain a set of weighted representations in the spectral domain (
Figure 00000025
Figure 00000013
for different
Figure 00000026
(j
Figure 00000016
[1; J]); "directed signals"). In addition, the method comprises obtaining 1300 loudness information (for example, L(m,
Figure 00000002
) for many different
Figure 00000026
; e.g. "directional volume maps") associated with different directions (e.g. pan direction)
Figure 00000026
based on a set of weighted representations in the spectral domain (
Figure 00000025
Figure 00000013
for various
Figure 00000026
(j
Figure 00000016
[1; J]); "directional signals") as a result of the analysis.

На фиг. 22 показан способ 2000 оценки сходства аудиосигналов. Способ содержит получение 2100 первой информации о громкости (L1(m,

Figure 00000002
); карты направленной громкости; значения объединенной громкости), ассоциированной с различным направлениями (например, панорамирования) (например)
Figure 00000002
, на основе первого множества из двух или более входных аудиосигналов (xR, xL, xi) и сравнение 2200 первой информация о громкости (L1(m,
Figure 00000002
)) со второй (например, соответствующей) информацией о громкости (L2(m,
Figure 00000002
)); эталонной информацией о громкости; эталонной картой направленной громкости; эталонным значением объединенной громкости), ассоциированной с различными направлениями панорамирования (например)
Figure 00000002
и с множеством из двух или более эталонных аудиосигналов (x2,R, x2,L, x2,i), для получения 2300 информации о сходстве (например, «выходной переменной модели» (MOV)) описывающей сходство между первым множеством из двух или более входных аудиосигналов (xR, xL, xi) и множеством из двух или более эталонных аудиосигналов (x2,R, x2,L, x2,i) (или представляющей качество первого множества из двух или более входных аудиосигналов при сравнении с множеством из двух или более эталонных аудиосигналов).In FIG. 22 shows a method 2000 for evaluating the similarity of audio signals. The method includes obtaining 2100 first information about the loudness (L 1 (m,
Figure 00000002
); directional volume maps; combined volume values) associated with different directions (e.g. panning) (e.g.)
Figure 00000002
, based on a first set of two or more input audio signals (x R , x L , x i ) and comparing 2200 the first loudness information (L 1 (m,
Figure 00000002
)) with second (for example, corresponding) loudness information (L 2 (m,
Figure 00000002
)); reference loudness information; directional loudness reference card; reference value of the combined loudness) associated with different pan directions (for example)
Figure 00000002
and with a set of two or more reference audio signals (x 2,R , x 2,L , x 2,i ), to obtain 2300 similarity information (eg, a "model output variable" (MOV)) describing the similarity between the first set of two or more input audio signals (x R , x L , x i ) and a set of two or more reference audio signals (x 2,R , x 2,L , x 2,i ) (or representing the quality of the first set of two or more input audio signals when compared to a set of two or more reference audio signals).

На фиг. 23 показан способ 3000 кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов (предпочтительно множество входных аудиосигналов). Способ содержит обеспечение 3100 одного или более кодированных (например, квантованных и затем кодированных без потерь) аудиосигналов (например, кодированных представлений в спектральной области) на основе одного или более входных аудиосигналов (например, сигнала левого канала и сигнала правого канала), или одного или более полученных из них сигналов (например, центрального сигнала, или микшированного с понижением сигнала и бокового сигнала, или сигнала разности). Дополнительно способ 3000 содержит адаптацию 3200 обеспечения одного или более кодированных аудиосигналов в зависимости от одной или более карт направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений (например, направлением панорамирования) одного или более подлежащих кодированию сигналов (например, в зависимости от вкладов отдельных карт направленной громкости одного или более сигналов, подлежащих квантованию, в общую карту направленной громкости, например, ассоциированную с несколькими входными аудиосигналами (например, с каждым сигналом из одного или более входных аудиосигналов)).In FIG. 23 shows a method 3000 for encoding input audio content containing one or more input audio signals (preferably a plurality of input audio signals). The method comprises providing 3100 one or more encoded (e.g., quantized and then lossless coded) audio signals (e.g., encoded spectral domain representations) based on one or more input audio signals (e.g., a left channel signal and a right channel signal), or one or more signals derived from them (for example, the center signal, or the downmix signal and the side signal, or the difference signal). Additionally, method 3000 comprises adapting 3200 to provide one or more encoded audio signals in dependence on one or more directional loudness maps that represent loudness information associated with a plurality of different directions (e.g., pan direction) of one or more signals to be encoded (e.g., depending on from the contributions of individual directional loudness maps of one or more signals to be quantized to a common directional loudness map, eg, associated with multiple audio inputs (eg, each signal from one or more audio inputs)).

На фиг. 24 показан способ 4000 кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов (предпочтительно множество входных аудиосигналов). Способ содержит обеспечение 4100 одного или более кодированных (например, квантованных и затем кодированных без потерь) аудиосигналов (например, кодированных представлений в спектральной области) на основе двух или более входных аудиосигналов (например, сигнала левого канала и сигнала правого канала), или на основе двух или более полученных из них сигналов с использованием совместного кодирования двух или более подлежащих совместному кодированию сигналов (например, с использованием центрального сигнала или микшированного с понижением сигнала и бокового сигнала или сигнала разности). Кроме того, способ 4000 содержит выбор 4200 сигналов, подлежащих совместному кодированию, из множества возможных сигналов или из множества пар возможных сигналов (например, из двух или более входных аудиосигналов или из двух или более полученных из них сигналов) в зависимости от карт направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений (например, направлением панорамирования) возможных сигналов или пар возможных сигналов (например, в зависимости от вкладов отдельных карт направленной громкости возможных сигналов в общую карту направленной громкости, например, ассоциированную с несколькими входными аудиосигналами (например, с каждым сигналом из одного или более входных аудиосигналов), или в зависимости от вкладов карт направленной громкости пар возможных сигналов в общую карту направленной громкости).In FIG. 24 shows a method 4000 for encoding input audio content containing one or more input audio signals (preferably a plurality of input audio signals). The method comprises providing 4100 one or more encoded (e.g., quantized and then lossless coded) audio signals (e.g., encoded spectral domain representations) based on two or more input audio signals (e.g., a left channel signal and a right channel signal), or based on two or more signals derived therefrom using joint encoding of the two or more signals to be jointly encoded (eg, using a center signal or a downmix signal and a side signal or a difference signal). In addition, method 4000 comprises selecting 4200 signals to be jointly encoded from a plurality of possible signals or from a plurality of pairs of possible signals (e.g., from two or more input audio signals or from two or more signals derived from them) depending on directional loudness maps, which represent loudness information associated with a plurality of different directions (e.g., pan direction) of possible signals or pairs of possible signals (e.g., depending on the contributions of individual candidate signal directional loudness maps to an overall directional loudness map, e.g., associated with multiple audio input signals ( for example, with each signal from one or more input audio signals), or depending on the contributions of the directional loudness maps of pairs of possible signals to the overall directional loudness map).

На фиг. 25 показан способ 5000 кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов (предпочтительно множество входных аудиосигналов). Способ содержит обеспечение 5100 одного или более кодированных (например, квантованных и затем кодированных без потерь) аудиосигналов (например, кодированных представлений в спектральной области) на основе двух или более входных аудиосигналов (например, сигнала левого канала и сигнала правого канала), или на основе двух или более полученных из них сигналов. Дополнительно способ 5000 содержит определение 5200 общей карты направленной громкости (например, целевой карты направленной громкости сцены) на основе входных аудиосигналов и/или определение одного или более отдельных карт направленной громкости, ассоциированных с отдельными входными аудиосигналами, и кодирование 5300 общей карты направленной громкости и/или одной или более отдельных карт направленной громкости в качестве вспомогательной информации.In FIG. 25 shows a method 5000 for encoding input audio content containing one or more input audio signals (preferably a plurality of input audio signals). The method comprises providing 5100 one or more encoded (e.g., quantized and then lossless encoded) audio signals (e.g., encoded spectral domain representations) based on two or more input audio signals (e.g., a left channel signal and a right channel signal), or based on two or more signals received from them. Additionally, the method 5000 comprises determining 5200 an overall directional loudness map (e.g., a target scene directional loudness map) based on the input audio signals and/or determining one or more separate directional loudness maps associated with the individual input audio signals, and encoding 5300 the overall directional loudness map and/ or one or more separate directional loudness maps as ancillary information.

На фиг. 26 показан способ 6000 декодирования кодированного аудиосодержимого, содержащий прием 6100 кодированного представления одного или более аудиосигналов и обеспечение 6200 декодированного представления одного или более аудиосигналов (например, с использованием декодирования, подобного AAC, или с использованием декодирования подвергнутых энтропийному кодированию спектральных значений). Способ 6000 содержит прием 6300 кодированной информации о картах направленной громкости и декодирование 6400 кодированной информации о картах направленной громкости, чтобы получить 6500 одну или более (декодированных) карт направленной громкости. Дополнительно способ 6000 содержит восстановление 6600 аудиосцены с использованием декодированного представления одного или более аудиосигналов и с использованием одной или более карт направленной громкости.In FIG. 26 shows a method 6000 for decoding encoded audio content, comprising receiving 6100 an encoded representation of one or more audio signals and providing 6200 a decoded representation of one or more audio signals (eg, using AAC-like decoding or using decoding of entropy-coded spectral values). The method 6000 comprises receiving 6300 the encoded directional loudness map information and decoding 6400 the encoded directional loudness map information to obtain 6500 one or more (decoded) directional loudness maps. Additionally, method 6000 comprises restoring 6600 an audio scene using a decoded representation of one or more audio signals and using one or more directional loudness maps.

На фиг. 27 показан способ 7000 преобразования 7100 формат аудиосодержимого, который представляет аудиосцену (например, пространственную аудиосцену), из первого формата во второй формат (причем первый формат, например, может содержать первое количество каналов или входных аудиосигналов и вспомогательную информацию или пространственную вспомогательную информацию, адаптированную к первому количеству каналов или входных аудиосигналов, и причем второй формат, например, может содержать второе количество каналов или выходных аудиосигналов, которое могут отличаться от первого количества каналов или входных аудиосигналов, и вспомогательную информацию или пространственную вспомогательную информацию, адаптированную ко второму количеству каналов или выходных аудиосигналов). Способ 7000 содержит обеспечение представления аудиосодержимого во втором формате на основе представления аудиосодержимого в первом формате и регулировку 7200 сложности преобразования формата (например, посредством пропуска одного или более входных аудиосигналов первого формата, вклад которых в карту направленной громкости ниже порогового значения, в процессе преобразования формата) в зависимости от вкладов входных аудиосигналов первого формата (например, одного или более аудиосигналов, одного или более микшированных с понижением сигналов, одного или более разностных сигналов и т.д.) в общую карту направленной громкости аудиосцены (причем общая карта направленной громкости, например, может быть описана вспомогательной информацией первого формата, принятой преобразователем формата).In FIG. 27 shows a method 7000 for converting 7100 an audio content format that represents an audio scene (e.g., a spatial audio scene) from a first format to a second format (wherein the first format, for example, may contain a first number of channels or input audio signals and ancillary information or spatial ancillary information adapted to the first number of channels or input audio signals, and the second format, for example, may contain a second number of channels or output audio signals, which may differ from the first number of channels or input audio signals, and ancillary information or spatial assistance information adapted to the second number of channels or audio output signals ). The method 7000 comprises providing a representation of the audio content in a second format based on the representation of the audio content in the first format, and adjusting 7200 the complexity of the format conversion (e.g., by passing one or more first format audio inputs whose contribution to the directional loudness map is below a threshold during the format conversion process) depending on the contributions of the input audio signals of the first format (for example, one or more audio signals, one or more downmix signals, one or more difference signals, etc.) to the overall directional loudness map of the audio scene (where the overall directional loudness map, for example, can be described by the first format side information received by the format converter).

На фиг. 28 показан способ 8000 декодирования кодированного аудиосодержимого, содержащий прием 8100 кодированного представления одного или более аудиосигналов и обеспечение 8200 декодированного представления одного или более аудиосигналов (например, с использованием декодирования, подобного AAC, или с использованием декодирования подвергнутых энтропийному кодированию спектральных значений). Способ 8000 содержит восстановление 8300 аудиосцены с использованием декодированного представления одного или более аудиосигналов. Дополнительно способ 8000 содержит регулировку 8400 сложности декодирования в зависимости от вкладов кодированных сигналов (например, одного или более аудиосигналов, одного или более микшированных с понижением сигналов, одного или более разностных сигналов и т.д.) в общую карту направленной громкости декодированной аудиосцены.In FIG. 28 shows a method 8000 for decoding encoded audio content, comprising receiving 8100 an encoded representation of one or more audio signals and providing 8200 a decoded representation of one or more audio signals (eg, using AAC-like decoding or using decoding of entropy-coded spectral values). Method 8000 comprises reconstructing 8300 an audio scene using a decoded representation of one or more audio signals. Additionally, the method 8000 comprises adjusting 8400 the complexity of the decoding depending on the contributions of the encoded signals (eg, one or more audio signals, one or more downmix signals, one or more difference signals, etc.) to the overall directional loudness map of the decoded audio scene.

На фиг. 29 показан способ 9000 рендеринга аудиосодержимого (например, для повышающего микширования аудиосодержимого, представленного с использованием первого количества входных аудиоканалов и вспомогательной информации, описывающей желаемые пространственные характеристики, такие как размещение звуковых объектов или соотношение между аудиоканалами, в представление, содержащее количество каналов, которое больше, чем первое количество входных аудиоканалов), содержащий восстановление 9100 аудиосцены на основе одного или более входных аудиосигналов (или на основе двух или более входных аудиосигналов). Способ 9000 содержит регулировку 9200 сложности рендеринга (например, посредством пропуска одного или более входных аудиосигналов, вклады которых в карту направленной громкости ниже порогового значения, в процессе рендеринга) в зависимости от вкладов входных аудиосигналов (например, одного или более аудиосигналов, одного или более микшированных с понижением сигналов, одного или более разностных сигналов и т.д.) в общую карту направленной громкости преобразованной для прослушивания аудиосцены (причем общая карта направленной громкости, например, может быть описана вспомогательной информацией, принятой модулем рендеринга).In FIG. 29 shows a method 9000 for rendering audio content (e.g., for upmixing audio content represented using a first number of input audio channels and ancillary information describing desired spatial characteristics, such as placement of audio objects or relationship between audio channels, into a representation containing a number of channels that is greater than than the first number of input audio channels) comprising reconstruction 9100 of an audio scene based on one or more input audio signals (or based on two or more input audio signals). Method 9000 comprises adjusting 9200 rendering complexity (e.g., by skipping one or more input audio signals whose contributions to the directional loudness map are below a threshold during rendering) depending on input audio signal contributions (e.g., one or more audio signals, one or more mixed with downsampling of signals, one or more difference signals, etc.) into a general directional loudness map of the audio scene converted for listening (and the general directional loudness map, for example, can be described by auxiliary information received by the renderer).

ЗамечанияRemarks

Далее будут описаны различные варианты осуществления изобретения и аспекты в главе «Объективная оценка качества пространственного звучания с использованием карт направленной громкости», в главе «Использование направленной громкости для аудиокодирования и объективного измерения качества», в главе «Направленная громкость для аудиокодирования», в главе «Общие этапы для вычисления карты направленной громкости (DirLoudMap)», в главе «Пример: Восстановление направленных сигналов с помощью функции оконной обработки/выбора, полученной из индекса панорамирования» и в главе «Варианты осуществления различных форм вычисления карт громкости с использованием обобщенных оценочных функций».Various embodiments of the invention and aspects will be described next in the chapter "Objective evaluation of spatial sound quality using directional loudness maps", in the chapter "Using directional loudness for audio coding and objective quality measurement", in the chapter "Directional loudness for audio coding", in the chapter " General Steps for Computing a Directional Loudness Map (DirLoudMap)", in the chapter "Example: Restoring Directional Signals with a Windowing/Selection Function Derived from a Pan Index", and in the chapter "Embodiments for Various Forms of Computing Loudness Maps Using Generalized Estimator Functions" .

Кроме того, дополнительные варианты осуществления будут определены приложенной формулой изобретения.In addition, additional embodiments will be defined by the appended claims.

Следует отметить, что любые варианты осуществления, определенные в формуле изобретения, могут быть дополнены любыми из деталей (признаков и функциональных возможностей), описанных в вышеупомянутых главах.It should be noted that any embodiments defined in the claims may be supplemented by any of the details (features and functionality) described in the above chapters.

Кроме того, варианты осуществления, описанные в вышеупомянутых главах, могут использоваться отдельно, а также могут быть дополнены любым из признаков в другой главе или любым признаком, включенным в формулу изобретения.In addition, the embodiments described in the above chapters may be used alone, and may also be supplemented by any of the features in another chapter or by any feature included in the claims.

Кроме того, следует отметить, что отдельные аспекты, описанные в настоящем документе, могут использоваться по отдельности или в сочетании. Таким образом, детали могут быть добавлены к каждому из упомянутых отдельных аспектов без добавления деталей к другому из упомянутых аспектов.In addition, it should be noted that the individual aspects described in this document may be used individually or in combination. Thus, details can be added to each of said individual aspects without adding details to another of said aspects.

Также следует отметить, что настоящее раскрытие описывает, явно или неявно, признаки, используемые в аудиокодере (устройстве для обеспечения кодированного представления входного аудиосигнала) и в аудиодекодере (устройстве для обеспечения декодированного представления аудиосигнала на основе кодированного представления). Таким образом, любой из описанных здесь признаков может использоваться в контексте аудиокодера и в контексте аудиодекодера.It should also be noted that the present disclosure describes, explicitly or implicitly, features used in an audio encoder (a device for providing an encoded representation of an input audio signal) and an audio decoder (a device for providing a decoded representation of an audio signal based on the encoded representation). Thus, any of the features described herein may be used in the context of an audio encoder and in the context of an audio decoder.

Кроме того, любые раскрытые в настоящем документе признаки и функциональные возможности, относящиеся к способу, также могут использоваться в устройстве (выполненном с возможностью реализации таких функциональных возможностей). Кроме того, любые признаки и функциональные возможности, раскрытые в настоящем документе в отношении устройства, также могут использоваться в соответствующем способе. Другими словами, способы, раскрытые в настоящем документе, могут быть дополнены любыми из признаков и функциональных возможностей, описанных в отношении устройств.In addition, any features and functionality related to the method disclosed herein may also be used in a device (capable of implementing such functionality). In addition, any features and functionality disclosed herein in relation to the device can also be used in the corresponding method. In other words, the methods disclosed herein may be supplemented by any of the features and functionality described in relation to devices.

Кроме того, любые из признаков и функциональных возможностей, описанных в настоящем документе, могут быть реализована в аппаратном или программном обеспечении или с использованием комбинации аппаратного и программного обеспечения, как будет описано в разделе “Альтернативы реализации”.In addition, any of the features and functionality described herein may be implemented in hardware or software, or using a combination of hardware and software, as will be described in the "Implementation Alternatives" section.

Альтернативы реализацииImplementation alternatives

Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, в котором блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока, или элемента или признака соответствующего устройства. Некоторые или все этапы способа могут быть исполнены посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах осуществления один или более из наиболее важных этапов способа могут исполняться таким устройством.Although some aspects have been described in the context of a device, it is clear that these aspects also represent a description of the corresponding method, in which the block or device corresponds to a method step or a feature of a method step. Likewise, the aspects described in the context of a method step also provide a description of the corresponding block or element or feature of the corresponding device. Some or all of the steps of the method may be executed by (or using) a hardware device such as, for example, a microprocessor, a programmable computer, or an electronic circuit. In some embodiments, one or more of the most important steps of the method may be performed by such a device.

В зависимости от некоторых требований реализации варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может быть выполнена с использованием цифрового запоминающего носителя, например, дискеты, цифрового универсального диска (DVD), диска Blu-Ray, компакт-диска (CD), постоянного запоминающего устройства (ROM), программируемого постоянного запоминающего устройства (PROM), стираемого программируемого постоянного запоминающего устройства (EPROM), электрически стираемого программируемого постоянного запоминающего устройства (EEPROM) и флэш-памяти, имеющего сохраненные на нем считываемые электронным образом сигналы, которые взаимодействуют (или способны к взаимодействию) с программируемой компьютерной системой, в результате чего выполняется соответствующий способ. Таким образом, цифровой носитель информации может являться машиночитаемым.Depending on some implementation requirements, embodiments of the invention may be implemented in hardware or in software. The implementation may be performed using a digital storage medium such as floppy disk, digital versatile disc (DVD), Blu-ray disc, compact disc (CD), read only memory (ROM), programmable read only memory (PROM), erasable programmable read-only memory (EPROM), electrically erasable programmable read-only memory (EEPROM), and flash memory having electronically readable signals stored thereon that interact (or are capable of interacting) with a programmable computer system, resulting in the execution of the corresponding method. Thus, the digital storage medium may be machine readable.

Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий считываемые электронным образом управляющие сигналы, которые способны к взаимодействию с программируемой компьютерной системой, в результате чего выполняется один из описанных здесь способов.Some embodiments in accordance with the invention include a storage medium having electronically readable control signals that are capable of interacting with a programmable computer system, resulting in one of the methods described here.

Как правило, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, программный код способен функционировать для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.Typically, embodiments of the present invention may be implemented as a computer program product with program code, the program code being able to function to perform one of the methods when the computer program product is running on the computer. The program code may, for example, be stored on a computer-readable medium.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в настоящем документе способов, сохраненную на машиночитаемом носителе.Other embodiments include a computer program for performing one of the methods described herein, stored on a computer-readable medium.

Другими словами, вариант осуществления способа изобретения, таким образом, представляет собой компьютерную программу, имеющую программный код для выполнения одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.In other words, an embodiment of the method of the invention is thus a computer program having program code for performing one of the methods described herein when the computer program is executed on a computer.

Дополнительный вариант осуществления способов изобретения, таким образом, представляет собой носитель данных (или цифровой запоминающий носитель или машиночитаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Носитель данных, цифровой запоминающий носитель или носитель с записанными данными обычно являются материальными и/или непереходными.An additional embodiment of the methods of the invention is thus a storage medium (either a digital storage medium or a computer-readable medium) containing a computer program recorded thereon for performing one of the methods described herein. The storage medium, digital storage medium, or recorded data medium is typically tangible and/or non-transitory.

Дополнительный вариант осуществления способа изобретения, таким образом, представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов, например, могут быть выполнены с возможностью передачи через соединение передачи данных, например, через Интернет.An additional embodiment of the method of the invention is thus a stream of data or a sequence of signals representing a computer program for performing one of the methods described herein. The data stream or signal sequence, for example, can be configured to be transmitted over a data connection, such as the Internet.

Дополнительный вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, выполненное с возможностью или адаптированное для выполнения одного из способов, описанных в настоящем документе.An additional embodiment comprises a processing means, such as a computer or programmable logic device, configured or adapted to perform one of the methods described herein.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.An additional embodiment comprises a computer having a computer program installed thereon for performing one of the methods described herein.

Дополнительный вариант осуществления в соответствии с изобретением содержит устройство или систему, выполненную с возможностью переноса (например, в электронном или оптическом виде) компьютерной программы для выполнения одного из способов, описанных в настоящем документе, к приемнику. Приемник, например, может являться компьютером, мобильным устройством, запоминающим устройством и т.п. Устройство или система, например, могут содержать файловый сервер для переноса компьютерной программы к приемнику.A further embodiment in accordance with the invention comprises an apparatus or system capable of transferring (eg, electronically or optically) a computer program for performing one of the methods described herein to a receiver. The receiver, for example, may be a computer, mobile device, storage device, or the like. The device or system, for example, may include a file server for transferring a computer program to the receiver.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторой или всей функциональности способов, описанных в настоящем документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в настоящем документе. Обычно способы предпочтительно выполняются любым аппаратным устройством.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a user-programmable gate array may interface with a microprocessor to perform one of the methods described herein. In general, the methods are preferably performed by any hardware device.

Устройство, описанное в настоящем документе, может быть реализовано с использованием аппаратного устройства, или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.The apparatus described herein may be implemented using a hardware device, or using a computer, or using a combination of a hardware device and a computer.

Устройство, описанное в настоящем документе, или любые компоненты устройства, описанного в настоящем документе, могут быть реализованы по меньшей мере частично в аппаратном и/или программном обеспечении.The device described herein, or any components of the device described herein, may be implemented at least in part in hardware and/or software.

Способы, описанные в настоящем документе, могут быть выполнены с использованием аппаратного устройства, или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.The methods described herein may be performed using a hardware device, or using a computer, or using a combination of a hardware device and a computer.

Способы, описанные в настоящем документе, или любые компоненты устройства, описанного в настоящем документе, могут быть выполнены по меньшей мере частично аппаратным и/или программным обеспечением.The methods described herein, or any components of the apparatus described herein, may be implemented at least in part in hardware and/or software.

Описанные выше варианты осуществления являются лишь иллюстрацией принципов настоящего изобретения. Подразумевается, что модификации и вариации размещений и подробностей, описанных в настоящем документе, будут очевидны для других специалистов в данной области техники. Таким образом, подразумевается, что изобретение ограничено только объемом последующей патентной формулы изобретения, а не конкретными подробностями, представленными посредством описания и разъяснения представленных в настоящем документе вариантов осуществления.The embodiments described above are merely illustrative of the principles of the present invention. It is intended that modifications and variations of the arrangements and details described herein will be apparent to others skilled in the art. Thus, the invention is intended to be limited only by the scope of the following patent claims, and not by the specific details provided through the description and explanation of the embodiments presented herein.

Объективная оценка качества пространственного звучания с использованием карт направленной громкостиObjective evaluation of surround sound quality using directional loudness maps

2. Реферат2. Abstract

В этой работе вводится признак, например, извлеченный из стереофонических/бинауральных аудиосигналов, служащий для измерения воспринимаемого ухудшения качества в обработанных пространственных аудиосценах. Эта функция может быть основана на упрощенной модели, предполагающей стереомикширование, созданное направленными сигналами, расположенными с использованием методики панорамирования уровня амплитуды. Мы вычисляем, например, соответствующую громкость в стереофоническом образе для каждого направленного сигнала в области кратковременного преобразования Фурье (STFT), чтобы сравнить эталонный сигнал и ухудшенную версию и получить меру искажения, направленную на описание показателей воспринимаемого ухудшения, полученных в тестах прослушивания.In this work, a feature is introduced, for example, extracted from stereo/binaural audio signals, to measure the perceived quality degradation in processed spatial audio scenes. This function may be based on a simplified model assuming a stereo mix created by directional signals positioned using an amplitude level panning technique. We calculate, for example, the corresponding loudness in the stereo image for each directional signal in the Short Time Fourier Transform (STFT) domain to compare the reference signal and the degraded version and obtain a measure of distortion aimed at describing the perceived impairment metrics obtained in the listening tests.

Эта мера была протестирована на обширной базе данных тестов прослушивания со стереосигналами, обработанными перцептивными аудиокодеками существующего уровня техники с использованием методов, не сохраняющих форму волны, таких как расширение полосы и совместное стереокодирование, известных тем, что они вызывают затруднения для существующих предикторов качества [1], [2]. Результаты показывают, что полученная мера искажения может быть включена в качестве дополнения к существующим автоматизированным алгоритмам оценки качества восприятия для улучшения прогнозирования пространственно кодированных аудиосигналов.This measure has been tested against an extensive database of listening tests with stereo signals processed by state of the art perceptual audio codecs using non-waveform preserving techniques such as bandwidth extension and joint stereo coding, known for causing difficulties for existing quality predictors [1] , [2]. The results show that the resulting distortion measure can be included as an addition to existing automated perceptual quality estimation algorithms to improve the prediction of spatially encoded audio signals.

Ключевые слова - пространственное звучание, объективная оценка качества, PEAQ, индекс панорамирования. Keywords - spatial sound, objective quality assessment, PEAQ, panning index.

1. Введение1. Introduction

Мы предлагаем простой признак, направленный на описание ухудшения воспринимаемого звукового стереофонического образа, например, на основе изменения громкости в областях, которые имеют общий индекс панорамирования [13]. Например, это частотно-временные области бинаурального сигнала, которые имеют одинаковое соотношение уровней интенсивности между левым и правым каналами, и поэтому соответствуют определённому воспринимаемому направлению в горизонтальной плоскости звукового образа.We propose a simple feature aimed at describing the deterioration of the perceived stereo sound image, for example, based on the change in loudness in areas that have a common panning index [13]. For example, these are the time-frequency regions of a binaural signal that have the same ratio of intensity levels between the left and right channels, and therefore correspond to a certain perceived direction in the horizontal plane of the sound image.

Использование измерений направленной громкости в контексте анализа аудиосцены для рендеринга аудиоданных сложных виртуальных сред также предложено в [14], тогда как текущая работа сосредоточена на общей объективной оценке качества пространственного аудиокодирования.The use of directional loudness measurements in the context of audio scene analysis for rendering audio data of complex virtual environments is also proposed in [14], while current work is focused on a general objective assessment of the quality of spatial audio coding.

Воспринимаемое искажение стереофонического образа может быть отражено в виде изменений на карте направленной громкости определённой степени детализации, соответствующей количеству значений индексов панорамирования, которые должны быть оценены в качестве параметра.The perceived distortion of the stereo image can be reflected as changes in the directional loudness map of a certain granularity corresponding to the number of pan index values to be evaluated as a parameter.

2. Способ2. Way

В соответствии с вариантом осуществления эталонный сигнал (REF) и тестируемый сигнал (SUT) обрабатываются параллельно, чтобы извлечь признаки, которые направлены на описание - при сравнении - ухудшения качества воспринимаемого аудиоданных, вызванного операциями, выполняемыми для получения сигнала SUT.According to an embodiment, a reference signal (REF) and a signal under test (SUT) are processed in parallel to extract features that aim to describe - in comparison - the deterioration in perceived audio quality caused by operations performed to obtain the SUT signal.

Оба бинауральных сигнала могут быть сначала обработаны блоком периферийной модели уха. Каждый входной сигнал, например, подвергается декомпозиции в область преобразования STFT с использованием окна Ханна с размером блока

Figure 00000035
отсчета и наложением
Figure 00000036
, задающими временное разрешение 21 мс при частоте дискретизации FS=48 кГц. Частотные интервалы преобразованного сигнала затем, например, группируются для учета частотной селективности передней части ушного лабиринта человека по шкале ERB [15] в общей сложности в
Figure 00000037
подмножествах частотных интервалов или частотных полосах. Затем каждая частотная полоса может быть взвешена посредством значения, полученного из объединенной линейной передаточной функции, которая моделирует внешнее и среднее ухо, как описано в [3].Both binaural signals can first be processed by the Peripheral Ear Model block. Each input signal is, for example, decomposed into the STFT transform domain using a Hann window with block size
Figure 00000035
countdown and overlay
Figure 00000036
, specifying a time resolution of 21 ms at a sampling rate F S= 48 kHz. The frequency intervals of the converted signal are then, for example, grouped to take into account the frequency selectivity of the anterior part of the human ear labyrinth on the ERB scale [15] in total
Figure 00000037
subsets of frequency intervals or frequency bands. Each frequency band can then be weighted by the value obtained from the combined linear transfer function that models the outer and middle ear as described in [3].

Затем периферийная модель выдает сигналы

Figure 00000038
в каждом временном кадре
Figure 00000039
и частотном интервале
Figure 00000040
, и для каждого канала
Figure 00000041
и каждой группы частот
Figure 00000042
с разной шириной
Figure 00000043
, выраженной в частотных интервалах.Then the peripheral model issues signals
Figure 00000038
in every time frame
Figure 00000039
and frequency interval
Figure 00000040
, and for each channel
Figure 00000041
and each frequency group
Figure 00000042
with different width
Figure 00000043
expressed in frequency intervals.

2.1. Вычисление направленной громкости (например, выполняемое описанным в настоящем документе модулем анализа аудиоданных и/или модулем оценки сходства аудиоданных) 2.1. Directional loudness calculation (e.g., performed by the audio analysis module and/or audio similarity estimator described herein)

В соответствии с вариантом осуществления вычисление направленной громкости может быть выполнено для различных направлений таким образом, что, например, определённое направление панорамирования

Figure 00000044
может интерпретироваться как
Figure 00000045
, где j ϵ [1; J]. Следующая концепция основана на методе, представленном в [13], в котором мера сходства между левым и правым каналами бинаурального сигнала в области преобразования STFT может быть использована для извлечения частотно-временных областей, занятых каждым источником в стереофонической записи, на основе их обозначенных коэффициентов панорамирования в процессе микширования.According to an embodiment, the directional loudness calculation can be performed for different directions such that, for example, a certain panning direction
Figure 00000044
can be interpreted as
Figure 00000045
, where j ϵ [1; J]. The following concept is based on the method presented in [13], in which a similarity measure between the left and right channels of a binaural signal in the STFT transform domain can be used to extract the time-frequency regions occupied by each source in a stereo recording based on their designated pan coefficients. during the mixing process.

С учетом выходного сигнала периферийной модели

Figure 00000038
частотно-временная (T/F) ячейка
Figure 00000046
может быть восстановлена из входного сигнала, соответствующего определённому направлению панорамирования
Figure 00000026
, посредством умножения входного сигнала на оконную функцию
Figure 00000047
:Considering the output signal of the peripheral model
Figure 00000038
time-frequency (T/F) cell
Figure 00000046
can be recovered from the input signal corresponding to the specific pan direction
Figure 00000026
, by multiplying the input signal by the window function
Figure 00000047
:

Figure 00000048
(1)
Figure 00000048
(1)

Восстановленный сигнал будет иметь частотно-временные компоненты входного сигнала, которые соответствуют направлению панорамирования

Figure 00000026
в пределах значения допуска. Функция оконной обработки может быть определена как гауссово окно, центрированное в требуемом направлении панорамирования:The reconstructed signal will have input signal time-frequency components that match the pan direction.
Figure 00000026
within the tolerance value. The windowing function can be defined as a Gaussian window centered in the desired panning direction:

Figure 00000049
(2)
Figure 00000049
(2)

где

Figure 00000050
- индекс панорамирования, вычисляемый в [13] с определенной поддержкой
Figure 00000051
соответствующих сигналов, панорамированных полностью влево или вправо, соответственно. Действительно,
Figure 00000046
может содержать частотные интервалы, значения которых в левом и правом каналах приведут к тому, что функция
Figure 00000017
будет иметь значение
Figure 00000026
или вблизи него. Все другие компоненты могут быть ослаблены в соответствии с гауссовой функцией. Значение
Figure 00000004
представляет ширину окна и, таким образом, упомянутую окрестность для каждого направления панорамирования. Значение
Figure 00000004
=0,006 было выбрано, например, для отношения сигнал/помеха (SIR) в -60 дБ [13]. Факультативно множество из 22 равномерно расположенных направлений панорамирования в пределах
Figure 00000051
выбирается эмпирически для значений
Figure 00000026
. Для каждого восстановленного сигнала вычисление громкости [16] в каждой частотной полосе ERB и в зависимости от направления панорамирования выражается, например, следующим образом:Where
Figure 00000050
- panning index calculated in [13] with a certain support
Figure 00000051
corresponding signals panned all the way to the left or right, respectively. Really,
Figure 00000046
may contain frequency intervals whose values in the left and right channels will cause the function
Figure 00000017
will matter
Figure 00000026
or near it. All other components can be attenuated according to a Gaussian function. Meaning
Figure 00000004
represents the width of the window and thus the referred neighborhood for each panning direction. Meaning
Figure 00000004
=0.006 was chosen, for example, for a signal-to-noise ratio (SIR) of -60 dB [13]. Optional set of 22 evenly spaced pan directions within
Figure 00000051
is chosen empirically for the values
Figure 00000026
. For each reconstructed signal, the loudness calculation [16] in each ERB frequency band and depending on the panning direction is expressed, for example, as follows:

Figure 00000052
(3)
Figure 00000052
(3)

где

Figure 00000053
- суммарный сигнал каналов
Figure 00000041
. Затем громкость усредняется, например, по всем частотным полосам ERB, чтобы обеспечить карту направленной громкости, определенную в области панорамирования
Figure 00000054
по временному кадру
Figure 00000039
:Where
Figure 00000053
- total channel signal
Figure 00000041
. The loudness is then averaged over, for example, all ERB frequency bands to provide a directional loudness map defined in the pan area
Figure 00000054
by time frame
Figure 00000039
:

Figure 00000055
(4)
Figure 00000055
(4)

Для дальнейшего уточнения уравнение 4 может быть вычислено только с учетом подмножества полос ERB, соответствующих частотным областям 1,5 кГц и выше, чтобы приспособиться к чувствительности слуховой системы человека до разностей уровней в этой области, согласно теории дуплекса [17]. В соответствии с вариантом осуществления используются полосы

Figure 00000056
, соответствующие частотам от 1,34 кГц до
Figure 00000057
.For further refinement, Equation 4 can only be computed considering a subset of the ERBs corresponding to frequency domains of 1.5 kHz and above to accommodate the sensitivity of the human auditory system to level differences in this domain, according to duplex theory [17]. In accordance with the embodiment, bands are used
Figure 00000056
corresponding to frequencies from 1.34 kHz to
Figure 00000057
.

В качестве шага, например, карты направленной громкости на время эталонного сигнала и сигнала SUT вычитаются, и затем абсолютное значение разности усредняется по всем направлениям панорамирования и времени для получения одного числа, следуя терминологии в [3] называемого выходной переменной модели (MOV). Ожидается, что это число, эффективно выражающее искажение между картами направленной громкости эталонного и тестируемого сигналов, будет предсказывать ассоциированное субъективное ухудшение качества, о котором сообщается в тестах прослушивания.As a step, for example, the directional loudness-to-time maps of the reference signal and the SUT signal are subtracted, and then the absolute value of the difference is averaged over all pan and time directions to obtain a single number, following the terminology in [3] called the Model Output Variable (MOV). This number, effectively expressing the distortion between the directional loudness maps of the reference and test signals, is expected to predict the associated subjective degradation reported in listening tests.

На фиг. 9 показана блок-схема для предложенного вычисления MOV (выходного значения модели). На фиг. 10a-10c показан пример применения концепции карты направленной громкости к паре из эталонного (REF) и ухудшенного (SUT) сигналов и абсолютное значение их разности (DIFF). На фиг. 10a к 10c показан пример записи соло скрипки с продолжительностью 5 секунд, панорамированной влево. Более ясные области на картах представляют, например, более громкое содержание. Ухудшенный сигнал (SUT) представляет временной коллапс направления панорамирования акустического события от левой стороны к центру между моментами времени 2 и 2,5 секунды, и снова между 3 и 3,5 секунды.In FIG. 9 shows a flow chart for the proposed MOV (Model Output Value) calculation. In FIG. 10a-10c show an example of applying the directional loudness map concept to a pair of reference (REF) and degraded (SUT) signals and their absolute difference (DIFF). In FIG. 10a to 10c show an example recording of a 5 second violin solo panned to the left. Clearer areas on the maps represent, for example, louder content. The degraded signal (SUT) represents the temporal collapse of the panning direction of the acoustic event from left to center between times 2 and 2.5 seconds, and again between 3 and 3.5 seconds.

3. Описание эксперимента3. Description of the experiment

Чтобы проверить и подтвердить полезность предложенного значения MOV, был проведен регрессионный эксперимент, аналогичный описанному в [18], в котором значения MOV были рассчитаны для пар эталонного и тестируемого сигналов в базе данных и сравнены с их соответствующими субъективными оценками качества из теста прослушивания. Эффективность прогнозирования системы, использующей это значение MOV, оценивается с точки зрения корреляции с субъективными данными (

Figure 00000058
), оценки абсолютной погрешности (
Figure 00000059
) и количества выбросов (
Figure 00000060
), как описано в [3].To test and confirm the usefulness of the proposed MOV value, a regression experiment similar to that described in [18] was performed in which the MOV values were calculated for pairs of reference and test signals in the database and compared with their respective subjective quality scores from the listening test. The predictive performance of a system using this MOV value is evaluated in terms of correlation with subjective data (
Figure 00000058
), absolute error estimates (
Figure 00000059
) and the amount of emissions (
Figure 00000060
), as described in [3].

База данных, используемая для эксперимента, соответствует части теста верификации унифицированного кодирования речи и аудиоданных (USAC), множество 2 [19], который содержит стереосигналы, кодированные на битовых скоростях в пределах от 16 до 24 Кбит/с с использованием инструментов совместного стерео [12] и расширения частотной полосы наряду с их качественной оценкой по шкале MUSHRA. Речевые элементы были исключены, поскольку предложенное значение MOV, как ожидается, не будет описывать основную причину искажения речевых сигналов. В общей сложности 88 элементов (например, средняя длина 8 секунд) остались в базе данных для эксперимента.The database used for the experiment corresponds to part of the Unified Voice and Audio Data Coding (USAC) verification test, set 2 [19], which contains stereo signals encoded at bit rates ranging from 16 to 24 kbps using joint stereo tools [12 ] and broadening the frequency band along with their qualitative assessment on the MUSHRA scale. Speech elements have been excluded because the proposed MOV value is not expected to describe the root cause of speech distortion. A total of 88 items (eg, average length 8 seconds) remained in the database for the experiment.

Для учета возможных монофонических/тембральных искажений в базе данных результаты реализации стандартного PEAQ (расширенная версия), называемого объективной оценкой разности (ODG), и POLQA, называемого средней оценкой мнения (MOS), были приняты в качестве дополнительных значений MOV, дополняющих искажение направленной громкости (DirLoudDist; например, DLD), описанных в предыдущем разделе. Все значения MOV могут быть нормализованы и адаптированы, чтобы выдать оценку 0 для указания наилучшего качества и 1 для наихудшего возможного качества. Результаты теста прослушивания были соответствующим образом масштабированы.To account for possible monophonic/timbre distortion in the database, the results of the implementation of the standard PEAQ (extended version) called Objective Difference Score (ODG) and POLQA called Mean Opinion Score (MOS) were taken as additional MOV values complementing directional loudness distortion (DirLoudDist; for example, DLD) described in the previous section. All MOV values can be normalized and adapted to give a score of 0 to indicate the best quality and 1 to indicate the worst quality possible. The listening test results were scaled accordingly.

Одна случайная часть доступного содержимого базы данных (60%, 53 элемента) была зарезервирована для обучения регрессионной модели с использованием многомерных адаптивных регрессионных сплайнов (MARS) [8], отображающих значения MOV на субъективные оценки элементов. Остальная часть (35 пунктов) была использована для тестирования эффективности обученной регрессионной модели. Чтобы исключить влияние процедуры обучения из общего анализа эффективности значений MOV, цикл обучения/тестирования был проведен, например, 500 раз со случайными элементами обучения/тестирования, и средние значения для

Figure 00000058
,
Figure 00000059
и
Figure 00000060
были рассмотрены в качестве показателей эффективности.One random portion of the available database content (60%, 53 items) was reserved for regression model training using multivariate adaptive regression splines (MARS) [8] mapping MOV values to subjective item scores. The rest (35 points) was used to test the performance of the trained regression model. To exclude the influence of the training procedure from the overall analysis of the effectiveness of the MOV values, the training/testing cycle was conducted, for example, 500 times with random training/testing elements, and the average values for
Figure 00000058
,
Figure 00000059
And
Figure 00000060
were considered as performance indicators.

4. Результаты и обсуждение4. Results and discussion

MOV Set(N)MOV Set(N) RR AESAES νv MOS+ODG(2)MOS+ODG(2) 0,770.77 2,632.63 1212 MOS+ODG+CHOI(5)MOS+ODG+CHOI(5) 0,770.77 2,392.39 11eleven MOS+ODG+EITDD(3)MOS+ODG+EITDD(3) 0,820.82 2,02.0 11eleven MOS+ODG+SEO(6)MOS+ODG+SEO(6) 0,880.88 1,651.65 77 MOS+ODG+DirLoudDist(3)MOS+ODG+DirLoudDist(3) 0,880.88 1,691.69 88

Таблица 1: Средние значения производительности для 500 циклов обучения/подтверждения (например, тестирования) регрессионной модели с разными множествами значений MOV. CHOI представляет 3 бинауральных значения MOV, как вычислено в [20], EITDD соответствует высокочастотной огибающей значения MOV искажения ITD, как вычислено в [1]. SEO соответствует 4 бинауральным значениям MOV из [1], включая EITDD. DirLoudDist является предложенным значением MOV. Число в круглых скобках представляет общее количество используемых значений MOV (факультативно). Table 1: Average performance values for 500 train/validate cycles (eg testing) of a regression model with different sets of MOV values. CHOI represents 3 binaural MOV values as calculated in [20], EITDD corresponds to the high frequency envelope of the ITD distortion MOV value as calculated in [1]. SEO matches 4 binaural MOV values from [1], including EITDD. DirLoudDist is the suggested MOV value. The number in parentheses represents the total number of MOV values used (optional).

Таблица 1 показывает средние значения производительности (корреляция, оценка абсолютной погрешности, количество выбросов) для эксперимента, описанного в разделе 3. В дополнение к предложенному значению MOV также для сравнения были протестированы способы для объективной оценки пространственно кодированных аудиосигналов, предложенные в [20] и [1]. Обе сравниваемые реализации используют классические интерауральные искажения ориентиров, упомянутые во введении: искажение IACC (IACCD), искажение ILD (ILDD) и ITDD.Table 1 shows the average performance values (correlation, absolute error estimate, number of outliers) for the experiment described in section 3. In addition to the proposed MOV value, the methods for objective evaluation of spatially encoded audio signals proposed in [20] and [ 1]. Both implementations being compared use the classic interaural landmark distortions mentioned in the introduction: IACC distortion (IACCD), ILD distortion (ILDD), and ITDD.

Как упомянуто, базовые рабочие характеристики заданы посредством ODG и MOS, которые отдельно достигают R=0,66, но представляют объединенный показатель R=0,77, как показано в таблице 1. Это подтверждает, что признаки являются комплементарными в оценке монофонических искажений.As mentioned, baseline performance is given by ODG and MOS, which alone achieve R=0.66, but represent a combined R=0.77 as shown in Table 1. This confirms that the features are complementary in the evaluation of monophonic distortion.

С учетом работы Choi et. al. [20] добавление трех бинауральных искажений (CHOI в таблице 1) к двум монофоническим показателям качества (составляющим до пяти совместных значений MOV) не обеспечивает дальнейшего улучшения системы с точки зрения производительности прогнозирования для используемого набора данных.Based on the work of Choi et. al. [20] Adding three binaural distortions (CHOIs in Table 1) to two monophonic quality measures (constituting up to five joint MOV values) does not provide a further improvement in the system in terms of prediction performance for the dataset used.

В [1] были внесены некоторые дополнительные факультативные уточнения модели для упомянутых признаков с точки зрения локализации в боковой плоскости и возможности обнаружения искажений ориентиров. Кроме того, например, было включено новое значение MOV, которое учитывает высокочастотные искажения огибающей интерауральной разности во времени (EITDD) [21]. Набор из этих четырех бинауральных значений MOV (помеченных как SEO в таблице 1) плюс два монауральных дескриптора (всего шесть значений MOV) значительно повышает производительность системы для текущего набора данных.In [1], some additional optional refinements of the model for the mentioned features were introduced in terms of localization in the lateral plane and the possibility of detecting landmark distortions. In addition, for example, a new MOV value has been included that takes into account the high-frequency distortion of the Envelope Interaural Time Difference (EITDD) [21]. A set of these four binaural MOVs (labeled SEO in Table 1) plus two monaural descriptors (for a total of six MOVs) greatly improves system performance for the current dataset.

Учитывая вклад в улучшение EITDD, возможно предположить, что частотно-временные энергетические огибающие, используемые в совместных стереофонических методах [12], представляют собой важный аспект общего восприятия качества.Given the contribution to the improvement of EITDD, it can be assumed that the time-frequency energy envelopes used in joint stereo methods [12] represent an important aspect of the overall perception of quality.

Однако представленное значение MOV на основе искажений карты направленной громкости (DirLoudDist) еще лучше коррелирует с воспринимаемым ухудшением качества, чем EITDD и даже достигает сходных рабочих показателей как комбинации всех бинауральных значений MOV [1] при использовании одного дополнительного значение MOV для двух монауральных дескрипторов качества вместо четырех. Использование меньшего количества признаков для одной и той же производительности снижает риск чрезмерного обучения и указывает на их более высокую перцептивную значимость.However, the reported MOV value based on directional loudness map distortions (DirLoudDist) correlates even better with perceived quality degradation than EITDD and even achieves similar performance as a combination of all binaural MOV values [1] when using one additional MOV value for two monaural quality descriptors instead of four. Using fewer features for the same performance reduces the risk of overlearning and indicates their higher perceptual significance.

Максимальная средняя корреляция с субъективными оценками для базы данных 0,88 показывает, что еще имеются возможности для улучшения.The maximum average correlation with subjective estimates for the database of 0.88 indicates that there is still room for improvement.

В соответствии с вариантом осуществления предложенный признак основан на описанной здесь модели, которая предполагает упрощенное описание стереосигналов, в котором звуковые объекты локализуются только в боковой плоскости с помощью ILDS, что обычно имеет место в аудиосодержимом студийного производства [13]. Для искажений ITD, обычно присутствующих при кодировании записей с несколькими микрофонами или более естественных звуков, модель должна быть либо расширена, либо дополнена подходящей мерой искажения ITD.In accordance with an embodiment, the proposed feature is based on the model described here, which assumes a simplified description of stereo signals, in which sound objects are localized only in the lateral plane using ILDS, which is usually the case in studio production audio content [13]. For ITD distortion, typically present when encoding recordings with multiple microphones or more natural sounds, the model must either be extended or augmented with a suitable measure of ITD distortion.

5. Выводы и направления дальнейших исследований5. Conclusions and directions for further research

В соответствии с вариантом осуществления была введена метрика искажения, описывающая изменения в представлении аудиосцены на основе громкости событий, соответствующих определённому направлению панорамирования. Значительное увеличение производительности по отношению к только монауральному прогнозированию качества показывает эффективность предложенного метода. Этот подход также предлагает возможную альтернативу или дополнение при измерении качества для пространственного аудиокодирования с низкой битовой скоростью, когда установленные измерения искажений, основанные на классических бинауральных ориентирах, не работают удовлетворительно, возможно, вследствие не сохраняющего форму сигнала характера обработки аудиоданных, участвующего в обработке.In accordance with an embodiment, a distortion metric has been introduced that describes changes in the presentation of an audio scene based on the loudness of events corresponding to a particular panning direction. A significant increase in performance in relation to only monaural quality prediction shows the effectiveness of the proposed method. This approach also offers a possible alternative or addition to quality measurement for low bit rate spatial audio coding when established distortion measurements based on classical binaural landmarks do not work satisfactorily, perhaps due to the waveform-preserving nature of the audio data processing involved in the processing.

Измерения рабочих характеристик показывают, что до сих пор существуют сферы для улучшения до более полной модели, которая также включает в себя искажения аудиоданных на основе эффектов, не связанных с разностями уровней каналов. Дальнейшие исследования также включают в себя изучение того, каким образом модель может описать временную нестабильность/модуляцию в стереофоническом образе, как сообщается в [12], в отличие от статических искажений.Performance measurements show that there are still areas for improvement to a more complete model that also includes audio distortion based on effects not related to channel level differences. Further research also includes exploring how the model can describe temporal instability/modulation in a stereo image as reported in [12], as opposed to static distortion.

ЛитератураLiterature

[1] Jeong-Hun Seo, Sang Bae Chon, Keong-Mo Sung, and Inyong Choi, “Perceptual objective quality evaluation method for high quality multichannel audio codecs,” J. Audio Eng. Soc, vol. 61, no. 7/8, pp. 535-545, 2013.[1] Jeong-Hun Seo, Sang Bae Chon, Keong-Mo Sung, and Inyong Choi, “Perceptual objective quality evaluation method for high quality multichannel audio codecs,” J. Audio Eng. Soc , vol. 61, no. 7/8, pp. 535-545, 2013.

[2] M. Scha¨fer, M. Bahram, and P. Vary, “An extension of the PEAQ measure by a binaural hearing model,” in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, May 2013, pp. 8164- 8168.[2] M. Scha¨fer, M. Bahram, and P. Vary, “An extension of the PEAQ measure by a binaural hearing model,” in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing , May 2013, pp. 8164-8168.

[3] ITU-R Rec. BS.1387, Method for objective measurements of perceived audio quality, ITU-T Rec. BS.1387, Geneva, Switzerland, 2001.[3] ITU-R Rec. BS.1387, Method for objective measurements of perceived audio quality , ITU-T Rec. BS.1387, Geneva, Switzerland, 2001.

[4] ITU-T Rec. P.863, “Perceptual objective listening quality assessment,” Tech. Rep., International Telecommunication Union, Geneva, Switzerland, 2014.[4] ITU-T Rec. P.863, “Perceptual objective listening quality assessment,” Tech. Rep., International Telecommunication Union, Geneva, Switzerland, 2014.

[5] Sven Ka¨mpf, Judith Liebetrau, Sebastian Schneider, and Thomas Sporer, “Standardization of PEAQ-MC: Extension of ITU-R BS.1387-1 to Multichannel Audio,” in Audio Engineering Society Conference: 40th International Conference: Spatial Audio: Sense the Sound of Space, Oct 2010.[5] Sven Ka¨mpf, Judith Liebetrau, Sebastian Schneider, and Thomas Sporer, “Standardization of PEAQ-MC: Extension of ITU-R BS.1387-1 to Multichannel Audio,” in Audio Engineering Society Conference: 40th International Conference: Spatial Audio: Sense the Sound of Space , Oct 2010.

[6] K Ulovec and M Smutny, “Perceived audio quality analysis in digital audio broadcasting plus system based on PEAQ,” Radioengineering, vol. 27, pp. 342-352, Apr. 2018.[6] K Ulovec and M Smutny, “Perceived audio quality analysis in digital audio broadcasting plus system based on PEAQ,” Radioengineering , vol. 27, pp. 342-352, Apr. 2018.

[7] C. Faller and F. Baumgarte, “Binaural cue coding-Part II: Schemes and applications,” IEEE Transactions on Speech and Audio Processing, vol. 11, no. 6, pp. 520- 531, Nov 2003.[7] C. Faller and F. Baumgarte, “Binaural cue coding-Part II: Schemes and applications,” IEEE Transactions on Speech and Audio Processing , vol. 11, no. 6, pp. 520-531, Nov 2003.

[8] Jan-Hendrik Fleßner, Rainer Huber, and Stephan D. Ewert, “Assessment and prediction of binaural aspects of audio quality,” J. Audio Eng. Soc, vol. 65, no. 11, pp. 929-942, 2017.[8] Jan-Hendrik Fleßner, Rainer Huber, and Stephan D. Ewert, “Assessment and prediction of binaural aspects of audio quality,” J. Audio Eng. Soc , vol. 65, no. 11, pp. 929-942, 2017.

[9] Marko Takanen and Gae¨tan Lorho, “A binaural auditory model for the evaluation of reproduced stereo- phonic sound,” in Audio Engineering Society Conference: 45th International Conference: Applications of Time-Frequency Processing in Audio, Mar 2012.[9] Marko Takanen and Gae¨tan Lorho, “A binaural auditory model for the evaluation of reproduced stereophonic sound,” in Audio Engineering Society Conference: 45th International Conference: Applications of Time-Frequency Processing in Audio , Mar 2012.

[10] Robert Conetta, Tim Brookes, Francis Rumsey, Slawomir Zielinski, Martin Dewhirst, Philip Jackson, Søren Bech, David Meares, and Sunish George, “Spatial audio quality perception (part 2): A linear regression model,” J. Audio Eng. Soc, vol. 62, no. 12, pp. 847-860, 2015.[10] Robert Conetta, Tim Brookes, Francis Rumsey, Slawomir Zielinski, Martin Dewhirst, Philip Jackson, Søren Bech, David Meares, and Sunish George, “Spatial audio quality perception (part 2): A linear regression model,” J. Audio Eng. Soc , vol. 62, no. 12, pp. 847-860, 2015.

[11] ITU-R Rec. BS.1534-3, “Method for the subjective assessment of intermediate quality levels of coding systems,” Tech. Rep., International Telecommunication Union, Geneva, Switzerland, Oct. 2015.[11] ITU-R Rec. BS.1534-3, “Method for the subjective assessment of intermediate quality levels of coding systems,” Tech. Rep., International Telecommunication Union, Geneva, Switzerland, Oct. 2015.

[12] Frank Baumgarte and Christof Faller, “Why binaural cue coding is better than intensity stereo coding,” in Audio Engineering Society Convention 112, Apr 2002.[12] Frank Baumgarte and Christof Faller, “Why binaural cue coding is better than intensity stereo coding,” in Audio Engineering Society Convention 112 , Apr 2002.

[13] C. Avendano, “Frequency-domain source identification and manipulation in stereo mixes for enhancement, suppression and re-panning applications,” in 2003 IEEE Workshop on Applications of Signal Processing to Au- dio and Acoustics, Oct 2003, pp. 55-58.[13] C. Avendano, “Frequency-domain source identification and manipulation in stereo mixes for enhancement, suppression and re-panning applications,” in 2003 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics , Oct 2003, pp. 55-58.

[14] Nicolas Tsingos, Emmanuel Gallo, and George Drettakis, “Perceptual audio rendering of complex virtual environments,” in ACM SIGGRAPH 2004 Papers, New York, NY, USA, 2004, SIGGRAPH ’04, pp. 249-258, ACM.[14] Nicolas Tsingos, Emmanuel Gallo, and George Drettakis, “Perceptual audio rendering of complex virtual environments,” in ACM SIGGRAPH 2004 Papers , New York, NY, USA, 2004, SIGGRAPH '04, pp. 249-258, ACM.

[15] B.C.J. Moore and B.R. Glasberg, “A revision of Zwicker’s loudness model,” Acustica United with Acta Acustica:the Journal of the European Acoustics Associ- ation, vol. 82, no. 2, pp. 335-345, 1996.[15] BCJ Moore and BR Glasberg, “A revision of Zwicker's loudness model,” Acustica United with Acta Acustica:the Journal of the European Acoustics Association , vol. 82, no. 2, pp. 335-345, 1996.

[16] E. Zwicker, “U¨ber psychologische und methodische Grundlagen der Lautheit [On the psychological and methodological bases of loudness],” Acustica, vol. 8, pp. 237-258, 1958.[16] E. Zwicker, “U¨ber psychologische und methodische Grundlagen der Lautheit [On the psychological and methodological bases of loudness],” Acustica , vol. 8, pp. 237-258, 1958.

[17] Ewan A. Macpherson and John C. Middlebrooks, “Listener weighting of cues for lateral angle: The duplex theory of sound localization revisited,” The Journal of the Acoustical Society of America, vol. 111, no. 5, pp. 2219-2236, 2002.[17] Ewan A. Macpherson and John C. Middlebrooks, “Listener weighting of cues for lateral angle: The duplex theory of sound localization revisited,” The Journal of the Acoustical Society of America , vol. 111, no. 5, pp. 2219-2236, 2002.

[18] Pablo Delgado, Ju¨rgen Herre, Armin Taghipour, and Nadja Schinkel-Bielefeld, “Energy aware modeling of interchannel level difference distortion impact on spatial audio perception,” in Audio Engineering Society Conference: 2018 AES International Conference on Spatial Reproduction - Aesthetics and Science, Jul 2018.[18] Pablo Delgado, Ju¨rgen Herre, Armin Taghipour, and Nadja Schinkel-Bielefeld, “Energy aware modeling of interchannel level difference distortion impact on spatial audio perception,” in Audio Engineering Society Conference: 2018 AES International Conference on Spatial Reproduction - Aesthetics and Science , Jul 2018.

[19] ISO/IEC JTC1/SC29/WG11, “USAC verification test report N12232,” Tech. Rep., International Organisation for Standardisation, 2011.[19] ISO/IEC JTC1/SC29/WG11, “USAC verification test report N12232,” Tech. Rep., International Organization for Standardization, 2011.

[20] Inyong Choi, Barbara G. Shinn-Cunningham, Sang Bae Chon, and Koeng-Mo Sung, “Objective measurement of perceived auditory quality in multichannel audio compression coding systems,” J. Audio Eng. Soc, vol. 56, no. 1/2, pp. 3-17, 2008[20] Inyong Choi, Barbara G. Shinn-Cunningham, Sang Bae Chon, and Koeng-Mo Sung, “Objective measurement of perceived auditory quality in multichannel audio compression coding systems,” J. Audio Eng. Soc , vol. 56, no. 1/2, pp. 3-17, 2008

[21] E R Hafter and Raymond Dye, “Detection of interaural differences of time in trains of high-frequency clicks as a function of interclick interval and number,” The Journal of the Acoustical Society of America, vol. 73, pp. 644- 51, 03 1983.[21] ER Hafter and Raymond Dye, “Detection of interaural differences of time in trains of high-frequency clicks as a function of interclick interval and number,” The Journal of the Acoustical Society of America , vol. 73, pp. 644-51, 03 1983.

Использование направленной громкости для аудиокодирования и объективного измерения качестваUsing Directional Loudness for Audio Coding and Objective Quality Measurement

Дополнительное описание см. в главе «Объективная оценка качества пространственного звучания с использованием карт направленной громкости».See the chapter titled "Objective Surround Quality with Directional Loudness Maps" for more information.

Описание: (например, описание фиг. 9)Description: (for example, the description of Fig. 9)

Представлен признак, извлеченный, например, из стереофонических/бинауральных аудиосигналов в пространственной (стерео) аудиосцене. Признак основан, например, на упрощенной модели стереомикширования, которая извлекает направления панорамирования событий в стереофоническом образе. Может быть вычислена ассоциированная громкость в стереофоническом образе для каждого направления панорамирования в области кратковременного преобразования Фурье (STFT). Признак факультативно вычисляется для эталонного и кодированного сигнала и затем сравнивается для получения меры искажения с целью описать оценку воспринимаемого ухудшения, сообщаемую в тесте прослушивания. Результаты показывают улучшенную устойчивость по отношению к низкой битовой скорости, не сохраняющим форму волны параметрическим методам, таким как совместное стерео и расширение полосы пропускания, по сравнению с существующими методами. Результаты показывают улучшенную устойчивость к низким битовым скоростям, не сохраняющим форму волны параметрическим методам, таким как совместное стерео и расширение полосы пропускания, по сравнению с существующими методами. Это может быть объединено в стандартизированных системах объективного измерения оценки качества, таких как PEAQ или POLQA (PEAQ - объективные измерения воспринимаемого качества аудиоданных; POLQA - анализ воспринимаемого объективного качества прослушивания).A feature extracted from, for example, stereo/binaural audio signals in a spatial (stereo) audio scene is presented. The feature is based, for example, on a simplified stereo mixing model that extracts the panning directions of events in a stereo image. The associated loudness in the stereo image for each panning direction in the Short Time Fourier Transform (STFT) region can be calculated. The feature is optionally computed for the reference and encoded signal and then compared to obtain a measure of distortion to describe the perceived impairment score reported in the listening test. The results show improved robustness to low bit rate, non-waveform-preserving parametric techniques, such as joint stereo and bandwidth extension, compared to existing techniques. The results show improved robustness to low bit rates, non-waveform-preserving parametric techniques, such as joint stereo and bandwidth extension, compared to existing techniques. This can be combined in standardized objective quality assessment systems such as PEAQ or POLQA (PEAQ - Objective Measures of Perceived Audio Quality; POLQA - Perceived Objective Listening Quality Analysis).

Терминология:Terminology:

- Сигнал: например, стереофонический сигнал, представляющий объекты, понижающие микширования, разности и т.д.- Signal: For example, a stereo signal representing objects, downmixes, differences, etc.

- Карта направленной громкости (DirLoudMap): например, полученная из каждого сигнала. Представляет, например, громкость в частотно-временной (T/F) области, ассоциированную с каждым направлением панорамирования в аудиосцене. Она может быть получена из более чем двух сигналов посредством использования бинаурального рендеринга (HRTF (передаточная функция слухового аппарата) / BRIR (бинауральная импульсная характеристика помещения)).- Directional Loudness Map (DirLoudMap): eg derived from each signal. Represents, for example, the volume in the time-frequency (T/F) domain associated with each panning direction in the audio scene. It can be derived from more than two signals by using binaural rendering (HRTF (hearing aid transfer function) / BRIR (binaural room impulse response)).

Применения (варианты осуществления):Applications (embodiments):

1. Автоматическая оценка качества (вариант осуществления 1): 1. Automatic quality assessment (option 1) :

- Как описано в главе «Объективная оценка качества пространственного звучания с использованием карт направленной громкости» - As described in the chapter "Objectively Evaluating Surround Quality Using Directional Loudness Maps"

2. Распределение битов на основе направленной громкости (вариант осуществления 2) в аудиокодере, на основе отношения (вклада) карт DirLoudMap отдельных сигналов в общей карте DirLoudMap.2. Bit allocation based on directional loudness (embodiment 2) in the audio encoder, based on the ratio (contribution) of the DirLoudMaps of the individual signals in the overall DirLoudMap.

- факультативная вариация 1 (независимые стереопары): аудиосигналы как громкоговорители или объекты. - optional variation 1 (independent stereo pairs): audio signals as loudspeakers or objects.

- факультативная вариация 2 (понижающее микширование/разностные пары): вклад карты DirLoudMap микшированного с понижением сигнала и разностной карты DirLoudMap в общую карту DirLoudMap. "Величина вклада" в аудиосцене для критериев распределения битов. - optional variation 2 (downmix/difference pairs): the contribution of the DirLoudMap of the downmixed signal and the difference DirLoudMap to the overall DirLoudMap. The "contribution amount" in the audio scene for the bit allocation criteria.

1. Аудиокодер, выполняющий совместное кодирование двух или более каналов, например, полученных в результате в каждом одном или более сигналах понижающего микширования и разностных сигналах, в которых вклад каждого разностного сигнала в общую карту направленной громкости определяется, например, из фиксированного правила декодирования (например, MS-Stereo) или посредством оценки процесса обратного совместного кодирования из параметров совместного кодирования (например, вращения в MCT). На основе вклада разностного сигнала в общую карту DirLoudMap адаптируется распределение битовой скорости между сигналом понижающего микширования и разностным сигналом, например, посредством управления точностью квантования сигналов или с помощью непосредственного отбрасывания разностных сигналов, вклад которых ниже порогового значения. Возможные критерии «вклада», например, представляют собой среднее отношение или отношение в максимальном относительном вкладе направления. 1. An audio encoder that jointly encodes two or more channels, such as those resulting in each one or more downmix signals and difference signals, in which the contribution of each difference signal to the overall directional loudness map is determined, for example, from a fixed decoding rule (e.g. , MS-Stereo) or by evaluating the inverse joint coding process from joint coding parameters (eg rotation in MCT). Based on the contribution of the difference signal to the overall DirLoudMap, the bit rate allocation between the downmix signal and the difference signal is adapted, for example, by controlling the signal quantization precision or by directly discarding difference signals whose contribution is below a threshold. Possible criteria for "contribution", for example, is the average ratio or the ratio in the maximum relative contribution of the direction.

- Проблема: комбинация и оценка вклада отдельной карты DirLoudMap в полученную в результате/общую карту громкости. - Issue: Combining and evaluating the contribution of an individual DirLoudMap to the resulting/total loudness map.

3. (вариант осуществления 3) На стороне декодера направленная громкость может помочь декодеру принять следующее обоснованное решение.3. (Embodiment 3) On the decoder side, directional loudness can help the decoder make the next informed decision.

- Сложность масштабирования/преобразования формата: каждый аудиосигнал может быть включен или исключен в процессе декодирования на основе его вклада в общую карту DirLoudMap (переданного как отдельный параметр или оцененного на основе других параметров) и тем самым изменить сложность рендеринга для разных применений/преобразования формата. Это позволяет выполнять декодирование с уменьшенной сложностью, когда доступны только ограниченные ресурсы (т.е. многоканальный сигнал, преобразуется для прослушивания на мобильном устройстве).- Scaling/Format Conversion Complexity: Each audio signal can be included or excluded during the decoding process based on its contribution to the overall DirLoudMap (passed as a separate parameter or estimated based on other parameters) and thereby change the rendering complexity for different applications/format transformations. This allows for reduced complexity decoding when only limited resources are available (ie, a multi-channel signal being converted for listening on a mobile device).

- Поскольку полученная в результате карта DirLoudMap может зависеть от настройки целевого воспроизведения, это гарантирует, что будут воспроизведены наиболее важные/существенные сигналы для отдельного сценария, таким образом, имеется преимущество перед не пространственными подходами, такими как простой уровень приоритета сигнала/объекта.- Because the resulting DirLoudMap may depend on the playback target setting, this ensures that the most important/essential signals for a particular scenario are reproduced, thus having an advantage over non-spatial approaches such as a simple signal/object priority level.

4. Для принятия решения о совместном кодировании (вариант осуществления 4) (например, описание фиг. 14)4. To make a joint encoding decision (Embodiment 4) (eg, description of FIG. 14)

- Определить вклад карты направленной громкости каждого сигнала или каждой пары возможных сигналов во вклад карты DirLoudMap общей сцены. - Determine the contribution of the directional loudness map of each signal or each pair of possible signals to the contribution of the DirLoudMap map of the overall scene.

1. факультативная вариация 1) Выбрать пару сигналов с наиболее высоким вкладом в общую карту громкости 1. optional variation 1) Select a pair of signals with the highest contribution to the overall loudness map

2. факультативная вариация 2) Выбрать пару сигналов, причем сигналы имеют высокую близость/сходство в своей соответствующей карте DirLoudMap => может быть совместно представлен посредством понижающего микширования 2. optional variation 2) Select a pair of signals where the signals have high proximity/similarity in their respective DirLoudMap => can be jointly represented by downmixing

- Поскольку возможно каскадное совместное кодирование сигналов, карта DirLoudMap, например, микшированного с понижением сигнала не обязательно соответствуют точечному источнику от одного направления (например, одному громкоговорителю), следовательно вклад в карту DirLoudMap, например, оценивается на основе параметров совместного кодирования. - Since cascaded joint coding of signals is possible, a DirLoudMap of eg a downmix signal does not necessarily correspond to a point source from one direction (eg a single speaker), hence the contribution to a DirLoudMap eg is estimated based on the joint coding parameters.

- Карта DirLoudMap общей сцены может быть вычислена через некоторое понижающее микширование или бинаурализацию, которые учитывают направления сигналов. - The DirLoudMap of the overall scene can be computed through some kind of downmix or binauralization that takes into account signal directions.

5. Параметрический аудиокодек (вариант осуществления 5) на основе направленной громкости5. Parametric Audio Codec (Embodiment 5) Based on Directional Loudness

- передает, например, карту направленной громкости сцены --> передается как вспомогательная информация в параметрической форме- transmits, for example, a map of the directional volume of the scene --> is transmitted as auxiliary information in parametric form

1. «стиль PCM» = квантованные значения по направлениям 1. "PCM style" = quantized values across directions

2. центральное положение + линейные градиенты для левой/правой стороны 2. center position + linear gradients for left/right side

3. полиномиальное или сплайновое представление3. polynomial or spline representation

- передает, например, один сигнал, или меньше сигналов, или эффективную передачу, - transmits, for example, one signal, or fewer signals, or efficient transmission,

1. факультативная модификация 1) передает параметризованную целевую карту DirLoudMap сцены+1 канал с понижающим микшированием 1. optional modification 1) passes parameterized target scene map DirLoudMap + 1 downmix channel

2. факультативная модификация 2) передает несколько сигналов, каждый с ассоциированной картой DirLoudMap 2. optional modification 2) transmits multiple signals, each with an associated DirLoudMap

3. факультативная модификация 3) передает общую целевую карту DirLoudMap и несколько сигналов плюс параметрический относительный вклад в общую карту DirLoudMap 3. optional modification 3) passes a common target DirLoudMap and several signals plus a parametric relative contribution to the common DirLoudMap

- синтезирует, например, полную аудиосцену на основе переданного сигнала, на основе карты направленной громкости сцены.- synthesizes , for example, a complete audio scene based on the transmitted signal, based on the directional volume map of the scene.

Направленная громкость для аудиокодированияDirectional volume for audio coding

Введение и определенияIntroduction and definitions

DirLoudMap=Карта направленной громкостиDirLoudMap=Directional Loudness Map

Вариант осуществления для вычисления карты DirLoudMap:Implementation for DirLoudMap calculation:

a) выполнить частотно-временную декомпозицию (+ группировку в критические частотные полосы (CB)) (например, с помощью набора фильтров, преобразованием STFT, ...) a) perform time-frequency decomposition (+ grouping into critical frequency bands (CB)) (e.g. with filter bank, STFT transform, ...)

b) выполнить функцию анализа направления для каждой частотно-временной ячейки b) perform a direction analysis function for each time-frequency cell

c) ввести/накопить результат пункта b) в гистограмме карты DirLoudMap факультативно (при необходимости применения): c) enter/accumulate the result of point b) in the histogram of the DirLoudMap map optionally (if necessary):

d) обобщить выходные данные по критическим частотным полосам (CB), чтобы обеспечить широкополосную карту DirLoudMap d) Summarize the output over critical frequency bands (CB) to provide a broadband DirLoudMap

Вариант осуществления уровня карты DirLoudMap/функции анализа направления:DirLoudMap map layer implementation/direction analysis function:

- Уровень 1 (факультативный): Направления вклада в карты в соответствии с пространственным положением воспроизведения сигналов (каналов/объектов) - (без знания об используемом содержании сигнала). Использует функцию анализа направления, учитывающую только направление воспроизведения канала/объекта +/- направление воспроизведения окна расширения L1 канала/объекта +/- окно расширения (может быть широкополосным, т.е. одинаковым для всех частот), - Level 1 (optional): Contribution directions to maps according to the spatial position of signal reproduction (channels/objects) - (without knowledge of signal content used). Uses the direction analysis function considering only the playback direction of the channel/object +/- the playback direction of the L1 expansion window of the channel/object +/- the expansion window (can be wideband, i.e. the same for all frequencies),

- Уровень 2 (факультативный): Направления вклада в карты в соответствии с пространственным положением воспроизведения сигналов (каналов/объектов) плюс *динамическая* функция содержания сигналов каналов/объектов (функция анализа направления) разных уровней сложности. - Level 2 (optional): Map input directions according to the spatial position of signal reproduction (channels/features) plus *dynamic* channel/feature signal content function (direction analysis function) of different complexity levels.

Позволяет идентифицироватьAllows you to identify

факультативно L2a): панорамированные фантомные источники (-> индекс панорамирования) [уровень], или факультативно L2b) задержка уровень+время панорамированные фантомные источники [уровень и время], или факультативно L2c) расширенные (декоррелированные) панорамированные фантомные (еще более усовершенствованные) источникиoptional L2a): panned phantom sources (-> pan index) [level], or optional L2b) delay level+time panned phantom sources [level and time], or optional L2c) extended (decorrelated) panned phantom sources (even more advanced)

Применения для перцептивного аудиокодированияApplications for Perceptual Audio Coding

Вариант осуществления A) маскирование каждого канала/объекта - нет инструментов совместного кодирования -> цель: управление шумом квантования кодера (таким образом, что первоначальная и кодированная/декодированная карта DirLoudMap отклоняются менее определенного порогового значения, т.е. целевого критерия в области карт DirLoudMap),Embodiment A) per-channel/object masking - no joint coding tools -> goal: encoder quantization noise control (such that the original and encoded/decoded DirLoudMap deviate less than a certain threshold, i.e. a target criterion in the area of DirLoudMap maps ),

Вариант осуществления B) маскирование каждого канала/объекта - инструменты совместного кодирования (например, M/S+предсказание, MCT)Embodiment B) per channel/object concealment - joint coding tools (e.g. M/S+prediction, MCT)

-> цель: управление шумом квантования кодера в обработанных инструментом сигналах (например, M или сигнал вращаемой «суммы»), чтобы соответствовать целевому критерию в области карт DirLoudMap-> target: control of encoder quantization noise in instrument-processed signals (e.g. M or rotated "sum" signal) to meet target criterion in DirLoudMap map area

Пример для B)Example for B)

1) вычислить общую карту DirLoudMap на основе всех сигналов 1) calculate the overall DirLoudMap based on all signals

2) применить инструменты совместного кодирования 2) apply collaborative coding tools

3) определить вклад обработанных инструментом сигналов (например, «сумма» и «разность») к карте DirLoudMap с учетом функции декодирования (например, панорамирование посредством вращения/предсказания) 3) determine the contribution of the signals processed by the tool (for example, "sum" and "difference") to the DirLoudMap map, taking into account the decoding function (for example, panning by rotation / prediction)

4) управлять квантованием посредством4) control quantization through

a) учета влияния шума квантования на карту DirLoudMap a) taking into account the influence of quantization noise on the DirLoudMap

b) учета нулевых значений квантования частей сигнала в карте DirLoudMap b) accounting for zero quantization values of signal parts in the DirLoudMap map

Вариант осуществления C) Управление применением (например, вкл/выкл MS) и/или параметрами (например, коэффициентом предсказания) инструментов совместного кодированияEmbodiment C) Controlling the application (eg, MS on/off) and/or parameters (eg, prediction coefficient) of the joint coding tools

цель: управление параметрами кодера/декодера инструментов совместного кодирования для соответствия целевому критерию в области карт DirLoudMappurpose: control the encoder/decoder parameters of the collaborative encoding tools to match the target criteria in the DirLoudMap map area

Примеры для C)Examples for C)

- управлять принятием решения вкл/выкл M/S на основе карты DirLoudMap - manage decision making on/off M/S based on DirLoudMap map

- управлять сглаживанием зависящих от частоты коэффициентов предсказания на основе влияния изменения параметров на карту DirLoudMap - control the smoothing of frequency-dependent prediction coefficients based on the effect of changing parameters on the DirLoudMap map

(для более дешевого дифференциального кодирования параметров) (for cheaper differential parameter coding)

(= управление компромиссом между вспомогательной информацией и точностью предсказания) (= managing the trade-off between ancillary information and prediction accuracy)

Вариант осуществления D) определить параметры (вкл/выкл, ILD, ...) инструментов *параметрического* совместного кодирования (например, интенсивности стерео)Option D) define parameters (on/off, ILD, ...) of *parametric* joint coding tools (e.g. stereo intensity)

-> цель: Управление параметром инструмента параметрического совместного кодирования для соответствия целевому критерию в области карт DirLoudMap-> target: Control parameter of parametric collaborative encoding tool to match target criteria in DirLoudMap map area

Вариант осуществления E) Параметрическая система кодера/декодера, передающая карту DirLoudMap как вспомогательную информацию (а не традиционные пространственные ориентиры, например, ILD, ITD/IPD, ICC, ...)Embodiment E) Parametric encoder/decoder system transmitting a DirLoudMap as ancillary information (rather than traditional spatial landmarks e.g. ILD, ITD/IPD, ICC, ...)

-> Кодер определяет параметры на основе анализа карты DirLoudMap, формирует микшированный с понижением сигнал(ы) и параметры (битового потока), например, общую карту DirLoudMap+вклад каждого сигнала в карту DirLoudMap -> Encoder determines parameters based on analysis of DirLoudMap, generates downmixed signal(s) and parameters (bitstream), e.g. overall DirLoudMap+contribution of each signal to DirLoudMap

-> Декодер синтезирует переданную карту DirLoudMap подходящими средствами -> The decoder synthesizes the transmitted DirLoudMap by suitable means

Вариант осуществления F) Снижение сложности декодера/модуля рендеринга/преобразователя форматаEmbodiment F) Reducing Decoder/Renderer/Format Converter Complexity

Определить вклад каждого сигнала в общую карту DirLoudMap (возможно, на основе переданной вспомогательной информации), чтобы определить «важность» каждого сигнала. В применениях с ограниченной вычислительной способностью пропускать декодирование/рендеринг сигналов, вклад которых в карту DirLoudMap ниже порогового значения. Determine the contribution of each signal to the overall DirLoudMap (perhaps based on the passed auxiliary information) to determine the "importance" of each signal. In applications with limited computing power, skip decoding/rendering of signals whose contribution to the DirLoudMap is below a threshold.

Общие этапы для вычисления карты направленной громкости (DirLoudMap)General Steps for Computing a Directional Loudness Map (DirLoudMap)

Это, например, действительно для любой реализации: (например, описание фиг. 3a и/или фиг. 4a)This is for example valid for any implementation: (eg description of Fig. 3a and/or Fig. 4a)

a) Выполнить частотно-временную декомпозицию нескольких входных аудиосигналов.a) Perform time-frequency decomposition of multiple input audio signals.

- факультативно: группировка спектральных компонентов в частотные полосы обработки относительно частотного разрешения слуховой системы человека (HAS) - optional: grouping of spectral components into processing frequency bands relative to the frequency resolution of the human auditory system (HAS)

- факультативно: взвешивание в соответствии с чувствительностью HAS в различных частотных областях (например, передаточная функция внешнего/среднего уха) - optional: weighting according to HAS sensitivity in different frequency domains (e.g. outer/middle ear transfer function)

-> результат: частотно-временные ячейки (например, представления в спектральной области, спектральные полосы, спектральные интервалы, …) -> result: time-frequency bins (e.g. spectral domain representations, spectral bands, spectral intervals, …)

Для (FOR) нескольких (например, каждых) частотных полос (контуров):For (FOR) several (for example, each) frequency bands (contours):

b) Вычислить, например, направленную аналитическую функцию на частотно-временных ячейках нескольких входных аудиоканалов-> результат: направление d (например, направление

Figure 00000020
или направление панорамирования
Figure 00000002
).b) Calculate, for example, a directional analytic function on the frequency-time cells of several audio input channels-> result: direction d (for example, the direction
Figure 00000020
or pan direction
Figure 00000002
).

c) Вычислить, например, громкость на частотно-временных ячейках нескольких входных аудиоканалов c) Calculate, for example, the loudness on the frequency-time cells of several input audio channels

-> результат: громкость L -> result: volume L

- Вычисление громкости может представлять собой просто энергию, или - конкретнее - энергию (или по модели Цвикера: альфа=0,25-0,27) - Loudness calculation can be just energy, or more specifically energy (or Zwicker model: alpha=0.25-0.27)

d.a) например, ввести/накопить вклад l в карту DirLoudMap под направлением d d.a) for example, enter/accumulate contribution l to DirLoudMap under direction d

- Факультативно: расширение (индекс панорамирования: оконная обработка) l распределений между смежными направлениями - Optional: Expanding (panning index: windowing) l distributions between adjacent directions

конец для (END FOR)end for (END FOR)

факультативно (при необходимо для применения): вычислить широкополосную карту DirLoudMapoptional (if necessary for the application): compute a broadband DirLoudMap

d.b) обобщить карту DirLoudMap по нескольким (избегать: по всем) частотным полосам, чтобы обеспечить широкополосную карту DirLoudMap, указывающую «активность» аудиоданных в зависимости от направления/пространства d.b) generalize the DirLoudMap over multiple (avoid: over all) frequency bands to provide a broadband DirLoudMap indicating "activity" of audio data depending on direction/space

Пример: Восстановление направленных сигналов с помощью функции оконной обработки/выбора, полученной из индекса панорамирования (описание фиг. 6) Example: Restoring Directional Signals with a Windowing/Selection Function Obtained from a Pan Index (Description of FIG. 6)

Сигналы левого (см. фиг. 6a; красный цвет) и правого (см. фиг. 6b; синий цвет) каналов, например, показаны на фиг. 6a и фиг. 6b. Полосы могут представлять собой интервалы DFT (дискретного преобразования Фурье) целого спектра, критические частотные полосы (группы частотных интервалов), или интервалы DFT в пределах критической частотной полосы и т.д.The signals of the left (see Fig. 6a; red) and right (see Fig. 6b; blue) channels, for example, are shown in Figs. 6a and FIG. 6b. Bands may be DFT (Discrete Fourier Transform) intervals of the entire spectrum, critical frequency bands (groups of frequency intervals), or DFT intervals within a critical frequency band, and so on.

Критериальная функция произвольным образом определена как:

Figure 00000061
.The criterion function is arbitrarily defined as:
Figure 00000061
.

Критерий, например, представляет собой «направление панорамирования в соответствии с уровнем». Например, уровень каждого или более интервалов FFT.The criterion, for example, is "panning direction according to level". For example, the level of each or more FFT intervals.

a) Из критериальной функции мы можем извлечь оконную функцию/функцию взвешивания, которая выбирает соответствующие частотные интервалы/спектральные группы/компоненты и восстанавливает направленные сигналы. Таким образом, входной спектр (например, L и R) будет умножен на различные оконные функции

Figure 00000062
(одна оконная функция на каждое направление панорамирования
Figure 00000026
).a) From the criterion function, we can extract a window/weighting function that selects the appropriate frequency intervals/spectral groups/components and reconstructs the directional signals. So the input spectrum (e.g. L and R) will be multiplied by different window functions
Figure 00000062
(one window function per pan direction
Figure 00000026
).

b) Из оценочной функции мы получаем различные направления, ассоциированные с различными значениям

Figure 00000017
(т.е. отношениями уровней между L и R).b) From the evaluation function we get different directions associated with different values
Figure 00000017
(i.e. the ratio of levels between L and R).

Для восстановления сигналов с использованием способа a)To recover signals using method a)

Пример 1) Центральное направления панорамирования,

Figure 00000063
(содержит полосы, только имеющие соотношение
Figure 00000064
. Это направленный сигнал (см. фиг. 6a1 и фиг. 6b1).Example 1) Pan center direction,
Figure 00000063
(contains bands only having the ratio
Figure 00000064
. This is a directional signal (see Fig. 6a1 and Fig. 6b1).

Пример 2) Направление панорамирования немного смещено влево,

Figure 00000065
(содержит только полосы, которые имеют соотношение
Figure 00000066
. Это направленный сигнал (см. фиг. 6a2 и рис. 6b2).Example 2) The panning direction is slightly shifted to the left,
Figure 00000065
(contains only bands that have the ratio
Figure 00000066
. This is a directional signal (see Fig. 6a2 and Fig. 6b2).

Пример 3) Направление панорамирования немного смещено вправо,

Figure 00000067
(содержит только полосы, которые имеют соотношение
Figure 00000068
, это направленный сигнал (см. фиг. 6a3.1 и фиг. 6b3.1).Example 3) The panning direction is slightly shifted to the right,
Figure 00000067
(contains only bands that have the ratio
Figure 00000068
, this is a directional signal (see Fig. 6a3.1 and Fig. 6b3.1).

Критериальная функция может быть произвольным образом определена как уровень каждого интервала DFT, энергия для группы интервалов DFT (критическая частотная полоса)

Figure 00000069
или громкость для каждой критической частотной полосы
Figure 00000070
. Для разных применений возможны различные критерии.Criteria function can be arbitrarily defined as the level of each DFT interval, the energy for a group of DFT intervals (critical frequency band)
Figure 00000069
or loudness for each critical frequency band
Figure 00000070
. Different criteria are possible for different applications.

Взвешивание (факультативно)Weigh-in (optional)

Примечание: не следует путать с взвешиванием с помощью передаточной функции внешнего/среднего уха (периферийная модель), которая взвешивает, например, критические полосы. Note : Not to be confused with outer/middle ear transfer function weighting (peripheral model), which weights e.g. critical bands.

Взвешивание: факультативно вместо точного значения

Figure 00000026
используется допустимый диапазон и вес менее важных значений, которые отклоняются от
Figure 00000026
т.е. “извлечь все полосы, которые удовлетворяют соотношению 4/3 и передать их с весовым коэффициентом 1, находящиеся вблизи значения взвесить с коэффициентом меньше 1 -> для этого может использоваться гауссова функция. В упомянутых выше примерах направленные сигналы имели бы больше интервалов, взвешенных не со значением 1, а с меньшими значениями. Weighting: optional instead of exact value
Figure 00000026
the allowable range and weight of less important values that deviate from
Figure 00000026
those. “extract all bands that satisfy the 4/3 ratio and pass them with a weight factor of 1 that are close to the weight value with a factor less than 1 -> a gaussian function can be used for this. In the examples mentioned above, directional signals would have more intervals weighted not with a value of 1, but with smaller values.

Мотивация: взвешивание дает возможность «более гладкого» перехода между различными направленными сигналами, разделение является не настолько резким, поскольку имеется некоторая «утечка» среди различных направленных сигналов.Motivation: The weighting allows for a "smoother" transition between different directional signals, the separation is not as sharp as there is some "leakage" among the various directional signals.

Например 3), это может выглядеть, как показано на фиг. 6a3.2 и фиг. 6b3.2.For example 3), it may look as shown in FIG. 6a3.2 and fig. 6b3.2.

Варианты осуществления различных форм вычисления карт громкости с использованием обобщенных оценочных функцийEmbodiments of Various Forms of Computing Loudness Maps Using Generalized Evaluation Functions

Факультативный вариант 1: подход с использованием индекса панорамирования (см. фиг. 3a и фиг. 3b):Optional 1: pan index approach (see Fig. 3a and Fig. 3b):

Для (всех) различных

Figure 00000026
может быть собрана карта «значений» для этой функции во времени. Так называемая «карта направленной громкости» может быть построена в соответствии с одним из следующих примеров.For (all) different
Figure 00000026
a map of "values" for that function over time can be collected. A so-called "directional loudness map" can be constructed according to one of the following examples.

- Пример 1) с использованием критериальной функции «направления панорамирования в соответствии с уровнем отдельных интервалов FFT»

Figure 00000071
, таким образом, направленные сигналы, например, состоят из отдельных интервалов DFT. Затем, например, с использованием вычисления энергии в каждой критической полосе (группе интервалов DFT) для каждого направленного сигнала, и затем подъема этих энергий для каждой критической полосы с экспонентой 0,25 или подобной. -> аналогично главе «Объективная оценка качества пространственного звучания с использованием карт направленной громкости».- Example 1) using the criterion function "panning direction according to the level of the individual FFT intervals"
Figure 00000071
, thus directional signals , for example, consist of individual DFT intervals . Then, for example, using the calculation of the energy in each critical band (group of DFT intervals) for each directional signal, and then lifting these energies for each critical band with an exponent of 0.25 or similar. -> similar to the chapter "Objective assessment of the quality of spatial sound using directional loudness maps".

- Пример 2) Вместо оконной обработки амплитудного спектра можно выполнять оконную обработку спектра громкости. Направленные сигналы будут находиться уже в области громкости.- Example 2) Instead of windowing the amplitude spectrum, windowing the loudness spectrum can be performed. Directional signals will be already in the volume area.

- Пример 3) с использованием непосредственно критериальной функции «направления панорамирования в соответствии с громкостью каждой критической полосы»

Figure 00000072
. Тогда направленные сигналы будут состоять из участков целых критических полос, которые подчиняются значениям, заданным посредством
Figure 00000026
.- Example 3) using directly the criteria function "panning direction according to the loudness of each critical band"
Figure 00000072
. Then the directional signals will consist of sections of entire critical bands , which obey the values given by
Figure 00000026
.

Например, для

Figure 00000073
направленный сигнал может представлять собой:For example, for
Figure 00000073
directional signal can be:

Y= 1*critical_band_1+0,2*critical_band_2+0,001*critical_band_3.Y= 1*critical_band_1+0.2*critical_band_2+0.001*critical_band_3.

и различные комбинации применяются для других направлений/направленных сигналов панорамирования. Следует отметить, что в случае использования взвешивания разные направления панорамирования могут содержать одни и те же критические полосы, но скорее всего с разными значениями весового коэффициента. Если взвешивание не применяется, направленные сигналы являются взаимоисключающими.and different combinations apply for other directions/directional pan signals. It should be noted that when weighting is used, different pan directions may contain the same critical bands, but most likely with different values of the weight coefficient. If no weighting is applied , the directional signals are mutually exclusive .

Факультативный вариант 2: подход с использованием гистограммы (см. фиг. 4b):Optional 2: histogram approach (see Fig. 4b):

Это более общее описание общей направленной громкости. Оно не обязательно использует индекс панорамирования (т.е. не нужно восстанавливать «направленные сигналы» посредством оконной обработки спектра для вычисления громкости). Частотный спектр общей громкости «распределен» в соответствии с «проанализированным направлением» в соответствующей частотной области. Анализ направления может быть основан на разности уровней, временной разности или иметь другую форму.This is a more general description of overall directional loudness. It does not necessarily use a panning index (i.e., it is not necessary to reconstruct "directional signals" via spectrum windowing to calculate loudness). The frequency spectrum of the overall loudness is "distributed" according to the "analyzed direction" in the respective frequency domain. The direction analysis can be based on level difference , time difference , or take another form.

Для каждого временного кадра (см. рис. 5):For each time frame (see Fig. 5):

Разрешение гистограммы

Figure 00000074
будет задано, например, величиной значений, заданных множеству
Figure 00000026
. Например, это величина интервалов, доступных для группировки случаев
Figure 00000075
при оценке
Figure 00000017
во временном кадре. Например, значения накапливаются и сглаживаются по времени, возможно с «коэффициентом забывания»
Figure 00000076
:Histogram resolution
Figure 00000074
will be given, for example, by the magnitude of the values given to the set
Figure 00000026
. For example, this is the amount of intervals available for grouping cases
Figure 00000075
when evaluating
Figure 00000017
in a temporary frame. For example, values are accumulated and smoothed over time, possibly with a "forgetting factor"
Figure 00000076
:

Figure 00000077
,
Figure 00000077
,

где n - индекс временного кадра.where n is the index of the time frame.

Claims (81)

1. Аудиокодер (300) для кодирования (310) входного аудиосодержимого (112), содержащего один или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b),1. Audio encoder (300) for encoding (310) input audio content (112) containing one or more input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b), причем аудиокодер (300) выполнен с возможностью обеспечения одного или более кодированных аудиосигналов (320) на основе одного или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b) или одного или более полученных из них сигналов (110, 1101, 1102, 110a, 110b);moreover, the audio encoder (300) is configured to provide one or more encoded audio signals (320) based on one or more input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b) or one or more signals derived from them (110 , 110 1 , 110 2 , 110a, 110b); причем аудиокодер (300) выполнен с возможностью адаптации (340) параметров кодирования в зависимости от одной или более карт направленной громкости, которые представляют информацию (142, 1421, 1422, 142a, 142b) о громкости, ассоциированную с множеством различных направлений (121), из одного или более подлежащих кодированию сигналов.wherein the audio encoder (300) is configured to adapt (340) the encoding parameters depending on one or more directional loudness maps that represent loudness information (142, 142 1 , 142 2 , 142a, 142b) associated with a plurality of different directions (121 ), from one or more signals to be encoded. 2. Аудиокодер (300) по п. 1, причем аудиокодер (300) выполнен с возможностью адаптации (340) распределения битов между одним или более сигналами и/или параметрами, подлежащими кодированию, в зависимости от вкладов отдельных карт направленной громкости одного или более сигналов и/или параметров, подлежащих кодированию, в общую карту (142, 1421, 1422, 142a, 142b) направленной громкости.2. Audio encoder (300) according to claim 1, wherein the audio encoder (300) is configured to adapt (340) the bit distribution between one or more signals and/or parameters to be encoded depending on the contributions of individual directional loudness maps of one or more signals and/or parameters to be encoded into a general map (142, 142 1 , 142 2 , 142a, 142b) of directional loudness. 3. Аудиокодер (300) по п. 1, причем аудиокодер (300) выполнен с возможностью запрещения кодирования (310) определённого одного из подлежащих кодированию сигналов, когда вклады отдельной карты направленной громкости определённого одного из подлежащих кодированию сигналов в общую карту направленной громкости ниже порогового значения.3. The audio encoder (300) according to claim 1, wherein the audio encoder (300) is configured to prohibit encoding (310) of a certain one of the signals to be encoded when the contributions of an individual directional loudness map of a certain one of the signals to be encoded to the overall directional loudness map are below a threshold values. 4. Аудиокодер (300) по п. 1, причем аудиокодер (300) выполнен с возможностью адаптации (342) точности квантования одного или более подлежащих кодированию сигналов в зависимости от вкладов отдельных карт направленной громкости одного или более подлежащих кодированию сигналов в общую карту направленной громкости.4. The audio encoder (300) according to claim 1, wherein the audio encoder (300) is configured to adapt (342) the quantization accuracy of one or more signals to be encoded depending on the contributions of individual directional loudness maps of one or more signals to be encoded to the overall directional loudness map . 5. Аудиокодер (300) по п. 1, причем аудиокодер (300) выполнен с возможностью квантования (312) представлений (110, 1101, 1102, 110a, 110b) в спектральной области одного или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b) или одного или более полученных из них сигналов (110, 1101, 1102, 110a, 110b) с использованием одного или более параметров квантования для получения одного или более квантованных представлений (313) в спектральной области;5. The audio encoder (300) according to claim 1, wherein the audio encoder (300) is configured to quantize (312) representations (110, 110 1 , 110 2 , 110a, 110b) in the spectral domain of one or more input audio signals (112, 112 1 . _ _ _ spectral region; причем аудиокодер (300) выполнен с возможностью регулирования (342) одного или более параметров квантования в зависимости от одной или более карт направленной громкости, которые представляют информацию (142, 1421, 1422, 142a, 142b) о громкости, ассоциированную с множеством различных направлений (121) одного или более подлежащих квантованию сигналов для адаптации формирования одного или более кодированных аудиосигналов (320); иwherein the audio encoder (300) is configured to adjust (342) one or more quantization parameters depending on one or more directional loudness maps that represent loudness information (142, 142 1 , 142 2 , 142a, 142b) associated with a plurality of different directions (121) of one or more signals to be quantized to adapt the generation of one or more encoded audio signals (320); And причем аудиокодер (300) выполнен с возможностью кодирования одного или более квантованных представлений (313) в спектральной области для получения одного или более кодированных аудиосигналов (320).wherein the audio encoder (300) is configured to encode one or more quantized representations (313) in the spectral domain to obtain one or more encoded audio signals (320). 6. Аудиокодер (300) по п. 5, причем аудиокодер (300) выполнен с возможностью регулирования (342) одного или более параметров квантования в зависимости от вкладов отдельных карт направленной громкости одного или более подлежащих квантованию сигналов в общую карту направленной громкости.6. The audio encoder (300) of claim 5, wherein the audio encoder (300) is configured to adjust (342) one or more quantization parameters depending on the contributions of the individual directional loudness maps of the one or more signals to be quantized to the overall directional loudness map. 7. Аудиокодер (300) по п. 5, причем аудиокодер (300) выполнен с возможностью определения общей карты направленной громкости на основе входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b) таким образом, что общая карта направленной громкости представляет информацию (142, 1421, 1422, 142a, 142b) о громкости, ассоциированную с различными направлениями (121) аудиосцены, представленной входными аудиосигналами (112, 1121, 1122, 1123, 112a, 112b).7. The audio encoder (300) of claim 5, wherein the audio encoder (300) is configured to determine an overall directional loudness map based on the input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b) such that the overall map directional loudness represents loudness information (142, 142 1 , 142 2 , 142a, 142b) associated with different directions (121) of the audio scene represented by the input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b). 8. Аудиокодер (300) по п. 5, в котором один или более подлежащих квантованию сигналов ассоциированы с различными направлениями (121), или ассоциированы с различными громкоговорителями, или ассоциированы с различными звуковыми объектами.8. The audio encoder (300) of claim 5, wherein the one or more signals to be quantized are associated with different directions (121), or are associated with different speakers, or are associated with different audio objects. 9. Аудиокодер (300) по п. 5, в котором подлежащие квантованию сигналы содержат компоненты совместного многосигнального кодирования двух или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b).9. The audio encoder (300) of claim 5, wherein the signals to be quantized comprise joint multi-signal coding components of two or more input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b). 10. Аудиокодер (300) по п. 5, причем аудиокодер (300) выполнен с возможностью оценки вклада разностного сигнала совместного многосигнального кодирования в общую карту направленной громкости и регулирования (342) в зависимости от него одного или более параметров квантования.10. The audio encoder (300) of claim 5, wherein the audio encoder (300) is configured to estimate the contribution of the joint multi-signal coding difference signal to the overall directional loudness map and control (342) one or more quantization parameters depending on it. 11. Аудиокодер (300) по п. 1, 11. Audio encoder (300) according to claim 1, причем аудиокодер (300) выполнен с возможностью адаптации (340) распределения битов между одним или более сигналами и/или параметрами, подлежащими кодированию отдельно для различных спектральных интервалов или отдельно для различных частотных полос; и/илиmoreover, the audio encoder (300) is configured to adapt (340) the distribution of bits between one or more signals and/or parameters to be encoded separately for different spectral intervals or separately for different frequency bands; and/or причем аудиокодер (300) выполнен с возможностью адаптации (342) точности квантования одного или более подлежащих кодированию сигналов отдельно для различных спектральных интервалов или отдельно для различных частотных полос.moreover, the audio encoder (300) is configured to adapt (342) the quantization accuracy of one or more signals to be encoded separately for different spectral intervals or separately for different frequency bands. 12. Аудиокодер (300) по п. 1,12. Audio encoder (300) according to claim 1, причем аудиокодер (300) выполнен с возможностью адаптации (340) распределения битов между одним или более сигналами и/или параметрами, подлежащими кодированию в зависимости от оценки пространственного маскирования между двумя или более подлежащими кодированию сигналами,moreover, the audio encoder (300) is configured to adapt (340) the distribution of bits between one or more signals and/or parameters to be encoded depending on the estimate of the spatial masking between two or more signals to be encoded, причем аудиокодер (300) выполнен с возможностью оценки пространственного маскирования на основе карт направленной громкости, ассоциированных с двумя или более подлежащими кодированию сигналами.wherein the audio encoder (300) is configured to estimate spatial concealment based on directional loudness maps associated with two or more signals to be encoded. 13. Аудиокодер (300) по п. 12, причем аудиокодер (300) выполнен с возможностью оценки эффекта маскирования вклада (132, 1321, 1322, 1351, 1352) громкости, ассоциированного с первым направлением первого подлежащего кодированию сигнала, на вклад (132, 1321, 1322, 1351, 1352) громкости, ассоциированный со вторым направлением второго подлежащего кодированию сигнала.13. The audio encoder (300) of claim 12, wherein the audio encoder (300) is configured to estimate the effect of masking the loudness contribution (132, 132 1 , 132 2 , 135 1 , 135 2 ) associated with the first direction of the first signal to be encoded on the loudness contribution (132, 132 1 , 132 2 , 135 1 , 135 2 ) associated with the second direction of the second signal to be encoded. 14. Аудиокодер (300) по п. 1, 14. Audio encoder (300) according to claim 1, причем аудиокодер (300) содержит модуль (100) анализа аудиоданных,wherein the audio encoder (300) comprises an audio data analysis module (100), причем модуль (100) анализа аудиоданных выполнен с возможностью получения представлений (110, 1101, 1102, 110a, 110b) в спектральной области двух или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b);moreover, the audio data analysis module (100) is configured to obtain representations (110, 110 1 , 110 2 , 110a, 110b) in the spectral region of two or more input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b); причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (122, 1221, 1222, 125, 127) о направлении, ассоциированной со спектральными полосами представлений (110, 1101, 1102, 110a, 110b) в спектральной области;moreover, the audio data analysis module (100) is configured to obtain information (122, 122 1 , 122 2 , 125, 127) about the direction associated with the spectral bands of representations (110, 110 1 , 110 2 , 110a, 110b) in the spectral region; причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (142, 1421, 1422, 142a, 142b) о громкости, ассоциированной с различными направлениями (121), в качестве результата анализа;moreover, the audio data analysis module (100) is configured to obtain information (142, 142 1 , 142 2 , 142a, 142b) about the loudness associated with different directions (121) as an analysis result; причем вклады (132, 1321, 1322, 1351, 1352) в информацию (142, 1421, 1422, 142a, 142b) о громкости определяются в зависимости от информации (122, 1221, 1222, 125, 127) о направлении;where the contributions (132, 132 1 , 132 2 , 135 1 , 135 2 ) to the information (142, 142 1 , 142 2 , 142a, 142b) about loudness are determined depending on the information (122, 122 1 , 122 2 , 125, 127) about direction; причём информация (142, 1421, 1422, 142a, 142b) о громкости, ассоциированная с различными направлениями (121), формирует карту направленной громкости.moreover, information (142, 142 1 , 142 2 , 142a, 142b) about loudness associated with different directions (121) forms a map of directional loudness. 15. Аудиокодер (300) по п. 1,15. Audio encoder (300) according to claim 1, причем аудиокодер (300) выполнен с возможностью адаптации (340) шума, вносимого кодером, в зависимости от одной или более карт направленной громкости.wherein the audio encoder (300) is configured to adapt (340) the noise introduced by the encoder depending on one or more directional loudness maps. 16. Аудиокодер (300) по п. 15,16. Audio encoder (300) according to claim 15, причем аудиокодер (300) выполнен с возможностью использования отклонения между картой направленной громкости, которая ассоциирована с определённым не кодированным входным аудиосигналом, и картой направленной громкости, достижимой кодированной версией определённого входного аудиосигнала, в качестве критерия адаптации формирования определённого кодированного аудиосигнала.moreover, the audio encoder (300) is configured to use the deviation between the directional loudness map, which is associated with a certain unencoded input audio signal, and the directional loudness map, achievable by the encoded version of the certain input audio signal, as a criterion for adapting the generation of a certain encoded audio signal. 17. Аудиокодер (300) по п. 1,17. Audio encoder (300) according to claim 1, причем аудиокодер (300) выполнен с возможностью активации и деактивации инструмента совместного кодирования в зависимости от одной или более карт направленной громкости, которые представляют информацию (142, 1421, 1422, 142a, 142b) о громкости, ассоциированную с множеством различных направлений (121) одного или более подлежащих кодированию сигналов.wherein the audio encoder (300) is configured to activate and deactivate the joint coding tool depending on one or more directional loudness maps that represent loudness information (142, 142 1 , 142 2 , 142a, 142b) associated with a plurality of different directions (121 ) one or more signals to be encoded. 18. Аудиокодер (300) по п. 1,18. Audio encoder (300) according to claim 1, причем аудиокодер (300) выполнен с возможностью определения одного или более параметров инструмента совместного кодирования в зависимости от одной или более карт направленной громкости, которые представляют информацию (142, 1421, 1422, 142a, 142b) о громкости, ассоциированную с множеством различных направлений (121) одного или более подлежащих кодированию сигналов.wherein the audio encoder (300) is configured to determine one or more joint coding tool parameters depending on one or more directional loudness maps that represent loudness information (142, 142 1 , 142 2 , 142a, 142b) associated with a plurality of different directions (121) one or more signals to be coded. 19. Аудиокодер (300) по п. 1, 19. Audio encoder (300) according to claim 1, причем аудиокодер (300) выполнен с возможностью определения или оценки влияния вариации одного или более управляющих параметров, управляющих обеспечением одного или более кодированных аудиосигналов (320), на карту направленной громкости одного или более кодированных сигналов и регулирования одного или более управляющих параметров в зависимости от определения или оценки влияния.moreover, the audio encoder (300) is configured to determine or evaluate the effect of a variation of one or more control parameters that control the provision of one or more encoded audio signals (320) on a directional loudness map of one or more encoded signals and adjust one or more control parameters depending on the definition or impact assessments. 20. Аудиокодер (300) по п. 1,20. Audio encoder (300) according to claim 1, причем аудиокодер (300) выполнен с возможностью получения компонента направления, используемого для получения одной или более карт направленной громкости, с использованием метаданных, представляющих информацию о положении громкоговорителей, ассоциированных с входными аудиосигналами (112, 1121, 1122, 1123, 112a, 112b).moreover, the audio encoder (300) is configured to obtain a direction component used to obtain one or more directional loudness maps using metadata representing information about the position of the speakers associated with the input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b). 21. Аудиокодер (300) для кодирования (310) входного аудиосодержимого (112), содержащего один или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b),21. Audio encoder (300) for encoding (310) input audio content (112) containing one or more input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b), причем аудиокодер (300) выполнен с возможностью обеспечения одного или более кодированных аудиосигналов (320) на основе двух или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b) или на основе двух или более полученных из них сигналов (110, 1101, 1102, 110a, 110b) с использованием совместного кодирования (310) двух или более подлежащих совместному кодированию сигналов;moreover, the audio encoder (300) is configured to provide one or more encoded audio signals (320) based on two or more input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b) or based on two or more signals derived from them (110, 110 1 , 110 2 , 110a, 110b) using joint coding (310) of two or more signals to be jointly encoded; причем аудиокодер (300) выполнен с возможностью выбора (350) подлежащих совместному кодированию сигналов из множества возможных сигналов (110, 1101, 1102) или из множества пар возможных сигналов (110, 1101, 1102) в зависимости от карт направленной громкости, которые представляют информацию (142, 1421, 1422, 142a, 142b), ассоциированную с множеством различных направлений (121) возможных сигналов (110, 1101, 1102) или пар возможных сигналов (110, 1101, 1102).moreover, the audio encoder (300) is configured to select (350) signals to be jointly encoded from a plurality of possible signals (110, 110 1 , 110 2 ) or from a plurality of pairs of possible signals (110, 110 1 , 110 2 ) depending on the directional loudness maps , which represent information (142, 142 1 , 142 2 , 142a, 142b) associated with a plurality of different directions (121) of possible signals (110, 110 1 , 110 2 ) or pairs of possible signals (110, 110 1 , 110 2 ) . 22. Аудиокодер (300) по п. 21,22. Audio encoder (300) according to claim 21, причем аудиокодер (300) выполнен с возможностью выбора (350) подлежащих совместному кодированию сигналов из множества возможных сигналов (110, 1101, 1102) или из множества пар возможных сигналов (110, 1101, 1102) в зависимости от вкладов отдельных карт направленной громкости возможных сигналов (110, 1101, 1102) в общую карту направленной громкости или в зависимости от вкладов карт направленной громкости пар возможных сигналов (110, 1101, 1102) в общую карту направленной громкости.moreover, the audio encoder (300) is configured to select (350) the signals to be jointly encoded from a plurality of possible signals (110, 110 1 , 110 2 ) or from a plurality of pairs of possible signals (110, 110 1 , 110 2 ) depending on the contributions of individual maps directional loudness of possible signals (110, 110 1 , 110 2 ) into the general directional loudness map or depending on the contributions of the directional loudness maps of pairs of possible signals (110, 110 1 , 110 2 ) into the general directional loudness map. 23. Аудиокодер (300) по п. 21,23. Audio encoder (300) according to claim 21, причем аудиокодер (300) выполнен с возможностью определения вклада пар возможных сигналов (110, 1101, 1102) в общую карту направленной громкости; иmoreover, the audio encoder (300) is configured to determine the contribution of pairs of possible signals (110, 110 1 , 110 2 ) to the overall directional loudness map; And причем аудиокодер (300) выполнен с возможностью выбора одной или более пар возможных сигналов (110, 1101, 1102), имеющих наиболее высокий вклад в общую карту направленной громкости, для совместного кодирования (310), илиwherein the audio encoder (300) is configured to select one or more pairs of possible signals (110, 110 1 , 110 2 ) having the highest contribution to the overall directional loudness map for joint encoding (310), or причем аудиокодер (300) выполнен с возможностью выбора одной или более пар возможных сигналов (110, 1101, 1102), вклад которых в общую карту направленной громкости больше заданного порогового значения, для совместного кодирования (310).moreover, the audio encoder (300) is configured to select one or more pairs of possible signals (110, 110 1 , 110 2 ), whose contribution to the overall directional loudness map is greater than a given threshold value, for joint encoding (310). 24. Аудиокодер (300) по п. 21,24. Audio encoder (300) according to claim 21, причем аудиокодер (300) выполнен с возможностью определения отдельных карт направленной громкости двух или более возможных сигналов (110, 1101, 1102), иmoreover, the audio encoder (300) is configured to determine separate directional loudness maps of two or more possible signals (110, 110 1 , 110 2 ), and причем аудиокодер (300) выполнен с возможностью сравнения отдельных карт направленной громкости двух или более возможных сигналов (110, 1101, 1102), иmoreover, the audio encoder (300) is configured to compare individual directional loudness maps of two or more possible signals (110, 110 1 , 110 2 ), and причем аудиокодер (300) выполнен с возможностью выбора (350) двух или более из возможных сигналов (110, 1101, 1102) для совместного кодирования (310) в зависимости от результата сравнения.moreover, the audio encoder (300) is configured to select (350) two or more of the possible signals (110, 110 1 , 110 2 ) for joint encoding (310) depending on the result of the comparison. 25. Аудиокодер (300) по п. 21,25. Audio encoder (300) according to claim 21, причем аудиокодер (300) выполнен с возможностью определения общей карты направленной громкости с использованием понижающего микширования входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b) или с использованием бинаурализации входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b).moreover, the audio encoder (300) is configured to determine the overall directional loudness map using downmixing of the input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b) or using binauralization of the input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b). 26. Аудиокодер (300) для кодирования (310) входного аудиосодержимого (112), содержащего один или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b),26. Audio encoder (300) for encoding (310) input audio content (112) containing one or more input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b), причем аудиокодер (300) выполнен с возможностью обеспечения одного или более кодированных аудиосигналов (320) на основе двух или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b) или на основе двух или более полученных из них сигналов (110, 1101, 1102, 110a, 110b);moreover, the audio encoder (300) is configured to provide one or more encoded audio signals (320) based on two or more input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b) or based on two or more signals derived from them (110, 110 1 , 110 2 , 110a, 110b); причем аудиокодер (300) выполнен с возможностью определения общей карты направленной громкости на основе входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b) и/или определять одну или более отдельных карт направленной громкости, ассоциированных с отдельными входными аудиосигналами (112, 1121, 1122, 1123, 112a, 112b); иwherein the audio encoder (300) is configured to determine a common directional loudness map based on the input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b) and/or determine one or more separate directional loudness maps associated with individual input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b); And причем аудиокодер (300) выполнен с возможностью кодирования общей карты направленной громкости и/или одной или более отдельных карт направленной громкости в качестве вспомогательной информации.wherein the audio encoder (300) is configured to encode the overall directional loudness map and/or one or more individual directional loudness maps as side information. 27. Аудиокодер (300) по п. 26,27. Audio encoder (300) according to claim 26, причем аудиокодер (300) выполнен с возможностью определения общей карты направленной громкости на основе входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b) таким образом, что общая карта направленной громкости представляет информацию (142, 1421, 1422, 142a, 142b) о громкости, ассоциированную с различными направлениями (121) аудиосцены, представленной входными аудиосигналами (112, 1121, 1122, 1123, 112a, 112b).wherein the audio encoder (300) is configured to determine an overall directional loudness map based on the input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b) such that the overall directional loudness map represents information (142, 142 1 , 142 2 , 142a, 142b) about the loudness associated with different directions (121) of the audio scene represented by the input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b). 28. Аудиокодер (300) по п. 26,28. Audio encoder (300) according to claim 26, причем аудиокодер (300) выполнен с возможностью кодирования общей карты направленной громкости в виде множества значений, ассоциированных с различными направлениями (121); илиmoreover, the audio encoder (300) is configured to encode the overall directional loudness map as a set of values associated with different directions (121); or причем аудиокодер (300) выполнен с возможностью кодирования общей карты направленной громкости с использованием значения центрального положения и информации о градиенте; илиwherein the audio encoder (300) is configured to encode an overall directional loudness map using a center position value and gradient information; or причем аудиокодер (300) выполнен с возможностью кодирования общей карты направленной громкости в виде полиномиального представления; илиwherein the audio encoder (300) is configured to encode the overall directional loudness map as a polynomial representation; or причем аудиокодер (300) выполнен с возможностью кодирования общей карты направленной громкости в виде сплайнового представления.wherein the audio encoder (300) is configured to encode the overall directional loudness map as a spline representation. 29. Аудиокодер (300) по п. 26,29. Audio encoder (300) according to claim 26, причем аудиокодер (300) выполнен с возможностью кодирования одного микшированного с понижением сигнала, полученного на основе множества входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b) и общей карты направленной громкости; илиwherein the audio encoder (300) is configured to encode a single downmix signal derived from a plurality of input audio signals (112, 112 1 , 112 2 , 112 3 , 112a, 112b) and a common directional loudness map; or причем аудиокодер (300) выполнен с возможностью кодирования множества сигналов и кодирования отдельных карт направленной громкости множества кодируемых сигналов; илиmoreover, the audio encoder (300) is configured to encode a plurality of signals and encode individual directional loudness maps of a plurality of encoded signals; or причем аудиокодер (300) выполнен с возможностью кодирования общей карты направленной громкости, множества сигналов и параметров, описывающих вклады кодируемых сообщений в общую карту направленной громкости.wherein the audio encoder (300) is configured to encode the overall directional loudness map, a plurality of signals and parameters describing the contributions of the encoded messages to the overall directional loudness map. 30. Способ (3000) кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов,30. A method (3000) for encoding input audio content containing one or more input audio signals, причем способ содержит этап, на котором обеспечивают (3100) один или более кодированных аудиосигналов на основе одного или более входных аудиосигналов или одного или более полученных из них сигналов; иthe method comprising: providing (3100) one or more encoded audio signals based on one or more input audio signals or one or more signals derived from them; And причем способ содержит этап, на котором адаптируют (3200) формирование одного или более кодированных аудиосигналов в зависимости от одной или более карт направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений одного или более подлежащих кодированию сигналов.the method comprising adapting (3200) generating one or more encoded audio signals depending on one or more directional loudness maps that represent loudness information associated with a plurality of different directions of one or more signals to be encoded. 31. Способ (4000) кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов,31. A method (4000) for encoding input audio content containing one or more input audio signals, причем способ содержит этап, на котором обеспечивают (4100) один или более кодированных аудиосигналов на основе двух или более входных аудиосигналов или на основе двух или более полученных из них сигналов с использованием совместного кодирования двух или более подлежащих совместному кодированию сигналов; иthe method comprising: providing (4100) one or more encoded audio signals based on two or more input audio signals or based on two or more signals derived from them, using joint encoding of the two or more signals to be jointly encoded; And причем способ содержит выбор (4200) сигналов, подлежащих совместному кодированию, из множества возможных сигналов или из множества пар возможных сигналов в зависимости от карт направленной громкости, которые представляют информацию о громкости, ассоциированную с множеством различных направлений возможных сигналов или пар возможных сигналов.the method comprising selecting (4200) the signals to be jointly encoded from a plurality of possible signals or from a plurality of pairs of candidate signals depending on directional loudness maps that represent loudness information associated with a plurality of different directions of candidate signals or pairs of candidate signals. 32. Способ (5000) кодирования входного аудиосодержимого, содержащего один или более входных аудиосигналов,32. A method (5000) for encoding input audio content containing one or more input audio signals, причем способ содержит этап, на котором обеспечивают (5100) один или более кодированных аудиосигналов на основе двух или более входных аудиосигналов или на основе двух или более полученных из них сигналов;the method comprising: providing (5100) one or more encoded audio signals based on two or more input audio signals or based on two or more signals derived from them; причем способ содержит этап, на котором определяют (5200) общую карту направленной громкости на основе входных аудиосигналов и/или определяют одну или более отдельных карт направленной громкости, ассоциированных с отдельными входными аудиосигналами; иthe method comprising determining (5200) an overall directional loudness map based on the input audio signals and/or determining one or more separate directional loudness maps associated with the individual audio input signals; And причем способ содержит этап, на котором кодируют (5300) общую карту направленной громкости и/или одну или более отдельных карт направленной громкости в качестве вспомогательной информации.wherein the method comprises encoding (5300) a common directional loudness map and/or one or more individual directional loudness maps as side information. 33. Машиночитаемый носитель, на котором сохранена компьютерная программа, имеющая программный код для выполнения способа по п. 30, или 31, или 32 при его выполнении на компьютере.33. A computer-readable medium that stores a computer program having a program code for performing the method according to claim 30, or 31, or 32 when it is executed on a computer.
RU2022106060A 2018-10-26 2019-10-28 Audio data processing based on a directional volume map RU2798019C2 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP18202945.4 2018-10-26
EP18202945 2018-10-26
EP19169684.8 2019-04-16
EP19169684 2019-04-16

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2021114678A Division RU2771833C1 (en) 2018-10-26 2019-10-28 Processing of audio data based on a directional loudness map

Publications (2)

Publication Number Publication Date
RU2022106060A RU2022106060A (en) 2022-04-04
RU2798019C2 true RU2798019C2 (en) 2023-06-14

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487535B1 (en) * 1995-12-01 2002-11-26 Digital Theater Systems, Inc. Multi-channel audio encoder
US20060004583A1 (en) * 2004-06-30 2006-01-05 Juergen Herre Multi-channel synthesizer and method for generating a multi-channel output signal
US20140067404A1 (en) * 2012-09-04 2014-03-06 Apple Inc. Intensity stereo coding in advanced audio coding
US20160219390A1 (en) * 2013-09-12 2016-07-28 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
RU2617552C2 (en) * 2010-09-20 2017-04-25 Лексмарк Интернэшнл, Инк. Fuser for electrophotographic image forming device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487535B1 (en) * 1995-12-01 2002-11-26 Digital Theater Systems, Inc. Multi-channel audio encoder
US20060004583A1 (en) * 2004-06-30 2006-01-05 Juergen Herre Multi-channel synthesizer and method for generating a multi-channel output signal
RU2617552C2 (en) * 2010-09-20 2017-04-25 Лексмарк Интернэшнл, Инк. Fuser for electrophotographic image forming device
US20140067404A1 (en) * 2012-09-04 2014-03-06 Apple Inc. Intensity stereo coding in advanced audio coding
US20160219390A1 (en) * 2013-09-12 2016-07-28 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content

Similar Documents

Publication Publication Date Title
US7983922B2 (en) Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US9516446B2 (en) Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) Systems, methods, apparatus, and computer-readable media for audio object clustering
US20210383820A1 (en) Directional loudness map based audio processing
CN111316354B (en) Determination of target spatial audio parameters and associated spatial audio playback
US8612237B2 (en) Method and apparatus for determining audio spatial quality
TW201729180A (en) Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters
GB2572650A (en) Spatial audio parameters and associated spatial audio playback
JP2009533910A (en) Apparatus and method for generating an ambience signal
Narbutt et al. AMBIQUAL-a full reference objective quality metric for ambisonic spatial audio
WO2019170955A1 (en) Audio coding
TWI747095B (en) APPARATUS, METHOD AND COMPUTER PROGRAM FOR ENCODING, DECODING, SCENE PROCESSING AND OTHER PROCEDURES RELATED TO DirAC BASED SPATIAL AUDIO CODING USING DIFFUSE COMPENSATION
Delgado et al. Objective assessment of spatial audio quality using directional loudness maps
US9311925B2 (en) Method, apparatus and computer program for processing multi-channel signals
RU2798019C2 (en) Audio data processing based on a directional volume map
RU2771833C1 (en) Processing of audio data based on a directional loudness map
RU2793703C2 (en) Audio data processing based on a directional volume map
Baumgarte et al. Audio coder enhancement using scalable binaural cue coding with equalized mixing
Baumgarte et al. Design and evaluation of binaural cue coding schemes
RU2779415C1 (en) Apparatus, method, and computer program for encoding, decoding, processing a scene, and for other procedures associated with dirac-based spatial audio coding using diffuse compensation
Mouchtaris et al. Multichannel Audio Coding for Multimedia Services in Intelligent Environments
Tzagkarakis Multichannel Audio Modeling and Coding for Immersive Audio Based on the Sinusoidal Model