RU2803062C2 - Methods, apparatus and systems for expanding three degrees of freedom (3dof+) of mpeg-h 3d audio - Google Patents

Methods, apparatus and systems for expanding three degrees of freedom (3dof+) of mpeg-h 3d audio Download PDF

Info

Publication number
RU2803062C2
RU2803062C2 RU2020130112A RU2020130112A RU2803062C2 RU 2803062 C2 RU2803062 C2 RU 2803062C2 RU 2020130112 A RU2020130112 A RU 2020130112A RU 2020130112 A RU2020130112 A RU 2020130112A RU 2803062 C2 RU2803062 C2 RU 2803062C2
Authority
RU
Russia
Prior art keywords
listener
head
displacement
audio
information
Prior art date
Application number
RU2020130112A
Other languages
Russian (ru)
Other versions
RU2020130112A (en
Inventor
Кристоф ФЕРШ
Леон ТЕРЕНТИВ
Дэниел ФИШЕР
Original Assignee
Долби Интернешнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Интернешнл Аб filed Critical Долби Интернешнл Аб
Priority claimed from PCT/EP2019/058954 external-priority patent/WO2019197403A1/en
Publication of RU2020130112A publication Critical patent/RU2020130112A/en
Application granted granted Critical
Publication of RU2803062C2 publication Critical patent/RU2803062C2/en

Links

Abstract

FIELD: means for processing information.
SUBSTANCE: invention relates to means for processing information about the position of a sound object. The technical result consists in increasing the efficiency of representing the movement of the listening position relative to the sound object. Listener orientation information is obtained indicating the orientation of the listener's head. Listener offset information is received indicating the offset of the listener's head relative to the nominal listening position. The position of the object is determined from the position information. The position of the object is modified based on the information about the displacement of the listener by applying translational movement to the position of the object. Additionally, the modified position of the object is modified based on the information about the orientation of the listener. When the listener displacement information indicates a displacement of the listener's head from the nominal listening position due to a small position displacement (0.5 meters or less than 0.5 meters), the distance between the position of the sound object and the listening position after the displacement of the listener's head is equal to the distance between the modified position of the sound object and nominal listening position.
EFFECT: increasing the efficiency of representing the movement of the listening position relative to the sound object.
8 cl, 5 dwg

Description

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS REFERENCE TO RELATED APPLICATIONS

Данная заявка претендует на приоритет следующих приоритетных заявок: предварительная заявка США 62/654915 (ссылка: D18045USP1), поданная 9 апреля 2018 г.; предварительная заявка США 62/695446 (ссылка: D18045USP2), поданная 9 июля 2018 г., и предварительная заявка США 62/823159 (ссылка: D18045USP3), поданная 25 марта 2019 г., которые включены в данную заявку посредством ссылки.This application claims the benefit of the following priority applications: US Provisional Application 62/654915 (ref: D18045USP1), filed April 9, 2018; US Provisional Application 62/695446 (ref: D18045USP2), filed July 9, 2018, and US Provisional Application 62/823159 (ref: D18045USP3), filed March 25, 2019, which are incorporated herein by reference.

ОБЛАСТЬ ТЕХНИКИTECHNICAL FIELD

Настоящее изобретение относится к способам и аппарату для обработки информации о положении, указывающей положение звукового объекта, и информации, указывающей смещение положения головы слушателя.The present invention relates to methods and apparatus for processing position information indicating the position of an audio object and information indicating a displacement of the listener's head position.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION

В первом издании (15 октября 2015 г.) и редакциях стандарта ISO/IEC 23008-3 MPEG-H 3D Audio не представлено обеспечение небольших поступательных движений головы пользователя в среде трех степеней свободы (Three Degrees of Freedom, 3DoF).The first edition (October 15, 2015) and revisions of the ISO/IEC 23008-3 MPEG-H 3D Audio standard do not support small translational movements of the user's head in a Three Degrees of Freedom (3DoF) environment.

КРАТКОЕ ОПИСАНИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯBRIEF DESCRIPTION OF THE INVENTION

В первом издании (15 октября 2015 г.) и редакциях 1-4 стандарта ISO/IEC 23008-3 MPEG-H 3D Audio представлена функциональность для возможности среды 3DoF, где пользователь (слушатель) выполняет действия поворота головы. Однако такая функциональность в лучшем случае поддерживает только передачу сигнала о поворотном смещении сцены и соответствующий рендеринг. Это означает, что звуковая сцена может оставаться неподвижной в пространстве при изменении ориентации головы слушателя, что соответствует свойству 3DoF. Однако отсутствует возможность учета небольшого поступательного движения головы пользователя внутри настоящей экосистемы MPEG-H 3D Audio.The first edition (October 15, 2015) and revisions 1-4 of the ISO/IEC 23008-3 MPEG-H 3D Audio standard introduces functionality to enable a 3DoF environment where the user (listener) performs head-turning actions. However, such functionality at best only supports the transmission of a scene rotation signal and rendering accordingly. This means that the sound stage can remain stationary in space when the listener's head orientation changes, which corresponds to the 3DoF property. However, there is no way to account for slight forward motion of the user's head within a true MPEG-H 3D Audio ecosystem.

Таким образом, существует необходимость в способах и аппарате для обработки информации о положении звуковых объектов, которые могут учитывать небольшое поступательное движение головы пользователя потенциально в сочетании с поворотным движением головы пользователя.Thus, there is a need for methods and apparatus for processing information about the position of audio objects that can account for slight translational movement of the user's head, potentially in combination with rotational movement of the user's head.

В настоящем изобретении представлены аппарат и системы для обработки информации о положении, имеющие признаки соответствующих независимых и зависимых пунктов формулы изобретения.The present invention provides apparatus and systems for processing position information having the features of the corresponding independent and dependent claims.

Согласно одному аспекту настоящего изобретения описан способ обработки информации о положении, указывающей положение звукового объекта, причем обработка может быть совместима со стандартом MPEG-H 3D Audio. Положение объекта может быть использовано для рендеринга звукового объекта. Звуковой объект может быть включен в звуковое содержимое на основе объектов наряду с информацией о его положении. Информация о положении может представлять собой (часть) метаданные для звукового объекта. Звуковое содержимое (например, звуковой объект вместе с информацией о его положении) может быть передано в кодированном звуковом битовом потоке. Способ может включать прием звукового содержимого (например, кодированного звукового битового потока). Способ может включать получение информации об ориентации слушателя, указывающей ориентацию головы слушателя. Слушателя могут называть пользователем, например декодера, выполняющего способ. Ориентация головы слушателя (ориентация слушателя) может представлять собой ориентацию головы слушателя относительно номинальной ориентации. Способ может дополнительно включать получение информации о смещении слушателя, указывающей смещение головы слушателя. Смещение головы слушателя может представлять собой смещение относительно номинального положения прослушивания. Номинальное положение прослушивания (или номинальное положение слушателя) может представлять собой положение по умолчанию (например, заданное положение, ожидаемое положение для головы слушателя или зону наилучшего восприятия при расположении динамиков). Информация об ориентации слушателя и информация о смещении слушателя могут быть получены посредством входного интерфейса декодера MPEG-H 3D Audio. Информация об ориентации слушателя и информация о смещении слушателя могут быть выведены на основании информации от датчиков. Сочетание информации об ориентации и информации о положении могут называть информацией о позиции. Способ может дополнительно включать определение положения объекта из информации о положении. Например, положение объекта может быть извлечено из информации о положении. Определение (например, извлечение) положения объекта может быть дополнительно основано на информации относительно геометрии расположения динамиков одного или более динамиков в среде прослушивания. Положение объекта также могут называть положением канала звукового объекта. Способ может дополнительно включать модификацию положения объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта. Модификация положения объекта может относиться к корректировке положения объекта для смещения головы слушателя из номинального положения прослушивания. Иными словами, модификация положения объекта может относиться к применению компенсации смещения положения к положению объекта. Способ может также дополнительно включать дополнительную модификацию модифицированного положения объекта на основании информации об ориентации слушателя, например посредством применения поворотного преобразования к модифицированному положению объекта (например, поворот относительно головы слушателя или номинального положения прослушивания). Дополнительная модификация модифицированного положения объекта для рендеринга звукового объекта может включать поворотное смещение звуковой сцены.According to one aspect of the present invention, a method for processing position information indicating the position of an audio object is described, which processing may be compatible with the MPEG-H 3D Audio standard. The object's position can be used to render a sound object. An audio object may be included in object-based audio content along with information about its position. The position information may represent (part of) metadata for the audio object. Audio content (eg, an audio object along with its position information) may be conveyed in an encoded audio bitstream. The method may include receiving audio content (eg, an encoded audio bitstream). The method may include obtaining listener orientation information indicating the orientation of the listener's head. The listener may be referred to as a user, such as a decoder performing the method. The listener's head orientation (listener orientation) may represent the orientation of the listener's head relative to the nominal orientation. The method may further include obtaining listener displacement information indicating displacement of the listener's head. The listener's head displacement may represent a displacement relative to the nominal listening position. The nominal listening position (or nominal listening position) may be a default position (eg, a target position, an expected position for the listener's head, or a sweet spot for speaker placement). Listener orientation information and listener displacement information can be obtained through the input interface of the MPEG-H 3D Audio decoder. Listener orientation information and listener displacement information can be inferred based on information from the sensors. The combination of orientation information and position information may be called position information. The method may further include determining the position of an object from the position information. For example, the position of an object can be extracted from the position information. Determining (eg, retrieving) the position of an object may be further based on information regarding the speaker geometry of one or more speakers in the listening environment. The object position may also be referred to as the audio object channel position. The method may further include modifying the position of an object based on the listener's displacement information by applying a translational movement to the object's position. Object position modification may refer to adjusting the position of the object to move the listener's head from the nominal listening position. In other words, modifying the position of an object may refer to the application of position offset compensation to the position of the object. The method may also further include further modifying the modified object position based on the listener orientation information, such as by applying a rotational transformation to the modified object position (eg, rotation relative to the listener's head or nominal listening position). An additional modification to the modified object position for rendering the audio object may include rotating the sound stage.

Предложенный способ, приспособленный так, как описано выше, предоставляет более реалистичное ощущение от прослушивания, особенно для звуковых объектов, которые находятся вблизи головы слушателя. В дополнение к трем (поворотным) степеням свободы, обычно предлагаемым слушателю в среде 3DoF, в предложенном способе также могут учитывать поступательные движения головы слушателя. Это позволяет слушателю достигать близких звуковых объектов с разных углов и даже сторон. Например, слушатель может слушать звуковой объект «комар», который расположен вблизи головы слушателя, с разных углов за счет небольшого сдвига своей головы, возможно в дополнение к повороту его головы. В результате, предложенный способ может обеспечить улучшенное, более реалистичное, погружающее ощущение от прослушивания для слушателя.The proposed method, adapted as described above, provides a more realistic listening experience, especially for sound objects that are close to the listener's head. In addition to the three (rotational) degrees of freedom typically offered to the listener in a 3DoF environment, the proposed method can also take into account translational movements of the listener's head. This allows the listener to reach close sound objects from different angles and even sides. For example, a listener can listen to the sound object “mosquito”, which is located near the listener's head, from different angles by slightly moving his head, possibly in addition to turning his head. As a result, the proposed method can provide an improved, more realistic, immersive listening experience for the listener.

В некоторых вариантах осуществления модификация положения объекта и дополнительная модификация модифицированного положения объекта могут быть выполнены таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с дополнительным модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от смещения головы слушателя из номинального положения прослушивания и ориентации головы слушателя относительно номинальной ориентации. Соответственно, звуковой объект могут воспринимать как перемещающийся относительно головы слушателя, когда голова слушателя выполняет смещение из номинального положения прослушивания. Подобным образом, звуковой объект могут воспринимать как поворачивающийся относительно головы слушателя, когда голова слушателя выполняет изменение ориентации из номинальной ориентации. Один или более динамиков могут представлять собой, например, часть гарнитуры или могут представлять собой часть композиции динамиков (например, композиции динамиков 2.1, 5.1, 7.1 и т.д.).In some embodiments, the modification of the object position and the further modification of the modified object position may be performed such that the sound object, after rendering on one or more real or virtual speakers in accordance with the additional modified object position, is psychoacoustically perceived by the listener as arising from a fixed position relative to the nominal position listening regardless of the displacement of the listener's head from the nominal listening position and the orientation of the listener's head relative to the nominal orientation. Accordingly, the sound object may be perceived as moving relative to the listener's head when the listener's head makes a displacement from the nominal listening position. Likewise, a sound object may be perceived as rotating relative to the listener's head when the listener's head makes an orientation change from its nominal orientation. The one or more speakers may be part of a headset, for example, or may be part of a speaker arrangement (eg, a 2.1, 5.1, 7.1, etc. speaker arrangement).

В некоторых вариантах осуществления модификация положения объекта на основании информации о смещении слушателя может быть выполнена посредством поступательного перемещения положения объекта с использованием вектора, который положительно коррелирует с амплитудой и отрицательно коррелирует с направлением вектора смещения головы слушателя из номинального положения прослушивания.In some embodiments, modification of the object's position based on the listener's displacement information can be accomplished by translationally moving the object's position using a vector that is positively correlated with amplitude and negatively correlated with the direction of the listener's head displacement vector from the nominal listening position.

Таким образом, обеспечивают, что близкие звуковые объекты воспринимаются слушателем как перемещающиеся в соответствии с движением его головы. Это способствует более реалистичному ощущению от прослушивания этих звуковых объектов.In this way, it is ensured that nearby sound objects are perceived by the listener as moving in accordance with the movement of his head. This contributes to a more realistic listening experience for these sound objects.

В некоторых вариантах осуществления информация о смещении слушателя может указывать смещение головы слушателя из номинального положения прослушивания вследствие небольшого смещения положения. Например, абсолютное значение смещения может составлять не более 0,5 м. Смещение может быть выражено в декартовых координатах (например, х, у, z) или сферических координатах (например, азимут, угол подъема, радиус).In some embodiments, the listener displacement information may indicate a displacement of the listener's head from the nominal listening position due to a slight positional shift. For example, the absolute value of the offset may be no more than 0.5 m. The offset may be expressed in Cartesian coordinates (eg x, y, z) or spherical coordinates (eg azimuth, elevation, radius).

В некоторых вариантах осуществления информация о смещении слушателя может указывать смещение головы слушателя из номинального положения прослушивания, которое может быть достигнуто посредством движения верхней частью тела и/или головой слушателя. Таким образом, слушатель может осуществить смещение без движения нижней частью тела. Например, смещение головы слушателя может быть осуществлено, когда слушатель сидит на стуле.In some embodiments, the listener displacement information may indicate a displacement of the listener's head from the nominal listening position, which may be achieved by movement of the listener's upper body and/or head. In this way, the listener can perform the shift without moving the lower body. For example, displacement of the listener's head can be accomplished while the listener is sitting in a chair.

В некоторых вариантах осуществления информация о положении может содержать указание расстояния от звукового объекта до номинального положения прослушивания. Расстояние (радиус) может быть менее 0,5 м. Например, расстояние может составлять менее 1 см. Альтернативно расстояние от звукового объекта до номинального положения прослушивания может быть установлено на значение по умолчанию посредством декодера.In some embodiments, the position information may include an indication of the distance from the sound object to the nominal listening position. The distance (radius) may be less than 0.5 m. For example, the distance may be less than 1 cm. Alternatively, the distance from the sound object to the nominal listening position may be set to a default value by the decoder.

В некоторых вариантах осуществления информация об ориентации слушателя может содержать информацию о рыскании, тангаже и крене головы слушателя. Рыскание, тангаж, крен могут быть предоставлены относительно номинальной ориентации (например, исходной ориентации) головы слушателя.In some embodiments, the listener orientation information may include yaw, pitch, and head roll information of the listener. Yaw, pitch, roll may be provided relative to the nominal orientation (eg, home orientation) of the listener's head.

В некоторых вариантах осуществления информация о смещении слушателя может содержать информацию о смещении головы слушателя из номинального положения прослушивания, выраженную в декартовых координатах или сферических координатах. Таким образом, смещение может быть выражено в рамках координат х, у, z для декартовых координат и в рамках координат азимута, угла подъема, радиуса для сферических координат.In some embodiments, the listener displacement information may comprise information about the displacement of the listener's head from the nominal listening position, expressed in Cartesian coordinates or spherical coordinates. Thus, the displacement can be expressed in terms of x, y, z coordinates for Cartesian coordinates and in terms of azimuth, elevation, radius coordinates for spherical coordinates.

В некоторых вариантах осуществления способ может дополнительно включать обнаружение ориентации головы слушателя посредством носимого и/или стационарного оборудования. Подобным образом, способ может дополнительно включать обнаружение смещения головы слушателя из номинального положения прослушивания посредством носимого и/или стационарного оборудования. Носимое оборудование может представлять собой, соответствовать и/или включать, например, гарнитуру или гарнитуру для дополненной реальности (augmented reality, AR) / виртуальной реальности (virtual reality,VR). Стационарное оборудование может представлять собой, соответствовать и/или содержать, например, датчики-камеры. Это обеспечивает получение точной информации о смещении и/или ориентации головы слушателя и тем самым обеспечивает реалистичную обработку близких звуковых объектов в соответствии с ориентацией и/или смещением.In some embodiments, the method may further include detecting the listener's head orientation via wearable and/or fixed equipment. Likewise, the method may further include detecting movement of the listener's head from the nominal listening position through the wearable and/or fixed equipment. The wearable equipment may be, correspond to, and/or include, for example, an augmented reality (AR)/virtual reality (VR) headset or headset. The fixed equipment may be, correspond to and/or contain, for example, camera sensors. This provides accurate information about the displacement and/or orientation of the listener's head and thereby enables realistic processing of nearby sound objects according to the orientation and/or displacement.

В некоторых вариантах осуществления способ может дополнительно включать рендеринг звукового объекта на одном или более реальных или виртуальных динамиках в соответствии с дополнительно модифицированным положением объекта. Например, рендеринг звукового объекта может быть выполнен для левого и правого динамиков гарнитуры. В некоторых вариантах осуществления рендеринг могут выполнять с учетом акустического поглощения для небольших расстояний от звукового объекта до головы слушателя на основании функций моделирования восприятия звука (head-related transfer functions, HRTF) для головы слушателя. Таким образом, рендеринг близких звуковых объектов будет восприниматься слушателем как еще более реалистичный.In some embodiments, the method may further include rendering an audio object on one or more real or virtual speakers in accordance with a further modified position of the object. For example, rendering an audio object can be done for the left and right speakers of a headset. In some embodiments, rendering may be performed taking into account acoustic absorption for short distances from the sound object to the listener's head based on head-related transfer functions (HRTF) for the listener's head. This way, the rendering of nearby sound objects will be perceived as even more realistic by the listener.

В некоторых вариантах осуществления дополнительно модифицированное положение объекта могут отрегулировать для формата ввода, используемого модулем рендеринга MPEG-H 3D Audio. В некоторых вариантах осуществления рендеринг могут выполнять с использованием модуля рендеринга MPEG-H 3D Audio. В некоторых вариантах осуществления обработку могут выполнять с использованием декодера MPEG-H 3D Audio. В некоторых вариантах осуществления обработку могут выполнять посредством блока смещения сцены декодера MPEG-H 3D Audio. Соответственно, предложенный способ обеспечивает реализацию ограниченного ощущения шести степеней свободы (Six Degrees of Freedom, 6D0F) (т.e. 3DoF+) в рамках стандарта MPEG-H 3D Audio.In some embodiments, the further modified object position may be adjusted for the input format used by the MPEG-H 3D Audio renderer. In some embodiments, rendering may be performed using an MPEG-H 3D Audio renderer. In some embodiments, processing may be performed using an MPEG-H 3D Audio decoder. In some embodiments, processing may be performed by a scene shifter of an MPEG-H 3D Audio decoder. Accordingly, the proposed method provides the implementation of a limited sense of six degrees of freedom (Six Degrees of Freedom, 6D0F) (i.e. 3DoF+) within the MPEG-H 3D Audio standard.

Согласно другому аспекту настоящего изобретения описан дополнительный способ обработки информации о положении, указывающей положение объекта для звукового объекта. Положение объекта может быть использовано для рендеринга звукового объекта. Способ может включать получение информации о смещении слушателя, указывающую смещение головы слушателя. Способ может дополнительно включать определение положения объекта из информации о положении. Способ может также дополнительно включать модификацию положения объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта.According to another aspect of the present invention, an additional method for processing position information indicating the position of an object for an audio object is described. The object's position can be used to render a sound object. The method may include obtaining listener displacement information indicating displacement of the listener's head. The method may further include determining the position of an object from the position information. The method may also further include modifying the position of an object based on information about the listener's displacement by applying a translational movement to the position of the object.

Предложенный способ, приспособленный так, как описано выше, предоставляет более реалистичное ощущение от прослушивания, особенно для звуковых объектов, которые находятся вблизи головы слушателя. За счет возможности учета небольших поступательных движений головы слушателя предложенный способ позволяет слушателю достигать близких звуковых объектов с разных углов и даже сторон. В результате, предложенный способ может обеспечить улучшенное, более реалистичное, погружающее ощущение от прослушивания для слушателя.The proposed method, adapted as described above, provides a more realistic listening experience, especially for sound objects that are close to the listener's head. Due to the ability to take into account small translational movements of the listener's head, the proposed method allows the listener to reach close sound objects from different angles and even sides. As a result, the proposed method can provide an improved, more realistic, immersive listening experience for the listener.

В некоторых вариантах осуществления модификация положения объекта на основании информации о смещении слушателя может быть выполнена таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от смещения головы слушателя из номинального положения прослушивания.In some embodiments, modification of an object's position based on listener displacement information may be performed such that an audio object, after rendering on one or more real or virtual speakers in accordance with the modified object position, is psychoacoustically perceived by the listener as originating from a fixed position relative to the nominal listening position regardless of the listener's head displacement from the nominal listening position.

В некоторых вариантах осуществления модификация положения объекта на основании информации о смещении слушателя может быть выполнена посредством поступательного перемещения положения объекта с использованием вектора, который положительно коррелирует с амплитудой и отрицательно коррелирует с направлением вектора смещения головы слушателя из номинального положения прослушивания.In some embodiments, modification of the object's position based on the listener's displacement information can be accomplished by translationally moving the object's position using a vector that is positively correlated with amplitude and negatively correlated with the direction of the listener's head displacement vector from the nominal listening position.

Согласно другому аспекту настоящего изобретения описан дополнительный способ обработки информации о положении, указывающей положение объекта для звукового объекта. Положение объекта может быть использовано для рендеринга звукового объекта. Способ может включать получение информации об ориентации слушателя, указывающей ориентацию головы слушателя. Способ может дополнительно включать определение положения объекта из информации о положении. Способ может также дополнительно включать модификацию положения объекта на основании информации об ориентации слушателя, например посредством применения поворотного преобразования к положению объекта (например, поворот относительно головы слушателя или номинального положения прослушивания).According to another aspect of the present invention, an additional method for processing position information indicating the position of an object for an audio object is described. The object's position can be used to render a sound object. The method may include obtaining listener orientation information indicating the orientation of the listener's head. The method may further include determining the position of an object from the position information. The method may also further include modifying the position of an object based on the listener's orientation information, such as by applying a rotational transformation to the object's position (eg, rotation relative to the listener's head or nominal listening position).

Предложенный способ, приспособленный так, как описано выше, может учитывать ориентацию головы слушателя для обеспечения слушателю более реалистичного ощущения от прослушивания.The proposed method, adapted as described above, can take into account the orientation of the listener's head to provide the listener with a more realistic listening experience.

В некоторых вариантах осуществления модификация положения объекта на основании информации об ориентации слушателя может быть выполнена таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от ориентации головы слушателя относительно номинальной ориентации.In some embodiments, modification of an object's position based on listener orientation information may be performed such that an audio object, after rendering on one or more real or virtual speakers in accordance with the modified object position, is psychoacoustically perceived by the listener as originating from a fixed position relative to the nominal listening position regardless of the listener's head orientation relative to the nominal orientation.

Согласно другому аспекту настоящего изобретения описан аппарат для обработки информации о положении, указывающей положение объекта для звукового объекта. Положение объекта может быть использовано для рендеринга звукового объекта. Аппарат может содержать процессор и запоминающее устройство, соединенное с процессором. Процессор может быть приспособлен для получения информации об ориентации слушателя, указывающей ориентацию головы слушателя. Процессор может быть дополнительно приспособлен для получения информации о смещении слушателя, указывающей смещение головы слушателя. Процессор может быть дополнительно приспособлен для определения положения объекта из информации о положении. Процессор может быть дополнительно приспособлен для модификации положения объекта на основании информации о смещении слушателя посредством применения поступательного перемещения к положению объекта. Процессор может быть также дополнительно приспособлен для дополнительной модификации модифицированного положения объекта на основании информации об ориентации слушателя, например посредством применения поворотного преобразования к модифицированному положению объекта (например, поворот относительно головы слушателя или номинального положения прослушивания).According to another aspect of the present invention, an apparatus for processing position information indicating the position of an object for an audio object is described. The object's position can be used to render a sound object. The apparatus may include a processor and a storage device coupled to the processor. The processor may be adapted to receive listener orientation information indicating the orientation of the listener's head. The processor may be further adapted to receive listener displacement information indicative of the displacement of the listener's head. The processor may be further adapted to determine the position of an object from the position information. The processor may be further adapted to modify the position of an object based on the listener's displacement information by applying translational movement to the position of the object. The processor may also be further adapted to further modify the modified object position based on listener orientation information, for example by applying a rotational transformation to the modified object position (eg, rotation relative to the listener's head or nominal listening position).

В некоторых вариантах осуществления процессор может быть приспособлен для модификации положения объекта и дополнительной модификации модифицированного положения объекта таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с дополнительным модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от смещения головы слушателя из номинального положения прослушивания и ориентации головы слушателя относительно номинальной ориентации.In some embodiments, the processor may be adapted to modify the position of an object and further modify the modified object position such that an audio object, after rendering on one or more real or virtual speakers in accordance with the additional modified object position, is psychoacoustically perceived by the listener as arising from a fixed position relative to the nominal listening position, regardless of the displacement of the listener's head from the nominal listening position and the orientation of the listener's head relative to the nominal orientation.

В некоторых вариантах осуществления процессор может быть приспособлен для модификации положения объекта на основании информации о смещении слушателя посредством поступательного перемещения положения объекта с использованием вектора, который положительно коррелирует с амплитудой и отрицательно коррелирует с направлением вектора смещения головы слушателя из номинального положения прослушивания.In some embodiments, the processor may be adapted to modify the position of an object based on the listener's displacement information by progressively moving the object's position using a vector that is positively correlated with amplitude and negatively correlated with the direction of the vector of displacement of the listener's head from the nominal listening position.

В некоторых вариантах осуществления информация о смещении слушателя может указывать смещение головы слушателя из номинального положения прослушивания вследствие небольшого смещения положения.In some embodiments, the listener displacement information may indicate a displacement of the listener's head from the nominal listening position due to a slight positional shift.

В некоторых вариантах осуществления информация о смещении слушателя может указывать смещение головы слушателя из номинального положения прослушивания, которое может быть достигнуто посредством движения верхней частью тела и/или головой слушателя.In some embodiments, the listener displacement information may indicate a displacement of the listener's head from the nominal listening position, which may be achieved by movement of the listener's upper body and/or head.

В некоторых вариантах осуществления информация о положении может содержать указание расстояния от звукового объекта до номинального положения прослушивания.In some embodiments, the position information may include an indication of the distance from the sound object to the nominal listening position.

В некоторых вариантах осуществления информация об ориентации слушателя может содержать информацию о рыскании, тангаже и крене головы слушателя.In some embodiments, the listener orientation information may include yaw, pitch, and head roll information of the listener.

В некоторых вариантах осуществления информация о смещении слушателя может содержать информацию о смещении головы слушателя из номинального положения прослушивания, выраженную в декартовых координатах или сферических координатах.In some embodiments, the listener displacement information may comprise information about the displacement of the listener's head from the nominal listening position, expressed in Cartesian coordinates or spherical coordinates.

В некоторых вариантах осуществления аппарат может дополнительно содержать носимое и/или стационарное оборудование для обнаружения ориентации головы слушателя. В некоторых вариантах осуществления аппарат может дополнительно содержать носимое и/или стационарное оборудование для обнаружения смещения головы слушателя из номинального положения прослушивания.In some embodiments, the apparatus may further comprise wearable and/or fixed equipment for detecting the listener's head orientation. In some embodiments, the apparatus may further comprise wearable and/or fixed equipment for detecting movement of the listener's head from the nominal listening position.

В некоторых вариантах осуществления процессор может быть дополнительно приспособлен для выполнения рендеринга звукового объекта на одном или более реальных или виртуальных динамиках в соответствии с дополнительно модифицированным положением объекта.In some embodiments, the processor may be further adapted to perform rendering of an audio object on one or more real or virtual speakers in accordance with a further modified position of the object.

В некоторых вариантах осуществления процессор может быть приспособлен для выполнения рендеринга с учетом акустического поглощения для небольших расстояний от звукового объекта до головы слушателя на основании HRTF для головы слушателя.In some embodiments, the processor may be adapted to perform acoustic absorption rendering for short distances from the audio object to the listener's head based on the HRTF for the listener's head.

В некоторых вариантах осуществления процессор может быть приспособлен для регулирования дополнительно модифицированного положения объекта для формата ввода, используемого модулем рендеринга MPEG-H 3D. В некоторых вариантах осуществления рендеринг могут выполнять с использованием модуля рендеринга MPEG-H 3D Audio. То есть, процессор может реализовывать модуль рендеринга MPEG-H 3D Audio. В некоторых вариантах осуществления процессор может быть приспособлен для реализации декодера MPEG-H 3D Audio. В некоторых вариантах осуществления процессор может быть приспособлен для реализации блока смещения сцены декодера MPEG-H 3D Audio.In some embodiments, the processor may be adapted to adjust a further modified object position for the input format used by the MPEG-H 3D renderer. In some embodiments, rendering may be performed using an MPEG-H 3D Audio renderer. That is, the processor can implement an MPEG-H 3D Audio renderer. In some embodiments, the processor may be adapted to implement an MPEG-H 3D Audio decoder. In some embodiments, the processor may be adapted to implement a scene offset block of an MPEG-H 3D Audio decoder.

Согласно другому аспекту настоящего изобретения описан дополнительный аппарат для обработки информации о положении, указывающей положение объекта для звукового объекта. Положение объекта может быть использовано для рендеринга звукового объекта. Аппарат может содержать процессор и запоминающее устройство, соединенное с процессором. Процессор может быть приспособлен для получения информации о смещении слушателя, указывающей смещение головы слушателя. Процессор может быть дополнительно приспособлен для определения положения объекта из информации о положении. Процессор может быть дополнительно приспособлен для модификации положения объекта на основании информации о смещении слушателя посредством применения поступательного перемещения к положению объекта.According to another aspect of the present invention, an additional apparatus for processing position information indicating the position of an object for an audio object is described. The object's position can be used to render a sound object. The apparatus may include a processor and a storage device coupled to the processor. The processor may be adapted to receive listener displacement information indicative of the displacement of the listener's head. The processor may be further adapted to determine the position of an object from the position information. The processor may be further adapted to modify the position of an object based on the listener's displacement information by applying translational movement to the position of the object.

В некоторых вариантах осуществления процессор может быть приспособлен для модификации положения объекта на основании информации о смещении слушателя таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от смещения головы слушателя из номинального положения прослушивания.In some embodiments, the processor may be adapted to modify the position of an object based on the listener's displacement information such that the sound object, after rendering on one or more real or virtual speakers in accordance with the modified object position, is psychoacoustically perceived by the listener as arising from a fixed position relative to the nominal listening position regardless of the listener's head displacement from the nominal listening position.

В некоторых вариантах осуществления процессор может быть приспособлен для модификации положения объекта на основании информации о смещении слушателя посредством поступательного перемещения положения объекта с использованием вектора, который положительно коррелирует с амплитудой и отрицательно коррелирует с направлением вектора смещения головы слушателя из номинального положения прослушивания.In some embodiments, the processor may be adapted to modify the position of an object based on the listener's displacement information by progressively moving the object's position using a vector that is positively correlated with amplitude and negatively correlated with the direction of the vector of displacement of the listener's head from the nominal listening position.

Согласно другому аспекту настоящего изобретения описан дополнительный аппарат для обработки информации о положении, указывающей положение объекта для звукового объекта. Положение объекта может быть использовано для рендеринга звукового объекта. Аппарат может содержать процессор и запоминающее устройство, соединенное с процессором. Процессор может быть приспособлен для получения информации об ориентации слушателя, указывающей ориентацию головы слушателя. Процессор может быть дополнительно приспособлен для определения положения объекта из информации о положении. Процессор может быть также дополнительно приспособлен для модификации положения объекта на основании информации об ориентации слушателя, например посредством применения поворотного преобразования к модифицированному положению объекта (например, поворот относительно головы слушателя или номинального положения прослушивания).According to another aspect of the present invention, an additional apparatus for processing position information indicating the position of an object for an audio object is described. The object's position can be used to render a sound object. The apparatus may include a processor and a storage device coupled to the processor. The processor may be adapted to receive listener orientation information indicating the orientation of the listener's head. The processor may be further adapted to determine the position of an object from the position information. The processor may also be further adapted to modify the position of an object based on the listener's orientation information, for example by applying a rotational transformation to the modified position of the object (eg, rotation relative to the listener's head or nominal listening position).

В некоторых вариантах осуществления процессор может быть приспособлен для модификации положения объекта на основании информации об ориентации слушателя таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от ориентации головы слушателя относительно номинальной ориентации.In some embodiments, the processor may be adapted to modify the position of an object based on the listener's orientation information such that the sound object, after rendering on one or more real or virtual speakers in accordance with the modified object position, is psychoacoustically perceived by the listener as arising from a fixed position relative to the nominal listening position regardless of the listener's head orientation relative to the nominal orientation.

Согласно еще одному аспекту описана система. Система может содержать аппарат согласно любому из вышепредставленных аспектов и носимое и/или стационарное оборудование, способное обнаружить ориентацию головы слушателя и обнаружить смещение головы слушателя.In yet another aspect, a system is described. The system may comprise an apparatus according to any of the foregoing aspects and wearable and/or fixed equipment capable of detecting the orientation of the listener's head and detecting movement of the listener's head.

Следует понимать, что этапы способа и характерные признаки аппарата можно взаимно заменять различными способами. В частности, детали раскрытого способа могут быть реализованы в виде аппарата, приспособленного для выполнения некоторых или всех этапов способа, и наоборот, как будет понятно специалисту. В частности, следует понимать, что аппарат согласно настоящему изобретению может относиться к аппарату для реализации или исполнения способов согласно вышеприведенным вариантам осуществления и их вариациям и что соответствующие утверждения, сделанные в отношении способов, аналогичным образом применяются для соответствующего аппарата. Подобным образом, следует понимать, что способы согласно настоящему изобретению могут относиться к способам работы с аппаратом согласно вышеприведенным вариантам осуществления и их вариациям и что соответствующие утверждения, сделанные в отношении аппарата, аналогичным образом применяются для соответствующих способов.It should be understood that the steps of the method and the characteristic features of the apparatus can be interchanged in various ways. In particular, the details of the disclosed method may be implemented in the form of an apparatus adapted to perform some or all of the steps of the method, and vice versa, as will be appreciated by one skilled in the art. In particular, it should be understood that the apparatus of the present invention may refer to apparatus for implementing or executing the methods of the above embodiments and variations thereof, and that the corresponding statements made with respect to the methods similarly apply to the corresponding apparatus. Likewise, it should be understood that the methods of the present invention may relate to methods of operating the apparatus of the above embodiments and variations thereof, and that the corresponding statements made with respect to the apparatus apply similarly to the corresponding methods.

КРАТКОЕ ОПИСАНИЕ ФИГУРBRIEF DESCRIPTION OF THE FIGURES

Ниже изобретение разъясняется иллюстративным образом со ссылкой на сопроводительные графические материалы, в которых:The invention is explained below in an illustrative manner with reference to the accompanying drawings, in which:

на фиг. 1 схематически показан пример системы MPEG-H 3D Audio;in fig. 1 schematically shows an example of an MPEG-H 3D Audio system;

на фиг. 2 схематически показан пример системы MPEG-H 3D Audio согласно настоящему изобретению;in fig. 2 is a schematic diagram of an example of an MPEG-H 3D Audio system according to the present invention;

на фиг. 3 схематически показан пример системы рендеринга звука согласно настоящему изобретению;in fig. 3 is a schematic illustration of an example of an audio rendering system according to the present invention;

на фиг. 4 схематически показана примерная система осей декартовых координат и их отношения к сферическим координатам; иin fig. 4 schematically shows an example system of Cartesian coordinate axes and their relationship to spherical coordinates; And

на фиг. 5 показана блок-схема, схематически иллюстрирующая пример способа обработки информации о положении для звукового объекта согласно настоящему изобретению.in fig. 5 is a flowchart schematically illustrating an example of a position information processing method for an audio object according to the present invention.

ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION

В контексте настоящего документа 3DoF обычно является системой, которая может правильно обрабатывать движение головы пользователя, в частности поворот головы, характеризующийся тремя параметрами (например, рыскание, тангаж, крен). Такие системы часто доступны в различных игровых системах, таких как системы виртуальной реальности (VR) / дополненной реальности (AR) / смешанной реальности (Mixed Reality, MR), или в других звуковых средах такого типа.In the context of this document, 3DoF is generally a system that can correctly handle the user's head motion, in particular head rotation, characterized by three parameters (e.g., yaw, pitch, roll). Such systems are often available in various gaming systems such as virtual reality (VR) / augmented reality (AR) / mixed reality (MR) systems, or other audio environments of this type.

В контексте настоящего документа пользователя (например, декодера звука или системы воспроизведения, содержащей декодер звука) могут также называть «слушателем».As used herein, a user (eg, an audio decoder or a playback system including an audio decoder) may also be referred to as a “listener.”

В контексте настоящего документа 3DoF+должно обозначать, что в дополнение к движению головы пользователя, которое может быть правильно обработано посредством системы 3DoF, также должны быть обработаны поступательные движения.In the context of this document, 3DoF+ shall mean that in addition to the movement of the user's head, which can be properly processed by the 3DoF system, translational movements must also be processed.

В контексте настоящего документа выражение «небольшой» должно указывать, что движения ограничены пороговым значением, которое, как правило, составляет не более 0,5 метра. Это означает, что движения не превышают 0,5 метра от первоначального положения головы пользователя. Например, движения пользователя ограничены вследствие того, что он сидит на стуле.In the context of this document, the expression “small” should indicate that movements are limited to a threshold value, which is typically no more than 0.5 meters. This means that movements do not exceed 0.5 meters from the original position of the user's head. For example, the user's movement is limited due to sitting on a chair.

В контексте настоящего документа термин «MPEG-H 3D Audio» относится к техническому описанию, указанному в стандарте ISO/IEC 23008-3 и/или в любых будущих редакциях, изданиях или других версиях стандарта ISO/IEC 23008-3.As used herein, the term "MPEG-H 3D Audio" refers to the technical specification specified in the ISO/IEC 23008-3 standard and/or any future revisions, editions or other versions of the ISO/IEC 23008-3 standard.

В контексте стандартов звука, предоставленных организацией MPEG, различие между 3DoF и 3DoF+может быть определено следующим образом:In the context of the audio standards provided by the MPEG organization, the difference between 3DoF and 3DoF+ can be defined as follows:

• 3DoF: позволяет пользователю испытывать движение рыскания, тангажа, крена (например, головы пользователя);• 3DoF: Allows the user to experience yaw, pitch, roll motion (such as the user's head);

• 3DoF+: позволяет пользователю испытывать движение рыскания, тангажа, крена и ограниченное поступательное движение (например, головы пользователя), например, во время сидения в кресле.• 3DoF+: Allows the user to experience yaw, pitch, roll, and limited translational motion (such as the user's head), such as while sitting in a chair.

Ограниченные (небольшие) поступательные движения головы могут представлять собой движения, ограниченные конкретным радиусом движения. Например, движения могут быть ограничены вследствие сидячего положения пользователя, например, без использования нижней части тела. Небольшие поступательные движения головы могут относиться или соответствовать смещению головы пользователя относительно номинального положения прослушивания. Номинальное положение прослушивания (или номинальное положение слушателя) может представлять собой положение по умолчанию (такое как, например, заданное положение, ожидаемое положение для головы слушателя или зона наилучшего восприятия при расположении динамиков).Limited (small) forward movements of the head may be movements limited to a specific radius of movement. For example, movement may be limited due to the user's sitting position, for example without use of the lower body. Small forward movements of the head may relate to or correspond to a displacement of the user's head relative to the nominal listening position. The nominal listening position (or nominal listening position) may be a default position (such as, for example, a target position, an expected position for the listener's head, or a sweet spot for speaker placement).

Восприятие 3DoF+можно сравнить с ограниченным восприятием 6DoF, при котором поступательные движения могут быть описаны как ограниченные или небольшие движения головой. В одном примере также выполняют рендеринг звука на основании положения и ориентации головы пользователя, включая возможное акустическое поглощение. Рендеринг может быть выполнен с учетом акустического поглощения для небольших расстояний от звукового объекта до головы слушателя, например на основании функций моделирования восприятия звука (HRTF) для головы слушателя.3DoF+ perception can be compared to limited 6DoF perception, in which forward movements can be described as limited or small movements of the head. In one example, audio is also rendered based on the position and orientation of the user's head, including possible acoustic absorption. Rendering can be done taking into account acoustic absorption for short distances from the sound object to the listener's head, for example based on the simulated sound experience functions (HRTF) for the listener's head.

В отношении способов, систем, аппаратов и других устройств, совместимых с функциональными возможностями, установленными посредством стандарта MPEG-H 3D Audio, которые могут обозначать, что 3DoF+ поддерживается для любой будущей версии (версий) стандартов MPEG, таких как будущие версии всенаправленного мультимедийного формата (например, стандартизированного в будущих версиях MPEG-I), и/или в любых обновлениях для MPEG-H Audio (например, редакциях или более новых стандартах на основании стандарта MPEG-H 3D Audio), или любых связанных или опорных стандартах, которые могут требовать обновления (например, стандарты, в которых уточняют конкретные типы метаданных и сообщений SEI).With respect to methods, systems, apparatus and other devices compatible with functionality established by the MPEG-H 3D Audio standard, which may indicate that 3DoF+ is supported for any future version(s) of MPEG standards, such as future versions of the Omnidirectional Multimedia Format ( e.g., standardized in future versions of MPEG-I), and/or in any updates to MPEG-H Audio (e.g., revisions or newer standards based on the MPEG-H 3D Audio standard), or any related or reference standards that may require updates (for example, standards that clarify specific types of SEI metadata and messages).

Например, функциональность модуля рендеринга звука, который является нормативным для стандарта звука, установленного в описании MPEG-H 3D Audio, может быть расширена, чтобы включать рендеринг звуковой сцены для точного учета взаимодействия пользователя со звуковой сценой, например, когда пользователь двигает своей головой слегка в стороны.For example, the functionality of an audio renderer that is normative for the audio standard specified in the MPEG-H 3D Audio specification may be extended to include sound stage rendering to accurately account for user interaction with the sound stage, such as when the user moves their head slightly in sides.

Настоящее изобретение предоставляет различные технические преимущества, включая преимущество предоставления MPEG-H 3D Audio, способного обработать варианты использования 3DoF+. В настоящем изобретении расширяют стандарт MPEG-H 3D Audio для поддержки функциональных возможностей 3DoF+.The present invention provides various technical advantages, including the advantage of providing MPEG-H 3D Audio capable of handling 3DoF+ use cases. The present invention extends the MPEG-H 3D Audio standard to support 3DoF+ functionality.

Для поддержки функциональных возможностей 3DoF+система рендеринга звука должна учитывать ограниченные/небольшие смещения положения головы пользователя/слушателя. Смещения положения должны определять на основании относительного отклонения от начального положения (т.е. положения по умолчанию / номинального положения прослушивания). В одном примере амплитуда этого отклонения (например, отклонения радиуса, которое может быть определено на основании где Р0 представляет собой номинальное положение прослушивания, a P1 представляет собой смещенное положение головы слушателя) максимально составляет приблизительно 0,5 м. В другом примере амплитуда отклонения ограничена тем, что представляет собой отклонение, получаемое только тогда, когда пользователь сидит на стуле и не выполняет движения нижней частью тела (однако его голова движется относительно его тела). Это (небольшое) расстояние отклонения обеспечивает очень небольшой (воспринимаемый) уровень и разность панорамирования для отдаленных звуковых объектов. Однако для близких объектов такое небольшое расстояние отклонения может стать значимым для восприятия. Конечно, движение головы слушателя может оказывать влияние на восприятие того, где находится точная локализация звукового объекта. Этот эффект восприятия может оставаться важным (т.е. быть заметным для восприятия пользователя/слушателя) при условии, что отношение между (i) смещением головы пользователя (например, )) и расстоянием до звукового объекта (например, г) тригонометрически обеспечивает углы, которые находятся в диапазоне психоакустической способности пользователей обнаруживать направление звука. Такой диапазон может изменяться для разных настроек модуля рендеринга звука, звукового материала и конфигурации проигрывания. Например, предполагая, что диапазон точности локализации составляет, например, +/-3° со свободой движения головы слушателя из стороны в сторону +/-0,25 м, это будет соответствовать ~5 м расстояния до объекта.To support 3DoF+ functionality, the audio rendering system must accommodate limited/small displacements of the user/listener's head position. Position offsets should be determined based on the relative deviation from the initial position (ie default position/nominal listening position). In one example, the amplitude of this deviation (for example, radius deviation, which can be determined based on where P 0 represents the nominal listening position and P 1 represents the offset position of the listener's head) the maximum is approximately 0.5 m. In another example, the amplitude of the deflection is limited to being the deflection obtained only when the user is sitting on a chair and does not move his lower body (however his head moves relative to his body). This (small) offset distance provides very small (perceived) level and panning differences for distant sound objects. However, for close objects such a small deviation distance can become significant for perception. Of course, the listener's head movement can influence the perception of where the exact location of the sound object is. This perceptual effect can remain important (i.e. be perceptually noticeable to the user/listener) provided that the relationship between (i) the user's head displacement (e.g. )) and the distance to the sound object (e.g., d) trigonometrically provides angles that are within the range of users' psychoacoustic ability to detect the direction of sound. This range may vary depending on the audio renderer settings, audio material, and playback configuration. For example, assuming a localization accuracy range of, for example, +/-3° with listener head freedom of +/-0.25 m from side to side, this would correspond to ~5 m of object distance.

Для объектов, которые расположены вблизи слушателя, (например, объектов на расстоянии меньше 1 м от пользователя), надлежащая обработка смещения положения головы слушателя является важной для сценариев 3DoF+, поскольку как во время панорамирования, так и во время изменений уровня присутствуют значительные эффекты восприятия.For objects that are located close to the listener (e.g., objects less than 1 m away from the user), proper handling of listener head position displacement is important for 3DoF+ scenarios, since there are significant perceptual effects during both panning and level changes.

Одним примером обработки объектов вблизи слушателей, например, является случай, когда звуковой объект (например, комар) расположен очень близко к лицу слушателя. Звуковая система, такая как звуковая система, обеспечивающая возможности VR/AR/MR, должна позволять пользователю воспринимать этот звуковой объект со всех сторон и под всеми углами, даже когда пользователь выполняет небольшие поступательные движения головой. Например, пользователь должен иметь возможность точно воспринимать объект (например, комара), даже когда пользователь перемещает свою голову, не двигая нижней частью тела.One example of near object processing in listeners, for example, is when a sound object (e.g., a mosquito) is located very close to the listener's face. A sound system, such as a sound system that provides VR/AR/MR capabilities, must allow the user to perceive that sound object from all sides and angles, even when the user makes small forward movements of the head. For example, the user must be able to accurately perceive an object (such as a mosquito) even when the user moves their head without moving their lower body.

Однако система, совместимая с текущей версией MPEG-H 3D Audio, не может в настоящее время это корректно обработать. Вместо этого, использование системы, совместимой с системой MPEG-H 3D Audio, приводит к восприятию «комара» с неверного положения относительно пользователя. В сценариях, которые включают исполнение 3DoF+, небольшие поступательные движения должны приводить к значительной разнице в восприятии звукового объекта (например, при движении головой влево звуковой объект «комар» должен восприниматься с правой стороны относительно головы пользователя, и т.д.).However, a system compatible with the current version of MPEG-H 3D Audio cannot currently handle this correctly. Instead, using an MPEG-H 3D Audio compatible system results in the mosquito being perceived from an incorrect position relative to the user. In scenarios that involve 3DoF+ execution, small translational movements should result in a significant difference in the perception of the sound object (for example, when moving the head to the left, the sound object "mosquito" should be perceived on the right side of the user's head, etc.).

Стандарт MPEG-H 3D Audio содержит синтаксис битового потока, который обеспечивает передачу информации о расстоянии до объекта посредством синтаксиса битового потока, например посредством элемента синтаксиса (начиная с 0,5 м).The MPEG-H 3D Audio standard contains a bitstream syntax that allows distance information to be conveyed through a bitstream syntax, such as a syntax element (starting from 0.5 m).

Элемент синтаксиса может быть введен в битовый поток, предоставленный стандартом MPEG-H 3D Audio, который может быть использован для оповещения, что объект находится на очень близких расстояниях от слушателя. Например, синтаксис может оповещать, что расстояние между пользователем и объектом составляет меньше конкретного порогового расстояния (например, меньше 1 см).Syntax element can be input into the bitstream provided by the MPEG-H 3D Audio standard, which can be used to signal that an object is at very close distances from the listener. For example, the syntax may notify that the distance between the user and an object is less than a specific threshold distance (for example, less than 1 cm).

На фиг. 1 и фиг. 2 показано настоящее изобретение на основании рендеринга в наушниках (т.е., когда динамики двигаются вместе с головой слушателя).In fig. 1 and fig. 2 shows the present invention based on headphone rendering (i.e., when the speakers move with the listener's head).

На фиг. 1 показан пример поведения 100 системы, которая совместима с системой MPEG-H 3D Audio. В этом примере предполагают, что голова слушателя расположена в положении Р0 103 в момент t0 и перемещается в положение P1 104 в момент t1>t0. Пунктирные круги вокруг положений Р0 и Р1 указывают допустимую область движения 3DoF+(например, с радиусом 0,5 м). Положение А 101 указывает переданное положение объекта (в момент t0 и момент t1, т.е. предполагают, что переданное положение объекта является постоянным в течение некоторого времени). Положение А также указывает положение объекта, рендеринг которого выполняют посредством модуля рендеринга MPEG-H 3D Audio в момент t0. Положение В 102 указывает положение объекта, рендеринг которого выполняют посредством MPEG-H 3D Audio в момент Вертикальные линии, проходящие вверх от положений Р0 и Р1 указывают соответствующие ориентации (например, направления обзора) головы слушателя в моменты t0 и t1. Смещение головы пользователя между положением Р0 и положением Р1 может быть представлено посредством 106. Если слушатель находится в положении по умолчанию (номинальное положение прослушивания) Р0 103 в момент t0, он будет воспринимать звуковой объект (например, комара) в корректном положении А 101. Если пользователь переместится в положение P1 104 в момент t1 он будет воспринимать звуковой объект в положении В 102, если обработку MPEG-H 3D Audio применяют как текущий стандарт, что вводит показанную ошибку δAB 105. То есть несмотря на движение головы слушателя, звуковой объект (например, комар) все еще будет восприниматься как расположенный непосредственно перед головой слушателя (т.е. как по существу перемещающийся совместно с головой слушателя). Следует отметить, что введенная ошибка δAB 105 возникает независимо от ориентации головы слушателя.In fig. 1 shows an example of the behavior 100 of a system that is compatible with the MPEG-H 3D Audio system. In this example, it is assumed that the listener's head is located at position P 0 103 at time t 0 and moves to position P 1 104 at time t 1 >t 0 . The dotted circles around the positions P 0 and P 1 indicate the permissible area of 3DoF+ movement (for example, with a radius of 0.5 m). The position A 101 indicates the transmitted position of the object (at time t 0 and time t 1 , ie, assume that the transmitted position of the object is constant for some time). Position A also indicates the position of the object being rendered by the MPEG-H 3D Audio renderer at time t 0 . Position B 102 indicates the position of the object being rendered by MPEG-H 3D Audio at time. Vertical lines extending upward from positions P 0 and P 1 indicate the corresponding orientations (eg, viewing directions) of the listener's head at times t 0 and t 1 . The displacement of the user's head between position P 0 and position P 1 can be represented by 106. If the listener is in the default position (nominal listening position) P 0 103 at time t 0 , he will perceive the sound object (for example, a mosquito) at the correct position A 101. If the user moves to position P 1 104 at time t 1 it will perceive the audio object at position B 102 if MPEG-H 3D Audio processing is applied as the current standard, which introduces the error δ AB 105 shown. That is, despite the listener's head movement, the audio object (eg, a mosquito) will still be perceived as located directly in front of the listener's head (ie, essentially moving with the listener's head). It should be noted that the introduced error δ AB 105 occurs regardless of the listener's head orientation.

На фиг. 2 показан пример поведения системы относительно системы 200 MPEG-Н 3D Audio согласно настоящему изобретению. На фиг. 2 голова слушателя находится в положении Р0 203 в момент t0 и перемещается в положение P1 204 в момент t1>t0. Опять же, пунктирные круги вокруг положений Р0 и P1 указывают допустимую область движения 3DoF+ (например, с радиусом 0,5 м). В пункте 201 показано, что положение А=В, что означает, что переданное положение объекта (в момент t0 и момент t1, т.е. предполагают, что переданное положение объекта) является постоянным в течение некоторого времени. Положение А=В 201 также указывает положение объекта, рендеринг которого выполняют посредством MPEG-H 3D Audio в момент t0 и момент t1. Вертикальные стрелки, проходящие вверх от положений Р0 203 и Р1 204, указывают соответствующие ориентации (например, направления обзора) головы слушателя в моменты t0 и t1. Если слушатель находится в начальном положении / положении по умолчанию (номинальное положение прослушивания) Р0 203 в момент t0, он будет воспринимать звуковой объект (например, комара) в корректном положении А 201. Если пользователь переместится в положение P1 203 в момент t1 он все еще будет воспринимать звуковой объект в положении В 201, которое подобно (например, по существу совпадает с) положению А 201 в соответствии с настоящим изобретением. Таким образом, настоящее изобретение обеспечивает изменение положения пользователя с течением времени (например, из положения Р0 203 в положение P1 204), в то же время обеспечивая восприятие звука из той же (пространственно зафиксированной) локации (например, положение А=В 201, и т.д.). Иными словами, звуковой объект (например, комар) движется относительно головы слушателя в соответствии с перемещением (например, отрицательно коррелируя с) головы слушателя. Это позволяет пользователю двигаться вокруг звукового объекта (например, комара) и воспринимать звуковой объект под разными углами или даже с разных сторон. Смещение головы пользователя между положением Р0 и положением P1 может быть представлено как 206.In fig. 2 shows an example of system behavior relative to an MPEG-H 3D Audio system 200 according to the present invention. In fig. 2, the listener's head is in position P 0 203 at the moment t 0 and moves to position P 1 204 at the moment t 1 >t 0 . Again, the dotted circles around the P 0 and P 1 positions indicate the permissible area of 3DoF+ movement (eg with a radius of 0.5 m). In paragraph 201, it is shown that the position A=B, which means that the transmitted position of the object (at time t0 and time t 1 , ie, assume that the transmitted position of the object) is constant for some time. The position A=B 201 also indicates the position of the object being rendered by MPEG-H 3D Audio at time t 0 and time t 1 . Vertical arrows extending upward from positions P 0 203 and P 1 204 indicate the corresponding orientations (eg, viewing directions) of the listener's head at moments t 0 and t 1 . If the listener is in the home/default position (nominal listening position) P 0 203 at time t 0 , he will perceive the sound object (eg, a mosquito) at the correct position A 201. If the user moves to position P 1 203 at time t 1, it will still perceive the sound object at position B 201, which is similar to (eg, substantially the same as) position A 201 in accordance with the present invention. Thus, the present invention allows the user to change position over time (for example, from position P 0 203 to position P 1 204), while at the same time allowing the perception of sound from the same (spatially fixed) location (for example, position A=B 201 , etc.). In other words, the sound object (eg, a mosquito) moves relative to the listener's head in accordance with the movement of (eg, negatively correlated with) the listener's head. This allows the user to move around a sound object (such as a mosquito) and perceive the sound object from different angles or even from different sides. The displacement of the user's head between position P 0 and position P 1 can be represented as 206.

На фиг. 3 показан пример системы 300 рендеринга звука согласно настоящему изобретению. Система 300 рендеринга звука может соответствовать или содержать декодер, такой как, например, декодер MPEG-H 3D audio. Система 300 рендеринга звука может содержать блок 310 смещения звуковой сцены с соответствующим интерфейсом обработки смещения звуковой сцены (например, интерфейсом для данных смещения сцены в соответствии со стандартом MPEG-Н 3D Audio). Блок 310 смещения звуковой сцены может выводить положения 321 объекта для рендеринга соответствующих звуковых объектов. Например, блок смещения сцены может выводить метаданные положения объекта для рендеринга соответствующих звуковых объектов.In fig. 3 shows an example of an audio rendering system 300 according to the present invention. The audio rendering system 300 may correspond to or include a decoder, such as, for example, an MPEG-H 3D audio decoder. The audio rendering system 300 may include a stage shifter 310 with a corresponding stage shift processing interface (eg, an interface for scene shift data according to the MPEG-H 3D Audio standard). The sound stage shifter 310 may output object positions 321 for rendering corresponding sound objects. For example, a scene displacement block can output object position metadata to render corresponding audio objects.

Система 300 рендеринга звука может дополнительно содержать модуль 320 рендеринга звукового объекта. Например, модуль рендеринга может состоять из аппаратного обеспечения, программного обеспечения и/или любой частичной или полной обработки, выполненной посредством облачных вычислений, включая различные сервисы, такие как платформы разработки программного обеспечения, серверы, хранилища и программное обеспечение, через интернет, часто называемые «облаком», которые совместимы с описанием, установленным стандартом MPEG-H 3D Audio. Модуль 320 рендеринга звукового объекта может выполнять рендеринг звуковых объектов для одного или более (реальных или виртуальных) динамиков в соответствии с соответствующими положениями объекта (эти положения объекта могут быть модифицированными или дополнительно модифицированными положениями объекта, описанными ниже). Модуль 320 рендеринга звукового объекта может выполнять рендеринг звуковых объектов для наушников и/или громкоговорителей. То есть, модуль 320 рендеринга звукового объекта может генерировать формы волны объекта согласно заданному формату воспроизведения. С этой целью модуль 320 рендеринга звукового объекта может использовать сжатые метаданные объекта. Рендеринг каждого объекта может быть выполнен для конкретных выходных каналов в соответствии с его положением объекта (например, модифицированным положением объекта или дополнительно модифицированным положением объекта). Таким образом, положения объекта также могут называться положениями канала их звуковых объектов. Положения 321 звукового объекта могут быть включены в выходную информацию метаданных положения объекта или метаданных смещения сцены посредством блока 310 смещения сцены.The audio rendering system 300 may further include an audio object rendering module 320. For example, a rendering engine may consist of hardware, software, and/or any partial or complete processing performed through cloud computing, including various services such as software development platforms, servers, storage, and software over the Internet, often referred to as " cloud" that are compatible with the description established by the MPEG-H 3D Audio standard. Audio object rendering module 320 may render audio objects for one or more (real or virtual) speakers in accordance with corresponding object positions (these object positions may be modified or further modified object positions described below). Audio object rendering module 320 may render audio objects for headphones and/or speakers. That is, the audio object rendering module 320 can generate waveforms of the object according to a predetermined reproduction format. To this end, audio object renderer 320 may use compressed object metadata. Each object can be rendered to specific output channels according to its object position (eg, modified object position, or further modified object position). Thus, object positions can also be called channel positions of their audio objects. Audio object positions 321 may be included in the output of object position metadata or scene offset metadata via scene offset block 310.

Обработка согласно настоящему изобретению может быть совместима со стандартом MPEG-H 3D Audio. Таким образом, она может быть выполнена посредством декодера MPEG-H 3D Audio, или, более конкретно, посредством блока смещения сцены MPEG-H и/или модуля рендеринга MPEG-H 3D Audio. Соответственно, система 300 рендеринга звука по фиг.3 может соответствовать или содержать декодер MPEG-H 3D Audio (т.е. декодер, совместимый с описанием, установленным стандартом MPEG-H 3D Audio). В одном примере система 300 рендеринга звука может представлять собой аппарат, содержащий процессор и запоминающее устройство, соединенное с процессором, при этом процессор адаптирован для реализации декодера MPEG-H 3D Audio. В частности, процессор может быть приспособлен для реализации блока смещения сцены MPEG-H и/или модуля рендеринга MPEG-H 3D Audio. Таким образом, процессор может быть приспособлен для выполнения этапов обработки, описанных в настоящем изобретении (например, этапы S510-S560 способа 500, описанного со ссылкой на фиг. 5). В другом примере, обрабатывающая система или система 300 рендеринга звука может быть выполнена в облаке.The processing according to the present invention may be compatible with the MPEG-H 3D Audio standard. Thus, it may be performed by an MPEG-H 3D Audio decoder, or more specifically by an MPEG-H scene shifter and/or an MPEG-H 3D Audio renderer. Accordingly, the audio rendering system 300 of FIG. 3 may correspond to or include an MPEG-H 3D Audio decoder (ie, a decoder compatible with the specification established by the MPEG-H 3D Audio standard). In one example, the audio rendering system 300 may be an apparatus comprising a processor and a storage device coupled to the processor, wherein the processor is adapted to implement an MPEG-H 3D Audio decoder. In particular, the processor may be adapted to implement an MPEG-H scene offset unit and/or an MPEG-H 3D Audio renderer. Thus, the processor may be adapted to perform the processing steps described in the present invention (eg, steps S510-S560 of the method 500 described with reference to FIG. 5). In another example, the audio processing or rendering system 300 may be implemented in the cloud.

Система 300 рендеринга звука может получать (например, принимать) данные 301 локации прослушивания. Система 300 рендеринга звука может получать данные 301 локации прослушивания посредством входного интерфейса декодера MPEG-H 3D Audio.The audio rendering system 300 may receive (eg, receive) listening location data 301 . The audio rendering system 300 may receive listening location data 301 via an MPEG-H 3D Audio decoder input interface.

Данные 301 локации прослушивания могут указывать ориентацию и/или положение (например, смещение) головы слушателя. Таким образом, данные 301 локации прослушивания (которые также могут называть информацией о позиции) могут содержать информацию об ориентации слушателя и/или информацию о смещении слушателя.The listening location data 301 may indicate the orientation and/or position (eg, displacement) of the listener's head. Thus, the listening location data 301 (which may also be referred to as position information) may include listener orientation information and/or listener displacement information.

Информация о смещении слушателя может указывать смещение головы слушателя (например, из номинального положения прослушивания). Информация о смещении слушателя может соответствовать или содержать указание амплитуды смещения головы слушателя из номинального положения прослушивания, 206, как показано на фиг. 2. В контексте настоящего изобретения информация о смещении слушателя указывает небольшое смещение положения головы слушателя из номинального положения прослушивания. Например, абсолютное значение смещения может составлять не более 0,5 м. Как правило, это представляет собой смещение головы слушателя из номинального положения прослушивания, которое может быть достигнуто посредством движения верхней частью тела и/или головой слушателя. То есть, слушатель может осуществить смещение без движения нижней частью тела. Например, смещение головы слушателя может быть осуществлено, когда слушатель сидит на стуле, как указано выше. Смещение может быть выражено посредством различных систем координат, таких как, например, декартовы координаты (например, в рамках х, у, z) или сферические координаты (например, в рамках азимута, угла подъема, радиуса). Альтернативные системы координат для выражения смещения головы слушателя также возможны и, как следует понимать, охвачены настоящим изобретением.The listener displacement information may indicate displacement of the listener's head (eg, from a nominal listening position). The listener displacement information may correspond to or include an indication of the amplitude of displacement of the listener's head from the nominal listening position, 206, as shown in FIG. 2. In the context of the present invention, the listener displacement information indicates a slight displacement of the listener's head position from the nominal listening position. For example, the absolute value of the displacement may be no more than 0.5 m. Typically, this represents a displacement of the listener's head from the nominal listening position, which can be achieved by movement of the listener's upper body and/or head. That is, the listener can perform the shift without moving the lower body. For example, shifting the listener's head can be accomplished while the listener is sitting on a chair, as described above. The displacement can be expressed in terms of various coordinate systems, such as, for example, Cartesian coordinates (eg, in terms of x, y, z) or spherical coordinates (eg, in terms of azimuth, elevation, radius). Alternative coordinate systems for expressing the displacement of the listener's head are also possible and are understood to be covered by the present invention.

Информация об ориентации слушателя может указывать ориентацию головы слушателя (например, ориентацию головы слушателя относительно номинальной ориентации/исходной ориентации головы слушателя). Например, информация об ориентации слушателя может содержать информацию о рыскании, тангаже и крене головы слушателя. В настоящем документе рыскание, тангаж и крен могут быть заданы относительно номинальной ориентации.The listener orientation information may indicate the orientation of the listener's head (eg, the orientation of the listener's head relative to the nominal orientation/reference orientation of the listener's head). For example, the listener orientation information may include information about the listener's yaw, pitch, and head roll. As used herein, yaw, pitch and roll may be specified relative to the nominal orientation.

Данные 301 локации прослушивания могут непрерывно собирать с приемника, который может предоставлять информацию относительно поступательных движений пользователя. Например, данные 301 локации прослушивания, которые используются в конкретном случае во времени, могли быть недавно собраны с приемника. Данные локации прослушивания могут быть получены/собраны/сгенерированы на основании информации от датчиков. Например, данные 301 локации прослушивания могут быть получены/собраны/сгенерированы посредством носимого и/или стационарного оборудования, имеющего подходящие датчики. То есть, ориентация головы слушателя может быть обнаружена посредством носимого и/или стационарного оборудования. Подобным образом, смещение головы слушателя (например, из номинального положения прослушивания) может быть обнаружено посредством носимого и/или стационарного оборудования. Носимое оборудование может представлять собой, соответствовать и/или включать, например, гарнитуру (например, гарнитуру AR/VR). Стационарное оборудование может представлять собой, соответствовать и/или содержать, например, датчики-камеры. Стационарное оборудование может быть встроено, например, в телевизор или телевизионную приставку. В некоторых вариантах осуществления данные 301 локации прослушивания могут быть приняты от звукового кодера (например, MPEG-H 3D Audio-совместимого кодера), который мог получить (например, принять) информацию от датчиков.Listening location data 301 may be continuously collected from the receiver, which may provide information regarding the user's translational movements. For example, the listening location data 301 that is used in a particular time event may have been recently collected from the receiver. Listening location data can be obtained/collected/generated based on information from sensors. For example, listening location data 301 may be received/collected/generated through wearable and/or fixed equipment having suitable sensors. That is, the listener's head orientation can be detected by wearable and/or fixed equipment. Likewise, movement of the listener's head (eg, from the nominal listening position) can be detected through wearable and/or fixed equipment. The wearable equipment may be, correspond to, and/or include, for example, a headset (e.g., an AR/VR headset). The fixed equipment may be, correspond to and/or contain, for example, camera sensors. Fixed equipment can be built into, for example, a television or set-top box. In some embodiments, the listening location data 301 may be received from an audio encoder (eg, an MPEG-H 3D Audio-compatible encoder) that may have received (eg, received) sensor information.

В одном примере носимое и/или стационарное оборудование для обнаружения данных 301 локации прослушивания могут называть отслеживающими устройствами, которые поддерживают оценку/обнаружение положения головы и/или оценку/обнаружение ориентации головы. Существуют различные решения, позволяющие точное отслеживание движений головы пользователя с использованием камер компьютера или смартфона (например, на основании распознавания и отслеживания лица «FaceTrackNoIR», «opentrack»). Также несколько систем виртуальной реальности для наголовного дисплея (Head-Mounted Display, HMD) (например, НТС VIVE, Oculus Rift) имеют встроенную технологию отслеживания положения головы пользователя. Любое из этих решений может быть использовано в контексте настоящего изобретения.In one example, wearable and/or fixed-mount listening location data detection equipment 301 may be referred to as tracking devices that support head position estimation/detection and/or head orientation estimation/detection. There are various solutions that allow precise tracking of user head movements using computer or smartphone cameras (for example, based on facial recognition and tracking “FaceTrackNoIR”, “opentrack”). Also, several virtual reality systems for head-mounted display (HMD) (for example, NTS VIVE, Oculus Rift) have built-in technology for tracking the user’s head position. Any of these solutions can be used in the context of the present invention.

Также важно отметить, что расстояние смещения головы в реальных условиях не должно соответствовать один к одному смещению, указанному данными 301 локации прослушивания. Для достижения гиперреалистичного эффекта (например, сверхусиленного параллакс-эффекта движения пользователя) в конкретных применениях могут использовать разные настройки калибровки датчиков или задавать разные отображения между движением в реальном и виртуальном пространствах. Следовательно, можно ожидать, что небольшое физическое движение приведет к большему смещению в виртуальной реальности в некоторых случаях использования. В любом случае, можно сказать, что амплитуды смещения в реальных условиях и в виртуальной реальности (т.е. смещение, указанное данными 301 локации прослушивания) положительно коррелируют. Подобным образом, направления смещения в реальных условиях и в виртуальной реальности положительно коррелируют.It is also important to note that the real-world head offset distance should not correspond to the one-to-one offset indicated by the listening location data 301. To achieve a hyper-realistic effect (for example, a super-enhanced parallax effect of the user's movement), specific applications may use different sensor calibration settings or set different mappings between movement in real and virtual spaces. Therefore, a small physical movement can be expected to result in a larger displacement in VR in some use cases. In any case, it can be said that the displacement amplitudes in real conditions and in virtual reality (i.e., the displacement indicated by the 301 listening location data) are positively correlated. Similarly, the displacement directions in real and virtual reality conditions are positively correlated.

Система 300 рендеринга звука может дополнительно принимать (объект) информацию 302 о положении (например, данные положения объекта) и звуковые данные 322. Звуковые данные 322 могут содержать один или более звуковых объектов. Информация 302 о положении может представлять собой часть метаданных для звуковых данных 322. Информация 302 о положении может указывать соответствующие положения объекта для одного или более звуковых объектов. Например, информация 302 о положении может содержать указание расстояния до соответствующих звуковых объектов относительно номинального положения прослушивания пользователя/слушателя. Расстояние (радиус) может составлять менее 0,5 м. Например, расстояние может составлять менее 1 см. Если информация 302 о положении не содержит указание расстояния до заданного звукового объекта до номинального положения прослушивания, система рендеринга звука может устанавливать расстояние от этого звукового объекта до номинального положения прослушивания на значение по умолчанию (например, 1 м). Информация 302 о положении может дополнительно содержать указания угла подъема и/или азимута соответствующих звуковых объектов.The audio rendering system 300 may further receive (object) position information 302 (eg, object position data) and audio data 322. Audio data 322 may include one or more audio objects. Position information 302 may be part of the metadata for audio data 322. Position information 302 may indicate corresponding object positions for one or more audio objects. For example, position information 302 may include an indication of the distance to corresponding audio objects relative to the nominal listening position of the user/listener. The distance (radius) may be less than 0.5 m. For example, the distance may be less than 1 cm. If the position information 302 does not include an indication of the distance of a given sound object to the nominal listening position, the audio rendering system may set the distance from that sound object to nominal listening position to the default value (eg 1 m). The position information 302 may further include indications of the elevation angle and/or azimuth of the corresponding sound objects.

Каждое положение объекта может использовано для рендеринга соответствующего звукового объекта. Соответственно информация 302 о положении и звуковые данные 322 могут содержаться в звуковом содержимом на основе объектов или образовывать его. Звуковое содержимое (например, звуковые объекты/звуковые данные 322 вместе с информацией 302 о их положении) может быть передано в кодированном звуковом битовом потоке. Например, звуковое содержимое может находиться в формате битового потока, принятого посредством передачи по сети. В этом случае, как определено, система рендеринга звука может принимать звуковое содержимое (например, из кодированного звукового битового потока).Each object position can be used to render a corresponding audio object. Accordingly, position information 302 and audio data 322 may be contained in or constitute object-based audio content. Audio content (eg, audio objects/audio data 322 along with their position information 302) may be transmitted in an encoded audio bitstream. For example, the audio content may be in a bitstream format received via transmission over a network. In this case, as defined, the audio rendering system may receive audio content (eg, from an encoded audio bitstream).

В одном примере настоящего изобретения параметры метаданных могут быть использованы для исправления обработки вариантов использования с обратно совместимым улучшением для 3DoF и 3DoF+. Метаданные могут содержать информацию о смещении слушателя в дополнение к информации об ориентации слушателя. Такие параметры метаданных могут быть использованы системами, показанными на фиг.2 и 3, а также любыми другими вариантами осуществления настоящего изобретения.In one example of the present invention, metadata parameters can be used to correct the processing of use cases with backwards compatible enhancement for 3DoF and 3DoF+. The metadata may contain information about the listener's offset in addition to information about the listener's orientation. Such metadata parameters may be used by the systems shown in FIGS. 2 and 3, as well as any other embodiments of the present invention.

Обратно совместимое улучшение может обеспечить корректировку обработки вариантов использования (например, реализаций настоящего изобретения) на основании нормативного интерфейса смещения сцены MPEG-H 3D Audio. Это означает, что устаревший декодер/модуль рендеринга MPEG-H 3D Audio все еще будет обеспечивать вывод, пусть даже некорректный. Однако улучшенный декодер/модуль рендеринга MPEG-H 3D Audio согласно настоящему изобретению будет корректно применять данные расширения (например, метаданные расширения) и обработку, и, следовательно, может управлять сценарием объектов, расположенных вблизи слушателя, корректным образом.A backwards-compatible enhancement may provide adjustments to the processing of use cases (eg, implementations of the present invention) based on the normative MPEG-H 3D Audio scene offset interface. This means that a legacy MPEG-H 3D Audio decoder/renderer will still provide output, even if incorrect. However, the improved MPEG-H 3D Audio decoder/renderer according to the present invention will correctly apply extension data (eg, extension metadata) and processing, and therefore can control the script of objects located near the listener in a correct manner.

В одном примере настоящее изобретение относится к предоставлению данных для небольших поступательных движений головы пользователя в форматах, отличающихся от тех, что отмечены ниже, и формулы могут быть адаптированы соответствующим образом. Например, данные могут быть приведены в формате, таком как координаты х, у, z (в системе декартовых координат) вместо азимута, угла подъема и радиуса (в системе сферических координат). Пример этих систем координат относительно друг друга показан на фиг. 4.In one example, the present invention relates to providing data for small translational movements of a user's head in formats other than those noted below, and the formulas can be adapted accordingly. For example, the data may be given in a format such as x, y, z coordinates (in Cartesian coordinates) instead of azimuth, elevation, and radius (in spherical coordinates). An example of these coordinate systems relative to each other is shown in FIG. 4.

В одном примере, настоящее изобретение относится к предоставлению метаданных (например, информация о смещении слушателя включена в данные 301 локации прослушивания, показанные на фиг. 3) для ввода поступательного движения головы слушателя. Метаданные могут быть использованы, например, для интерфейса для данных смещения сцены. Метаданные (например, информация о смещении слушателя) могут быть получены посредством использования отслеживающего устройства, которое поддерживает отслеживание 3DoF+ или 6DoF.In one example, the present invention relates to providing metadata (eg, listener displacement information is included in listening location data 301 shown in FIG. 3) to input translational movement of the listener's head. The metadata can be used, for example, to interface to scene offset data. Metadata (eg, listener bias information) can be obtained through the use of a tracker that supports 3DoF+ or 6DoF tracking.

В одном примере метаданные (например, информация о смещении слушателя, в частности смещение головы слушателя, или, эквивалентно, смещение сцены) могут быть представлены посредством следующих трех параметров: sd_azimuth, sdelevation и sd_radius, относящихся к азимуту, углу подъема и радиусу (сферические координаты) смещения головы слушателя (или смещения сцены).In one example, metadata (e.g., listener displacement information, particularly listener head displacement, or equivalently stage displacement) may be represented by the following three parameters: sd_azimuth, sdelevation, and sd_radius, relating to azimuth, elevation, and radius (spherical coordinates ) displacement of the listener's head (or stage displacement).

Синтаксис для этих параметров представлен в нижеследующей таблице.The syntax for these parameters is shown in the following table.

sd_azimuthsd_azimuth

это поле обозначает положение азимута смещения сцены.this field denotes the scene offset azimuth position.

Это поле может иметь значения от -180 до 180 This field can have values from -180 to 180

sd_elevationsd_elevation

это поле обозначает положение угла подъема смещения сцены.This field denotes the stage offset elevation angle position.

Это поле может иметь значения от -90 до 90This field can have values from -90 to 90

sd_radiussd_radius

это поле обозначает радиус смещения сцены.this field indicates the radius of the scene offset.

Это поле может иметь значения от 0,015626 до 0,25This field can have values from 0.015626 to 0.25

В другом примере (например, информация о смещении слушателя) могут быть представлены тремя параметрами sd_x, sd_y, sd_z в декардовых координатах, за счет чего снизится обработка данных со сферических координат до декардовых координат. Метаданные могут быть основаны на следующем синтаксеIn another example (for example, information about the listener's displacement) can be represented by three parameters sd_x, sd_y, sd_z in Deckard coordinates, thereby reducing the processing of data from spherical coordinates to Deckard coordinates. Metadata can be based on the following syntax

Как описано выше, вышеприведенный синтаксис или эквиваленты этого синтаксиса могут сигнально передавать информацию, относящуюся к поворотам вокруг оси х, у, z.As described above, the above syntax or equivalents to this syntax may signal information related to rotations about the x, y, z axis.

В одном примере настоящего изобретения обработка углов смещения сцены для каналов и объектов может быть улучшена за счет расширения уравнений, которые учитывают изменения положения головы пользователя. То есть, при обработке положений объекта могут учитывать (например, могут быть основаны, по меньшей мере частично) информацию о смещении слушателя.In one example of the present invention, the processing of scene offset angles for channels and objects can be improved by extending the equations to account for changes in the user's head position. That is, processing of object positions may take into account (eg, be based at least in part on) information about the listener's displacement.

Пример способа 500 обработки информации о положении, указывающей положение объекта для звукового объекта, продемонстрирован на блок-схеме на фиг. 5. Этот способ может быть выполнен посредством декодера, такого как декодер MPEG-H 3D audio. Система 300 рендеринга звука по фиг. 3 может выступать в качестве примера такого декодера.An example of a method 500 for processing position information indicating the position of an object for an audio object is shown in a flowchart in FIG. 5. This method can be performed by a decoder such as an MPEG-H 3D audio decoder. The audio rendering system 300 of FIG. 3 can act as an example of such a decoder.

На первом этапе (не показан на фиг. 5) принимают звуковое содержимое, включающее звуковой объект и соответствующую информацию о положении, например, из битового потока кодированного звука. Затем способ может дополнительно включать декодирование кодированного звукового содержимого для получения звукового объекта и информации о положении.In a first step (not shown in FIG. 5), audio content including an audio object and corresponding position information, for example from an encoded audio bitstream, is received. The method may then further include decoding the encoded audio content to obtain audio object and position information.

На этапе S510 получают (например, принимают) информацию об ориентации слушателя. Информация об ориентации слушателя может указывать ориентацию головы слушателя.At step S510, information about the orientation of the listener is obtained (eg, received). The listener orientation information may indicate the orientation of the listener's head.

На этапе S520 получают (например, принимают) информацию о смещении слушателя. Информация о смещении слушателя может указывать смещение головы слушателя.At step S520, listener offset information is acquired (eg, received). The listener displacement information may indicate the displacement of the listener's head.

На этапе S530 определяют положение объекта из информации о положении. Например, положение объекта (например, в рамках азимута, угла подъема, радиуса или х, у, z или их эквивалентов) могут извлечь из информации о положении. Определение положения объекта также может быть основано, по меньшей мере частично, на информации относительно геометрии расположения динамиков одного или более (реальных или виртуальных) динамиков в среде прослушивания. Если радиус не включен в информацию о положении для этого звукового объекта, декодер может устанавливать значение радиуса по умолчанию (например, 1 м). В некоторых вариантах осуществления значение по умолчанию может зависеть от геометрии расположения динамиков.In step S530, the position of the object is determined from the position information. For example, the position of an object (eg, in terms of azimuth, elevation, radius, or x, y, z, or equivalents) may be extracted from the position information. Determining the position of an object may also be based, at least in part, on information regarding the speaker geometry of one or more (real or virtual) speakers in the listening environment. If the radius is not included in the position information for this audio object, the decoder may set the radius to a default value (eg, 1 m). In some embodiments, the default value may depend on the geometry of the speakers.

Следует отметить, что этапы S510, S520 и S520 могут быть выполнены в любом порядке.It should be noted that steps S510, S520 and S520 may be performed in any order.

На этапе S540 положение объекта, определенное на этапе S530, модифицируют на основании информации о смещении слушателя. Это могут выполнить посредством применения поступательного перемещения к положению объекта в соответствии с информацией о смещении (например, в соответствии со смещением головы слушателя). Таким образом, как определено, модификацию положения объекта могут относить к корректировке положения объекта для смещения головы слушателя (например, смещение из номинального положения прослушивания). В частности, модификация положения объекта на основании информации о смещении слушателя может быть выполнена посредством поступательного перемещения положения объекта с использованием вектора, который положительно коррелирует с амплитудой и отрицательно коррелирует с направлением вектора смещения головы слушателя из номинального положения прослушивания. Пример такого поступательного перемещения схематически проиллюстрирован на фиг. 2.In step S540, the object position determined in step S530 is modified based on the listener displacement information. This can be accomplished by applying a translational movement to the position of the object in accordance with the displacement information (eg, in accordance with the displacement of the listener's head). Thus, as defined, object position modification may refer to an adjustment of the object position to move the listener's head (eg, a shift from the nominal listening position). In particular, modification of the object's position based on the listener's displacement information can be accomplished by translationally moving the object's position using a vector that is positively correlated with the amplitude and negatively correlated with the direction of the listener's head displacement vector from the nominal listening position. An example of such translational movement is illustrated schematically in FIG. 2.

На этапе S550 модифицированное положение объекта, полученное на этапе S540, дополнительно модифицируют на основании информации об ориентации слушателя. Например, это могут осуществить посредством применения поворотного преобразования к модифицированному положению объекта в соответствии с информацией об ориентации слушателя. Этот поворот может представлять собой, например, поворот относительно головы слушателя или номинального положения прослушивания. Поворотное преобразование может быть выполнено посредством алгоритма смещения сцены.In step S550, the modified object position obtained in step S540 is further modified based on the listener orientation information. For example, this may be accomplished by applying a rotational transformation to a modified object position in accordance with the listener's orientation information. This rotation may be, for example, a rotation relative to the listener's head or nominal listening position. Rotational transformation can be performed using a scene shifting algorithm.

Как отмечено выше, компенсацию отклонения пользователя (т.е. модификацию положения объекта на основании информации о смещении слушателя) принимают во внимание при применении поворотного преобразования. Например, применение поворотного преобразования может включать:As noted above, user displacement compensation (ie, modification of the object's position based on listener displacement information) is taken into account when applying a rotational transform. For example, applying a rotation transform might include:

• вычисление матрицы поворотного преобразования (на основании ориентации пользователя, например информации об ориентации слушателя);• calculating a rotation transformation matrix (based on user orientation, such as listener orientation information);

• конвертирование положения объекта из сферических в декартовы координаты;• converting the object's position from spherical to Cartesian coordinates;

• применение поворотного преобразования к звуковым объектам, компенсирующим отклонение положения пользователя (т.е. к модифицированному положению объекта); и• applying a rotational transformation to audio objects that compensate for the deviation of the user's position (ie, to a modified object position); And

• конвертирование положения объекта после поворотного преобразования обратно из декартовых в сферические координаты.• converting the object's position after a rotational transformation back from Cartesian to spherical coordinates.

На следующем этапе S560 (не показан на фиг. 5) способ 500 может включать рендеринг звукового объекта на одном или более реальных или виртуальных динамиках в соответствии с дополнительно модифицированным положением объекта. С этой целью дополнительно модифицированное положение объекта могут отрегулировать для формата ввода, используемого модулем рендеринга MPEG-H 3D Audio (например, модулем 320 рендеринга звукового объекта, описанным выше). Вышеупомянутые один или более (реальных или виртуальных) динамиков могут представлять собой, например, часть гарнитуры или могут представлять собой часть композиции динамиков (например, композиции динамиков 2.1, композиции динамиков 5.1, композиции динамиков 7.1 и т.д.). В некоторых вариантах осуществления рендеринг звукового объекта могут выполнять, например, для левого и правого динамиков гарнитуры.In a next step S560 (not shown in FIG. 5), method 500 may include rendering an audio object on one or more real or virtual speakers in accordance with a further modified position of the object. To this end, the further modified object position may be adjusted for the input format used by the MPEG-H 3D Audio renderer (eg, audio object renderer 320 described above). The above one or more (real or virtual) speakers may be, for example, part of a headset, or may be part of a speaker arrangement (eg, a 2.1 speaker arrangement, a 5.1 speaker arrangement, a 7.1 speaker arrangement, etc.). In some embodiments, the audio object may be rendered to, for example, the left and right speakers of a headset.

Цель этапов S540 и S550, описанных выше, заключается в следующем. А именно, модификацию положения объекта и дополнительную модификацию модифицированного положения объекта выполняют таким образом, что звуковой объект после рендеринга на одном или более (реальных или виртуальных) динамиках в соответствии с дополнительно модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания. Это фиксированное положение звукового объекта должно психоакустически восприниматься независимо от смещения головы слушателя из номинального положения прослушивания и независимо от ориентации головы слушателя относительно номинальной ориентации. Иными словами, звуковой объект могут воспринимать как перемещающийся (поступательно) относительно головы слушателя, когда голова слушателя выполняет смещение из номинального положения прослушивания. Подобным образом, звуковой объект могут воспринимать как перемещающийся (поворачивающийся) относительно головы слушателя, когда голова слушателя выполняет изменение ориентации из номинальной ориентации. Таким образом, слушатель может воспринимать близкий звуковой объект под разными углами и с разных расстояний посредством движения его головы.The purpose of steps S540 and S550 described above is as follows. Namely, the modification of the object position and the further modification of the modified object position are performed such that the sound object, after rendering on one or more (real or virtual) speakers in accordance with the further modified object position, is psychoacoustically perceived by the listener as arising from a fixed position relative to the nominal listening position . This fixed position of the sound object must be psychoacoustically perceived regardless of the displacement of the listener's head from the nominal listening position and regardless of the orientation of the listener's head relative to the nominal orientation. In other words, the sound object may be perceived as moving (translationally) relative to the listener's head when the listener's head performs a displacement from the nominal listening position. Likewise, an audio object may be perceived as moving (rotating) relative to the listener's head when the listener's head makes a change in orientation from its nominal orientation. Thus, the listener can perceive a close sound object from different angles and distances through the movement of his head.

Модификацию положения объекта и дополнительную модификацию модифицированного положения объекта на этапах S540 и S550 соответственно могут выполнить в контексте (поворотного/поступательного) смещения звуковой сцены, например, посредством блока 310 смещения звуковой сцены, описанного выше.The object position modification and further modification of the modified object position in steps S540 and S550, respectively, can be performed in the context of (rotational/translational) sound stage shifting, for example, by the sound stage shifting unit 310 described above.

Следует отметить, что конкретные этапы могут быть пропущены в зависимости от данного определенного случая использования. Например, если данные 301 локации прослушивания содержат только информацию о смещении слушателя (но не содержат информацию об ориентации слушателя, или только информацию об ориентации слушателя, указывающую, что отсутствует отклонение ориентации головы слушателя от номинальной ориентации), этап S550 могут пропустить. Затем, рендеринг на этапе S560 будут выполнять в соответствии с модифицированным положением объекта, определенным на этапе S540. Подобным образом, если данные 301 локации прослушивания содержат только информацию об ориентации слушателя (но не содержат информацию о смещении слушателя, или только информацию о смещении слушателя, указывающую, что отсутствует отклонение положения головы слушателя от номинального положения прослушивания), этап S540 могут пропустить. Затем, этап S550 будет относиться к модификации положения объекта, определенного на этапе S530, на основании информации об ориентации слушателя. Рендеринг на этапе S560 будут выполнять в соответствии с модифицированным положением, определенным на этапе S550.It should be noted that specific steps may be skipped depending on the specific use case. For example, if the listening location data 301 contains only listener displacement information (but does not contain listener orientation information, or only listener orientation information indicating that there is no deviation of the listener's head orientation from the nominal orientation), step S550 may be skipped. Then, rendering in step S560 will be performed in accordance with the modified object position determined in step S540. Likewise, if the listening location data 301 contains only listener orientation information (but does not contain listener offset information, or only listener offset information indicating that there is no deviation of the listener's head position from the nominal listening position), step S540 may be skipped. Next, step S550 will relate to modifying the position of the object determined in step S530 based on the listener's orientation information. The rendering in step S560 will be performed in accordance with the modified position determined in step S550.

В целом, в настоящем изобретении предложено обновление положения для положений объектов, полученных как часть звукового содержимого на основе объектов (например, информации 302 о положении вместе со звуковыми данными 322), на основании данных 301 локации прослушивания для слушателя.In general, the present invention proposes position updating for object positions obtained as part of object-based audio content (eg, position information 302 along with audio data 322) based on listening location data 301 for the listener.

Во-первых, определяют положение объекта (или положение канала) Это могут выполнять в контексте (например, как часть) этапа 530 способа 500.First, determine the position of the object (or position of the channel) This may be performed in the context of (e.g., as part of) step 530 of method 500.

Для сигналов на основе каналов радиус г могут определять следующим образом:For channel-based signals, the radius r can be determined as follows:

- если предполагаемый громкоговоритель (канала для входного сигнала на основе канала) существует в компоновке громкоговорителей воспроизведения и расстояние до компоновки воспроизведения известно, радиус r установлен на расстояние до громкоговорителя (например, в см);- if the intended loudspeaker (of a channel for a channel-based input signal) exists in the playback speaker layout and the distance to the playback layout is known, the radius r is set to the distance to the loudspeaker (eg in cm);

- если предполагаемый громкоговоритель не существует в компоновке громкоговорителей воспроизведения, но расстояние до громкоговорителей воспроизведения (например, от номинального положения прослушивания) известно, радиус r установлен на максимальное расстояние до громкоговорителя воспроизведения;- if the intended loudspeaker does not exist in the playback loudspeaker arrangement, but the distance to the playback loudspeakers (for example, from the nominal listening position) is known, the radius r is set to the maximum distance to the playback loudspeaker;

- если предполагаемый громкоговоритель не существует в компоновке громкоговорителей воспроизведения и расстояние до громкоговорителя воспроизведения не известно, радиус r установлен на значение по умолчанию (например, 1023 см).- if the intended loudspeaker does not exist in the playback speaker layout and the distance to the playback speaker is not known, the radius r is set to the default value (for example, 1023 cm).

Для сигналов на основе объектов радиус г определяют следующим образом:For object-based signals, the radius r is determined as follows:

- если расстояние до объекта известно (например, от производственных средств и из производственных форматов и передано в prodMetadataConfig(), радиус г устанавливают на известное расстояние до объекта (например, переданное через goa_bsObjectDistance[] (в см) согласно таблице AMD5.7 стандарта MPEG-H 3D Audio);- if the distance to the object is known (for example, from production tools and from production formats and passed to prodMetadataConfig(), the radius r is set to the known distance to the object (for example, passed through goa_bsObjectDistance[] (in cm) according to the AMD5.7 table of the MPEG standard -H 3D Audio);

- если расстояние до объекта известно из информации о положении (например, из метаданных объекта и передано в object_metadata()), радиус r установлен на расстояние до объекта, переданное в информации о положении (например, на радиус [] (в см), переданный с метаданными объектов). Радиус r может быть передан в соответствии с разделами: «масштабирование метаданных объекта» и «ограничение метаданных объекта», представленными ниже.- if the distance to the object is known from the position information (for example, from the object's metadata and passed to object_metadata()), the radius r is set to the distance to the object passed in the position information (for example, to the radius [] (in cm) passed with object metadata). The radius r can be passed according to the sections: “object metadata scaling” and “object metadata constraint” presented below.

Масштабирование метаданных объектаScaling object metadata

В качестве необязательного этапа в контексте определения положения объекта положение объекта определенное из информации о положении, может быть масштабировано. Это может включать применение коэффициента масштабирования для отмены масштабирования кодера входных данных для каждого компонента. Это может быть выполнено для каждого объекта. Фактическое масштабирование положения объекта может быть реализовано наряду с псевдокодом, представленным ниже:As an optional step in the context of determining the position of an object, the position of the object determined from position information can be scaled. This may involve applying a scaling factor to descale the input data encoder for each component. This can be done for each object. The actual scaling of the object's position can be implemented along with the pseudo code below:

Ограничение метаданных объектаLimiting Object Metadata

В качестве необязательного этапа в контексте определения положения объекта (возможно масштабированное) положение объекта р=(az,el,r), определенное из информации о положении, может быть ограничено. Это может включать применение ограничения декодированных значений для каждого компонента для удержания значений в допустимом диапазоне. Это может быть выполнено для каждого объекта. Фактическое ограничение положения объекта может быть реализовано в соответствии с функциональными возможностями псевдокода, представленного ниже:As an optional step in the context of determining the position of an object (possibly scaled), the object position p=(az,el,r) determined from the position information may be constrained. This may include applying a per-component decoded value constraint to keep the values within an acceptable range. This can be done for each object. The actual constraint on the object's position can be implemented according to the functionality of the pseudocode presented below:

После этого, определенное (и необязательно масштабированное и/или ограниченное) положение объекта может быть конвертировано в заданную систему координат, такую как, например, система координат в соответствии с «обычным соглашением», при котором азимут 0° находится на правом ухе (положительные значения идут против часовой стрелки) и угол подъема 0° находится вверху головы (положительные значения идут по направлению вниз). Таким образом, положение объекта р может быть конвертировано в положение р' согласно «обычному» соглашению. Это обеспечивает положение объекта р'сAfter this, the defined (and optionally scaled and/or constrained) position of the object can be converted to a given coordinate system, such as, for example, a coordinate system according to the "usual convention" in which 0° azimuth is at the right ear (positive values are counterclockwise) and 0° elevation is at the top of the head (positive values) values go downwards). Thus, the position of an object p can be converted into a position p' according to the "usual" convention. This provides the object's position p's

с неизменным радиусом r.with constant radius r.

В то же время смещение головы слушателя, указанное посредством информации о смещении слушателя может быть конвертировано в заданную систему координат. С использованием «обычного соглашения» это составляетAt the same time, the listener's head offset indicated by the listener offset information can be converted to a given coordinate system. Using the "usual convention" this amounts to

с неизменным радиусом roffset.with a constant radius r offset .

Следует отметить, что конвертирование в заданную систему координат как для положения объекта, так и для смещения головы слушателя может быть выполнено в контексте этапа S530 или этапа S540.It should be noted that conversion to a given coordinate system for both the object position and the listener's head displacement may be performed in the context of step S530 or step S540.

Обновление фактического положения может быть выполнено в контексте (например, в качестве части) этапа S540 способа 500. Обновление положения может включать следующие этапы.The actual position update may be performed in the context of (eg, as part of) step S540 of method 500. The position update may include the following steps.

В качестве первого этапа положение р или, если был выполнен перенос в заданную систему координат, положение р', переносят в декартовы координаты (х, у, z). Далее без предполагаемого ограничения процесс будет описан для положения р' в заданной системе координат. Также без предполагаемого ограничения следующую ориентацию/направление осей координат можно предполагать следующим образом: ось х указывает вправо (показана от головы слушателя в номинальной ориентации), ось у указывает направление прямо вперед и ось z указывает прямо вверх. В то же время, смещение головы слушателя, указанное посредством информации о смещении слушателя конвертировано в декартовы координаты.As a first step, position p or, if a transfer to a given coordinate system has been carried out, position p', is transferred to Cartesian coordinates (x, y, z). Further, without any intended limitation, the process will be described for the position p' in a given coordinate system. Also without intended limitation, the following orientation/direction of the coordinate axes can be assumed to be: the x-axis points to the right (shown from the listener's head in the nominal orientation), the y-axis points straight ahead, and the z-axis points straight up. At the same time, the listener's head offset indicated by the listener offset information converted to Cartesian coordinates.

В качестве второго этапа положение объекта в декартовых координатах сдвигают (поступательно перемещают) в соответствии со смещением головы слушателя (смещением сцены) таким образом, как описано выше. Это могут выполнять посредствомAs a second step, the position of the object in Cartesian coordinates is shifted (progressively moved) in accordance with the displacement of the listener's head (scene displacement) in the manner described above. This can be done through

Вышеуказанное поступательное перемещение представляет собой пример модификации положения объекта на основании информации о смещении слушателя на этапе S540 способа 500.The above translational movement is an example of modifying the object's position based on the listener's displacement information in step S540 of the method 500.

Сдвинутое положение объекта в декартовых координатах конвертируют в сферические координаты и могут называть р''. Сдвинутое положение объекта могут выражать в заданной системе координат в соответствии с обычным соглашением как The shifted position of the object in Cartesian coordinates is converted to spherical coordinates and may be called p''. The shifted position of an object can be expressed in a given coordinate system according to the usual convention as

Когда присутствуют смещения головы слушателя, которые обеспечивают небольшое изменение параметра радиуса (т.е. r'≈r), модифицированное положение р'' объекта может быть повторно определено как When there are listener head displacements that provide a small change in the radius parameter (i.e. r'≈r), the modified object position p'' can be redefined as

В другом примере, когда присутствуют большие смещения головы слушателя, которые могут обеспечить значительное изменение параметра радиуса (т.е. r''»r), модифицированное положение р'' объекта также может быть определено как вместо с модифицированным параметром радиуса r'.In another example, when there are large displacements of the listener's head that can provide a significant change in the radius parameter (i.e. r''»r), the modified position p'' of the object can also be defined as instead of with a modified radius parameter r'.

Соответствующее значение модифицированного параметра радиуса r' могут получить из расстояния смещения головы слушателя (т.е. ) и начального параметра радиуса (т.е. ), (см., например, фиг. 1 и 2). Например, модифицированный параметр радиуса r' могут определить на основании следующего тригонометрического отношения:The corresponding value of the modified radius parameter r' can be obtained from the distance of the listener's head displacement (i.e. ) and the initial radius parameter (i.e. ), (see, for example, Fig. 1 and 2). For example, the modified radius parameter r' can be determined based on the following trigonometric relationship:

Преобразование этого модифицированного параметра радиуса r' в усиление объекта/канала и его применение для последующего рендеринга звука может значительно улучшить эффекты восприятия изменения уровня вследствие движений пользователя. За счет обеспечения такой модификации параметра радиуса r' обеспечивается «адаптивная зона наилучшего восприятия». Это будет означать, что система рендеринга MPEG динамически регулирует положение зоны наилучшего восприятия согласно текущей локации слушателя. В общем, рендеринг звукового объекта в соответствии с модифицированным (или дополнительно модифицированным) положением объекта может быть основан на модифицированном параметре радиуса r'. В частности, коэффициенты усиления объекта/канала для рендеринга звукового объекта могут быть основаны на (например, модифицированы на основании) модифицированном параметре радиуса r'.Converting this modified radius parameter r' into an object/channel gain and applying it to subsequent audio rendering can greatly improve the effects of perceiving level changes due to user movement. By providing such a modification of the radius parameter r', an “adaptive sweet spot” is provided. This will mean that the MPEG rendering system dynamically adjusts the position of the sweet spot according to the listener's current location. In general, rendering an audio object according to a modified (or further modified) object position may be based on a modified radius parameter r'. In particular, object/channel gains for rendering an audio object may be based on (eg, modified based on) a modified radius parameter r'.

В другом примере во время установки и рендеринга громкоговорителя воспроизведения (например, на этапе S560, представленном выше), смещение сцены может быть отключено. Однако доступно необязательное включение смещения сцены. Это обеспечивает создание модулем рендеринга 3DoF+ динамически регулируемой зоны наилучшего восприятия в соответствии с текущей локацией и ориентацией слушателя.In another example, during setup and rendering of the playback speaker (eg, step S560 above), scene shifting may be disabled. However, the optional inclusion of scene shift is available. This ensures that the 3DoF+ renderer creates a dynamically adjustable sweet spot based on the listener's current location and orientation.

Следует отметить, что этап конвертирования положения объекта и смещения головы слушателя в декартовы координаты является необязательным, и поступательное перемещение / сдвиг (модификацию) в соответствии со смещением головы слушателя (смещением сцены) могут выполнять в любой подходящей системе координат. Иными словами, выбор декартовых координат в выше представленном описании следует понимать, как неограничивающий пример.It should be noted that the step of converting the object position and listener's head displacement into Cartesian coordinates is optional, and the translational movement/shift (modification) according to the listener's head displacement (scene displacement) can be performed in any suitable coordinate system. In other words, the choice of Cartesian coordinates in the above description should be understood as a non-limiting example.

В некоторых вариантах осуществления обработка смещения сцены (включая модификацию положения объекта и/или дополнительную модификацию модифицированного положения объекта) может быть включена или выключена посредством флага (поле, элемент, установочный бит) в битовом потоке (например, элемент useTrackingMode). Подпункты «17.3 Interface for local loudspeaker setup and rendering)) и «17.4 Interface for binaural room impulse responses (BRIRs)» в ISO/IEC 23008-3 содержат описания элемента useTrackingMode, активирующего обработку смещения сцены. В контексте настоящего изобретения элемент useTrackingMode должен определять (подпункт 17.3), должна или не должна происходить обработка значений смещения сцены, отправленных посредством интерфейсов mpegh3daSceneDisplacementData() и mpegh3daPositionalSceneDisplacementData(). Альтернативно или дополнительно (подпункт 17.4) поле useTrackingMode должно определять, соединено ли отслеживающее устройство и должен ли быть обработан бинауральный рендеринг в особом режиме отслеживания положения головы пользователя, что обозначает, что обработка значений смещения сцены, отправленных посредством интерфейсов mpegh3daSceneDisplacementData() и mpegh3daPositionalSceneDisplacementData(), должна быть осуществлена.In some embodiments, scene offset processing (including object position modification and/or further modification of the modified object position) may be enabled or disabled via a flag (field, element, set bit) in the bitstream (eg, a useTrackingMode element). The subclauses “17.3 Interface for local loudspeaker setup and rendering) and “17.4 Interface for binaural room impulse responses (BRIRs)” in ISO/IEC 23008-3 contain descriptions of the useTrackingMode element that enables scene offset processing. In the context of the present invention, the useTrackingMode element shall determine (clause 17.3) whether processing of scene offset values sent through the mpegh3daSceneDisplacementData() and mpegh3daPositionalSceneDisplacementData() interfaces should or should not occur. Alternatively or additionally (subclause 17.4), the useTrackingMode field shall specify whether a tracking device is connected and whether the binaural rendering should be processed in a specific user head tracking mode, which means that the processing of scene offset values sent through the mpegh3daSceneDisplacementData() and mpegh3daPositionalSceneDisplacementData() interfaces , must be implemented.

Способы и системы, описанные в настоящем документе, могут быть реализованы как программное обеспечение, аппаратно-программное обеспечение и/или аппаратное обеспечение. Некоторые компоненты могут быть реализованы, например, как программное обеспечение, запускаемое на процессоре цифровой обработки сигналов или на микропроцессоре. Другие компоненты могут быть реализованы, например, как аппаратное обеспечение или как интегральные схемы специального назначения. Сигналы, которые встречаются в описанных способах и системах, можно хранить на носителях, таких как оперативное запоминающее устройство или оптические носители информации. Они могут передаваться по сетям, таким как радиосети, спутниковые сети, беспроводные сети или проводные сети, например Интернет. Типичными устройствами, использующими способы и системы, описанные в настоящем документе, являются переносные электронные устройства или другая бытовая аппаратура, которая используется для хранения и/или формирования звуковых сигналов.The methods and systems described herein may be implemented as software, firmware, and/or hardware. Some components may be implemented, for example, as software running on a digital signal processor or microprocessor. Other components may be implemented, for example, as hardware or as special purpose integrated circuits. The signals encountered in the described methods and systems may be stored on media such as random access memory or optical storage media. They can be transmitted over networks such as radio networks, satellite networks, wireless networks or wired networks such as the Internet. Typical devices using the methods and systems described herein are portable electronic devices or other consumer equipment that are used to store and/or generate audio signals.

Хотя в настоящем документе выполняют ссылки на MPEG и, в частности, MPEG-H 3D Audio, настоящее изобретение не должно быть истолковано как ограниченное этими стандартами. Напротив, как станет понятно специалистам в данной области техники, настоящее изобретение может найти преимущественное применение также в других стандартах кодирования звука.Although references are made herein to MPEG and, in particular, MPEG-H 3D Audio, the present invention should not be construed as limited to these standards. On the contrary, as will be appreciated by those skilled in the art, the present invention may also find advantageous application in other audio coding standards.

Кроме того, хотя в настоящем документе часто выполняют ссылки на небольшие смещения положения головы слушателя (например, из номинального положения прослушивания), настоящее изобретение не ограничено небольшими смещениями положения и может в целом применяться для произвольного смещения положения головы слушателя.In addition, although reference is often made herein to small shifts in the position of a listener's head (eg, from a nominal listening position), the present invention is not limited to small shifts in position and can generally be applied to arbitrary shifts in the position of a listener's head.

Следует отметить, что описание и графические материалы иллюстрируют только принципы предложенных способов, систем и аппаратов. Специалисты в данной области техники будут способны реализовать различные схемы, которые, хотя явно не описаны или показаны в настоящем документе, осуществляют принципы настоящего изобретения и включены в его сущность и объем. Более того, все примеры и вариант осуществления, изложенные в настоящем документе, в первую очередь явным образом предназначены для пояснительных целей, чтобы помочь читателю в понимании принципов предложенного способа. Кроме того, все утверждения в настоящем документе, представляющие принципы, аспекты и варианты осуществления настоящего изобретения, а также их конкретные примеры, предполагаются как охватывающие их эквиваленты.It should be noted that the description and graphic materials illustrate only the principles of the proposed methods, systems and apparatus. Those skilled in the art will be able to implement various circuits that, although not expressly described or shown herein, implement the principles of the present invention and are included within the spirit and scope thereof. Moreover, all examples and embodiment set forth herein are primarily and expressly intended for explanatory purposes to assist the reader in understanding the principles of the proposed method. In addition, all statements herein presenting the principles, aspects and embodiments of the present invention, as well as specific examples thereof, are intended to cover their equivalents.

В дополнение к выше представленному, различные примерные реализации и примерные варианты осуществления настоящего изобретения станут понятны из пронумерованных примеров вариантов осуществления (ППВО), перечисленных ниже, которые не являются пунктами формулы изобретения.In addition to the above, various exemplary implementations and exemplary embodiments of the present invention will become clear from the numbered example embodiments (NEXs) listed below, which are not claims.

Первый ППВО относится к способу декодирования кодированного битового потока звукового сигнала, причем указанный способ включает: прием аппаратом 300 декодирования звука кодированного битового потока (302, 322) звукового сигнала, при этом кодированный битовой поток звукового сигнала содержит кодированные звуковые данные (322) и метаданные, соответствующие по меньшей мере одному звуковому сигналу (302) объекта; декодирование аппаратом (300) декодирования звука кодированного битового потока (302, 322) звукового сигнала для получения представления нескольких звуковых источников; прием аппаратом (300) декодирования звука данных (301) локации прослушивания; генерирование аппаратом (300) декодирования звука данных (321) положений звукового объекта, причем в данных (321) положений звукового объекта описано несколько источников звука относительно локации прослушивания на основании данных (301) локации прослушивания.The first APR relates to a method for decoding an encoded bitstream of an audio signal, the method comprising: receiving, by an audio decoding apparatus 300, an encoded bitstream (302, 322) of an audio signal, wherein the encoded bitstream of the audio signal contains encoded audio data (322) and metadata, corresponding to at least one audio signal (302) of the object; decoding by the audio decoding apparatus (300) the encoded bit stream (302, 322) of the audio signal to obtain a representation of multiple audio sources; reception by the device (300) of audio decoding of listening location data (301); generating by the audio decoding apparatus (300) sound object position data (321), wherein the sound object position data (321) describes multiple sound sources relative to the listening location based on the listening location data (301).

Второй ППВО относится к способу согласно первому ППВО, при этом данные (301) локации прослушивания основаны на первом наборе первых данных положения поступательного перемещения и втором наборе вторых данных положения и ориентации поступательного перемещения.The second TPPR refers to the method according to the first TPPR, wherein the listening location data (301) is based on the first set of first translational position data and the second set of second translational position and orientation data.

Третий ППВО относится к способу согласно второму ППВО, при этом либо первые данные положения поступательного перемещения, либо вторые данные положения поступательного перемещения основаны на по меньшей мере одном из набора сферических координат или набора декартовых координат.The third TDPR refers to the method according to the second TDPR, wherein either the first translational position data or the second translational position data is based on at least one of a set of spherical coordinates or a set of Cartesian coordinates.

Четвертый ППВО относится к способу согласно первому ППВО, при этом данные (301) локации прослушивания получены посредством входного интерфейса декодера MPEG-H 3D Audio.The fourth TPPR refers to the method according to the first TPPR, wherein the listening location data (301) is obtained through the input interface of the MPEG-H 3D Audio decoder.

Пятый ППВО относится к способу согласно первому ППВО, при этом кодированный битовый поток звукового сигнала содержит элементы синтаксиса битового потока MPEG-H 3D Audio, и причем элементы синтаксиса битового потока MPEG-H 3D Audio содержат кодированные звуковые данные (322) и метаданные, соответствующие по меньшей мере одному звуковому сигналу (302) объекта.The fifth VPOP relates to the method according to the first VPOP, wherein the encoded audio bitstream comprises MPEG-H 3D Audio bitstream syntax elements, and wherein the MPEG-H 3D Audio bitstream syntax elements comprise encoded audio data (322) and metadata corresponding to at least one sound signal (302) of the object.

Шестой ППВО относится к способу согласно первому ППВО, который дополнительно включает рендеринг аппаратом (300) декодирования звука на нескольких громкоговорителях нескольких звуковых источников, при этом процесс рендеринга совместим с по меньшей мере стандартом MPEG-H 3D Audio.The sixth VPRO refers to the method according to the first VPRO, which further includes rendering by the apparatus 300 of audio decoding on multiple speakers of multiple audio sources, the rendering process being compatible with at least the MPEG-H 3D Audio standard.

Седьмой ППВО относится к способу согласно первому ППВО, который дополнительно включает конвертирование аппаратом (300) декодирования звука на основании трансляции данных (301) локации прослушивания положения р, соответствующего по меньшей мере одному звуковому сигналу (302) объекта, во второе положение р'', соответствующее положениям (321) звукового объекта.The seventh OPER refers to the method according to the first OPER, which further includes converting the audio decoding apparatus (300) based on the broadcast of listening location data (301) of a position p corresponding to at least one audio signal (302) of the object into a second position p'', corresponding to the positions (321) of the sound object.

Восьмой ППВО относится к способу согласно седьмому ППВО, при этом положение р' для положений звукового объекта в заданной системе координат (например, в соответствии с обычным соглашением) определяют на основании:The eighth OPER refers to the method according to the seventh OPER, wherein the position p' for the positions of the sound object in a given coordinate system (for example, in accordance with the usual convention) is determined based on:

причем az соответствует первому параметру азимута, соответствует первому параметру угла подъема и r соответствует первому параметру радиуса, в настоящем документе az' соответствует второму параметру азимута, соответствует второму параметру угла подъема и r' соответствует второму параметру радиуса, причем az0ffset соответствует третьему параметру азимута, соответствует третьему параметру угла подъема, и при этом az'0ffset соответствует четвертому параметру азимута, соответствует четвертому параметру угла подъема.where az corresponds to the first azimuth parameter, corresponds to the first elevation angle parameter and r corresponds to the first radius parameter, herein az' corresponds to the second azimuth parameter, corresponds to the second parameter of the elevation angle and r' corresponds to the second parameter of the radius, with az 0ffset corresponding to the third parameter of the azimuth, corresponds to the third parameter of the elevation angle, and at the same time az' 0ffset corresponds to the fourth parameter of the azimuth, corresponds to the fourth parameter of the elevation angle.

Девятый ППВО относится к способу согласно восьмому ППВО, причем сдвинутое положение р'' (321) звукового объекта для положения (302) звукового объекта определено в декартовых координатах (х, у, z) на основании:The ninth OPER refers to the method according to the eighth OPER, wherein the shifted position p'' (321) of the sound object for the position (302) of the sound object is determined in Cartesian coordinates (x, y, z) based on:

причем положение в декартовых координатах (х, у, z) содержит параметры х, у и z, и при этом x0ffset относится к первому параметру отклонения оси х, y0ffset относится к первому параметру отклонения оси у и z0ffset относится к первому параметру отклонения оси z.wherein the position in Cartesian coordinates (x, y, z) contains the parameters x, y and z, and wherein x 0ffset refers to the first x-axis deviation parameter, y 0ffset refers to the first y-axis deviation parameter, and z 0ffset refers to the first deviation parameter z axis

Десятый ППВО относится к способу согласно девятому ППВО, где параметры x0ffset, y0ffset и z0ffset основаны наThe tenth OPVO refers to the method according to the ninth OPPO, where the parameters x0ffset,y0ffsetAnd z0ffsetbased on

Одиннадцатый ППВО относится к способу согласно седьмому ППВО, при этом параметр az0ffset азимута относится к положению азимута смещения сцены и основан на:The eleventh TFR refers to the method according to the seventh TFR, wherein the azimuth parameter az 0ffset refers to the scene offset azimuth position and is based on:

причем sd_azimuth представляет собой параметр, указывающий смещение азимута сцены MPEG-H 3DA, при этом параметр угла подъема eloffset относится к положению угла подъема смещения сцены и основан на:wherein sd_azimuth is a parameter indicating the azimuth offset of the MPEG-H 3DA scene, wherein the elevation angle parameter el offset refers to the elevation angle position of the scene offset and is based on:

причем sd_elevation представляет собой параметр метаданных угла подъема, указывающий смещение угла подъема сцены MPEG-H 3DA, причем параметр радиуса r0ffset относится к радиусу смещения сцены и основан на:wherein sd_elevation is an elevation angle metadata parameter indicating the elevation angle offset of the MPEG-H 3DA scene, wherein the radius parameter r 0ffset refers to the scene offset radius and is based on:

при этом sd_radius представляет собой параметр метаданных радиуса, указывающий смещение радиуса сцены MPEG-H 3DA, и причем параметры X и Y представляют собой скалярные переменные.wherein sd_radius is a radius metadata parameter indicating the offset of the MPEG-H 3DA scene radius, and wherein the X and Y parameters are scalar variables.

Двенадцатый ППВО относится к способу согласно десятому ППВО, при этом параметр x0jjset относится к положению sd_x отклонения смещения сцены в направлении оси х; параметр yoffset относится к положению sd_у отклонения смещения сцены в направлении оси у; и параметр z0ffset относится к положению sd_z отклонения смещения сцены в направлении оси z.The twelfth TDPR refers to the method according to the tenth TDPR, wherein the parameter x 0jjset refers to the scene offset deviation position sd_x in the x-axis direction; the y offset parameter refers to the scene offset deviation position sd_y in the y-axis direction; and the parameter z 0ffset refers to the stage offset deviation position sd_z in the z-axis direction.

Тринадцатый ППВО относится к способу согласно первому ППВО, который дополнительно включает интерполяцию аппаратом декодирования звука первых данных положения, относящихся к данным (301) локации прослушивания и звуковому сигналу (102) объекта, со скоростью обновления.The thirteenth TARP refers to the method according to the first TARP, which further includes interpolating, by the audio decoding apparatus, the first position data related to the listening location data (301) and the object audio signal (102) at an update rate.

Четырнадцатый ППВО относится к способу согласно первому ППВО, который дополнительно включает определение аппаратом 300 декодирования звука эффективного энтропийного кодирования данных (301) локации прослушивания.The fourteenth OPER refers to the method according to the first OPER, which further includes determining by the audio decoding apparatus 300 an effective entropy encoding of the listening location data (301).

Пятнадцатый ППВО относится к способу согласно первому ППВО, при этом данные положения, относящиеся к локации (301) прослушивания, получают на основании информации от датчиков.The fifteenth OPER refers to the method according to the first OPER, wherein position data related to the listening location (301) is obtained based on information from the sensors.

Claims (25)

1. Способ (500) обработки информации о положении, указывающей положение объекта для звукового объекта, причем обработку осуществляют с использованием декодера MPEG-H 3D Audio, причем положение объекта может быть использовано для рендеринга звукового объекта, при этом способ включает:1. A method (500) for processing position information indicating the position of an object for an audio object, wherein the processing is performed using an MPEG-H 3D Audio decoder, wherein the position of the object can be used to render the audio object, wherein the method includes: получение (S510) информации об ориентации слушателя, указывающей ориентацию головы слушателя;obtaining (S510) listener orientation information indicating the listener's head orientation; получение (S520) информации о смещении слушателя, указывающей смещение головы слушателя относительно номинального положения прослушивания посредством входного интерфейса декодера MPEG-H 3D Audio;obtaining (S520) listener offset information indicating an offset of the listener's head relative to the nominal listening position through an input interface of the MPEG-H 3D Audio decoder; определение (S530) положения объекта из информации о положении;determining (S530) the position of the object from the position information; модификацию (S540) положения объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта; иmodifying (S540) the object's position based on the listener's displacement information by applying translational movement to the object's position; And дополнительную модификацию (S550) модифицированного положения объекта на основании информации об ориентации слушателя, причемfurther modifying (S550) the modified position of the object based on the listener orientation information, wherein когда информация о смещении слушателя указывает смещение головы слушателя из номинального положения прослушивания вследствие небольшого смещения положения, при этом небольшое смещение положения имеет абсолютное значение, составляющее 0,5 метра или менее 0,5 метра, расстояние между положением звукового объекта и положением прослушивания после смещения головы слушателя равно расстоянию между модифицированным положением звукового объекта и номинальным положением прослушивания.when the listener displacement information indicates the displacement of the listener's head from the nominal listening position due to a small position displacement, and the small position displacement has an absolute value of 0.5 meters or less than 0.5 meters, the distance between the position of the sound object and the listening position after the head displacement listener is equal to the distance between the modified sound object position and the nominal listening position. 2. Способ (500) по п. 1, отличающийся тем, что:2. Method (500) according to claim 1, characterized in that: модификацию (S540) положения объекта и дополнительную модификацию (S550) модифицированного положения объекта выполняют таким образом, что звуковой объект после рендеринга на одном или более реальных или виртуальных динамиках в соответствии с дополнительным модифицированным положением объекта психоакустически воспринимается слушателем как возникающий из фиксированного положения относительно номинального положения прослушивания независимо от смещения головы слушателя из номинального положения прослушивания и ориентации головы слушателя относительно номинальной ориентации.modification (S540) of the object position and further modification (S550) of the modified object position are performed such that the sound object, after rendering on one or more real or virtual speakers in accordance with the additional modified object position, is psychoacoustically perceived by the listener as arising from a fixed position relative to the nominal position listening regardless of the displacement of the listener's head from the nominal listening position and the orientation of the listener's head relative to the nominal orientation. 3. Способ (500) по п. 1 или 2, отличающийся тем, что:3. Method (500) according to claim 1 or 2, characterized in that: модификацию (S540) положения объекта на основании информации о смещении слушателя выполняют посредством поступательного перемещения положения объекта, равного смещению головы слушателя из номинального положения прослушивания, но в противоположном направлении.modification (S540) of the object position based on the listener displacement information is performed by progressively moving the object position equal to the displacement of the listener's head from the nominal listening position, but in the opposite direction. 4. Способ (500) по любому из пп. 1-3, отличающийся тем, что:4. Method (500) according to any one of paragraphs. 1-3, characterized in that: информация о смещении слушателя указывает смещение головы слушателя из номинального положения прослушивания, которое может быть достигнуто посредством движения верхней частью тела и/или головой слушателя.listener displacement information indicates displacement of the listener's head from the nominal listening position, which can be achieved by movement of the listener's upper body and/or head. 5. Способ (500) по любому из пп. 1-4, отличающийся тем, что дополнительно включает:5. Method (500) according to any one of paragraphs. 1-4, characterized in that it additionally includes: обнаружение ориентации головы слушателя посредством носимого и/или стационарного оборудования.detecting the listener's head orientation using wearable and/or stationary equipment. 6. Способ (500) по любому из пп. 1-5, отличающийся тем, что дополнительно включает:6. Method (500) according to any one of paragraphs. 1-5, characterized in that it additionally includes: обнаружение смещения головы слушателя из номинального положения прослушивания посредством носимого и/или стационарного оборудования.detection of the listener's head displacement from the nominal listening position using wearable and/or fixed equipment. 7. Способ (500) по любому из пп. 1-6, отличающийся тем, что расстояние между модифицированным положением звукового объекта и положением прослушивания после смещения преобразуется в усиление для модификации уровня звукового сигнала.7. Method (500) according to any one of paragraphs. 1-6, characterized in that the distance between the modified position of the sound object and the listening position after the offset is converted into gain to modify the level of the sound signal. 8. Декодер (300) MPEG-H 3D Audio для обработки информации о положении, указывающей положение (321) объекта для звукового объекта, причем положение объекта может быть использовано для рендеринга звукового объекта, при этом декодер содержит процессор и запоминающее устройство, соединенное с процессором, при этом процессор адаптирован для:8. An MPEG-H 3D Audio decoder (300) for processing position information indicating an object position (321) for an audio object, wherein the object position can be used to render the audio object, the decoder comprising a processor and a storage device coupled to the processor , while the processor is adapted for: получения информации об ориентации слушателя, указывающей ориентацию головы слушателя;obtaining listener orientation information indicating the orientation of the listener's head; получения информации о смещении слушателя, указывающей смещение головы слушателя относительно номинального положения прослушивания посредством входного интерфейса декодера MPEG-H 3D Audio;obtaining listener displacement information indicating a displacement of the listener's head relative to the nominal listening position through an input interface of the MPEG-H 3D Audio decoder; определения положения объекта из информации о положении;determining the position of an object from the position information; модификации положения объекта на основании информации о смещении слушателя за счет применения поступательного перемещения к положению объекта; иmodifying the position of an object based on information about the listener's displacement by applying translational movement to the position of the object; And дополнительной модификации модифицированного положения объекта на основании информации об ориентации слушателя, причемadditional modification of the modified position of the object based on information about the orientation of the listener, and когда информация о смещении слушателя указывает смещение головы слушателя из номинального положения прослушивания вследствие небольшого смещения положения, при этом небольшое смещение положения имеет абсолютное значение, составляющее 0,5 метра или менее 0,5 метра, процессор выполнен с возможностью сохранения расстояния между положением звукового объекта и положением прослушивания после смещения головы слушателя равным расстоянию между модифицированным положением звукового объекта и номинальным положением прослушивания.when the listener displacement information indicates a displacement of the listener's head from the nominal listening position due to a small position shift, wherein the small position shift has an absolute value of 0.5 meters or less than 0.5 meters, the processor is configured to maintain a distance between the position of the sound object and listening position after displacement of the listener's head equal to the distance between the modified position of the sound object and the nominal listening position.
RU2020130112A 2018-04-09 2019-04-09 Methods, apparatus and systems for expanding three degrees of freedom (3dof+) of mpeg-h 3d audio RU2803062C2 (en)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862654915P 2018-04-09 2018-04-09
US62/654,915 2018-04-09
US201862695446P 2018-07-09 2018-07-09
US62/695,446 2018-07-09
US201962823159P 2019-03-25 2019-03-25
US62/823,159 2019-03-25
PCT/EP2019/058954 WO2019197403A1 (en) 2018-04-09 2019-04-09 Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2023122339A Division RU2023122339A (en) 2018-04-09 2019-04-09 METHODS, DEVICES AND SYSTEMS FOR EXPANDING THREE DEGREES OF FREEDOM (3DOF+) MPEG-H 3D AUDIO

Publications (2)

Publication Number Publication Date
RU2020130112A RU2020130112A (en) 2022-03-14
RU2803062C2 true RU2803062C2 (en) 2023-09-06

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160337777A1 (en) * 2014-01-16 2016-11-17 Sony Corporation Audio processing device and method, and program therefor
RU2602346C2 (en) * 2012-08-31 2016-11-20 Долби Лэборетериз Лайсенсинг Корпорейшн Rendering of reflected sound for object-oriented audio information
WO2017098949A1 (en) * 2015-12-10 2017-06-15 ソニー株式会社 Speech processing device, method, and program
US9807534B2 (en) * 2013-09-11 2017-10-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for decorrelating loudspeaker signals
US20180046431A1 (en) * 2016-08-10 2018-02-15 Qualcomm Incorporated Multimedia device for processing spatialized audio based on movement
US20180091918A1 (en) * 2016-09-29 2018-03-29 Lg Electronics Inc. Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2602346C2 (en) * 2012-08-31 2016-11-20 Долби Лэборетериз Лайсенсинг Корпорейшн Rendering of reflected sound for object-oriented audio information
US9807534B2 (en) * 2013-09-11 2017-10-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for decorrelating loudspeaker signals
US20160337777A1 (en) * 2014-01-16 2016-11-17 Sony Corporation Audio processing device and method, and program therefor
WO2017098949A1 (en) * 2015-12-10 2017-06-15 ソニー株式会社 Speech processing device, method, and program
US20180046431A1 (en) * 2016-08-10 2018-02-15 Qualcomm Incorporated Multimedia device for processing spatialized audio based on movement
US20180091918A1 (en) * 2016-09-29 2018-03-29 Lg Electronics Inc. Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same

Similar Documents

Publication Publication Date Title
JP7270634B2 (en) Method, Apparatus and System for Three Degrees of Freedom (3DOF+) Extension of MPEG-H 3D Audio
CN111183658B (en) Rendering for computer-mediated reality systems
US11375332B2 (en) Methods, apparatus and systems for three degrees of freedom (3DoF+) extension of MPEG-H 3D audio
CN112673649B (en) Spatial audio enhancement
TW202024896A (en) Six degrees of freedom and three degrees of freedom backward compatibility
CN114270877A (en) Non-coincident audiovisual capture system
RU2803062C2 (en) Methods, apparatus and systems for expanding three degrees of freedom (3dof+) of mpeg-h 3d audio
CN115955622A (en) 6DOF rendering of audio captured by a microphone array for locations outside of the microphone array
KR20240096621A (en) Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio