WO2019004524A1 - 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치 - Google Patents

6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치 Download PDF

Info

Publication number
WO2019004524A1
WO2019004524A1 PCT/KR2017/012875 KR2017012875W WO2019004524A1 WO 2019004524 A1 WO2019004524 A1 WO 2019004524A1 KR 2017012875 W KR2017012875 W KR 2017012875W WO 2019004524 A1 WO2019004524 A1 WO 2019004524A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
audio
changed
user position
Prior art date
Application number
PCT/KR2017/012875
Other languages
English (en)
French (fr)
Inventor
이동금
오세진
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to US16/626,692 priority Critical patent/US11089425B2/en
Publication of WO2019004524A1 publication Critical patent/WO2019004524A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Definitions

  • the present invention relates to an audio reproducing method and an audio reproducing apparatus using the same. More particularly, the present invention relates to an audio reproducing method and an audio reproducing apparatus for reproducing a three-dimensional audio signal in a six-degree-of-freedom (6DoF) environment.
  • 6DoF six-degree-of-freedom
  • MPEG-H is being developed with a new audio coding international standard technology.
  • MPEG-H is a new international standardization project for immersive multimedia services using ultra-high resolution large screen displays (eg, over 100 inches) and ultra-high channel audio systems (eg 10.2 or 22.2 channels).
  • ultra-high resolution large screen displays e.g, over 100 inches
  • ultra-high channel audio systems e.g 10.2 or 22.2 channels.
  • MPEG-H standardization project a subgroup of "MPEG-H 3D Audio AhG (Adhoc Group)" has been established in an effort to implement a multi-channel audio system.
  • MPEG-H 3D Audio encoding / decoding devices provide realistic audio to listeners using multi-channel speaker systems.
  • the headphone environment provides a realistic three-dimensional audio effect. Because of this feature, the MPEG-H 3D Audio decoder is considered as a VR audio standard.
  • 3-D audio basically provides the user with the feeling that the sound source is reproduced in the three-dimensional space rather than the user's head, and the position of the sound source which is aligned with the time change and the viewpoint of the user is also changed Thereby delivering a realistic sound.
  • 3DoF Degrees of freedom
  • DoF Degrees of freedom
  • the degree of freedom DoF can, for example, provide a visual and sound best suited to the attitude or position of the user at that moment if the movement of the head is accurately tracked in arbitrary space
  • Motion is divided into 3 degrees of freedom (3DoF) or 6 degrees of freedom (6DoF) depending on the degree of freedom of movement (DoF).
  • 3DoF means that movement in the X, Y, and Z axes is possible, such as when the user does not move and rotates the head in a fixed position.
  • the present invention proposes a method of rendering audio in response to a user's position change in a 6DoF environment by applying a spatial modeling method to a 3D audio encoding / decoding device.
  • an audio signal having a much smaller capacity than that of a video signal is also encoded so as to maximize bandwidth efficiency.
  • MPEG-H 3D Audio has been developed as a coding / decoding device capable of providing a recent 3D audio effect, but it has a problem in that it can be used only in the 3DoF environment.
  • a binaural renderer is used in a 3D audio encoding / decoding device to experience 3D audio through a headphone.
  • Binaural Room Impulse Response (BRIR) data which is used as an input to the binaural renderer, is only measured in a fixed location and thus is valid only in the 3DoF environment.
  • BRIR Binaural Room Impulse Response
  • DB database
  • the present invention proposes an audio reproducing method and a reproducing apparatus which can render a 3D audio encoding / decoding device in a 6DoF environment by rendering a modeled response in real time according to a user's position by simultaneously receiving user's position information.
  • a method for reproducing audio in a 6DoF environment includes a decoding step of decoding a received audio signal and outputting a decoded signal and metadata, a user position modeling the binaural rendering data so as to correspond to the changed user position when the user position is changed, and a modeling step of modeling the binaural rendering data, And binarizing the decoded audio signal and outputting the binaural audio signal as a 2-channel audio signal using the data.
  • the modeling step may include a first modeling step of receiving the room characterization information and modeling the RIR data, and a second modeling step of receiving the user head information and modeling the HRIR data. 2 < / RTI > modeling step.
  • the modeling step may further include a distance compensation step of adjusting the gain of the second modeled HRIR data based on the changed user position.
  • the modeling step may further include a BRIR combining step of combining the distance-compensated HRIR data and the first modeled RIR data and generating BRIR data corresponding to the changed user position.
  • the audio reproduction method of the present invention further includes a metadata processing step of receiving the user position information and adjusting the metadata to correspond to the changed user position .
  • the metadata processing may further include adjusting at least one of a speaker layout information, a zoom area, and an audio scene to correspond to a changed user position .
  • the user position information may include an indicator flag (isUserPosChange) indicating that the user position is changed, an azimuth corresponding to the changed user position, And at least one of elevation and distance information.
  • indicator flag isUserPosChange
  • the audio playback method of the present invention further includes an indicator flag (is6DoFMode) information indicating whether the 6DoF environment is supported, and when the indicator flag (is6DoFMode) information supports the 6DoF environment, the user position information is input.
  • an indicator flag is6DoFMode
  • the audio reproducing apparatus in the 6DoF environment includes an audio decoder for decoding a received audio signal and outputting a decoded signal and metadata, an audio decoder for inputting user position information
  • a modeling unit for modeling binaural rendering data to determine whether a user's location has been changed at a previous location and to correspond to a changed user location if the user location has changed;
  • a binaural render for binaurally rendering the decoded audio signal and outputting the binaural audio signal as a 2-channel audio signal.
  • the modeling unit may further include a first modeling unit for receiving spatial characterization information and modeling RIR data and a second modeling unit for further receiving user head information and modeling HRIR data, And a modeling unit.
  • the modeling unit may further include a distance compensator for adjusting the gain of the second modeled HRIR data based on the changed user position.
  • the modeling unit may further include a BRIR combining unit for combining the distance-compensated HRIR data and the first modeled RIR data to generate BRIR data corresponding to the changed user position.
  • a BRIR combining unit for combining the distance-compensated HRIR data and the first modeled RIR data to generate BRIR data corresponding to the changed user position.
  • the audio reproducing apparatus of the present invention further includes a metadata processor that receives the user position information and adjusts the metadata to correspond to the changed user position .
  • the metadata processor may adjust at least one of a speaker layout information, a zoom area, and an audio scene so as to correspond to a changed user position .
  • the user position information may include at least one of an indicator flag (isUserPosChange) indicating that the user position has been changed, an azimuth corresponding to the changed user position, And at least one of elevation and distance information.
  • an indicator flag isUserPosChange
  • the audio reproducing apparatus of the present invention further receives an indicator flag (is6DoFMode) information indicating whether or not to support the 6DoF environment, and when the indicator flag (is6DoFMode) information supports the 6DoF environment, the user position information information is input.
  • an indicator flag is6DoFMode
  • the following effects can be obtained through the audio reproducing method and apparatus in the 6DoF environment.
  • Next-generation immersive 3D audio encoding technology can increase the efficiency of implementing MPEG-H 3D audio. In other words, it is possible to provide a natural and realistic effect in response to audio object signals that are frequently changed in various audio application fields such as a game or virtual reality (VR) space.
  • VR virtual reality
  • FIG 1 shows an audio reproducing apparatus according to the present invention.
  • FIG. 2 is a flowchart illustrating an audio reproducing method according to the present invention.
  • FIG. 3 illustrates an embodiment of implementing the audio reproducing apparatus of the present invention.
  • FIG. 4 illustrates another embodiment of a metadata processor in the audio player according to an embodiment of the present invention.
  • 5 to 12 are diagrams for explaining a rendering data modeling method in the audio reproducing apparatus according to an embodiment of the present invention.
  • 13 to 23 are diagrams for explaining a syntax structure used in an audio reproducing method and apparatus according to an embodiment of the present invention.
  • the audio reproducing apparatus of FIG. 1 of the present invention includes an audio decoder 101, a renderer 102, a mixer 103, a binaural renderer 104, a metadata processor 105, and an interface data processor) and a rendering data modeling unit 106.
  • the rendering data modeling unit 106 includes a first modeling unit 1061 for generating RIR data 1061a, a second modeling unit 1062 for generating HRIR data 1061b, HRIR Modeling And a synthesizer 1063 for synthesizing the BRIR data 1063a by combining the RIR data 1061a and the HRIR data 1062a.
  • an audio reproducing apparatus according to the present invention will be described in detail.
  • the audio decoder 101 receives an audio signal (e.g., audio bitstream) and generates a decoded audio signal 101a and metadata 101b (Metadata).
  • the metadata information 101b is transmitted to the metadata processor 105.
  • the metadata processor 105 includes environment setup information 107 and user interaction information 108, interaction data to set the final playback environment and output the set playback environment information 105a to the renderer 102. [ The detailed operation of the metadata processor 105 will be described in detail with reference to FIG. 4, which will be described later.
  • the renderer 102 refers to the reproduction environment information 105a and applies it to a decoded signal 101a that is input in accordance with a speaker environment set by a user to render the rendered signal 101a, rendered signal.
  • the rendered signal 102a is output as a final channel signal 103a through gain and delay correction at a mixer 103 if necessary and the output of the channel signal 103a Is filtered by the BRR 1063a in the binar renderer 104 and outputs surround 2 channel binary rendered signals 104a and 104b.
  • the BRIR 1063a is modeled through the HRIR 1062a modeled through the user head information 111, the user position info 109 and the space characterization information 110, RIR 1061a is synthesized and generated. Therefore, if the user position information 109 is changed, the first modeling unit 1061 re-models the RIR based on the new position of the user, and the new modeled RIR A modified BRIR is generated.
  • the modified BRIR is input to the binary renderer 104, and finally, the input audio signal is rendered and output as two-channel binary rendered signals 104a and 104b.
  • FIG. 2 is a flowchart illustrating an audio reproducing method in the audio reproducing apparatus according to the present invention.
  • step S101 the input audio signal is decoded and output as a decoded audio signal 101a and metadata 101b (Metadata).
  • Step S102 is a process of rendering the input decoded audio signal 101a based on the reproduction environment information 105a.
  • object signals among the decoded audio signals 101a are rendered by applying the modified metadata through step S105, which will be described later.
  • Step S103 is a selective process for mixing the two types of signals when the rendered signal 102a is of more than one type.
  • the finalized channel signal is output through gain and delay correction to the rendered signal 102a.
  • Step S104 is a process of outputting the surround 2-channel binary audio signal by filtering the rendered signal 102a or the output signal of step S103 to the generated BRIR 1063a.
  • the step S105 receives the metadata 101b from the step S101 and inputs the environment setup information 107 and the user position information 109 to set the audio reproduction environment And outputs the reproduction environment information 105a.
  • the user may modify the inputted metadata 101b by referring to the user interaction information 108 (User interaction data).
  • Step 106 receives the user position information 109 and the space characterization information 110, and outputs the modeled RIR 1061a.
  • Step S107 is a process for confirming whether the user location information 109 received in step S105 has been changed from previously received user location information. If the received user location information 109 is different from the previously received user location information (y pass), the RIR is re-modeled and output in step S106 based on the new received user location information 109 do.
  • Step S108 is a process of receiving user head information 111 (User head info) and outputting HRIR modeled through HRIR modeling.
  • Step S109 is a process of generating a BRIR by combining the RIR modeled in step S106 and the HRIR modeled in step S108.
  • the generated BRIR information is utilized to render a two-channel binary audio signal in step S104 described above.
  • FIG. 3 shows another embodiment for implementing the audio reproducing apparatus of the present invention.
  • FIG. 3 illustrates an audio reproducing apparatus for implementing 6DoF 3D audio based on an MPEG-H 3D Audio encoder, according to an embodiment of the present invention.
  • 3 is a block diagram illustrating an audio decoder according to an embodiment of the present invention.
  • the audio playback apparatus includes an audio decoder 201, a renderer 202, a binaural renderer 203, a metadata processor 204, data processor) and a rendering data modeling unit 205.
  • the audio decoder 201 receives an audio bitstream.
  • the audio bitstream is generated by encoding and bit-packing an audio signal input from a transmitter (not shown) based on the MPEG-H 3D audio format.
  • the audio signal type may be a channel signal, an object signal, or a scene based HOA (High Order Ambisonic) signal. (E.g., 'channel signal + object signal', 'HOA signal + object signal', etc.) may be input in combination with the object signal.
  • the audio bitstream generated through the above process in a transmitter (not shown) is input to the audio decoder 201 and outputs a decoded signal 201a.
  • the decoded signals 201a to be output are all signals that have been input at the transmitting end, and are output to the decoded signal 201a in the order of the encoded signal type at the transmitting end. If an object signal is also included in the audio signal, the object related object metadata 201b (Object metadata) is also output when the decoded signal 201a is output.
  • object related object metadata 201b Object metadata
  • the decoded signals 201a are transmitted to the renderer 202 and the object meta 201b information output from the renderer 202 is transmitted to the metadata processor 204.
  • the metadata processor 204 may change the characteristics of the final output signal by combining the object meta data 201b with configurable information additionally input from the outside.
  • the information that can be additionally set externally may be playback environment setting information 206 and user interaction data 207.
  • the reproduction environment setting information is information on the reproduction environment of the audio that the user listens to, for example, a rendering type (206a, Rendering type) information indicating whether to output to a speaker or a headphone, Scene switching information 206c indicating whether or not the audio scene has changed, information 206d indicating the external connection device, and audio output.
  • Local screen size info 206e, and local speaker layout 206f indicating the location of the used speaker.
  • the user interaction information 207 is information for giving an intention of the user during audio reproduction.
  • the user interaction information 207 may include information indicating an interaction mode (207a, Interaction mode, interaction data 207b, and information 207c for interlocking between the video screen and the object.
  • the metadata processor 204 should modify the object metadata 201b (object metadata) in the corresponding process according to the user's intention do. Accordingly, the metadata processor 204 not only sets the playback environment, but also includes a process of transforming the object metadata 201b with reference to externally input information.
  • the renderer 202 renders the decoded signal 201a according to reproduction environment information input from the outside and outputs the decoded signal. If the speaker of the user's reproduction environment is less than the number of input channel signals, a channel converter may be applied to downmix the channel signal according to the number of speakers in the playback environment. and the object signal is rendered according to the position of the playback speaker with reference to the object metadata information. For the HOA signal, the input signals are reconfigured to match the selected speaker environment. If the decoded signal 201a is a combination of two types of signals, the signals mixed with the output speaker are mixed with each other in the mixing process, It is also possible to do.
  • the playback type is selected as a headphone by the rendering type 206a
  • the amount of BRIRs recorded at the speaker position in the playback environment is filtered and added to the rendered signal 202a, And outputs stereo signals (Out L , Out R ).
  • the BRIR parameter generating unit 2055 performs parameterization ) BRIR parameter data 2055a and 2055b. That is, the extracted BRIR parameter data 2055a and 2055b are directly applied to the signal, thereby improving the efficiency in terms of the calculation amount.
  • the BRIR parameter generator 2055 can be selectively applied according to actual product design.
  • the rendering data modeling unit 205 of FIG. 3 includes an additional extended process for effectively using the MPEG-H 3D audio playback apparatus in the 6DoF environment. This will be described in detail as follows.
  • the rendering data modeling unit 205 includes a second modeling unit 2051 for generating HRIR data 2051a and 2051b and a first modeling unit 2052 for generating RIR data 2052a, A distance compensation unit 2053 for compensating the HRIR data 2051a and 2051b corresponding to a user position change and a compensated HRIR data 2053b outputted from the RIR data 2052a and the distance compensation unit 2053, And synthesizing unit 2054 for synthesizing BRIR data 2054a and 2053b and synthesizing BRIR data 2054a and 2054b. do. Further, as described above, the present invention may include a BRIR parameter generation unit 2055 (Parameterization) for parameterizing the synthesized BRIR data 2054a and 2054b to output BRIR parameter data 2055a and 2055b have.
  • a BRIR parameter generation unit 2055 Parameterization
  • the present invention not only additionally receives the environment information 213 and user position information 212, but also provides the most optimized stereo sound to the listener It is possible to use the personalized HRIR by receiving the user head information 211. That is, when the user moves the position within the arbitrary space (for example, it is possible to confirm whether or not the user position is moved from whether the received user position information 212 is changed), the relative position of the object meta data and the speaker 3, the data adjusting units 212a and 212b can adjust the relative position information by adding the relative relative information (adj. Ref. Info.).
  • the first modeling unit 2052 is a process of modeling an RIR (Room Impulse Response).
  • RIR Room Impulse Response
  • a user can freely move within a space where a sound source is generated. Therefore, the distance between the user and the sound source also changes according to the position where the user moves, and thus the room response also changes.
  • the sound of the sound source may be loud, but when the sound source is far away from the sound source, the sound of the sound source may be small and the reverberation may be louder. This effect is caused by the user moving the position in the same space.
  • the spatial response should be modeled by using the user's location information and room characteristic information to reflect characteristics that change according to the position change.
  • the first modeling unit 2052 Detailed operation of the first modeling unit 2052 will be described later in detail with reference to FIGS. 5 to 8.
  • the second modeling unit (HRIR Modeling) 2051 is a process of modeling features of the user's head and ear. In order to effectively experience 3D audio for VR contents, it is necessary to accurately model the HRIR by reflecting the head and ear shape of the user. The detailed operation of the second modeling unit 2051 will be described later in detail with reference to FIG. 9 to FIG.
  • the distance compensation unit 2053 adjusts the gain of the modeled HRIR response (HRIR L 2051 a, HRIR R 2051 b) by reflecting the user location information 212.
  • HRIR is measured or modeled in a situation where the distance between the user and the source is always constant.
  • the gain of the HRIR response must also be changed because the distance between the user and the sound source changes (for example, the closer the user is to the sound source, the larger the HRIR response size, The smaller the HRIR response size is). For this reason, the amount of HRIR gain should be adjusted according to the user's location.
  • the detailed operation of the distance compensating unit 2053 will be described later in detail with reference to FIG.
  • the synthesizer 2054 synthesizes the modeled HRIR L (2051a), HRIR R (2051b), and RIR (2052a).
  • a BRIR response in which characteristic information of a user's head and ear and spatial characteristic information are reflected is needed.
  • the modeled HRIR L 2051a and HRIR R 2051b are combined into a spatial response RIR 2052a to produce a BRIR L 2054a and a BRIR R 2054b response, respectively.
  • the BRIR L 2054a and the BRIR R 2054b may filter the directly rendered signal 202a and output the final output signals Out L and Out R binaurally rendered.
  • FIG. 4 illustrates another embodiment of the metadata processor 304 in the audio player according to another embodiment of the present invention.
  • the configuration of the metadata processor 304 of FIG. 4 differs from that of the metadata processor 204 of FIG.
  • the metadata processor 204 of FIG. 3 receives the adjusted signal through the data adjusters 212a, 212b, and adjust relative information (adj. Ref .info.), Processor 304 is different in that it performs data coordination on its own.
  • the metadata processor 304 (Metadata & interface data processor) in the 6DoF environment of FIG. 4 will be described in detail.
  • the metadata processor 304 includes a first part 3041 for setting playback environment information, a second part 3042 for interacting with an audio scene directly by the user, interaction part), and a third part (3043, tracking part) for recognizing and compensating the movement of the user by the hardware.
  • the first part 3041 configures a sound source content reproduction environment and includes a rendering type, a speaker setup (speaker setup), a speaker layout information (speaker layout information), a screen size Local screen size information and Object metadata information are used.
  • the rendering type and the speaker setup are input to a 'Setup playback environment' 30411 to determine whether the audio signal is reproduced by a speaker or a headphone.
  • the speaker setup local speaker setup
  • Speaker layout information means position information of each speaker. The position of the speaker can be expressed as Azimuth, Elevation and Distance based on the viewpoint and position of the user looking at the front.
  • Object metadata is information for rendering the Orgasm signal in space and contains information such as azimuth, elevation and gain for each object in a predetermined time unit have.
  • object metadata is produced by a content creator considering an expression method of each object signal when constructing an audio scene, and the produced metadata is encoded and transmitted to a receiving end.
  • object metadata it is also possible to link each object signal with a scene.
  • the size of the video screen that the user views is always the same as the size of the screen referenced by the producer in the production of the metadata. Accordingly, when an arbitrary object is linked with a video screen, the screen size information is also stored. Screen size remapping (30412) can solve the problem of screen inconsistency between producer and user.
  • Local screen size information means size information of a screen viewed by a user. Accordingly, when the corresponding information is received, object metadata information (for example, azimuth and elevation information of the object in general) linked with the video screen is displayed on a screen size It is possible to apply the manufacturer's intention to various sizes of screens.
  • interaction data information and zoom area information are used.
  • the interaction data information is information that the user wants to directly change the characteristics of the audio scene being reproduced.
  • position change information and size change information of the audio signal can be expressed by a change amount of an azimuth and an elevation
  • the size information can be expressed by a change amount of a gain.
  • Gain & Position interactive processing '30421 receives position information and size information of the object metadata of the first part 3041 and the interaction data, And changes it by the inputted variation amount. Gain information and position information are applicable only to the object signal.
  • the zoom area information is information used when a user wants to enlarge a part of a screen during arbitrary content viewing. If the information is input, 'Zoom area & object remapping' 30422 The position information of the object signal linked with the video screen is mapped again in accordance with the zoom area.
  • Scene displacement information and user position information (212) are used in the third part (3043, Tracking part).
  • the scene change information indicates head rotation information, and is generally expressed as rotation information (yaw, pitch, roll). If the user rotates the head in the tracking mode, the rotation information (yaw, pitch, roll) is input as 'Adjust audio scene direction information' (30431) Change the position information by the amount of rotation.
  • the user position information 212 indicates the position change information of the user and may be represented by an azimuth, an elevation, and a distance. Therefore, when the user moves the position, 'Adjust audio scene metadata information' (30432) reflects the audio scene by the changed position.
  • 5 to 12 are diagrams for explaining a modeling method in the audio reproducing apparatus according to an embodiment of the present invention.
  • FIG. 1 The 3D audio decoder of the present invention is extended to be used in a 6DoF environment, and the largest difference compared to the existing 3DoF environment is a modeling part of the BRIR.
  • BRIRs were applied directly to the sound source when playing the sound source with headphones.
  • the BRIR is modeled every time the user's location is reproduced It should be applied to the sound source.
  • the BRIR for 22 channels can be stored in advance and used immediately whenever necessary.
  • the user can move in arbitrary space and use the newly modeled BRIR of the 22 channel for the moved position or acquire the pre-measured BRIR at the corresponding position. Accordingly, it is necessary to minimize the amount of computation and model the BRIR during the operation of the first modeling unit 2052 (environment modeling).
  • the RIR has three types of response characteristics as shown in FIG.
  • the response corresponding to r1 (601) is a direct sound
  • the sound source is a response directly transmitted to the user without spatial reflection
  • r2 (602) is an early reflection, which is a response that is transmitted to the user after the sound source is reflected once or twice in a closed space.
  • early reflections are influenced by the geometric characteristics of space, changing the spatial characteristics of the source, and affecting the sense of diffusion in an auditory sense.
  • r3 (603) is a response that is transmitted to the user after the sound source has been reflected many times on the floor, ceiling, wall, etc. of the space due to late reverberation. And influences reverberation heavily.
  • the present invention proposes that the early reflections 602 and the late reverberations 603 are modeled independently of each other during the operation of the first modeling unit 2052 (environment modeling). Hereinafter, each of them will be described.
  • the user location information, sound source location information, and spatial property information may be used as inputs to model the early reflections 602 where the response varies variably according to the user location.
  • the user position information can be represented by azimuth, elevation, and distance as described above. If the user position information is represented by a unit constituting a three-dimensional spherical coordinate system (?,?,?). It can also be expressed as (x, y, z) in units of a three-dimensional Cartesian coordinate system. It is also well known that the two coordinate systems can be mutually transformed using an axis-transformation formula.
  • a sound source is reproduced through a speaker, so that position information of a sound source can be represented by referring to speaker-layout information.
  • the speaker format used is a standard speaker format, it can be used with reference to the standard speaker position information.
  • the user-defined speaker format is used, the user can directly input the position information of the speaker. Since the azimuth, elevation, and distance information are received as the speaker layout information, the position information of the speaker is converted into a spherical coordinate system or an orthogonal coordinate system, It can be expressed in Cartesian coordinate system.
  • the environment information includes space size information and space characteristic information.
  • the space size information is expressed by [L, W, H] (length, height, width, unit (m)) can do.
  • the spatial characteristic information can be expressed by the material properties of the respective surfaces forming the space. Generally, it can be expressed by the absorption coefficient ( ⁇ ) and can be expressed as a reverberation time for the space.
  • the first modeling unit 2052 of the present invention may include an early reflection modeling unit 20521 for modeling the early reflections 602 and a late reverberation sound modeling unit for modeling the late reverberation 603 20522, Late reverberation modeling), and an adder 20523 for adding the modeling result and outputting final RIR data 2052a.
  • the receiving end updates the entire room response by modeling only the initial reflected sound response to the changed user position through the early reflection modeling (20521).
  • FIG. 7 is a view for explaining the initial reflex sound modeling 20521.
  • FIG. Early reflection modeling (20521) is a process of modeling only the early reflections (602) of the room response.
  • FIG. 7A shows a case where a sound source 701 generated in a certain closed space is reflected and transmitted once.
  • FIG. 7B shows a case where the sound source 701 is reflected and transmitted twice Respectively.
  • the solid line is the actual space 702
  • the dotted line is the virtual area 703 that extends symmetrically in the actual space. If the space is extended to the virtual region 703 according to the path along which the sound source is reflected in the actual space 702 as shown in FIGS. 7A and 7B, the sound source 704 generated in the symmetric virtual region 703, Can be assumed to be a direct sound of. Therefore, by using the information such as the size of the space, the distance between the sound source and the user's position in the virtual space, and the material characteristics (sound absorption coefficient) of the floor, ceiling and wall that reduce the sound source size due to reflection, Modeling is possible.
  • FIG. 8 is a diagram for explaining the late reverberation sound modeling 20522.
  • FIG. Late reverberation modeling 20522 is a process of modeling only the late reverberation 603 of the room response. It can be modeled as a feedback-delay network (FDN) based algorithm by referring to the reverberation time of spatial information. That is, the FDN is composed of a plurality of comb filters.
  • the parameter P means the number of comb filters. Generally, the larger the number of comb filters, the better the performance. However, since the overall operation amount also increases, it should be set appropriately according to the given environment.
  • the parameters g [ g 1 , g 2 , ...
  • c [ c 1 , c 2 , ... , c P ] is set to a value smaller than 1.
  • optimal parameter values for user-intended response characteristics can not be calculated formally, so they are generally based on given information ( RT 60 , spatial characteristics, spatial size, etc.) So that the user can arbitrarily set it.
  • FIG. 9 is a view for explaining a process of modeling the characteristics of a user's head and ear applied to the second modeling unit 2051 described above.
  • the information used to model the characteristics of the user's ear includes the length values 902 (d1 to d7) constituting the ear and the angle value 903 constituting the appearance of the ear as shown in Fig. 9 (b) .
  • the HRIR L 2051a and the HRIR R 2051b of FIG. 3 corresponding to the left ear and right ear responses are output.
  • the user's HRIR is ideally obtained in advance and applied to the contents because ear characteristics are different for each user.
  • this process is very time-consuming and costly, it is possible to compensate for the problems that may occur when using the conventional HRIR using the HRIR modeling or the HRIR personalization by the second modeling unit 2051 do.
  • HRIR modeling and HRIR personalization methods will be described in detail with reference to FIGS. 10 to 11.
  • the speaker 10 shows a basic block diagram of the HRIR modeling by the second modeling unit 2051.
  • You can use speaker layout info and user head info as input.
  • the speaker layout information is utilized as sound source location information.
  • the standard speaker speaker format can be used by referring to the standard speaker speaker information, and the user can directly use the speaker speaker information by inputting the speaker speaker environment.
  • the position information of the speaker can be expressed by (x, y, z) in the spherical coordinate system unit (?,?,?) Or in the Cartesian coordinate system unit, Axis transformation is possible by using conversion formulas.
  • the user head information includes head size information, and it is possible for the user to manually input or automatically measure the size of the user's head by mechanically interlocking with a headphone or a sensor.
  • the second modeling unit 2051 shown in FIG. 10 includes a head modeling unit 20511 (Head modeling) and a ear modeling unit 20512 (Pinna modeling).
  • the head modeling unit 20511 determines a transfer function for a head shadow reflecting the ITD and the ILD used by the person to recognize the position of the sound source using the sound source location information and the user's head size information H L , H R ), respectively.
  • the ear modeling unit 20512 models a response reflecting the influence of the ear of the user's ear. In general, the modeling unit 20512 reflects a combination of predetermined constant values in the modeling process to model the best response to the user .
  • Figure 11 illustrates the HRIR personalization process.
  • a bold solid line indicates a database (DB) acquired and held in advance.
  • the input information includes sound source location information (Speaker layout info.), Head size information for various subjects (bin head information info), quantity information including binaural info DB, HRIR DB, The amount of the feature information DB (Head info DB) can be used.
  • the feature information of the amount means the size and shape information of the left and right ears, and the user can manually input the information, captures the ears using a camera or a video device, mechanically measures the ear shape, As shown in FIG.
  • Capture & analyzing unit 904 of FIG. 11 captures and analyzes the user's ears with a camera, and outputs head and volume information 904a and 904b. Thereafter, the amount of various subjects stored in the HRIR selection unit 905 (Select HRIR) is compared with the feature information DBs. If an arbitrary subject having the most similar characteristics is selected in the DB, the HRIR of the subject is regarded as the listener's HRIR (905a, 905b).
  • FIG. 12 is a diagram for explaining the detailed operation of the distance compensation unit 2053.
  • the distance compensation unit 2053 includes an energy calculation unit 20531, an energy compensation unit 20532, and a gain modification unit 20533.
  • the energy calculation unit 20531 calculates the energy of each of the HRIRs 2051a and 2051b (HRIR L _1 , HRIR R _1 , ..., HRIR L _N , and HRIR) modeled by the second modeling unit 2051 receives the _N R), and calculates energy (NRG L _1, NRG R _1, ..., NRG L _N, _N NRG R) of each HRIR.
  • the energy compensator (20532, Energy compensation) is, in the calculated energy NRG L _n, NRG R _n and in the receiving the above-described user location 212, the calculated with reference to a user of the changed potential energy NRG L _n , and NRG R n .
  • the energy of the HRIR measured at the front is adjusted to a large extent proportional to the distance traveled, but the energy of the HRIR measured at the rear adjusts small in proportion to the distance traveled. It is assumed that the user's initial position is in the middle of the same distance from all the speakers located on the horizontal plane, and the position information of the user and the speaker can be represented with reference to azimuth, elevation and distance .
  • the energy compensator (20532, Energy compensation) energy values of the correction HRIR in (cNRG L _1, cNRG R _1 , ..., cNRG L _N, cNRG R_N) is input to the gain change unit (20533, Gain modification),
  • the modified HRIR (cHRIR L _1 , cHRIR R _1 , ..., cHRIR L _N , cHRIR R _N ) is output by modifying the gain of all HRIRs to match the changed distance.
  • FIGS. 13 to 22 are diagrams for explaining a syntax structure used in an audio reproducing method and apparatus according to an embodiment of the present invention.
  • the present invention will be described based on a 6-DOF MPEG-H 3D Audio decoder according to two rendering types of use (for example, a speaker environment or a headphone environment) of a 3D audio decoder for 6DoF.
  • an audio scene is referred to in real time by referring to the user position information 212, Should be rendered.
  • the user position information 212 may be input to the metadata processor 204 to be used in a 6DoF environment according to an embodiment of the present invention Information.
  • the user location information 212 may change the speaker position information 206f, the interaction data 207b, and the zoom area information 207c.
  • the speaker position information 206f includes position and gain information of each speaker.
  • the zoom area information 207c is information used to enlarge a part of a screen being watched by the user.
  • the zoom area information 207c also enlarges a part of a screen being viewed and changes the position of an audio object linked with the screen do. Therefore, when the user approaches the screen, the object gain can be adjusted in proportion to the moving distance of the user.
  • the gain can be changed according to the user's position even in a situation where the user controls the interaction data 207b. For example, if the user adjusts the object gain of the audio scene to a small value, if the user approaches the position where the object is positioned, the object gain is adjusted in proportion to the relative distance of the user and the object It does.
  • BRIR is newly modeled based on a changing user location standard to provide more realistic audio contents in a 6DoF environment.
  • a rendering type 206a, Rendering type
  • the BRIR is modeled by referring to the user position information 212 in real time , And applies it to audio contents to render an audio scene.
  • the BRIR may be modeled through the first modeling unit 2052 and the second modeling unit 2051.
  • the is6DoFMode field 1301 indicates whether to use the 6DoF method. That is, it can be defined that the field is '0', which means that it is an existing scheme (3DoF), and '1', it is a 6DoF scheme.
  • the is6DoFMode field 1301 is indicative flag information for indicating 6DoF, and various information fields to be described later are applied according to the presence or absence of the information.
  • the up_az field 1302, the up_el field 1303, and the up_dist field 1304 information are additionally Can be provided.
  • the position information of the user is given as an angle value in terms of the azimuth angle.
  • the position information of the user is given as an angle value at each elevation angle.
  • the position information of the user is given as a meter value in terms of distance.
  • the bsRenderingType field 1305 defines a rendering type. That is, as described above with respect to the rendering type, either of rendering in the speaker environment (" loudspeaker rendering " 1305a) or rendering in the headphone environment (" binaural rendering & Can be defined.
  • the bsNumWIREoutputs field 1306 defines the number of " WIREoutput ", for example, can be defined as being determined between 0 and 65535.
  • the WireID field 1307 includes identification information (ID) for the " WIRE output ".
  • the hasLocalScreenSizeInformation field 1308 is flag information that defines whether or not the screen size information can be used. If it is instructed to use the screen size information (Local screen size) by the flag 1308 information, syntax of "LocalScreenSizeInformation ()" 1308a is additionally configured.
  • the bsNumLoudspeakers field 1401 defines the number of loudspeakers in the playback environment.
  • the hasLoudspeakerDistance field 1402 is flag information indicating whether the distance of the loudspeaker is defined.
  • the hasLoudspeakerCalibrationGain field 1403 is flag information indicating whether or not the speaker calibration gain (Calibration Gain) is defined.
  • the useTrackingMode field 1404 is flag information indicating whether to process a scene displacement value transmitted via the " mpeg3daSceneDisplacementData () " interface.
  • the fields 1402, 1403, and 1404 are information given to the case where the above-described 6DoF indicator information 1301, Is6DoFMode has a value of '0' (1301b)
  • the hasKnownPosition field 1405 includes: And flag information indicating whether or not the signaling to the position of the loudspeaker is performed in a bitstream.
  • the loudspeakerElevation field 1407 defines the altitude of the speaker.
  • the loudspeaker distance field 1408 defines the distance in cm to a reference point located at the center of the speaker, which can be regarded as a user location. For example, it can have a value between 1 and 1023.
  • the externalDistanceCompensation field 1410 is flag information indicating whether or not to apply the compensation of the loudspeaker to the decoder output signal. If the corresponding flag 1410 is '1', the signaling for the loudspeaker distance field 1402 and the loudspeakerCalibrationGain field 1403 is not applied to the decoder.
  • Figure 15 shows a syntax for receiving information related to user interaction.
  • next isUserPosChange field 1501 information may be additionally provided.
  • the isUserPosChange field 1501 indicates whether the user's location is changed. That is, when the field 1501 is '0', it means that there is no position change of the user, and when it is '1', it means that there is a position change of the user.
  • the ei_InteractionSignatureDataLength field in FIG. 15 defines the length of the interaction signature in units of bytes.
  • the ei_InteractionSignatureDataType field also defines the type of the interaction signature.
  • the ei_InteractionSignatureData field includes a signature that defines the creator of the interaction data.
  • the hasLocalZoomAreaSize field is flag information that defines whether or not information on the local zoom size can be used.
  • Fig. 16 shows audio output information through the headphones in the BinauralRendering () 1305b syntax in the playback environment of 6DoF when the rendering type 1305 (bsRenderingType) described above indicates rendering in the headphone environment.
  • the 6DoF indicator flag information 1301 and Is6DoFMode indicate '1' (1301g)
  • the following bsNumLoudspeakers field 1601, loudspeakerAzimuth field 1602, loudspeakerElevation field 1603, loudspeakerDistance field 1604, a loudspeakerCalibrationGain field 1605, and an externalDistanceCompensation field 1606 may be additionally provided.
  • the meaning of the fields 1601 to 1606 can be defined to have the same meaning as the corresponding fields of FIG. 14 described above.
  • Is6DoFMode indicates '1' (1301g), "RIRGeneration ()" 1607 syntax for generating RIR data and generating HRIR data Quot; RIRGeneration () " 1608 syntax is further needed to describe the added RIRGeneration () 1607 syntax and RIRGeneration () 1608 syntax below with reference to FIGS. do.
  • FIG. 17 shows the " RIRGeneration () " 1607 syntax in a manner that represents the RIR.
  • the bsRIRDataFormatID field 1701 indicates the presentation type of the RIR. That is, using the pre-created RIR, the " RIRFIRData () " 1702 syntax is executed. On the other hand, when the RIR is obtained through the modeling method, the " RIRModeling () " (1703) syntax is executed.
  • the bsNumRIRCoefs field 1801 indicates the length of the RIR filter.
  • the bsNumLengthPosIdx field 1802 indicates an index for a horizontal position in space. For example, 0 to 1023m can be defined in 1m intervals.
  • the bsNumWidthPosIdx field 1803 indicates an index for a vertical position in space. For example, 0 to 1023m can be defined in 1m intervals.
  • the bsRIRFirCoef field 1804 indicates an RIR filter coefficient value.
  • the bsNumLengthPosIdx field 1802 and the bsNumWidthPosIdx field 1803 defined in the RIRFIRData () 1702 indicate location information in an arbitrary space.
  • the RIR is obtained at the position where the corresponding index is defined. Therefore, the user receives the position of the RIR measured at the nearest position with reference to the position information of the user, and receives the RIR data for the corresponding position.
  • FIG. 19 shows the " RIRModeling () " 1703 syntax. If the RIR is to be obtained through modeling, the RIR is modeled by receiving spatial information and parameters necessary for modeling.
  • the bsNumRIRCoefs field indicates the length of the RIR filter.
  • the RoomLength field is the length information of the space and is given as a length (meter) value.
  • the RoomWidth field is the width information of the space and is given as the length (meter) value.
  • the RoomHeight field is the height information of the space and is given as a meter value.
  • the AbsorpCoeffCeil field represents the ceiling absorption rate and is expressed as the absorption coefficient. For example, the absorption coefficient is given as a value between 0 and 1.
  • the AbsorpCoeffFloor field indicates the floor absorption rate and is expressed as the number of scars.
  • the absorption coefficient is given as a value between 0 and 1.
  • the AbsorpWallFront field represents the sound absorbing rate of the front wall and is denoted by a scintillation count.
  • the absorption coefficient is given as a value between 0 and 1.
  • the AbsorpWallBack field represents the sound absorption rate of the back wall and is expressed as a brittle number.
  • the absorption coefficient is given as a value between 0 and 1.
  • the AbsorpWallLeft field represents the left wall sound absorption rate and is expressed by the absorption coefficient.
  • the absorption coefficient is given as a value between 0 and 1.
  • the AbsorpWallRight field indicates the right wall sound absorption rate and is expressed by the sound absorption coefficient.
  • the absorption coefficient is given as a value between 0 and 1.
  • the nTapFilter field indicates the number of comb filters to be used, and is a comb filter coefficient.
  • the dly field indicates a filter delay value
  • the gain_b field indicates a pre-gain value
  • the gain_c field indicates a post-
  • the A field indicates a feedback matrix value
  • the b_af field indicates an absorbent filter coefficient value.
  • the dly_direct field indicates a delay value applied to a direct signal
  • the tf_b field indicates a tone correction filter coefficient value.
  • ModelingMethod field 2001 is a method used in impulse response (IR) modeling.
  • IR impulse response
  • the 'Modeling Method' method uses an 'Image source method' method for '0' Method can be defined.
  • FIG. 21 to 23 illustrate the syntax of " HRIRGeneration () " (1608) in detail.
  • FIG. 21 shows the syntax of " HRIRGeneration () " (1608) in a manner indicating HRIR.
  • the bsHRIRDataFormatID field 2101 indicates the presentation type of the HRIR. That is, using the pre-created HRIR, the " HRIRFIRData () " 2102 syntax is executed. On the other hand, when the HRIR is obtained through the modeling method, the HRIRModeling () 2103 syntax is executed.
  • Fig. 22 shows the above-mentioned " HRIRFIRData () " (2102) syntax.
  • the bsNumHRIRCoefs field 2201 indicates the length of the HRIR filter.
  • the bsFirHRIRCoefLeft field 2202 indicates the count value of the HRIR filter of the left ear.
  • the bsFirHRIRCoefRight field 2203 represents the count value of the HRIR filter of the right ear.
  • the bsNumHRIRCoefs field 2301 indicates the length of the HRIR filter.
  • the HeadRadius field 2302 indicates the head radius and is expressed in units of length (cm).
  • the PinnaModelIdx field 2303 indicates an index for a table in which coefficients used when modeling a pinna model are defined.
  • the present invention proposes an audio reproducing apparatus and method for implementing VR audio in a 6DoF environment.
  • the bit stream transmitted from the transmitter is input to the audio decoder and outputs the decoded audio signal.
  • the output decoded audio signal is input to a binaural renderer and filtered to a binaural room impulse response (BRIR) to output left and right channel signals Out L and Out R.
  • BRIR binaural room impulse response
  • the BRIR is computed by combining the Room response and the HRIR (Head-related Impulse Response, HRTF-converted response).
  • HRIR Head-related Impulse Response
  • the room response can be generated efficiently by receiving the room characteristics info, the location information of the user on the space, and the user direction information (User pos. Info. & User direction info.) .
  • the HRIR can be extracted from the HRIR DB by referring to the user direction information.
  • the listener feels the same effect that the sound image is located at any position in space .
  • the embodiment of the present invention described above can be implemented as a computer-readable code on a medium on which a program is recorded.
  • the computer readable medium includes all kinds of recording devices in which information that can be read by a computer system is stored. Examples of the computer readable medium include a hard disk drive (HDD), a solid state disk (SSD), a silicon disk drive (SDD), a ROM, a RAM, a CD-ROM, Storage devices, and the like, as well as carrier waves (for example, transmission over the Internet).
  • the computer includes an audio decoder 201, a renderer 202, a binaural renderer 203, a metadata and interface data processor 204,
  • the data modeling unit 205 may be included in whole or in part.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 6DoF 환경에서 오디오 재생 방법 및 오디오 재생 장치에 관한 것이다. 본 발명의 오디오 재생 방법은, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계, 사용자 위치 정보 (user position information)을 입력 받아, 사용자의 위치가 이전 위치에서 변경 되었는지 여부를 확인하고, 상기 사용자 위치가 변경된 경우 변경된 사용자 위치에 대응하도록 바이너럴(binaural) 랜더링 데이터를 모델링하는 모델링 단계, 및 상기 모델링된 랜더링 데이터를 이용하여, 상기 디코딩된 오디오 신호(decoded signal)을 바이너럴 랜더링(binaural rendering)하여 2채널 오디오 신호로 출력하는 랜더링 단계를 포함하는 것을 특징으로 한다. 본 발명의 실시예에 따른, 6DoF 환경에서 오디오 재생 방법 및 장치를 통해, 사용자의 위치 변화 정보를 활용함에 따라, 사용자의 위치에 따라 음원의 크기 및 깊이감도 함께 변화시켜줌으로, 입체감 및 현장감 있는 오디오 신호를 재생하는 것이 가능하게 된다.

Description

6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치
본 발명은 오디오 재생 방법 및 이를 활용한 오디오 재생 장치에 관한 것이다. 특히 본 발명은 6자유도(6DoF) 환경에서 3차원 오디오 신호를 재생하는 오디오 재생 방법 및 오디오 재생 장치에 관한 것이다.
최근 IT기술의 발전에 따라 다양한 스마트 기기가 개발되고 있다. 특히 이러한 스마트 기기는 다양한 효과를 가지는 오디오 출력을 기본으로 제공한다. 특히, 가상 현실(Virtual Reality) 환경 또는 3차원 오디오 환경에서, 더욱 현실감 있는 오디오 출력을 위한, 다양한 방법이 시도되고 있다. 관련하여, 새로운 오디오 코딩 국제표준 기술로 MPEG-H가 개발되고 있다. MPEG-H는, 초고해상도 대화면 디스플레이 (예, 100인치 이상)와 초다채널 오디오 시스템 (예, 10.2 채널 또는 22.2 채널 등)을 이용한 실감 몰입형(immersive) 멀티미디어 서비스를 위한 새로운 국제 표준화 프로젝트이다. 특히, 상기 MPEG-H표준화 프로젝트내에는 초다채널 오디오 시스템 구현을 위한 노력으로 “MPEG-H 3D Audio AhG (Adhoc Group)” 이름의 서브 그룹이 설립되어 활동 중이다.
MPEG-H 3D Audio부호화/복호화 기기는 멀티 채널 스피커 시스템을 이용하여 청취자에게 실감형 오디오를 제공한다. 또한, 헤드폰 환경에서는 현실감 높은 3차원 오디오 효과를 제공한다. 이러한 특징으로 인해 MPEG-H 3D Audio 디코더는 VR 오디오 표준으로 고려되고 있다.
3차원 오디오(3D audio)는 기본적으로 사용자에게 음원이 사용자의 머릿속이 아닌 3차원 공간에서 재생되는 것과 같은 느낌을 제공하며, 시간 변화 및 사용자가 바라보는 시점에 맞춰 정위되는 음원의 위치도 함께 변화하여 현실감 있는 소리를 전달한다.
관련하여, 현존하는 3D 오디오 부호화/복호화 기기는 대부분 3자유도 (이를 '3DoF(Degrees of freedom)' 로 명명한다) 까지만 지원한다. 자유도(DoF)는, 예를 들어, 임의 공간에서 머리의 움직임이 정확히 추적되면, 그 순간 사용자의 자세 또는 위치에 가장 적합한 비주얼(visual)과 사운드(sound)를 제공할 수 있게 되는 바, 이러한 움직임(motion)은 움직임이 가능한 자유도(DoF)에 따라 3자유도(3DoF) 또는 6자유도(6DoF)로 나누어 진다. 예를 들어, 3DoF는 사용자가 움직이지 않고, 고정된 위치에서 머리를 회전하는 것 같이, X,Y,Z축의 운동이 가능한 것을 의미한다. 반면, 6DoF는 상기 X,Y,Z축을 중심으로 회전하는 것에 더해서, X,Y,Z축을 따라 이동하는 것이 가능해진다는 의미이다. 따라서 3DoF로는 사용자의 위치 움직임을 반영하지 못해 더욱 현장감 있는 소리를 제공하기 어렵게 된다. 따라서 본 발명에서는 3D 오디오 부호화/복호화 기기에 공간 모델링 방법을 적용하여 6DoF 환경에서 사용자의 위치 변화에 대응하여 오디오를 랜더링(rendering)시켜주는 방법을 제안한다.
또한, 일반적으로 통신 환경에서는 대역폭의 효율을 극대화시키기 위해 비디오 신호에 비해 용량이 훨씬 더 적은 오디오 신호도 부호화시킨다. 최근 관심이 커지고 있는 VR 오디오 컨텐츠(contents)를 구현하고 경험할 수 있는 기술들이 많이 개발되고 있으나, 해당 컨텐츠를 효율적으로 부호화/복호화 할 수 있는 기기 개발은 부족한 편이다. 관련하여, 최근 3차원 오디오 효과를 제공할 수 있는 부호화/복호화 기기로는 MPEG-H 3D Audio가 개발되고 있으나, 상기 3DoF 환경인 경우에만 사용이 가능하도록 제한되어 있는 문제점이 있다.
최근 3D audio 부호화/복호화 기기에서는 헤드폰을 통해 3차원 오디오를 경험할 수 있도록 바이너럴 랜더러(binaural renderer)가 사용된다. 하지만 상기 바이너럴 랜더러(binaural renderer)에 입력으로 사용되는 BRIR(Binaural Room Impulse Response) 데이터는 고정된 위치에서 측정된 응답이므로 3DoF 환경에서만 유효하다. 뿐만 아니라, VR 환경을 구축하기 위해서는 매우 다양한 환경에 대한 BRIR이 필요하지만, 모든 환경에 대한 BRIR을 데이터베이스(DB)로 확보하는 것도 불가능하다. 따라서 본 발명에서는 3D 오디오 부호화/복호화 기기에 공간 정보를 제공함으로써 의도한 공간 응답을 모델링할 수 있는 기능을 추가한다. 나아가 사용자의 위치 정보도 동시에 수신함으로써 실시간으로 사용자의 위치에 맞춰서 모델링된 응답을 랜더링(rendering)하여 3D 오디오 부호화/복호화 기기를 6DoF 환경에서도 사용 가능한 오디오 재생 방법 및 재생 장치를 제안한다.
본 발명의 목적은, 6DoF 환경에서 3차원 오디오 신호를 재생하는 오디오 재생 방법 및 오디오 재생 장치를 제공하는 데 있다.
또한, 본 발명의 목적은, 6DoF 환경에서 3차원 오디오 신호를 재생하기 위해, RIR, HRIR 및 BRIR 데이터를 모델링하고, 상기 모델링된 데이터를 이용한 오디오 재생 방법 및 오디오 재생 장치를 제공하는 데 있다.
또한, 본 발명의 목적은, 6DoF 환경에서 3차원 오디오 신호를 재생하는 MPEG-H 3D 오디오 재생 장치를 제공하는 데 있다.
본 발명의 실시예에 따른, 6DoF 환경에서 오디오 재생 방법은, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계, 사용자 위치 정보 (user position information)을 입력 받아, 사용자의 위치가 이전 위치에서 변경 되었는지 여부를 확인하고, 상기 사용자 위치가 변경된 경우 변경된 사용자 위치에 대응하도록 바이너럴(binaural) 랜더링 데이터를 모델링하는 모델링 단계, 및 상기 모델링된 랜더링 데이터를 이용하여, 상기 디코딩된 오디오 신호(decoded signal)을 바이너럴 랜더링(binaural rendering)하여 2채널 오디오 신호로 출력하는 랜더링 단계를 포함하는 것을 특징으로 한다.
또한, 상기 모델링 단계는, 공간 특성 정보(room characterization info)를 더 입력 받아, RIR 데이터를 모델링하는 제1모델링 단계, 및 사용자 머리 정보(user head info)를 더 입력 받아, HRIR 데이터를 모델링하는 제2모델링 단계를 더 포함하는 것을 특징으로 한다.
또한, 상기 모델링 단계는, 상기 제2모델링된 HRIR 데이터를, 상기 변경된 사용자 위치에 근거하여 게인(gain)을 조정하는 거리 보상 단계를 더 포함하는 것을 특징으로 한다.
또한, 상기 모델링 단계는, 상기 거리 보상된 HRIR 데이터 및 상기 제1모델링된 RIR 데이터를 합성하여, 변경된 사용자 위치에 대응하는 BRIR 데이터를 생성하는 BRIR합성 단계를 더 포함하는 것을 특징으로 한다.
또한, 본 발명의 오디오 재생 방법은, 상기 사용자 위치 정보(user position information)을 입력 받아, 변경된 사용자 위치에 대응하도록 상기 메타데이터(metadata)를 조정(adjust)하는 메타데이터 프로세싱(processing) 단계를 더 포함하는 것을 특징으로 한다.
또한, 상기 메타데이터 프로세싱(processing) 단계는, 변경된 사용자 위치에 대응하도록 적어도 스피커 위치 정보(speaker layout info), 줌 영역(zoom area) 및 오디오 씬(audio scene)중 어느 하나를 조정(adjust)하는 것을 특징으로 한다.
또한, 본 발명의 오디오 재생 방법은, 상기 사용자 위치 정보(user position information)는, 사용자 위치가 변경되었음을 알려주는 인디게이터(indicator) 플래그(isUserPosChange) 정보 및 변경된 사용자 위치에 대응하는 방위각(azimuth), 고도각(elevation) 및 거리(distance) 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 한다.
또한, 본 발명의 오디오 재생 방법은, 6DoF 환경 지원 여부를 지시하는 인디게이터 플래그(is6DoFMode) 정보를 더 입력 받고, 상기 인디게이터 플래그(is6DoFMode) 정보가 6DoF환경을 지원하는 경우, 상기 사용자 위치 정보(user position information)를 입력 받는 것을 특징으로 한다.
본 발명에 따른 6DoF 환경에서 오디오 재생 장치는, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 오디오 디코더, 사용자 위치 정보 (user position information)을 입력 받아, 사용자의 위치가 이전 위치에서 변경 되었는지 여부를 확인하고, 상기 사용자 위치가 변경된 경우 변경된 사용자 위치에 대응하도록 바이너럴(binaural) 랜더링 데이터를 모델링하는 모델링부, 및 상기 모델링된 랜더링 데이터를 이용하여, 상기 디코딩된 오디오 신호(decoded signal)을 바이너럴 랜더링(binaural rendering)하여 2채널 오디오 신호로 출력하는 바이너럴 랜더러(Binaural render)를 포함하는 것을 특징으로 한다.
또한, 상기 모델링부는, 공간 특성 정보(room characterization info)를 더 입력 받아, RIR 데이터를 모델링하는 제1모델링부, 및 사용자 머리 정보(user head info)를 더 입력 받아, HRIR 데이터를 모델링하는 제2모델링부를 더 포함하는 것을 특징으로 한다.
또한, 상기 모델링부는, 상기 제2모델링된 HRIR 데이터를, 상기 변경된 사용자 위치에 근거하여 게인(gain)을 조정하는 거리 보상부를 더 포함하는 것을 특징으로 한다.
또한, 상기 모델링부는, 상기 거리 보상된 HRIR 데이터 및 상기 제1모델링된 RIR 데이터를 합성하여, 변경된 사용자 위치에 대응하는 BRIR 데이터를 생성하는 BRIR합성부를 더 포함하는 것을 특징으로 한다.
또한, 본 발명의 오디오 재생 장치는, 상기 사용자 위치 정보(user position information)을 입력 받아, 변경된 사용자 위치에 대응하도록 상기 메타데이터(metadata)를 조정(adjust)하는 메타데이터 프로세서(processor)를 더 포함하는 것을 특징으로 한다.
또한, 상기 메타데이터 프로세서는, 변경된 사용자 위치에 대응하도록 적어도 스피커 위치 정보(speaker layout info), 줌 영역(zoom area) 및 오디오 씬(audio scene)중 어느 하나를 조정(adjust)하는 것을 특징으로 한다.
또한, 본 발명의 오디오 재생 장치는,상기 사용자 위치 정보(user position information)는, 사용자 위치가 변경되었음을 알려주는 인디게이터(indicator) 플래그(isUserPosChange) 정보 및 변경된 사용자 위치에 대응하는 방위각(azimuth), 고도각(elevation) 및 거리(distance) 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 한다.
또한, 본 발명의 오디오 재생 장치는, 6DoF 환경 지원 여부를 지시하는 인디게이터 플래그(is6DoFMode) 정보를 더 입력 받고, 상기 인디게이터 플래그(is6DoFMode) 정보가 6DoF환경을 지원하는 경우, 상기 사용자 위치 정보(user position information)를 입력 받는 것을 특징으로 한다.
[발명의 효과]
본 발명의 실시예에 따른, 6DoF 환경에서 오디오 재생 방법 및 장치를 통해, 다음과 같은 효과가 있다.
첫째, 6DoF 환경에 적용하기 위해, 사용자의 위치 변화 정보를 활용함에 따라, 사용자의 위치에 따라 음원의 크기 및 깊이감도 함께 변화시켜줌으로, 입체감 및 현장감 있는 오디오 신호를 제공하는 것이 가능하게 된다.
둘째, 6DoF환경에 적용되는, 공간 모델링 방법을 추가하여, 사용자로 하여금 위치를 자유롭게 이동하더라도, VR 컨텐츠를 즐길 수 있는 환경을 제공하는 것이 가능하게 된다.
셋째. 차세대 몰입형 3차원 오디오 부호화 기술로 MPEG-H 3D Audio 구현상의 효율을 높일 수 있다. 즉, 게임 또는 가상현실(VR) 공간 등 다양한 오디오 응용 분야에서, 수시로 변화되는 오디오 오브젝트 신호에 대응하여, 자연스럽고 현실감 있는 효과를 제공하는 것이 가능하게 된다.
도1은 본 발명에 따른, 오디오 재생 장치를 도시한 것이다.
도2는 본 발명에 따른, 오디오 재생 방법을 흐름도로 도시한 것이다.
도3은 본 발명의 오디오 재생 장치를 구현하는 실시예를 도시한 것이다.
도4는 본 발명의 실시예에 따른, 상기 오디오 재생 장치내 메타데이터 프로세서의 또 다른 실시예를 설명하기 위해 도시한 것이다.
도5~도12는 본 발명의 실시예에 따른, 상기 오디오 재생 장치내 랜더링 데이터 모델링 방법을 설명하기 위해 도시한 것이다.
도13~도23는 본 발명의 실시예에 따른, 오디오 재생 방법 및 장치에 활용되는 신택스(syntax) 구조를 설명하기 위해 도시한 것이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 동일하거나 유사한 구성요소에는 동일한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈", "부" 및 "수단"은 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 또한, 본 발명은 설명의 편의를 위해, 일부 용어를 국문 및 영문을 혼용하여 사용하였으나, 사용된 용어의 의미는 동일함을 밝혀두고자 한다.
도1은 본 발명에 따른, 오디오 재생 장치를 도시한 것이다. 본 발명 도1의 오디오 재생 장치는, 오디오 디코더(101, Audio Decoder), 랜더러(102, Renderer), 믹서(103, Mixer), 바이너럴 랜더러(104, Binaural Renderer), 메타데이터 프로세서(105, Metadata and Interface data processor) 및 랜더링 데이터 모델링부(106)를 포함한다. 도한, 상기 랜더링 데이터 모델링부(106)는, RIR 데이터(1061a)를 생성하기 위한 제1모델링부(1061, Environmental modeling), HRIR 데이터(1061b)를 생성하기 위한 제2 모델링부(1062, HRIR Modeling) 및 상기 RIR 데이터(1061a) 및 HRIR 데이터(1062a)를 합성하여 BRIR 데이터(1063a)를 합성하기 위한 합성부(1063, synthesizing)를 포함한다. 이하 본 발명의 오디오 재생 장치를 상세히 설명하면 다음과 같다.
우선, 상기 오디오 디코더(101)는, 오디오 신호 (예를 들어, 오디오 Bitstream)를 입력받아, 디코딩된 오디오 신호(101a, decoded signal)과 메타데이터(101b, Metadata)를 생성한다. 상기 Metadata 정보(101b)는 상기 메타데이터 프로세서(105)에 전달되고, 상기 메타데이터 프로세서(105)는, 외부에서 추가적으로 입력되는 재생 환경 정보(107, Environment setup info) 및 사용자 인터액션 정보(108, User interaction data)과 조합되어 최종 재생 환경을 설정하여 설정된 재생 환경 정보(105a, Playback environment information)를 상기 랜더러(102)로 출력한다. 관련하여, 상기 메타데이터 프로세서(105)의 상세 동작에 대해서는 후술할 도4를 참조하여 상세히 설명할 예정이다,
상기 랜더러(102)는 상기 재생 환경 정보(105a)를 참조하여 사용자가 설정된 스피커(speaker) 환경에 맞도록 입력되는 디코딩된 신호(101a, decoded signal)에 적용하여 랜더링하고, 랜더링된 신호(102a, rendered signal)을 출력한다. 상기 랜더링된 신호(102a)는 필요시 믹서(103, Mixer)단에서 게인(gain) 및 지연(delay) 보정을 거쳐서 최종 채널(channel) 신호(103a)로 출력되고, 상기 출력된 채널 신호(103a)는 상기 바이너럴 랜더러(104)에서 BRIR(1063a)에 필터링 되어서 서라운드(surround) 2채널 바이너럴 랜더링된 신호(104a, 104b)를 출력한다.
상기 BRIR(1063a)은 사용자 머리 정보(111, User head info)를 통해 모델링된 HRIR(1062a)과 사용자 위치 정보(109, User position info) 및 공간 특성 정보(110, Room characterization info)를 통해서 모델링된 RIR(1061a)이 합성되어서 생성된다. 따라서, 만약 상기 사용자 위치 정보(109, User position info)가 변경되면, 상기 제1 모델링부(1061, Environment modeling)에서 사용자의 새로운 위치를 기준으로 RIR을 다시 모델링하고, 상기 새로 모델링된 RIR에 의해 변경된 BRIR이 생성된다. 상기 변경된 BRIR은 상기 바이너럴 랜더러(104)로 입력되어 입력 오디오 신호를 최종 랜더링하여, 2채널 바이너럴 랜더링된 신호(104a, 104b)로 출력한다.
도2는 본 발명에 따른, 상기 오디오 재생 장치에서의 오디오 재생 방법을 흐름도로 도시한 것이다.
단계 S101은, 입력 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(101a, decoded signal)과 메타데이터(101b, Metadata)로 출력하는 과정이다.
단계 S102는, 입력된 디코딩된 오디오 신호(101a)을 상기 재생 환경 정보(105a)에 근거하여, 랜더링하는 과정이다. 관련하여, 특히 상기 디코딩된 오디오 신호(101a) 중 오브젝트(object) 신호에 대해서는 후술할 단계 S105를 통해 수정된 메타데이터를 적용하여 랜더링하게 된다.
단계 S103은, 선택적 과정으로서, 상기, 랜더링된 신호(102a rendered signal)에 두 가지 타입 이상일 경우, 두 타입 신호를 믹싱(mixing)하는 과정이다. 또한, 필요시 상기 랜더링된 신호(102a)에 게인(gain) 및 지연(delay) 보정을 거쳐서 최종 채널(channel) 신호를 를 출력하게 된다.
단계 S104는, 랜더링된 신호(102a) 또는 단계 S103의 출력신호를, 생성된 BRIR(1063a)에 필터링해서 서라운드 2채널 바이너럴 오디오 신호를 출력하는 과정이다.
관련하여, 상기 BRIR(1063a)를 생성하는 세부 과정을 설명하면 다음과 같다. 단계 S105는, 단계 S101로부터 상기 메타데이터(101b)를 입력받고, 또한, 환경 설정 정보(107, Environment setup information) 및 사용자 위치 정보 (109, User position information)을 입력받아, 오디오 재생 환경을 설정하여 재생 환경 정보(105a)를 출력한다, 또한, 단계 S105는, 사용자 인터액션 정보(108, User interaction data)를 참조하여서 필요시 상기 입력된 메타데이터(101b)를 수정하여 출력할 수 있다.
단계 106은, 상기 사용자 위치 정보 (109, User position information) 및 공간 특성 정보(110, Room characterization info)를 입력받아, 모델링된 RIR(1061a)을 출력한다.
단계 S107은, 만약 단계 S105에서 수신된 상기 사용자 위치 정보 (109)가 이전에 수신된 사용자 위치 정보로부터 변경 되었는 지 여부를 확인하는 과정이다. 만약, 수신된 상기 사용자 위치 정보 (109)가 이전에 수신된 사용자 위치 정보와 상이한 경우( y 패스), 새로운 수신된 사용자 위치 정보 (109)를 기반으로 상기 단계 S106에서 RIR을 다시 모델링하여 출력하게 된다.
단계 S108은, 사용자 머리 정보(111, User head info)를 입력받아 HRIR 모델링을 통해 모델링된 HRIR을 출력하는 과정이다.
단계 S109는, 상기 단계 S106에서 모델링된 RIR과 상기 단계 S108에서 모델링된 HRIR을 합성하여 BRIR을 생성하는 과정이다. 상기 생성된 BRIR 정보는 전술한 단계 S104에서 2채널 바이너럴 오디오 신호를 랜더링하기 위해 활용된다.
도3은 본 발명의 오디오 재생 장치를 구현하는 다른 실시예를 도시한 것이다. 특히, 도3은 본 발명의 실시예에 따른, MPEG-H 3D Audio 부호화기 기반의 6DoF의 3D audio를 구현하기 위한 오디오 재생 장치를 예를 들어 도시한 것이다. 본 발명 도3의 오디오 재생 장치는, 오디오 디코더(201, MPEG-H 3D Audio Core Decoder), 랜더러(202, Renderer), 바이너럴 랜더러(203, Binaural Renderer), 메타데이터 프로세서(204, Metadata and Interface data processor) 및 랜더링 데이터 모델링부(205)를 포함한다.
이하 본 발명 도3의 실시예에 따른 MPEG-H 3D Audio 재생 장치를 상세히 설명하면 다음과 같다.
상기 오디오 디코더(201)는 오디오 비트스트림을 입력 받는다. 상기 오디오 비트스트림은 MPEG-H 3D 오디오 포맷에 근거하여 송신단(미도시)에서 입력된 오디오 신호를 인코딩(encoding) 및 비트-팩킹(bit-packing)하여 생성되어 진다. 관련하여, MPEG-H 3D 오디오 비트스트림 생성시, 오디오 신호 타입은 채널 신호, 오브젝트 신호 혹은 장면 기반의 HOA(High Order Ambisonic) 신호일 수 있다. 또는 상기 오브젝트 신호와 다른 신호가 조합으로 이루어 입력될 수 있다 (예를 들어, '채널 신호+오브젝트 신호' , 'HOA 신호+오브젝트 신호' , 등). 송신단(미도시)에서 상기 과정을 통해 생성된 오디오 비트스트림은 상기 오디오 디코더(201, MPEG-H 3D Audio Core decoder)로 입력되어 디코딩된 신호(201a, Decoded signal) 를 출력하게 된다. 출력되는 디코딩된 신호(201a, Decoded signal)들은 송신단에서 입력되었던 모든 신호들이며, 송신단에서 인코딩된 신호 타입의 순서대로 디코딩된 신호(201a)로 출력된다. 만약 오디오 신호 중에 오브젝트 신호도 포함되어 있다면, 상기 디코딩된 신호(201a, Decoded signal)을 출력할 때 오브젝트 관련된 오브젝트 메타데이터(201b, Object metadata) 정보도 함께 출력된다.
다음, 상기 디코딩된 신호(201a, Decoded signal) 들은 상기 랜더러(202, Renderer)로 전달되고 함께 출력되었던 오브젝트 메타데이터(201b) 정보는 상기 메타데이터 프로세서(204)로 전달된다.
상기 메타데이터 프로세서(204)는, 상기 오브젝트 메타데이터(201b)를, 외부에서 추가적으로 입력되는 설정 가능한 정보와 조합되어 최종 출력 신호의 특성을 변경시킬 수 있다. 상기 외부에서 추가적으로 설정 가능한 정보는, 크게 재생 환경 설정 정보(206, environment setup info) 및 사용자 인터액션 정보(207, user interaction data)가 있다. 상기 재생 환경 설정 정보는 사용자가 청취하는 오디오의 재생 환경에 관한 정보로써, 예를 들어, 스피커 또는 헤드폰으로의 출력 여부를 지시하는 랜더링 타입(206a, Rendering type) 정보, 헤드 트랙킹(Head tracking) 사용 여부를 지시하는 트래킹 모드(206b, Tracking mode), 오디오 장면 변화여부를 지시하는 장면 전환 정보(206c, Scene displacement info.), 외부 연결 장치를 지시하는 정보(206d, WIRE output setup), 오디오와 연동된 비디오 로컬 화면 크기 정보(206e, Local screen size info.) 및 사용된 스피커의 위치를 지시하는 정보(206f, local speaker layout)를 포함할 수 있다.
또한, 상기 사용자 인터액션 정보(207)는, 오디오 재생 중에 사용자 의도를 부여하는 정보들로, 예를 들어, 사용자가 오브젝트 신호의 특성(위치 및 크기) 변화를 지시하는 정보로서 인터액션 모드(207a, Interaction mode)와 인터액션 데이터(207b, Interaction data info.) 및 비디오 화면 및 오브젝트 간의 연동을 지시하는 정보(207c, Zoom area info.)를 포함할 수 있다.
또한, 메타데이터 프로세서(204)는, 오브젝트 신호를 재생 중 사용자가 임의의 오브젝트의 특성 정보를 변화시키고자 할 때, 오브젝트 메타데이터(201b, object metadata)를 사용자 의도에 맞도록 해당 과정에서 수정해주어야 한다. 따라서, 상기 메타데이터 프로세서(204)는 재생 환경을 설정할 뿐만 아니라, 오브젝트 메타데이터(201b, object metadata)를 외부에서 입력된 정보들을 참조하여 변형시키는 과정도 포함하고 있다.
상기 랜더러(202)는, 상기 디코딩된 신호(201a, Decoded signal)를 외부에서 입력된 재생 환경 정보에 맞춰서 랜더링하여 출력한다. 만약 사용자의 재생 환경의 스피커가 입력 채널 신호 개수보다 적을 경우 채널 변환기(Channel converter)를 적용하여 재생 환경의 스피커 개수에 맞춰서 채널 신호를 다운믹스( downmix)시켜줄 수 있으며, 오브젝트 신호에 대해서는 오브젝트 메타데이터(object metadata) 정보를 참조하여 재생 스피커 위치에 맞도록 오브젝트 신호를 랜더링하게 된다. 또한, HOA 신호에 대해서는 입력 신호들을 선택된 스피커 환경에 맞도록 재구성시켜준다. 또한, 만약 상기 디코딩된 신호(201a, Decoded signal)가 두 가지 타입의 신호가 조합되어 있는 형태라면 믹싱(mixing) 과정에서 출력 스피커 위치에 맞도록 랜더링된 신호들을 믹싱(mixing)하여 채널 신호로 출력하는 것도 가능하다.
관련하여, 만약 상기 랜더링 타입(206a)에 의해 재생 방식이 헤드폰으로 선택되면, 재생 환경에서의 스피커 위치에서 녹음된 양이의 BRIR 들을 랜더링된 신호(202a, Rendered signal)에 필터링하고 더해서 최종 2채널 스테레오 신호(OutL , OutR)를 출력한다. 관련하여, 양이의 BRIR을 랜더링된 신호(202a, Rendered signal) 에 직접 필터링 할 경우 많은 연산량이 필요하므로, BRIR 파라미터 생성부(2055, Parameterization) 과정을 통해, BRIR의 특징 정보들을 파라미터화(Parameterization)한 BRIR 파라미터 데이터(2055a, 2055b)로 추출하여 활용하는 것이 가능하다. 즉, 상기 추출된 BRIR 파라미터 데이터(2055a, 2055b)를 직접 신호에 적용함으로써 연산량 측면에서 효율성이 높이는 장점이 있다. 단, 상기 BRIR 파라미터 생성부(2055)는 실제 제품 디자인에 따라 선택적으로 적용하는 것이 가능하다.
관련하여, 도3의 상기 랜더링 데이터 모델링부(205)는, MPEG-H 3D Audio 재생 장치를 6DoF 환경에서 효과적으로 사용하기 위해 추가적으로 확장된 과정을 포함한다. 이를 상세히 설명하면 다음과 같다.
상기 랜더링 데이터 모델링부(205)는, RIR 데이터(2052a)를 생성하기 위한 제1모델링부(2052, Environmental modeling), HRIR 데이터(2051a, 2051b)를 생성하기 위한 제2 모델링부(2051, HRIR Modeling), 사용자 위치 변화에 대응하여 상기 HRIR 데이터(2051a, 2051b)를 보상하는 거리 보상부(2053, Distance compensation) 및 상기 RIR 데이터(2052a) 및 상기 거리 보상부(2053)로부터 출력되는 보상된 HRIR 데이터(2053a, 2053b)를 합성하여 BRIR 데이터(2054a, 2054b)를 합성하기 위한 합성부(2054, synthesizing)를 포함하는 것을 특징으로 한다. 한다. 또한, 전술한 바와 같이, 본 발명은 선택적으로 상기 합성된 BRIR 데이터(2054a, 2054b)를 파라미터화 하여 BRIR 파라미터 데이터(2055a, 2055b)를 출력하는 BRIR 파라미터 생성부(2055, Parameterization)를 포함할 수 있다.
관련하여, 본 발명은 6DoF 환경을 지원하기 위해서 공간 환경 정보(213, Environment information)와 사용자 위치 정보(212, User position information)를 추가적으로 수신할 뿐만 아니라, 청취자에게 가장 최적화된 입체 음향을 제공하기 위해 사용자 머리 정보(211, User head information)을 수신하여 개인화된 HRIR를 사용하는 것도 가능하게 하였다. 즉, 사용자가 임의 공간 내에서 위치를 이동하면 (예를 들어, 수신되는 사용자 위치 정보(212)의 변경 여부로부터 사용자 위치 이동여부를 확인하는 것이 가능하다), 오브젝트 메타데이터 및 스피커의 상대적인 위치도 함께 변경되므로, 도3에서와 같이 데이터 조정부 (212a, 212b, adjust relative information (adj. ref. info.))를 추가하여 사용자 위치 이동에 따라 변경되는 정보를 보상해 줄 수 있도록 하였다.
상기 제1모델링부(2052, Environmental modeling)는, RIR (Room Impulse Response)을 모델링 하는 과정이다. 예를 들어, 6DoF 환경에서는 사용자가 음원이 발생하는 공간 내에서 자유롭게 이동 가능하다. 따라서 사용자가 이동하는 위치에 따라서 사용자와 음원간의 거리도 달라지고, 이에 따라 룸 응답도 변화한다. 예를 들어, 사용자가 잔향이 많이 울리는 교회와 같은 공간 내에서 음원에 매우 가까이 있을 때에는 음원의 소리가 크게 들리지만, 음으로부터 멀리 있을 경우에는 음원의 소리가 작게 들리고 잔향이 더욱 크게 들리게 된다. 이러한 영향은 같은 공간 내에서 사용자가 위치를 움직임으로써 나타나는 현상이므로 6DoF 환경에서는 위치 변화에 따라 달라지는 특징을 반영하기 위해 사용자의 위치 정보와 룸 특성 정보를 이용하여 공간 응답을 모델링 해야 한다. 상기 제1모델링부(2052) 상세 동작은 도5~도8를 참조하여 상세히 후술하고자 한다.
상기 제2 모델링부(2051, HRIR Modeling)는 사용자의 머리 및 귀의 특징을 모델링 하는 과정이다. 사람마다 머리와 귀의 특징이 다르기 때문에, VR 컨텐츠를 위한 3차원 오디오를 효과적으로 경험하기 위해서는 사용자의 머리 및 귀 모양을 정확하게 반영하여 HRIR를 모델링하는 것이 필요하다. 상기 제2모델링부(2051) 상세 동작은 도9~도11를 참조하여 상세히 후술하고자 한다.
상기 거리 보상부(2053, Distance compensation) 는 상기 사용자 위치 정보(212)를 반영하여 상기 모델링된 HRIR 응답 (HRIRL(2051a), HRIRR(2051b))의 게인(gain)을 조절한다. 일반적으로 HRIR은 사용자와 음원의 거리를 항상 일정하게 유지한 상황에서 측정되거나 모델링된다. 하지만, 6DoF 환경처럼 사용자가 공간상에서 자유롭게 움직일 수 있는 공간에서는 사용자와 음원의 거리가 변화하기 때문에 HRIR 응답의 게인도 변화되어야 한다 (예, 사용자가 음원에 가까울수록 HRIR 응답 크기는 더욱 커지고, 멀어질수록 HRIR 응답 크기는 작아짐). 이러한 이유로, 양이의 HRIR 게인은 사용자의 위치에 따라 조절되어야 한다. 상기 거리 보상부(2053) 상세 동작은 도12를 참조하여 상세히 후술하고자 한다.
상기 합성부(2054, synthesizing)는 모델링된 HRIRL(2051a), HRIRR(2051b)과 RIR(2052a)을 합성한다. 즉, VR 환경에서 헤드폰을 이용하여 현장감 있는 오디오를 경험하기 위해서는 사용자의 머리 및 귀의 특성 정보와 공간 특성 정보가 함께 반영된 BRIR 응답이 필요하다. 따라서 모델링된 HRIRL(2051a) 및 HRIRR(2051b)을 각각 공간 응답 RIR(2052a)에 합성하여 BRIRL(2054a), BRIRR (2054b) 응답을 만든다. 상기 BRIRL(2054a), BRIRR (2054b) 은 직접 랜더링된 신호(202a)에 필터링하여 바이너럴 랜더링(binaural rendering)된 최종 출력 신호(OutL과 OutR)를 출력할 수 있으며, 또한, 전술한 바와 같이, 필요하다면 BRIR 파라미터화(2055, parameterization) 과정을 통해서 양이의 BRIR(BRIRL과 BRIRR)의 특징 정보를 파라미터들로 추출하여 ParamL(2055a) 및 ParamR(2055b)를 적용하여 최종 출력 신호(OutL과 OutR)를 출력할 수 있다.
도4는 본 발명의 다른 실시예에 따른, 상기 오디오 재생 장치내 메타데이터 프로세서(304)의 또 다른 실시예를 예를 들어 도시한 것이다. 도4의 메타데이터 프로세서(304) 구성은, 도3의 메타데이터 프로세서(204) 구성과 구현상 방식에 차이가 잇다. 예를 들어, 도3의 메타데이터 프로세서(204)는, 전술한 데이터 조정부 (212a, 212b, adjust relative information (adj. ref. info.))를 통해 조정된 신호를 입력 받지만, 도4의 메타데이터 프로세서(304)는 스스로 데이터 조정을 수행하는 점에서 상이하다.
이하, 도4의 6DoF 환경에서의 메타데이터 프로세서(304, Metadata & interface data processor)에 대해 상세히 설명하면 다음과 같다. 도4를 참조하면, 상기 메타데이터 프로세서(304)를, 재생 환경 정보를 설정하는 제1파트(3041, configuration part), 사용자가 직접 오디오 씬(audio scene)과 상호 작용하는 제2파트(3042, interaction part), 사용자의 움직임을 하드웨어가 인지하고 보상해주는 제3파트(3043, tracking part)로 구분할 수 있다.
우선, 상기 제1파트(3041, configuration part)는 음원 컨텐츠 재생 환경을 설정하는 부분으로, 랜더링 타입(Rendering type), 스피커-셋업(Local speaker setup), 스피커 위치정보(Speaker layout information), 화면 크기 정보(Local screen size information) 및 오브젝트 메타데이터(Object metadata) 정보가 사용된다. 상기 랜더링 타입(Rendering type), 스피커-셋업(Local speaker setup)은 'Setup playback environment' (30411)로 입력되어 오디오 신호를 스피커 혹은 헤드폰으로 재생할지를 결정한다. 또한, 스피커-셋업(Local speaker setup)은 스피커 포맷을 의미하며, 헤드폰으로 재생할 경우, 설정된 스피커 포맷에 해당되는 BRIR을 사용한다. 스피커 위치정보(Speaker layout information)는 각 스피커의 위치 정보를 의미한다. 스피커의 위치는 사용자가 정면을 바라보고 있는 시점과 위치를 기준으로 방위각(Azimuth), 고도각(Elevation)과 거리(Distance)로 나타낼 수 있다. 오브젝트 메타데이터(Object metadata)는 오브멕트 신호를 공간상에 랜더링 시켜주기 위한 정보로, 일정 시간 단위로 각 오브젝트에 대한 방위각(Azimuth), 고도각(Elevation) 및 게인(gain) 등의 정보를 담고 있다. 일반적으로 오브젝트 메타데이터(Object metadata)는 컨텐츠 제작자가 오디오 씬(audio scene)을 구성할 때 각각의 오브젝트 신호의 표현 방식을 고려해서 제작하며, 제작된 메타데이터는 인코딩되어 수신단으로 전달된다. 오브젝트 메타데이터(Object metadata)를 제작할 때, 각 오브젝트 신호를 씬(screen)과 연동시킬 수도 있다. 하지만 사용자가 시청하는 비디오 화면(screen)의 크기가 제작자가 메타데이터 제작 시 참조한 화면의 크기와 항상 동일하다는 보장은 없다. 따라서 임의의 오브젝트를 비디오 화면(screen)과 연동시킬 경우, 화면 크기(size) 정보도 함께 저장한다. 그리고 제작자와 사용자간에 발생하는 화면 불일치 문제를 Screen size remapping (30412)을 통해 해결할 수 있다.
화면 크기 정보(Local screen size information)는 사용자가 시청하는 화면의 크기 정보를 의미한다. 따라서 해당 정보가 수신되면, 비디오 화면과 연동되는 오브젝트 메타데이터(Object metadata) 정보들 (예를 들어, 일반적으로 오브젝트의 방위각(Azimuth), 및 고도각(Elevation) 정보)을 사용자가 시청하는 화면 크기에 맞춰서 재매핑(remapping) 시켜주므로, 제작자의 의도를 다양한 크기의 화면에 적용시킬 수 있게 된다.
상기 제2파트(3042, interaction part)에서는 인터액션 데이터(interaction data information)와 줌영역 정보(zoom area information)가 사용된다. 상기 인터액션 데이터(interaction data information)는 재생 중인 오디오 씬(audio scene)의 특징을 사용자가 직접 변경시키고자 하는 정보들로, 대표적으로 오디오 신호의 위치 변화 정보 및 크기 변화 정보들이 있다. 위치 변화 정보는 방위각(azimuth) 및 고도각(elevation)의 변화량으로 표현할 수 있으며, 크기 정보는 게인(gain)의 변화량으로 표현하는 것이 가능하다. 해당 정보들이 입력되면, 'Gain & Position interactive processing' (30421)은 상기 제1파트(3041, configuration part)의 오브젝트 메타데이터(Object metadata)의 위치 정보와 크기 정보를 인터액션 데이터(interaction data information)에 입력된 변화량만큼 변화시킨다. 게인(Gain) 정보 및 위치(position) 정보는 상기 오브젝트 신호에만 적용 가능하다. 또한, 상기 줌영역 정보(zoom area information)은 사용자가 임의의 컨텐츠 시청 중 화면의 일부를 확대하고자 할 때 이용되는 정보이며, 만약 해당 정보가 입력되면, 'Zoom area & object remapping' (30422)에서 비디오 화면과 연동되던 오브젝트 신호의 위치 정보를 줌 영역(zoom area)에 맞춰서 다시 맵핑(mapping)시킨다.
상기 제3파트(3043, Tracking part)는 크게 장면 변화 정보(Scene displacement information)과 사용자 위치 정보(212, User position information)가 사용된다. 상기 장면 변화 정보(Scene displacement information)은 머리 회전 정보를 의미하며, 일반적으로 회전정보(yaw, pitch, roll)로 나타낸다. 만약 트랙킹 모드(tracking mode)가 작동되는 환경에서 사용자가 머리를 회전하면, 회전 정보(yaw, pitch, roll)는 'Adjust audio scene direction information' (30431)로 입력되어서, 오디오 씬(audio scene)의 위치 정보를 회전량만큼 변경시킨다. 상기 사용자 위치 정보(212, User position information)는 사용자의 위치 변화 정보를 의미하며, 방위각(azimuth), 고도각(elevation) 및 거리(distance)로 나타낼 수 있다. 따라서 사용자가 위치를 움직일 경우, 'Adjust audio scene metadata information' (30432)에서 오디오 씬(audio scene)을 변화된 위치만큼 반영한다. 예를 들어, 오브젝트로 구성된 오디오 씬(audio scene)을 재생하고 있는 상황에서 사용자가 정면을 향해 움직이면, 정면에 위치한 오브젝트의 게인은 증가시켜주고, 후면에 위치한 오브젝트의 게인을 감소시켜준다. 추가적으로, 오디오 씬(audio scene)을 스피커 환경에서 재생시킬 경우, 사용자의 변화된 위치를 'Adjust speaker layout information' (30413)에서 반영해줄 수 있다. 사용자에 의해 변경된 재생환경 정보는 이후 도3의 상기 랜더러(202, renderer)로 전달된다.
도5~도12는 본 발명의 실시예에 따른, 상기 오디오 재생 장치내 모델링 방법을 설명하기 위해 도시한 것이다.
우선, 도5~도8을 참조하여, 상기 제1모델링부(2052, Environment Modeling) 동작을 상세히 설명한다. 본 발명의 3D 오디오 디코더(3D Audio decoder)를 6DoF 환경에서도 사용할 수 있도록 확장하면서 기존 3DoF 환경과 비교했을 때 나타나는 가장 큰 차이는 BRIR을 모델링 하는 부분으로 볼 수 있다. 기존 3DoF 기반의 3D 오디오 디코더에서는 헤드폰으로 음원을 재생할 때에는 사전에 만들어진 BRIR 을 음원에 직접 적용하였지만, 6DoF 환경에서는 사용자 위치가 변경될 때마다 현실감 있는 음원을 재생하기 위해 사용자 위치에 따른 BRIR을 매번 모델링해서 음원에 적용해야 한다.
예를 들어, 전술한 'MPEG-H 3D Audio decoder' (201)를 사용하며 오디오 신호 랜더링이 22.2 채널 환경 기반으로 이루어질 경우, 22채널에 대한 BRIR을 사전에 보유해서 필요할 때마다 바로 사용할 수 있지만, 6DoF 환경에서는 사용자가 임의의 공간에서 움직이며 움직인 위치에 대한 22채널의 BRIR을 새로 모델링하거나 해당위치에서 사전에 측정된 BRIR을 확보한 다음에 사용 가능하다. 따라서 상기 제1 모델링부(2052, environment modeling) 동작시 연산량을 가능한 최소화하며 BRIR을 모델링할 수 있어야 한다.
일반적으로 RIR은 도5와 같이 크게 세 종류의 응답 특성을 갖는다. 처음 r1(601)에 해당하는 응답이 직접음(direct sound)으로 음원이 공간 반사 없이 직접 사용자에게 전달되는 응답이다. r2(602)는 초기 반사음(early reflection)으로 음원이 밀폐된 공간에 한 번 혹은 두 번 반사되어서 사용자에게 전달되는 응답이다. 일반적으로 초기 반사음은 공간의 기하학적 특징에 영향을 받아 음원의 공간적 특징을 변화시키고, 청감적으로 확산감에 영향을 끼친다. 마지막으로, r3(603)은 후기 잔향음(late reverberation)으로 음원이 공간의 바닥, 천장, 벽면 등에 무수히 많이 반사된 후에 사용자에게 전달되는 응답이며, 해당 응답은 공간의 흡음이나 반사 재질에 의해 응답을 변화시키고, 청감적으로 잔향감에 영향을 준다. 일반적으로 상기 직접음(601) 및 초기 반사음(602)의 경우, 음원이 발생하는 위치 및 방향에 따라서 응답 특성이 달라지는 경향이 있지만, 후기 잔향음(603)의 경우, 공간 자체의 특성을 모델링 하기 때문에 사용자가 위치를 변화하여도 모델링된 응답의 특성은 변하지 않는다. 따라서 본 발명은 상기 제1 모델링부(2052, environment modeling) 동작시 초기 반사음(602)과 후기 잔향음(603)을 서로 독립적으로 모델링 하는 것을 제안한다. 이하 이에 대해 각각 설명하고자 한다.
사용자 위치에 따라 응답이 가변적으로 변하는 초기 반사음(602)을 모델링하기 위해 사용자 위치 정보, 음원 위치 정보 및 공간 특성 정보를 입력으로 사용할 수 있다. 사용자 위치 정보(User position information)은 전술한 바와 같이 방위각(azimuth), 고도각(elevation) 및 거리(distance)로 나타낼 수 있으며, 이를 3차원 구면 좌표계(spherical coordinate system)를 구성하는 단위로 표현할 경우 (θ, φ, γ)로 표시될 수 있다. 또한, 3차원 직교 좌표계(Cartesian coordinate system) 단위의 (x, y, z)로도 표시될 수 있다. 또한, 상기 두 개의 좌표계는 축-변환 공식을 이용하여 서로 변환이 가능함은 널리 알려진 사실이다.
일반적으로 음원은 스피커를 통해 재생되므로, 스피커-위치 정보(speaker layout information)을 참조하여 음원의 위치 정보를 나타낼 수 있다. 만약 사용한 스피커 포맷이 표준 규격의 스피커 포맷이면 표준 스피커 위치 정보를 참조하여 사용 가능하며, 사용자 정의의 스피커 포맷을 이용하였다면 사용자가 직접 스피커의 위치 정보를 입력하여 사용 가능하다. 상기 스피커-위치 정보(speaker layout information)로서 방위각(azimuth), 고도각(elevation), 거리(distance) 정보가 수신되므로, 스피커의 위치 정보를 사용자 위치 정보와 마찬가지로 구면 좌표계(spherical coordinate system) 혹은 직교 좌표계(Cartesian coordinate system) 단위로 표시할 수 있다.
공간 정보(Environment information)는 크게 공간 크기 정보 및 공간 특성 정보가 있으며, 공간 크기 정보는 공간이 직육면체라고 가정할 경우 [L, W, H](길이, 높이, 폭, 단위 (m))으로 표시할 수 있다. 공간 특성 정보는 공간을 이루는 각 면의 재질 특성으로 나타낼 수 있는데, 일반적으로 흡음 계수(Absorption coefficient, α)로 나타낼 수 있으며, 공간에 대한 잔향 시간(reverberation time)으로도 나타낼 수 있다.
도6은, 본 발명의 상기 제1모델링부(2052)를 도시한 것이다. 본 발명의 상기 제1모델링부(2052)는, 상기 초기 반사음(602)을 모델링하는 초기 반사음 모델링부(20521, Early reflection modeling), 상기 후기 잔향음(603)을 모델링하는 후기 잔향음 모델링부(20522, Late reverberation modeling) 및, 상기 모델링 결과를 가산하여 최종 RIR 데이터(2052a)를 출력하는 가산기(20523)을 포함하여 구성된다.
RIR 룸 응답을 모델링 하기 위해 수신단에서는 사용자 위치 정보(user position info)뿐만 아니라, 재생 환경과 관련된 스피커 위치 정보(speaker layout info) 및 공간 특성 정보(environment info)도 함께 수신하여 초기 반사음(602) 및 후기 잔향음(603)을 모델링하고, 이를 가상하여 최종 RIR 룸 응답을 생성한다. 이후 6DoF 환경에서 사용자의 위치가 변화하면 수신단에서는 초기 반사음 모델링부(20521, Early reflection modeling) 을 통해 변화된 사용자 위치에 대한 초기 반사음 응답만 새로 모델링하여 전체 룸 응답을 업데이트하게 된다.
도7은 상기 초기 반사음 모델링(20521)을 설명하기 위해 도시한 것이다. 초기 반사음 모델링(20521, Early reflection modeling)은 룸 응답의 초기 반사음(602)만을 모델링하는 과정이다. 사용자 위치 정보(User position information), 각 스피커 위치 정보(Speaker layout information) 및 공간 정보(Environment information([L, W, H], α))를 기반으로 해서 'Image source method' 혹은 'Ray-tracing method' 등을 이용하여 응답이 2차 혹은 3차 반사까지만 모델링 되도록 설정하여 출력할 수 있다.
도7 (a)는 임의의 밀폐된 공간에서 발생된 음원(701)이 한 번 반사되어서 전달되는 경우를 도시한 것이며, 도7 (b)는 음원(701)이 두 번 반사되어서 전달되는 경우에 대해서 도시한 것이다. 도7 (a),(b)에서 실선으로 이루어진 영역이 실제 공간(702)이며, 점선으로 이루어진 영역은 실제 공간을 대칭적으로 확장한 가상 영역(703)이다. 도7(a), (b)와 같이 실제 공간(702)에서 음원이 반사되는 경로에 따라 공간을 가상 영역(703)까지 확장하면, 결국 대칭된 가상 영역(703)에서 발생시킨 음원(704)의 직접음이라고 가정할 수 있다. 따라서 공간의 크기, 가상 공간에서 음원과 사용자의 위치와의 거리, 반사로 인해 음원의 크기 감소시키는 바닥, 천장, 벽의 재질 특성 (흡음 계수) 등의 정보를 이용하면 임의의 공간의 룸 응답을 모델링할 수 있게 된다.
도8은 상기 후기 잔향음 모델링(20522)을 설명하기 위해 도시한 것이다. 후기 잔향음 모델링(20522, Late reverberation modeling)은 룸 응답의 후기 잔향음(603)만을 모델링하는 과정이다. 공간 정보의 잔향 시간을 참조해서 피드백 지연 네트워크(feed-back delay network, FDN) 기반의 알고리즘으로 모델링 가능하다. 즉, FDN은 여러 개의 콤필터(comb filter)로 구성되어 있다. 도8에 도시된 파라미터 (g=[g 1 , g 2 ,…, g P ], c=[c 1 , c 2 ,…, c P ], τ=[τ 1 , τ 2 , …, τ P ], P)들은 모델링된 응답에 사용자가 의도한 특성이 잘 반영 되도록 설정해주어야 한다. 예를 들어, 파라미터 P 는 콤필터(comb filter) 개수를 의미한다. 일반적으로 콤필터의 수는 많으면 많을수록 좋은 성능을 나타내지만, 전체적인 연산량도 함께 증가되므로 주어진 환경에 맞춰서 적절하게 설정해야 한다. 파라미터τ 는 콤필터의 전체 지연(delay)를 의미하며, τ= τ 1+τ 2+…+τ P 의 관계를 갖는다. 이때 τ 1, τ 2,…, τ P 는 서로 배수 관계가 아닌 값들로 설정된다. 예를 들어, P = 3, τ = 0.1ms이면, τ 1 = 0.037ms, τ 2 = 0.05ms, τ 3 = 0.013ms 로 설정시킬 수 있다. 파라미터 g=[g 1 , g 2 , …, g P ] 와 c=[c 1 , c 2 , …, c P ]는 1보다 작은 값으로 설정된다. FDN 구조로 후기 잔향음을 모델링 할때 사용자가 의도하는 응답 특성에 대한 최적의 파라미터값들은 수식적으로 계산할 수 없기 때문에, 일반적으로 주어진 정보(RT 60 , 공간 특성, 공간 크기, 등)를 기반으로 해서 사용자 임의로 설정하게 된다.
다음, 도9~도11을 참조하여, 상기 제2모델링부(2051, HRIR Modeling) 동작을 상세히 설명한다. 도9는, 전술한 상기 제2 모델링부(2051)에 적용되는 사용자의 머리 및 귀의 특징을 모델링 하는 과정을 설명하기 위해 도시한 것이다. 일반적으로, 머리 모양 모델링시는 도9 (a) 및 (b)와 같이 사용자의 머리 사이즈(901, diameter) 및 귀의 특징을 이용한다. 상기 사용자 귀의 특징을 모델링하기 위해 사용되는 정보는 도9(b)에 도시한 바와 같이, 귀를 구성하는 각 길이 값들(902, d1~d7) 및 귀의 외관을 구성하는 각도 값(903)을 포함하여 구성할 수 있다. 상기 제2모델링부(2051)에 의한 HRIR 모델링이 완료되면 왼쪽 귀와 오른쪽 귀 응답에 해당하는 전술한 도3의 HRIRL(2051a) 및 HRIRR(2051b)를 출력하게 된다. 관련하여, 사용자마다 귀의 특징이 다르기 때문에 3D 오디오 다코더를 통한 3차원 오디오의 효과를 극대화하기 위해 가장 이상적으로는 사용자의 HRIR을 사전에 취득한 뒤, 컨텐츠에 적용하는 것이다. 하지만 이러한 과정은 매우 많은 시간과 비용이 발생하므로 상기 제2모델링부(2051)에 의한 HRIR 모델링 혹은 HRIR 개인화(individualization)과 같은 방법을 이용하여 기존 범용화된 HRIR 사용시 발생할 수 있는 문제를 보완할 수 있게 된다. 이하, 도 10~도11을 참조하여 HRIR 모델링 및 HRIR 개인화(individualization) 방법에 대해 상세히 후술한다.
도 10은 상기 제2모델링부(2051)에 의한 HRIR 모델링의 기본 블록도를 도시한 것이다. 입력으로 스피커 위치 정보(speaker layout info) 및 사용자 머리 정보(User head info)를 이용할 수 있다. 관련하여, 상기 스피커 위치 정보(speaker layout info)는 음원 위치 정보로도 활용된다. 또한, 표준 규격 스피커 포맷에 대해서는 표준 스피커 위치 정보를 참조하여 사용 가능하며, 사용자 정의로 배치된 스피커 환경에 대해서는 사용자가 직접 스피커 위치 정보를 입력하여 사용 가능하다. 스피커의 위치 정보는 구면 좌표계(spherical coordinate system) 단위의 (θ, φ, γ) 혹은 직교 좌표계(Cartesian coordinate system) 단위의 (x, y, z)로 표시될 수 있으며, 두 개의 좌표계는 축-변환 공식을 이용하여 서로 축 변환이 가능하다. 상기 사용자 머리 정보(User head info)는 머리 크기 정보를 포함하며, 이는 사용자가 수동으로 입력하거나, 또는 헤드폰 혹은 센서 등과 연동하여 기계적으로 사용자 머리 크기를 측정하여 자동으로 입력하는 것이 가능하다.
도10의 상기 제2모델링부(2051)는, 헤드 모델링부(20511, Head modeling) 및 귀 모델링부(20512, Pinna modeling)으로 구성된다. 상기 헤드 모델링부(20511, Head modeling)은 상기 음원 위치 정보와 사용자 머리 크기 정보를 이용하여, 사람이 음원의 위치를 인지하는데 사용되는 ITD 및 ILD가 반영된 헤드 쉐도우(head shadow)에 대한 전달 함수(HL, HR)를 각각 나타낼 수 있다. 상기 귀 모델링부(20512, Pinna modeling)는 사용자 귀의 귓바퀴에 의한 영향을 반영한 응답을 모델링하는 과정으로, 일반적으로 사전에 정해진 다양한 상수 값들의 조합을 모델링 과정에 반영하여 사용자에게 가장 적합한 응답을 모델링할 수 있다.
도11은 HRIR 개인화(individualization) 과정을 도시한 것이다. 도11에서 굵은 실선은 사전에 취득하여 보유하고 있는 데이터베이스(DB)를 의미한다. 입력으로 음원 위치 정보(Speaker layout info.) 및 다양한 피실험자에 대한 머리 크기 정보(User head info), 양이 특징 정보를 포함하는 바이너럴 정보 DB(Binaural info DB) 및 HRIR DB와 사용자의 머리 크기 및 양이 특징 정보 DB (Head info DB)를 사용할 수 있다. 양이의 특징 정보는 왼쪽과 오른쪽 귀의 크기 및 형태 정보를 의미하며, 해당 정보를 사용자가 수동으로 입력할 수 있고, 카메라 혹은 영상 장치를 이용해 귀를 캡쳐해서 기계적으로 귀의 형태를 측정하고 분석하여 자동으로 입력되도록 할 수 있다. 만약 카메라 혹은 영상 장치를 이용하여 귀의 형태를 측정할 경우, 전술한 도9 (b)와 같이 귀의 다양한 부위의 길이를 측정하여 귀의 특징을 분석할 수 있다. 도11의 캡쳐 및 분석부(904, Capture & analyzing)에서는 카메라로 사용자의 귀를 캡쳐 해서 분석한 뒤 머리 및 양이 정보(904a, 904b)를 출력한다. 이후 HRIR선택부(905, Select HRIR)에 입력되어서 보유하고 있는 다양한 피실험자의 양이 특징 정보 DB들과 비교한다. DB 내에서 가장 유사한 특징을 갖는 임의의 피실험자가 선택되면 해당 피실험자의 HRIR를 청취자의 HRIR(905a, 905b)로 간주하여 사용하게 된다.
도12는 상기 거리 보상부(2053, Distance compensation)의 상세 동작을 설명하기 위해 도시한 것이다. 상기 거리 보상부(2053)는, 에너지 계산부(20531, Energy calculation), 에너지 보상부(20532, Energy compensation) 및 게인 변경부(20533, Gain modification)를 포함한다.
우선, 상기 에너지 계산부(20531, Energy calculation)는, 전술한 제2모델링부(2051)에 의해 모델링된 HRIR들(2051a, 2051b) (HRIRL _1, HRIRR _1, …, HRIRL _N, HRIRR _N)을 입력 받아, 각 HRIR들의 에너지(NRGL _1, NRGR _1, …, NRGL _N, NRGR _N)를 계산한다.
상기 에너지 보상부(20532, Energy compensation)는, 상기 계산된 에너지들 NRGL _n, NRGR _n 및 전술한 사용자 위치 정보(212)를 입력 받아, 사용자의 변경된 위치를 참조하여 상기 계산된 에너지들 NRGL _n, NRGR _n 을 보상해준다. 예를 들어, 사용자가 정면으로 움직였을 경우, 정면에서 측정된 HRIR들의 에너지는 움직인 거리에 비례하여 크게 조정해주되, 후면에서 측정된 HRIR들의 에너지는 움직인 거리에 비례하여 작게 조정해준다. 사용자의 초기 위치는 수평면상에 위치한 모든 스피커로부터 모두 동일한 거리인 정중앙에 있다고 가정하고, 사용자 및 스피커의 위치 정보는 방위각(azimuth), 고도각(elevation) 및 거리(distance)를 참조하여 나타낼 수 있다. 따라서 사용자가 위치를 변경할 경우, 각 스피커에 대한 상대적인 거리 변화량을 계산할 수 있다. 상기 에너지 보상부(20532,Energy compensation)에서 보정된 HRIR의 에너지 값들(cNRGL _1, cNRGR _1, …, cNRGL _N, cNRGR_N)은 상기 게인 변경부(20533, Gain modification)으로 입력되어, 모든 HRIR의 게인(gain)을 변경된 거리에 맞도록 수정하여 보정된 HRIR (cHRIRL _1, cHRIRR _1, …, cHRIRL _N, cHRIRR _N)를 출력한다. 게인(Gain)의 제곱에 대한 물리량은 에너지(energy)에 대응하므로, 적합한 수학식, 예를 들어, 보정된 에너지들에 루트(root)를 취해서 각 에너지에 대응되는 HRIR (즉, 상기 에너지 보상부(20532)에서 보상된 HRIR)에 곱해줌으로써 사용자 위치 변경에 따른 HRIR의 게인(gain)을 보상해줄 수 있다.
도13~도22는 본 발명의 실시예에 따른, 오디오 재생 방법 및 장치에 활용되는 신택스(syntax) 구조를 설명하기 위해 도시한 것이다. 본 발명에서는, 6DoF를 위한 3D 오디오 디코더의 두 가지 랜더링 타입 사용예(예를 들어, 스피커 환경 또는 헤드폰 환경) 에 따른 6DoF MPEG-H 3D Audio 디코더 기반으로 설명하고자 한다.
(1) [사용예 1] 스피커 환경에서의 6DoF 3D 오디오
전술한 도3에서 랜더링 타입(206a, Rendering type)을 스피커(speaker)로 선택해서 컨텐츠를 재생하고자 할 경우, 실시간으로 상기 사용자 위치 정보(212, User position information)을 참조하여서 오디오 씬(audio scene)을 랜더링 시켜줘야 한다. 상기 사용자 위치 정보(212, User position information)는, 본 발명의 실시에에 따라, 기존 MPEG-H 3D Audio 부호화기를 6DoF 환경에서 사용하기 위해 메타데이터 프로세서(204, metadata and interface processing)에 새롭게 입력되는 정보이다. 상기 사용자 위치 정보(212)에 의해 스피커 위치 정보(206f, Local speaker layout), 인터액션 데이터(207b, Interaction data information) 및 줌 영역 정보(207c, zoom area information)가 변경될 수 있다. 상기 스피커 위치 정보(206f, Local speaker layout)는 각 스피커의 위치 및 게인 정보를 담고 있다.
상기 줌 영역 정보(207c, zoom area information)은 사용자가 시청중인 화면의 일부를 확대시킬 때 사용되는 정보인데, 시청중인 화면의 일부를 확대시키면서 화면과 연동되는 오디오 오브젝트(object)의 위치도 함께 변경된다. 따라서 사용자가 화면에 가까이 다가갈 경우, 사용자가 움직인 거리에 비례하여 오브젝트 게인을 조절시켜줄 수 있다. 사용자가 상기 인터액션 데이터(207b, Interaction data information)를 제어하는 상황에서도 사용자의 위치에 따라 게인이 변경될 수 있다. 예를 들어, 오디오 씬(audio scene)을 구성하고 있는 임의의 오브젝트 게인을 작게 조절하였지만, 사용자가 해당 오브젝트가 정위된 위치에 가까이 다가가면 사용자와 오브젝트의 상대적인 변화된 거리에 비례하여 오브젝트 게인을 크게 조절해준다.
(2) [사용예 2] 헤드폰 환경에서의 6DoF 3D 오디오
기존의 MPEG-H 3D Audio 부호화기에서는 임의의 오디오 컨텐츠를 헤드폰으로 재생할 때에는 사전에 취득된 BRIR을 필터링하여서 입체감 있는 3차원 오디오를 재현하였다. 하지만, 이러한 결과는 사용자의 위치가 고정된 상태에서만 유효할 뿐, 사용자가 위치를 변경하면 현실감이 크게 감소된다. 따라서 본 발명에서는 변화하는 사용자 위치 기준으로 BRIR을 새롭게 모델링하여 6DoF환경에서 더욱 현실감있는 오디오 컨텐츠를 제공하고자 한다. 전술한 도3에서 랜더링 타입(206a, Rendering type)을 헤드폰(headphone)으로 선택해서 컨텐츠를 6DoF 환경처럼 재생하고자 할 경우, 실시간으로 사용자 위치 정보(212, User position information)을 참조하여 BRIR을 모델링하고, 이를 오디오 컨텐츠에 적용해서 오디오 씬(audio scene)을 랜더링 시켜준다. BRIR은 전술한 제1모델링부(2052, Environment modeling) 및 제2모델링부(2051, HRIR modeling)을 통해 모델링될 수 있다.
이하, VR 오디오 컨텐츠가 6DoF 환경에서 재생되도록 “MPEG-H 3D Audio decoder”에 상기 사용자 위치 정보(212, User position information)를 추가한 신택스(syntax)에 대해 설명하고자 한다, 특히, 아래 신택스(syntax)에서 점선으로 표시한 부분은 본 발명의 실시예에 따라, 6DoF를 지원하기 위해 추가 혹은 변경된 부분을 강조하기 위해 도시한 것이다.
도13은 “MPEG-H 3D Audio Decoder”의 “mpegh3daLocalSetupInformation()” 신택스를 도시한 것이다.
is6DoFMode 필드(1301)는, 6DoF 방식으로 사용할지 여부를 알려준다. 즉, 상기 필드가 '0'인 경우 기존 방식(3DoF)으로, '1'인 경우 6DoF 방식임을 의미하는 것으로 정의할 수 있다. 상기 is6DoFMode 필드(1301)는, 6DoF을 지시하는 인디게이터 플래그(indicator flag) 정보로서, 상기 정보의 존재 여부에 따라, 후술할 6DoF 적용되는 다양한 정보 필드들이 추가로 제공되어 진다.
우선, 만약 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode)가 '1'을 지시하는 경우는(1301a), 다음 up_az필드(1302), up_el필드(1303) 및 up_dist 필드(1304) 정보가 추가로 제공될 수 있다.
상기 up_az필드(1302)는, 사용자의 위치 정보가 방위각 측면에서 각도 값으로 주어진 것이다. 예를 들어, 각도 값은 “Azimuth=-180˚ ~ Azimuth=180˚” 사이에서 주어지는 것으로 정의할 수 있다. 상기 up_el필드(1303)는, 사용자의 위치 정보가 고도각 측면에서 각도 값으로 주어진 것이다. 예를 들어, 각도 값은 “Elevation=-90˚ ~ Elevation=90˚” 사이에서 주어지는 것으로 정의할 수 있다. 상기 up_dist 필드(1304)는, 사용자의 위치 정보가 거리 측면에서 길이(meter) 값으로 주어진 것이다. 예들 들어, 길이 값은 “Radius = 0.5m ~ Radius=16m” 사이에서 주어지는 것으로 정의할 수 있다.
또한, bsRenderingType필드(1305)는, 랜더링 타입을 정의한다. 즉, 랜더링 타입으로 전술한 바와 같이, 두 가지 사용예로서, 스피커 환경(“Loudspeaker rendering” (1305a))에서의 랜더링 혹은 헤드폰 환경(“binaural rendering”(1305b))에서의 랜더링중 어느 하나를 지시하도록 정의할 수 있다.
또한, bsNumWIREoutputs 필드(1306)는, “WIREoutput”의 개수를 정의하며, 예를 들어, 0~65535사이에서 결정되는 것으로 정의할 수 있다. WireID필드(1307)는, 상기 “WIRE output”에 대한 식별정보(ID)를 포함한다. 또한, hasLocalScreenSizeInformation 필드(1308)는, 화면 크기 정보(Local screen size)를 사용할 수 있는지 여부를 정의하는 플래그(flag) 정보이다. 상기 플래그(1308) 정보에 의해 화면 크기 정보(Local screen size)를 사용하는 것으로 지시되면, “LocalScreenSizeInformation()”(1308a) 신택스가 추가로 구성된다.
도14는 전술한 랜더링 타입(1305, bsRenderingType)이 스피커 환경(“Loudspeaker rendering”)에서의 랜더링을 지시하는 경우에, 6DoF의 재생환경에서 스피커의 위치 정보 및 게인 정보를 “Loudspeaker rendering()”(1305a) 신택스로 도시한 것이다.
우선, bsNumLoudspeakers 필드(1401)는, 재생 환경에서의 스피커(loudspeaker)의 개수를 정의한다. 또한, hasLoudspeakerDistance필드(1402)는 상기 스피커(Loudspeaker)의 거리(distance)가 정의되었는지를 지시하는 플래그(flag) 정보이다. 또한, hasLoudspeakerCalibrationGain필드(1403)는, 스피커 켈리브레이션 게인(Calibration Gain)이 정의되었는지를 지시하는 플래그(flag) 정보이다. 또한, useTrackingMode 필드(1404)는 “mpeg3daSceneDisplacementData()” 인터페이스를 통해 전송된 장면 변화(Scene displacement) 값을 처리할지 여부를 지시하는 플래그(flag) 정보이다. 관련하여, 상기 필드들(1402, 1403, 1404)은 모두 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode)가 '0'의 값을 가진 경우(1301b)에 주어지는 정보이다,
또한, hasKnownPosition 필드(1405)는. 스피커(Loudspeaker)의 위치에 대한 시그널링이 비트스트림(bitstream)에서 수행되는지 여부를 지시하는 플래그(flag) 정보이다.
만약, 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode) 및 상기 hasKnownPosition 필드(1405)가 모두 '1'을 지시하는 경우는(1301c), 다음 loudspeakerAzimuth 필드(1406) 및 loudspeakerElevation 필드(1407) 정보가 더 정의된다. 상기 loudspeakerAzimuth 필드(1406)는, 스피커의 방위각을 정의한다. 예를 들어, -180˚에서 180˚사이의 값을 1˚간격으로 가지는 것으로 정의할 수 있다. 예를 들어, “Azimuth = (loudspeakerAzimuth-256); Azimuth = min (max (Azimuth,-180), 180)”으로 정의할 수 있다.또한, 상기 loudspeakerElevation 필드(1407)는 스피커의 고도각을 정의한다. 예를 들어, -90˚에서 90˚사이의 값을 1˚간격으로 가지는 것으로 정의할 수 있다. 예를 들어, “Elevation = (loudspeakerElevation-128); Elevation = min (max (Elevation,-90), 90)” 로 정의할 수 있다.
또한, 만약, 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode) 및 상기 hasLoudspeakerDistance필드(1402)가 모두 '1'을 지시하는 경우는(1301d), 다음 loudspeakerDistance필드(1408) 정보가 더 정의된다. 상기 loudspeakerDistance필드(1408) 는 스피커의 중앙에 위치한 참조 위치(reference point, 즉, 이를 사용자 위치로 간주할 수 있다)까지의 거리를 cm단위로 정의한다. 예를 들어, 1~1023 사이의 값을 가질 수 있다.
또한, 만약, 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode) 및 상기 hasLoudspeakerCalibrationGain필드(1403)가 모두 '1'을 지시하는 경우는(1301e), 다음 loudspeakerCalibrationGain 필드(1409) 정보가 더 정의된다. 상기 loudspeakerCalibrationGain 필드(1409) 는 스피커 켈리브레이션 게인(Calibration Gain)을 dB 단위로 정의한다. 예를 들어, “Gain = -32dB~Gain =31.5dB” 사이의 dB 값에 대응하는 0~127 사이의 값을 0.5dB 간격으로 정의할 수 있다. 즉, “Gain [dB] = 0.5x(loudspeakerGain - 64”로 정의할 수 있다.
또한, externalDistanceCompensation 필드(1410)는, 스피커(Loudspeaker)의 보상을 디코더 출력 신호에 적용할지 여부를 정의되었는지를 지시하는 플래그(flag) 정보이다. 만약 해당 플래그(1410)가 '1'이면, 상기 loudspeakerDistance필드(1402) 및 loudspeakerCalibrationGain필드(1403)에 대한 시그널링은 디코더에 적용되지 않는다.
도15는 사용자 인터액션(User interaction)과 관련된 정보를 수신하는 신택스(syntax)를 도시한 것이다. 6DoF 환경에서도 사용자 인터액션(user interaction)이 가능하도록 하기 위해 사용자의 위치 변화 감지 정보를 추가하였다. 만약 6DoF 환경에서 사용자의 위치 변화가 감지되면, 변경된 위치를 기반으로 인터액션(interaction) 정보들이 재조정된다.
우선, 만약 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode)가 '1'을 지시하는 경우는(1301f), 다음 isUserPosChange 필드(1501) 정보가 추가로 제공될 수 있다. 상기 isUserPosChange 필드(1501)는 사용자의 위치 변경 여부를 알려준다. 즉, 상기 필드(1501)이 '0'인 경우 사용자의 위치 변화가 없음을 의미하고, '1'인 경우 사용자의 위치 변화가 있음을 의미하는 것으로 정의할 수 있다.
관련하여, 도15내의 ei_InteractionSignatureDataLength필드는 인터액션 시그너쳐 (Interaction signature)의 길이를 바이트(byte) 단위로 정의한 값이다. 또한, ei_InteractionSignatureDataType필드는, 상기 인터액션 시그너쳐 유형을 정의한다. 또한, ei_InteractionSignatureData 필드는 인터액션 데이터의 생성자를 정의하는 시그너쳐(signature)를 포함한다. 또한, hasLocalZoomAreaSize 필드는, 로컬 줌 크기(Local zoom size)에 대한 정보를 사용할 수 있는지 여부를 정의하는 플래그(flag) 정보이다.
참고로, “mpegh3daElementInteraction()” 신택스내 “LocalZoomAreaSize()”에서는 비디오 화면과 연동되는 오디오 오브젝트의 특징이 변경될 수 있으며, “ElementInteractionData()” 신택스에서는 사용자와 인터액션(interaction)되는 오디오 씬(audio scene)을 구성하는 오브젝트의 특징이 변경될 수 있다. 상기 “mpegh3daElementInteraction()” 신택스내에서 사용자의 위치 변화가 감지되면, “mpegh3daLocalSetupInformation()” 신택스에서 수신되는 사용자의 위치 정보를 참조하여 오브젝트의 정보를 사용자 위치 기반으로 재조정시켜주는 것이 가능하므로, 별도의 신택스가 추가적으로 필요하지 않다. 따라서 “LocalZoomAreaSize()” 및 “ElementInteractionData()” 신택스는 기존 “MPEG-H 3D Audio” 신택스를 활용하는 것으로 충분하므로, 이에 대한 자세한 설명은 생략한다.
도16은 전술한 랜더링 타입(1305, bsRenderingType)이 헤드폰 환경에서의 랜더링을 지시하는 경우에, 6DoF의 재생환경에서 헤드폰을 통한 오디오 출력 정보를 “BinauralRendering()”(1305b) 신택스로 도시한 것이다.
우선, 만약 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode)가 '1'을 지시하는 경우는(1301g), 다음 bsNumLoudspeakers 필드(1601), loudspeakerAzimuth 필드(1602), loudspeakerElevation 필드(1603), loudspeakerDistance필드(1604), loudspeakerCalibrationGain 필드(1605), 및 externalDistanceCompensation 필드(1606) 정보가 추가로 제공될 수 있다. 관련하여, 상기 필드들(1601~1606)의 의미는 전술한 도14의 대응하는 필드들과 동일한 의미로 정의하는 것이 가능하다.
또한, 만약 상기 전술한 6DoF 인디게이터 플래그 정보(1301, Is6DoFMode)가 '1'을 지시하는 경우는(1301g), 추가적으로 RIR 데이터를 생성하기 위한 “RIRGeneration()”(1607) 신택스 및 HRIR 데이터를 생성하기 위한 “RIRGeneration()”(1608) 신택스가 더 필요하다 이하 도17~도23을 참조하여, 상기 추가되는 RIRGeneration()”(1607) 신택스 및 “RIRGeneration()”(1608) 신택스에 대해 자세히 설명하고자 한다.
도17~도20은, RIR을 생성하는데 필요한 신택스들을 도시하였다, 우선, 도17은, RIR을 나타내는 방식으로 “RIRGeneration()”(1607) 신택스를 도시한 것이다. bsRIRDataFormatID 필드(1701)는, RIR의 표현 유형을 나타낸다. 즉, 사전에 만들어진 RIR을 이용하면, “RIRFIRData()”(1702) 신택스가 실행된다. 반면, RIR을 modeling 방법을 통해 얻을 경우 “RIRModeling()”(1703) 신택스가 실행된다.
도18은, 상기 “RIRFIRData()”(1702) 신택스를 도시한 것이다. 관련하여, bsNumRIRCoefs 필드(1801)는, RIR 필터(filter)의 길이를 의미한다. bsNumLengthPosIdx 필드(1802)는 공간상에서 가로 위치에 대한 인덱스(index)를 의미한다. 예를 들어, 0~1023m까지 1m간격으로 정의할 수 있다. bsNumWidthPosIdx 필드(1803)는 공간상에서 세로 위치에 대한 인덱스(index)를 의미한다. 예를 들어, 0~1023m까지 1m간격으로 정의할 수 있다. bsRIRFirCoef필드(1804)는, RIR 필터(filter) 계수 값을 나타낸다. 상기 RIRFIRData()”(1702)내에는 정의된 bsNumLengthPosIdx필드(1802) 와 bsNumWidthPosIdx필드(1803)는 임의의 공간에서의 위치 정보를 의미한다. RIR은 해당 인덱스가 정의된 위치에서 취득된다. 따라서 사용자의 위치 정보를 참조하여 가장 인접한 위치에서 측정된 RIR의 위치를 수신 받고, 해당 위치에 대한 RIR 데이터를 수신 받는다.
도19는 “RIRModeling()”(1703) 신택스를 도시한 것이다. 만약 RIR을 모델링 방법을 통해 얻고자 하는 경우, 공간에 대한 정보와 모델링에 필요한 파라미터들을 수신 받아서 RIR을 모델링 한다.
도19 “RIRModeling()”(1703) 신택스내의 각 필드들을 설명하면 다음과 같다. bsNumRIRCoefs 필드는, RIR 필터(filter)의 길이를 의미한다. RoomLength필드는 공간의 길이 정보로 길이(meter) 값으로 주어진다. RoomWidth 필드는 공간의 넓이 정보로 길이(meter)값으로 주어진다. RoomHeight필드는 공간의 높이 정보로 길이(meter) 값으로 주어진다. AbsorpCoeffCeil 필드는 천장 흡음률을 의미하며 흡음계수로 나타낸다. 예를 들어, 흡음계수는 0~1 사이의 값으로 주어진다. AbsorpCoeffFloor 필드는 바닥 흡음률을 의미하며 흠음계수로 나타낸다. 예를 들어, 흡음계수는 0~1 사이의 값으로 주어진다. AbsorpWallFront 필드는 앞 벽 흡음률을 의미하며 흠음계수로 나타낸다. 예를 들어, 흡음계수는 0~1 사이의 값으로 주어진다. AbsorpWallBack 필드는 뒷 벽 흡음률을 의미하며 흠음계수로 나타낸다. 예를 들어, 흡음계수는 0~1 사이의 값으로 주어진다. AbsorpWallLeft 필드는 왼쪽 벽 흡음률을 의미하며 흡음계수로 나타낸다. 예를 들어, 흡음계수는 0~1 사이의 값으로 주어진다. AbsorpWallRight 필드는 오른쪽 벽 흡음률을 의미하며 흡음계수로 나타낸다. 예를 들어, 흡음계수는 0~1 사이의 값으로 주어진다. nTapFilter 필드는 사용되는 콤필터(Comb filter)의 개수를 의미하며, 콤필터 계수로서, dly 필드는 필터 지연(Filter delay) 값을, gain_b 필드는 프리 게인(Pre gain) 값을, gain_c 필드는 포스트 게인(Post gain) 값을, A 필드는 피드백 메트릭스(Feedback matrix) 값을, b_af 필드는 흡음 필터(absorbent filter) 계수 값을 각각 나타낸다. 또한, dly_direct 필드는 다이렉트 신호에 적용되는 지연(delay) 값을, tf_b 필드는 톤 보정 필터(tone correction filter) 계수 값을 나타낸다.
또한, “RIRModeling()”(1703) 신택스내에는 초기 반향(Early reflection) 모델링 시 적용되는 “ERModeling()”(1910) 신택스를 포함한다. 도20은 상기 “ERModeling()”(1910) 신택스내에 포함된 ModelingMethod필드(2001)를 도시한 것이다. 상기 ModelingMethod필드(2001)는 임펄스 응답(Impulse Response, IR) 모델링시 사용하는 방법을 의미하며, 예를 들어, '0'인 경우 'Image source method” 방법을 사용하고, '0'이 아닌 경우 다른 방법을 사용하는 것으로 정의할 수 있다.
도21~도23은 “HRIRGeneration()”(1608) 신택스에 대해 자세히 설명하고자 한다. 우선, 도21은, HRIR을 나타내는 방식으로 “HRIRGeneration()”(1608) 신택스를 도시한 것이다.
bsHRIRDataFormatID 필드(2101)는, HRIR의 표현 유형을 나타낸다. 즉, 사전에 만들어진 HRIR을 이용하면, “HRIRFIRData()”(2102) 신택스가 실행된다. 반면, HRIR을 모델링 (modeling) 방법을 통해 얻을 경우 “HRIRModeling()”(2103) 신택스가 실행된다.
도22는 상기 “HRIRFIRData()”(2102) 신택스를 도시한 것이다. bsNumHRIRCoefs필드(2201)는 HRIR 필터(filter)의 길이를 의미한다. bsFirHRIRCoefLeft필드(2202)는 왼쪽 귀의 HRIR 필터(filter)의 계수 값을 나타낸다. bsFirHRIRCoefRight 필드(2203)는 오른쪽 귀의 HRIR filter의 계수 값을 나타낸다.
도23은 상기 “HRIRModeling()”(2103) 신택스를 도시한 것이다. bsNumHRIRCoefs필드(2301)는 HRIR 필터(filter)의 길이를 의미한다. HeadRadius 필드(2302)는 머리 반지름을 의미하며 길이(cm ) 단위로 나타낸다. PinnaModelIdx 필드(2303)는, 귓바퀴 모델(Pinna model)을 모델링 할 때 사용되는 계수들이 정의된 테이블에 대한 인덱스(index)를 의미한다.
본 발명은, 6DoF 환경에서 VR 오디오를 구현하기 위한 오디오 재생 장치 및 방법을 제안하였다. 송신단에서 전송된 비트스트림은 오디오 다코더로 입력되어 디코딩된 오디오 신호를 출력한다. 출력된 디코딩된 오디오 신호는 바이너럴 랜더러(Binaural renderer)로 입력되어 BRIR(Binaural Room Impulse Response)에 필터링 되어 좌,우 채널 신호(OutL, OutR)를 출력한다. BRIR은 룸 응답(Room response)과 양이의 HRIR(Head-related Impulse Response, HRTF를 시간축으로 변환한 응답)를 합성하여 계산되어 진다. 또한, 룸 응답(Room response)는 룸 특성 정보(room characteristics info.), 공간상에서 사용자의 위치 정보 및 사용자 방향 정보(User pos. info. & User direction info.)를 제공받아서 효율적으로 생성할 수 있다. 상기 HRIR은 상기 사용자 방향 정보를 참조하여 HRIR DB로부터 추출하는 것도 가능하다. 바이너럴 랜더링(Binaural rendering)을 통해 출력된 좌,우 채널 신호(OutL, OutR)를 헤드폰 혹은 이어폰으로 이용하여 청취하면 청취자는 음상이 마치 공간상의 임의의 위치에 정위된 것과 같은 효과를 느낄 수 있게 된다.
전술한 본 발명 실시예는, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 정보가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예를 들어는, HDD(Hard Dis k Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 정보 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현 되는 것도 포함한다. 또한, 상기 컴퓨터는 오디오 디코더(201, MPEG-H 3D Audio Core Decoder), 랜더러(202, Renderer), 바이너럴 랜더러(203, Binaural Renderer), 메타데이터 프로세서(204, Metadata and Interface data processor) 및 랜더링 데이터 모델링부(205)를 전체적으로 또는 일부 구성으로 포함할 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (16)

  1. 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계,
    사용자 위치 정보 (user position information)을 입력 받아, 사용자의 위치가 이전 위치에서 변경 되었는지 여부를 확인하고, 상기 사용자 위치가 변경된 경우 변경된 사용자 위치에 대응하도록 바이너럴(binaural) 랜더링 데이터를 모델링하는 모델링 단계, 및
    상기 모델링된 랜더링 데이터를 이용하여, 상기 디코딩된 오디오 신호(decoded signal)을 바이너럴 랜더링(binaural rendering)하여 2채널 오디오 신호로 출력하는 랜더링 단계를 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
  2. 제 1항에 있어서, 상기 모델링 단계는,
    공간 특성 정보(room characterization info)를 더 입력 받아, RIR 데이터를 모델링하는 제1모델링 단계, 및
    사용자 머리 정보(user head info)를 더 입력 받아, HRIR 데이터를 모델링하는 제2모델링 단계를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
  3. 제 2항에 있어서, 상기 모델링 단계는,
    상기 제2모델링된 HRIR 데이터를, 상기 변경된 사용자 위치에 근거하여 게인(gain)을 조정하는 거리 보상 단계를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
  4. 제 3항에 있어서, 상기 모델링 단계는,
    상기 거리 보상된 HRIR 데이터 및 상기 제1모델링된 RIR 데이터를 합성하여, 변경된 사용자 위치에 대응하는 BRIR 데이터를 생성하는 BRIR합성 단계를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
  5. 제 1항에 있어서,
    상기 사용자 위치 정보(user position information)을 입력 받아, 변경된 사용자 위치에 대응하도록 상기 메타데이터(metadata)를 조정(adjust)하는 메타데이터 프로세싱(processing) 단계를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
  6. 제 5항에 있어서,
    상기 메타데이터 프로세싱(processing) 단계는, 변경된 사용자 위치에 대응하도록 적어도 스피커 위치 정보(speaker layout info), 줌 영역(zoom area) 및 오디오 씬(audio scene)중 어느 하나를 조정(adjust)하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
  7. 제 1항에 있어서,
    상기 사용자 위치 정보(user position information)는, 사용자 위치가 변경되었음을 알려주는 인디게이터(indicator) 플래그(isUserPosChange) 정보 및 변경된 사용자 위치에 대응하는 방위각(azimuth), 고도각(elevation) 및 거리(distance) 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
  8. 제 7항에 있어서,
    6DoF 환경 지원 여부를 지시하는 인디게이터 플래그(is6DoFMode) 정보를 더 입력 받고, 상기 인디게이터 플래그(is6DoFMode) 정보가 6DoF환경을 지원하는 경우, 상기 사용자 위치 정보(user position information)를 입력 받는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 방법.
  9. 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 오디오 디코더,
    사용자 위치 정보 (user position information)을 입력 받아, 사용자의 위치가 이전 위치에서 변경 되었는지 여부를 확인하고, 상기 사용자 위치가 변경된 경우 변경된 사용자 위치에 대응하도록 바이너럴(binaural) 랜더링 데이터를 모델링하는 모델링부, 및
    상기 모델링된 랜더링 데이터를 이용하여, 상기 디코딩된 오디오 신호(decoded signal)을 바이너럴 랜더링(binaural rendering)하여 2채널 오디오 신호로 출력하는 바이너럴 랜더러(Binaural render)를 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
  10. 제 9항에 있어서, 상기 모델링부는,
    공간 특성 정보(room characterization info)를 더 입력 받아, RIR 데이터를 모델링하는 제1모델링부, 및
    사용자 머리 정보(user head info)를 더 입력 받아, HRIR 데이터를 모델링하는 제2모델링부를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
  11. 제 10항에 있어서, 상기 모델링부는,
    상기 제2모델링된 HRIR 데이터를, 상기 변경된 사용자 위치에 근거하여 게인(gain)을 조정하는 거리 보상부를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
  12. 제 11항에 있어서, 상기 모델링부는,
    상기 거리 보상된 HRIR 데이터 및 상기 제1모델링된 RIR 데이터를 합성하여, 변경된 사용자 위치에 대응하는 BRIR 데이터를 생성하는 BRIR합성부를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
  13. 제 9항에 있어서,
    상기 사용자 위치 정보(user position information)을 입력 받아, 변경된 사용자 위치에 대응하도록 상기 메타데이터(metadata)를 조정(adjust)하는 메타데이터 프로세서(processor)를 더 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
  14. 제 13항에 있어서,
    상기 메타데이터 프로세서는, 변경된 사용자 위치에 대응하도록 적어도 스피커 위치 정보(speaker layout info), 줌 영역(zoom area) 및 오디오 씬(audio scene)중 어느 하나를 조정(adjust)하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
  15. 제 9항에 있어서,
    상기 사용자 위치 정보(user position information)는, 사용자 위치가 변경되었음을 알려주는 인디게이터(indicator) 플래그(isUserPosChange) 정보 및 변경된 사용자 위치에 대응하는 방위각(azimuth), 고도각(elevation) 및 거리(distance) 정보 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
  16. 제 15항에 있어서,
    6DoF 환경 지원 여부를 지시하는 인디게이터 플래그(is6DoFMode) 정보를 더 입력 받고, 상기 인디게이터 플래그(is6DoFMode) 정보가 6DoF환경을 지원하는 경우, 상기 사용자 위치 정보(user position information)를 입력 받는 것을 특징으로 하는 6DoF 환경에서 오디오 재생 장치.
PCT/KR2017/012875 2017-06-27 2017-11-14 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치 WO2019004524A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/626,692 US11089425B2 (en) 2017-06-27 2017-11-14 Audio playback method and audio playback apparatus in six degrees of freedom environment

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201762525687P 2017-06-27 2017-06-27
US62/525,687 2017-06-27

Publications (1)

Publication Number Publication Date
WO2019004524A1 true WO2019004524A1 (ko) 2019-01-03

Family

ID=64742273

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/012875 WO2019004524A1 (ko) 2017-06-27 2017-11-14 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치

Country Status (2)

Country Link
US (1) US11089425B2 (ko)
WO (1) WO2019004524A1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2575509A (en) * 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial audio capture, transmission and reproduction
GB2575511A (en) * 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial audio Augmentation
CN111726732A (zh) * 2019-03-19 2020-09-29 宏达国际电子股份有限公司 高保真度环绕声格式的音效处理系统及音效处理方法
WO2021021460A1 (en) * 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Adaptable spatial audio playback
CN112752190A (zh) * 2019-10-29 2021-05-04 骅讯电子企业股份有限公司 音频调整方法以及音频调整装置
WO2021091769A1 (en) * 2019-11-04 2021-05-14 Qualcomm Incorporated Signalling of audio effect metadata in a bitstream

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11019449B2 (en) * 2018-10-06 2021-05-25 Qualcomm Incorporated Six degrees of freedom and three degrees of freedom backward compatibility
CN111107481B (zh) * 2018-10-26 2021-06-22 华为技术有限公司 一种音频渲染方法及装置
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
EP3993449A1 (en) * 2020-11-02 2022-05-04 Inter IKEA Systems B.V. Method and device for communicating a soundscape in an environment
US20230051841A1 (en) * 2021-07-30 2023-02-16 Qualcomm Incorporated Xr rendering for 3d audio content and audio codec
GB202214902D0 (en) * 2022-10-10 2022-11-23 Nokia Technologies Oy Spatial audio rendering

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366971B1 (en) * 1998-01-09 2002-04-02 Yamaha Corporation Audio system for playback of waveform sample data
US7492915B2 (en) * 2004-02-13 2009-02-17 Texas Instruments Incorporated Dynamic sound source and listener position based audio rendering
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
KR20160039201A (ko) * 2013-07-22 2016-04-08 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 룸 임펄스 응답에 따른 오디오 신호 처리 방법, 신호 처리 유닛, 오디오 인코더, 오디오 디코더, 및 바이너럴 렌더러
KR20160046800A (ko) * 2013-07-22 2016-04-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호를 처리하는 방법, 신호 처리 유닛, 바이너럴(binaural) 렌더러, 오디오 인코더와 오디오 디코더

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE456261T1 (de) * 2006-02-21 2010-02-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN109040946B (zh) * 2013-10-31 2021-09-14 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
KR102263982B1 (ko) 2014-10-20 2021-06-11 엘지디스플레이 주식회사 디스플레이 장치
EP3472832A4 (en) * 2016-06-17 2020-03-11 DTS, Inc. DISTANCE-BASED PANORAMIC USING NEAR / FAR FIELD RENDERING
JP6977030B2 (ja) * 2016-10-28 2021-12-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 複数のオーディオソースの再生のためのバイノーラルレンダリング装置および方法
KR102517906B1 (ko) * 2017-06-15 2023-04-05 돌비 인터네셔널 에이비 컴퓨터 매개 현실 애플리케이션에서 송신기와 수신기 사이의 통신을 최적화하는 방법, 장치 및 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6366971B1 (en) * 1998-01-09 2002-04-02 Yamaha Corporation Audio system for playback of waveform sample data
US7492915B2 (en) * 2004-02-13 2009-02-17 Texas Instruments Incorporated Dynamic sound source and listener position based audio rendering
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
KR20160039201A (ko) * 2013-07-22 2016-04-08 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 룸 임펄스 응답에 따른 오디오 신호 처리 방법, 신호 처리 유닛, 오디오 인코더, 오디오 디코더, 및 바이너럴 렌더러
KR20160046800A (ko) * 2013-07-22 2016-04-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호를 처리하는 방법, 신호 처리 유닛, 바이너럴(binaural) 렌더러, 오디오 인코더와 오디오 디코더

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2575509A (en) * 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial audio capture, transmission and reproduction
GB2575511A (en) * 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial audio Augmentation
CN111726732A (zh) * 2019-03-19 2020-09-29 宏达国际电子股份有限公司 高保真度环绕声格式的音效处理系统及音效处理方法
WO2021021460A1 (en) * 2019-07-30 2021-02-04 Dolby Laboratories Licensing Corporation Adaptable spatial audio playback
US12003946B2 (en) 2019-07-30 2024-06-04 Dolby Laboratories Licensing Corporation Adaptable spatial audio playback
CN112752190A (zh) * 2019-10-29 2021-05-04 骅讯电子企业股份有限公司 音频调整方法以及音频调整装置
WO2021091769A1 (en) * 2019-11-04 2021-05-14 Qualcomm Incorporated Signalling of audio effect metadata in a bitstream

Also Published As

Publication number Publication date
US20200162833A1 (en) 2020-05-21
US11089425B2 (en) 2021-08-10

Similar Documents

Publication Publication Date Title
WO2019004524A1 (ko) 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치
WO2018182274A1 (ko) 오디오 신호 처리 방법 및 장치
WO2018056780A1 (ko) 바이노럴 오디오 신호 처리 방법 및 장치
US7333622B2 (en) Dynamic binaural sound capture and reproduction
KR101054932B1 (ko) 스테레오 오디오 신호의 동적 디코딩
WO2019147064A1 (ko) 오디오 데이터를 송수신하는 방법 및 그 장치
US6430535B1 (en) Method and device for projecting sound sources onto loudspeakers
WO2018147701A1 (ko) 오디오 신호 처리 방법 및 장치
US20070009120A1 (en) Dynamic binaural sound capture and reproduction in focused or frontal applications
WO2011139090A2 (en) Method and apparatus for reproducing stereophonic sound
US11122384B2 (en) Devices and methods for binaural spatial processing and projection of audio signals
WO2017209477A1 (ko) 오디오 신호 처리 방법 및 장치
WO2015037905A1 (ko) 입체음향 조절기를 내포한 멀티 뷰어 영상 및 3d 입체음향 플레이어 시스템 및 그 방법
WO2015147435A1 (ko) 오디오 신호 처리 시스템 및 방법
WO2015147619A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2019147040A1 (ko) 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치
WO2019066348A1 (ko) 오디오 신호 처리 방법 및 장치
WO2019031652A1 (ko) 3차원 오디오 재생 방법 및 재생 장치
WO2014175591A1 (ko) 오디오 신호처리 방법
JP2018110366A (ja) 3dサウンド映像音響機器
WO2016190460A1 (ko) 입체 음향 재생 방법 및 장치
WO2019013400A1 (ko) 비디오 화면 줌에 연동되는 오디오 출력 방법 및 출력 장치
Lentz et al. Precise near-to-head acoustics with binaural synthesis
US20230179946A1 (en) Sound processing device, sound processing method, and sound processing program
WO2014112793A1 (ko) 채널 신호를 처리하는 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17915286

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17915286

Country of ref document: EP

Kind code of ref document: A1