WO2019031652A1 - 3차원 오디오 재생 방법 및 재생 장치 - Google Patents

3차원 오디오 재생 방법 및 재생 장치 Download PDF

Info

Publication number
WO2019031652A1
WO2019031652A1 PCT/KR2017/012881 KR2017012881W WO2019031652A1 WO 2019031652 A1 WO2019031652 A1 WO 2019031652A1 KR 2017012881 W KR2017012881 W KR 2017012881W WO 2019031652 A1 WO2019031652 A1 WO 2019031652A1
Authority
WO
WIPO (PCT)
Prior art keywords
rir
brir
data
information
audio signal
Prior art date
Application number
PCT/KR2017/012881
Other languages
English (en)
French (fr)
Inventor
이동금
오세진
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to US16/636,188 priority Critical patent/US10939222B2/en
Publication of WO2019031652A1 publication Critical patent/WO2019031652A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Definitions

  • the present invention relates to a three-dimensional audio reproducing method and a reproducing apparatus. Particularly, the present invention relates to a method of transmitting a Binaural Room Impulse Response (BRIR) or a Room Impulse Response (RIR) data and a BRIR / RIR parameterization method used for three-dimensional audio reproduction, .
  • BRIR Binaural Room Impulse Response
  • RIR Room Impulse Response
  • MPEG-H is being developed with a new audio coding international standard technology.
  • MPEG-H is a new international standardization project for immersive multimedia services using ultra-high resolution large screen displays (eg, over 100 inches) and ultra-high channel audio systems (eg 10.2 or 22.2 channels).
  • ultra-high resolution large screen displays e.g, over 100 inches
  • ultra-high channel audio systems e.g 10.2 or 22.2 channels.
  • MPEG-H standardization project a subgroup of "MPEG-H 3D Audio AhG (Adhoc Group)" has been established in an effort to implement a multi-channel audio system.
  • MPEG-H 3D Audio encoding / decoding devices provide realistic audio to listeners using multi-channel speaker systems.
  • the headphone environment provides a realistic three-dimensional audio effect. Because of this feature, the MPEG-H 3D Audio decoder is considered as a VR audio standard.
  • 3D audio coding / decoding devices which have been standardized, are all capable of reproducing a binaural room impulse response (BRIR) or a head-related impulse response (HRIR) Signal to provide a three-dimensional audio signal. That is, only data previously held in advance was used. This may result in the user not being able to experience three-dimensional audio in various environments. Accordingly, in the present invention, an audio signal is encoded at an encoder end, and at the same time, a BRIR or RIR most suitable for an audio signal is encoded, thereby overcoming the limitations inherent in the existing encoder, Method.
  • BRIR binaural room impulse response
  • HRIR head-related impulse response
  • VR audio aims at giving the user the feeling of being in an arbitrary space without any sense of hearing by hearing a sound.
  • One of the most important factors considered to achieve this purpose is the characteristic of the BRIR to be. That is, in order to provide a feeling similar to reality, the response of the BRIR should be able to reflect spatial characteristics well.
  • the BRIR stored in the decoder is used in advance.
  • the present invention proposes a method of extracting only characteristic information of BRIR or RIR, making it a parameter applicable to a direct audio signal, and transmitting the parameter.
  • 3DoF Degrees of freedom
  • DoF Degrees of freedom
  • the degree of freedom DoF can, for example, provide a visual and sound best suited to the attitude or position of the user at that moment if the movement of the head is accurately tracked in arbitrary space
  • Motion is divided into 3 degrees of freedom (3DoF) or 6 degrees of freedom (6DoF) depending on the degree of freedom of movement (DoF).
  • 3DoF means that movement in the X, Y, and Z axes is possible, such as when the user does not move and rotates the head in a fixed position.
  • the present invention proposes a method of rendering audio in response to a user's position change in a 6DoF environment by applying a spatial modeling method to a 3D audio encoding / decoding device.
  • an audio signal having a much smaller capacity than that of a video signal is also encoded so as to maximize bandwidth efficiency.
  • MPEG-H 3D Audio has been developed as a coding / decoding device capable of providing a recent 3D audio effect, but it has a problem in that it can be used only in the 3DoF environment.
  • a binaural renderer In recent 3D audio encoding / decoding devices, a binaural renderer is used so that 3D audio can be experienced through headphones.
  • Binaural Room Impulse Response (BRIR) data which is used as an input to the binaural renderer, is only measured in a fixed location and thus is valid only in the 3DoF environment.
  • BRIR Binaural Room Impulse Response
  • DB database
  • the present invention proposes an audio reproducing method and a reproducing apparatus which can render a 3D audio encoding / decoding device in a 6DoF environment by rendering a modeled response in real time according to a user's position by simultaneously receiving user's position information.
  • the method may further include receiving speaker information (Speaker format info), wherein the RIR decoding step comprises selecting an RIR data portion corresponding to the speaker information (Speaker format info) and decoding only the selected RIR data .
  • the RIR decoding step comprises selecting an RIR data portion corresponding to the speaker information (Speaker format info) and decoding only the selected RIR data .
  • the HRIR generation step is characterized by selecting and generating corresponding HRIR data from the HRIR database (DB).
  • the HRIR generation unit may include an HRIR selection unit for selecting and generating corresponding HRIR data from the HRIR database.
  • a decoder according to the first embodiment of the present invention includes a demultiplexer 31, a 3D audio decoder 32, a BRIR decoder 34, ), A BRIR selection unit 35, and a binaural rendering unit 33.
  • FFT-based fast convolution is applied to apply the VOFF coefficient to the rendered signal for the region where VOFF processing is performed.
  • an area where the SFR processing is performed generates artificial reverberation with reference to the energy of the reverberation time and the band, and convolutes it to a rendered signal.
  • the extracted gain information is directly applied to the rendered signal.
  • QTDL is performed only for a high-frequency band, and a human can very roughly filter the high-frequency QMF band because the resolution of recognizing a high-frequency component is low.
  • the user can filter the BRIR from the received audio signal to experience the VR audio contents in the producer's intended environment .
  • the BRIR transmitted from the transmitting end is likely to be measured by the manufacturer or the dummy head, it can not be considered that the transmitted BRIR correctly reflects the unique characteristics of the current user. Therefore, there is a need for a method capable of applying a BRIR suitable for all users at the receiving end.
  • all users experiencing VR content encode RIRs instead of BRIRs so that they can apply optimized BRIRs to themselves.
  • a decoder includes a demultiplexer 101, a 3D audio decoder 102, a RIR decoder 104, a RIR decoding A RIR selection unit 105, and a binaural rendering unit 103 using BRIR data.
  • the decoder according to the third embodiment of the present invention includes an HRIR selection unit 107 for receiving an HRIR database DB and user head information and generating HRIR data, And a modeling unit 108 (HRIR modeling).
  • the decoder according to the third embodiment of the present invention further includes a BRIR combining unit 106 (Synthesizing) for combining the RIR data and the HRIR data to generate BRIR data used in the binary renderer 103 . This will be described in detail as follows.
  • the demultiplexer 101 separates the audio data and the RIR data.
  • the separated audio data is input to the 3D audio decoder 102 and decoded into an audio signal rendered to correspond to the set speaker format (Spk. Format Info), and the separated RIR data is input to the RIR decoder 104 And decoded.
  • the HRIR selection unit 107 and the HRIR modeling unit 108 are parts added separately by the decoder to reflect the feature information of the user using the content.
  • the HRIR modeling unit 108 refers to the head related information of the user and the direction information of the sound source (for example, speaker position information), and models and outputs HRIR suitable for the user.
  • either one of the HRIR selection unit 107 and the HRIR modeling unit 108 can be selected and used.
  • the 'y' path includes the output of the HRIR selection module 107 and the 'n' path corresponds to the HRIR modeling unit 108 , HRIR modeling module).
  • an HRIR pair matching the set output speaker format is output.
  • the HRIR selection module 107 or the HRIR modeling module 108 may include five pairs (HRIR 1 _L , HRIR 1 _R , ..., HRIR 5 _L , and HRIR 5 _R ).
  • HRIR of the prepared 5 pairs and RIR are synthesized when RIR 1 can be applied only to HRIR 1 _L and HRIR 1 _R outputs a BRIR pair BRIR 1 _L and BRIR 1_R, RIR 5 is HRIR It is possible to output another BRIR pair BRIR 5 _L and BRIR 5 _R only for 5 _L and HRIR 5 _R . Therefore, when the speaker format is set to 5.1 channels, 5 pairs of BRIRs are synthesized and output. A plurality of output BRIR pairs are filtered to an audio signal in the binaural rendering unit 103 to output a binaural rendered signal (Out L / Out R ) .
  • FIG. 11 shows a RIR encoding process according to the fourth embodiment of the present invention.
  • 12 shows a RIR decoding process according to the fourth embodiment of the present invention.
  • the fourth embodiment of the present invention is characterized in that the RIR parameterization process is performed in advance in the encoding process in the above-described FIGs. 10 to 11 (third embodiment).
  • the RIRs input to the encoder can also extract and encode the key feature information of the RIR as a parameter for efficiency of computation. Therefore, the RIRs in the decoder can not be directly synthesized with the filter coefficients of the HRIR because they are restored in the form of parameters.
  • a fourth embodiment of the present invention proposes a method for applying the encoding and decoding method of RIR parameters to VR audio decoding.
  • FIG. 12 illustrates a RIR decoding process according to the fourth embodiment of the present invention. Particularly, FIG. 12A shows a process of decoding only a selected BRIR parameter after selecting a desired BRIR parameter, and FIG. 12B shows a process of decoding only all BRIR parameters and then selecting only a desired BRIR parameter.
  • a decoder according to the second embodiment of the present invention includes a demultiplexer 121, a 3D audio decoder 122, a RIR parameter decoder 128, RIR parameter decoding, RIR parameter selection 129 and Binaural Rendering.
  • the decoder according to the fourth embodiment of the present invention includes an HRIR selection unit 126 for receiving HRIR database DB and user head information and generating HRIR data, And a modeling unit 127 (HRIR modeling).
  • FIG. 12 (a) shows another decoder according to the fourth embodiment of the present invention.
  • the demultiplexer 121, the 3D audio decoder 122, the binaural rendering unit 123, the HRIR selection unit 126, The HRIR modeling unit 127, and the synthesizing unit 124 are the same as those of 12 (b) described above.
  • 12 (a) the RIR parameter decoder 128 and the RIR parameter selection unit 129, which are used in FIG. 12 (b), are integrated and the RIR parameter selection decoder 125 , RIR parameter selection & decoding). That is, FIG. 12A is characterized in that the RIR parameter selection decoder 125 receives the speaker format information (Spk. Format Info) set by the user and selectively decodes only RIR parameters required for RIR decoding. This will be described in detail as follows.
  • Spk. Format Info speaker format information
  • FIG. 12 (a) shows a full decoding and rendering process for VR audio reproduction.
  • the bit stream input to the decoder is separated into audio data and RIR parameter data in the demultiplexer 121 (DeMUX).
  • the RIR parameter data is decoded in the RIR parameter selection decoder 125 and restored to RIR parameters.
  • the selected speaker format is 5.1 channels
  • five channel signals and one woofer signal are rendered in the 3D audio decoder 122 and HRIR pairs are set And is applied corresponding to the speaker format position. That is, the output signals of the 5.1 channels are sequentially supplied to S 1 , S 2 , ... , And S 5 (except for the woofer), HRIR 1 _L and HRIR 1 _R are filtered only in S 1 to output SH 1 _L and SH 1 _R , and HRIR 5 _L and HRIR 5 _R are filtered only in S 5, 5 _L and SH 5 _R are output.
  • the HRIR only applies the RIR parameters to the filtered signals SH 1 _L , SH 1 _R , ..., SH 5 _L , and SH 5 _R to output a more realistic audio signal do.
  • the RIR parameter corresponding to the speaker format position even when applying the RIR parameter.
  • the RIR parameters selected by the 5.1 channel speaker format are PRIR 1 , PRIR 2 , ... , PRIR 5 (131)
  • PRIR 1 is applied only to SH 1 _L and SH 1_R to output SHR 1 _L and SHR 1 _R
  • PRIR 5 _R applies only to SH 5 _L and SH 5 _R to SHR 5 _L SHR 5 _R is output. Since then, SHR 1 _L , ...
  • SHR 5 _L is added (132), gain normalization is performed (133), and the resultant signal is output to the final signal Out L.
  • SHR 1 _R , ... , SHR 5 _R is added (132), and gain normalization (133) is performed to output the final signal Out R.
  • It said audio output signal (Out L, R Out) is not only reflected head characteristic information of the user's own, be a factor in the spatial information creator intended the user can experience more realistic high three-dimensional audio.
  • the BRIR and RIR transmission schemes applied to the first to fourth embodiments of the present invention described above are valid only in 3DoF. That is, the 3D audio can be experienced only when the position of the user is fixed.
  • all BRIR / RIR must be measured for the range that the user can move, and in the VR audio encoding / It is necessary to detect the location change information of the user and apply the appropriate BRIR / RIR to the audio signal according to the user's position change.
  • 14 is a view for explaining 3DoF and 6DoF applied to the present invention.
  • Fig. 14 intuitively shows the range in which the user can move in 3DoF and 6DoF.
  • FIG. 14 illustrates, for example, a 10.2 channel speaker environment.
  • FIG. 14 (a) shows a range in which a user can move in a 3DoF environment.
  • 14 (b) shows a range in which the user can move in the 6DoF environment.
  • FIG. 14A the range in which the user can move is fixed to only one position 141, while in FIG. 14B, not only the fixed position 141 but also various positions 142, all points indicated by dots). Therefore, in order for the VR audio encoding / decoding device to support 6DoF, the BRIR / RIR measured at a myriad of locations 142 shown in FIG. 14B is required. Referring to FIGS. 14 (a) and 14 (b), a method of measuring the BRIR / RIR in a 10.2 channel speaker environment will be described below.
  • FIG. 14 shows the number of points to be measured, so that the measurement points are differentiated by layers.
  • FIG. 14 (b) shows the number of points to be measured, so that the measurement points are differentiated by layers.
  • FIG. 14 (b) shows the number of points to be measured, so that the measurement points are differentiated by layers.
  • FIG. 14 (b) only three layers 143, 144 and 145 are shown as measurement points of the BRIR / RIR.
  • the speakers are all located at the same distance around the user position, except for the subwoofer speaker. Therefore, assuming that the user is at the center of all the speakers, if it is desired to experience 3DoF VR audio, it is possible to perform measurement only at the position 141 where the BRIR / RIR is performed as shown in FIG. 14 (a).
  • 6DoF should measure BRIR / RIR not only on the horizontal plane but also on the vertical plane. If the number of measured BRIR / RIRs is large, higher performance can be expected. However, it is necessary to secure an appropriate interval considering the amount of calculation and efficiency of storage space when using BRIR / RIR.
  • the user's 6DoF playback environment may be different from the environment in which the manufacturer created the BRIR / RIR.
  • the manufacturer may set the distance between the user and the speaker to 1 m and measure the BRIR / RIR (assuming the user only moves within a 1 m radius), considering the speaker format specification, It can be thought that it is in a space.
  • the range in which the user can move is within a radius of 2 m. Therefore, the user space is twice as large as the response environment measured by the manufacturer.
  • the BRIR / RIR should be able to modify the measured response characteristics by referring to the measured location information and the user-accessible distance information.
  • the response characteristic can be changed using the following two methods. The first is to change the response gain of BRIR / RIR and the second is to change the response characteristic by adjusting the Direct / Reverberation (D / R) ratio of BRIR / RIR.
  • the distance of all the measured responses is considered to be 2 times larger than that of the manufacturer's response measurement environment when considering the reproduction environment of the user. Therefore, the inverse square law that the size of the sound source is inversely proportional to the square of distance Inverse square law is applied to change the measured response gain.
  • the equation using the inverse square law is basically expressed by Equation (1).
  • Equation (1) Gain 1 and Dist 1 mean the distance between the gain and the sound source measured by the manufacturer, and Gain 2 and Dist 2 indicate the distance between the gain and the sound source of the changed response. Therefore, by using Equation (2), the gain of the changed response can be obtained.
  • the second method is a method of changing the ratio of the D / R ratio in the following equation (3).
  • the D / R ratio is the power of the direct part
  • the denominator is the power of the early reflection part and the late reverberation part.
  • h (t) is the response of the BRIR / RIR
  • t 1 is the time taken to measure the 'direct part' since the response begins to be measured.
  • D / R ratio is calculated in dB.
  • D / R ratio is controlled to the ratio of the power P R of the power P and D 'early reflection part' and 'late reverberation part' of the 'direct part'. By changing this ratio, the characteristics of BRIR / RIR can be changed to change the distance feeling.
  • the method of adjusting the D / R ratio can also be applied as a typical method used for distance rendering. If you want to change the distance between the user and the sound source, you can adjust the gain of the 'direct part' of the response, and change the distance by adjusting the gain of the 'direct part' to a smaller value. In general, when the distance is twice as long, the D / R ratio is reduced by 6dB.
  • the manufacturer must provide the t 1 value of all BRIR / RIRs in advance (the time it takes for the direct part to be measured from the start of the response) it is possible to extract and use t 1 information of all BRIR / RIR by using parameterization method.
  • t 1 value of all BRIR / RIRs in advance (the time it takes for the direct part to be measured from the start of the response) it is possible to extract and use t 1 information of all BRIR / RIR by using parameterization method.
  • the measured 'direct part' power of the BRIR is reduced by 3 dB or 'early reflection part 'and' late reverberation part 'to increase 3dB power.
  • BRIRs are selected and output for the measured point at the nearest position.
  • the BRIR selection (165) selects BRIR (BRIR L1 , BRIR R1 , ..., BRIR L5 , BRIR R5 ) Are total 5 pairs. These are the BRIR and outputs the bi-neoreol renderer (163, binaural rendering) entered by the end-neoreol rendered by filtering the audio signal in (binaural rendered) 2-channel audio output signal (Out L, R Out).
  • the BRIR decoder 164 and the BRIR selection and adjustment section 165 are integrated as compared with the embodiment of FIG. 16 (a) (166, BRIR selection & decoding).
  • the BRIR selection decoder 166 refers to the speaker format information (Spk.format info) set in the decoding process in advance for BRIR decoding and selectively decodes only the BRIR required for the binaural rendering. .
  • Fig. 17 shows the embodiment of Fig. 5 of the 3DoF environment described above in consideration of the 6DoF environment. All BRIR information input in FIG. 17 is extracted as a parameter in the BRIR parameterization unit 172 and the extracted parameters are encoded and encoded in the BRIR parameter encoding unit 173. The operation of the BRIR parameter encoder 173 can be encoded in substantially the same manner as the BRIR parameter encoder 53 shown in Fig.
  • the audio data encoded in the encoded BRIR parameter data, BRIR setting information 175 and BRIR config.info and the 3D audio encoder 171 are packed in a multiplexer 174 (MUX) Stream.
  • MUX multiplexer 174
  • FIG. 18 (a) and 18 (b) are similar to those of the above-described FIG. 16 (a) and FIG. 16 (b) except for the portion where the BRIR is transmitted by the parameter. That is, FIG. 18 (a) shows a decoding process in 6 DoF according to the sixth embodiment of the present invention.
  • the input bit stream extracts the encoded audio data, BRIR parameter data, and BRIR configuration information (BRIR configuration info) from the demultiplexer 181 (De-MUX).
  • the encoded audio data is input to a 3D audio decoder 182 and decoded and rendered by referring to a set speaker format (Spk Format info).
  • the BRIR parameter data is input to a BRIR parameter decoder 184 to restore all BRIR parameters.
  • the restored BRIR parameter is input to the BRIR parameter selection & adjustment unit 185, and only the BRIR parameters necessary for reproduction are selected and output.
  • the BRIR parameter selection and adjustment unit 185 refers to the environment information (for example, space size information, movable range information and the like) received from the outside and the BRIR environment setting information 175 to determine whether the user can move Verify that the manufacturer is similar to the range of BRIR measurements. If the user-travelable range differs from the measured BRIR range, the BRIR response characteristic conversion method described above is used to convert the measured BRIR characteristics.
  • the selected BRIR parameters are input to a binaural rendering unit 183 to filter the audio signal and output binaural rendered binaural audio output signals Out L and Out R.
  • FIG. 18 (b) incorporates a BRIR parameter decoder 184 and a BRIR parameter selection and adjustment 185 in comparison with the embodiment of FIG. 18 (a) , And a BRIR parameter selection decoder 186 (BRIR parameter selection & decoding).
  • the BRIR parameter selection decoder unit 186 refers to the speaker format information (Spk.format info) set in the decoding process in advance for BRIR decoding and selectively decodes only BRIR parameters necessary for the binaural rendering .
  • 19 shows a RIR encoding process in a 6DoF environment according to a seventh embodiment of the present invention.
  • 20 to 21 illustrate a RIR decoding process in a 6DoF environment according to a seventh embodiment of the present invention.
  • RIRs measured or fabricated in the space intended by the manufacturer are input to RIR encoder 192 and encoded.
  • RIRs are measured at various points for 6DoF, but only one RIR is measured at a time, whereas a pair of BRIRs is measured at a time. For example, if RIR is measured for a total of 10 points in a 5.1-channel speaker environment, a total of 50 RIRs (1x5x10, except for the response to a woofer speaker) are input to the RIR encoder.
  • RIR configuration information 194 is input.
  • the information 194 includes measurement position information of the RIRs, response feature information (for example, equation (3) ) t 1 information, the reverberation time, etc.), and the spatial-characteristic information (such as was the RIR determination of example, includes a structure and size information of the area, etc.).
  • the RIR setting information 194 is input to the multiplexer 193 (MUX) along with the RIR data and the audio data encoded in the 3D audio encoder 191, packed, and then transmitted as a bitstream do.
  • the overall decoding process of FIG. 20 is similar to FIG. 10 (a) applied to the 3DoF environment. However, for 6DoF, the embodiment of FIG. 20 receives user position information from the outside.
  • the input bit stream is input to the demultiplexer 201 (De-MUX), and audio data, RIR data, and RIR configuration information 194 are extracted.
  • the extracted audio data is decoded and rendered by referring to the speaker format information (Spk format info) in a 3D audio decoder 202 to output a multi-channel signal.
  • the extracted RIR data is input to an RIR decoder 204 (RIR decoding) to restore all RIRs.
  • the HRIR generating modules 207 and 208 are used to generate HRIR pairs suitable for the user.
  • HRIRs are measured only once for all directions. Therefore, if the user moves in arbitrary space like 6DoF, the distances between the sound sources are different. Therefore, when using the existing HRIR, the sound source is positioned at an incorrect position.
  • the distance information between the user and the sound source can be confirmed through the user location information and the speaker format information input to the gain compensation unit 209 (gain compensation).
  • the output HRIR pairs may have different gains depending on the user's location. For example, in a 5.1-channel speaker format environment, when the user moves toward the front, it means that the speakers are approaching the front speakers (Left, Center, Right) Left Surround, Right Surround), so that the gain of the HRIR is reduced.
  • the HRIR pairs whose gains are adjusted are inputted to the hermetic section 206, and synthesized with the RIRs output from the RIR selection and adjustment section 205 to output BRIR pairs. In the synthesizing unit 206, only the HRIR pair and the RIR corresponding to the same speaker position are used.
  • RIR 1 applies only to HRIR 1 _L and HRIR 1 _R
  • RIR 5 applies only to HRIR 5 _L and HRIR 5 _R
  • the decoded audio signal is filtered to the BRIR output from the combining unit 206 to generate binaural rendering two channel audio output signals Out L and Out R , .
  • 22 shows a RIR encoding process in a 6DoF environment according to an eighth embodiment of the present invention.
  • 23 to 24 illustrate a RIR decoding process in a 6DoF environment according to an eighth embodiment of the present invention.
  • Fig. 22 shows the embodiment of Fig. 11 of the 3DoF environment described above in consideration of the 6DoF environment. All the RIR information input in FIG. 22 is extracted as parameters in the RIR parameterization unit 222, and the extracted parameters are encoded and encoded in the RIR parameter encoder 223. The operation of the RIR parameter encoder 223 can be encoded in substantially the same manner as the RIR parameter encoder 113 of Fig.
  • RIR parameter data is input to a multiplexer 224 (MUX) together with audio data encoded in a 3D audio encoder 221 and RIR configuration information 225 to be packed ), And is generated as a bitstream.
  • MUX multiplexer 224
  • FIG. 23 shows a whole decoding process according to the eighth embodiment of the present invention. Compared with the above-described embodiment of FIG. 20, the same is applied to the portion for selecting and outputting the RIR. However, since the RIR parameter is transmitted in Fig. 23, the RIR parameter is output instead of the RIR parameter. In addition, it is checked whether the moving range of the user is similar by referring to the user's playback environment information (space size information, movable range) received from the outside and the RIR environment information, and if necessary, the RIR measured using the above- Transform the response characteristic. In addition, since RIR parameters are received, only the most important parameters are changed.
  • space size information, movable range space size information, movable range
  • the RIR parameter is extracted in the time domain, information of 'propagation delay' and 'direct filter block parameter' among the extracted parameters are changed and if parameters are extracted in the frequency domain, 'propagation time 'and' VOFF coefficient parameter 'information. If the user's playback environment information is larger than the measured environment (the user's movable range is wider than the measured RIR range), the 'propagation time' of the RIR must be lengthened, '(TD) or' propagation time '(FD) parameters.
  • the 'direct part' signal means the impulse appearing after the 'propagation delay', usually the largest value in the RIR. Therefore, in the present invention, the largest value of the VOFF coefficient extracted from the 'direct filter block' (TD) and each main frequency band is regarded as a 'direct part' component. It is possible to change the gain value by applying the distance variation of the D / R ratio of Equation (2) by considering the value extracted from the parameter as the gain of the 'direct part' of the RIR.
  • the HRIR filtered signal does not reflect the spatial feature information, so there is a lack of sense of presence. Therefore, in the synthesizing unit 234, the RIR parameters outputted from the RIR parameter selection & adjustment unit 236 (for example, PRIR 1 , PRIR 2 , ..., PRIR 5 ) to the binaurally rendered signal so as to output the signals having the presence feeling.
  • the RIR parameters must be applied to the binaurally rendered signal corresponding to the speaker position in the synthesis process in the synthesis unit 234.
  • PRIR 1 is SH 1 _L and SH 1 _R applied to output the SHR 1_L and SHR 1 _R only
  • PRIR 5 is SH 5 _L and SH 5 to _R applied only SHR 5 _L And SHR 5 _R .
  • the signal SHR 1 _L , ... , SHR 5 _L are all added and gain normalized to output the final signal Out L
  • the signal SHR 1 _R , ... , SHR 5 _R are all added and gain normalized to output the final signal Out R.
  • the above-described synthesis process is the same as that of FIG. 13 described above.
  • FIG. 25 is a diagram showing the 'mpegh3daLocalSetupInformation ()' 251 syntax applied to the MPEG-H 3D Audio Decoder, reflecting the embodiment of the present invention.
  • the bsRenderingType field 253 defines a rendering type.
  • the bsRenderingType field 253 indicates either a loudspeaker rendering () 254 or a binaural rendering () 255 through a headphone It is possible to do.
  • the bsNumMeasuredPositions field indicates the number of measurement positions.
  • the positionDistance field defines the distance, in cm, to the reference point in the center of the measured position (at the same time the center of the loudspeakers at the same time). For example, it can have a value between 1 and 1023.
  • the bsNumLoudspeakers field indicates the number of loudspeakers in the playback environment.
  • the loudspeakerAzimuth field defines the azimuth of the speaker. Values between -180 ° and 180 ° can be taken at 1 ° intervals.
  • the 'RoomFirData6DoF ()' 262, the 'FdRoomRendererParam6DoF ()' 263 and the 'TdRoomRendererParam6DoF ()' 264 will be described later in detail with a separate syntax.
  • the VoffCoeffRirReal_6DoF field defines the real value of the VOFF coefficient of the 6DoF RIR converted to the frequency domain.
  • the VoffCoeffRirImag_6DoF field defines the imaginary value of the VOFF coefficient of the 6DoF RIR transformed into the frequency domain.
  • the nBitQtdlLagRir_6DoF field defines the number of bits of the lag used in the QTDL band of the 6DoF RIR converted to the frequency domain.
  • the QtdlGainRirReal_6DoF field defines the real value of the QTDL gain in the QTDL band of the 6DoF RIR converted to the frequency domain.
  • the QtdlGainRirImag_6DoF field defines the imaginary value of the QTDL gain in the QTDL band of the 6DoF RIR converted to the frequency domain.
  • the QtdlLagRir_6DoF field defines the delay value (unit: sample) of the QTDL in the QTDL band of the 6DoF RIR converted to the frequency domain.
  • the bsFmaxDiffuseRir_6DoF field defines the cutoff frequency of the Diffuse part of the 6DoF RIR given as a value between 0 and 1. '1' means Nyquist frequency.
  • the bsWeightsRir_6DoF field defines the gain value applied to the input channel signal before filtering the diffuse part of the 6DoF RIR.
  • the bsFIRDirectRir_6DoF field defines the FIR count of the direct part of the parameterized 6DoF RIR.
  • the bsFIRDiffuseRir_6DoF field defines the FIR coefficient of the diffuse part of the parameterized 6DoF RIR.
  • FIG. 34 shows the detailed syntax of the 'BinauralFirData6DoF ()' (267) described above.
  • the bsNumCoefs_6DoF field defines the number of FIR filter coefficients of the 6DoF BRIR.
  • the bsFirCoefLeft_6DoF field defines the left FIR filter coefficient of the 6DoF BRIR.
  • the bsFirCoefRight_6DoF field defines the right FIR filter coefficient of the 6DoF BRIR.
  • FIG. 35 shows the above detailed syntax of 'FdBinauralRendererParam6DoF ()' (268).
  • the dInit_6DoF field defines the Propagation time value of the 6DoF BRIR.
  • the kMax_6DoF field defines the maximum processing band of the 6DoF BRIR.
  • the kConv_6DoF field defines the number of bands used for 6DoF BRIR convolution.
  • the kAna_6DoF field defines the number of analysis bands used for late reverberation analysis of the 6DoF BRIR.
  • FIG. 36 shows the detailed syntax of the 'VoffBrirParam6DoF ()' (2681).
  • the nBitNFilter_6DoF field defines the number of bits of the nFilter used for VOFF analysis in the 6DoF BRIR converted to the frequency domain.
  • the nBitNFft_6DoF field defines the number of bits of nFft used for VOFF analysis in the 6DoF BRIR converted to the frequency domain.
  • the nBitNBlk_6DoF field defines the number of bits of the n_block used in the VOFF analysis in the 6DoF BRIR converted to the frequency domain.
  • the nFilter_6DoF field defines the band-specific filter length for VOFF in the 6DoF BRIR converted to the frequency domain.
  • the length of the FFT for each band is expressed by the square of 2, where nFft_6DoF [k] means exponent.
  • nFft_6DoF [k] denotes the length of the band by FFT to VOFF.
  • the nBlk_6DoF field defines the number of bands per band for VOFF in the 6DoF BRIR converted to the frequency domain.
  • the VoffCoeffLeftReal_6DoF field is a real value of the VOFF coefficient of the 6DoF left BRIR converted into the frequency domain.
  • the VoffCoeffLeftImag_6DoF field defines the imaginary value of the VOFF coefficient of the 6DoF left BRIR transformed into the frequency domain.
  • the VoffCoeffRightReal_6DoF field defines the real value of the VOFF coefficient of the 6DoF right BRIR converted to the frequency domain.
  • the VoffCoeffRightImag_6DoF field defines the imaginary value of the VOFF coefficient of the 6DoF right BRIR converted to the frequency domain.
  • the fcAna_6DoF field defines the center frequency of the late reverberation analysis band of the 6DoF BRIR converted to the frequency domain.
  • the rt60_6DoF field defines the reverberation time RT60 (in seconds) of the late reverberation analysis band of the 6DoF BRIR converted to the frequency domain.
  • the nrgLr_6DoF field defines the energy value (the power of 2) representing the energy of the late reverberation portion in the late reverberation analysis band of the 6DoF BRIR converted to the frequency domain.
  • FIG. 39 shows the detailed syntax of the 'TdBinauralRendererParam6DoF ()' (269) described above.
  • the bsDelay_6DoF field defines the delay of the sample applied at the beginning of the output signal (used to compensate for the propagation delay of the BRIR removed during the parameterization process).
  • the bsDirectLen_6DoF field defines the sample size of the direct part of the parameterized 6DoF BRIR.
  • the bsNbDiffuseBlocks_6DoF field defines the number of blocks of the diffuse part of the 6DoF BRIR parameterized.
  • the bsFmaxDirectLeft_6DoF field defines the cutoff frequency of the direct part of the 6-DOF left BRIR given as the value between '0' and '1'. For example, '1' means Nyquist frequency.
  • the bsFmaxDirectRight_6DoF field defines the cutoff frequency of the direct part of the 6-DOF right BRIR given as a value between '0' and '1'.
  • '1' means Nyquist frequency.
  • the bsFmaxDiffuseLeft_6DoF field defines the cutoff frequency of the Diffuse part of the 6DoF left BRIR given as a value between '0' and '1'.
  • '1' means Nyquist frequency.
  • the bsFmaxDiffuseRight_6DoF field defines the cutoff frequency of the Diffuse part of the 6-DOF right BRIR given as a value between '0' and '1'. For example, '1' means Nyquist frequency.
  • the bsWeights_6DoF field defines the gain value applied to the input channel signal before filtering the diffuse part of the 6DoF BRIR.
  • the bsFIRDirectLeft_6DoF field defines the FIR factor of the direct part of the 6RoF left BRIR parameterized.
  • the bsFIRDirectRight_6DoF field defines the FIR factor of the direct part of the 6lyFR right BRIR parameterized.
  • the bsFIRDiffuseLeft_6DoF field defines the FIR coefficient of the diffuse part of the left-hand BRIR parameterized 6DoF.
  • the bsFIRDiffuseRight_6DoF field defines the FIR coefficient of the diffuse part of the 6lyFR right BRIR parameterized.
  • the dInitRir field defines the Propagation time value of the RIR.
  • the kMaxRir field defines the maximum processing band of the RIR.
  • the kConvRir field defines the number of bands used for RIR convolution.
  • the kAnaRir field defines the number of analysis bands used in the late reverberation analysis of the RIR.
  • the 'FdRoomRendererParam ()' syntax 273 includes 'VoffRirParam ()' 2731, 'SfrBrirParam ()' 2732, and 'QtdlBrirParam ()' 2733.
  • the bsFmaxDiffuseRir field defines the cutoff frequency of the Diffuse part of the RIR given as a value between '0' and '1.' For example, '1' means Nyquist frequency.
  • the bsWeightsRir field defines the gain value applied to the input channel signal before filtering the diffuse part of the RIR.
  • the bsFIRDirectRir field defines the FIR count of the direct part of the parameterized RIR.
  • the bsFIRDiffuseRir field defines the FIR factor of the diffuse part of the RIR parameterized.
  • FIG. 46 shows the above detailed HRIRGeneration () (275) detailed syntax.
  • the bsHRIRDataFormatID field indicates the representation type of the HRIR.
  • the representation types of the HRIR include 'HRIRFIRData ()' 2751 and 'HRIRModeling ()' 2752.
  • Step S102 is a process of generating BRIR (or RIR) data by inputting the BRIR (or RIR) measured or modeled in step S101 to the BRIR (or RIR) encoder.
  • Step S203 is a process of adding two types of signals when the rendered signal is two or more types in a renderer or a separately provided mixer.
  • the mixing process of step S203 is also utilized when a delay or a gain is additionally applied to the rendered signal.
  • Step S208 is a process of generating BRIR by synthesizing the modeled HRIR data and the RIR data extracted in step S207.
  • the RIR parameter measured at the position closest to the user position is referred to by referring to the user position information through operation S415 and S411 in the step S410. Extraction process.

Abstract

본 발명은 3차원 오디오 재생 방법 및 재생 장치에 대해 개시한다. 본 발명의 3차원 오디오 재생 방법은, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계, 상기 수신된 오디오 신호에 RIR(Room Impulse Response) 데이터가 포함된 경우에는 상기 RIR데이터를 디코딩하는, RIR디코딩 단계, 상기 수신된 오디오 신호에 RIR 데이터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성 단계, 상기 디코딩된 RIR 데이터와 모델링된 HRIR 데이터를 합성하여 BRIR(Binaural Room Impulse Response) 데이터를 생성하는, BRIR합성 단계, 및 상기 생성된 BRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호로 출력하는, 바이너럴 랜더링 단계를 포함하는 것을 특징으로 한다. 또한, 본 발명의 3차원 오디오 재생 방법 및 재생 장치는 3DoF뿐만 아니라 6DoF 환경을 지원하는 것을 특징으로 한다. 또한, 본 발명의 3차원 오디오 재생 방법 및 재생 장치는, BRIR 또는 RIR 데이터를 파라미터화(parameterization) 하여 제공하는 것을 특징으로 한다. 본 발명의 실시예에 따른, 3차원 오디오 재생 방법에 의해, 더욱 입체감 및 현장감 있는 3차원 오디오 신호를 제공하는 것이 가능하게 된다.

Description

3차원 오디오 재생 방법 및 재생 장치
본 발명은 3차원 오디오 재생 방법 및 재생 장치에 관한 것이다. 특히 본 발명은 3차원 오디오 재생에 활용되는 BRIR(Binaural Room Impulse Response) 또는 RIR(Room Impulse Response) 데이터를 전송하는 방법 및 BRIR/RIR 파라미터화(parameterization) 방법을 활용한 오디오 재생 방법 및 오디오 재생 장치에 관한 것이다.
최근 IT기술의 발전에 따라 다양한 스마트 기기가 개발되고 있다. 특히 이러한 스마트 기기는 다양한 효과를 가지는 오디오 출력을 기본으로 제공한다. 특히, 가상 현실(Virtual Reality) 환경 또는 3차원 오디오 환경에서, 더욱 현실감 있는 오디오 출력을 위한, 다양한 방법이 시도되고 있다. 관련하여, 새로운 오디오 코딩 국제표준 기술로 MPEG-H가 개발되고 있다. MPEG-H는, 초고해상도 대화면 디스플레이 (예, 100인치 이상)와 초다채널 오디오 시스템 (예, 10.2 채널 또는 22.2 채널 등)을 이용한 실감 몰입형(immersive) 멀티미디어 서비스를 위한 새로운 국제 표준화 프로젝트이다. 특히, 상기 MPEG-H표준화 프로젝트내에는 초다채널 오디오 시스템 구현을 위한 노력으로 “MPEG-H 3D Audio AhG (Adhoc Group)” 이름의 서브 그룹이 설립되어 활동 중이다.
MPEG-H 3D Audio부호화/복호화 기기는 멀티 채널 스피커 시스템을 이용하여 청취자에게 실감형 오디오를 제공한다. 또한, 헤드폰 환경에서는 현실감 높은 3차원 오디오 효과를 제공한다. 이러한 특징으로 인해 MPEG-H 3D Audio 디코더는 VR 오디오 표준으로 고려되고 있다.
현존하는 표준화가 완료된 3D audio 부호화/복호화 기기(예: MPEG-H 3D Audio)는 모두 디코더 혹은 수신기 자체에서 보유하고 있는 BRIR(Binaural room impulse response) 혹은 HRIR(Head-related impulse response)을 재생되는 오디오 신호에 적용하여 3차원 오디오 신호를 제공한다. 즉, 사전에 미리 보유한 데이터만을 이용하였다. 이는 사용자로 하여금 다양한 환경에서 3차원 오디오를 경험하지 못하는 경우가 발생할 수 있다. 따라서 본 발명에서는 인코더(encoder)단에서 오디오 신호를 인코딩함과 동시에 오디오 신호와 가장 적합한 BRIR 또는 RIR도 함께 인코딩하여 기존의 부호화기에서 가지고 있던 한계를 극복하여 최적의 환경에서 3차원 오디오를 경험할 수 있는 방법을 제안한다.
전술한 바와 같이, VR audio는 사용자가 소리를 들음으로써 이질감 없이 임의의 공간에 있는 것과 같은 느낌을 주는 것을 목적으로 하며, 이 때 이 목적을 이루기 위해 가장 중요하게 고려되는 요소 중 하나는 BRIR의 특성이다. 즉, 현실과 비슷한 느낌을 제공하기 위해서는 BRIR의 응답이 공간 특성을 잘 반영할 수 있어야 한다. 하지만 현재 MPEG-H 3D Audio 부호화기에서 헤드폰으로 오디오 컨텐츠(contents)를 재생할 때에는 사전에 디코더에서 저장되어 있는 BRIR을 사용한다. 또한, VR컨텐츠는 매우 다양한 환경이 고려될 수 있지만, 사전에 디코더에서 이 모든 환경에 대해서 BRIR을 취득하여 데이터베이스(DB)로 보유하는 것은 현실적으로 불가능하며, 해당 공간에 대한 기본 특징 정보들만 제공하여 디코더에서 BRIR을 모델링할 경우, 모델링된 BRIR이 해당 공간의 특성을 잘 반영했는지에 대한 검증이 필요하다. 따라서 본 발명에서는 이와 같은 문제를 보완하기 위해 BRIR 또는 RIR에 대한 특징 정보들만 잘 추출해서 직접 오디오 신호에 적용 가능한 파라미터(parameter)로 만들어서 송신할 수 있는 방법을 제안한다.
관련하여, 현존하는 3D 오디오 부호화/복호화 기기는 대부분 3자유도 (이를 ‘3DoF(Degrees of freedom)’ 로 명명한다) 까지만 지원한다. 자유도(DoF)는, 예를 들어, 임의 공간에서 머리의 움직임이 정확히 추적되면, 그 순간 사용자의 자세 또는 위치에 가장 적합한 비주얼(visual)과 사운드(sound)를 제공할 수 있게 되는 바, 이러한 움직임(motion)은 움직임이 가능한 자유도(DoF)에 따라 3자유도(3DoF) 또는 6자유도(6DoF)로 나누어 진다. 예를 들어, 3DoF는 사용자가 움직이지 않고, 고정된 위치에서 머리를 회전하는 것 같이, X,Y,Z축의 운동이 가능한 것을 의미한다. 반면, 6DoF는 상기 X,Y,Z축을 중심으로 회전하는 것에 더해서, X,Y,Z축을 따라 이동하는 것이 가능해진다는 의미이다. 따라서 3DoF로는 사용자의 위치 움직임을 반영하지 못해 더욱 현장감 있는 소리를 제공하기 어렵게 된다. 따라서 본 발명에서는 3D 오디오 부호화/복호화 기기에 공간 모델링 방법을 적용하여 6DoF 환경에서 사용자의 위치 변화에 대응하여 오디오를 랜더링(rendering)시켜주는 방법을 제안한다.
또한, 일반적으로 통신 환경에서는 대역폭의 효율을 극대화시키기 위해 비디오 신호에 비해 용량이 훨씬 더 적은 오디오 신호도 부호화시킨다. 최근 관심이 커지고 있는 VR 오디오 컨텐츠(contents)를 구현하고 경험할 수 있는 기술들이 많이 개발되고 있으나, 해당 컨텐츠를 효율적으로 부호화/복호화 할 수 있는 기기 개발은 부족한 편이다. 관련하여, 최근 3차원 오디오 효과를 제공할 수 있는 부호화/복호화 기기로는 MPEG-H 3D Audio가 개발되고 있으나, 상기 3DoF 환경인 경우에만 사용이 가능하도록 제한되어 있는 문제점이 있다.
최근 3D 오디오 부호화/복호화 기기에서는 헤드폰을 통해 3차원 오디오를 경험할 수 있도록 바이너럴 랜더러(binaural renderer)가 사용된다. 하지만 상기 바이너럴 랜더러(binaural renderer)에 입력으로 사용되는 BRIR(Binaural Room Impulse Response) 데이터는 고정된 위치에서 측정된 응답이므로 3DoF 환경에서만 유효하다. 뿐만 아니라, VR 환경을 구축하기 위해서는 매우 다양한 환경에 대한 BRIR이 필요하지만, 모든 환경에 대한 BRIR을 데이터베이스(DB)로 확보하는 것도 불가능하다. 따라서 본 발명에서는 3D 오디오 부호화/복호화 기기에 공간 정보를 제공함으로써 의도한 공간 응답을 모델링할 수 있는 기능을 추가한다. 나아가 사용자의 위치 정보도 동시에 수신함으로써 실시간으로 사용자의 위치에 맞춰서 모델링된 응답을 랜더링(rendering)하여 3D 오디오 부호화/복호화 기기를 6DoF 환경에서도 사용 가능한 오디오 재생 방법 및 재생 장치를 제안한다.
본 발명의 목적은, 3차원 오디오 재생에 필요한 BRIR/RIR 데이터를 송수신하는 방법 및 장치를 제공하는 데 있다.
또한, 본 발명의 목적은, BRIR/RIR을 이용한 3차원 오디오 재생 방법 및 정치를 제공하는 데 있다.
또한, 본 발명의 목적은, 6DoF 환경에서 3차원 오디오 신호를 재생하기 위해, BRI/RIR 데이터를 송수신하는 방법 및 장치를 제공하는 데 있다
또한, 본 발명의 목적은, 6DoF 환경에서 3차원 오디오 신호를 재생하는 MPEG-H 3D 오디오 재생 장치를 제공하는 데 있다.
본 발명의 실시예에 따른, 3차원 오디오 재생 방법은, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계, 상기 수신된 오디오 신호에 RIR(Room Impulse Response) 데이터가 포함된 경우에는 상기 RIR데이터를 디코딩하는, RIR디코딩 단계, 상기 수신된 오디오 신호에 RIR 데이터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성 단계, 상기 디코딩된 RIR 데이터와 모델링된 HRIR 데이터를 합성하여 BRIR(Binaural Room Impulse Response) 데이터를 생성하는, BRIR합성 단계, 및 상기 생성된 BRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호로 출력하는, 바이너럴 랜더링 단계를 포함하는 것을 특징으로 한다.
또한, 스피커 정보(Speaker format info)를 입력 받는 단계를 더 포함하되, 상기 RIR디코딩 단계는, 상기 스피커 정보(Speaker format info)에 대응하는 RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 한다.
또한, 상기 HRIR생성 단계는 상기 사용자 머리 정보(user head info) 및 상기 스피커 정보(Speaker format info)에 대응하는 HRIR 데이터를 모델링하여 생성하는 것을 특징으로 한다.
또한, 상기 HRIR생성 단계는, HRIR 데이터베이스(DB)로부터 대응하는 HRIR 데이터를 선택하여 생성하는 것을 특징으로 한다.
또한, 상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 모드 지시 정보(is6DoFMode)를 확인하는 단계, 및 상기 정보(is6DoFMode)로부터, 6DoF가 지원되는 경우, 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)를 획득하는 단계를 더 포함하는 것을 특징으로 한다.
또한, 상기 RIR디코딩 단계는, 상기 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)에 대응하는RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 한다.
본 발명에 따른 또 다른 3차원 오디오 재생 방법은, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계, 상기 수신된 오디오 신호에 RIR(Room Impulse Response) 파라미터가 포함된 경우에는 상기 RIR파라미터를 디코딩하는, RIR디코딩 단계, 상기 수신된 오디오 신호에 RIR 파라미터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성 단계, 상기 생성된 HRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호를 출력하는 랜더링 단계, 및 상기 바이너럴 랜더링된 오디오 신호에 상기 디코딩된 RIR파라미터를 적용하여 공간 특성에 적합한 오디오 신호로 보정하여 출력하는 합성 단계를 포함하는 것을 특징으로 한다.
또한, 상기 수신된 오디오 신호내에 포함된 3DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(isRoomData)를 확인하는 단계, 및 상기 정보(isRoomData)로부터, 3DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bsRoomDataFormatID)를 확인하는 단계, 및 상기 정보(bsRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData()’ 신택스, ‘FdRoomRendererParam()’ 신택스 또는 ‘TdRoomRendererParam()’ 신택스 중 하나 이상을 획득하는 단계를 더 포함하는 것을 특징으로 한다.
또한, 상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(is6DoFRoomData)를 확인하는 단계, 상기 정보(is6DoFRoomData)로부터, 6DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bs6DoFRoomDataFormatID)를 확인하는 단계, 및 상기 정보(bs6DoFRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData6DoF()’ 신택스, ‘FdRoomRendererParam6DoF()’ 신택스 또는 ‘TdRoomRendererParam6DoF()’ 신택스 중 하나 이상을 획득하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명에 따른 3차원 오디오 재생 장치는, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 오디오 디코더, 상기 수신된 오디오 신호에 RIR(Room Impulse Response) 데이터가 포함된 경우에는 상기 RIR데이터를 디코딩하는, RIR디코더, 상기 수신된 오디오 신호에 RIR 데이터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성부, 상기 디코딩된 RIR 데이터와 모델링된 HRIR 데이터를 합성하여 BRIR(Binaural Room Impulse Response) 데이터를 생성하는, BRIR합성부, 상기 생성된 BRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호로 출력하는, 바이너럴 랜더러를 포함하는 것을 특징으로 한다.
또한, 상기 RIR디코더는, 스피커 정보(Speaker format info)를 입력 받아, 상기 스피커 정보(Speaker format info)에 대응하는 RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 한다.
또한, 상기 HRIR생성부는 상기 사용자 머리 정보(user head info) 및 상기 스피커 정보(Speaker format info)에 대응하는 HRIR 데이터를 모델링하여 생성하는 HRIR 모델링부를 포함하는 것을 특징으로 한다.
또한, 상기 HRIR생성부는, HRIR 데이터베이스(DB)로부터 대응하는 HRIR 데이터를 선택하여 생성하는 HRIR 선택부를 포함하는 것을 특징으로 한다.
또한, 상기 RIR디코더는, 상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 모드 지시 정보(is6DoFMode)를 확인하고, 상기 정보(is6DoFMode)로부터, 6DoF가 지원되는 경우, 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)를 획득하는 것을 특징으로 한다.
또한, 상기 RIR디코더는, 상기 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)에 대응하는RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 한다.
본 발명에 따른 또 다른 3차원 오디오 재생 장치는, 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 오디오 디코더, 상기 수신된 오디오 신호에 RIR(Room Impulse Response) 파라미터가 포함된 경우에는 상기 RIR파라미터를 디코딩하는, RIR디코더, 상기 수신된 오디오 신호에 RIR 파라미터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는 HRIR생성부, 상기 생성된 HRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호를 출력하는 바이너럴 랜더러, 및 상기 바이너럴 랜더링된 오디오 신호에 상기 디코딩된 RIR파라미터를 적용하여 공간 특성에 적합한 오디오 신호로 보정하여 출력하는 합성부를 포함하는 것을 특징으로 한다.
또한, 상기 RIR디코더는, 상기 수신된 오디오 신호내에 포함된 3DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(isRoomData)를 확인하고, 상기 정보(isRoomData)로부터, 3DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bsRoomDataFormatID)를 확인하고, 상기 정보(bsRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData()’ 신택스, ‘FdRoomRendererParam()’ 신택스 또는 ‘TdRoomRendererParam()’ 신택스 중 하나 이상을 획득하는 것을 특징으로 한다.
또한, 상기 RIR디코더는, 상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(is6DoFRoomData)를 확인하고, 상기 정보(is6DoFRoomData)로부터, 6DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bs6DoFRoomDataFormatID)를 확인하고, 상기 정보(bs6DoFRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData6DoF()’ 신택스, ‘FdRoomRendererParam6DoF()’ 신택스 또는 ‘TdRoomRendererParam6DoF()’ 신택스 중 하나 이상을 획득하는 것을 특징으로 한다.
[발명의 효과]
본 발명의 실시예에 따른, 3차원 오디오 재생 방법 및 장치를 통해, 다음과 같은 효과가 있다.
첫째, 오디오 인코더 및 디코더에서 BRIR/RIR을 송수신 할 수 있도록 함으로써, 다양한 BRIR/RIR을 오디오 혹은 오브젝트(object) 신호에 적용하는 것이 가능하게 된다.
둘째, 6DoF 환경에 적용하기 위해, 사용자의 위치 변화 정보를 활용함에 따라, 사용자의 위치에 따라 BRIR/RIR을 함께 변화시켜줌으로, 입체감 및 현장감 있는 오디오 신호를 제공하는 것이 가능하게 된다.
셋째. 차세대 몰입형 3차원 오디오 부호화 기술로 MPEG-H 3D Audio 구현상의 효율을 높일 수 있다. 즉, 게임 또는 가상현실(VR) 공간 등 다양한 오디오 응용 분야에서, 수시로 변화되는 오디오 오브젝트 신호에 대응하여, 자연스럽고 현실감 있는 효과를 제공하는 것이 가능하게 된다.
도1은 본 발명이 적용되는 오디오 재생 장치의 기본 구성을 도시한 것이다.
도2는 본 발명의 제1실시예에 따른, BRIR 인코딩 과정을 도시한 것이다.
도3~도4는 본 발명의 제1실시예에 따른, BRIR 디코딩 과정을 도시한 것이다.
도5는 본 발명의 제2실시예에 따른, BRIR 인코딩 과정을 도시한 것이다.
도6은 본 발명의 제2실시예에 따른, BRIR 디코딩 과정을 도시한 것이다.
도7~도8은, 본 발명에 적용되는 BRIR 파라미터 추출 과정을 예를 들어 도시한 것이다.
도9는 본 발명의 제3실시예에 따른, RIR 인코딩 과정을 도시한 것이다.
도10은 본 발명의 제3실시예에 따른, RIR 디코딩 과정을 도시한 것이다.
도11은 본 발명의 제4실시예에 따른, RIR 인코딩 과정을 도시한 것이다.
도12는 본 발명의 제4실시예에 따른, RIR 디코딩 과정을 도시한 것이다.
도13은 본 발명의 제4실시예에 적용되는, 오디오 출력 신호 합성 과정을 예를 들어 도시한 것이다.
도14는 본 발명에 적용되는 3DoF와 6DoF를 설명하기 위해 도시한 것이다.
도15는 본 발명의 제5실시예에 따른, 6DoF 환경에서 BRIR 인코딩 과정을 도시한 것이다.
도16은 본 발명의 제5실시예에 따른, 6DoF 환경에서 BRIR 디코딩 과정을 도시한 것이다.
도17은 본 발명의 제6실시예에 따른, 6DoF 환경에서 BRIR 인코딩 과정을 도시한 것이다.
도18은 본 발명의 제6실시예에 따른, 6DoF 환경에서 BRIR 디코딩 과정을 도시한 것이다.
도19는 본 발명의 제7실시예에 따른, 6DoF 환경에서 RIR 인코딩 과정을 도시한 것이다.
도20~도21은 본 발명의 제7실시예에 따른, 6DoF 환경에서 RIR 디코딩 과정을 도시한 것이다.
도22는 본 발명의 제8실시예에 따른, 6DoF 환경에서 RIR 인코딩 과정을 도시한 것이다.
도23~도24는 본 발명의 제8실시예에 따른, 6DoF 환경에서 RIR 디코딩 과정을 도시한 것이다.
도25~도48은 본 발명의 실시예에 따른, 오디오 재생 방법 및 장치에 활용되는 신택스(syntax) 구조를 설명하기 위해 도시한 것이다.
도49는 본 발명에 따른, 오디오 인코딩 방법의 흐름도를 도시한 것이다.
도50은 본 발명에 따른, 상기 도49에 대응하는 오디오 디코딩 방법의 흐름도를 도시한 것이다.
도51은 본 발명에 따른, 오디오 인코딩 방법의 다른 흐름도를 도시한 것이다.
도52는 본 발명에 따른, 상기 도51에 대응하는 오디오 디코딩 방법의 다른 흐름도를 도시한 것이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 동일하거나 유사한 구성요소에는 동일한 도면 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈", "부" 및 "수단"은 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 또한, 본 발명은 설명의 편의를 위해, 일부 용어를 국문 및 영문을 혼용하여 사용하였으나, 사용된 용어의 의미는 동일함을 밝혀두고자 한다.
전술한 바와 같이, BRIR은 임의의 공간에서 측정된 양이의 공간 응답이다. 따라서 측정된 BRIR에는 양이의 특징 정보만이 측정된 HRIR(Head-related impulse response, 또는 이를 “HRTF(Head-related Transfer Function)”라고도 한다)에 대한 응답뿐만 아니라, 공간에 대한 특징 정보도 함께 포함되어 있다. 이러한 이유로 BRIR은 HRIR과 공간의 특징 정보가 측정된 RIR(Room impulse response)가 합쳐진 응답이라고 생각될 수 있다. BRIR을 오디오 신호에 필터링하여 청취할 경우, 사용자는 재생되는 오디오 신호를 통해 BRIR이 측정된 공간에 있는 것과 같은 느낌을 경험할 수 있다. 이러한 특징 때문에 VR과 같은 분야에서 헤드폰을 이용하여 몰입형 오디오(immersive audio)를 재생 하고자 할 경우 BRIR은 가장 기본적이고 중요한 요소라고 할 수 있다.
도1은 본 발명이 적용되는 오디오 재생 장치의 기본 구성을 도시한 것이다. 도1의 오디오 재생 장치는, 오디오 디코더(11, Audio Decoder), 랜더러(12, Renderer), 바이너럴 랜더러(13, Binaural Renderer) 및 메타데이터 프로세서(14, Metadata and Interface processor)를 포함한다. 이하 본 발명의 오디오 재생 장치를 상세히 설명하면 다음과 같다.
상기 오디오 디코더(11, Audio Decoder)는, 오디오 신호 (예를 들어, 오디오 비트스트림)를 입력 받아, 디코딩된 오디오 신호(11a, decoded signal)과 메타데이터(11b, Metadata)를 생성한다. 상기 메타데이터 정보(11b)는 상기 메타데이터 프로세서(14)에 전달되고, 상기 메타데이터 프로세서(14)는, 외부에서 추가적으로 입력되는 스피커 포맷 정보(16, Speaker format info) 및 사용자 인터액션 정보(17, User interaction data)과 조합되어 최종 재생 환경을 설정하여 설정된 재생 환경 정보(14a, Playback environment information)를 상기 랜더러(12)로 출력한다.
상기 랜더러(12)는 상기 재생 환경 정보(14a)를 참조하여 사용자가 설정된 스피커(speaker) 환경에 맞도록 입력되는 디코딩된 신호(11a, decoded signal)에 적용하여 랜더링하고, 랜더링된 신호(12a, rendered signal)을 출력한다. 상기 랜더러(12)는 상기 랜더링된 신호(12a)는 출력시, 믹싱(mixing) 과정을 통해, 게인(gain) 및 지연(delay) 보정을 거쳐 출력하는 것이 가능하다. 상기 출력된 랜더링된 신호(12a)는 상기 바이너럴 랜더러(13)에서 BRIR(18)에 필터링 되어서 서라운드(surround) 2채널 바이너럴 랜더링된 신호(13a, 13b)를 출력한다.
만약, 상기 오디오 디코더(11, Audio Decoder)가 “MPEG-H 3D Audio Core Decoder” 로 구성하는 경우에는, 상기 디코딩된 오디오 신호(11a, decoded signal)는 모든 타입(type)의 신호(예를 들어, 채널(Channel) 신호, 오브젝트(object) 신호, HOA 신호)를 포함할 수 있다. 또한, 상기 메타데이터(11b)는 오브젝트 메타데이터(object metadata)로 출력할 수 있다. 또한, 상기 사용자 인터액션 정보(17)에서 오브젝트(object)의 특징을 변경하고자 할 경우, 상기 메타데이터 프로세서(14)는, 오브젝트 메타데이터 정보를 수정하게 된다. 또한, 상기 바이너럴 랜더러(13)에서 사용되는 BRIR은 디코더에서만 사용되는 정보이며, 만약 디코더에서 BRIR을 보유하지 않거나 수신하지 못할 경우 헤드폰을 이용하여 몰입형 오디오(immersive audio)를 경험할 수 없다.
관련하여, 기존 표준화된 MPEG-H 3D Audio에서는 임의의 공간에서 한 지점에 대해서 측정된 BRIR을 사용한다. 따라서 다양한 공간에 대해서 적용이 필요한 VR 분야에 MPEG-H 3D Audio를 적용하기 위해서는 BRIR의 측정과 사용 방법에 대한 추가적인 고려가 필요하다. 가장 직관적으로는 VR에서 자주 이용되는 환경에 대한 BRIR을 미리 측정하거나 제작하여 데이터베이스(DB)로 보유해서 MPEG-H 3D Audio decoder에 적용시킬 수 있다. 하지만 많은 BRIR 데이터베이스(DB)를 보유하는 것에는 한계가 있고, 또한, 보유하고 있는 BRIR DB에서 VR 컨텐츠가 녹음된 공간과 유사한 특징을 갖는 BRIR을 이용하더라도 제작자가 의도한 환경과 정확히 일치했다고 보장할 수 없다. 뿐만 아니라, 만약 VR 오디오를 6DoF 환경으로 확장시킬 경우, BRIR DB는 기하급수적으로 증가하기 때문에 매우 큰 저장 공간을 확보 해야 하는 문제점도 발생하게 된다. 따라서 본 발명에서는 제작자가 의도한 환경에 대한 BRIR 또는 RIR을 제작자가 직접 제작하거나 측정하여 송신하는 방법 및 이를 이용한 오디오 재생 방법 및 장치를 설명하고자 한다.
도2는 본 발명의 제1실시예에 따른, BRIR 인코딩 과정을 도시한 것이다. 또한, 도3~도4는 본 발명의 제1실시예에 따른, BRIR 디코딩 과정을 도시한 것이다.
도2를 참조하면, 본 발명의 제1실시예 따른, 인코딩 과정에는, 3D 오디오 인코더(21, 3D Audio Encoding) 뿐만 아니라 BRIR 인코더(22, BRIR Encoding)를 포함한다. 이를 상세히 설명하면 다음과 같다. 즉, 상기 3D 오디오 인코더(21)를 통해 입력 오디오 신호를 인코딩 포맷에 맞게 인코딩할 뿐만 아니라, 상기 BRIR 인코더(22)를 통해 별도로 입력되는 다수의 BRIR (BRIRL1,BRIRR1,…,BRIRLN,BRIRRN)에 대해서도 인코딩을 수행한다. 인코딩된 오디오 데이터 및 BRIR 데이터는 멀티플레서(23, MUX)에서 함께 팩킹(packing)되어 하나의 비트스트림으로 생성하여 송신한다.
상기 BRIR 인코더(22)로 입력되는 BRIR들은 일반적으로 정해진 규격의 스피커 포맷 환경에서 측정 혹은 제작된 BRIR들이다. 예를 들어, 22.2 스피커 채널에 대한 BRIR이 입력된다고 가정하면, N=22이다. 또한, BRIR은 양이의 특성이 반영된 응답이므로, 항상 왼쪽과 오른쪽 한 쌍으로 존재한다. 따라서 총 N*2개의 BRIR이 BRIR 인코더(22)로 입력된다. 일반적으로 유연성(flexibility)를 최대화시키기 위해서 가능한 많은 BRIR을 전송시키는 것이 유리하지만, 제한된 대역폭을 효율적으로 사용하기 위해 필요한 BRIR만을 전송시킨다. 만약 VR 컨텐츠 제작자가 오디오 신호를 5.1 채널 환경에서 제작하였다면, BRIR은 5개만 전송시킬 수 있다.
도3~도4는 본 발명의 제1실시예에 따른, BRIR 디코딩 과정을 도시한 것이다. 특히, 도3(a) 모든 BRIR을 디코딩한후 원하는 BRIR만을 선택하는 과정을, 도3(b)는 원하는 BRIR을 선택한후 선택된 BRIR만을 디코딩하는 과정을 도시한 것이다. 또한, 도4(a),(b)는 상기 도3(a),(b)에 각각 BRIR 파라미터화(parameterization) 과정을 추가한 것이다.
우선, 도3(a)를 참조하면, 본 발명의 제1실시예에 따른 디코더는 디멀티플랙서(31, DeMUX), 3D 오디오 디코더(32, 3D Audio decoding), BRIR 디코더(34, BRIR decoding), BRIR 선택부(35, BRIR selection) 및 바이너럴 랜더러(33, Binaural Rendering)를 포함한다.
상기 디멀티플랙서(31, DeMUX)는 비트스트림이 수신되면, 비트스트림내에 포함된 인코딩된 오디오 데이터와 BRIR 데이터를 분리한다. 상기 3D 오디오 디코더(32, 3D Audio decoding)는 상기 분리된 오디오 데이터를 디코딩하고, 설정된 스피커 포맷(Spk. Format Info)에 맞춰서 오디오 신호를 1차 랜더링(rendering) 하여 출력한다. 관련하여, 도3(a)에서 3D 오디오 디코더(32)에서 출력되는 오디오 신호를 굵은 실선으로 도시하였으며, 이는 2개 이상의 신호들이 포함되어 있음을 의미한다. 이하 굵은 실선의 의미는 다른 도면에서도 동일하다. 상기 BRIR 디코더(34, BRIR decoding)는, 상기 디멀티플랙서(31)를 통해 분리된, BRIR 데이터를 디코딩한다. 상기 BRIR 선택부(35, BRIR selection)는 상기 디코딩된 모든 BRIR들중 설정된 스피커 포맷(Spk. Format Info)에 맞춰서 필요한 BRIR들만 선택한다. 상기 바이너럴 랜더러(33, Binaural Rendering)는 상기 산택된 BRIR들을 상기 랜더링(rendering)된 오디오 출력 신호에 적용하여 바이너럴 랜더링된(binaural rendered) 2채널 서라운드 오디오 신호 (OutL ,OutR)로 출력한다.
일반적으로, 오디오를 청취할 때 스피커의 개수가 많아지면 많아질수록 사람은 더욱 현실감 높은 오디오를 경험할 수 있듯이, 바이너럴 랜더링(binaural rendering)시에도 많은 BRIR들을 이용할수록 현실감 높은 3차원 오디오를 경험할 수 있다. 관련하여, 또 다른 사용예로, 도3(a)에서 상기 BRIR 선택부(35) 없이, 디코딩된 모든 BRIR 데이터를 상기 바이너럴 랜더러(33)로 출력하는 것도 가능하다. 하지만 많은 BRIR들을 이용할수록 연산량은 증가하게 되고, 만약 상기 바이너럴 랜더러(33)에서 많은 BRIR들의 연산을 충분히 빠른 시간에 처리하지 못하면, 랜더링(rendering) 과정에서 지연(delay)이 발생하여 오히려 현장감이 떨어지는 경우가 발생할 수 도 있다. 따라서 상기 BRIR 선택부(35) 사용 여부는, 시스템 설계자에 의해 시스템 성능 및 효율을 고려하여 사용 여부를 선택하는 것이 바람직하다.
도3(b)는 본 발명의 제1실시예에 따른 또 다른 디코더를 도시한 것이다. 도3(b)를 참조하면, 상기 디멀티플랙서(31, DeMUX), 3D 오디오 디코더(32, 3D Audio decoding) 및 바이너럴 랜더러(33, Binaural Rendering)는 전술한 도3(a)와 동일하다. 단, 도3(a)에서 사용된 상기 BRIR 디코더(34, BRIR decoding) 및 상기 BRIR 선택부(35, BRIR selection)를 통합하여, BRIR 선택 디코더(36, BRIR selection & decoding)로 구성한다. 즉, 도3(b)는 사용자가 설정한 스피커 포맷 정보(Spk. Format Info)를 BRIR 선택 디코더(36)에서 수신하여 BRIR 디코딩시 필요한 BRIR만을 선택적으로 디코딩하는 것을 특징으로 한다.
도4는 본 발명의 제1실시예에 따른, 또 다른 BRIR 디코딩 과정을 도시한 것이다. 특히, 도4(a) 모든 BRIR을 디코딩한후 원하는 BRIR 만을 선택하여 파라미터화(parameterization) 하는 과정을, 도4(b)는 원하는 BRIR을 선택한후 선택된 BRIR만을 디코딩하여 파라미터화(parameterization) 하는 과정을 도시한 것이다.
우선, 도4(a)를 참조하면, 디멀티플랙서(41, DeMUX), 3D 오디오 디코더(42, 3D Audio decoding), BRIR 디코더(44, BRIR decoding), BRIR 선택부(45, BRIR selection) 및 바이너럴 랜더러(43, Binaural Rendering)를 포함하고, 상기 각각의 동작은 전술한 도3(a)의 상기 디멀티플랙서(31, DeMUX), 3D 오디오 디코더(32, 3D Audio decoding), BRIR 디코더(34, BRIR decoding), BRIR 선택부(35, BRIR selection) 및 바이너럴 랜더러(33, Binaural Rendering)와 동일하다. 단, 도4(a) 실시예는, 상기 BRIR 선택부(45)에 의해 선택된, BRIR 데이터를 연산 효율을 위해 파라미터화(parameterization) 하는 BRIR 파라미터부(46, BRIR parameterization)을 더 포함하는 것을 특징으로 한다. 따라서, 상기 바이너럴 랜더러(43)는 파라미터화(parameterization)된 BRIR 데이터를 활용함에 따라 효율적인 바이너럴 랜더링(binaural rendering)이 가능하게 된다.
즉, BRIR을 직접 오디오 신호에 필터링(filtering)하는 대신 BRIR의 특징 정보들만 추출된 파라미터(parameter)를 오디오 신호에 적용하여 바이너럴 랜더링(binaural rendering)할 경우, BRIR을 직접 필터링했을 때의 연산량과 비교하면 약 10분의 1 수준까지 절약할 수 있다. 관련하여, 상기 BRIR 파라미터화 과정은 도7 ~ 도8에서 상세히 후술하고자 한다.
도4(b)는 본 발명의 제1실시예에 따른 또 다른 디코더를 도시한 것이다. 도4(b)를 참조하면, 상기 디멀티플랙서(41, DeMUX), 3D 오디오 디코더(42, 3D Audio decoding), 바이너럴 랜더러(43, Binaural Rendering) 및 BRIR 파라미터부(46, BRIR parameterization)는 전술한 도4(a)와 동일하다. 단, 도4(a)에서 사용된 상기 BRIR 디코더(44, BRIR decoding) 및 상기 BRIR 선택부(45, BRIR selection)를 통합하여, BRIR 선택 디코더(47, BRIR selection & decoding)로 구성한다. 즉, 도4(b)는 사용자가 설정한 스피커 포맷 정보(Spk. Format Info)를 BRIR 선택 디코더(47)에서 수신하여 BRIR 디코딩시 필요한 BRIR만을 선택적으로 디코딩하는 것을 특징으로 한다.
도5는 본 발명의 제2실시예에 따른, BRIR 인코딩 과정을 도시한 것이다. 또한, 도6은 본 발명의 제2실시예에 따른, BRIR 디코딩 과정을 도시한 것이다. 즉, 전술한 BRIR 파라미터화(parameterization) 과정을 인코딩 과정에 미리 수행하는 것을 특징으로 한다.
도5를 참조하면, 본 발명의 제2실시예 따른, 인코딩 과정에는, 3D 오디오 인코더(51, 3D Audio Encoding) 뿐만 아니라 BRIR 파라미터부(52, BRIR parameterization) 및 BRIR 파라미터 인코더(53, BRIR parameter Encoding)를 포함한다. 즉, 상기 3D 오디오 인코더(51)를 통해 입력 오디오 신호를 인코딩 포맷에 맞게 인코딩할 뿐만 아니라, 상기 BRIR 파라미터부(52)로 입력되는 다수의 BRIR (BRIR1,BRIR2,…,BRIRN)에 대해서 BRIR 파라미터를 추출하는 파라미터화 과정을 거치고, 상기 BRIR 파라미터 인코더(53)는 상기 파라미터화된 BRIR데이터에 대해 인코딩을 수행한다. 인코딩된 오디오 데이터 및 BRIR 파라미터 데이터는 멀티플레서(54, MUX)에서 함께 팩킹(packing)되어 하나의 비트스트림으로 생성하여 송신한다.
도6은 본 발명의 제2실시예에 따른, BRIR 디코딩 과정을 도시한 것이다. 특히, 도6(a)는 모든 BRIR파라미터를 디코딩한후 원하는 BRIR 파라미터만을 선택하는 과정을, 도6(b)는 원하는 BRIR 파라미터를 선택한후 선택된 BRIR파라미터만을 디코딩하는 과정을 각각 도시한 것이다.
우선, 도6(a)를 참조하면, 본 발명의 제2실시예에 따른 디코더는 디멀티플랙서(61, DeMUX), 3D 오디오 디코더(62, 3D Audio decoding), BRIR 파라미터 디코더(64, BRIR parameter decoding), BRIR 파라미터 선택부(65, BRIR parameter selection) 및 바이너럴 랜더러(63, Binaural Rendering)를 포함한다. 즉, 도6(a)에서 비트스트림이 입력되면 상기 디멀티플랙서(61)에서 인코딩된 오디오 데이터와 BRIR 파라미터 데이터를 분리한다 다음 오디오 데이터는 상기 3D 오디오 디코더(62)로 입력되어서 디코딩된 후, 설정된 스피커 포맷(Spk. Format Info)에 맞춰서 랜더링된 오디오 신호를 출력한다. 상기 분리된 BRIR 파라미터 데이터는 상기 BRIR 파라미터 디코더(64)에 입력되어 BRIR 파라미터들로 복원된다. 이후 상기 복원된 BRIR 파라미터들은 상기 바이너럴 랜더러(63)를 통해 오디오 신호에 직접 적용되어 바이너럴 랜더링된(binaural rendered) 2채널 오디오 신호(OutL,OutR)을 출력한다.
도6(b)는 본 발명의 제2실시예에 따른 또 다른 디코더를 도시한 것이다. 도6(b)를 참조하면, 상기 디멀티플랙서(61, DeMUX), 3D 오디오 디코더(62, 3D Audio decoding) 및 바이너럴 랜더러(63, Binaural Rendering)는 전술한 도6(a)와 동일하다. 단, 도6(a)에서 사용된 상기 BRIR 파라미터 디코더(64, BRIR parameter decoding) 및 BRIR 파라미터 선택부(65, BRIR parameter selection) 를 통합하여, BRIR 파라미터 선택 디코더(66, BRIR parameter selection & decoding)로 구성한다. 즉, 도6(b)는 사용자가 설정한 스피커 포맷 정보(Spk. Format Info)를 BRIR 파라미터 선택 디코더(66)에서 수신하여 BRIR 디코딩시 필요한 BRIR 파라미터만을 선택적으로 디코딩하는 것을 특징으로 한다.
도7~도8은, 본 발명에 적용되는 BRIR 파라미터 추출 과정을 예를 들어 도시한 것이다. 관련하여, 전술한 BRIR 파라미터화(parameterization) 과정은 MPEG-H 3D Audio에서 사용하던 방법을 응용하여 활용하는 것이 가능하다. MPEG-H 3D Audio에서는 시간 축에서 수행되는 “Time domain binaural rendering”과 주파수 축에서 수행되는 “Frequency domain binaural rendering” 두 종류의 방법을 사용하고 있다. 따라서 상기 “Time domain binaural rendering” 방법이 사용될 때에는 파라미터들을 시간 도메인(time domain)의 BRIR을 분석하여 추출하게 되며, “Frequency domain binaural rendering” 방법이 사용될 때에는 파라미터들을 주파수 도메인(frequency domain)의 BRIR을 분석하여 추출하게 된다. 이하 이를 각각 분리하여 설명하고자 한다.
우선, 도7은 “Time domain binaural rendering”을 위해 추출되는 파라미터들을 설명하기 위해 도시한 것으로, 예를 들어, 시간 도메인에서 추출되는 파라미터들은 ‘Propagation delay’(71), ‘Direct filter block’(73, 이하, ‘direct block’), M개의 ‘diffuse filter block’(74, 75, 이하 ‘diffuse block’), 및 Diffuse filter에 적용되는 ‘보정 gain’을 포함할 수 있다.
상기 ‘Propagation delay’(71)은 BRIR의 직접음(direct sound)이 귀에 도달되는데 까지 소요되는 시간을 의미한다. 일반적으로 모든 BRIR이 서로 다른 전달 지연(propagation delay)을 가지므로, BRIR 들 중 가장 큰 전달 지연(propagation delay)을 전체 BRIR의 대표값으로 선택한다. 상기 ‘direct block’(73)은 각BRIR에 대해서 에너지(energy)를 분석해서 추출할 수 있는데, 사용자가 에너지의 문턱값(threshold)을 설정하여 도7과 같이 ‘direct block’(73)과 ‘diffuse block’(74, 75)로 나누어서 결정할 수 있다. 각 BRIR에서 ‘direct block’(73)이 선택되면, BRIR의 나머지는 모두 ‘diffuse block’(74, 75)로 간주되는데, 다른 문턱값(threshold)을 추가적으로 적용하여 ‘diffuse block’(74, 75)을 다시 세분화하여 총 M개로 나눌 수 있다. 상기 ‘diffuse block’(74, 75)은 ‘direct block’(73)에 비해 대략적인 특징만 유지해도 무관하므로, 연산상의 효율성을 위해 모든 BRIR들의 diffuse block들을 평균내어 하나의 대표 ‘diffuse block’으로 만드는 것도 가능하다. 만약 모든 BRIR의 ‘diffuse block’들을 하나의 대표 ‘diffuse block’을 간주하면 기존의 ‘diffuse block’의 게인(gain)과 일치하지 않는 문제가 발생할 수 있으므로, 이러한 문제를 보완하기 위해 추가적으로 보정 게인을 계산하여 파라미터로 추출한다. 따라서 이와 같은 방식으로 파라미터화(parameterization) 과정을 수행하면, 상기 전술한 4가지 종류의 파라미터를 추출할 수 있다.
추출된 파라미터들은 바이너럴 랜더링시에 적용된다. 각 BRIR에서 추출된 ‘direct block’(73)들은 각 랜더링에 적용하기 위해 패스트 컨벌루션(fast convolution)을 수행하고, 연산량을 고려하여 만들어진 대표 ‘diffuse block’을 사용하기 위해서는, 상기 오디오 신호를 모노 채널(mono channel)로 다운믹스(downmix)한 다음, 상기 ‘diffuse block’과 패스트 컨벌루션(fast convolution)을 수행한다. 단, 상기 다운믹스(downmix) 과정에 사용되는 다운믹스 계수(coefficient)는 상기 파라미터로 추출된 보정 게인(gain)을 사용하는 것이 바람직하다.
도8은 “Frequency domain binaural rendering”을 위해 추출되는 파라미터들을 설명하기 위해 도시한 것으로, 예를 들어, 주파수 도메인에서 추출되는 파라미터들은, ‘Propagation time’, ‘VOFF parameters (VOFF coefficient, VOFF 필터 길이, band당 FFT size 및 block 수 표현)’, ‘SFR parameter(이는 Reverberator parameters 라고도 하며, late reverberation가 사용될 band 수, late reverberation가 사용되는 band의 중심주파수, 잔향 시간, 에너지 표현)’ 및 ‘QTDL parameters (QTDL gain, QTDL time lag)’를 포함할 수 있다.
지연시간 계산부(81, propagation time calculation)는 시간 도메인상의 BRIR ‘propagation time’을 계산한다. 상기 ‘propagation time’은 전술한 도7의 시간 도메인 파라미터화 과정에서 추출했던 ‘propagation delay’와 의미가 같다. 주파수 도메인에서도 상기 ‘Propagation time’ 파라미터를 추출하기 위해 BRIR의 에너지를 계산해서 지연 시간(propagation time)을 구한다.
필터 컨버터(82, filter converter)는 QMF 도메인 BRIR을 생성한다. 일반적으로 BRIR에는 직접음(direct), 초기 반향음(early reflection)과 후기 잔향음(late reverberation) 성분이 포함되어 있다. 각 성분들은 서로 다른 특성을 가지고 있어서 바이너럴 랜더링시 서로 다른 방법을 이용하여 처리된다. BRIR을 QMF domain으로 표현하면, 상기 바이너럴 랜더링시 각 성분에 대한 3가지 프로세싱(processing) 방법이 각각 사용되고 있는 것을 확인할 수 있다. 저주파의 QMF band에서는 VOFF(Variable order filtering in frequency domain) 프로세싱(VOFF 파라미터 사용)과 SFR(Sparse frequency reverberator) 프로세싱 (‘reverberation’ 파라미터 사용)이 동시에 사용된다. 상기 각 프로세싱 과정은 BRIR의 ‘direct & early reflection’과 ‘late reverberation’ 영역을 필터링하기 위해 사용된다.
VOFF 파라미터 생성부(83, VOFF parameter generation)는, 각 주파수 밴드(band)에 대해서 BRIR의 EDC(energy decay curve)를 분석해서 VOFF 파라미터들을 추출한다. 상기 EDC(energy decay curve)는 시간 변화에 따라서 BRIR의 에너지를 누적시켜서 계산된 정보이다. 따라서 해당 정보를 분석하면 BRIR의 초기 반향음(early reflection) 영역과 후기 잔향음(late reverberation) 영역을 구분 지을 수 있다. 상기 EDC(energy decay curve)를 통해 초기 반향음(early reflection)과 후기 잔향음(late reverberation) 영역이 정해지면, 각각을 VOFF 프로세싱 및 SFR 프로세싱 영역으로 지정하여 수행하게 된다. BRIR의 QMF domain에서 VOFF 프로세싱할 영역에 해당되는 계수(coefficient) 정보를 추출할 수 있다.
SFR 파라미터 생성부(84, SFR parameter generation)는 상기 SFR 프로세싱을 통해 후기 잔향음(late reverberation) 표현에 사용되는, 사용 밴드 수, 밴드 중심 주파수, 잔향 시간, 에너지 등을 파라미터로 추출하는 과정이다. 관련하여, 상기 SFR 프로세싱이 사용되는 영역(즉 반향 파라미터(reverberation parameter)가 사용되는 영역)에 대해서는 필터링(filtering)을 해도 잘 인지되지 못하기 때문에, 정확한 필터 계수를 추출하는 대신 후기 잔향음(late reverberation, 즉 SFR processing이 될 영역)의 EDC를 분석하여 에너지 및 잔향 시간 등과 같은 주요한 정보들만을 추출한다.
또한, QTPL(QMF domain Tapped-Delay Line) 파라미터 생성부(85, QTPL parameter gerneration)는, VOFF 및 SFR 프로세싱이 수행되지 않는 밴드(band)에 대해서 QTPL프로세싱을 수행한다. QTDL 프로세싱도 개략적 필터링(filtering) 방법중 하나이므로, 필터 계수(filter coefficient) 대신 QMF band 별로 가장 주요한 하나의 게인(gain) 성분(일반적으로 가장 큰 gain 성분)과 해당 성분의 위치 정보를 파라미터로 사용한다.
바이너럴 랜더링(Binaural rendering)시 VOFF 프로세싱이 수행되는 영역에 대해서는 VOFF 계수를 랜더링된 신호(rendered signal)에 적용하기 위해 FFT 기반의 패스트 컨벌루션(fast convolution)을 수행한다. 또한, SFR 프로세싱이 수행되는 영역은 잔향 시간 및 밴드(band)의 에너지를 참조하여 인공 반향(artificial reverberation)을 생성하고, 이를 랜더링된 신호(rendered signal)에 컨벌루션(convolution) 한다. 또한, QTDL 프로세싱이 수행되는 밴드(band)에 대해서는 추출된 게인 정보를 랜더링된 신호에 직접 적용한다. 일반적으로 QTDL은 고주파 밴드에 대해서만 수행되고, 사람은 고주파 성분을 인지하는 분해능이 떨어지므로, 고주파 QMF 밴드에 대해서는 매우 개략적으로 필터링(filtering)하는 것이 가능하다.
“Frequency domain parameterization”은 각 주파스 밴드 단위로 파라미터들이 추출된다. 전체 주파수 밴드중에서 VOFF 프로세싱과 SFR 프로세싱을 수행할 밴드를 직접 선택할 수 있기 때문에, 여기서 선택된 밴드 수에 따라 나머지 밴드에 대해서 자동적으로 QTDL 프로세싱을 수행한다. 또한, 극고주파 대역은 어떠한 처리도 하지 않도록 설정할 수 있다. 모든 밴드에 대해서 VOFF, SFR 혹은 QTDL 파라미터가 추출되기 때문에, 시간 도메인 파라미터화(parameterization) 과정에서 추출된 파라미터들에 비해서 훨씬 많은 파라미터들이 추출된다.
상기 파라미터 생성부(81, 82, 83, 84, 85)를 통해 생성된 BRIR 파라미터들은 다른 정보들과 멀티플랙서(86, MUX)에서 멀티플랙싱되어 바이너럴 랜더러를 위한 BRIR 파라미터 데이터로 활용된다.
도9는 본 발명의 제3실시예에 따른, RIR 인코딩 과정을 도시한 것이다. 또한, 도10은 본 발명의 제3실시예에 따른, RIR 디코딩 과정을 도시한 것이다.
제작자가 VR audio 컨텐츠를 제작하면서 함께 제작 혹은 측정한 BRIR을 송신단에서 오디오 신호와 비트스트림에 담아서 전송할 경우, 사용자는 수신된 오디오 신호로부터 BRIR을 필터링하여서 VR 오디오 컨텐츠를 제작자가 의도한 환경에서 경험할 수 있게 된다. 하지만 일반적으로 송신단에서 전송된 BRIR은 제작자 혹은 더미 헤드(Dummy head)등을 이용하여 측정되었을 가능성이 높으므로, 송신된 BRIR이 현재 사용자 양이의 고유 특징을 제대로 반영했다고 생각할 수 없다. 따라서 수신단에서 모든 사용자에게 적합한 BRIR이 적용될 수 있는 방법이 필요하다. 본 발명 제3 실시예는는 VR 컨텐츠를 경험하는 모든 사용자가 자신에게 최적화된 BRIR을 적용시킬 수 있도록, BRIR 대신 RIR을 인코딩하여 전송한다.
도9를 참조하면, 본 발명의 제3실시예 따른, 인코딩 과정에는, 3D 오디오 인코더(91, 3D Audio Encoding) 뿐만 아니라 RIR 인코더(92, RIR Encoding)를 포함한다. 즉, 상기 3D 오디오 인코더(91)를 통해 입력 오디오 신호를 인코딩 포맷에 맞게 인코딩할 뿐만 아니라, 상기 RIR 인코더로 다수의 RIR (RIR1,RIR2,…,RIRN)에 대해서 RIR 인코딩을 수행한다. 인코딩된 오디오 데이터 및 RIR 데이터는 멀티플레서(93, MUX)에서 함께 팩킹(packing)되어 하나의 비트스트림으로 생성하여 송신한다.
관련하여, 상기 도9에서 사용되는 RIR 은 BRIR과 마찬가지로 3D Audio 부호화/복호화 기기에서 지원하는 스피커 포맷 환경에서 측정된 응답이지만, RIR에는 사용자 멍\리 특성 보다는 공간 특성만 반영되어 있다. 따라서 도9에서 입력되는 RIR의 수는 채널 개수와 같다. 예를 들어, 22.2채널 환경에서 제작된 오디오 신호가 입력되면, RIR 인코더(92, RIR encoder)에는 총 22개의 RIR이 입력된다.
도10은 본 발명의 제3실시예에 따른 RIR 디코딩 과정을 도시한 것이다. 특히, 도10(a) 모든 RIR을 디코딩한후 원하는 RIR만을 선택하는 과정을, 도10(b)는 원하는 RIR을 선택한후 선택된 RIR만을 디코딩하는 과정을 도시한 것이다.
우선, 도10(a)를 참조하면, 본 발명의 제3실시예에 따른 디코더는 디멀티플랙서(101, DeMUX), 3D 오디오 디코더(102, 3D Audio decoding), RIR 디코더(104, RIR decoding), RIR 선택부(105, RIR selection) 및 BRIR 데이터를 활용한 바이너럴 랜더러(103, Binaural Rendering)를 포함한다. 또한, 본 발명의 제3실시예에 따른 디코더는, HRIR 데이터베이스(DB) 및 사용자 머리 관련 정보(user head info.)를 입력 받아, HRIR 데이터를 생성하는 HRIR 선택부(107, HRIR selection) 및 HRIR 모델링부(108,HRIR modeling)을 포함한다. 또한, 본 발명의 제3실시예에 따른 디코더는, 상기 RIR 데이터 및 HRIR 데이터를 합성하여 상기 바이너럴 랜더러(103)에서 활용되는 BRIR 데이터를 생성하는 BRIR 합성부(106, Synthesizing)을 더 포함한다. 이를 구체적으로 설명하면 다음과 같다.
비트스트림이 입력되면 상기 디멀티플랙서(101)에서 오디오 데이터와 RIR 데이터가 분리된다. 다음, 분리된 오디오 데이터는 3D 오디오 디코더(102)로 입력되어 설정된 스피커 포맷(Spk. Format Info)에 대응하도록 랜더링된 오디오 신호로 디코딩되고, 상기 분리된 RIR data는 상기 RIR 디코더(104)로 입력되어 디코딩된다.
관련하여, 상기 HRIR 선택부(107) 및 HRIR 모델링부(108)는 컨텐츠를 이용하는 사용자의 양이 특징 정보를 반영하기 위해 디코더에서 별도로 추가한 부분이다.상기 HRIR 선택부(107) 는 사전에 다양한 사용자의 HRIR DB를 보유하고 있고, 외부에서 추가적으로 입력된 사용자의 머리 관련 정보(User head information)를 참조해서 사용자에게 가장 적합한 HRIR을 선택하여 출력하는 모듈이이다. 상기 HRIR DB는 각각의 사용자마다 방위각 0˚~ 360˚및 고도각 -90˚~90˚ 범위에서 측정되었다고 가정한다. HRIR 모델링부(108)는 상기 사용자의 머리 관련 정보 및 음원의 방향 정보(예를 들어, 스피커의 위치 정보)를 참조하여서 사용자에게 적합한 HRIR을 모델링하여 출력하는 모듈이다.
본 발명의 제3실시예에 따른 디코더에서는, 상기 HRIR 선택부(107) 및 HRIR 모델링부(108) 중 어느 하나를 선택하여 사용할 수 있다. 예를 들어, 도10(a), (b)에서, 스위치를 구비하여 ‘y’패스는 상기 HRIR 선택부(107, HRIR selection module)의 출력을, ‘n’ 패스는 상기 HRIR 모델링부(108, HRIR modeling module)의 출력을 사용하도록 설정하는 것이 가능하다. 상기 두 모듈중 하나가 선택되면, 설정된 출력 스피커 포맷에 맞는 HRIR 쌍이 출력된다. 예를 들어, 설정된 출력 스피커 포맷이 5.1채널이라고 가정하면, HRIR 선택부(107, HRIR selection module) 혹은 HRIR 모델링부(108, HRIR modeling module)는 스피커 위치에 해당되는 5쌍(HRIR1 _L,HRIR1 _R,…,HRIR5 _L,HRIR5 _R)의 HRIR을 출력한다. 상기 스피커 포맷 정보(Spk. Format Info)는 상기 RIR 선택부(105, RIR selection)에서도 참조되어 관련된 RIR들(예를 들어, 설정된 스피커 포맷 위치에서 측정된 RIR)만 출력되도록 할 수 있다. 마찬가지로, 설정된 출력 스피커 포맷이 5.1채널이라고 가정하면 총 5개의 RIR(RIR1,RIR2,…,RIR5)이 출력된다. 출력된 HRIR쌍들과 RIR들은 상기 BRIR 합성부(106, Synthesizing)에서 합성되어서 BRIR이 생성된다. 상기 BRIR 합성부(106)를 통한 합성(Synthesizing) 과정에서는, 같은 스피커 위치에 대응되는 HRIR쌍과 RIR만이 사용될 수 있다. 예를 들어, 5.1채널 스피커 포맷을 참조하여 준비된 5쌍의 HRIR과 RIR은 합성시 RIR1은 HRIR1 _L과 HRIR1 _R에만 적용되어서 BRIR쌍 BRIR1 _L과 BRIR1_R을 출력하고, RIR5는 HRIR5 _L과 HRIR5 _R에만 적용되어서 또 다른 BRIR쌍인 BRIR5 _L과 BRIR5 _R을 출력하는 것이 가능하다. 따라서 스피커 포맷이 5.1채널로 설정되었을 경우, 총 5쌍의 BRIR이 합성(Synthesizing)되어 출력된다. 출력된 다수의 BRIR쌍은 상기 바이너럴 랜더러(103, Binaural Rendering)에서 오디오 신호에 필터링되어 최종 랜더링된 오디오 신호(binaural rendered signa, OutL/OutR )을 출력한다.
도10(b)는 본 발명의 제3실시예에 따른 또 다른 디코더를 도시한 것이다. 도10(b)를 참조하면, 상기 디멀티플랙서(101, DeMUX), 3D 오디오 디코더(102, 3D Audio decoding), 바이너럴 랜더러(103, Binaural Rendering), HRIR 선택부(107, HRIR selection), HRIR 모델링부(108,HRIR modeling) 및 BRIR 합성부(106, Synthesizing)는 전술한 도10(a)와 동일하다. 단, 도10(a)에서 사용된 상기 RIR 디코더(104, RIR decoding) 및 RIR 선택부(105, RIR selection)를 통합하여, RIR 선택 디코더(109, RIR selection & decoding)로 구성한다. 즉, 도10(b)는 사용자가 설정한 스피커 포맷 정보(Spk. Format Info)를 RIR 선택 디코더(109)에서 수신하여 필요한 RIR만을 선택적으로 디코딩하는 것을 특징으로 한다.
도11은 본 발명의 제4실시예에 따른, RIR 인코딩 과정을 도시한 것이다. 또한, 도12는 본 발명의 제4실시예에 따른, RIR 디코딩 과정을 도시한 것이다. 본 발명의 제4실시예는 전술한 도10~도11(제3 실시예)에, RIR 파라미터화(parameterization) 과정을 인코딩 과정에 미리 수행하는 것을 특징으로 한다.
인코더로 입력되는 RIR들도 연산량의 효율성을 위해 RIR의 주요 특징 정보들을 파라미터로 추출해서 인코딩할 수 있다. 따라서 디코더에서 RIR들은 파라미터 형태로 복원되기 때문에 HRIR의 필터 계수(filter coefficient)들과 직접 합성(synthesizing)을 할 수 없다. 본 발명의 제4실시예에서는 RIR 파라미터들의 인코딩 및 디코딩 방법을 VR 오디오 디코딩에 적용하기 위한 방안을 제시한다.
도11을 참조하면, 본 발명의 제4실시예 따른, 인코딩 과정에는, 3D 오디오 인코더(111, 3D Audio Encoding) 뿐만 아니라 RIR 파라미터부(112, RIR parameterization) 및 RIR 파라미터 인코더(113, RIR parameter Encoding)를 포함한다. 즉, 상기 3D 오디오 인코더(111)를 통해 입력 오디오 신호를 인코딩 포맷에 맞게 인코딩할 뿐만 아니라, 상기 RIR 파라미터부(112)로 입력되는 다수의 RIR (RIR1,RIR2,…,RIRN)에 대해서 RIR 파라미터를 추출하는 파라미터화 과정을 거치고, 상기 RIR 파라미터 인코더(113)는 상기 파라미터화된 RIR데이터에 대해 인코딩을 수행한다. 인코딩된 오디오 데이터 및 RIR 파라미터 데이터는 멀티플레서(114, MUX)에서 함께 팩킹(packing)되어 하나의 비트스트림으로 생성하여 송신한다. 이를 구체적으로 설명하면 다음과 같다.
도11의 RIR 파라미터화(parameterization) 과정은, 전술한 도5의 BRIR 파라미터화(parameterization) 과정과 유사하다. 즉, RIR의 응답은 BRIR처럼 ‘direct’, ‘early reflection’과 ‘late reverberation’ 성분으로 구성되어 있다. 이는 RIR 응답은 시간 도메인에서는 전술한 도7과 유사한 방식을 적용할 수 있고, 주파스 도메인(예를 들어, QMF domain)에서는 도8과 유사한 방식을 적용할 수 있다. 즉, 전술한 BRIR 파라미터화(parameterization) 과정을 RIR 파라미터들을 추출할 때 동일하게 사용해도 무방하게 된다. 따라서 도11의 상기 RIR 파라미터 생성부(112)에서도 시간 도메인 파라미터화(time domain parameterization)과 주파수 도메인 파라미터화(frequency domain parameterization) 방식을 사용하여 파라미터들을 추출할 수 있다. 추출된 파라미터들은 RIR 파라미터 인코더(113)로 입력되어 인코딩된다. 또한, RIR 파라미터를 인코딩시에도, 전술한 도5의 BRIR 파라미터를 인코딩할 때와 동일한 방식을 사용하는 것이 가능하다. 상기 인코딩된 RIR 파라미터 데이터는 상기 인코딩된 오디오 데이터와 멀티플랙싱(multiplexing)되어 비트스트림으로 전송된다.
도12는 본 발명의 제4실시예에 따른, RIR 디코딩 과정을 도시한 것이다. 특히, 도12(a)는 원하는 BRIR 파라미터를 선택한후 선택된 BRIR파라미터만을 디코딩하는 과정을, 도12(b)는 모든 BRIR파라미터를 디코딩한후 원하는 BRIR 파라미터만을 선택하는 과정을 각각 도시한 것이다.
우선, 도12(b)를 참조하면, 본 발명의 제2실시예에 따른 디코더는, 디멀티플랙서(121, DeMUX), 3D 오디오 디코더(122, 3D Audio decoding), RIR 파라미터 디코더(128, RIR parameter decoding), RIR 파라미터 선택부(129, RIR parameter selection) 및 바이너럴 랜더러(123, Binaural Rendering)를 포함한다. 또한, 본 발명의 제4실시예에 따른 디코더는, HRIR 데이터베이스(DB) 및 사용자 머리 관련 정보(user head info.)를 입력 받아, HRIR 데이터를 생성하는 HRIR 선택부(126, HRIR selection) 및 HRIR 모델링부(127,HRIR modeling)을 포함한다. 또한, 본 발명의 제4실시예에 따른 디코더는, 상기 HRIR 데이터를 활용하여 바이너럴 랜더링을 수행하되, 상기 바이너럴 랜더러(123)의 출력신호에 대해, 상기 RIR 데이터를 합성하여 최종 랜더링된 2채널 오디오 신호(OutL,OutR)를 출력하는 합성부(124, Synthesizing)를 더 포함한다.
도12(a)는 본 발명의 제4실시예에 따른 또 다른 디코더를 도시한 것이다. 도12(a)를 참조하면, 상기 디멀티플랙서(121, DeMUX), 3D 오디오 디코더(122, 3D Audio decoding), 바이너럴 랜더러(123, Binaural Rendering), HRIR 선택부(126, HRIR selection), HRIR 모델링부(127,HRIR modeling) 및 합성부(124, Synthesizing)는 전술한 12(b)와 동일하다. 단, 도12(a)는, 도12(b)에서 사용된 상기 RIR 파라미터 디코더(128, RIR parameter decoding) 및 RIR 파라미터 선택부(129, RIR parameter selection) 를 통합하여, RIR 파라미터 선택 디코더(125, RIR parameter selection & decoding)로 구성한다. 즉, 도12(a)는 사용자가 설정한 스피커 포맷 정보(Spk. Format Info)를 RIR 파라미터 선택 디코더(125)에서 수신하여 RIR 디코딩시 필요한 RIR 파라미터만을 선택적으로 디코딩하는 것을 특징으로 한다. 이를 구체적으로 설명하면 다음과 같다.
도12(a)에서는 VR 오디오 재생을 위한 전체 디코딩 및 랜더링 과정을 도시하였다. 디코더로 입력된 비트스트림은 상기 디멀티플랙서(121, DeMUX)에서 오디오 데이터와 RIR 파라미터 데이터로 분리한다. 상기 RIR 파라미터 데이터는 RIR 파라미터 선택 디코더(125)에서 디코딩 되어 RIR 파라미터들로 복원된다.
상기 HRIR데이터는 HRIR 선택부(126, HRIR selection) 및 HRIR 모델링부(127,HRIR modeling) 중 한 가지 방법을 이용해서 얻을 수 있다. 상기 두 모듈(126, 127)은 모두 사용자의 머리 정보 및 스피커 포맷 정보 등을 입력 정보로 참조하여 사용자에게 가장 적합한 HRIR을 제공하고 자 한다. 따라서, 스피커 포맷이 5.1채널로 선택되면 총 5쌍(HRIR1 _L,HRIR1 _R,…,HRIR5 _L,HRIR5 _R)의 HRIR이 만들어져서 제공된다. 이후, 제공된 HRIR쌍들은 3D 오디오 디코더(122)에서 스피커 포맷을 참조하여 출력된 디코딩된 오디오 신호에 적용된다. 예를 들어, 선택된 스피커 포맷이 5.1채널이라고 가정하면, 5개의 채널(channel) 신호와 1개의 우퍼(woofer) 신호가 상기 3D 오디오 디코더(122)에서 랜더링(rendering)되어 출력되는데, HRIR 쌍들은 설정된 스피커 포맷 위치에 대응하여 적용된다. 즉, 5.1채널의 출력 신호들을 순서대로 S1,S2,…,S5라고 가정한다면 (우퍼 제외), HRIR1 _L과 HRIR1 _R은 S1에만 필터링하여, SH1 _L과 SH1 _R을 출력하고, HRIR5 _L과 HRIR5 _R은 S5에만 필터링하여 SH5 _L과 SH5 _R을 출력한다.
상기 바이너럴 랜더러(123, Binaural Rendering) 에서 출력된 신호들을 바로 헤드폰을 이용하여 재생하더라도, 3차원 오디오를 경험 할 수 있지만, 이는 사용자의 양이의 특징 정보만 반영되었기 때문에 현장감이 떨어질 수 있다. 따라서 상기 바이너럴 랜더러(123)에서 출력된 신호에 현장감을 적용하기 위해서는 RIR 응답의 특징 정보를 추출한 파라미터들을 적용할수 있다. 도12 상기 합성부(124, Synthesizing)에서 HRIR만이 필터링된 신호(SH1 _L,SH1 _R,…,,SH5 _L,SH5 _R)에 RIR 파라미터들을 적용하여 더욱 현장감이 있는 오디오 신호를 출력한다.
상기 합성부(124)의 입력으로 사용되는 RIR 파라미터들은 예를 들어, 모든 디코딩된 RIR 파라미터들을 디코딩한후 재생 스피커 포맷을 참조하여 선택하거나(도12(b), 128, 129), 또는 재생 스피커 포맷을 참조하여 우선 RIR 파라미터를 선택한후 디코딩하게 된다(도12(a), 125)된다. 상기 선택된 파라미터들은 상기 합성부(124, Synthesizing)에서 바이너럴 랜더링된 신호에 적용된다.
이하, 도13을 참조하여, 본 발명에 적용되는 상기 합성부(124)의 합성 과정을 설명한다. 우선, 상기 RIR 파라미터를 적용할 때에도 스피커 포맷 위치에 대응하여 적용시키는 것이 바람직하다. 예를 들어, 5.1채널 스피커 포맷에 의해 선택된 RIR 파라미터들을 각각 PRIR1,PRIR2,…,PRIR5라고 한다면(131), PRIR1은 SH1 _L과 SH1_R에만 적용시켜 SHR1 _L과 SHR1 _R을 출력하고, PRIR5 _R는 SH5 _L과 SH5 _R에만 적용시켜 SHR5 _L과 SHR5 _R을 출력한다. 이후, SHR1 _L,…,SHR5 _L더해지고(132) 게인 정규화(133, gain normalization)을 거쳐서 최종 신호 OutL로 출력된다. 또한, SHR1 _R,…,SHR5 _R이 더해지고(132) 게인 정규화(133, gain normalization)을 거쳐서 최종 신호 OutR로 출력된다. 상기 오디오 출력 신호(OutL,OutR)는 사용자 고유의 머리 특징 정보가 반영되었을 뿐만 아니라, 제작자가 의도한 공간 정보도 반영되어서 사용자는 더욱 현장감 높은 3차원 오디오를 경험할 수 있게 된다.
관련하여, 전술한 본 발명의 제1실시예~제4실시예에 적용된, BRIR 및 RIR의 전송 방식은 3DoF에서만 유효한 경우이다. 즉, 사용자의 위치가 고정되었을 경우에 대해서만 3차원 오디오를 경험할 수 있다. BRIR 및 RIR을 6DoF 에서도 사용하기 위해서는, 즉, 임의의 공간상에서 자유롭게 이동하며 3차원 오디오를 경험하기 위해서는 사용자가 움직일 수 있는 범위에 대해서 모든 BRIR/RIR이 측정되어야 하며, VR 오디오 부호화/복호화 기기에서는 사용자의 위치 변화 정보를 감지하여, 사용자의 위치 변화에 따라 적합한 BRIR/RIR을 오디오 신호에 적용시켜주어야 한다. 도 14는 본 발명에 적용되는 3DoF와 6DoF를 설명하기 위해 도시한 것이다. 특히, 도14는 3DoF와 6DoF에서 사용자가 움직일 수 있는 범위를 직관적으로 도시한 것이다.
도 14는 예를 들어, 10.2 채널 스피커 환경에 대해서 도시하였다. 도14(a)는 3DoF 환경에서 사용자가 움직일 수 있는 범위를 도시한 것이다. 또한, 도14(b)는 6DoF 환경에서 사용자가 움직일 수 있는 범위를 도시한 것이다.
즉, 도14(a)에서는 사용자가 움직일 수 있는 범위가 한 위치(141)에만 고정되어 있는 반면, 도14(b)에서는 고정된 위치(141)뿐만 아니라, 멀티 채널 스피커가 둘러싸고 있는 다양한 위치(142, 점으로 표시된 모든 부분)로 어디든지 이동할 수 있음을 도시한 것이다. 따라서 VR Audio 부호화/복호화 기기가 6DoF를 지원하기 위해서는 상기 도14(b)에 예를 들어 도시된 무수히 많은 위치(142)에서 측정된 BRIR/RIR이 필요하게 된다. 관련하여, 도14(a)와 도14(b)를 참조하여, 10.2 채널 스피커 환경에서 BRIR/RIR을 측정하는 방법을 설명하면 다음과 같다.
도14에서의 작은 점들이 BRIR/RIR들이 측정된 지점으로 이해할 수 있다. 도14(b)는 측정되는 지점이 많아서 레이어(layer)별로 달리하여 측정 지점들을 구분하였다. 도14(b)에서는 BRIR/RIR의 측정 지점이 총3개의 레이어(143, 144, 145)만 도시하였지만, 이는 일예레 불과하고, 레이어와 레이어 사이에서도 측정이 이루어질 수 있다. 일반적으로 스피커들은 서브 우퍼 스피커를 제외하고는, 사용자 위치를 중심으로 모두 같은 거리에 배치된다. 따라서 사용자는 모든 스피커로부터 중심에 있다고 가정하고, 3DoF VR audio를 경험하고자 할 경우에는 도14(a)와 같이 BRIR/RIR을 한 위치(141)에서만 측정을 하는 것이 가능하다. 단, 6DoF VR audio를 경험하고자 할 경우에는 도14(b)와 같이 스피커들이 둘러싸고 있는 범위 내에서 동일 간격으로 BRIR/RIR을 측정하는 것이 필요하다. 6DoF는 3DoF와 달리 수평면뿐만 아니라, 수직면에 대해서도 BRIR/RIR을 측정해야 한다. 측정된 BRIR/RIR들이 많으면 많을수록 높은 성능을 기대할 수 있지만, BRIR/RIR 사용시의 연산량 및 저장 공간의 효율성을 고려하여 적절한 간격을 확보하는 것이 필요할 것이다.
비록 임의의 공간에 무수히 많은 위치에서 BRIR/RIR들이 제작자에 의해 측정 혹은 제작되지만, 사용자의 6DoF 재생 환경은 제작자가 BRIR/RIR을 제작했을 때의 환경과 다를 수 있다. 예를 들어, 제작자는 스피커 포맷 규격을 감안하여 사용자와 스피커간의 거리를 1m로 설정하고 BRIR/RIR을 측정한 반면에(사용자가 반경 1m 내에서만 움직인다고 가정하여 측정), 사용자는 1m 이상을 움직일 수 있는 공간에 있다고 생각할 수 있다. 여기서는 편의상 사용자가 움직일 수 있는 범위를 반경 2m 이내라고 가정한다. 따라서 제작자가 측정한 응답 환경에 비해서 사용자의 공간이 두 배 넓다. 이러한 경우를 감안하여 BRIR/RIR이 측정된 위치 정보와 사용자가 이동할 수 있는 거리 정보를 참조하여 측정된 응답 특성을 변형시킬 수 있어야 한다. 관련하여, 상기 응답 특성은 다음과 같이 두 가지 방법을 이용하여 변경시킬 수 있다. 첫 번째는 BRIR/RIR의 응답 게인(gain)을 변경시키는 방법이며, 두 번째는 BRIR/RIR의 Direct/Reverberation(D/R) 비율(ratio)를 조절하여 응답 특성을 변경시키는 방법이다.
상기 첫 번째 방법은 사용자의 재생 환경 기준으로 고려했을 때 제작자의 응답 측정 환경에 비해서 모든 측정된 응답의 거리가 최대 2배 멀어졌다고 생각할 수 있으므로, 음원의 크기는 거리 제곱에 반비례한다는 역제곱법칙(inverse square law)을 적용하여 측정된 응답 게인을 변경한다. 상기 역제곱법칙(Inverse square law)을 적용한 수식은 기본적으로 식 (1)과 같다.
[규칙 제91조에 의한 정정 18.01.2018] 
Figure WO-DOC-FIGURE-1
식 (1)
식 (1)에서 Gain1과 Dist1은 제작자에 의해 측정된 응답의 게인과 음원간의 거리를 의미하며, Gain2와 Dist2는 변경된 응답의 gain과 음원간의 거리를 의미한다. 따라서 식 (2)를 이용하면 변경된 응답의 게인을 구할 수 있게 된다.
[규칙 제91조에 의한 정정 18.01.2018] 
Figure WO-DOC-FIGURE-2
식 (2)
상기 두 번째 방법은 아래 식 (3)의 D/R ratio의 비율을 변경시키는 방법이다.
[규칙 제91조에 의한 정정 18.01.2018] 
Figure WO-DOC-FIGURE-3
식 (3)
상기 식(3)을 보면 D/R ratio의 분자는 ‘direct part’의 파워, 분모는 ‘early reflection part’와 ‘late reverberation part’의 파워를 의미한다. h(t)는 BRIR/RIR의 응답을, t1은 응답이 측정되기 시작해서 ‘direct part’가 측정될 때까지 소요된 시간을 의미한다. 보통 D/R ratio는 dB 단위로 계산된다. 식에서 볼 수 있듯이, D/R ratio는 ‘direct part’의 파워 PD와 ‘early reflection part’ 와 ‘late reverberation part’의 파워 PR의 비율로 제어된다. 이 비율을 변경시켜줌으로써 BRIR/RIR의 특성을 변화하여 거리감을 변경시켜줄 수 있다.
상기 D/R ratio를 조절하는 방법은 거리 랜더링(distance rendering)할 때 사용되는 대표적인 방법으로도 적용할 수 있다. 만약 사용자와 음원 간의 거리를 가까워지도록 변화시키고 싶으면 응답의 ‘direct part’의 게인을 크게 조절하고, 멀어지도록 변화시키고 싶으면 ‘direct part’의 게인을 작게 조절하여 거리감을 변경시킬 수 있다. 일반적으로 거리가 두 배 멀어질 경우, D/R ratio는 6dB 감소한다. 따라서 앞에서 가정한 경우와 같이 사용자가 이동 가능한 범위가 제작자가 측정한 범위에 비해서 2배 넓을 경우, 기존의 측정된 BRIR/RIR의 응답 특성을 좀 더 먼 곳에서 측정된 것처럼 변경시키기 위해 기존에 측정된 BRIR/RIR의 ‘direct part’의 파워는 3dB 작게, 혹은 ‘early reflection’과 ‘late reverberation part’의 파워는 3dB 크게 조절해줌으로써 BRIR/RIR의 특성을 변경시킬 수 있다. 사용자가 D/R ratio를 사용하여 거리감을 변경시킬 것을 감안하여, 제작자는 모든 BRIR/RIR의 t1 값(응답의 시작부터 direct part가 측정되는데 걸리는 시간)을 미리 제공한다던가, 전술한 파라미터화(parameterization) 방법을 이용하여 모든 BRIR/RIR의 t1 정보를 추출하여 이용할 수도 있다. 이하, 본 발명에 따른, 6DoF 환경에서, BRIR/RIR을 효율적으로 사용하기 위한, 다양한 실시예를 설명하고자 한다.
도15는 본 발명의 제5실시예에 따른, 6DoF 환경에서 BRIR 인코딩 과정을 도시한 것이다. 또한, 도16은 본 발명의 제5실시예에 따른, 6DoF 환경에서 BRIR 디코딩 과정을 도시한 것이다.
도15에 도시된 전체적인 인코딩 모듈 및 과정은 전술한 도2의 3DoF환경에서의 과정과 유시하다. 우선, 3D 오디오 디코더(151, 3D Audio encoding)는 입력되는 오디오 신호를 인코딩하여 인코딩된 오디오 신호를 생성한다. 단, BRIR 인코더(152, BRIR encoding)로 입력되는 BRIR들은 한 지점(3DoF)에 대한 BRIR이 아닌 도14(b)와 같이 여러 지점(6DoF)에서 측정된 다량의 BRIR들이 입력된다. 예를 들어, 5.1채널 스피커 환경에서 총 10개 지점에 대한 BRIR이 측정되었다면, 상기 BRIR 인코더(152, BRIR encoding)으로 입력되는 BRIR은 총 100개(2x5x10, 우퍼스피커에 대한 응답 제외)가 된다. 상기 BRIR 인코더(152)로 입력되는 BRIRLn _ di는 공간상에 설치된 임의의 스피커 포맷 환경에서 임의의 지점 di에서 n번째 스피커에 대한 왼쪽 귀에 대한 BRIR 응답을 의미한다. 3DoF와 달리 6DoF에서 encoding할 때에 추가적으로 BRIR 설정 정보(154, BRIR configuration information)이 입력되는 바, 상기 정보에는 상기 BRIR 인코더(152)로 입력되는 BRIR들의 위치 정보, 응답 특징 정보 (예를 들어, 식(3)의 t1 정보, 잔향시간, 등), 그리고 BRIR이 측정되었던 공간 특징 정보(예를 들어, 공간의 구조 및 크기)를 포함하고 있다. 상기 BRIR 인코더(152)에서는 3DoF 에서 인코딩했을 때와 동일한 인코딩 방법을 이용하여 인코딩할 수 있다. 이후, 모든 지점에 대한 BRIR들이 인코딩 되면 멀티플랙서(153, MUX)에서 상기 인코딩된 오디오 신호, 상기 BRIR 환경 설정 정보(154), 및 상기 인코딩된 BRIR 데이터를 함께 팩킹(packing)하여 비트스트림으로 전송하게 된다.
도16(a)는 본 발명의 제5실시예에 따른, 6DoF에서의 디코딩 과정을 도시한 것이다. 입력된 비트스트림은 디멀티플랙서(161, De-MUX)에서 상기 인코딩된 오디오 데이터, BRIR 데아터 및 BRIR 환경 설정 벙보(BRIR configuration info)를 추출한다. 상기 인코딩된 오디오 데이터는 3D 오디오 디코더(162, 3D Audio decoding)로 입력되어 설정된 스피커 포맷(Spk Format info.)을 참조하여 디코딩 및 랜더링 된다. 상기 BRIR 데이터는 BRIR 디코더(164, BRIR decoding)로 입력되어 모든 BRIR 응답들을 복원시킨다. 복원된 BRIR은 BRIR 선택 및 조정부(165, BRIR selection & adjustment)에 입력되어 재생에 필요한 BRIR들만 선택하여 출력한다. 또한, 상기 BRIR 선택 및 조정부(165)는, 외부로부터 수신된 환경 정보(예를 들어, 공간 크기 정보, 이동 가능 범위 정보 등)와 BRIR 환경 설정 정보(154)를 참조해서 사용자의 이동 가능한 공간 범위가 제작자가 BRIR을 측정한 범위와 유사한지 확인한다. 만약 사용자가 이동할 수 있는 범위와 BRIR이 측정된 범위가 다르면, 전술한 BRIR 응답 특성 변환 방법을 이용하여 측정된 BRIR의 특성을 변환시킨다. 예를 들어, 사용자가 이동할 수 있는 범위는 반경이 중심점 기준으로 2m이고, BRIR이 측정된 범위는 중심점 기준으로 1m라고 가정하면, 측정된 BRIR의 ‘direct part’ 파워는 3dB 줄이거나 ‘early reflection part’, ‘late reverberation part’ 파워를 3dB 증가시킨다. 다음, 사용자의 위치 정보(user position info)를 참조하여 가장 가까운 위치에서 측정된 지점에 대한 BRIR들을 선택해서 출력시킨다. 예를 들어, 3DoF에서 가정했던 환경처럼 설정된 스피커 포맷이 5.1채널이라고 가정하면, BRIR selection (165)에서 임의의 지점에 대해서 선택되어 출력된 BRIR(BRIRL1,BRIRR1,…,BRIRL5,BRIRR5)은 총 5쌍이 된다. 선택된 BRIR들은 바이너럴 랜더러(163, binaural rendering)에 입력되어 오디오 신호를 필터링하여 최종 바이너럴 랜더링된(binaural rendered) 2채널 오디오 출력 신호(OutL,OutR)을 출력한다.
도16(b) 실시예는, 상기 도16(a)의 실시예와 비교하여, BRIR 디코더(164, BRIR decoding) 및 BRIR 선택 및 조정부(165, BRIR selection& adjustment)를 통합하여, BRIR 선택 디코더부(166, BRIR selection & decoding)로 통합한 것이다. 상기 BRIR 선택 디코더부(166)는 디코딩 과정에서 설정한 스피커 포맷 정보(Spk. Format info)를 BRIR 디코딩시 미리 참조하여, 상기 바이너럴 랜더링(binaural rendering)을 하는데 필요한 BRIR만을 선택적으로 디코딩하는 것을 특징으로 한다.
도17은 본 발명의 제6실시예에 따른, 6DoF 환경에서 BRIR 인코딩 과정을 도시한 것이다. 또한, 도18은 본 발명의 제6실시예에 따른, 6DoF 환경에서 BRIR 디코딩 과정을 도시한 것이다.
도17은, 전술한 3DoF 환경의 도5 실시예를, 6DoF 환경을 고려하여 도시한 것이다. 도17에서 입력되는 모든BRIR의 정보들은 BRIR 파라미터 생성부(172, BRIR parameterization)에서 모두 파라미터로 추출되고, 추출된 파라미터들은 BRIR 파라미터 인코더(173, BRIR parameter encoding)에서 부호화하여 인코딩된다. 상기 BRIR 파라미터 인코더(173)의 동작은 전술한 도5 BRIR 파라미터 인코더(53)와 데이터량에서 차이나 뿐 실질적으로 동일한 방법으로 인코딩하는 것이 가능하다.
상기 인코딩된 BRIR 파라미터 데이터, BRIR 설정 정보(175, BRIR config. Info)와 3D 오디오 인코더(171, 3D Audio encoding)에서 인코딩된 오디오 데이터는 멀티플랙서(174, MUX)에서 팩킹(packing)되어 비트스트림으로 전송된다.
도18 (a) 및 (b)는, BRIR이 파라미터로 전송된 부분을 제외하면 상기 전술한 도16(a), (b)의 과정과 유사하다. 즉, 도18(a)는 본 발명의 제6실시예에 따른, 6DoF에서의 디코딩 과정을 도시한 것이다. 입력된 비트스트림은 디멀티플랙서(181, De-MUX)에서 상기 인코딩된 오디오 데이터, BRIR 파라미터 데이터 및 BRIR 환경 설정 벙보(BRIR configuration info)를 추출한다. 상기 인코딩된 오디오 데이터는 3D 오디오 디코더(182, 3D Audio decoding)로 입력되어 설정된 스피커 포맷(Spk Format info.)을 참조하여 디코딩 및 랜더링 된다. 상기 BRIR 파라미터 데이터는 BRIR 파라미터 디코더(184, BRIR parameter decoding)로 입력되어 모든 BRIR 파라미터들을 복원시킨다. 복원된 BRIR 파라미터는 BRIR 파라미터 선택 및 조정부(185, BRIR parameter selection & adjustment)에 입력되어 재생에 필요한 BRIR파라미터들만 선택하여 출력한다. 또한, BRIR 파라미터 선택 및 조정부(185)는 외부로부터 수신된 환경 정보(예를 들어, 공간 크기 정보, 이동 가능 범위 정보 등)와 BRIR 환경 설정 정보(175)를 참조해서 사용자의 이동 가능한 공간 범위가 제작자가 BRIR을 측정한 범위와 유사한지 확인한다. 만약 사용자가 이동할 수 있는 범위와 BRIR이 측정된 범위가 다르면, 전술한 BRIR 응답 특성 변환 방법을 이용하여 측정된 BRIR의 특성을 변환시킨다. 상기 선택된 BRIR파라미터들은 바이너럴 랜더러(183, binaural rendering)에 입력되어 상기 오디오 신호를 필터링하여 최종 바이너럴 랜더링된(binaural rendered) 2채널 오디오 출력 신호(OutL,OutR)을 출력한다.
도18(b)의 실시예는, 상기 도18(a)의 실시예와 비교하여, BRIR 파라미터 디코더(184, BRIR parameter decoding) 및 BRIR 파라미터 선택 및 조정부(185, BRIR parameter selection& adjustment)를 통합하여, BRIR 파라미터 선택 디코더부(186, BRIR parameter selection & decoding)로 통합한 것이다. 상기 BRIR 파라미터 선택 디코더부(186)는 디코딩 과정에서 설정한 스피커 포맷 정보(Spk. Format info)를 BRIR 디코딩시 미리 참조하여, 상기 바이너럴 랜더링(binaural rendering)을 하는데 필요한 BRIR 파라미터만을 선택적으로 디코딩 하는 것을 특징으로 한다.
도19는 본 발명의 제7실시예에 따른, 6DoF 환경에서 RIR 인코딩 과정을 도시한 것이다. 또한, 도20~도21은 본 발명의 제7실시예에 따른, 6DoF 환경에서 RIR 디코딩 과정을 도시한 것이다.
도19를 참조하면, 제작자가 의도하는 공간에서 측정 혹은 제작된 RIR들은 RIR 인코더(192, RIR encoding)에 입력되어 인코딩 된다. 6DoF를 위해 다양한 지점에서 RIR들이 측정되었지만, 한 번에 한 쌍의 BRIR이 측정되는 것과 달리 RIR은 한 번에 한 개만 측정된다. 예를 들어, 5.1채널 스피커 환경에서 총 10개 지점에 대해서 RIR이 측정되었다면, 상기 RIR 인코더(192, RIR encoding)로 입력되는 RIR은 총 50개 (1x5x10, 우퍼스피커에 대한 응답 제외)가 된다. 도19에서는 RIR 설정 정보(194, RIR configuration information)가 입력되며, 해당 정보(194)는 전술한 BRIR 설정 정보(154)와 마찬가지로 RIR들의 측정 위치 정보, 응답 특징 정보(예를 들어, 식(3)의 t1 정보, 잔향 시간 등), 그리고 RIR이 측정되었던 공간 특징 정보(예를 들어, 공간의 구조 및 크기 정보 등)를 포함하고 있다. 상기 RIR 설정 정보(194)는 3D 오디오 인코더(191, 3D Audio encoding)에서 인코딩된 오디오 데이터 및 상기 RIR 데이터와 함께 멀티플랙서(193, MUX)에 입력되어 팩킹(packing)된 후 비트스트림으로 전송된다.
도20의 전체적인 디코딩 과정은 3DoF 환경에 적용된 도10(a)와 유사하다. 다만 6DoF를 위해 도20 실시예는 외부로부터 사용자 위치 정보(User position information)을 수신 받는다. 입력된 비트스트림은 디멀티플랙서(201, De-MUX)에 입력되어서 오디오 데이터, RIR 데이터 및 RIR 환경 설정 정보(194)가 추출된다. 상기 추출된 오디오 데이터는 3D 오디오 디코더(202, 3D audio decoding)에서 스피커 포맷 정보(Spk. format info)를 참조하여 디코딩 및 랜더링 되어 멀티채널 신호를 출력한다. 또한, 상기 추출된 RIR 데이터는 RIR 디코더(204, RIR decoding)에 입력되어 모든 RIR 을 복원한다. 상기 복원된 RIR은 RIR 선택 및 조정부(205, RIR selection & adjustment)에 입력되어 설정된 스피커 포맷을 참조하여 스피커 위치에 해당되는 RIR을 선택하여 출력한다. 관련하여, 상기 RIR 선택 및 조정부(205)는 도16(a)의 BRIR 선택 및 조정부(165, BRIR selection & adjustment)에서 진행했던 절차와 유사하게 외부로부터 수신된 환경 정보(공간 크기 정보, 이동 가능 범위)와 RIR 환경 설정 정보(194)를 참조하여 사용자의 이동 가능한 공간 범위가 제작자가 RIR을 측정한 범위와 유사한지 확인하고, 필요할 경우, 측정된 RIR의 응답 특성을 변환시킨다. 다음, 사용자의 위치 정보(user position info)를 참조하여 가장 가까운 지점에서 측정된 RIR을 선택해서 출력시킨다. 예로, 5.1채널 환경이라고 가정한다면, RIR selection & adjustment에서 5개의 RIR(RIR1,RIR2,…,RIR5)이 출력된다.
RIR에는 사용자의 양이 정보가 포함되어 있지 않으므로, 두 가지 HRIR 생성 모듈(207, 208)을 이용하여 사용자에게 적합한 HRIR쌍들을 생성한다. 일반적으로 HRIR들은 모든 방향에 대해 한번씩만 측정된다. 따라서 6DoF처럼 사용자가 임의의 공간에서 이동하면 음원 간의 거리는 달라지기 때문에 기존 HRIR 그대로 사용하면 음원이 부정확한 위치에 정위되게 된다. 이러한 문제를 해결하기 위해 모든 HRIR들을 게인 보상부(209, Gain compensation)에 입력해서 사용자와 음원간의 거리를 참조하여 HRIR의 게인을 변경시켜주는 것이 필요하다. 사용자와 음원간의 거리 정보는 상기 게인 보상부(209, Gain compensation)로 입력되는 사용자 위치 정보와 스피커 포맷 정보를 통해서 확인할 수 있다. 출력되는 HRIR쌍들은 사용자의 위치에 따라서 서로 다른 게인이 적용될 수 있다. 예를 들어, 5.1채널 스피커 포맷 환경에서 사용자가 정면을 향해 움직이면, 전방에 설치된 스피커들(Left, Center, Right)에 가까워진다는 것을 의미하므로, HRIR의 게인을 크게 조절하고, 후방에 위치한 스피커들(Left Surround, Right Surround)과는 상대적으로 멀어지기 때문에 HRIR의 게인을 작아지게 조절한다. 게인이 조절된 HRIR쌍들은 한성부(206, Synthesizing)로 입력되어, 상기 RIR 선택 및 조정부(205)에서 출력된 RIR들과 합성되어 BRIR쌍들을 출력한다. 상기 합성부(206)에서 합성과정은 같은 스피커 위치에 대응되는 HRIR쌍과 RIR만이 사용된다. 예로, 5.1 채널 스피커 포맷 환경에서는 RIR1은 HRIR1 _L과 HRIR1 _R에만 적용되고, RIR5는 HRIR5 _L과 HRIR5 _R에만 적용된다. 바이너럴 랜더러(203, binaural rendering)에서는 상기 디코딩된 오디오 신호를 상기 합성부(206)에서 출력된 BRIR에 필터링시켜서 바이어럴 랜더링된(binaural rendering) 2채널 오디오 출력 신호(OutL,OutR)를 출력하게 된다.
도21의 실시예는, 상기 도20의 실시예와 비교하여, RIR 디코더(204, RIR decoding) 및 RIR 선택 및 조정부(205, RIR selection & adjustment)를 통합하여, RIR 선택 디코더부(210, RIR selection & decoding)로 통합한 것이다. 상기 RIR 선택 디코더부(210)는 디코딩 과정에서 설정한 스피커 포맷 정보(Spk. Format info)를 RIR 디코딩시 미리 참조하여, 상기 바이너럴 랜더링(binaural rendering)을 하는데 필요한 RIR만을 선택적으로 디코딩하는 것을 특징으로 한다.
도22는 본 발명의 제8실시예에 따른, 6DoF 환경에서 RIR 인코딩 과정을 도시한 것이다. 또한, 도23~도24는 본 발명의 제8실시예에 따른, 6DoF 환경에서 RIR 디코딩 과정을 도시한 것이다.
도22는, 전술한 3DoF 환경의 도11 실시예를, 6DoF 환경을 고려하여 도시한 것이다. 도22에서 입력되는 모든RIR의 정보들은 RIR 파라미터 생성부(222, RIR parameterization)에서 모두 파라미터로 추출되고, 추출된 파라미터들은 RIR 파라미터 인코더(223, RIR parameter encoding)에서 부호화하여 인코딩된다. 상기 RIR 파라미터 인코더(223)의 동작은 전술한 도11 RIR 파라미터 인코더(113)와 데이터량에서 차이나 뿐 실질적으로 동일한 방법으로 인코딩하는 것이 가능하다.
도22를 참조하면, 입력되는 모든 RIR의 정보들은 상기 RIR 파라미터 생성부(222)에서 파라미터로 추출되어, 상기 RIR 파라미터 인코더(223)에서 인코딩된다. 상기 인코딩된 RIR 파라미터 데이터는, 3D 오디오 인코더(221, 3D Audio encoding)에서 인코딩된 오디오 데이터와 RIR 설정 정보(225, RIR configuration information)와 함께 멀티플랙서(224, MUX)로 입력되어 팩킹(packing) 된 후, 비트스트림으로 생성된다.
도23은 본 발명의 제8실시예에 따른, 전체 디코딩 과정을 도시한 것이다. 전술한 도20 실시예와 비교했을 때, RIR을 선택해서 출력하는 부분까지는 동일하다. 다만, 도23에서는 RIR 파라미터가 전송되기 때문에, RIR 대신 RIR parameter로 출력된다. 또한, 외부로부터 수신된 사용자의 재생 환경 정보(공간 크기 정보, 이동 가능 범위)와 RIR 환경 정보를 참조해서 사용자의 이동 범위가 유사한지 확인하여, 필요할 경우, 전술한 방법을 이용해서 측정된 RIR의 응답 특성을 변환시킨다. 또한, RIR 파라미터들을 수신 받으므로, 가장 주요한 파라미터들에 대해서만 변경시킨다. 일반적으로, 사용자가 임의의 음상에 가까워질수록 RIR의 ‘propagation delay’는 줄고, RIR의 ‘direct part’의 에너지는 증가한다. 따라서, 여기에서는 시간 도메인에서 RIR 파라미터를 추출할 경우, 추출된 파라미터 중 ‘Propagation delay’와 ‘direct filter block parameter’ 정보를 변경시키고, 만약 주파수 도메인에서 파라미터를 추출할 경우, 추출된 파라미터 중 ‘propagation time’과 ‘VOFF coefficient parameter’ 정보를 변경한다. 만약 사용자의 재생 환경 정보가 측정된 환경보다 클 경우(사용자의 이동 가능 범위가 RIR이 측정된 범위보다 넓을 경우), RIR의 ‘propagation time’은 길어져야 하므로, 확장된 거리에 비례해서 ‘propagation delay’(TD) 혹은 ‘propagation time’(FD) 파라미터 값을 변경시켜준다. 일반적으로, ‘direct part’의 신호는 ‘propagation delay’ 이후에 나타나는 임펄스(impulse)를 의미하며, 보통 RIR에서 가장 큰 값을 가진다. 따라서, 본 발명에서는 ‘direct filter block’(TD)과 각 주파스 밴드(frequency band)에서 추출된 VOFF 계수(coefficient)에서 가장 큰 값을 ‘direct part’ 성분으로 간주한다. 해당 파라미터에서 추출된 값을 RIR의 ‘direct part’의 게인으로 간주하여 전술한 식(2)의 D/R 비율(ratio)의 거리 변화량을 적용하여 게인값을 변경시켜주는 것이 가능하다.
HRIR데이터는 전술한 도20에서 설명한 HRIR 생성 절차와 동일하다. 즉, 두 가지 HRIR 생성 모듈(237, 238)중 한 가지 모듈을 선택한 후, 스피커의 포맷 정보를 참조하여 HRIR을 생성하면, 이를 게인 보상부(239, Gain compensation)에 입력하여 사용자와 스피커들간의 거리를 참조하여 HRIR의 게인을 조절한다. 상기 게인 조절된 HRIR들은 바이너럴 랜더러(233, Binaural rendering)에 입력되어 디코딩된 오디오 신호에 적용되어, 바이너럴 랜더링된(binaural rendered) 신호를 출력한다. 만약 5.1채널이라고 가정하면, 총 5쌍의 바이너럴 랜더링된 신호(SH1 _L,SH1 _R,…,SH5 _L,SH5 _R)가 출력된다. 전술한 도10에서 언급한 바와 같이. HRIR만 필터링된 신호에는 공간 특징 정보가 반영되지 않아 현장감이 부족한 점이 있다. 따라서 합성부(234, Synthesizing)에서 RIR 파라미터 선택 및 조정부(236, RIR parameter selection & adjustment)에서 출력된 RIR 파라미터들(예를 들어, 5.1 채널로 가정할 경우, PRIR1,PRIR2,…,PRIR5)을 상기 바이너럴 랜더링된(binaural rendered) 신호에 적용하여 현장감이 부여된 신호들을 출력할 수 있게 된다. 상기 합성부(234)내 합성과정에서 RIR 파라미터들을 스피커 위치에 대응하여 상기 바이너럴 랜더링된(binaural rendered) 신호에 적용해야 한다. 예를 들어, 5.1채널로 가정할 경우, PRIR1은 SH1 _L과 SH1 _R에만 적용해서 SHR1_L과 SHR1 _R을 출력하고, PRIR5는 SH5 _L과 SH5 _R에만 적용해서 SHR5 _L과 SHR5 _R을 출력한다. 다음, 왼쪽 채널에 대한 신호 SHR1 _L,…,SHR5 _L가 모두 더해지고 게인 정규화(gain normalization)되어서 최종 신호 OutL을 출력하고, 오른쪽 채널에 대한 신호 SHR1 _R,…,SHR5 _R가 모두 더해지고 게인 정규화(gain normalization)되어서 최종 신호 OutR을 출력한다. 관련하여, 상기 합성 과정은 전술한 도13과 동일하다.
도24의 실시예는, 상기 도23의 실시예와 비교하여, RIR 파라미터 디코더(235, RIR parameter decoding) 및 RIR 파라미터 선택 및 조정부(236, RIR parameter selection& adjustment)를 통합하여, RIR 파라미터 선택 디코더부(240, RIR parameter selection & decoding & adjustment )로 통합한 것이다. 상기 RIR 파라미터 선택 디코더부(240)는 디코딩 과정에서 설정한 스피커 포맷 정보(Spk. Format info)를 RIR 디코딩시 미리 참조하여, 상기 바이너럴 랜더링(binaural rendering)을 하는데 필요한 RIR 파라미터만을 선택적으로 디코딩 하는 것을 특징으로 한다.
도25~도48은 본 발명의 실시예에 따른, 오디오 재생 방법 및 장치에 활용되는 신택스(syntax) 구조를 설명하기 위해 도시한 것이다. 특히, 3DoF 및 6DoF에서 3D 오디어 디코더에 수신된 BRIR, BRIR 파라미터, RIR 또는 RIR 파라미터에 대한 신택스(syntax)를 도시한 것이다, 관련하여, 본 발명에 제안된 신택스는, 예를 들어, 3D 오디오 디코더의 한 종류인 ‘MPEG-H 3D Audio decoder’를 기반으로 도시하였다. 단, 본 발명의 신택스는 하나의 예시에 불과하며, 동일한 개념의 신택스 구조를 다른 3D 오디오 디코더에 변형된 형태로 적용할 수 있음은 자명하다 할 것이다.
전술한 실시예들에서 설명한 바와 같이, RIR의 파라미터들의 개념은 기본적으로 MPEG-H 3D Audio의 BRIR 파라미터들과 매우 비슷하기 때문에, 가능한 MPEG-H 3D Audio에서 선언된 BRIR 파라미터 신택스와 호환 가능하도록 도시하였다.
도25는 본 발명의 실시예를 반영하여, MPEG-H 3D Audio Decoder에 적용되는 ‘mpegh3daLocalSetupInformation()’(251) 신택스를 도시한 것이다.
is6DoFMode필드(252)는 6DoF 방식으로 사용할지 여부를 알려준다. ‘0’인 경우 기존 방식(3DoF)으로, ‘1’인 경우 6DoF 방식을 사용하는 것으로 정의할 수 있다. up_az필드는 사용자의 위치 정보가 방위각(Azimuth) 측면에서 각도 값으로 주어진다. 각도 값은 Azimuth=-180˚와 Azimuth=180˚ 사이에서 주어진다. 예를 들어, user_positionAzimuth = (up_az-128)*1.5; user_positionAzimuth = min (max(user_positionAzimuth, -180), 180);로 계산할 수 있다. up_el 필드는 사용자의 위치 정보가 고도각(Elevation) 측면에서 각도 값으로 주어진다. 각도 값은 Elevation=-90˚ 와 Elevation=90˚ 사이에서 주어진다. 예를 들어, user_positionElevation = (up_el - 32) * 3.0; user_positionElevation = min (max(user_positionElevation, -90), 90);로 계산할 수 있다. up_dist필드는 사용자의 위치 정보가 거리 측면에서 meter 값으로 주어진다. 길이 값은 Radius = 0.5m와 Radius=16m 사이에서 주어진다. 예를 들어, user_positionRadius = pow(2.0, (up_dist / 3.0)) / 2.0; user_positionRadius = min(max(user_positionRadius, 0.5), 16); 로 계산할 수 있다.
또한, bsRenderingType 필드(253)는 Rendering 타입을 정의한다 예를 들어, 스피커 랜더링(‘LoudspeakerRendering()’(254)) 또는 헤드폰을 통한 바이너럴 랜더링(‘BinauralRendering()’(255) 중 어느 하나를 지시하는 것이 가능하다.
또한, bsNumWIREoutputs 필드는 WIREoutput의 개수를 정의한다. 예를 들어, 0~65535사이에서 결정 될 수 있다. WireID 필드는 WIRE output에 대한 ID를 포함한다. hasLocalScreenSizeInformation 필드는 로컬 화면 크기(Local screen size) 정보를 사용할 수 있는지 여부를 정의하는 플래그(flag) 정보이다.
도26 및 도27은, 상기 ‘BinarualRendering()’(255) 상세 신택스를 도시한 것이다. 특히, 전술한 is6DoFMode필드(252)가 ‘1’의 값으로, 6DoF를 지시하는 경우를 도시한 것이다.
bsNumMeasuredPositions 필드는 측정 위치의 수를 의미한다. positionAzimuth 필드는 측정된 위치의 방위각을 정의한다. -180˚에서 180˚사이의 값을 1˚간격으로 가질 수 있다. 예를 들어, Azimuth = (loudspeakerAzimuth-256); Azimuth = min (max (Azimuth,-180), 180);로 정의할 수 있다. positionElevation 필드는 측정된 위치의 고도각을 정의한다. -90˚에서 90˚사이의 값을 1˚간격으로 가질 수 있다. 예를 들어, Elevation = (loudspeakerElevation-128); Elevation = min (max (Elevation,-90), 90);로 정의할 수 있다. positionDistance 필드는 측정된 위치의 정중앙(동시에 Loudspeaker들의 정중앙)에 위치한 사용자 위치(reference point)까지의 거리를 cm단위로 정의한다. 예를 들어, 1~1023 사이의 값을 가질 수 있다. bsNumLoudspeakers 필드는 재생 환경에서의 스피터(loudspeaker)의 개수를 의미한다. 또한, loudspeakerAzimuth필드는 스피커의 방위각을 정의한다. -180˚에서 180˚사이의 값을 1˚간격으로 가질 수 있다. 예를 들어, Azimuth = (loudspeakerAzimuth-256); Azimuth = min (max (Azimuth,-180), 180);로 정의할 수 있다. loudspeakerElevation 필드는 스피커의 고도각을 정의한다. -90˚에서 90˚사이의 값을 1˚간격으로 가질 수 있다. 예를 들어, Elevation = (loudspeakerElevation-128); Elevation = min (max (Elevation,-90), 90);로 정의할 수 있다.loudspeakerDistance 필드는 스피커(Loudspeaker)의 중앙에 위치한 사용자 위치(reference point)까지의 거리를 cm단위로 정의한다. 1~1023 사이의 값을 가질 수 있다. loudspeakerCalibrationGain필드는 스피커(Loudspeaker)의 캘리브레이션 게인(calibration gain)을 dB 단위로 정의한다. 즉, Gain = -32dB와 Gain =31.5dB 사이의 dB 값에 대응하는 0~127 사이의 값을 0.5dB 간격으로 가질 수 있다. 예를 들어, Gain [dB] = 0.5x(loudspeakerGain 64)로 정의할 수 있다. externalDistanceCompensation 필드는 스피커(Loudspeaker)의 보상을 디코더 출력 신호에 적용할지 여부를 정의한다. 만약 해당 플래그가 1이면, ‘loudspeakerDistance’ 및 ‘loudspeakerCalibrationGain’에 대한 시그널링은 디코더에 적용되지 않는다.
또한, is6DoFRoomData필드는, 6DoF 환경에서 공간 정보(room data) 존재 여부를 지시하는 플래그(flag) 정보이다. 만약, 6DoF 환경에서 공간 정보(room data)가 존재한다면, bs6DoFRoomDataFormatID 필드(261)는 6DoF 공간 정보의 표현 유형을 나타낸다. 예를 들어, bs6DoFRoomDataFormatID 필드(261)에 의한 공간 정보 유형은, ‘RoomFirData6DoF()’(262), ‘FdRoomRendererParam6DoF()’(263) 및 ‘TdRoomRendererParam6DoF()’(264)로 나누어 진다. 관련하여, 상기 ‘RoomFirData6DoF()’(262), ‘FdRoomRendererParam6DoF()’(263) 및 ‘TdRoomRendererParam6DoF()’(264)은 별도 신택스로 상세히 후술할 예정이다.
또한, bs6DoFBimauralDataFormatID 필드(266)는 6DoF 환경에 적용되는 BRIR 셋(set) 표현 유형을 나타낸다. 예를 들어, bs6DoFBimauralDataFormatID 필드(266)에 의한 6DoF 환경에 적용되는 BRIR 셋(set) 유형은, ‘BinauralFirData6DoF()’(267), ‘FdBinauralRendererParam6DoF()’(268) 및 ‘TdBinauralRendererParam6DoF()’(269)로 나누어 진다. 관련하여, 상기 ‘BinauralFirData6DoF()’(267), ‘FdBinauralRendererParam6DoF()’(268) 및 ‘TdBinauralRendererParam6DoF()’(269)은 별도 신택스로 상세히 후술할 예정이다.
또한, isRoomData 필드(270)는, 3DoF 환경에서의 공간 정보(room data) 존재 여부를 지시하는 플래그(flag) 정보이다. 만약, 3DoF 환경에서 공간 정보(room data)가 존재한다면, bsRoomDataFormatID 필드(271)는 3DoF 공간 정보의 표현 유형을 나타낸다. 예를 들어, bsRoomDataFormatID 필드(271)에 의한 공간 정보 유형은, ‘RoomFirData()’(272), ‘FdRoomRendererParam()’(273) 및 ‘TdRoomRendererParam()’(274)로 나누어 진다. 관련하여, 상기 ‘RoomFirData()’(272), ‘FdRoomRendererParam()’(273) 및 ‘TdRoomRendererParam()’(274)은 별도 신택스로 상세히 후술할 예정이다.
또한, bsBinauralDataFormatID 필드(276)는 3DoF 환경에서의 BRIR 셋(set)의 표현 유형을 나타낸다. 예를 들어, bsBimauralDataFormatID 필드(276)에 의한 3DoF 환경에 적용되는 BRIR 셋(set) 유형은, ‘BinauralFirData()’, ‘FdBinauralRendererParam()’ 및 ‘TdBinauralRendererParam()’로 나누어 진다. 단, 상기 3DoF 환경에서의 BRIR 셋(set)에 관련된, 상기 ‘BinauralFirData()’, ‘FdBinauralRendererParam()’ 및 ‘TdBinauralRendererParam()’ 상세 신택스는, 기존 MPEG-H 3D Audio 표준 신택스(syntax)에서 이미 정의하고 있으므로, 본 발명에서는 해당 부분의 상세한 설명은 생략하고자 한다.
도28은 상기 ‘RoomFirData6DoF()’(262) 상세 신택스를 도시한 것이다. bsNumRirCoefs_6DoF 필드는 6DoF RIR의 FIR 필터 계수의 수르 정의한다. 또한, bsFirCoefRoom_6DoF필드는 6DoF RIR의 FIR 필터 계수를 정의한다.
도29는 상기 ‘FdRoomRendererParam6DoF()’(263) 상세 신택스를 도시한 것이다. dInitRir_6DoF필드는 6DoF RIR의 Propagation time 값을 정의한다. kMaxRir_6DoF 필드는 6DoF RIR의 최대 처리 밴드를 정의한다. kConvRir_6DoF필드는 6DoF RIR 컨벌루션(convolution)에 사용된 밴드 수를 정의한다. kAnaRir_6DoF필드는 6DoF RIR의 ‘late reverberation’ 분석에 사용된 분석 밴드수를 정의한다. 또한, 상기 ‘FdRoomRendererParam6DoF()’(263) 신택스내에는, RIR 파라미터로서, ‘VoFFRirParam6DoF()’(2631),’SfrRirParam6DoF()’(2632) 및 ‘QtdlRirParam6DoF()’(2633) 신택스를 포함한다.
도30은 상기 ‘VoFFRirParam6DoF()’(2631) 상세 신택스를 도시한 것이다. nBitNFilterRir_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR에서 VOFF 분석에 사용되는 nFilter의 bit 수를 정의한다. nBitNFftRir_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR에서 VOFF 분석에 사용되는 nFft의 bit 수를 정의한다. nBitNBlkRir_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR에서 VOFF 분석에 사용되는 n_block의 bit 수를 정의한다. nFilterRir_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR에서 VOFF에 대한 밴드별 필터 길이를 정의한다. nFftRir_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR에서 VOFF 분석할 때, 각 밴드에 대한 FFT의 길이는 2의 제곱으로 표현되며, 이 때 nFftRir_6DoF[k]은 지수를 의미한다. 예를 들어, 2nFftRir _6 DoF [k]는 VOFF에 대한 밴드 별 FFT의 길이를 의미한다. nBlkRir_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR에서 VOFF에 대한 밴드별 block 수를 정의한다. VoffCoeffRirReal_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR의 VOFF 계수의 실수값을 정의한다. VoffCoeffRirImag_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR의 VOFF 계수의 허수값을 정의한다.
도31은 상기 ’SfrRirParam6DoF()’(2632) 상세 신택스를 도시한 것이다.
fcAnaRir_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR의 late reverberation analysis 밴드의 중심 주파수를 정의한다. rt60Rir_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR의 late reverberation analysis 밴드의 잔향 시간 RT60 (단위: 초)를 정의한다. nrgLrRir_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR의 late reverberation analysis 밴드에서 late reverberation 부분의 에너지를 나타내는 에너지 값 (2의 제곱)을 정의한다.
도32는 상기 ‘QtdlRirParam6DoF()’(2633) 상세 신택스를 도시한 것이다.
nBitQtdlLagRir_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR의 QTDL 밴드에서 사용된 lag의 비트 수를 정의한다. QtdlGainRirReal_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR의 QTDL 밴드에서 QTDL gain의 실수 값을 정의한다. QtdlGainRirImag_6DoF필드는 주파수 도메인으로 변환된 6DoF RIR의 QTDL 밴드에서 QTDL gain의 허수 값을 정의한다. QtdlLagRir_6DoF 필드는 주파수 도메인으로 변환된 6DoF RIR의 QTDL 밴드에서 QTDL의 지연 값 (단위: sample)을 정의한다.
도33은 전술한 상기 ‘TdRoomRendererParam()’(264) 상세 신택스를 도시한 것이다.
bsDelayRir_6DoF필드는 출력 신호에 시작 부분에 적용할 sample의 delay를 정의한다. 예를 들어, 파라미터화(Parameterization) 과정에서 제거된 RIR의 propagation delay를 보상하기 위해 사용된다. bsDirectLenRir_6DoF필드는 Parameterization된 6DoF RIR의 direct part의 샘플 크기를 정의한다. bsNbDiffuseBlocksRir_6DoF 필드는 Parameterization된 6DoF RIR의 diffuse part의 block 수를 정의한다. bsFmaxDirectRir_6DoF필드는 ‘0’과 ‘1’사이의 값으로 주어진 6DoF RIR의 Direct part의 cutoff frequency를 정의한다. ‘1’은 Nyquist frequency를 의미한다. bsFmaxDiffuseRir_6DoF필드는 0과 1 사이의 값으로 주어진 6DoF RIR의 Diffuse part의 cutoff frequency를 정의한다. ‘1’은 Nyquist frequency를 의미한다. bsWeightsRir_6DoF필드는 6DoF RIR의 diffuse part를 filtering하기 전에 입력 채널 신호에 적용하는 gain 값을 정의한다. bsFIRDirectRir_6DoF필드는 Parameterization된 6DoF RIR의 direct part의 FIR 계수를 정의한다. bsFIRDiffuseRir_6DoF필드는 Parameterization된 6DoF RIR의 diffuse part의 FIR 계수를 정의한다.
도34은 전술한 상기 ‘BinauralFirData6DoF()’(267) 상세 신택스를 도시한 것이다. bsNumCoefs_6DoF 필드는 6DoF BRIR의 FIR 필터 계수의 수를 정의한다. bsFirCoefLeft_6DoF 필드는 6DoF BRIR의 왼쪽 FIR 필터 계수를 정의한다. bsFirCoefRight_6DoF 필드는 6DoF BRIR의 오른쪽 FIR 필터 계수를 정의한다.
도35는 전술한 상기 ‘FdBinauralRendererParam6DoF()’(268) 상세 신택스를 도시한 것이다. dInit_6DoF필드는 6DoF BRIR의 Propagation time 값을 정의한다. kMax_6DoF필드는 6DoF BRIR의 최대 처리 밴드를 정의한다. kConv_6DoF필드는 6DoF BRIR convolution하는 데에 사용된 밴드 수를 정의한다. kAna_6DoF필드는 6DoF BRIR의 late reverberation 분석에 사용된 analysis band 수를 정의한다. 또한, 상기 FdBinauralRendererParam6DoF()’(268) 신택스내에는, RIR 파라미터로서, ‘VoFFBrirParam6DoF()’(2681),’SfrBrirParam6DoF()’(2682) 및 ‘QtdlBrirParam6DoF()’(2683) 신택스를 포함한다.
도36은 상기 ‘VoffBrirParam6DoF()’(2681) 상세 신택스를 도시한 것이다. nBitNFilter_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR에서 VOFF 분석에 사용되는 nFilter의 bit 수를 정의한다. nBitNFft_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR에서 VOFF 분석에 사용되는 nFft의 bit 수를 정의한다. nBitNBlk_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR에서 VOFF 분석에 사용되는 n_block의 bit 수를 정의한다. nFilter_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR에서 VOFF에 대한 밴드별 필터 길이를 정의한다. nFft_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR에서 VOFF 분석할 때, 각 밴드에 대한 FFT의 길이는 2의 제곱으로 표현되며, 이 때 nFft_6DoF[k]은 지수를 의미한다. 예를 들어, 2nFft _6 DoF [k]는 VOFF에 대한 밴드 별 FFT의 길이를 의미한다. nBlk_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR에서 VOFF에 대한 밴드별 block 수를 정의한다. VoffCoeffLeftReal_6DoF 필드는 주파수 도메인으로 변환된 6DoF 왼쪽 BRIR의 VOFF 계수의 실수값을 의미한다. VoffCoeffLeftImag_6DoF 필드는 주파수 도메인으로 변환된 6DoF 왼쪽 BRIR의 VOFF 계수의 허수값을 정의한다. VoffCoeffRightReal_6DoF 필드는 주파수 도메인으로 변환된 6DoF 오른쪽 BRIR의 VOFF 계수의 실수값을 정의한다. VoffCoeffRightImag_6DoF 필드는 주파수 도메인으로 변환된 6DoF 오른쪽 BRIR의 VOFF 계수의 허수값을 정의한다.
도37은 상기 ‘SfrBrirParam6DoF()’(2682) 상세 신택스를 도시한 것이다. fcAna_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR의 late reverberation analysis 밴드의 중심 주파수를 정의한다. rt60_6DoF 필드는: 주파수 도메인으로 변환된 6DoF BRIR의 late reverberation analysis 밴드의 잔향 시간 RT60 (단위: 초)을 정의한다. nrgLr_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR의 late reverberation analysis 밴드에서 late reverberation 부분의 에너지를 나타내는 에너지 값 (2의 제곱)을 정의한다.
도38은 상기 ‘QtdlBrirParam6DoF()’(2683) 상세 신택스를 도시한 것이다. nBitQtdlLag_6DoF 필드는 주파수 도메인으로 변환된 6DoF BRIR의 QTDL 밴드에서 사용된 lag의 비트 수를 정의한다. QtdlGainLeftReal_6DoF 필드는 주파수 도메인으로 변환된 6DoF 왼쪽 BRIR의 QTDL 밴드에서 QTDL gain의 실수 값을 정의한다. QtdlGainLeftImag_6DoF 필드는 주파수 도메인으로 변환된 6DoF 왼쪽 BRIR의 QTDL 밴드에서 QTDL gain의 허수 값을 정의한다. QtdlGainRightReal_6DoF 필드는 주파수 도메인으로 변환된 6DoF 오른쪽 BRIR의 QTDL 밴드에서 QTDL gain의 실수 값을 정의한다. QtdlGainRightImag_6DoF 필드는 주파수 도메인으로 변환된 6DoF 오른쪽 BRIR의 QTDL 밴드에서 QTDL gain의 허수 값을 정의한다. QtdlLagLeft_6DoF 필드는 주파수 도메인으로 변환된 6DoF 6DoF 왼쪽 BRIR의 QTDL 밴드에서 QTDL의 지연 값 (단위: sample)을 정의한다. QtdlLagRight_6DoF 필드는 주파수 도메인으로 변환된 6DoF 6DoF 오른쪽 BRIR의 QTDL 밴드에서 QTDL의 지연 값 (단위: sample)을 정의한다.
도39는 전술한 상기 ‘TdBinauralRendererParam6DoF()’(269) 상세 신택스를 도시한 것이다. bsDelay_6DoF필드는 출력 신호에 시작 부분에 적용할 sample의 delay (Parameterization 과정에서 제거된 BRIR의 propagation delay를 보상하기 위해 사용)를 정의한다. bsDirectLen_6DoF필드는 Parameterization된 6DoF BRIR의 direct part의 샘플 크기를 정의한다. bsNbDiffuseBlocks_6DoF필드는 Parameterization된 6DoF BRIR의 diffuse part의 block 수를 정의한다. bsFmaxDirectLeft_6DoF 필드는 ‘0’과 ‘1’사이의 값으로 주어진 6DoF 왼쪽 BRIR의 Direct part의 cutoff frequency를 정의한다. 예를 들어, ‘1’은 Nyquist frequency를 의미한다. bsFmaxDirectRight_6DoF필드는 ‘0’과 ‘1’사이의 값으로 주어진 6DoF 오른쪽 BRIR의 Direct part의 cutoff frequency를 정의한다. 예를 들어, ‘1’은 Nyquist frequency를 의미한다. bsFmaxDiffuseLeft_6DoF 필드는 ‘0’과 ‘1’ 사이의 값으로 주어진 6DoF 왼쪽 BRIR의 Diffuse part의 cutoff frequency를 정의한다. 예를 들어, ‘1’은 Nyquist frequency를 의미한다. bsFmaxDiffuseRight_6DoF 필드는 ‘0’과 ‘1’ 사이의 값으로 주어진 6DoF 오른쪽 BRIR의 Diffuse part의 cutoff frequency를 정의한다. 예를 들어, ‘1’은 Nyquist frequency를 의미한다. bsWeights_6DoF필드는 6DoF BRIR의 diffuse part를 filtering하기전에 입력 채널 신호에 적용하는 gain 값을 정의한다. bsFIRDirectLeft_6DoF 필드는 Parameterization된 6DoF 왼쪽 BRIR의 direct part의 FIR 계수를 정의한다. bsFIRDirectRight_6DoF 필드는 Parameterization된 6DoF 오른쪽 BRIR의 direct part의 FIR 계수를 정의한다. bsFIRDiffuseLeft_6DoF 필드는 Parameterization된 6DoF 왼쪽 BRIR의 diffuse part의 FIR 계수를 정의한다. bsFIRDiffuseRight_6DoF 필드는 Parameterization된 6DoF 오른쪽 BRIR의 diffuse part의 FIR 계수를 정의한다.
도40은 전술한 상기 ‘RoomFirData()’(272) 상세 신택스를 도시한 것이다. bsNumRirCoefs 필드는 RIR의 FIR 필터 계수의 수를 정의한다. bsFirCoefRir 필드는 RIR의 FIR 필터 계수를 정의한다.
도41은 전술한 상기 ‘FdRoomRendererParam()’(273) 상세 신택스를 도시한 것이다. dInitRir 필드는 RIR의 Propagation time 값을 정의한다. kMaxRir필드는 RIR의 최대 처리 밴드를 정의한다. kConvRir필드는 RIR convolution하는 데에 사용된 밴드 수를 정의한다. kAnaRir 필드는 RIR의 late reverberation 분석에 사용된 analysis band 수를 정의한다. 또한, 상기 ‘FdRoomRendererParam()’(273) 신택스는 ‘VoffRirParam()’(2731), ‘SfrBrirParam()’(2732), 및 ’QtdlBrirParam()’(2733)을 포함한다.
도42는 상기 ‘VoffRirParam()’(2731) 상세 신택스를 도시한 것이다. nBitNFilterRir 필드는 주파수 도메인으로 변환된 RIR에서 VOFF 분석에 사용되는 nFilter의 bit 수를 정의한다. nBitNFftRir필드는 주파수 도메인으로 변환된 RIR에서 VOFF 분석에 사용되는 nFft의 bit 수를 정의한다. nBitNBlkRir필드는 주파수 도메인으로 변환된 RIR에서 VOFF 분석에 사용되는 n_block의 bit 수를 정의한다. nFilterRir 필드는 주파수 도메인으로 변환된 RIR에서 VOFF에 대한 밴드별 필터 길이를 정의한다. nFftRir 필드는 주파수 도메인으로 변환된 RIR에서 VOFF 분석할 때, 각 밴드에 대한 FFT의 길이는 2의 제곱으로 표현되며, 이 때 nFftRir[k]은 지수를 의미한다. 예를 들어, 2nFftRir [k]는 VOFF에 대한 밴드 별 FFT의 길이를 의미한다. nBlkRir 필드는 주파수 도메인으로 변환된 RIR에서 VOFF에 대한 밴드별 block 수를 정의한다. VoffCoeffRirReal 필드는 주파수 도메인으로 변환된 RIR의 VOFF 계수의 실수값을 정의한다. VoffCoeffRirImag 필드는 주파수 도메인으로 변환된 RIR의 VOFF 계수의 허수값을 정의한다.
도43은 상기 ‘SfrBrirParam()’(2732) 상세 신택스를 도시한 것이다. fcAnaRir필드는 주파수 도메인으로 변환된 RIR의 late reverberation analysis 밴드의 중심 주파수를 정의한다. rt60Rir필드는 주파수 도메인으로 변환된 RIR의 late reverberation analysis 밴드의 잔향 시간 RT60 (단위: 초)를 정의한다. nrgLrRir 필드는 주파수 도메인으로 변환된 RIR의 late reverberation analysis 밴드에서 late reverberation 부분의 에너지를 나타내는 에너지 값 (2의 제곱)을 정의한다.
도44은 상기 ’QtdlBrirParam()’(2733) 상세 신택스를 도시한 것이다. nBitQtdlLagRir필든는 주파수 도메인으로 변환된 RIR의 QTDL 밴드에서 사용된 lag의 비트 수를 정의한다. QtdlGainRirReal 필드는 주파수 도메인으로 변환된 RIR의 QTDL 밴드에서 QTDL gain의 실수 값을 정의한다. QtdlGainRirImag 필드는 주파수 도메인으로 변환된 RIR의 QTDL 밴드에서 QTDL gain의 허수 값을 정의한다. QtdlLagRir 필드는 주파수 도메인으로 변환된 RIR의 QTDL 밴드에서 QTDL의 지연 값 (단위: sample)을 정의한다.
도45는 전술한 상기 ‘TdRoomRendererParam()’(274) 상세 신택스를 도시한 것이다. bsDelayRir 필드는 출력 신호에 시작 부분에 적용할 sample의 delay(Parameterization 과정에서 제거된 RIR의 propagation delay를 보상하기 위해 사용)를 정의한다. bsDirectLenRir필드는 Parameterization된 RIR의 direct part의 샘플 크기를 정의한다. bsNbDiffuseBlocksRir필드는 Parameterization된 RIR의 diffuse part의 block 수를 정의한다. bsFmaxDirectRir필드는 ‘0’과 ‘1’사이의 값으로 주어진 RIR의 Direct part의 cutoff frequency를 정의한다. 예를 들어, ‘1’은 Nyquist frequency를 의미한다. bsFmaxDiffuseRir필드는 ‘0’과 ‘1’ 사이의 값으로 주어진 RIR의 Diffuse part의 cutoff frequency를 정의한다.예를 들어, ‘1’은 Nyquist frequency를 의미한다. bsWeightsRir필드는 RIR의 diffuse part를 filtering하기전에 입력 채널 신호에 적용하는 gain 값을 정의한다. bsFIRDirectRir필드는 Parameterization된 RIR의 direct part의 FIR 계수를 정의한다. bsFIRDiffuseRir필드는: Parameterization된 RIR의 diffuse part의 FIR 계수를 정의한다.
도46은 전술한 상기 ‘HRIRGeneration()’(275) 상세 신택스를 도시한 것이다. bsHRIRDataFormatID필드는 HRIR의 표현 유형을 나타낸다. 상기 HRIR의 표현 유형은, ‘HRIRFIRData()’(2751) 및 ‘HRIRModeling()’(2752)를 포함한다.
도47은 상기 ‘HRIRFIRData()’(2751) 상세 신택스를 도시한 것이다. bsNumHRIRCoefs 필드는 HRIR filter의 길이를 의미한다. bsFirHRIRCoefLeft 필드는 왼쪽 귀의 HRIR filter의 계수 값을 나타낸다. bsFirHRIRCoefRight 필드는 오른쪽 귀의 HRIR filter의 계수 값을 나타낸다.
도48은 상기 ‘HRIRModeling()’(2752) 상세 신택스를 도시한 것이다. HeadRadius 필드는 머리 반지름을 의미하며, cm 단위로 나타낸다. PinnaModelIdx 필드는 Pinna model을 모델링 할 때 사용되는 계수들이 정의된 테이블(table)에 대한 인덱스(index)를 의미한다.
도49는 본 발명에 따른, 오디오 인코딩 방법의 흐름도를 도시한 것이다. 또한, 도50은 본 발명에 따른, 상기 도49에 대응하는 오디오 디코딩 방법의 흐름도를 도시한 것이다. 관련하여, 본 발명의 도49 및 도50의 흐름도는 전술한 실시예들중, BRIR(or RIR) 파라미터화 과정 없이 인코딩 및 디코딩을 수행하는 실시예들에 대해 포괄하여 기술한 것이다.
단계 S101은, 측정 혹은 모델링된 BRIR(or RIR)을 생성하는 과정이다.
단계 S102은, 상기 S101단계에서 측정 혹은 모델링된 BRIR(or RIR)을 BRIR(or RIR) 인코더에 입력하여 BRIR(or RIR) 데이터를 생성하는 과정이다.
단계 S103은, 입력 신호를 3D 오디오 인코더에 입력하여 인코딩된 오디오 신호를 생성하는 과정이다.
단계 S104는, 상기 S102 및 S103 단계에서, 각각 생성된 BRIR(or RIR) 데이터 및 인코딩된 오디오 신호를 멀티플랙싱(multiplexing)하여서 비트스트림을 생성하는 과정이다.
또한, 상기 비트스트림을 수신하여 디코딩하는 과정은 다음과 같다.
단계 S201은 수신된 비트스트림을 3D 오디오 디코더에 입력하여 디코딩된 오디오 신호와 오브젝트 메타데이터를 출력하는 과정이다.
단계 S205는 메타데이터 프로세서(Metadata and interface data processing)에서, 상기 오브젝트 메타데이터를 입력받고, 추가적으로 환경 설정 정보(Environment setup information) 및, 사용자 위치 정보(User position information)를 함께 입력받아, 재생 환경 정보를 생성하여 설정하고, 또한, 사용자 인터액션 정보(Element interaction information)를 참조하여 필요시 상기 오브젝트 메타데이터를 수정하는 과정이다.
단계 S202는 랜더러(Renderer)에서, 입력된 상기 디코딩된 오디오 신호 및 재생 환경 정보에 대응하여 랜더링(rendering)하는 과정이다. 특히, 상기 디코딩된 오디오 신호중 오브젝트 신호에 대해서는 상기 오브젝트 메타데이터를 적용하여 랜더링(rendering) 한다.
단계 S203은 랜더러(Renderer) 또는 별도 구비된 믹서(Mixer)에서 상기 랜더링된 신호(Rendered signal)가 두 가지 타입 이상일 경우, 두 타입 신호를 더 하는 과정이다. 상기 과정 외에도 단계 S203 믹싱(mixing) 과정은, 상기 랜더링된 신호(Rendered signal)에 지연(delay) 혹은 게인(gain) 등을 추가적으로 적용시에도 활용된다.
단계 S211은, BRIR(or RIR) 비트스트림을 BRIR(or RIR) 디코더에 입력하여 디코딩된 BRIR(or RIR) 데이터를 출력하는 과정이다.
단계 S212는, 환경 설정 정보(Environment setup information)를 참조하여 재생 환경에 맞는 BRIR(or RIR)을 선택하는 과정이다.
단계 S213은 6DoF 환경 지원여부를 입력 비트스트림 신택스(syntax)로부터 확인하는 과정이다.
단계 S209는, 6DoF 환경인 경우, RIR 데이터가 사용되었는 지 여부를 확인하는 과정이다.
단계 S207은, 상기 단계 S213 및 S209를 통해, 6DoF Mode에서 동작하고 RIR이 사용되었다고 판단되면(S209, ‘y’패스), 사용자 위치 정보를 참조하여 사용자 위치와 가장 근접한 위치에서 측정된 RIR을 추출하는 과정이다.
단계 S206은, 사용자 머리 관련 정보(User head information)와 환경 설정 정보(Environment setup information)를 이용하여, HRIR 모델링을 수행하고, 결과로서 HRIR 데이터를 출력하는 과정이다.
단계 S208은, 상기 모델링된 HRIR 데이터 및 상기 단계 S207에서 추출된 RIR 데이터를 합성(Synthesizing)하여 BRIR을 생성하는 과정이다.
단계 S210은, 상기 단계 S213 및 S209를 통해, 6DoF Mode에서 동작하고 RIR이 사용되지 않는다고 판단되면, 즉 BRIR이 사용된 것으로 판단되면(S209, ‘n’패스), 사용자 위치 정보를 참조하여 사용자 위치와 가장 근접한 위치에서 측정된 BRIR을 추출하는 과정이다.
단계 S214는, 상기 단계 S213을 통해, 6DoF Mode에서 동작하지 않고 RIR이 사용되었다고 판단되면(S214 ‘y’패스), 사용된 RIR을 전술한 단계 S208 (Synthesizing)에 전달하는 과정이다. 상기 단계 S208에 전달된 RIR은 전술한 단계 S206을 통해 생성된 HRIR과 함께 BRIR을 합성에 이용된다. 단, 만약 상기 단계 S213을 통해, 6DoF Mode에서 동작하지 않고 BRIR이 사용되었다고 판단되면(S214 ‘n’패스), 상기 디코딩된 BRIR을 다음 단계 S204로 전달한다. 따라서, 단계 S211에서 상기 BRIR(or RIR) 비트스트림을 디코딩한 이후, 전술한 단계 S208, S210, S214 중 어느 한 단계를 통해 최종 BRIR를 확보하게 된다.
단계 S204는, 상기 확보한 BRIR를 상기 단계 S203 출력 신호에, 필터링하여 바이너럴 랜더링된 오디오 출력 신호(Output signal)을 출력하는 과정이다.
도51은 본 발명에 따른, 오디오 인코딩 방법의 다른 흐름도를 도시한 것이다. 또한, 도52는 본 발명에 따른, 상기 도51에 대응하는 오디오 디코딩 방법의 다른 흐름도를 도시한 것이다. 관련하여, 본 발명의 도51 및 도52의 흐름도는 전술한 실시예들중, BRIR(or RIR) 파라미터화 과정을 포함하여, 인코딩 및 디코딩을 수행하는 실시예들에 대해 포괄하여 기술한 것이다.
단계 S301은 측정 혹은 모델링된 BRIR(or RIR)을 생성하는 과정이다.
단계 S302는 상기 측정 혹은 모델링된 BRIR(or RIR)을 BRIR(or RIR) 파라미터 생성부(parameterization)에 입력하여 BRIR(or RIR) 파라미터들을 추출하는 과정이다.
단계 S303은 상기 S302단계에서 추출된 BRIR(or RIR) 파라미터들을 인코딩하여 인코딩된 BRIR(or RIR) 파라미터 데이터를 생성하는 과정이다.
단계 S304은 입력 신호를 3D 오디오 인코더에 입력하여 인코딩된 오디오 신호를 생성하는 과정이다.
단계 S305는 상기 S303 및 S304 단계에서, 각각 생성된 BRIR(or RIR) 파라미터 데이터 및 인코딩된 오디오 신호를 멀티플랙싱(multiplexing)하여서 비트스트림을 생성하는 과정이다.
또한, 상기 비트스트림을 수신하여 디코딩하는 과정은 다음과 같다.
단계 S401은 수신된 비트스트림을 3D 오디오 디코더에 입력하여 디코딩된 오디오 신호와 오브젝트 메타데이터를 출력하는 과정이다.
단계 S406은 메타데이터 프로세서(Metadata and interface data processing)에서, 상기 오브젝트 메타데이터를 입력 받고, 추가적으로 환경 설정 정보(Environment setup information) 및 사용자 위치 정보(User position information)를 함께 입력 받아, 재생 환경 정보를 생성하여 설정하고, 또한, 사용자 인터액션 정보(Element interaction information)를 참조하여 필요시 상기 오브젝트 메타데이터를 수정하는 과정이다.
단계 S402는 랜더러(Renderer)에서, 입력된 상기 디코딩된 오디오 신호 및 재생 환경 정보에 대응하여 랜더링(rendering)하는 과정이다. 특히, 상기 디코딩된 오디오 신호중 오브젝트 신호에 대해서는 상기 오브젝트 메타데이터를 적용하여 랜더링(rendering) 한다.
단계 S403은 랜더러(Renderer) 또는 별도 구비된 믹서(Mixer)에서, 상기 랜더링된 신호(Rendered signal)가 두 가지 타입 이상일 경우, 두 타입 신호를 더 하는 과정이다. 상기 과정 외에도 단계 S403 믹싱(mixing) 과정은, 상기 랜더링된 신호(Rendered signal)에 지연(delay) 혹은 게인(gain) 등을 추가적으로 적용시에도 활용된다.
단계 S413은 BRIR(or RIR) 비트스트림을 BRIR(or RIR) 파라미터 디코더에 입력하여 디코딩된 BRIR(or RIR) 파라미터 데이터를 출력하는 과정이다.
단계 S414는 환경 설정 정보(Environment setup information)를 참조하여 재생 환경에 맞는 BRIR(or RIR) 파라미터 데이터를 선택하는 과정이다.
단계 S415은 6DoF 환경 지원여부를 입력 비트스트림 신택스(syntax)로부터 확인하는 과정이다.
단계 S411은 6DoF 환경인 경우, RIR 파라미터 데이터가 사용되었는지 여부를 확인하는 과정이다.
단계 S410은 상기 단계 S415 및 S411을 통해, 6DoF Mode에서 동작하고 RIR파라미터가 사용되었다고 판단되면(S411, ‘y’패스), 사용자 위치 정보를 참조하여 사용자 위치와 가장 근접한 위치에서 측정된 RIR파라미터를 추출하는 과정이다.
단계 S409는 사용자 머리 관련 정보(User head information)와 환경 설정 정보(Environment setup information)를 이용하여, HRIR 모델링을 수행하고, 결과로서 HRIR 데이터를 출력하는 과정이다.
단계 S412는 상기 단계 S415 및 S411을 통해, 6DoF Mode에서 동작하고 RIR이 사용되지 않는다고 판단되면, 즉 BRIR이 사용된 것으로 판단되면(S411, ‘n’패스), 사용자 위치 정보를 참조하여 사용자 위치와 가장 근접한 위치에서 측정된 BRIR파라미터를 추출하는 과정이다.
단계 S416은, 만약 상기 단계 S415를 통해, 6DoF Mode에서 동작하지 않는다고 판단되면(S415 ‘n’패스), RIR 파라미터가 사용되었는지 여부를 확인하는 과정이다.
만약, 상기 단계 S416를 통해 RIR 파라미터가 사용되었다고 판단되면(S416 ‘y’패스), 디코딩된 RIR 파라미터와 상기 단계 S409에서 생성된 HRIR 데이터를 활용하게 된다. 단, 만약 상기 단계 S416를 통해 BRIR 파라미터가 사용되었다고 판단되면(S416 ‘n’패스), 상기 디코딩된 BRIR 파라미터를 그대로 활용하게 된다. 따라서 BRIR(or RIR) 파라미터 데이터를 포함한 비트스트림을 디코딩한 이후, 전술한 단계 S409, S410, S412, S416 단계를 통해 최종 BRIR 파라미터 또는 RIR 파라미터 및 HRIR 데이터를 확보하게 된다.
단계 S404는 상기 단계 S403(mixing) 이후, RIR 파라미터 사용 여부를 확인하는 과정이다.
단계 S407은, 만약, 상기 단계 S404에서 RIR 파라미터 사용된다고 판단되면 (S404 ‘y’패스), 전술한 단계 S409를 통해 생성된 HRIR 데이터를 HRIR 바이너럴 랜더링(HRIR Binaural Rendering ) 하여 랜더링된 신호를 출력하는 과정이다.
단계 S408은, 상기 단계 S407에서 랜더링된 신호에 단계 S410에서 추출된 RIR 파라미터를 합성하여 최종 바이너럴 랜더링된(binaural rendered signal) 오디오 신호(Output signal)를 출력하는 과정이다.
단계 S405는, 만약, 상기 단계 S404에서 RIR 파라미터 사용되지 않는다면, 즉 BRIR 파라미터가 사용된다고 판단되면 (S404 ‘n’패스), 상기 단계 S412 또는 S416에서 생성된 BRIR 파라미터를 활용하여 최종 바이너럴 랜더링된(binaural rendered signal) 오디오 신호(Output signal)를 출력하는 과정이다.
본 발명의 전술한 실시예는, 3차원 오디오를 3DoF 환경 및/또는 6DoF 환경에서 재생하기 위한 다양한 오디오 재생 장치 및 방법을 제안하였다. 또한, 본 발명은 다음과 같은 오디오 재생 과정을 통해서도 구현 가능하다.
입력되는 비트스트림은 디멀티플랙서(De-Multiplexer)에서 오디오 신호와 RIR 데이터로 분리 추출된다. 3D 오디오 디코더는 상기 오디오 데이터를 디코딩하여 디코딩된 오디오 신호 오브젝트 메아데이터를 출력한다. 오브젝트 메타데이터는 메타데이터 프로세서로 입력되고, 재생 환경 정보 및 사용자 인터액션 정보들에 의해 수정된다. 이후, 오브젝트 메타데이터는 디코딩된 오디오 신호와 함께 랜더링 및 믹싱과정을 통해 설정된 재생 환경에 적합한 채널 신호(ch1,ch2,…,chN)를 출력하게 된다. 상기 디멀티플랙서에서 추출된 RIR 데이터는 RIR 디코딩 및 선택부에 입력되고, 상기 재생 환경 정보를 참조하여 필요한 RIR 들을 디코딩한다. 만약 디코더를 6DoF 환경에서 사용할 경우, 상기 RIR 디코딩 및 선택부에서는 사용자 위치 정보(User position information)도 추가적으로 참조하여 필요한 RIR들만을 디코딩 한다. 또 다른 정보로서, 사용자 머리 관련 정보(User head information)과 재생 환경 정보는 HRIR 모델링부(modeling)에 입력하여 HRIR을 모델링한다. 모델링된 HRIR을 상기 디코딩된 RIR 데이터과 함께 합성(Synthesizing)하여 BRIR을 생성하게 된다. 상기 생성된 BRIR은 바이너럴 랜더러(Binaural Render)에서 바이너럴 랜더링된 2채널 오디오 신호(Left signal, Right signal)을 출력한다. 상기 바이너럴 랜더링된 2채널 오디오 신호는 각각 디지털 아날로그 컨버터(D/A Converter)와 증폭기(Amp)를 통해서 헤드폰의 좌우 트랜듀서(Left transducer, Right transducer)로 재생된다.
전술한 본 발명 실시예들은, 3차원 오디오를 재생하는 다양한 응용분야에 적용 가능하다. 또한, 본 발명 실시예들은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 정보가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예를 들어는, HDD(Hard Dis k Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 정보 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현 되는 것도 포함한다. 또한, 상기 컴퓨터는 오디오 디코더(11, Audio Decoder), 랜더러(12, Renderer), 바이너럴 랜더러(13, Binaural Renderer) 및 메타데이터 프로세서(14, Metadata and Interface data processor)를 전체적으로 또는 일부 구성으로 포함할 수 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (18)

  1. 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계,
    상기 수신된 오디오 신호에 RIR(Room Impulse Response) 데이터가 포함된 경우에는 상기 RIR데이터를 디코딩하는, RIR디코딩 단계,
    상기 수신된 오디오 신호에 RIR 데이터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성 단계,
    상기 디코딩된 RIR 데이터와 모델링된 HRIR 데이터를 합성하여 BRIR(Binaural Room Impulse Response) 데이터를 생성하는, BRIR합성 단계, 및
    상기 생성된 BRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호로 출력하는, 바이너럴 랜더링 단계를 포함하는 것을 특징으로 하는 3차원 오디오 재생 방법.
  2. 제 1항에 있어서,
    스피커 정보(Speaker format info)를 입력 받는 단계를 더 포함하되,
    상기 RIR디코딩 단계는, 상기 스피커 정보(Speaker format info)에 대응하는 RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 하는 3차원 오디오 재생 방법.
  3. 제 2항에 있어서,
    상기 HRIR생성 단계는 상기 사용자 머리 정보(user head info) 및 상기 스피커 정보(Speaker format info)에 대응하는 HRIR 데이터를 모델링하여 생성하는 것을 특징으로 하는 3차원 오디오 재생 방법.
  4. 제 2항에 있어서,
    상기 HRIR생성 단계는, HRIR 데이터베이스(DB)로부터 대응하는 HRIR 데이터를 선택하여 생성하는 것을 특징으로 하는 3차원 오디오 재생 방법.
  5. 제 1항에 있어서,
    상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 모드 지시 정보(is6DoFMode)를 확인하는 단계, 및
    상기 정보(is6DoFMode)로부터, 6DoF가 지원되는 경우, 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)를 획득하는 단계를 더 포함하는 것을 특징으로 하는 3차원 오디오 재생 방법.
  6. 제 5항에 있어서,
    상기 RIR디코딩 단계는, 상기 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)에 대응하는RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 하는 3차원 오디오 재생 방법.
  7. 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 디코딩 단계,
    상기 수신된 오디오 신호에 RIR(Room Impulse Response) 파라미터가 포함된 경우에는 상기 RIR파라미터를 디코딩하는, RIR디코딩 단계,
    상기 수신된 오디오 신호에 RIR 파라미터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성 단계,
    상기 생성된 HRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호를 출력하는 랜더링 단계, 및
    상기 바이너럴 랜더링된 오디오 신호에 상기 디코딩된 RIR파라미터를 적용하여 공간 특성에 적합한 오디오 신호로 보정하여 출력하는 합성 단계를 포함하는 것을 특징으로 하는 3차원 오디오 재생 방법.
  8. 제 7항에 있어서,
    상기 수신된 오디오 신호내에 포함된 3DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(isRoomData)를 확인하는 단계,
    상기 정보(isRoomData)로부터, 3DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bsRoomDataFormatID)를 확인하는 단계, 및
    상기 정보(bsRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData()’ 신택스, ‘FdRoomRendererParam()’ 신택스 또는 ‘TdRoomRendererParam()’ 신택스 중 하나 이상을 획득하는 단계를 더 포함하는 것을 특징으로 하는 3차원 오디오 재생 방법.
  9. 제 7항에 있어서,
    상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(is6DoFRoomData)를 확인하는 단계,
    상기 정보(is6DoFRoomData)로부터, 6DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bs6DoFRoomDataFormatID)를 확인하는 단계, 및
    상기 정보(bs6DoFRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData6DoF()’ 신택스, ‘FdRoomRendererParam6DoF()’ 신택스 또는 ‘TdRoomRendererParam6DoF()’ 신택스 중 하나 이상을 획득하는 단계를 더 포함하는 것을 특징으로 하는 3차원 오디오 재생 방법.
  10. 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 오디오 디코더,
    상기 수신된 오디오 신호에 RIR(Room Impulse Response) 데이터가 포함된 경우에는 상기 RIR데이터를 디코딩하는, RIR디코더,
    상기 수신된 오디오 신호에 RIR 데이터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성부,
    상기 디코딩된 RIR 데이터와 모델링된 HRIR 데이터를 합성하여 BRIR(Binaural Room Impulse Response) 데이터를 생성하는, BRIR합성부, 및
    상기 생성된 BRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호로 출력하는, 바이너럴 랜더러를 포함하는 것을 특징으로 하는 3차원 오디오 재생 장치.
  11. 제 10항에 있어서,
    상기 RIR디코더는, 스피커 정보(Speaker format info)를 입력 받아, 상기 스피커 정보(Speaker format info)에 대응하는 RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 하는 3차원 오디오 재생 장치.
  12. 제 11항에 있어서,
    상기 HRIR생성부는 상기 사용자 머리 정보(user head info) 및 상기 스피커 정보(Speaker format info)에 대응하는 HRIR 데이터를 모델링하여 생성하는 HRIR 모델링부를 포함하는 것을 특징으로 하는 3차원 오디오 재생 장치.
  13. 제 11항에 있어서,
    상기 HRIR생성부는, HRIR 데이터베이스(DB)로부터 대응하는 HRIR 데이터를 선택하여 생성하는 HRIR 선택부를 포함하는 것을 특징으로 하는 3차원 오디오 재생 장치.
  14. 제 10항에 있어서,
    상기 RIR디코더는, 상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 모드 지시 정보(is6DoFMode)를 확인하고, 상기 정보(is6DoFMode)로부터, 6DoF가 지원되는 경우, 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)를 획득하는 것을 특징으로 하는 3차원 오디오 재생 장치.
  15. 제 14항에 있어서,
    상기 RIR디코더는, 상기 사용자 위치 정보(user position info) 및 스피커 정보(Speaker format info)에 대응하는RIR 데이터 부분을 선택하고, 선택된 RIR 데이터에 대해서만 디코딩하는 것을 특징으로 하는 3차원 오디오 재생 장치.
  16. 수신된 오디오 신호를 디코딩하여, 디코딩된 오디오 신호(decoded signal) 및 메타데이터(metadata)를 출력하는 오디오 디코더,
    상기 수신된 오디오 신호에 RIR(Room Impulse Response) 파라미터가 포함된 경우에는 상기 RIR파라미터를 디코딩하는, RIR디코더,
    상기 수신된 오디오 신호에 RIR 파라미터가 포함된 경우, 사용자 머리 정보(user head info)를 활용하여 HRIR(Head-related impulse response) 데이터를 생성하는, HRIR생성부,
    상기 생성된 HRIR 데이터를 상기 디코딩된 오디오 신호(decoded signal)에 적용하여 바이너럴 랜더링된(binaural rendered signal) 오디오 신호를 출력하는 바이너럴 랜더러, 및
    상기 바이너럴 랜더링된 오디오 신호에 상기 디코딩된 RIR파라미터를 적용하여 공간 특성에 적합한 오디오 신호로 보정하여 출력하는 합성부를 포함하는 것을 특징으로 하는 3차원 오디오 재생 장치.
  17. 제 16항에 있어서,
    상기 RIR디코더는, 상기 수신된 오디오 신호내에 포함된 3DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(isRoomData)를 확인하고, 상기 정보(isRoomData)로부터, 3DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bsRoomDataFormatID)를 확인하고, 상기 정보(bsRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData()’ 신택스, ‘FdRoomRendererParam()’ 신택스 또는 ‘TdRoomRendererParam()’ 신택스 중 하나 이상을 획득하는 것을 특징으로 하는 3차원 오디오 재생 장치.
  18. 제 16항에 있어서,
    상기 RIR디코더는, 상기 수신된 오디오 신호내에 포함된 6DoF(Degree of Freedom) 환경에서의 RIR 파라미터 포함 여부를 지시하는 정보(is6DoFRoomData)를 확인하고, 상기 정보(is6DoFRoomData)로부터, 6DoF 환경에서 제공되는 RIR 파라미터 유형을 지시하는 정보(bs6DoFRoomDataFormatID)를 확인하고, 상기 정보(bs6DoFRoomDataFormatID)에 대응하는, RIR 파라미터 신택스로서, 적어도 ‘RoomFirData6DoF()’ 신택스, ‘FdRoomRendererParam6DoF()’ 신택스 또는 ‘TdRoomRendererParam6DoF()’ 신택스 중 하나 이상을 획득하는 것을 특징으로 하는 3차원 오디오 재생 장치.
PCT/KR2017/012881 2017-08-10 2017-11-14 3차원 오디오 재생 방법 및 재생 장치 WO2019031652A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/636,188 US10939222B2 (en) 2017-08-10 2017-11-14 Three-dimensional audio playing method and playing apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201762543385P 2017-08-10 2017-08-10
US62/543,385 2017-08-10

Publications (1)

Publication Number Publication Date
WO2019031652A1 true WO2019031652A1 (ko) 2019-02-14

Family

ID=65271673

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/012881 WO2019031652A1 (ko) 2017-08-10 2017-11-14 3차원 오디오 재생 방법 및 재생 장치

Country Status (2)

Country Link
US (1) US10939222B2 (ko)
WO (1) WO2019031652A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020132412A1 (en) * 2018-12-21 2020-06-25 Nura Holdings Pty Ltd Audio equalization metadata
WO2021041668A1 (en) * 2019-08-27 2021-03-04 Anagnos Daniel P Head-tracking methodology for headphones and headsets
EP4292295A1 (en) 2021-02-11 2023-12-20 Nuance Communications, Inc. Multi-channel speech compression system and method
WO2024012666A1 (en) * 2022-07-12 2024-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding ar/vr metadata with generic codebooks
WO2024012665A1 (en) * 2022-07-12 2024-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding of precomputed data for rendering early reflections in ar/vr systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013243572A (ja) * 2012-05-22 2013-12-05 Nippon Hoso Kyokai <Nhk> 残響応答生成装置およびそのプログラム
KR20160136716A (ko) * 2015-05-20 2016-11-30 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
KR20160145646A (ko) * 2014-04-11 2016-12-20 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103329576B (zh) * 2011-01-05 2016-12-07 皇家飞利浦电子股份有限公司 音频系统及其操作方法
US10469969B2 (en) * 2013-09-17 2019-11-05 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing multimedia signals
WO2015048551A2 (en) * 2013-09-27 2015-04-02 Sony Computer Entertainment Inc. Method of improving externalization of virtual surround sound
JP6151866B2 (ja) * 2013-12-23 2017-06-21 ウィルス インスティテュート オブ スタンダーズ アンド テクノロジー インコーポレイティド オーディオ信号のフィルタ生成方法およびそのためのパラメータ化装置
US9832585B2 (en) * 2014-03-19 2017-11-28 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and apparatus
US9848275B2 (en) * 2014-04-02 2017-12-19 Wilus Institute Of Standards And Technology Inc. Audio signal processing method and device
US10327090B2 (en) * 2016-09-13 2019-06-18 Lg Electronics Inc. Distance rendering method for audio signal and apparatus for outputting audio signal using same
US10492016B2 (en) * 2016-09-29 2019-11-26 Lg Electronics Inc. Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013243572A (ja) * 2012-05-22 2013-12-05 Nippon Hoso Kyokai <Nhk> 残響応答生成装置およびそのプログラム
KR20160145646A (ko) * 2014-04-11 2016-12-20 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR20160136716A (ko) * 2015-05-20 2016-11-30 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HERRE, JRGEN ET AL.: "MPEG-H 3D Audio-The New Standard for Coding of Immersive Spatial Audio", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, vol. 9, August 2015 (2015-08-01), pages 770 - 779, XP011662878, Retrieved from the Internet <URL:http://ieeexplore.ieee.org/document/7056445> DOI: doi:10.1109/JSTSP.2015.2411578 *
MOON, HYEON GI ET AL.: "MPEG-H 3D Audio Decoder Structure and Complexity Analysis", THE JOURNAL OF KOREAN INSTITUTE OF COMMUNICATIONS AND INFORMATION SCIENCES, vol. 42, no. 2, February 2017 (2017-02-01), pages 432 - 443, Retrieved from the Internet <URL:http://www.dbpia.co.kr/Journal/ArticleDetail/NODE07119191> *

Also Published As

Publication number Publication date
US10939222B2 (en) 2021-03-02
US20200374646A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
WO2019031652A1 (ko) 3차원 오디오 재생 방법 및 재생 장치
WO2016024847A1 (ko) 음향 신호를 생성하고 재생하는 방법 및 장치
WO2018056780A1 (ko) 바이노럴 오디오 신호 처리 방법 및 장치
WO2015142073A1 (ko) 오디오 신호 처리 방법 및 장치
WO2015152663A2 (ko) 오디오 신호 처리 방법 및 장치
WO2018182274A1 (ko) 오디오 신호 처리 방법 및 장치
WO2015199508A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2015147530A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2017191970A2 (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치
WO2016089180A1 (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
WO2019004524A1 (ko) 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치
WO2015147619A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2014088328A1 (ko) 오디오 제공 장치 및 오디오 제공 방법
WO2015099424A1 (ko) 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
WO2012005507A2 (en) 3d sound reproducing method and apparatus
EP2561688A2 (en) Method and apparatus for reproducing stereophonic sound
WO2019147064A1 (ko) 오디오 데이터를 송수신하는 방법 및 그 장치
WO2015060654A1 (ko) 오디오 신호의 필터 생성 방법 및 이를 위한 파라메터화 장치
WO2019107868A1 (en) Apparatus and method for outputting audio signal, and display apparatus using the same
WO2015105393A1 (ko) 삼차원 오디오 재생 방법 및 장치
WO2015156654A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2019147040A1 (ko) 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치
WO2019054559A1 (ko) Brir/rir 파라미터화(parameterization)를 적용한 오디오 인코딩 방법 및 파라미터화된 brir/rir 정보를 이용한 오디오 재생 방법 및 장치
WO2016190460A1 (ko) 입체 음향 재생 방법 및 장치
WO2019066348A1 (ko) 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17921254

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17921254

Country of ref document: EP

Kind code of ref document: A1