WO2019190261A1 - 멀티레이어 바이노럴 컨텐츠 생성 방법 및 이를 위한 프로그램 - Google Patents

멀티레이어 바이노럴 컨텐츠 생성 방법 및 이를 위한 프로그램 Download PDF

Info

Publication number
WO2019190261A1
WO2019190261A1 PCT/KR2019/003700 KR2019003700W WO2019190261A1 WO 2019190261 A1 WO2019190261 A1 WO 2019190261A1 KR 2019003700 W KR2019003700 W KR 2019003700W WO 2019190261 A1 WO2019190261 A1 WO 2019190261A1
Authority
WO
WIPO (PCT)
Prior art keywords
layer
binaural
output
audio
content
Prior art date
Application number
PCT/KR2019/003700
Other languages
English (en)
French (fr)
Inventor
신대철
Original Assignee
신대철
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 신대철 filed Critical 신대철
Publication of WO2019190261A1 publication Critical patent/WO2019190261A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Definitions

  • the present invention relates to a method for generating a multilayer binaural content and a program therefor, and more particularly, to a binaural output to which audio effects according to a user input are applied.
  • the present invention relates to a technology for providing content that maximizes a binaural listening environment based on an audio output.
  • An object of the present invention is to provide a listening environment suitable for a user's taste by providing an interface for individually performing effect editing on various sound elements.
  • the method for generating a multilayer binaural content generates a 3D layer binaural output by performing a 3D layer binaural encoding corresponding to a 3D binaural layer.
  • Generating a planar layer audio output by performing audio processing corresponding to the planar layer; Applying an audio effect corresponding to each of the three-dimensional layer binaural output and the planar layer audio output based on a user input to an audio effect interface; And combining the 3D layer binaural output and the planar layer audio output to which the audio effect is applied to generate the multilayer binaural content.
  • the multilayer binaural content generating method may further include applying head tracking data corresponding to each of the 3D binaural output and the planar layer audio output.
  • the head tracking data may correspond to any one of sensor input based automatic head tracking data and user input based manual head tracking data for the head tracking interface.
  • the head tracking data may be converted into a log formula within a preset tracking limit and applied.
  • the step of applying the audio effect may be performed for at least one of a room setting, an equalizer setting, and a plug-in setting.
  • the planar layer performs surround layer binaural encoding to generate a surround layer binaural output, and inputs a surround layer and a stereo signal for providing the generated surround layer binaural output to the planar layer audio output.
  • a proximity stereo layer that receives and generates the planar layer audio output corresponding to the stereo signal.
  • the three-dimensional layer binaural output corresponds to a three-dimensional vector of binaural points located on an eight-channel-based three-dimensional cubic composed of four up channels and four down channels. Can be generated.
  • generating the multilayer binaural content may include applying an audio effect corresponding to a subwoofer output corresponding to a subwoofer layer based on a user input to the audio effect interface; And generating the multilayer binaural content by summing the subwoofer output to which the audio effect is applied together with the 3D layer binaural output and the planar layer audio output to which the audio effect is applied.
  • the method of generating a multilayer binaural content may further include resetting the audio effect in consideration of automation information about a binaural audio source.
  • the applying of the audio effect may apply the audio effect in accordance with a preset application range of the entire range of the binaural audio source.
  • the multilayer binaural content generating program stored in the computer-readable recording medium according to an embodiment of the present invention, by performing a three-dimensional layer binaural encoding corresponding to the three-dimensional binaural layer, Generating a binaural output and performing audio processing corresponding to the planar layer to generate a planar layer audio output; Applying an audio effect corresponding to each of the three-dimensional layer binaural output and the planar layer audio output based on a user input to an audio effect interface; And generating the multilayer binaural content by adding the 3D layer binaural output and the planar layer audio output to which the audio effect is applied.
  • applying the head tracking data corresponding to each of the 3D binaural output and the planar layer audio output may be performed.
  • the head tracking data may correspond to any one of sensor input based automatic head tracking data and user input based manual head tracking data for the head tracking interface.
  • the head tracking data may be converted into a log formula within a preset tracking limit and applied.
  • the audio effect may be applied by setting at least one of a room setting, an equalizer setting, and a plug-in setting.
  • the planar layer performs surround layer binaural encoding to generate a surround layer binaural output, and inputs a surround layer and a stereo signal for providing the generated surround layer binaural output to the planar layer audio output.
  • a proximity stereo layer that receives and generates the planar layer audio output corresponding to the stereo signal.
  • the three-dimensional layer binaural output corresponds to a three-dimensional vector of binaural points located on an eight-channel-based three-dimensional cubic composed of four up channels and four down channels. Can be generated.
  • the step of resetting the audio effect may be further performed in consideration of the automation information of the binaural audio source.
  • the audio effect may be applied to correspond to a predetermined application range among the entire range of the binaural audio source.
  • the present invention it is possible to provide a listening environment suitable for a user's taste by providing an interface for individually performing effect editing on various sound elements.
  • the object of the present invention is to preserve the sound quality that can be distorted by the abrupt change of the head tracking data.
  • the present invention can provide a method for generating binaural content that can maximize the binaural effect by mixing various sound elements.
  • FIG. 1 is a block diagram illustrating a multilayer binaural content generation system according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating a method of generating multilayer binaural content according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a multilayer binaural content generation system according to another embodiment of the present invention.
  • FIG. 4 is a diagram showing a detailed structure for generating a three-dimensional layer binaural output according to an embodiment of the present invention.
  • FIG. 5 is a view showing an example of an eight-channel based three-dimensional cubic (cubic) according to the present invention.
  • FIG. 6 illustrates a detailed structure for generating a surround layer binaural output according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating an example of a 5-channel surround layer according to the present invention.
  • FIG. 8 is a diagram showing a detailed structure for generating a stereo signal according to an embodiment of the present invention.
  • FIG. 9 illustrates an example of a proximity stereo layer according to the present invention.
  • FIG. 10 illustrates a detailed structure for generating a subwoofer output according to an embodiment of the present invention.
  • FIG. 11 is a diagram illustrating an example of a structure in which a three-dimensional binaural layer, a planar layer, and a subwoofer layer are combined according to the present invention.
  • FIGS. 14 to 15 are diagrams showing an example of an audio effect interface according to the present invention.
  • 16 is a diagram illustrating an example of a head tracking interface according to the present invention.
  • 17 is a diagram illustrating an example of head tracking data according to the present invention.
  • FIG. 18 is a block diagram illustrating a terminal device for executing a multilayer binaural content generation program according to an embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating a multilayer binaural content generation system according to an embodiment of the present invention.
  • a multilayer binaural content generation system includes a binaural audio source 110, a multilayer decoder 120, a layer 130, and an individual editing module for each layer ( 140, audio mixer 150, and multilayer binaural content 160.
  • binaural technology is a method of decoding and providing a binaural encoded binaural output for a multi-channel audio file through a dedicated player.
  • binaural encoding uses a fixed speaker disposed at a certain distance from the listening position, it is difficult to adjust the position of the speaker to increase or decrease the image of the space.
  • the binaural content can be played only by using a dedicated player, the efficiency may be reduced in terms of utilization.
  • the loudness should be delivered to the listeners due to the nature of the music content, only the binaural encoder has a limitation in providing sound effects optimized for the music content.
  • the conventional binaural technology uses only one encoder specialized for an effect mainly used according to the content, it is impossible to apply various effects of the directing effect.
  • the subwoofer is often not used for the music content, it has hardly been attempted to provide the bass reproduction element according to the subwoofer to the music content through the conventional binaural engine.
  • the present invention mixes the output including the various binaural sound effects and the output by the audio processing to provide the binaural content including the more dramatic presentation, the final sum of the multi-layered audio
  • the multilayer binaural content 160 in such a way as to provide an environment in which audio effects can be applied according to a user's taste.
  • the binaural audio source 110 may be decoded into a plurality of layers using the multilayer decoder 120.
  • the multilayer decoder 120 corresponds to a multilayer binaural decoder
  • the binaural audio source 110 corresponds to an immersive cubic layer and a planar layer corresponding to a 3D binaural layer. And stereo layer and subwoofer layer.
  • audio effects, head tracking data, and the like for each of the 3D binaural layer, the planar layer, and the subwoofer layer may be edited based on the layer-specific individual editing module 140 according to the present invention. Since such individual editing is performed through user input based on a separate interface, it is possible to generate multilayer binaural content that is most suitable for the user's taste and to personalize the listening environment.
  • the user can designate the processing range of the binaural audio source or the binaural sound source through the interface to edit or process only the desired portion.
  • the sound quality may be prevented from being dropped due to a sudden movement by providing an appropriate limit for the head tracking data.
  • the individual edited layers may be summed through the audio mixer 150 to generate multilayer binaural content 160 that is playable through a general purpose decoder and that is compatible with conventional contents.
  • three-dimensional layer binaural output, stereo output, and subwoofer output along with surround layer binaural output that can be generated based on the movement of objects included in the video, are included. Mixing and providing at least one of them may enable more dramatic sound production.
  • music content containing only audio provides dynamic music by providing a mixture of stereo output or subwoofer output along with a 3D layer binaural output generated based on a 3D binaural layer. You may.
  • FIG. 2 is a flowchart illustrating a method of generating multilayer binaural content according to an embodiment of the present invention.
  • a 3D layer binaural output is performed by performing a 3D layer binaural encoding corresponding to a 3D binaural layer.
  • a flat layer audio output is generated by performing audio processing corresponding to the flat layer.
  • the 3D binaural layer corresponds to an element for creating a 3D spatial image.
  • the 3D binaural layer may be 3D using a binaural encoder 420 corresponding to the 3D cubic method. Three-dimensional layer binaural encoding corresponding to a plurality of channels included in the binaural layer may be performed.
  • the 3D binaural layer may include four upchannels 411 and four downchannels 412 corresponding to 8-channel-based 3D cubics.
  • the 3D layer binaural output 430 may correspond to an output generated by binaural encoding 8-channel based audio, and may be output corresponding to two channels as shown in FIG. 4.
  • two channels corresponding to the 3D layer binaural output 430 may correspond to the left channel and the light channel, respectively.
  • the 3D binaural layer may not be limited thereto. That is, it may be configured to include other three-dimensional binaural layer applicable to the present invention or three-dimensional binaural layer to be developed in the future.
  • the three-dimensional layer binaural output corresponds to a three-dimensional vector of binaural points located on an eight-channel-based three-dimensional cubic composed of four up channels and four down channels. Can be generated.
  • an 8-channel based 3D cubic includes four dynamic speakers corresponding to four upchannels 511 to 514 and four dynamic speakers corresponding to four downchannels. It may be a hexahedral structure having each of the vertices (515-518). At this time, since the positions of the eight dynamic speakers 511 to 518 can be changed, the range of the binaural effect generated by the three-dimensional cubic can also be changed dynamically.
  • the conventional binaural method may generate immersive sound with eight dynamic speakers by generating three-dimensional cubic using vector base amplitude panning (Vbap) or ambisonics.
  • Vbap vector base amplitude panning
  • ambisonics ambisonics.
  • each of the eight dynamic speakers may be given position values for X, Y, and Z, and a vector-based virtual track point based on the midpoint of the 3D cubic may be expressed.
  • the virtual track point may be represented corresponding to the parameter value included in the head tracking information.
  • the 3D cubic may be generated by changing the positions of the eight dynamic speakers corresponding to the vertices of the 3D cubic according to the size parameter for the 3D binaural layer.
  • the 3D cubic may be generated by freely changing the position of the dynamic speaker of the variable method other than the fixed method in accordance with the size parameter can be efficiently generated three-dimensional cubic.
  • three-dimensional cubics having various ranges may be generated by processing the three-dimensional cubic by setting the size parameter to a constant and multiplying it by a binaural function.
  • the 3D vector may be included in the 3D cubic and generated based on a reference listening point corresponding to the center of the 2D plane corresponding to the surround layer.
  • a reference listening point that virtually represents the location of a user or listener listening to binaural stereo audio is located inside a three-dimensional cubic with eight dynamic speakers at each vertex, but centered on the surround layer. Can be.
  • a 3D vector corresponding to the 3D layer binaural output may be generated in a direction from the reference listening point toward the binaural point.
  • the planar layer corresponds to a layer having a structure different from that of the 3D binaural layer, and may correspond to an element for making an image corresponding to a surround effect or a stereo effect.
  • the flat layer performs surround layer binaural encoding to generate a surround layer binaural output, and receives a surround signal and a stereo signal that provides the generated surround layer binaural output as a flat layer audio output. It may be any one of a proximity stereo layer that generates a planar layer audio output corresponding to.
  • a surround layer binaural encoding corresponding to a surround layer of five or seven channels 610 may be performed using the binaural encoder 620.
  • 7-channel-based surround layer binaural encoding may be performed by including 2 channels corresponding to a proximity stereo layer in the surround layer.
  • the surround layer may correspond to a structure including five speakers 711 to 715, for example, as shown in FIG. 7.
  • the surround layer binaural output 630 may correspond to a binaural point located on the surround layer. If it is assumed that the listener is listening to the sound at the reference listening point located in the center of the surround layer, the surround layer binaural output 630 by binaural encoding as if the sound is coming from the binaural point on the surround layer. Can be generated.
  • the surround layer corresponds to an element for creating a surround image corresponding to the surround effect.
  • the surround layer is illustrated in the form of a plane for convenience of description, but may not be limited to the plane.
  • the surround layer binaural output 630 may be output corresponding to two channels as shown in FIG. 6.
  • two channels corresponding to the surround layer binaural output 630 may correspond to the left channel and the right channel, respectively.
  • 6 to 7 illustrate a surround layer corresponding to 5 or 7 channels 610, but the channel of the surround layer is not limited to 5 or 7 channels 610.
  • the surround layer is illustrated in the form of a rectangular plane in FIG. 7, the surround layer is not limited thereto and may be represented in various forms such as a line thickness, a planar shape, and a distance from a reference listening point.
  • audio processing may be performed corresponding to the proximity stereo layer of the two channels 810 based on the stereo bus 820. That is, the stereo signal 830 corresponding to the planar layer audio output may correspond to the output generated by processing the two channel 810 based stereo audio, and may be output corresponding to the two channels.
  • the proximity stereo layer corresponds to an element for creating a stereo image corresponding to the stereo effect, and may be included as a part of the surround layer.
  • a surround stereo layer corresponding to two speakers 911 and 912 is included on a surround layer based on five speakers, so that the layer structure includes a total of seven speakers. It may be indicated.
  • the proximity stereo layer may be disposed at a distance from the reference listening point 900 positioned on the surround layer.
  • the proximity stereo layer may be used as the left and right side speakers of the reference listening point 900.
  • the stereo signal output corresponding to the proximity stereo layer may provide a damping feeling that is difficult to produce by the spatial parameter used for binaural encoding.
  • the binaural stereo output according to an embodiment of the present invention may provide an immersive effect by binaural encoding and at the same time provide a damping feeling.
  • a flat layer audio output corresponding to a surround layer binaural output or a flat layer audio output corresponding to a stereo signal corresponds to an output that includes only different sound effects when compared to a three dimensional layer binaural output. It may be. That is, the planar layer audio output may include various values than the 3D layer binaural output even if the output is not corresponding to the 3D layer.
  • planar layer may be positioned between four upchannels and four downchannels corresponding to the 3D cubic.
  • the surround layer 1120 and the proximity stereo layer 1130 corresponding to the planar layer according to an embodiment of the present invention are three corresponding to the three-dimensional binaural layer 1110. It may be located between four upchannels and four downchannels included in the dimensional cubic.
  • the four upchannels may correspond to four speakers positioned at the top of the 3D cubic
  • the four downchannels may correspond to four speakers positioned at the bottom of the 3D cubic.
  • the planar layer may be located within the height range of the cube corresponding to the three-dimensional cubic.
  • each of the speakers included in the surround layer 1120 or the proximity stereo layer 1130 may also be positioned between four upchannels and four downchannels included in the 3D cubic.
  • the plane layer is illustrated in the form of a plane for convenience of description, but the shape of the plane layer according to the embodiment of the present invention may not be limited to the plane.
  • the multilayer binaural content generating method applies an audio effect corresponding to each of the 3D layer binaural output and the planar layer audio output based on a user input to the audio effect interface. (S220).
  • the user by applying the sound effects for each layer constituting the binaural audio source, the user can process the audio effect desired by the user while maintaining the binaural image.
  • the binaural audio source is limitedly described, but the present invention is applied to both the binaural audio source composed of the multilayer and the non-binaural (NON-BINAURL) audio source composed of the multilayer. It may be possible.
  • the method for generating multilayer binaural content according to an embodiment of the present invention is based on a user input to an audio effect interface and outputs an audio effect to a subwoofer output corresponding to a subwoofer layer. Can be applied.
  • the audio effect setting may be performed for at least one of the room setting, the equalizer setting, and the plug-in setting.
  • the audio effect interface 1400 may correspond to a mode for adjusting a room size for each layer.
  • a mode for setting an audio effect may be changed through a tab menu included in the bottom of the audio effect interface 1400, and a flip button 1450 may also be moved to another effect setting window within each mode.
  • the 3D binaural layer menu 1420, the surround layer menu 1430, and the proximity stereo layer menu 1440 are provided together with the visualization interface 1410. can do.
  • the user may check the degree to which the sound changes as the size of the space changes in the sense of hearing and sight.
  • the visualization interface 1410 may change a mode in the form shown in FIG. 15 through the visualization flip button 1460.
  • the binaural layer menu 1420 and the surround layer menu 1430 illustrated in FIG. 14 may include a menu for distinguishing characteristics of a room by setting a material for reflecting sound.
  • the HARD setting can cause a hard reflection effect, such as cement
  • the SOFT setting can cause a soft reflection effect, such as wood.
  • the binaural layer menu 1420 and the surround layer menu 1430 illustrated in FIG. 14 may be provided with a predelay fader for setting the size of the room.
  • 100% of the pre delay value may be set as a reference, or may be set as a time value.
  • the width of the stereo may be adjusted through the fader of the proximity stereo layer menu 1440.
  • the audio effect since the audio effect does not need to be processed, it may be dim out in the room size setting mode.
  • the audio effect interface 1500 may be flipped to the room reverb setting mode as illustrated in FIG. 15.
  • the reverberation time that is, the reverb time for maintaining the reverb can be adjusted.
  • This audio effect interface allows you to set different audio effects for each layer so that you can enjoy binaural content that suits your taste.
  • it is possible to adjust the size of the space while maintaining the overall sound field of the binaural content, and to select whether to enhance the binaural effect or the dynamic stereo sound.
  • the problem that the binaural effect is changed according to the diagram size of the headphone used by the user can be overcome by adjusting the sound effect for each layer.
  • the sound effect interface as illustrated in FIGS. 14 to 15 may provide an environment in which the equalizer EQ and the plug-in may be processed layer by layer in addition to the room setting, such as the tabs displayed at the bottom.
  • the method for generating a multilayer binaural content may reset an audio effect in consideration of automation information on a binaural audio source.
  • the copyright holder of the binaural content may not want to distort the intention to convey by changing the sound by the user.
  • the sound of the binaural content whose sound effect is corrected by the user may be worse than the original sound. Accordingly, in order to prevent such a problem, the audio effect may be reset to the state set at the production stage by applying the automation information generated at the authoring stage of the binaural content.
  • the audio effect may be applied to correspond to a predetermined application range of the entire range of the binaural audio source.
  • the method for generating a multilayer binaural content applies head tracking data corresponding to each of a 3D binaural output and a planar layer audio output. That is, the rotation parameter may be controlled for each layer of the binaural content.
  • This control can apply rotation parameters only to the layer that needs head tracking, which can help maintain the characteristics of each content.
  • the head tracking data may correspond to any one of sensor input based automatic head tracking data and user input based manual head tracking data for the head tracking interface.
  • the automatic head tracking data corresponds to data for tracking head movements of a user or a listener, and may be obtained corresponding to a tracking input based on a separate head tracking module.
  • manual head tracking data may be obtained corresponding to user input based on the head tracking interface.
  • the acceleration sensor and the 3-axis gyro sensor mounted on the head tracking module can measure the distance or angle of the movement of the user's head to automatically move the head. Can be generated and sent as tracking data.
  • manual head tracking information may be artificially assigned by a user or listener through the head tracking interface. That is, a user or a listener may input the head tracking data based on the head tracking interface regardless of whether the head tracking module receives the automatic head tracking data in order to artificially rotate the spatial image. In this case, the user or the listener may manually input and modify the head tracking data while listening to the multilayer binaural content that changes according to the mixing process or the input information for generating the multilayer binaural content.
  • the three-dimensional cubic corresponding to the three-dimensional binaural layer may be rotated corresponding to the rotation parameter of at least one of the pan (pan), tilt (tilt) and roll (roll).
  • the effect produced by rotating the three-dimensional cubic or moving up, down, left, and right according to the head tracking data may be mixed with the planar layer audio output in the future to generate a binaural stereo output. Accordingly, an immersive effect based on head tracking can be produced more efficiently than a conventional method of rotating or moving a surround layer, a proximity stereo layer, or a subwoofer layer corresponding to a planar layer.
  • the head tracking data may be converted into a log formula within a preset tracking limit and applied. That is, it is possible to set the threshold of the head tracking, and to control the head tracking data to reach the threshold in proportion to the movement.
  • the head tracking interface 1600 may provide a limit range setting menu 1620, a log constant setting menu 1630, and a time limit setting menu 1640.
  • the setting menus may be set to be affected by the input head tracking data 1610.
  • the limited range setting menu 1620 may adjust a set angle limited through the fader. This may correspond to the limit setting value in the graph shown in FIG. 17.
  • the head tracking data when head tracking data having a limit angle greater than the limit angle set in the limit range setting menu 1620 is input, the head tracking data may be formed as a log graph of a shape up to a preset time limit. Can be determined.
  • the head tracking data 1720 processed in FIG. 17 may correspond to a result of applying a log function such as [Equation 1] to the received head tracking data 1710.
  • a value of the log function corresponding to [Equation 1] may be set through the log constant setting menu 1630.
  • the value of a may be applied to the characteristics of the sound, it is possible to apply the deceleration applied value to x.
  • time limit setting menu 1640 when head tracking data having a limit angle greater than the limit angle set in the limit range setting menu 1620 is input, it is possible to additionally determine how long the log function ratio is to be applied. That is, the time limit 1730 illustrated in FIG. 17 may be set.
  • the volume and filter corresponding to each of the 3D layer binaural output, the planar layer audio output, and the subwoofer output may be adjusted.
  • the volume interface 1200 may provide a menu for adjusting the volume for each layer. First, a preset may be selected through the preset and level meter mode selection menu 1210, and then one of the level meter modes, either pre-fader or post-fader, may be selected.
  • the 3D binaural layer menu 1230, the surround layer menu 1240, the proximity stereo layer menu 1250, and the subwoofer layer menu 1260 may be provided to adjust the volume for each layer.
  • the 3D binaural layer menu 1230, the surround layer menu 1240, and the proximity stereo layer menu 1250 are used to assign low cut data to the subwoofer (LFE) channel.
  • a menu may be included.
  • the subwoofer layer menu 1260 may provide only a frequency value that can be set in maximum.
  • a filter interface 1300 based menu capable of adjusting a filter for each layer as shown in FIG. 13 may be provided. It may be.
  • the faders included in the layer-specific menu may be used to adjust the volume or set the filter according to the mode set through the flip buttons 1270 and 1310, respectively.
  • the user can freely adjust the volume and filter of the binaural layer so that the user can listen to the binaural content in consideration of the user's situation. This allows you to maximize your binaural effect, maximize your closeness, and more. You can also listen to binaural sound movements by adjusting the subwoofer level.
  • the multilayer binaural content generating method generates the multilayer binaural content by adding the 3D layer binaural output and the planar layer audio output to which the audio effect is applied (S230).
  • multi-layer binaural content with the maximum binaural effect is generated by mixing an immersive element by 3D layer binaural output with a proximity playback element and an object element by flat layer audio output. can do.
  • binaural content may be generated using only the 3D layer binaural output.
  • the method for generating multilayer binaural content includes a three-dimensional layer binaural output and a flat layer audio to which an audio effect is applied to a subwoofer output to which an audio effect is applied. It can be summed up with the output to produce multilayer binaural content.
  • the subwoofer output can be summed to maximize the immersive effect corresponding to the multilayer binaural content and to produce a dynamic bass reproduction element.
  • a signal of a single channel or two channels 1010 included in a subwoofer layer may be audio processed based on a low frequency effects bus 1020. That is, the subwoofer output 1030 may correspond to an output generated by processing single channel or two channel 1010 based audio, and may correspond to a single channel or two channels as shown in FIG. 10.
  • the subwoofer layer may correspond to a single channel, such as 5.1 channels, 7.1 channels, and 11.1 channels, or may correspond to two channels, such as 10.2 channels and 22.2 channels.
  • the subwoofer layer may be separated from the 3D cubic or planar layer corresponding to the 3D binaural layer.
  • the subwoofer layer 1140 is separated from the 3D cubic 1110, the surround layer 1120, and the proximity stereo layer 1130 corresponding to the 3D binaural layer. Can be located.
  • the structure shown in FIG. 11 corresponds to one embodiment, and is not limited to a structure in which respective layers are combined.
  • the method for generating a multilayer binaural content can support various types of sound because it can support the natural upmix and downmix functions based on the above functions. It can improve the compatibility between the supporting content.
  • a surround image expressed through 3D cubic can be downmixed into a surround layer.
  • the surround layer can also be downmixed back to a proximity stereo layer. As such, as the downmix is performed based on the area, the sound quality of the sound may be more effectively preserved.
  • the method for generating a multilayer binaural content may transmit and receive information necessary for generating the multilayer binaural content through a communication network such as a network.
  • a binaural audio source or content that can be input for generating multilayer binaural content, head tracking data input from a sensor, and information related to user input can be received, and the multilayer binaural content can be received. Can provide.
  • the method for generating a multilayer binaural content according to an embodiment of the present invention various information generated in the process of generating the multilayer binaural content according to an embodiment of the present invention Save to a separate storage module.
  • the multilayer binaural content generation method can provide an listening environment suitable for a user's taste by providing an interface for individually editing effects for various sound elements.
  • FIG. 18 is a block diagram illustrating a terminal device for executing a multilayer binaural content generation program according to an embodiment of the present invention.
  • a terminal device for executing a multilayer binaural content generating program includes a communication unit 1810, a processor 1820, and a memory 1830.
  • the communication unit 1810 transmits and receives information necessary for generating multilayer binaural content through a communication network such as a network.
  • the communication unit 1810 may receive a binaural audio source or content input for generating multilayer binaural content, head tracking data input from a sensor, and information related to a user input. And may provide multilayer binaural content.
  • the processor 1820 generates a 3D layer binaural output by performing a 3D layer binaural encoding corresponding to the 3D binaural layer, and performs a audio processing corresponding to the planar layer to generate a planar layer audio output.
  • the 3D binaural layer corresponds to an element for creating a 3D spatial image.
  • the 3D binaural layer may be 3D using a binaural encoder 420 corresponding to the 3D cubic method. Three-dimensional layer binaural encoding corresponding to a plurality of channels included in the binaural layer may be performed.
  • the 3D binaural layer may include four upchannels 411 and four downchannels 412 corresponding to 8-channel-based 3D cubics.
  • the 3D layer binaural output 430 may correspond to an output generated by binaural encoding 8-channel based audio, and may be output corresponding to two channels as shown in FIG. 4.
  • two channels corresponding to the 3D layer binaural output 430 may correspond to the left channel and the light channel, respectively.
  • the 3D binaural layer may not be limited thereto. That is, it may be configured to include other three-dimensional binaural layer applicable to the present invention or three-dimensional binaural layer to be developed in the future.
  • the three-dimensional layer binaural output corresponds to a three-dimensional vector of binaural points located on an eight-channel-based three-dimensional cubic composed of four up channels and four down channels. Can be generated.
  • an 8-channel based 3D cubic includes four dynamic speakers corresponding to four upchannels 511 to 514 and four dynamic speakers corresponding to four downchannels. It may be a hexahedral structure having each of the vertices (515-518). At this time, since the positions of the eight dynamic speakers 511 to 518 can be changed, the range of the binaural effect generated by the three-dimensional cubic can also be changed dynamically.
  • the conventional binaural method may generate immersive sound with eight dynamic speakers by generating three-dimensional cubic using vector base amplitude panning (Vbap) or ambisonics.
  • Vbap vector base amplitude panning
  • ambisonics ambisonics.
  • each of the eight dynamic speakers may be given position values for X, Y, and Z, and a vector-based virtual track point based on the midpoint of the 3D cubic may be expressed.
  • the virtual track point may be represented corresponding to the parameter value included in the head tracking information.
  • the 3D cubic may be generated by changing the positions of the eight dynamic speakers corresponding to the vertices of the 3D cubic according to the size parameter for the 3D binaural layer.
  • the 3D cubic may be generated by freely changing the position of the dynamic speaker of the variable method other than the fixed method in accordance with the size parameter can be efficiently generated three-dimensional cubic.
  • three-dimensional cubics having various ranges may be generated by processing the three-dimensional cubic by setting the size parameter to a constant and multiplying it by a binaural function.
  • the 3D vector may be included in the 3D cubic and generated based on a reference listening point corresponding to the center of the 2D plane corresponding to the surround layer.
  • a reference listening point that virtually represents the location of a user or listener listening to binaural stereo audio is located inside a three-dimensional cubic with eight dynamic speakers at each vertex, but centered on the surround layer. Can be.
  • a 3D vector corresponding to the 3D layer binaural output may be generated in a direction from the reference listening point toward the binaural point.
  • the planar layer corresponds to a layer having a structure different from that of the 3D binaural layer, and may correspond to an element for making an image corresponding to a surround effect or a stereo effect.
  • the flat layer performs surround layer binaural encoding to generate a surround layer binaural output, and receives a surround signal and a stereo signal that provides the generated surround layer binaural output as a flat layer audio output. It may be any one of a proximity stereo layer that generates a planar layer audio output corresponding to.
  • a surround layer binaural encoding corresponding to a surround layer of five or seven channels 610 may be performed using the binaural encoder 620.
  • 7-channel-based surround layer binaural encoding may be performed by including 2 channels corresponding to a proximity stereo layer in the surround layer.
  • the surround layer may correspond to a structure including five speakers 711 to 715, for example, as shown in FIG. 7.
  • the surround layer binaural output 630 may correspond to a binaural point located on the surround layer. If it is assumed that the listener is listening to the sound at the reference listening point located in the center of the surround layer, the surround layer binaural output 630 by binaural encoding as if the sound is coming from the binaural point on the surround layer. Can be generated.
  • the surround layer corresponds to an element for creating a surround image corresponding to the surround effect.
  • the surround layer is illustrated in the form of a plane for convenience of description, but may not be limited to the plane.
  • the surround layer binaural output 630 may be output corresponding to two channels as shown in FIG. 6.
  • two channels corresponding to the surround layer binaural output 630 may correspond to the left channel and the right channel, respectively.
  • 6 to 7 illustrate a surround layer corresponding to 5 or 7 channels 610, but the channel of the surround layer is not limited to 5 or 7 channels 610.
  • the surround layer is illustrated in the form of a rectangular plane in FIG. 7, the surround layer is not limited thereto and may be represented in various forms such as a line thickness, a planar shape, and a distance from a reference listening point.
  • audio processing may be performed corresponding to the proximity stereo layer of the two channels 810 based on the stereo bus 820. That is, the stereo signal 830 corresponding to the planar layer audio output may correspond to the output generated by processing the two channel 810 based stereo audio, and may be output corresponding to the two channels.
  • the proximity stereo layer corresponds to an element for creating a stereo image corresponding to the stereo effect, and may be included as a part of the surround layer.
  • a surround stereo layer corresponding to two speakers 911 and 912 is included on a surround layer based on five speakers, so that the layer structure includes a total of seven speakers. It may be indicated.
  • the proximity stereo layer may be disposed at a distance from the reference listening point 900 positioned on the surround layer.
  • the proximity stereo layer may be used as the left and right side speakers of the reference listening point 900.
  • the stereo signal output corresponding to the proximity stereo layer may provide a damping feeling that is difficult to produce by the spatial parameter used for binaural encoding.
  • the binaural stereo output according to an embodiment of the present invention may provide an immersive effect by binaural encoding and at the same time provide a damping feeling.
  • a flat layer audio output corresponding to a surround layer binaural output or a flat layer audio output corresponding to a stereo signal corresponds to an output that includes only different sound effects when compared to a three dimensional layer binaural output. It may be. That is, the planar layer audio output may include various values than the 3D layer binaural output even if the output is not corresponding to the 3D layer.
  • planar layer may be positioned between four upchannels and four downchannels corresponding to the 3D cubic.
  • the surround layer 1120 and the proximity stereo layer 1130 corresponding to the planar layer according to an embodiment of the present invention are three corresponding to the three-dimensional binaural layer 1110. It may be located between four upchannels and four downchannels included in the dimensional cubic.
  • the four upchannels may correspond to four speakers positioned at the top of the 3D cubic
  • the four downchannels may correspond to four speakers positioned at the bottom of the 3D cubic.
  • the planar layer may be located within the height range of the cube corresponding to the three-dimensional cubic.
  • each of the speakers included in the surround layer 1120 or the proximity stereo layer 1130 may also be positioned between four upchannels and four downchannels included in the 3D cubic.
  • the plane layer is illustrated in the form of a plane for convenience of description, but the shape of the plane layer according to the embodiment of the present invention may not be limited to the plane.
  • the processor 1820 applies an audio effect corresponding to each of the 3D layer binaural output and the planar layer audio output based on a user input to the audio effect interface.
  • the user by applying the sound effects for each layer constituting the binaural audio source, the user can process the audio effect desired by the user while maintaining the binaural image.
  • the binaural audio source is limitedly described, but the present invention is applied to both the binaural audio source composed of the multilayer and the non-binaural (NON-BINAURL) audio source composed of the multilayer. It may be possible.
  • the processor 1820 may apply the audio effect to the subwoofer output corresponding to the subwoofer layer based on a user input to the audio effect interface.
  • the audio effect setting may be performed for at least one of the room setting, the equalizer setting, and the plug-in setting.
  • the audio effect interface 1400 may correspond to a mode for adjusting a room size for each layer.
  • a mode for setting an audio effect may be changed through a tab menu included in the bottom of the audio effect interface 1400, and a flip button 1450 may also be moved to another effect setting window within each mode.
  • the 3D binaural layer menu 1420, the surround layer menu 1430, and the proximity stereo layer menu 1440 are provided together with the visualization interface 1410. can do.
  • the user may check the degree to which the sound changes as the size of the space changes in the sense of hearing and sight.
  • the visualization interface 1410 may change a mode in the form shown in FIG. 15 through the visualization flip button 1460.
  • the binaural layer menu 1420 and the surround layer menu 1430 illustrated in FIG. 14 may include a menu for distinguishing characteristics of a room by setting a material for reflecting sound.
  • the HARD setting can cause a hard reflection effect, such as cement
  • the SOFT setting can cause a soft reflection effect, such as wood.
  • the binaural layer menu 1420 and the surround layer menu 1430 illustrated in FIG. 14 may be provided with a predelay fader for setting the size of the room.
  • 100% of the pre delay value may be set as a reference, or may be set as a time value.
  • the width of the stereo may be adjusted through the fader of the proximity stereo layer menu 1440.
  • the audio effect since the audio effect does not need to be processed, it may be dim out in the room size setting mode.
  • the audio effect interface 1500 may be flipped to the room reverb setting mode as illustrated in FIG. 15.
  • the reverberation time that is, the reverb time for maintaining the reverb can be adjusted.
  • This audio effect interface allows you to set different audio effects for each layer so that you can enjoy binaural content that suits your taste.
  • it is possible to adjust the size of the space while maintaining the overall sound field of the binaural content, and to select whether to enhance the binaural effect or the dynamic stereo sound.
  • the problem that the binaural effect is changed according to the diagram size of the headphone used by the user can be overcome by adjusting the sound effect for each layer.
  • the sound effect interface as illustrated in FIGS. 14 to 15 may provide an environment in which the equalizer EQ and the plug-in may be processed layer by layer in addition to the room setting, such as the tabs displayed at the bottom.
  • the processor 1820 may reset the audio effect in consideration of automation information about the binaural audio source.
  • the copyright holder of the binaural content may not want to distort the intention to convey by changing the sound by the user.
  • the sound of the binaural content whose sound effect is corrected by the user may be worse than the original sound. Accordingly, in order to prevent such a problem, the audio effect may be reset to the state set at the production stage by applying the automation information generated at the authoring stage of the binaural content.
  • the audio effect may be applied to correspond to a predetermined application range of the entire range of the binaural audio source.
  • the processor 1820 applies head tracking data corresponding to each of the three-dimensional binaural output and the planar layer audio output. That is, the rotation parameter may be controlled for each layer of the binaural content.
  • This control can apply rotation parameters only to the layer that needs head tracking, which can help maintain the characteristics of each content.
  • the head tracking data may correspond to any one of sensor input based automatic head tracking data and user input based manual head tracking data for the head tracking interface.
  • the automatic head tracking data corresponds to data for tracking head movements of a user or a listener, and may be obtained corresponding to a tracking input based on a separate head tracking module.
  • manual head tracking data may be obtained corresponding to user input based on the head tracking interface.
  • the acceleration sensor and the 3-axis gyro sensor mounted on the head tracking module can measure the distance or angle of the movement of the user's head to automatically move the head. Can be generated and sent as tracking data.
  • manual head tracking information may be artificially assigned by a user or listener through the head tracking interface. That is, a user or a listener may input the head tracking data based on the head tracking interface regardless of whether the head tracking module receives the automatic head tracking data in order to artificially rotate the spatial image. In this case, the user or the listener may manually input and modify the head tracking data while listening to the multilayer binaural content that changes according to the mixing process or the input information for generating the multilayer binaural content.
  • the three-dimensional cubic corresponding to the three-dimensional binaural layer may be rotated corresponding to the rotation parameter of at least one of the pan (pan), tilt (tilt) and roll (roll).
  • the effect produced by rotating the three-dimensional cubic or moving up, down, left, and right according to the head tracking data may be mixed with the planar layer audio output in the future to generate a binaural stereo output. Accordingly, an immersive effect based on head tracking can be produced more efficiently than a conventional method of rotating or moving a surround layer, a proximity stereo layer, or a subwoofer layer corresponding to a planar layer.
  • the head tracking data may be converted into a log formula within a preset tracking limit and applied. That is, it is possible to set the threshold of the head tracking, and to control the head tracking data to reach the threshold in proportion to the movement.
  • the head tracking interface 1600 may provide a limit range setting menu 1620, a log constant setting menu 1630, and a time limit setting menu 1640.
  • the setting menus may be set to be affected by the input head tracking data 1610.
  • the limited range setting menu 1620 may adjust a set angle limited through the fader. This may correspond to the limit setting value in the graph shown in FIG. 17.
  • the head tracking data when head tracking data having a limit angle greater than the limit angle set in the limit range setting menu 1620 is input, the head tracking data may be formed as a log graph of a shape up to a preset time limit. Can be determined.
  • the head tracking data 1720 processed in FIG. 17 may correspond to a result of applying a log function such as [Equation 1] to the received head tracking data 1710.
  • a value of the log function corresponding to [Equation 1] may be set through the log constant setting menu 1630.
  • the value of a may be applied to the characteristics of the sound, it is possible to apply the deceleration applied value to x.
  • time limit setting menu 1640 when head tracking data having a limit angle greater than the limit angle set in the limit range setting menu 1620 is input, it is possible to additionally determine how long the log function ratio is to be applied. That is, the time limit 1730 illustrated in FIG. 17 may be set.
  • the processor 1820 may adjust the volume and filter corresponding to each of the dimensional layer binaural output, the planar layer audio output, and the subwoofer output.
  • the volume interface 1200 may provide a menu for adjusting the volume for each layer. First, a preset may be selected through the preset and level meter mode selection menu 1210, and then one of the level meter modes, either pre-fader or post-fader, may be selected.
  • the 3D binaural layer menu 1230, the surround layer menu 1240, the proximity stereo layer menu 1250, and the subwoofer layer menu 1260 may be provided to adjust the volume for each layer.
  • the 3D binaural layer menu 1230, the surround layer menu 1240, and the proximity stereo layer menu 1250 are used to assign low cut data to the subwoofer (LFE) channel.
  • a menu may be included.
  • the subwoofer layer menu 1260 may provide only a frequency value that can be set in maximum.
  • a filter interface 1300 based menu capable of adjusting a filter for each layer as shown in FIG. 13 may be provided. It may be.
  • the faders included in the layer-specific menu may be used to adjust the volume or set the filter according to the mode set through the flip buttons 1270 and 1310, respectively.
  • the user can freely adjust the volume and filter of the binaural layer so that the user can listen to the binaural content in consideration of the user's situation. This allows you to maximize your binaural effect, maximize your closeness, and more. You can also listen to binaural sound movements by adjusting the subwoofer level.
  • the processor 1820 generates multilayer binaural content by adding the 3D layer binaural output and the planar layer audio output to which the audio effect is applied.
  • multi-layer binaural content with the maximum binaural effect is generated by mixing an immersive element by 3D layer binaural output with a proximity playback element and an object element by flat layer audio output. can do.
  • binaural content may be generated using only the 3D layer binaural output.
  • the processor 1820 may generate the multilayer binaural content by adding the subwoofer output to which the audio effect is applied together with the 3D layer binaural output and the planar layer audio output to which the audio effect is applied.
  • the subwoofer output can be summed to maximize the immersive effect corresponding to the multilayer binaural content and to produce a dynamic bass reproduction element.
  • a signal of a single channel or two channels 1010 included in a subwoofer layer may be audio processed based on a low frequency effects bus 1020. That is, the subwoofer output 1030 may correspond to an output generated by processing single channel or two channel 1010 based audio, and may correspond to a single channel or two channels as shown in FIG. 10.
  • the subwoofer layer may correspond to a single channel, such as 5.1 channels, 7.1 channels, and 11.1 channels, or may correspond to two channels, such as 10.2 channels and 22.2 channels.
  • the subwoofer layer may be separated from the 3D cubic or planar layer corresponding to the 3D binaural layer.
  • the subwoofer layer 1140 is separated from the 3D cubic 1110, the surround layer 1120, and the proximity stereo layer 1130 corresponding to the 3D binaural layer. Can be located.
  • the structure shown in FIG. 11 corresponds to one embodiment, and is not limited to a structure in which respective layers are combined.
  • the processor 1820 may support a natural upmix and downmix function based on the above functions, thereby improving compatibility between contents supporting various kinds of sounds.
  • a surround image expressed through 3D cubic can be downmixed into a surround layer.
  • the surround layer can also be downmixed back to a proximity stereo layer. As such, as the downmix is performed based on the area, the sound quality of the sound may be more effectively preserved.
  • the memory 1830 stores various information generated in the process of generating the multilayer binaural content according to the exemplary embodiment of the present invention.
  • the memory 1830 may be configured independently of the terminal device generating the multilayer binaural content to support the multilayer binaural content generating function.
  • the memory 1830 may operate as a separate mass storage, and may include a control function for performing an operation.
  • the terminal device is equipped with a memory can store information in the device.
  • the memory is a computer readable medium.
  • the memory may be a volatile memory unit, and for other implementations, the memory may be a nonvolatile memory unit.
  • the storage device is a computer readable medium.
  • the storage device may include, for example, a hard disk device, an optical disk device, or some other mass storage device.
  • a listening environment suitable for a user's taste can be provided.
  • Embodiments of the present invention may be implemented in a computer-implemented method or a non-transitory computer-readable medium on which computer-executable instructions are recorded.
  • the computer readable instructions When computer readable instructions are executed by a processor, the computer readable instructions may perform a method according to at least one aspect of the present invention.
  • the multilayer binaural content generating method and the program for the same are not limited to the configuration and method of the embodiments described as described above, the embodiments are various modifications can be made All or part of each of the embodiments may be configured to be selectively combined to make it possible.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

멀티레이어 바이노럴 컨텐츠 생성 방법 및 이를 위한 프로그램이 개시된다. 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법은 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성하고, 평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성하는 단계; 오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 상기 3차원 레이어 바이노럴 출력 및 상기 평면 레이어 오디오 출력 각각에 상응하는 오디오 이펙트를 적용하는 단계; 및 오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 멀티레이어 바이노럴 컨텐츠를 생성하는 단계를 포함한다.

Description

멀티레이어 바이노럴 컨텐츠 생성 방법 및 이를 위한 프로그램
본 발명은 멀티레이어 바이노럴 컨텐츠 생성 방법 및 이를 위한 프로그램(METHOD FOR CREATING MULTI-LAYER BINAURAL CONTENT AND PROGRAM THEREOF)에 관한 것으로, 더욱 상세하게는 사용자 입력에 따른 오디오 이펙트가 각각 적용된 바이노럴 출력과 오디오 출력을 기반으로 바이노럴 청취 환경을 극대화시킨 컨텐츠를 제공하는 기술에 관한 것이다.
본 발명은 2018년 3월 30일 출원된 한국특허출원 제10-2018-0037502호의 출원일의 이익을 주장하며, 그 내용 전부는 본 명세서에 포함된다.
멀티미디어 기술이 향상되면서, 5.1 채널보다 많은 7.1 채널, 10.2 채널, 11.1 채널, 22.2 채널 등의 다채널 오디오 신호를 포함하는 컨텐츠의 사용이 증가하고 있다. 그러나, 컨텐츠를 이용하는 사용자들이 소지하고 있는 사용자 단말들은 대체로 스테레오 스피커나 헤드폰, 이어폰과 같이 스테레오 형태의 오디오 신호를 재생할 수 있기 때문에 고품질의 다채널 오디오 신호는 스테레오 형태의 오디오 신호로 변환될 필요가 있다.
본 발명의 목적은 다양한 사운드 요소들에 대한 이펙트 편집을 개별적으로 수행할 수 있는 인터페이스를 제공함으로써 사용자의 취향에 적합한 청취환경을 제공하는 것이다.
또한, 본 발명의 목적은 헤드 트래킹 데이터의 급격한 변화에 의해 왜곡될 수 있는 음질을 보존하는 것이다.
또한, 본 발명의 목적은 다양한 사운드 요소를 믹스함으로써 바이노럴 효과를 극대화할 수 있는 바이노럴 컨텐츠를 생성하기 위한 방법을 제공하는 것이다.
상기한 목적을 달성하기 위한 본 발명에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법은, 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성하고, 평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성하는 단계; 오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 상기 3차원 레이어 바이노럴 출력 및 상기 평면 레이어 오디오 출력 각각에 상응하는 오디오 이펙트를 적용하는 단계; 및 오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 멀티레이어 바이노럴 컨텐츠를 생성하는 단계를 포함한다.
이 때, 멀티레이어 바이노럴 컨텐츠 생성 방법은 상기 3차원 바이노럴 출력 및 상기 평면 레이어 오디오 출력 각각에 상응하는 헤드 트래킹 데이터를 적용하는 단계를 더 포함할 수 있다.
이 때, 헤드 트래킹 데이터는 센서 입력 기반의 자동 헤드 트래킹 데이터 및 헤드 트래킹 인터페이스에 대한 사용자 입력 기반의 수동 헤드 트래킹 데이터 중 어느 하나에 상응할 수 있다.
이 때, 헤드 트래킹 데이터는 기설정된 트래킹 제한 범위 이내에서 로그(LOG) 수식으로 변환되어 적용될 수 있다.
이 때, 오디오 이펙트를 적용하는 단계는 룸(ROOM) 설정, 이퀄라이저(EQUALIZER, EQ) 설정 및 플러그인(PLUG-IN) 설정 중 적어도 하나에 대한 설정을 수행할 수 있다.
이 때, 평면 레이어는 서라운드 레이어 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성하고, 생성된 상기 서라운드 레이어 바이노럴 출력을 상기 평면 레이어 오디오 출력으로 제공하는 서라운드 레이어 및 스테레오 신호를 입력 받아서 상기 스테레오 신호에 상응하는 상기 평면 레이어 오디오 출력을 생성하는 근접용 스테레오 레이어 중 어느 하나일 수 있다.
이 때, 3차원 레이어 바이노럴 출력은 4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic) 상에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성될 수 있다.
이 때, 멀티레이어 바이노럴 컨텐츠를 생성하는 단계는 상기 오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 서브우퍼 레이어에 상응하는 서브우퍼 출력에 상응하는 오디오 이펙트를 적용하는 단계; 및 오디오 이펙트가 적용된 서브우퍼 출력을 상기 오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력과 함께 합산하여 상기 멀티레이어 바이노럴 컨텐츠를 생성하는 단계를 더 포함할 수 있다.
이 때, 멀티레이어 바이노럴 컨텐츠 생성 방법은 바이노럴 오디오 소스에 대한 오토메이션 정보를 고려하여 상기 오디오 이펙트를 리셋시키는 단계를 더 포함할 수 있다.
이 때, 오디오 이펙트를 적용하는 단계는 상기 바이노럴 오디오 소스의 전체 범위 중 기설정된 적용 범위에 상응하게 상기 오디오 이펙트를 적용할 수 있다.
또한, 본 발명의 일실시예에 따른 컴퓨터로 판독 가능한 기록매체에 저장된 멀티레이어 바이노럴 컨텐츠 생성 프로그램은, 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성하고, 평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성하는 단계; 오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 상기 3차원 레이어 바이노럴 출력 및 상기 평면 레이어 오디오 출력 각각에 상응하는 오디오 이펙트를 적용하는 단계; 및 오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 멀티레이어 바이노럴 컨텐츠를 생성하는 단계를 실행시킨다.
이 때, 3차원 바이노럴 출력 및 상기 평면 레이어 오디오 출력 각각에 상응하는 헤드 트래킹 데이터를 적용하는 단계를 더 실행시킬 수 있다.
이 때, 헤드 트래킹 데이터는 센서 입력 기반의 자동 헤드 트래킹 데이터 및 헤드 트래킹 인터페이스에 대한 사용자 입력 기반의 수동 헤드 트래킹 데이터 중 어느 하나에 상응할 수 있다.
이 때, 헤드 트래킹 데이터는 기설정된 트래킹 제한 범위 이내에서 로그(LOG) 수식으로 변환되어 적용될 수 있다.
이 때, 룸(ROOM) 설정, 이퀄라이저(EQUALIZER, EQ) 설정 및 플러그인(PLUG-IN) 설정 중 적어도 하나에 대한 설정을 수행하여 상기 오디오 이펙트를 적용할 수 있다.
이 때, 평면 레이어는 서라운드 레이어 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성하고, 생성된 상기 서라운드 레이어 바이노럴 출력을 상기 평면 레이어 오디오 출력으로 제공하는 서라운드 레이어 및 스테레오 신호를 입력 받아서 상기 스테레오 신호에 상응하는 상기 평면 레이어 오디오 출력을 생성하는 근접용 스테레오 레이어 중 어느 하나일 수 있다.
이 때, 3차원 레이어 바이노럴 출력은 4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic) 상에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성될 수 있다.
이 때, 상기 오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 서브우퍼 레이어에 상응하는 서브우퍼 출력에 상응하는 오디오 이펙트를 적용하는 단계; 및 오디오 이펙트가 적용된 서브우퍼 출력을 상기 오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력과 함께 합산하여 상기 멀티레이어 바이노럴 컨텐츠를 생성하는 단계를 더 실행시킬 수 있다.
이 때, 바이노럴 오디오 소스에 대한 오토메이션 정보를 고려하여 상기 오디오 이펙트를 리셋시키는 단계를 더 실행시킬 수 있다.
이 때, 상기 바이노럴 오디오 소스의 전체 범위 중 기설정된 적용 범위에 상응하게 상기 오디오 이펙트를 적용할 수 있다.
본 발명에 따르면, 다양한 사운드 요소들에 대한 이펙트 편집을 개별적으로 수행할 수 있는 인터페이스를 제공함으로써 사용자의 취향에 적합한 청취환경을 제공할 수 있다.
또한, 본 발명은 목적은 헤드 트래킹 데이터의 급격한 변화에 의해 왜곡될 수 있는 음질을 보존할 수 있다.
또한, 본 발명은 다양한 사운드 요소를 믹스함으로써 바이노럴 효과를 극대화할 수 있는 바이노럴 컨텐츠를 생성하기 위한 방법을 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 시스템을 나타낸 블록도이다.
도 2는 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법을 나타낸 동작흐름도이다.
도 3은 본 발명의 다른 실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 시스템을 나타낸 도면이다.
도 4는 본 발명의 일실시예에 따른 3차원 레이어 바이노럴 출력을 생성하는 상세한 구조를 나타낸 도면이다.
도 5는 본 발명에 따른 8채널 기반의 3차원 큐빅(Cubic)의 일 예를 나타낸 도면이다.
도 6은 본 발명의 일실시예에 따른 서라운드 레이어 바이노럴 출력을 생성하는 상세한 구조를 나타낸 도면이다.
도 7은 본 발명에 따른 5채널 기반의 서라운드 레이어의 일 예를 나타낸 도면이다.
도 8은 본 발명의 일실시예에 따른 스테레오 신호를 생성하는 상세한 구조를 나타낸 도면이다.
도 9는 본 발명에 따른 근접용 스테레오 레이어의 일 예를 나타낸 도면이다.
도 10은 본 발명의 일실시예에 따른 서브우퍼 출력을 생성하는 상세한 구조를 나타낸 도면이다.
도 11은 본 발명에 따른 3차원 바이노럴 레이어, 평면 레이어 및 서브우퍼 레이어를 합한 구조의 일 예를 나타낸 도면이다.
도 12 내지 도 13은 본 발명에 따른 볼륨 및 필터 인터페이스의 일 예를 나타낸 도면이다.
도 14 내지 도 15는 본 발명에 따른 오디오 이펙트 인터페이스의 일 예를 나타낸 도면이다.
도 16은 본 발명에 따른 헤드 트래킹 인터페이스의 일 예를 나타낸 도면이다.
도 17은 본 발명에 따른 헤드 트래킹 데이터의 일 예를 나타낸 도면이다.
도 18은 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 프로그램을 실행시키기 위한 단말 장치를 나타낸 블록도이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 시스템을 나타낸 블록도이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 시스템은 바이노럴 오디오 소스(110), 멀티 레이어 디코더(120), 레이어(130), 레이어별 개별 편집 모듈(140), 오디오 믹서(150) 및 멀티레이어 바이노럴 컨텐츠(160)를 포함한다.
종래의 바이노럴 기술은 다채널 오디오 파일에 대해 바이노럴 인코딩된 바이노럴 출력을 전용 플레이어를 통해 디코딩하여 제공하는 방식이었다. 그러나, 바이노럴 인코딩은 리스닝 포지션(listening position)으로부터 일정 거리 떨어진 곳에 배치된 고정 스피커를 이용하기 때문에 스피커의 위치를 조절하여 공간의 이미지를 증감시키는데에 어려움이 따른다.
또한, 서라운드 영화 컨텐츠와 같이 영상과 오디오가 함께 포함된 컨텐츠에 특화된 기술로, 음악 컨텐츠와 같이 공간 이미지가 존재하지 않는 오디오 소스의 경우에는 해당 기술을 적용하기 난해한 문제점이 있다.
또한, 전용 플레이어를 사용해야만 바이노럴 컨텐츠의 재생이 가능하기 때문에 활용적인 측면에서 효율성이 떨어질 수 있다. 예를 들어, 음악 컨텐츠의 특성상 청취자에게 충분한 라우드니스(loudness)를 전달해주어야 하지만, 바이노럴 인코더만 이용해서는 음악 컨텐츠에 최적화된 음향 효과를 제공하는데 한계가 있다.
또한, 종래의 바이노럴 기술은, 컨텐츠에 따라 주로 활용되는 효과에 특화된 하나의 인코더만을 이용하기 때문에 다양한 방식의 연출 효과를 적용하는 것이 불가능했다. 예를 들어, 음악 컨텐츠에 대해서는 특성상 서브우퍼를 사용하지 않는 경우가 많기 때문에, 종래의 바이노럴 엔진을 통해 음악 컨텐츠에 서브우퍼에 따른 저음 재생 요소를 제공하는 연출은 거의 시도되지 않았다.
이에 따라, 본 발명에서는 다양한 바이노럴 음향 효과를 포함하는 출력과 오디오 프로세싱에 의한 출력을 믹싱(MIXING)하여 보다 극적인 연출을 포함하는 바이노럴 컨텐츠를 제공하되, 멀티레이어 방식의 오디오를 최종합산 하는 방식으로 멀티레이어 바이노럴 컨텐츠(160)를 제공함으로써 사용자의 취향에 따라 오디오 이펙트를 적용할 수 있는 환경을 제공할 수 있다.
이를 위해, 먼저 도 1에 도시된 것과 같이 멀티 레이어 디코더(120)를 이용하여 바이노럴 오디오 소스(110)를 복수개의 레이어들로 디코딩할 수 있다.
이 때, 멀티 레이어 디코더(120)는 멀티레이어 바이노럴 디코더에 상응하는 것으로 바이노럴 오디오 소스(110)를 3차원 바이노럴 레이어에 상응하는 이머시브 큐빅 레이어, 평면 레이어에 상응하는 서라운드 레이어와 스테레오 레이어 및 서브우퍼 레이어 등으로 분리시킬 수 있다.
이 후, 본 발명에 따른 레이어별 개별 편집 모듈(140)을 기반으로 3차원 바이노럴 레이어, 평면 레이어 및 서브우퍼 레이어 각각에 대한 오디오 이펙트, 헤드 트래킹 데이터 등을 편집할 수 있다. 이와 같은 개별 편집은 별도의 인터페이스에 기반한 사용자 입력을 통해 수행되기 때문에 사용자의 취향에 가장 이상적인 멀티레이어 바이노럴 컨텐츠를 생성할 수 있으며, 청취 환경을 개인화할 수도 있다.
이 때, 사용자는 인터페이스를 통해 바이노럴 오디오 소스 또는 바이노럴 음원의 가공 범위를 지정하여 원하는 부분에 대해서만 편집 또는 가공을 수행할 수 있다.
이 때, 개별 편집을 통해 헤드 트래킹 데이터를 적용하는 경우, 헤드 트래킹 데이터에 대한 적정 수준의 리미트(Limit)를 제공함으로써 급격한 움직임으로 인해 음질이 떨어지는 것을 방지할 수도 있다.
이 후, 오디오 믹서(150)를 통해 개별 편집된 레이어들을 합산함으로써 범용 디코더를 통해 재생 가능하고 종래의 컨텐츠들과도 호환성이 높은 멀티레이어 바이노럴 컨텐츠(160)를 생성할 수 있다.
예를 들어, 영상과 오디오가 함께 포함된 영화 컨텐츠의 경우, 영상에 포함된 객체의 움직임에 기반하여 생성 가능한 서라운드 레이어 바이노럴 출력과 함께 3차원 레이어 바이노럴 출력, 스테레오 출력 및 서브우퍼 출력 중 적어도 하나를 혼합하여 제공함으로써 보다 극적인 사운드 연출이 가능하도록 할 수 있다.
다른 예를 들어, 오디오만 포함하는 음악 컨텐츠의 경우에는 3차원 바이노럴 레이어를 기반으로 생성된 3차원 레이어 바이노럴 출력과 함께 스테레오 출력이나 서브우퍼 출력을 혼합하여 제공함으로써 다이나믹한 음악을 제공할 수도 있다.
도 2는 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법을 나타낸 동작흐름도이다.
도 2를 참조하면, 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법은 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성하고, 평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성한다(S210).
이 때, 3차원 바이노럴 레이어는 3차원 공간 이미지를 만드는 요소에 상응하는 것으로, 예를 들어 도 4를 참조하면, 3차원 큐빅 방식에 상응하는 바이노럴 인코더(420)를 이용하여 3차원 바이노럴 레이어에 포함된 다수의 채널들에 상응하는 3차원 레이어 바이노럴 인코딩을 수행할 수 있다.
이 때, 3차원 바이노럴 레이어는 8채널 기반의 3차원 큐빅에 상응하는 4개의 업채널(411)과 4개의 다운채널(412)을 포함할 수 있다.
따라서, 3차원 레이어 바이노럴 출력(430)은 8채널 기반의 오디오를 바이노럴 인코딩함으로써 생성된 출력에 상응할 수 있고, 도 4에 도시된 것과 같이 2채널에 상응하게 출력될 수 있다. 또한, 3차원 레이어 바이노럴 출력(430)에 상응하는 2채널은 각각 레프트 채널과 라이트 채널에 상응할 수 있다.
이 때, 도 4에 도시된 실시예에서는 3차원 바이노럴 레이어로 8채널 기반의 3차원 큐빅 레이어를 사용하였으나, 3차원 바이노럴 레이어는 이에 한정되지 않을 수 있다. 즉, 본 발명에 적용 가능한 다른 3차원 바이노럴 레이어 또는 향후 개발될 3차원 바이노럴 레이어를 포함하여 구성될 수도 있다.
이 때, 3차원 레이어 바이노럴 출력은 4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic) 상에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성될 수 있다.
예를 들어, 도 5를 참조하면, 8채널 기반의 3차원 큐빅은 4개의 업채널들에 상응하는 4개의 동적 스피커들(511~514)과 4개의 다운채널들에 상응하는 4개의 동적 스피커들(515~518)을 각 꼭지점으로 하는 육면체 구조일 수 있다. 이 때, 8개의 동적 스피커들(511~518)의 위치는 변경이 가능하기 때문에 3차원 큐빅에 의해 발생하는 바이노럴 효과의 범위도 동적으로 변경할 수 있다.
다른 예를 들어, 기존의 바이노럴 방식은 Vbap(Vector base amplitude panning) 또는 앰비소닉(Ambisonics) 등을 사용하여 3차원 큐빅을 생성함으로써 8개의 동적 스피커들로 이머시브(immersive) 사운드를 구현할 수도 있다. 즉, 8개의 동적 스피커들 각각에 대해 X, Y, Z에 대한 위치 값을 부여하되, 3차원 큐빅의 중점을 기준으로 하는 벡터 기반의 가상의 트랙 포인트(Track Point)를 표현할 수 있다. 이 때, 가상의 트랙 포인트는 헤드 트래킹 정보에 포함된 파라미터 값에 상응하게 표현될 수 있다.
이와 같은 3차원 큐빅을 통해 오디오만 포함하는 음악 컨텐츠에 대한 공간 이미지를 생성할 수 있고, 소리의 움직임을 표현할 수 있어서 보다 입체적인 효과를 제공할 수 있다.
이 때, 3차원 큐빅은 3차원 큐빅의 꼭지점에 해당하는 8개의 동적 스피커들의 위치를 3차원 바이노럴 레이어에 대한 크기 파라미터에 상응하게 변경하여 생성될 수 있다. 즉, 고정 방식이 아닌 가변 방식의 동적 스피커들의 위치를 크기 파라미터에 상응하게 자유롭게 변경함으로써 효율적으로 3차원 큐빅을 생성할 수 있다.
예를 들어, 크기 파라미터를 상수로 정하고, 여기에 바이노럴 함수를 곱하는 방식으로 3차원 큐빅을 프로세싱함으로써 다양한 범위를 갖는 3차원 큐빅들을 생성할 수도 있다.
이 때, 3차원 벡터는 3차원 큐빅의 내부에 포함되고, 서라운드 레이어에 상응하는 2차원 평면의 중심에 해당하는 기준 청취점을 기준으로 생성될 수 있다.
예를 들어, 바이노럴 스테레오 오디오를 듣는 사용자 또는 청취자의 위치를 가상으로 표현한 기준 청취점은 8개의 동적 스피커들을 각 꼭지점으로 하는 3차원 큐빅의 내부에 위치하되, 서라운드 레이어 상에서 중심 부분에 위치할 수 있다. 이 때, 바이노럴 포인트가 3차원 큐빅의 상면에 위치한다고 가정하면, 3차원 레이어 바이노럴 출력에 상응하는 3차원 벡터는 기준 청취점에서 바이노럴 포인트를 향하는 방향으로 생성될 수 있다.
이 때, 평면 레이어는 3차원 바이노럴 레이어와는 상이한 구조를 갖는 레이어에 상응하는 것으로, 서라운드 효과 또는 스테레오 효과에 상응하는 이미지를 만드는 요소에 상응할 수 있다.
따라서, 평면 레이어는 서라운드 레이어 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성하고, 생성된 서라운드 레이어 바이노럴 출력을 평면 레이어 오디오 출력으로 제공하는 서라운드 레이어 및 스테레오 신호를 입력 받아서 스테레오 신호에 상응하는 평면 레이어 오디오 출력을 생성하는 근접용 스테레오 레이어 중 어느 하나일 수 있다.
예를 들어, 도 6을 참조하면, 바이노럴 인코더(620)를 이용하여 5채널 또는 7채널(610)의 서라운드 레이어에 상응하는 서라운드 레이어 바이노럴 인코딩을 수행할 수 있다. 이 때, 도 9를 통해 설명하겠지만, 근접용 스테레오 레이어에 상응하는 2채널을 서라운드 레이어에 포함시켜 7채널 기반의 서라운드 레이어 바이노럴 인코딩을 수행할 수 있다.
이 때, 서라운드 레이어는, 예를 들어, 도 7에 도시된 것과 같이 5개의 스피커들(711~715)을 포함하는 구조에 상응할 수 있다. 이 때, 서라운드 레이어 바이노럴 출력(630)은 서라운드 레이어 상에 위치하는 바이노럴 포인트에 상응할 수 있다. 만약, 청취자가 서라운드 레이어의 중심에 위치하는 기준 청취점에서 소리를 듣고 있다고 가정할 경우, 마치 서라운드 레이어 상의 바이노럴 포인트에서 소리가 나는 것처럼 바이노럴 인코딩하여 서라운드 레이어 바이노럴 출력(630)을 생성할 수 있다. 이 때, 서라운드 레이어는 서라운드 효과에 상응하는 서라운드 이미지를 만드는 요소에 상응하는 것으로, 도 7에서는 설명의 편의를 위해 서라운드 레이어를 평면의 형태로 도시하였으나, 평면 형태에 한정되지 않을 수 있다.
이 때, 서라운드 레이어 바이노럴 출력(630)은 도 6에 도시된 것과 같이 2채널에 상응하게 출력될 수 있다. 또한, 서라운드 레이어 바이노럴 출력(630)에 상응하는 2채널은 각각 레프트 채널과 라이트 채널에 상응할 수 있다.
이 때, 도 6 내지 도 7에서는 5채널 또는 7채널(610)에 해당하는 서라운드 레이어를 도시하고 있으나, 서라운드 레이어의 채널은 5채널 또는 7채널(610)에 한정되지 않는다. 또한, 도 7에서는 서라운드 레이어를 사각형 평면 형태로 도시하고 있으나, 이에 한정되지 않고 선의 두께, 평면 모양의 형태 및 기준 청취점으로부터의 거리 등 다양한 형태로 표현 가능하다.
다른 예를 들어, 도 8을 참조하면, 스테레오 버스(Stereo Bus)(820)를 기반으로 2채널(810)의 근접용 스테레오 레이어에 상응하게 오디오 프로세싱을 수행할 수 있다. 즉, 평면 레이어 오디오 출력에 상응하는 스테레오 신호(830)는 2채널(810) 기반의 스테레오 오디오를 프로세싱함으로써 생성된 출력에 상응할 수 있고, 2채널에 상응하게 출력될 수 있다.
이 때, 근접용 스테레오 레이어는 스테레오 효과에 상응하는 스테레오 이미지를 만드는 요소에 상응하는 것으로, 서라운드 레이어의 일부로 포함되어 나타낼 수도 있다.
예를 들어, 도 9에 도시된 것과 같이 5개의 스피커들에 기반한 서라운드 레이어 상에 2개의 스피커들(911, 912)에 상응하는 근접용 스테레오 레이어를 포함시켜 총 7개의 스피커들을 포함하는 레이어 구조로 나타낼 수도 있다.
이 때, 도 9에 도시된 것과 같이, 근접용 스테레오 레이어는 서라운드 레이어 상에 위치하는 기준 청취점(900)으로부터 근접한 거리에 배치될 수 있다. 또는, 기준 청취점(900)의 좌우 사이드 스피커로써 근접용 스테레오 레이어를 사용할 수도 있다.
이 때, 근접용 스테레오 레이어에 상응하게 출력되는 스테레오 신호는 바이노럴 인코딩에 사용되는 공간 파라미터로는 연출하기 어려운 댐핑(damping)감을 제공할 수 있다. 따라서, 본 발명의 일실시예에 따른 바이노럴 스테레오 출력은 바이노럴 인코딩에 의한 이머시브(immersive) 효과를 제공함과 동시에 댐핑감을 제공할 수도 있다.
이와 같이, 서라운드 레이어 바이노럴 출력에 상응하는 평면 레이어 오디오 출력이나 스테레오 신호에 상응하는 평면 레이어 오디오 출력은 3차원 레이어 바이노럴 출력과 비교하였을 때, 단지 상이한 음향 효과를 포함하는 출력에 해당하는 것일 수 있다. 즉, 평면 레이어 오디오 출력은 3차원 레이어에 상응하는 출력이 아니어도 3차원 레이어 바이노럴 출력보다 다양한 값을 포함할 수도 있다.
이 때, 평면 레이어는 3차원 큐빅에 상응하는 4개의 업채널들과 4개의 다운채널들 사이에 위치할 수 있다.
예를 들어, 도 11을 참조하면, 본 발명의 일실시예에 따른 평면 레이어에 상응하는 서라운드 레이어(1120)와 근접용 스테레오 레이어(1130)는 3차원 바이노럴 레이어(1110)에 상응하는 3차원 큐빅에 포함된 4개의 업채널들과 4개의 다운채널들 사이에 위치할 수 있다.
이 때, 4개의 업채널들은 3차원 큐빅의 상단에 위치하는 4개의 스피커들에 해당할 수 있고, 4개의 다운채널들은 3차원 큐빅의 하단에 위치하는 4개의 스피커들에 해당할 수 있다.
즉, 도 11에 도시된 것과 같이 평면 레이어는 3차원 큐빅에 상응하는 육면체의 높이 범위 내에 위치할 수 있다.
따라서, 서라운드 레이어(1120)나 근접용 스테레오 레이어(1130)에 포함되는 각각의 스피커들도 3차원 큐빅에 포함된 4개의 업채널들과 4개의 다운채널들 사이에 위치할 수 있다. 이 때, 도 11에서는 설명의 편의를 위해 평면 레이어를 평면의 형태로 도시하였으나, 본 발명의 일실시예에 따른 평면 레이어의 형태는 평면의 형태에 한정되지 않을 수도 있다.
또한, 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법은 오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력 각각에 상응하는 오디오 이펙트를 적용한다(S220).
일반적인 바이노럴 오디오 소스는 공간적 이펙트를 최대한 표현하도록 제작되었기 때문에 음악적 측면에서의 다이나믹한 재생은 기대하기 어렵다. 이러한 이유로 바이노럴 오디오 소스에 오디오 이펙트를 적용하는 경우, 공간적 이펙트를 제공하는 바이노럴 이미지가 손상될 가능성이 크다. 예를 들어, 다이나믹한 사운드를 구현하기 위해 공간의 이미지를 축소하는 경우에 바이노럴 효과가 사라질 수 있고, 저음의 증가로 인해 바이노럴 효과를 저하시킬 수도 있다.
따라서, 본 발명에서는 바이노럴 오디오 소스를 구성하는 레이어별로 사운드 이펙트를 적용함으로써 바이노럴 이미지는 그대로 유지한 상태로 사용자가 원하는 오디오 이펙트를 처리할 수 있다. 이 때, 설명의 편의를 위해 바이노럴 오디오 소스에 대해 한정하여 설명하였으나, 본 발명은 멀티레이어로 구성된 바이노럴 오디오 소스 및 멀티레이어로 구성된 논바이노럴(NON-BINAURL) 오디오 소스에 모두 적용가능할 수 있다.
또한, 도 2에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법은 오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 서브우퍼 레이어에 상응하는 서브우퍼 출력에 대해 오디오 이펙트를 적용할 수 있다.
종래의 바이노럴 기술에서는 하나의 사운드 필드만을 제공하기 때문에 오디오 이펙트를 적용하는 경우에 사용자가 의도하지 않은 변형이 발생할 수 있다. 따라서, 본 발명에서는 멀티레이어로 구성된 바이노럴 컨텐츠의 레이어마다 개별적으로 오디오 이펙트를 적용함으로써 사운드 청취에 다양한 장점을 제공할 수 있다.
예를 들어, 다이나믹한 사운드는 그대로 유지한 상태에서 공간 이미지만 크게하고자 하는 경우, 스테레오 레이어는 그대로 두고 3차원 바이노럴 레이어에만 공간 이펙트를 적용할 수 있다.
이 때, 룸(ROOM) 설정, 이퀄라이저(EQUALZER, EQ) 설정 및 플러그인(PLUG-IN) 설정 중 적어도 하나에 대한 오디오 이펙트 설정을 수행할 수 있다.
예를 들어, 도 14를 참조하면, 본 발명의 일실시예에 따른 오디오 이펙트 인터페이스(1400)는 레이어별 룸 사이즈를 조정하기 위한 모드에 상응할 수 있다.
이 때, 오디오 이펙트 인터페이스(1400) 하단에 포함된 탭 메뉴를 통해 오디오 이펙트를 설정하기 위한 모드를 변경할 수 있으며, 각 모드내에서도 플립 버튼(1450)을 통해 다른 이펙트 설정 창으로 이동할 수도 있다.
이 때, 도 14에 도시된 것과 같은 룸 사이즈 설정 모드에서는 비주얼라이제이션 인터페이스(1410)와 함께 3차원 바이노럴 레이어 메뉴(1420), 서라운드 레이어 메뉴(1430) 및 근접용 스테레오 레이어 메뉴(1440)를 제공할 수 있다.
이 때, 본 발명에서는 도 14 및 도 15에 도시된 비주얼라이제이션 인터페이스(1410, 1510)을 제공함으로써 사용자는 청각과 시각으로 공간의 크기가 변함에 따라 소리가 변화하는 정도를 확인할 수도 있다.
이 때, 비주얼라이제이션 인터페이스(1410)는 비주얼라이제이션 플립 버튼(1460)을 통해 도 15에 도시된 것은 형태로 모드를 변경할 수 있다.
이 때, 도 14에 도시된 바이노럴 레이어 메뉴(1420) 및 서라운드 레이어 메뉴(1430)에는 소리의 반사체 재질을 설정함으로써 룸의 특성을 구분할 수 있는 메뉴가 포함될 수 있다. 예를 들어, 하드(HARD) 설정은 시멘트와 같이 단단한 반사 효과가 발생하도록 할 수 있고, 소프트(SOFT) 설정은 목재와 같이 부드러운 반사 효과가 발생하도록 할 수 있다.
또한, 도 14에 도시된 바이노럴 레이어 메뉴(1420) 및 서라운드 레이어 메뉴(1430)에는 룸의 크기를 설정할 수 있는 프리 딜레이(Predelay) 페이더를 제공할 수 있다. 이 때, 프리 딜레이값은 100%가 기준으로 설정될 수 있으며, 시간값으로 설정될 수도 있다.
이 때, 근접용 스테레오 레이어의 경우는 룸 사이즈를 조정할 필요가 없기 때문에 근접용 스테레오 레이어 메뉴(1440)의 페이더를 통해 스테레오의 폭을 조정할 수 있다.
또한, 서브우퍼 레이어의 경우에는 오디오 이펙트를 처리할 필요가 없으므로 룸 사이즈 설정 모드에서는 딤 아웃(Dim Out) 처리될 수 있다.
이 때, 도 14에 도시된 플립 버튼(1450)을 선택하여 도 15에 도시된 것과 같이 오디오 이펙트 인터페이스(1500)를 룸 리버브 설정 모드로 플립할 수 있다.
이 때, 룸 리버브 설정 모드에 포함된 레이어별 메뉴에서는 잔향시간, 즉 리버브가 유지되는 Reverb Time을 조정할 수 있다.
이와 같은 오디오 이펙트 인터페이스를 통해 레이어 별로 오디오 이펙트를 다르게 설정함으로써 사용자의 취향에 적합한 바이노럴 컨텐츠를 감상할 수 있다. 또한, 바이노럴 컨텐츠의 전체적인 음장을 유지하면서도 공간의 크기를 조절할 수 있으며, 바이노럴 효과를 강화할 것인지 또는 다이나믹한 스테레오 사운드를 강화할 것인지를 선택하여 조절할 수도 있다.
또한, 사용자가 사용하는 헤드폰의 다이어그램 사이즈에 따라 바이노럴 효과가 변경되는 문제점을 레이어별 사운드 이펙트 조절을 통해 극복할 수 있다.
이 때, 도 14 내지 도 15에 도시된 것과 같은 사운드 이펙트 인터페이스는 룸 설정 이외에도 하단에 표시된 탭과 같이 이퀄라이저(EQ), 플러그인(PLUGIN)에 대해서도 레이어별로 처리할 수 있는 환경을 제공할 수 있다.
또한, 도 2에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법은 바이노럴 오디오 소스에 대한 오토메이션 정보를 고려하여 오디오 이펙트를 리셋시킬 수 있다.
*예를 들어, 바이노럴 컨텐츠의 저작권자는 사용자에 의해 사운드가 변경됨으로써 자신이 전달하고자 하는 의도를 왜곡시키는 것을 원하지 않을 수도 있다. 또는, 사용자에 의해 사운드 이펙트가 보정된 바이노럴 컨텐츠의 사운드가 원음에 비해 좋지않은 결과가 나타날 수도 있다. 따라서 이러한 문제점을 방지하기 위해서, 바이노럴 컨텐츠의 저작 단계에서 생성된 오토메이션 정보를 적용하여 오디오 이펙트를 제작 단계에서 설정된 상태로 리셋시킬 수도 있다.
이 때, 바이노럴 오디오 소스의 전체 범위 중 기설정된 적용 범위에 상응하게 오디오 이펙트를 적용할 수 있다.
또한, 도 2에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법은 3차원 바이노럴 출력 및 평면 레이어 오디오 출력 각각에 상응하는 헤드 트래킹 데이터를 적용한다. 즉, 바이노럴 컨텐츠의 레이어 별로 회전 파리미터를 제어할 수 있다.
이와 같은 제어를 통해 헤드 트래킹이 필요한 레이어에만 회전 파라미터를 적용할 수 있으므로 컨텐츠 별 특성을 유지하는데 도움이 될 수 있다.
이 때. 헤드 트래킹 데이터는 센서 입력 기반의 자동 헤드 트래킹 데이터 및 헤드 트래킹 인터페이스에 대한 사용자 입력 기반의 수동 헤드 트래킹 데이터 중 어느 하나에 상응할 수 있다.
이 때, 자동 헤드 트래킹 데이터는 사용자나 청취자의 머리 움직임을 트래킹한 데이터에 상응하는 것으로, 별도의 헤드 트래킹 모듈에 기반한 트래킹 입력에 상응하게 획득될 수 있다.
또한, 수동 헤드 트래킹 데이터는 헤드 트래킹 인터페이스에 기반한 사용자 입력에 상응하게 획득될 수 있다.
예를 들어, 사용자나 청취자가 헤드 트래킹 모듈을 직접 착용한 상태에서 머리를 움직이면, 헤드 트래킹 모듈에 장착된 가속 센서, 3축 자이로 센서가 사용자의 머리가 움직인 거리나 각도 등을 측정하여 자동 헤드 트래킹 데이터로 생성하고 전송할 수 있다.
다른 예를 들어, 수동 헤드 트래킹 정보는 사용자나 청취자가 헤드 트래킹 인터페이스를 통해 인위적으로 부여할 수도 있다. 즉, 사용자나 청취자가 인위적으로 공간 이미지를 회전시키기 위해, 헤드 트래킹 모듈에 의한 자동 헤드 트래킹 데이터의 수신 여부와 상관없이 헤드 트래킹 인터페이스를 기반으로 헤드 트래킹 데이터를 입력할 수도 있다. 이 때, 사용자나 청취자는 멀티레이어 바이노럴 컨텐츠를 생성하는 믹싱과정 또는 입력되는 정보에 따라 변화하는 멀티레이어 바이노럴 컨텐츠를 청취하면서 수동으로 헤드 트래킹 데이터를 입력 및 수정할 수도 있다.
이 때, 3차원 바이노럴 레이어에 상응하는 3차원 큐빅은 팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나의 회전 파라미터에 상응하게 회전될 수 있다.
이와 같이, 헤드 트래킹 데이터에 따라 3차원 큐빅을 회전시키거나 상하좌우로 움직여서 연출되는 효과는 향후 평면 레이어 오디오 출력과 믹싱되어 바이노럴 스테레오 출력을 생성할 수 있다. 따라서, 평면 레이어에 상응하는 서라운드 레이어나 근접용 스테레오 레이어 또는 서브우퍼 레이어 등을 회전시키거나 이동시키는 종래의 방식보다 효율적으로 헤드 트래킹에 기반한 이머시브(immersive) 효과를 연출할 수 있다.
이 때, 헤드 트래킹 데이터는 기설정된 트래킹 제한 범위 이내에서 로그(LOG) 수식으로 변환되어 적용될 수 있다. 즉, 헤드 트래킹의 한계점을 설정하고, 움직임에 따른 비율로 헤드 트래킹 데이터가 한계점에 도달하도록 제어할 수 있다.
이와 같이 헤드 트래킹의 범위에 제한을 둠으로써 과도한 헤드 트래킹으로 인해 음악적인 요소가 사라지거나 음질이 왜곡되는 문제점을 사전에 방지할 수 있다.
예를 들어, 도 16을 참조하면, 헤드 트래킹 인터페이스(1600)는 제한 범위 설정 메뉴(1620), 로그 상수 설정 메뉴(1630) 및 제한 시간 설정 메뉴(1640)를 제공할 수 있다.
이 때 각각의 설정 메뉴들은 ON으로 설정되는 경우, 입력된 헤드 트래킹 데이터(1610)에 영향을 받도록 설정될 수 있다.
먼저, 제한 범위 설정 메뉴(1620)에서는 페이더를 통해 제한되는 설정 각도를 조절할 수 있다. 이는 도 17에 도시된 그래프에서 제한 설정값에 상응할 수 있다.
또한, 로그 상수 설정 메뉴(1630)에서는 제한 범위 설정 메뉴(1620)에서 설정된 제한 각도 이상의 헤드 트래킹 데이터가 입력되는 경우, 해당하는 헤드 트래킹 데이터를 기설정된 제한 시간까지 어떠한 모양의 로그 그래프로 형성할 것인지를 결정할 수 있다.
예를 들어, 도 17에서 처리된 헤드 트래킹 데이터(1720)는 수신된 헤드 트래킹 데이터(1710)에 [수학식 1]과 같은 로그 함수를 적용한 결과에 상응할 수 있다.
[수학식 1]
Y = -(log a(x+1))
이 때, 로그 상수 설정 메뉴(1630)를 통해 [수학식 1]에 해당하는 로그 함수의 a값을 설정할 수 있다. 이 때, a값은 소리의 특성이 적용될 수 있고, x에 감속 적용값을 적용시킬 수 있다.
또한, 제한 시간 설정 메뉴(1640)에서는 제한 범위 설정 메뉴(1620)에서 설정된 제한 각도 이상의 헤드 트래킹 데이터가 입력되는 경우, 추가적으로 어느 정도의 시간까지 로그 함수의 비율을 적용받을 것일지를 결정할 수 있다. 즉, 도 17에 도시된 제한 시간(1730)을 설정할 수 있다.
또한, 본 발명에서는 3차원 레이어 바이노럴 출력, 평면 레이어 오디오 출력 및 서브우퍼 출력 각각에 상응하는 볼륨과 필터를 조절할 수도 있다.
예를 들어, 도 12를 참조하면, 본 발명의 일실시예에 따른 볼륨 인터페이스(1200)는 레이어별로 볼륨을 조절할 수 있는 메뉴를 제공할 수 있다. 먼저, 프리셋 및 레벨 미터 모드 선택 메뉴(1210)를 통해 프리셋을 선택한 뒤 프리 페이더 또는 포스트 페이터 중 어느 하나의 레벨 미터 모드를 선택할 수 있다.
이 때, 오토메이션 수신 여부를 선택할 수 있는데, 잠금 상태로 설정하는 경우에 오토메이션 데이터를 수신함으로써 사용자가 파라미터를 변경할 수 없는 상태로 설정될 수 있다. 반대로 열림 상태로 설정하는 경우, 오토메이션 데이터 제공 여부와 상관없이 사용자의 취향에 따라 오디오 이펙트를 조정하는 것이 가능하다.
이 때, 레이어별로 볼륨을 조절할 수 있도록 3차원 바이노럴 레이어 메뉴(1230), 서라운드 레이어 메뉴(1240), 근접용 스테레오 레이어 메뉴(1250) 및 서브우퍼 레이어 메뉴(1260)를 각각 제공할 수 있다. 이 때, 3차원 바이노럴 레이어 메뉴(1230), 서라운드 레이어 메뉴(1240) 및 근접용 스테레오 레이어 메뉴(1250)에는 로우컷(Low Cut)된 데이터를 서브우퍼(LFE) 채널로 어사인하기 위한 메뉴가 포함될 수 있다. 또한, 서브우퍼 레이어 메뉴(1260)에는 최대 설정이 가능한 주파수값만 제공할 수 있다.
이 때, 본 발명의 일실시예에 따른 볼륨 인터페이스(1200)에서는 플립(Flip) 버튼(1270)을 제공함으로써 도 13과 같이 레이어별로 필터를 조절할 수 있는 필터 인터페이스(1300) 기반의 메뉴를 제공할 수도 있다.
따라서, 레이어별 메뉴에 포함된 페이더는 플립 버튼(1270, 1310)을 통해 설정된 모드에 따라 볼륨을 조절하거나 필터를 설정하는데 각각 사용될 수 있다.
이와 같이, 바이노럴 레이어의 볼륨과 필터를 사용자가 자유롭게 조절할 수 있는 인터페이스를 제공함으로써 사용자의 상황을 고려하여 바이노럴 컨텐츠를 청취할 수 있도록 할 수 있다. 이를 통해 바이노럴 효과를 극대화하거나 근접한 소리를 극대화할 수 있는 등의 다양한 청취가 가능하며, 서브우퍼 레벨의 조정을 통해 바이노럴 사운드의 움직임을 청취하는 것도 가능하다.
또한, 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법은 오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 멀티레이어 바이노럴 컨텐츠를 생성한다(S230). 이 때, 3차원 레이어 바이노럴 출력에 의한 이머시브(immersive) 요소와 평면 레이어 오디오 출력에 의한 근접 재생 요소 및 오브젝트 요소 등을 믹스함으로써 바이노럴 효과가 극대화된 멀티레이어 바이노럴 컨텐츠를 생성할 수 있다.
이 때, 이머시브(immersive) 사운드만 구성하고자 하는 경우에는 3차원 레이어 바이노럴 출력만을 이용하여 바이노럴 컨텐츠를 생성할 수도 있다.
또한, 도 2에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법은 오디오 이펙트가 적용된 서브우퍼 출력을 오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력과 함께 합산하여 멀티레이어 바이노럴 컨텐츠를 생성할 수 있다.
이 때, 서브우퍼 출력을 합산함으로써 멀티레이어 바이노럴 컨텐츠에 상응하는 이머시브(immersive) 효과를 극대화 시킬 수 있고, 다이나믹한 저음 재생 요소를 연출할 수 있다.
예를 들어, 도 10을 참조하면, LFE 버스(Low Frequency Effects Bus)(1020)를 기반으로 서브우퍼 레이어에 포함된 단일 채널 또는 2채널(1010)의 신호를 오디오 프로세싱할 수 있다. 즉, 서브우퍼 출력(1030)은 단일 채널 또는 2채널(1010) 기반의 오디오를 프로세싱함으로써 생성된 출력에 상응할 수 있고, 도 10에 도시된 것과 같이 단일 채널 또는 2채널에 상응할 수 있다.
예를 들어, 서브우퍼 레이어는 5.1 채널, 7.1 채널 및 11.1 채널과 같이 단일 채널에 상응하거나, 10.2 채널 및 22.2 채널과 같이 2채널에 상응할 수도 있다.
이 때, 서브우퍼 레이어는 3차원 바이노럴 레이어에 상응하는 3차원 큐빅이나 평면 레이어와 분리되어 위치할 수 있다.
예를 들어, 도 11에 도시된 것과 같이 서브우퍼 레이어(1140)는 3차원 바이노럴 레이어에 상응하는 3차원 큐빅(1110), 서라운드 레이어(1120) 및 근접용 스테레오 레이어(1130)와 떨어진 곳에 위치할 수 있다. 이 때, 도 11에 도시된 구조는 일실시예에 상응하는 것으로, 각각의 레이어들을 조합한 구조에 한정되지 않는다.
또한, 도 2에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법은 상기와 같은 기능을 기반으로 자연스러운 업믹스 및 다운믹스 기능을 지원할 수 있으므로 다양한 종류의 사운드를 지원하는 컨텐츠 간의 호환성을 향상시킬 수 있다. 예를 들어, 3차원 큐빅을 통해 표현되는 서라운드 이미지를 서라운드 레이어로 다운믹스할 수 있다. 또한, 서라운드 레이어는 다시 근접용 스테레오 레이어로 다운믹스할 수도 있다. 이와 같이, 영역을 기반으로 다운믹스를 수행함에 따라 사운드의 음질을 보다 효과적으로 보존할 수 있다.
또한, 도 2에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법은 네트워크와 같은 통신망을 통해 멀티레이어 바이노럴 컨텐츠 생성을 위해 필요한 정보를 송수신할 수 있다. 특히, 본 발명에서는 멀티레이어 바이노럴 컨텐츠 생성을 위해 입력 가능한 바이노럴 오디오 소스 또는 컨텐츠, 센서로부터 입력되는 헤드 트래킹 데이터 및 사용자 입력에 관련된 정보를 수신할 수 있고, 멀티레이어 바이노럴 컨텐츠를 제공할 수 있다.
또한, 도 2에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법은 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠를 생성하는 과정에서 발생되는 다양한 정보를 별도의 저장 모듈에 저장한다.
이와 같은 멀티레이어 바이노럴 컨텐츠 생성 방법을 통해 다양한 사운드 요소들에 대한 이펙트 편집을 개별적으로 수행할 수 있는 인터페이스를 제공함으로써 사용자의 취향에 적합한 청취환경을 제공할 수 있다.
또한, 헤드 트래킹 데이터의 급격한 변화에 의해 왜곡될 수 있는 음질을 보존할 수도 있다.
도 18은 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 프로그램을 실행시키기 위한 단말 장치를 나타낸 블록도이다.
도 18을 참조하면, 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠 생성 프로그램을 실행시키기 위한 단말 장치는 통신부(1810), 프로세서(1820) 및 메모리(1830)를 포함한다.
통신부(1810)는 네트워크와 같은 통신망을 통해 멀티레이어 바이노럴 컨텐츠 생성을 위해 필요한 정보를 송수신하는 역할을 한다. 특히, 본 발명의 일실시예에 따른 통신부(1810)는 멀티레이어 바이노럴 컨텐츠 생성을 위해 입력 가능한 바이노럴 오디오 소스 또는 컨텐츠, 센서로부터 입력되는 헤드 트래킹 데이터 및 사용자 입력에 관련된 정보를 수신할 수 있고, 멀티레이어 바이노럴 컨텐츠를 제공할 수 있다.
프로세서(1820)는 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성하고, 평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성한다.
이 때, 3차원 바이노럴 레이어는 3차원 공간 이미지를 만드는 요소에 상응하는 것으로, 예를 들어 도 4를 참조하면, 3차원 큐빅 방식에 상응하는 바이노럴 인코더(420)를 이용하여 3차원 바이노럴 레이어에 포함된 다수의 채널들에 상응하는 3차원 레이어 바이노럴 인코딩을 수행할 수 있다.
이 때, 3차원 바이노럴 레이어는 8채널 기반의 3차원 큐빅에 상응하는 4개의 업채널(411)과 4개의 다운채널(412)을 포함할 수 있다.
따라서, 3차원 레이어 바이노럴 출력(430)은 8채널 기반의 오디오를 바이노럴 인코딩함으로써 생성된 출력에 상응할 수 있고, 도 4에 도시된 것과 같이 2채널에 상응하게 출력될 수 있다. 또한, 3차원 레이어 바이노럴 출력(430)에 상응하는 2채널은 각각 레프트 채널과 라이트 채널에 상응할 수 있다.
이 때, 도 4에 도시된 실시예에서는 3차원 바이노럴 레이어로 8채널 기반의 3차원 큐빅 레이어를 사용하였으나, 3차원 바이노럴 레이어는 이에 한정되지 않을 수 있다. 즉, 본 발명에 적용 가능한 다른 3차원 바이노럴 레이어 또는 향후 개발될 3차원 바이노럴 레이어를 포함하여 구성될 수도 있다.
이 때, 3차원 레이어 바이노럴 출력은 4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic) 상에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성될 수 있다.
예를 들어, 도 5를 참조하면, 8채널 기반의 3차원 큐빅은 4개의 업채널들에 상응하는 4개의 동적 스피커들(511~514)과 4개의 다운채널들에 상응하는 4개의 동적 스피커들(515~518)을 각 꼭지점으로 하는 육면체 구조일 수 있다. 이 때, 8개의 동적 스피커들(511~518)의 위치는 변경이 가능하기 때문에 3차원 큐빅에 의해 발생하는 바이노럴 효과의 범위도 동적으로 변경할 수 있다.
다른 예를 들어, 기존의 바이노럴 방식은 Vbap(Vector base amplitude panning) 또는 앰비소닉(Ambisonics) 등을 사용하여 3차원 큐빅을 생성함으로써 8개의 동적 스피커들로 이머시브(immersive) 사운드를 구현할 수도 있다. 즉, 8개의 동적 스피커들 각각에 대해 X, Y, Z에 대한 위치 값을 부여하되, 3차원 큐빅의 중점을 기준으로 하는 벡터 기반의 가상의 트랙 포인트(Track Point)를 표현할 수 있다. 이 때, 가상의 트랙 포인트는 헤드 트래킹 정보에 포함된 파라미터 값에 상응하게 표현될 수 있다.
이와 같은 3차원 큐빅을 통해 오디오만 포함하는 음악 컨텐츠에 대한 공간 이미지를 생성할 수 있고, 소리의 움직임을 표현할 수 있어서 보다 입체적인 효과를 제공할 수 있다.
이 때, 3차원 큐빅은 3차원 큐빅의 꼭지점에 해당하는 8개의 동적 스피커들의 위치를 3차원 바이노럴 레이어에 대한 크기 파라미터에 상응하게 변경하여 생성될 수 있다. 즉, 고정 방식이 아닌 가변 방식의 동적 스피커들의 위치를 크기 파라미터에 상응하게 자유롭게 변경함으로써 효율적으로 3차원 큐빅을 생성할 수 있다.
예를 들어, 크기 파라미터를 상수로 정하고, 여기에 바이노럴 함수를 곱하는 방식으로 3차원 큐빅을 프로세싱함으로써 다양한 범위를 갖는 3차원 큐빅들을 생성할 수도 있다.
이 때, 3차원 벡터는 3차원 큐빅의 내부에 포함되고, 서라운드 레이어에 상응하는 2차원 평면의 중심에 해당하는 기준 청취점을 기준으로 생성될 수 있다.
예를 들어, 바이노럴 스테레오 오디오를 듣는 사용자 또는 청취자의 위치를 가상으로 표현한 기준 청취점은 8개의 동적 스피커들을 각 꼭지점으로 하는 3차원 큐빅의 내부에 위치하되, 서라운드 레이어 상에서 중심 부분에 위치할 수 있다. 이 때, 바이노럴 포인트가 3차원 큐빅의 상면에 위치한다고 가정하면, 3차원 레이어 바이노럴 출력에 상응하는 3차원 벡터는 기준 청취점에서 바이노럴 포인트를 향하는 방향으로 생성될 수 있다.
이 때, 평면 레이어는 3차원 바이노럴 레이어와는 상이한 구조를 갖는 레이어에 상응하는 것으로, 서라운드 효과 또는 스테레오 효과에 상응하는 이미지를 만드는 요소에 상응할 수 있다.
따라서, 평면 레이어는 서라운드 레이어 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성하고, 생성된 서라운드 레이어 바이노럴 출력을 평면 레이어 오디오 출력으로 제공하는 서라운드 레이어 및 스테레오 신호를 입력 받아서 스테레오 신호에 상응하는 평면 레이어 오디오 출력을 생성하는 근접용 스테레오 레이어 중 어느 하나일 수 있다.
예를 들어, 도 6을 참조하면, 바이노럴 인코더(620)를 이용하여 5채널 또는 7채널(610)의 서라운드 레이어에 상응하는 서라운드 레이어 바이노럴 인코딩을 수행할 수 있다. 이 때, 도 9를 통해 설명하겠지만, 근접용 스테레오 레이어에 상응하는 2채널을 서라운드 레이어에 포함시켜 7채널 기반의 서라운드 레이어 바이노럴 인코딩을 수행할 수 있다.
이 때, 서라운드 레이어는, 예를 들어, 도 7에 도시된 것과 같이 5개의 스피커들(711~715)을 포함하는 구조에 상응할 수 있다. 이 때, 서라운드 레이어 바이노럴 출력(630)은 서라운드 레이어 상에 위치하는 바이노럴 포인트에 상응할 수 있다. 만약, 청취자가 서라운드 레이어의 중심에 위치하는 기준 청취점에서 소리를 듣고 있다고 가정할 경우, 마치 서라운드 레이어 상의 바이노럴 포인트에서 소리가 나는 것처럼 바이노럴 인코딩하여 서라운드 레이어 바이노럴 출력(630)을 생성할 수 있다. 이 때, 서라운드 레이어는 서라운드 효과에 상응하는 서라운드 이미지를 만드는 요소에 상응하는 것으로, 도 7에서는 설명의 편의를 위해 서라운드 레이어를 평면의 형태로 도시하였으나, 평면 형태에 한정되지 않을 수 있다.
이 때, 서라운드 레이어 바이노럴 출력(630)은 도 6에 도시된 것과 같이 2채널에 상응하게 출력될 수 있다. 또한, 서라운드 레이어 바이노럴 출력(630)에 상응하는 2채널은 각각 레프트 채널과 라이트 채널에 상응할 수 있다.
이 때, 도 6 내지 도 7에서는 5채널 또는 7채널(610)에 해당하는 서라운드 레이어를 도시하고 있으나, 서라운드 레이어의 채널은 5채널 또는 7채널(610)에 한정되지 않는다. 또한, 도 7에서는 서라운드 레이어를 사각형 평면 형태로 도시하고 있으나, 이에 한정되지 않고 선의 두께, 평면 모양의 형태 및 기준 청취점으로부터의 거리 등 다양한 형태로 표현 가능하다.
다른 예를 들어, 도 8을 참조하면, 스테레오 버스(Stereo Bus)(820)를 기반으로 2채널(810)의 근접용 스테레오 레이어에 상응하게 오디오 프로세싱을 수행할 수 있다. 즉, 평면 레이어 오디오 출력에 상응하는 스테레오 신호(830)는 2채널(810) 기반의 스테레오 오디오를 프로세싱함으로써 생성된 출력에 상응할 수 있고, 2채널에 상응하게 출력될 수 있다.
이 때, 근접용 스테레오 레이어는 스테레오 효과에 상응하는 스테레오 이미지를 만드는 요소에 상응하는 것으로, 서라운드 레이어의 일부로 포함되어 나타낼 수도 있다.
예를 들어, 도 9에 도시된 것과 같이 5개의 스피커들에 기반한 서라운드 레이어 상에 2개의 스피커들(911, 912)에 상응하는 근접용 스테레오 레이어를 포함시켜 총 7개의 스피커들을 포함하는 레이어 구조로 나타낼 수도 있다.
이 때, 도 9에 도시된 것과 같이, 근접용 스테레오 레이어는 서라운드 레이어 상에 위치하는 기준 청취점(900)으로부터 근접한 거리에 배치될 수 있다. 또는, 기준 청취점(900)의 좌우 사이드 스피커로써 근접용 스테레오 레이어를 사용할 수도 있다.
이 때, 근접용 스테레오 레이어에 상응하게 출력되는 스테레오 신호는 바이노럴 인코딩에 사용되는 공간 파라미터로는 연출하기 어려운 댐핑(damping)감을 제공할 수 있다. 따라서, 본 발명의 일실시예에 따른 바이노럴 스테레오 출력은 바이노럴 인코딩에 의한 이머시브(immersive) 효과를 제공함과 동시에 댐핑감을 제공할 수도 있다.
이와 같이, 서라운드 레이어 바이노럴 출력에 상응하는 평면 레이어 오디오 출력이나 스테레오 신호에 상응하는 평면 레이어 오디오 출력은 3차원 레이어 바이노럴 출력과 비교하였을 때, 단지 상이한 음향 효과를 포함하는 출력에 해당하는 것일 수 있다. 즉, 평면 레이어 오디오 출력은 3차원 레이어에 상응하는 출력이 아니어도 3차원 레이어 바이노럴 출력보다 다양한 값을 포함할 수도 있다.
이 때, 평면 레이어는 3차원 큐빅에 상응하는 4개의 업채널들과 4개의 다운채널들 사이에 위치할 수 있다.
예를 들어, 도 11을 참조하면, 본 발명의 일실시예에 따른 평면 레이어에 상응하는 서라운드 레이어(1120)와 근접용 스테레오 레이어(1130)는 3차원 바이노럴 레이어(1110)에 상응하는 3차원 큐빅에 포함된 4개의 업채널들과 4개의 다운채널들 사이에 위치할 수 있다.
이 때, 4개의 업채널들은 3차원 큐빅의 상단에 위치하는 4개의 스피커들에 해당할 수 있고, 4개의 다운채널들은 3차원 큐빅의 하단에 위치하는 4개의 스피커들에 해당할 수 있다.
즉, 도 11에 도시된 것과 같이 평면 레이어는 3차원 큐빅에 상응하는 육면체의 높이 범위 내에 위치할 수 있다.
따라서, 서라운드 레이어(1120)나 근접용 스테레오 레이어(1130)에 포함되는 각각의 스피커들도 3차원 큐빅에 포함된 4개의 업채널들과 4개의 다운채널들 사이에 위치할 수 있다. 이 때, 도 11에서는 설명의 편의를 위해 평면 레이어를 평면의 형태로 도시하였으나, 본 발명의 일실시예에 따른 평면 레이어의 형태는 평면의 형태에 한정되지 않을 수도 있다.
또한, 프로세서(1820)는 오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력 각각에 상응하는 오디오 이펙트를 적용한다.
일반적인 바이노럴 오디오 소스는 공간적 이펙트를 최대한 표현하도록 제작되었기 때문에 음악적 측면에서의 다이나믹한 재생은 기대하기 어렵다. 이러한 이유로 바이노럴 오디오 소스에 오디오 이펙트를 적용하는 경우, 공간적 이펙트를 제공하는 바이노럴 이미지가 손상될 가능성이 크다. 예를 들어, 다이나믹한 사운드를 구현하기 위해 공간의 이미지를 축소하는 경우에 바이노럴 효과가 사라질 수 있고, 저음의 증가로 인해 바이노럴 효과를 저하시킬 수도 있다.
따라서, 본 발명에서는 바이노럴 오디오 소스를 구성하는 레이어별로 사운드 이펙트를 적용함으로써 바이노럴 이미지는 그대로 유지한 상태로 사용자가 원하는 오디오 이펙트를 처리할 수 있다. 이 때, 설명의 편의를 위해 바이노럴 오디오 소스에 대해 한정하여 설명하였으나, 본 발명은 멀티레이어로 구성된 바이노럴 오디오 소스 및 멀티레이어로 구성된 논바이노럴(NON-BINAURL) 오디오 소스에 모두 적용가능할 수 있다.
또한, 프로세서(1820)는 오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 서브우퍼 레이어에 상응하는 서브우퍼 출력에 대해 오디오 이펙트를 적용할 수 있다.
종래의 바이노럴 기술에서는 하나의 사운드 필드만을 제공하기 때문에 오디오 이펙트를 적용하는 경우에 사용자가 의도하지 않은 변형이 발생할 수 있다. 따라서, 본 발명에서는 멀티레이어로 구성된 바이노럴 컨텐츠의 레이어마다 개별적으로 오디오 이펙트를 적용함으로써 사운드 청취에 다양한 장점을 제공할 수 있다.
예를 들어, 다이나믹한 사운드는 그대로 유지한 상태에서 공간 이미지만 크게하고자 하는 경우, 스테레오 레이어는 그대로 두고 3차원 바이노럴 레이어에만 공간 이펙트를 적용할 수 있다.
이 때, 룸(ROOM) 설정, 이퀄라이저(EQUALZER, EQ) 설정 및 플러그인(PLUG-IN) 설정 중 적어도 하나에 대한 오디오 이펙트 설정을 수행할 수 있다.
예를 들어, 도 14를 참조하면, 본 발명의 일실시예에 따른 오디오 이펙트 인터페이스(1400)는 레이어별 룸 사이즈를 조정하기 위한 모드에 상응할 수 있다.
이 때, 오디오 이펙트 인터페이스(1400) 하단에 포함된 탭 메뉴를 통해 오디오 이펙트를 설정하기 위한 모드를 변경할 수 있으며, 각 모드내에서도 플립 버튼(1450)을 통해 다른 이펙트 설정 창으로 이동할 수도 있다.
이 때, 도 14에 도시된 것과 같은 룸 사이즈 설정 모드에서는 비주얼라이제이션 인터페이스(1410)와 함께 3차원 바이노럴 레이어 메뉴(1420), 서라운드 레이어 메뉴(1430) 및 근접용 스테레오 레이어 메뉴(1440)를 제공할 수 있다.
이 때, 본 발명에서는 도 14 및 도 15에 도시된 비주얼라이제이션 인터페이스(1410, 1510)을 제공함으로써 사용자는 청각과 시각으로 공간의 크기가 변함에 따라 소리가 변화하는 정도를 확인할 수도 있다.
이 때, 비주얼라이제이션 인터페이스(1410)는 비주얼라이제이션 플립 버튼(1460)을 통해 도 15에 도시된 것은 형태로 모드를 변경할 수 있다.
이 때, 도 14에 도시된 바이노럴 레이어 메뉴(1420) 및 서라운드 레이어 메뉴(1430)에는 소리의 반사체 재질을 설정함으로써 룸의 특성을 구분할 수 있는 메뉴가 포함될 수 있다. 예를 들어, 하드(HARD) 설정은 시멘트와 같이 단단한 반사 효과가 발생하도록 할 수 있고, 소프트(SOFT) 설정은 목재와 같이 부드러운 반사 효과가 발생하도록 할 수 있다.
또한, 도 14에 도시된 바이노럴 레이어 메뉴(1420) 및 서라운드 레이어 메뉴(1430)에는 룸의 크기를 설정할 수 있는 프리 딜레이(Predelay) 페이더를 제공할 수 있다. 이 때, 프리 딜레이값은 100%가 기준으로 설정될 수 있으며, 시간값으로 설정될 수도 있다.
이 때, 근접용 스테레오 레이어의 경우는 룸 사이즈를 조정할 필요가 없기 때문에 근접용 스테레오 레이어 메뉴(1440)의 페이더를 통해 스테레오의 폭을 조정할 수 있다.
또한, 서브우퍼 레이어의 경우에는 오디오 이펙트를 처리할 필요가 없으므로 룸 사이즈 설정 모드에서는 딤 아웃(Dim Out) 처리될 수 있다.
이 때, 도 14에 도시된 플립 버튼(1450)을 선택하여 도 15에 도시된 것과 같이 오디오 이펙트 인터페이스(1500)를 룸 리버브 설정 모드로 플립할 수 있다.
이 때, 룸 리버브 설정 모드에 포함된 레이어별 메뉴에서는 잔향시간, 즉 리버브가 유지되는 Reverb Time을 조정할 수 있다.
이와 같은 오디오 이펙트 인터페이스를 통해 레이어 별로 오디오 이펙트를 다르게 설정함으로써 사용자의 취향에 적합한 바이노럴 컨텐츠를 감상할 수 있다. 또한, 바이노럴 컨텐츠의 전체적인 음장을 유지하면서도 공간의 크기를 조절할 수 있으며, 바이노럴 효과를 강화할 것인지 또는 다이나믹한 스테레오 사운드를 강화할 것인지를 선택하여 조절할 수도 있다.
또한, 사용자가 사용하는 헤드폰의 다이어그램 사이즈에 따라 바이노럴 효과가 변경되는 문제점을 레이어별 사운드 이펙트 조절을 통해 극복할 수 있다.
이 때, 도 14 내지 도 15에 도시된 것과 같은 사운드 이펙트 인터페이스는 룸 설정 이외에도 하단에 표시된 탭과 같이 이퀄라이저(EQ), 플러그인(PLUGIN)에 대해서도 레이어별로 처리할 수 있는 환경을 제공할 수 있다.
또한, 프로세서(1820)는 바이노럴 오디오 소스에 대한 오토메이션 정보를 고려하여 오디오 이펙트를 리셋시킬 수 있다.
예를 들어, 바이노럴 컨텐츠의 저작권자는 사용자에 의해 사운드가 변경됨으로써 자신이 전달하고자 하는 의도를 왜곡시키는 것을 원하지 않을 수도 있다. 또는, 사용자에 의해 사운드 이펙트가 보정된 바이노럴 컨텐츠의 사운드가 원음에 비해 좋지않은 결과가 나타날 수도 있다. 따라서 이러한 문제점을 방지하기 위해서, 바이노럴 컨텐츠의 저작 단계에서 생성된 오토메이션 정보를 적용하여 오디오 이펙트를 제작 단계에서 설정된 상태로 리셋시킬 수도 있다.
이 때, 바이노럴 오디오 소스의 전체 범위 중 기설정된 적용 범위에 상응하게 오디오 이펙트를 적용할 수 있다.
또한, 프로세서(1820)는 3차원 바이노럴 출력 및 평면 레이어 오디오 출력 각각에 상응하는 헤드 트래킹 데이터를 적용한다. 즉, 바이노럴 컨텐츠의 레이어 별로 회전 파리미터를 제어할 수 있다.
이와 같은 제어를 통해 헤드 트래킹이 필요한 레이어에만 회전 파라미터를 적용할 수 있으므로 컨텐츠 별 특성을 유지하는데 도움이 될 수 있다.
이 때. 헤드 트래킹 데이터는 센서 입력 기반의 자동 헤드 트래킹 데이터 및 헤드 트래킹 인터페이스에 대한 사용자 입력 기반의 수동 헤드 트래킹 데이터 중 어느 하나에 상응할 수 있다.
이 때, 자동 헤드 트래킹 데이터는 사용자나 청취자의 머리 움직임을 트래킹한 데이터에 상응하는 것으로, 별도의 헤드 트래킹 모듈에 기반한 트래킹 입력에 상응하게 획득될 수 있다.
또한, 수동 헤드 트래킹 데이터는 헤드 트래킹 인터페이스에 기반한 사용자 입력에 상응하게 획득될 수 있다.
예를 들어, 사용자나 청취자가 헤드 트래킹 모듈을 직접 착용한 상태에서 머리를 움직이면, 헤드 트래킹 모듈에 장착된 가속 센서, 3축 자이로 센서가 사용자의 머리가 움직인 거리나 각도 등을 측정하여 자동 헤드 트래킹 데이터로 생성하고 전송할 수 있다.
다른 예를 들어, 수동 헤드 트래킹 정보는 사용자나 청취자가 헤드 트래킹 인터페이스를 통해 인위적으로 부여할 수도 있다. 즉, 사용자나 청취자가 인위적으로 공간 이미지를 회전시키기 위해, 헤드 트래킹 모듈에 의한 자동 헤드 트래킹 데이터의 수신 여부와 상관없이 헤드 트래킹 인터페이스를 기반으로 헤드 트래킹 데이터를 입력할 수도 있다. 이 때, 사용자나 청취자는 멀티레이어 바이노럴 컨텐츠를 생성하는 믹싱과정 또는 입력되는 정보에 따라 변화하는 멀티레이어 바이노럴 컨텐츠를 청취하면서 수동으로 헤드 트래킹 데이터를 입력 및 수정할 수도 있다.
이 때, 3차원 바이노럴 레이어에 상응하는 3차원 큐빅은 팬(Pan), 틸트(tilt) 및 롤(roll) 중 적어도 하나의 회전 파라미터에 상응하게 회전될 수 있다.
이와 같이, 헤드 트래킹 데이터에 따라 3차원 큐빅을 회전시키거나 상하좌우로 움직여서 연출되는 효과는 향후 평면 레이어 오디오 출력과 믹싱되어 바이노럴 스테레오 출력을 생성할 수 있다. 따라서, 평면 레이어에 상응하는 서라운드 레이어나 근접용 스테레오 레이어 또는 서브우퍼 레이어 등을 회전시키거나 이동시키는 종래의 방식보다 효율적으로 헤드 트래킹에 기반한 이머시브(immersive) 효과를 연출할 수 있다.
이 때, 헤드 트래킹 데이터는 기설정된 트래킹 제한 범위 이내에서 로그(LOG) 수식으로 변환되어 적용될 수 있다. 즉, 헤드 트래킹의 한계점을 설정하고, 움직임에 따른 비율로 헤드 트래킹 데이터가 한계점에 도달하도록 제어할 수 있다.
이와 같이 헤드 트래킹의 범위에 제한을 둠으로써 과도한 헤드 트래킹으로 인해 음악적인 요소가 사라지거나 음질이 왜곡되는 문제점을 사전에 방지할 수 있다.
예를 들어, 도 16을 참조하면, 헤드 트래킹 인터페이스(1600)는 제한 범위 설정 메뉴(1620), 로그 상수 설정 메뉴(1630) 및 제한 시간 설정 메뉴(1640)를 제공할 수 있다.
이 때 각각의 설정 메뉴들은 ON으로 설정되는 경우, 입력된 헤드 트래킹 데이터(1610)에 영향을 받도록 설정될 수 있다.
먼저, 제한 범위 설정 메뉴(1620)에서는 페이더를 통해 제한되는 설정 각도를 조절할 수 있다. 이는 도 17에 도시된 그래프에서 제한 설정값에 상응할 수 있다.
또한, 로그 상수 설정 메뉴(1630)에서는 제한 범위 설정 메뉴(1620)에서 설정된 제한 각도 이상의 헤드 트래킹 데이터가 입력되는 경우, 해당하는 헤드 트래킹 데이터를 기설정된 제한 시간까지 어떠한 모양의 로그 그래프로 형성할 것인지를 결정할 수 있다.
예를 들어, 도 17에서 처리된 헤드 트래킹 데이터(1720)는 수신된 헤드 트래킹 데이터(1710)에 [수학식 1]과 같은 로그 함수를 적용한 결과에 상응할 수 있다.
[수학식 1]
Y = -(log a(x+1))
이 때, 로그 상수 설정 메뉴(1630)를 통해 [수학식 1]에 해당하는 로그 함수의 a값을 설정할 수 있다. 이 때, a값은 소리의 특성이 적용될 수 있고, x에 감속 적용값을 적용시킬 수 있다.
또한, 제한 시간 설정 메뉴(1640)에서는 제한 범위 설정 메뉴(1620)에서 설정된 제한 각도 이상의 헤드 트래킹 데이터가 입력되는 경우, 추가적으로 어느 정도의 시간까지 로그 함수의 비율을 적용받을 것일지를 결정할 수 있다. 즉, 도 17에 도시된 제한 시간(1730)을 설정할 수 있다.
또한, 프로세서(1820)는 차원 레이어 바이노럴 출력, 평면 레이어 오디오 출력 및 서브우퍼 출력 각각에 상응하는 볼륨과 필터를 조절할 수도 있다.
예를 들어, 도 12를 참조하면, 본 발명의 일실시예에 따른 볼륨 인터페이스(1200)는 레이어별로 볼륨을 조절할 수 있는 메뉴를 제공할 수 있다. 먼저, 프리셋 및 레벨 미터 모드 선택 메뉴(1210)를 통해 프리셋을 선택한 뒤 프리 페이더 또는 포스트 페이터 중 어느 하나의 레벨 미터 모드를 선택할 수 있다.
이 때, 오토메이션 수신 여부를 선택할 수 있는데, 잠금 상태로 설정하는 경우에 오토메이션 데이터를 수신함으로써 사용자가 파라미터를 변경할 수 없는 상태로 설정될 수 있다. 반대로 열림 상태로 설정하는 경우, 오토메이션 데이터 제공 여부와 상관없이 사용자의 취향에 따라 오디오 이펙트를 조정하는 것이 가능하다.
이 때, 레이어별로 볼륨을 조절할 수 있도록 3차원 바이노럴 레이어 메뉴(1230), 서라운드 레이어 메뉴(1240), 근접용 스테레오 레이어 메뉴(1250) 및 서브우퍼 레이어 메뉴(1260)를 각각 제공할 수 있다. 이 때, 3차원 바이노럴 레이어 메뉴(1230), 서라운드 레이어 메뉴(1240) 및 근접용 스테레오 레이어 메뉴(1250)에는 로우컷(Low Cut)된 데이터를 서브우퍼(LFE) 채널로 어사인하기 위한 메뉴가 포함될 수 있다. 또한, 서브우퍼 레이어 메뉴(1260)에는 최대 설정이 가능한 주파수값만 제공할 수 있다.
이 때, 본 발명의 일실시예에 따른 볼륨 인터페이스(1200)에서는 플립(Flip) 버튼(1270)을 제공함으로써 도 13과 같이 레이어별로 필터를 조절할 수 있는 필터 인터페이스(1300) 기반의 메뉴를 제공할 수도 있다.
따라서, 레이어별 메뉴에 포함된 페이더는 플립 버튼(1270, 1310)을 통해 설정된 모드에 따라 볼륨을 조절하거나 필터를 설정하는데 각각 사용될 수 있다.
이와 같이, 바이노럴 레이어의 볼륨과 필터를 사용자가 자유롭게 조절할 수 있는 인터페이스를 제공함으로써 사용자의 상황을 고려하여 바이노럴 컨텐츠를 청취할 수 있도록 할 수 있다. 이를 통해 바이노럴 효과를 극대화하거나 근접한 소리를 극대화할 수 있는 등의 다양한 청취가 가능하며, 서브우퍼 레벨의 조정을 통해 바이노럴 사운드의 움직임을 청취하는 것도 가능하다.
또한, 프로세서(1820)는 오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 멀티레이어 바이노럴 컨텐츠를 생성한다.
이 때, 3차원 레이어 바이노럴 출력에 의한 이머시브(immersive) 요소와 평면 레이어 오디오 출력에 의한 근접 재생 요소 및 오브젝트 요소 등을 믹스함으로써 바이노럴 효과가 극대화된 멀티레이어 바이노럴 컨텐츠를 생성할 수 있다.
이 때, 이머시브(immersive) 사운드만 구성하고자 하는 경우에는 3차원 레이어 바이노럴 출력만을 이용하여 바이노럴 컨텐츠를 생성할 수도 있다.
또한, 프로세서(1820)는 오디오 이펙트가 적용된 서브우퍼 출력을 오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력과 함께 합산하여 멀티레이어 바이노럴 컨텐츠를 생성할 수 있다.
이 때, 서브우퍼 출력을 합산함으로써 멀티레이어 바이노럴 컨텐츠에 상응하는 이머시브(immersive) 효과를 극대화 시킬 수 있고, 다이나믹한 저음 재생 요소를 연출할 수 있다.
예를 들어, 도 10을 참조하면, LFE 버스(Low Frequency Effects Bus)(1020)를 기반으로 서브우퍼 레이어에 포함된 단일 채널 또는 2채널(1010)의 신호를 오디오 프로세싱할 수 있다. 즉, 서브우퍼 출력(1030)은 단일 채널 또는 2채널(1010) 기반의 오디오를 프로세싱함으로써 생성된 출력에 상응할 수 있고, 도 10에 도시된 것과 같이 단일 채널 또는 2채널에 상응할 수 있다.
예를 들어, 서브우퍼 레이어는 5.1 채널, 7.1 채널 및 11.1 채널과 같이 단일 채널에 상응하거나, 10.2 채널 및 22.2 채널과 같이 2채널에 상응할 수도 있다.
이 때, 서브우퍼 레이어는 3차원 바이노럴 레이어에 상응하는 3차원 큐빅이나 평면 레이어와 분리되어 위치할 수 있다.
예를 들어, 도 11에 도시된 것과 같이 서브우퍼 레이어(1140)는 3차원 바이노럴 레이어에 상응하는 3차원 큐빅(1110), 서라운드 레이어(1120) 및 근접용 스테레오 레이어(1130)와 떨어진 곳에 위치할 수 있다. 이 때, 도 11에 도시된 구조는 일실시예에 상응하는 것으로, 각각의 레이어들을 조합한 구조에 한정되지 않는다.
또한, 프로세서(1820)는 상기와 같은 기능을 기반으로 자연스러운 업믹스 및 다운믹스 기능을 지원할 수 있으므로 다양한 종류의 사운드를 지원하는 컨텐츠 간의 호환성을 향상시킬 수 있다. 예를 들어, 3차원 큐빅을 통해 표현되는 서라운드 이미지를 서라운드 레이어로 다운믹스할 수 있다. 또한, 서라운드 레이어는 다시 근접용 스테레오 레이어로 다운믹스할 수도 있다. 이와 같이, 영역을 기반으로 다운믹스를 수행함에 따라 사운드의 음질을 보다 효과적으로 보존할 수 있다.
메모리(1830)는 상술한 바와 같이 본 발명의 일실시예에 따른 멀티레이어 바이노럴 컨텐츠를 생성하는 과정에서 발생되는 다양한 정보를 저장한다.
실시예에 따라, 메모리(1830)는 멀티레이어 바이노럴 컨텐츠를 생성하는 단말 장치와 독립적으로 구성되어 멀티레이어 바이노럴 컨텐츠 생성 기능을 지원할 수 있다. 이 때, 메모리(1830)는 별도의 대용량 스토리지로 동작할 수 있고, 동작 수행을 위한 제어 기능을 포함할 수 있다.
한편, 단말 장치는 메모리가 탑재되어 그 장치 내에서 정보를 저장할 수 있다. 일 구현예의 경우, 메모리는 컴퓨터로 판독 가능한 매체이다. 일 구현 예에서, 메모리는 휘발성 메모리 유닛일 수 있으며, 다른 구현예의 경우, 메모리는 비휘발성 메모리 유닛일 수도 있다. 일 구현예의 경우, 저장장치는 컴퓨터로 판독 가능한 매체이다. 다양한 서로 다른 구현 예에서, 저장장치는 예컨대 하드디스크 장치, 광학디스크 장치, 혹은 어떤 다른 대용량 저장장치를 포함할 수도 있다.
이와 같은 단말 장치를 기반으로 다양한 사운드 요소들에 대한 이펙트 편집을 개별적으로 수행할 수 있는 인터페이스를 제공함으로써 사용자의 취향에 적합한 청취환경을 제공할 수 있다.
또한, 헤드 트래킹 데이터의 급격한 변화에 의해 왜곡될 수 있는 음질을 보존할 수도 있다.
본 발명의 실시예는 컴퓨터로 구현된 방법이나 컴퓨터에서 실행 가능한 명령어들이 기록된 비일시적인 컴퓨터에서 읽을 수 있는 매체로 구현될 수 있다. 컴퓨터에서 읽을 수 있는 명령어들이 프로세서에 의해서 수행될 때, 컴퓨터에서 읽을 수 있는 명령어들은 본 발명의 적어도 한 가지 측면에 따른 방법을 수행할 수 있다.
이상에서와 같이 본 발명에 따른 멀티레이어 바이노럴 컨텐츠 생성 방법 및 이를 위한 프로그램은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

Claims (20)

  1. 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성하고, 평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성하는 단계;
    오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 상기 3차원 레이어 바이노럴 출력 및 상기 평면 레이어 오디오 출력 각각에 상응하는 오디오 이펙트를 적용하는 단계; 및
    오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 멀티레이어 바이노럴 컨텐츠를 생성하는 단계
    를 포함하는 것을 특징으로 하는 멀티레이어 바이노럴 컨텐츠 생성 방법.
  2. 청구항 1에 있어서,
    상기 멀티레이어 바이노럴 컨텐츠 생성 방법은
    상기 3차원 바이노럴 출력 및 상기 평면 레이어 오디오 출력 각각에 상응하는 헤드 트래킹 데이터를 적용하는 단계를 더 포함하는 것을 특징으로 하는 멀티레이어 바이노럴 컨텐츠 생성 방법.
  3. 청구항 2에 있어서,
    상기 헤드 트래킹 데이터는
    센서 입력 기반의 자동 헤드 트래킹 데이터 및 헤드 트래킹 인터페이스에 대한 사용자 입력 기반의 수동 헤드 트래킹 데이터 중 어느 하나에 상응하는 것을 특징으로 하는 멀티레이어 바이노럴 컨텐츠 생성 방법.
  4. 청구항 3에 있어서,
    상기 헤드 트래킹 데이터는
    기설정된 트래킹 제한 범위 이내에서 로그(LOG) 수식으로 변환되어 적용되는 것을 특징으로 하는 멀티레이어 바이노럴 컨텐츠 생성 방법.
  5. 청구항 2에 있어서,
    상기 오디오 이펙트를 적용하는 단계는
    룸(ROOM) 설정, 이퀄라이저(EQUALIZER, EQ) 설정 및 플러그인(PLUG-IN) 설정 중 적어도 하나에 대한 설정을 수행하는 것을 특징으로 하는 멀티레이어 바이노럴 컨텐츠 생성 방법.
  6. 청구항 1에 있어서,
    상기 평면 레이어는
    서라운드 레이어 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성하고, 생성된 상기 서라운드 레이어 바이노럴 출력을 상기 평면 레이어 오디오 출력으로 제공하는 서라운드 레이어 및
    스테레오 신호를 입력 받아서 상기 스테레오 신호에 상응하는 상기 평면 레이어 오디오 출력을 생성하는 근접용 스테레오 레이어 중 어느 하나인 것을 특징으로 하는 멀티레이어 바이노럴 컨텐츠 생성 방법.
  7. 청구항 1에 있어서,
    상기 3차원 레이어 바이노럴 출력은
    4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic) 상에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성되는 것을 특징으로 하는 멀티레이어 바이노럴 컨텐츠 생성 방법.
  8. 청구항 1에 있어서,
    상기 멀티레이어 바이노럴 컨텐츠를 생성하는 단계는
    상기 오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 서브우퍼 레이어에 상응하는 서브우퍼 출력에 상응하는 오디오 이펙트를 적용하는 단계; 및
    오디오 이펙트가 적용된 서브우퍼 출력을 상기 오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력과 함께 합산하여 상기 멀티레이어 바이노럴 컨텐츠를 생성하는 단계를 더 포함하는 것을 특징으로 하는 멀티레이어 바이노럴 컨텐츠 생성 방법.
  9. 청구항 8에 있어서,
    상기 멀티레이어 바이노럴 컨텐츠 생성 방법은
    바이노럴 오디오 소스에 대한 오토메이션 정보를 고려하여 상기 오디오 이펙트를 리셋시키는 단계를 더 포함하는 것을 특징으로 하는 멀티레이어 바이노럴 컨텐츠 생성 방법.
  10. 청구항 9에 있어서,
    상기 오디오 이펙트를 적용하는 단계는
    상기 바이노럴 오디오 소스의 전체 범위 중 기설정된 적용 범위에 상응하게 상기 오디오 이펙트를 적용하는 것을 특징으로 하는 멀티레이어 바이노럴 컨텐츠 생성 방법.
  11. 3차원 바이노럴 레이어에 상응하는 3차원 레이어 바이노럴 인코딩을 수행하여 3차원 레이어 바이노럴 출력을 생성하고, 평면 레이어에 상응하는 오디오 프로세싱을 수행하여 평면 레이어 오디오 출력을 생성하는 단계;
    오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 상기 3차원 레이어 바이노럴 출력 및 상기 평면 레이어 오디오 출력 각각에 상응하는 오디오 이펙트를 적용하는 단계; 및
    오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력을 합하여 멀티레이어 바이노럴 컨텐츠를 생성하는 단계를 실행시키는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 멀티레이어 바이노럴 컨텐츠 생성 프로그램.
  12. 청구항 11에 있어서,
    상기 3차원 바이노럴 출력 및 상기 평면 레이어 오디오 출력 각각에 상응하는 헤드 트래킹 데이터를 적용하는 단계를 더 실행시키는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 멀티레이어 바이노럴 컨텐츠 생성 프로그램.
  13. 청구항 12에 있어서,
    상기 헤드 트래킹 데이터는
    센서 입력 기반의 자동 헤드 트래킹 데이터 및 헤드 트래킹 인터페이스에 대한 사용자 입력 기반의 수동 헤드 트래킹 데이터 중 어느 하나에 상응하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 멀티레이어 바이노럴 컨텐츠 생성 프로그램.
  14. 청구항 13에 있어서,
    상기 헤드 트래킹 데이터는
    기설정된 트래킹 제한 범위 이내에서 로그(LOG) 수식으로 변환되어 적용되는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 멀티레이어 바이노럴 컨텐츠 생성 프로그램.
  15. 청구항 12에 있어서,
    룸(ROOM) 설정, 이퀄라이저(EQUALIZER, EQ) 설정 및 플러그인(PLUG-IN) 설정 중 적어도 하나에 대한 설정을 수행하여 상기 오디오 이펙트를 적용하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 멀티레이어 바이노럴 컨텐츠 생성 프로그램.
  16. 청구항 11에 있어서,
    상기 평면 레이어는
    서라운드 레이어 바이노럴 인코딩을 수행하여 서라운드 레이어 바이노럴 출력을 생성하고, 생성된 상기 서라운드 레이어 바이노럴 출력을 상기 평면 레이어 오디오 출력으로 제공하는 서라운드 레이어 및
    스테레오 신호를 입력 받아서 상기 스테레오 신호에 상응하는 상기 평면 레이어 오디오 출력을 생성하는 근접용 스테레오 레이어 중 어느 하나인 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 멀티레이어 바이노럴 컨텐츠 생성 프로그램.
  17. 청구항 11에 있어서,
    상기 3차원 레이어 바이노럴 출력은
    4개의 업 채널들과 4개의 다운채널들로 구성된 8채널 기반의 3차원 큐빅(Cubic) 상에 위치하는 바이노럴 포인트에 대한 3차원 벡터에 상응하게 생성되는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 멀티레이어 바이노럴 컨텐츠 생성 프로그램.
  18. 청구항 11에 있어서,
    상기 오디오 이펙트 인터페이스에 대한 사용자 입력을 기반으로 서브우퍼 레이어에 상응하는 서브우퍼 출력에 상응하는 오디오 이펙트를 적용하는 단계; 및
    오디오 이펙트가 적용된 서브우퍼 출력을 상기 오디오 이펙트가 적용된 3차원 레이어 바이노럴 출력 및 평면 레이어 오디오 출력과 함께 합산하여 상기 멀티레이어 바이노럴 컨텐츠를 생성하는 단계를 더 실행시키는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 멀티레이어 바이노럴 컨텐츠 생성 프로그램.
  19. 청구항 18에 있어서,
    바이노럴 오디오 소스에 대한 오토메이션 정보를 고려하여 상기 오디오 이펙트를 리셋시키는 단계를 더 실행시키는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 멀티레이어 바이노럴 컨텐츠 생성 프로그램.
  20. 청구항 19에 있어서,
    상기 바이노럴 오디오 소스의 전체 범위 중 기설정된 적용 범위에 상응하게 상기 오디오 이펙트를 적용하는 것을 특징으로 하는 컴퓨터로 판독 가능한 기록매체에 저장된 멀티레이어 바이노럴 컨텐츠 생성 프로그램.
PCT/KR2019/003700 2018-03-30 2019-03-29 멀티레이어 바이노럴 컨텐츠 생성 방법 및 이를 위한 프로그램 WO2019190261A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2018-0037502 2018-03-30
KR1020180037502A KR102036893B1 (ko) 2018-03-30 2018-03-30 멀티레이어 바이노럴 컨텐츠 생성 방법 및 이를 위한 프로그램

Publications (1)

Publication Number Publication Date
WO2019190261A1 true WO2019190261A1 (ko) 2019-10-03

Family

ID=68060336

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/003700 WO2019190261A1 (ko) 2018-03-30 2019-03-29 멀티레이어 바이노럴 컨텐츠 생성 방법 및 이를 위한 프로그램

Country Status (2)

Country Link
KR (1) KR102036893B1 (ko)
WO (1) WO2019190261A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050111379A (ko) * 2004-05-21 2005-11-24 한국전자통신연구원 3차원 입체 영상 부가 데이터를 이용한 3차원 입체 디지털방송 송/수신 장치 및 그 방법
KR20130044926A (ko) * 2011-10-25 2013-05-03 강릉원주대학교산학협력단 2차원 영상과 3차원 영상에 호환되는 음향 정보를 생성하는 음향 시스템, 음향 송신기, 음향 송신 방법, 및 컴퓨터 판독 가능한 기록 매체
KR20150013073A (ko) * 2013-07-25 2015-02-04 한국전자통신연구원 다채널 오디오 신호의 바이노럴 렌더링 방법 및 장치
WO2017223110A1 (en) * 2016-06-21 2017-12-28 Dolby Laboratories Licensing Corporation Headtracking for pre-rendered binaural audio
KR20180020295A (ko) * 2015-07-31 2018-02-27 애플 인크. 인코딩된 오디오 메타데이터-기반 등화

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050111379A (ko) * 2004-05-21 2005-11-24 한국전자통신연구원 3차원 입체 영상 부가 데이터를 이용한 3차원 입체 디지털방송 송/수신 장치 및 그 방법
KR20130044926A (ko) * 2011-10-25 2013-05-03 강릉원주대학교산학협력단 2차원 영상과 3차원 영상에 호환되는 음향 정보를 생성하는 음향 시스템, 음향 송신기, 음향 송신 방법, 및 컴퓨터 판독 가능한 기록 매체
KR20150013073A (ko) * 2013-07-25 2015-02-04 한국전자통신연구원 다채널 오디오 신호의 바이노럴 렌더링 방법 및 장치
KR20180020295A (ko) * 2015-07-31 2018-02-27 애플 인크. 인코딩된 오디오 메타데이터-기반 등화
WO2017223110A1 (en) * 2016-06-21 2017-12-28 Dolby Laboratories Licensing Corporation Headtracking for pre-rendered binaural audio

Also Published As

Publication number Publication date
KR102036893B1 (ko) 2019-10-25
KR20190114578A (ko) 2019-10-10

Similar Documents

Publication Publication Date Title
WO2015147532A2 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2016024847A1 (ko) 음향 신호를 생성하고 재생하는 방법 및 장치
WO2015199508A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2015147619A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2017191970A2 (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치
WO2018056780A1 (ko) 바이노럴 오디오 신호 처리 방법 및 장치
WO2018056624A1 (en) Electronic device and control method thereof
WO2019103584A1 (ko) 귀 개방형 헤드폰을 이용한 다채널 사운드 구현 장치 및 그 방법
WO2015142073A1 (ko) 오디오 신호 처리 방법 및 장치
WO2015156654A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2015174753A1 (en) Content output apparatus, mobile apparatus, and controlling methods thereof
WO2014175669A1 (ko) 음상 정위를 위한 오디오 신호 처리 방법
WO2014088328A1 (ko) 오디오 제공 장치 및 오디오 제공 방법
WO2012005507A2 (en) 3d sound reproducing method and apparatus
WO2019031652A1 (ko) 3차원 오디오 재생 방법 및 재생 장치
EP3138300A1 (en) Content output apparatus, mobile apparatus, and controlling methods thereof
WO2019147064A1 (ko) 오디오 데이터를 송수신하는 방법 및 그 장치
WO2016089180A1 (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
WO2019147040A1 (ko) 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치
WO2021060680A1 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
WO2016190460A1 (ko) 입체 음향 재생 방법 및 장치
WO2016182184A1 (ko) 입체 음향 재생 방법 및 장치
WO2021029447A1 (ko) 디스플레이 장치 및 그의 동작 방법
WO2019199040A1 (ko) 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치
WO2019190261A1 (ko) 멀티레이어 바이노럴 컨텐츠 생성 방법 및 이를 위한 프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19776271

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19776271

Country of ref document: EP

Kind code of ref document: A1