WO2014175669A1 - 음상 정위를 위한 오디오 신호 처리 방법 - Google Patents

음상 정위를 위한 오디오 신호 처리 방법 Download PDF

Info

Publication number
WO2014175669A1
WO2014175669A1 PCT/KR2014/003576 KR2014003576W WO2014175669A1 WO 2014175669 A1 WO2014175669 A1 WO 2014175669A1 KR 2014003576 W KR2014003576 W KR 2014003576W WO 2014175669 A1 WO2014175669 A1 WO 2014175669A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
channel
speaker
sound
audio
Prior art date
Application number
PCT/KR2014/003576
Other languages
English (en)
French (fr)
Inventor
이태규
오현오
송명석
송정욱
Original Assignee
인텔렉추얼디스커버리 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔렉추얼디스커버리 주식회사 filed Critical 인텔렉추얼디스커버리 주식회사
Priority to US14/787,065 priority Critical patent/US20160104491A1/en
Publication of WO2014175669A1 publication Critical patent/WO2014175669A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present invention relates to an audio signal processing method for sound image positioning, and more particularly, to an audio signal processing method for sound image positioning for encoding and decoding object audio signals or rendering in three-dimensional space.
  • SOUND LOCALIZATION ⁇ The present invention claims the benefit of the filing date of Korean Patent Application No. 1020130047056 filed April 27, 2013, the entire contents of which are incorporated herein.
  • 3D audio is a series of signal processing to provide a realistic sound in three-dimensional space by providing another dimension in the height direction to the sound scene (2D) on the horizontal plane provided by conventional surround audio, Commonly referred to as transmission, encoding, and reproduction techniques.
  • transmission, encoding, and reproduction techniques Commonly referred to as transmission, encoding, and reproduction techniques.
  • a rendering technology that requires sound images to be formed at a virtual position where no speaker exists even if a larger number of speakers or a smaller number of speakers are used is widely required.
  • 3D audio is expected to be an audio solution that is compatible with upcoming ultra-high definition televisions (UHDTVs), as well as theater sound, personal 3DTVs, tablets, smartphones, and clouds, as well as sound in vehicles evolving into high-quality infotainment spaces. It is expected to be applied to a variety of applications.
  • UHDTVs ultra-high definition televisions
  • 3DTVs tablets, smartphones, and clouds
  • 3D audio first needs to transmit signals of more channels than conventional ones up to 22.2 channels, which requires a suitable compression transmission technique.
  • an object-based signal transmission scheme is required as an alternative for effectively transmitting such a sound scene.
  • the user may arbitrarily control the playback size and position of the objects. To make it possible. Accordingly, there is a need for an effective transmission method capable of compressing an object signal at a high data rate.
  • an audio signal processing method for sound image positioning comprising: receiving a bit string including an object signal of audio and object position information of the audio; Decoding the object signal and the object position information using the received bit string, receiving past object position information, which is past object position information corresponding to the object position information, from a storage medium, and receiving the received past object Generating an object movement path using position information and the decoded object position information, generating a variable gain value over time using the generated object movement path, and generating the variable gain value and the weighting function. Generating a modified variable gain value using the modified variable gain value And a step of generating a channel signal from the decoding object signals.
  • the weighting function may change based on the physiological characteristics of the user.
  • the physiological feature may be extracted using an image or an image.
  • the physiological characteristics may include at least one of information on the head, the size of the body and the shape of the external ear.
  • the present invention a problem that a user is discontinuously perceived differently from a content intention for a continuously moving signal is solved.
  • the present invention has the effect of selectively solving this problem by using a weighting function that is adapted to each user by reflecting the physiological characteristics of the user.
  • the effects of the present invention are not limited to the above-described effects, and effects that are not mentioned will be clearly understood by those skilled in the art from the present specification and the accompanying drawings.
  • FIG. 1 is a flowchart of an audio signal processing method for sound image positioning according to the present invention.
  • FIG. 2 is a view for explaining a viewing angle according to an image size at the same viewing distance.
  • 3 is a layout view of speaker arrangement of 22.2ch as an example of the multi-channel.
  • FIG. 4 is a conceptual diagram illustrating the position of each sound object on a listening space where a listener listens to 3D audio.
  • FIG. 5 is an exemplary configuration diagram of forming an object signal group using the grouping method according to the present invention with respect to the objects shown in FIG. 4.
  • FIG. 6 is a block diagram of an embodiment of an encoder of an object audio signal according to the present invention.
  • FIG. 7 is an exemplary configuration diagram of a decoding apparatus according to an embodiment of the present invention.
  • 8 and 9 are examples of bit strings generated by encoding by the encoding method according to the present invention.
  • FIG. 10 is a block diagram illustrating an object and channel signal decoding system according to the present invention.
  • FIG. 11 is a block diagram of another object and channel signal decoding system according to the present invention.
  • FIG. 13 is a diagram illustrating a masking threshold for a plurality of object signals according to the present invention.
  • FIG. 14 is an embodiment of an encoder for calculating a masking threshold for a plurality of object signals according to the present invention.
  • FIG. 15 is a view for explaining the case where the channel is arranged at any position and the arrangement according to the ITUR recommendation for the 5.1-channel setup.
  • 16 and 17 illustrate a structure of an embodiment in which a decoder for an object bit stream and a flexible rendering system using the same are connected according to the present invention.
  • 18 is a structure of another embodiment implementing decoding and rendering on an object bit string according to the present invention.
  • 19 is a diagram illustrating a structure for determining and transmitting a transmission plan between a decoder and a renderer.
  • FIG. 20 is a conceptual view illustrating a concept of reproducing speakers absent by a display among front-facing speakers in a 22.2 channel system by using peripheral channels thereof.
  • 21 is an embodiment of a processing method for arranging a sound source at a member speaker position according to the present invention.
  • FIG. 22 is a diagram for mapping a signal generated in each band to a speaker disposed around a TV.
  • 23 is a conceptual diagram illustrating a process of downmixing an exception signal.
  • 24 is a flowchart of a down mixer selection unit.
  • 25 is a conceptual diagram illustrating a simplified method in a matrix based downmixer.
  • 26 is a conceptual diagram of a matrix based downmixer.
  • 27 is a conceptual diagram of a path based downmixer.
  • 29 is a conceptual diagram of the detent effect.
  • 30 is a conceptual diagram of a virtual channel generator.
  • 31 is a view illustrating a relationship between products in which an audio signal processing apparatus according to an embodiment of the present invention is implemented.
  • Coding can be interpreted as encoding or decoding in some cases, and information is a term that encompasses values, parameters, coefficients, elements, and so on. Although interpreted otherwise, the present invention is not limited thereto.
  • an audio signal processing method receiving a bit string including an object signal of audio and object position information of the audio, and using the received bit string, the object signal and the object position Decoding the information, receiving the past object location information which is the past object location information corresponding to the object location information from a storage medium, and moving the object by using the received past object location information and the decoded object location information.
  • Generating a path generating a variable gain value over time using the generated object movement path, generating a modified variable gain value using the generated variable gain value and a weighting function, and modifying Generating a channel signal from the decoded object signal by using the received variable gain value It includes.
  • the weighting function may change based on the physiological characteristics of the user.
  • the physiological feature may be extracted using an image or an image.
  • the physiological characteristics may include at least one of information on the head, the size of the body and the shape of the external ear.
  • FIG. 1 is a flowchart of an audio signal processing method for sound image positioning according to the present invention.
  • the audio signal processing method receiving a bit string including an object signal of audio and object position information of the audio ( S100), decoding the object signal and the object position information using the received bit string (S110), and receiving past object position information, which is past object position information corresponding to the object position information, from a storage medium.
  • step S120 generating an object movement path using the received past object position information and the decoded object position information in operation S130, and generating a variable gain value over time using the generated object movement path.
  • operation S140 generating a modified variable gain value by using the generated variable gain value and a weighting function in operation S150 and the modified value. From the object, the signal decoded using the byeonjeok gain and a step (S160) of generating a channel signal.
  • the UHDTV (7680 * 4320 pixels) 2 is about 16 times larger than the HDTV (1920 * 1080 pixels) 1.
  • the viewing angle may be about 30 degrees.
  • the UHDTV 2 is installed at the same viewing distance, the viewing angle reaches about 100 degrees.
  • 3 is a diagram illustrating a speaker layout of 22.2ch as an example of a multi-channel.
  • 22.2 channels may be an example of a multi-channel environment for enhancing the sound field, and the present invention is not limited to a specific number of channels or a specific speaker layout.
  • 22.2ch is located in three layers 310, 320, and 330.
  • the three layers 310, 320, and 330 are the top layer 310 at the highest position, the bottom layer 330 at the lowest position, the top layer 310 and the bottom layer ( And a middle layer 320 between 330.
  • a total of nine channels may be provided in the top layer 310.
  • the top layer 310 includes three (TpFL, TpFC, TpFR) from left to right on the front surface, three from left to right (TpL, TpC, and TpR) in the middle position, and from left to right in the surround position.
  • TpFL, TpFC, TpFR three from left to right
  • TpL, TpC, and TpR in the middle position
  • the front surface may mean the screen side.
  • a total of 10 channels may be provided in the middle layer 320.
  • the middle layer 320 includes five (FL, FLC, FC, FRC, FR) from the left side to the front side, two from the left side to the right side (L, R) in the middle position, and the left side in the surround position. From the right side, the speakers may be arranged in three channels BL, BC, and BL. Of the five speakers in the front, three of the center positions may be included in the TV screen.
  • a total of three channels (BtFL, BtFC, BtFR) and two LFE channels 340 may be provided on the bottom layer 330.
  • a speaker may be disposed in each channel of the bottom layer 330.
  • High throughput can be required to transmit and reproduce multi-channel signals up to dozens of channels beyond the 22.2 channels listed above.
  • a high compression ratio may be required when considering a communication environment.
  • each sound object 420 is represented as a point source for convenience of schematic drawing, in addition to the point source, a sound source in the form of a plain wave or an ambient sound source (space of a sound scene) is illustrated. There may also be sound spreading throughout the entire bearing to recognize the sound.
  • FIG. 5 shows that the object signal groups 510 and 520 are formed using the grouping method according to the present invention for the schematic objects of FIG. 4.
  • an object signal group is formed to encode or process grouped objects in units.
  • the encoding includes a case of discrete coding an object as an individual signal or a case of performing parametric coding on an object signal.
  • the grouped objects are generated in units.
  • all objects constituting the sound scene may be one downmix signal (the downmix signal may be mono (one channel) or stereo (two channel), but for convenience, one) And the corresponding object parameter information.
  • the downmix signal may be mono (one channel) or stereo (two channel), but for convenience, one)
  • the corresponding object parameter information may be represented by one downmix and the corresponding object parameter information.
  • the present invention uses a method of grouping objects to be encoded to generate a downmix in group units.
  • the downmix gain may be applied when each object is downmixed in the group-down process, and the applied downmix gain for each object is included in the bit string for each group as additional information.
  • the first method of forming a group is a method of forming a group between nearby objects in consideration of the position of each object in the sound scene.
  • the object groups 510 and 520 of FIG. 5 are an example formed in this manner. This is because of imperfection of parameter coding, so that crosstalk distortions occurring between each object or distortions occurring when performing rendering that moves or resizes objects to a third position may not be heard by the listener 410. Way. Distortions on objects in the same location are relatively invisible to listeners by masking. For the same reason, even in the case of individual encoding, an effect of sharing additional information may be expected through grouping between objects that are spatially similar.
  • FIG. 6 is a block diagram of an embodiment of an encoder of an object audio signal that includes an object grouping and downmix method according to the present invention.
  • Downmixing is performed for each group, and in this process, parameters necessary to restore downmixed objects are generated (620, 640).
  • the downmix signals generated for each group are additionally encoded by a waveform encoder 660 that encodes waveforms for each channel such as AAC and MP3. This is commonly called Core codec.
  • encoding may be performed through coupling between each downmix signal.
  • the signal generated by each encoder is formed and transmitted as one bit string through the mux 670. Accordingly, the bit streams generated by the downmix & parameter encoders 620 and 640 and the waveform encoder 660 can be regarded as a case of encoding component objects forming one sound scene.
  • object signals belonging to different object groups in the generated bit strings are encoded with the same time frame, and thus have a feature of being reproduced in the same time zone.
  • the grouping information generated by the object grouping unit may be encoded and transmitted to the receiving end.
  • FIG. 7 is a block diagram illustrating an embodiment of decoding a signal that is encoded and transmitted as described above.
  • the decoding process is an inverse process of encoding, and the plurality of downmix signals subjected to the waveform decoding 720 are input to the upmixer & parameter decoder together with the corresponding parameters. Since there are a plurality of downmixes, a plurality of parameter decodings are required.
  • the transmitted bit string includes the global gain and the object group gain, they can be applied to restore the normal object signal.
  • the gain values can be controlled, and the gain of each group can be adjusted through the object group gain through the global gain control and the gain of the group.
  • the object group gain may be easily adjusted.
  • the plurality of parameter encoders or decoders are illustrated as being processed in parallel for convenience of description, but it is also possible to sequentially encode or decode a plurality of object groups through one system.
  • Another method of forming an object group is to group objects having low correlation with each other into one group.
  • This is a feature of parameter coding that takes into account features that are highly correlated objects that are difficult to separate from the downmix.
  • an encoding method may be performed such that each grouped object is further correlated by adjusting a parameter such as a downmix gain during downmixing.
  • the used parameter is preferably transmitted so that it can be used for signal recovery.
  • Another method of forming an object group is to group objects highly correlated with one another. This makes it difficult to separate parameters using highly correlated objects, but it is a method to increase the compression efficiency in such a non-utilized application.
  • a core codec a complex signal having various spectra requires a lot of bits. Therefore, if one core codec is used by tying a highly correlated object, encoding efficiency is high.
  • Another method of forming an object group is to determine whether to mask between objects and to encode it. For example, when object A has a relationship to mask object B, when two signals are included in one downmix and encoded by a core codec, object B may be omitted in the encoding process. In this case, the distortion is large when the object B is obtained by using the parameter at the decoding end.
  • the object A and the object B having such a relationship it is preferable to include the object A and the object B having such a relationship in a separate downmix.
  • object A and B are in a masking relationship, but do not need to render the two objects separately, or at least do not need to handle the masked objects separately, object A and B are downmixed in one It is preferable to include in the. Therefore, the selection method may differ depending on the application.
  • the object may be excluded from the object list and included in the masked object, or the two objects may be expressed as one object. .
  • object groups Another way to form object groups is to separate non-point source objects, such as plane wave source objects or ambient source objects, and group them separately.
  • Such sources require different types of compression coding methods or parameters due to their different characteristics from point sources, and therefore, it is preferable to separately process them.
  • the decoded object information for each group is reduced to original objects through object degrouping with reference to the transmitted grouping information.
  • bit strings 800 through which coded channel or object data are transmitted are arranged in order of channel groups 820, 830, 840, and object groups 850, 860, 870.
  • the header includes the channel group position information CHG_POS_INFO (811) and the object group position information OBJ_POS_INFO (812), which are position information in the bit string of each group, referring to this, the group of the desired group without sequentially decoding the bit string is referred to. Only data can be decoded first.
  • the decoder generally performs decoding from data that arrives first in group units, but may change the decoding order arbitrarily according to other policies or reasons.
  • FIG. 9 illustrates a sub-bit string 901 including metadata 903 and 904 for each channel or object together with main decoding-related information in addition to the main bit string 800.
  • the sub bit string may be transmitted intermittently in the middle of the main bit string being transmitted, or may be transmitted through a separate transport channel.
  • the number of bits used in each group may be different.
  • the criteria for allocating bits per group include the number of objects included in the group, the number of effective objects considering the masking effect between the objects in the group, the weight according to the position considering the spatial resolution of the person, the sound pressure of the objects, the correlation between the objects, and the sound.
  • the allocated bits are 3a1 (nx), 2 2a2 (ny), and a3n.
  • x and y refer to the extent to which less bits may be allocated by the masking effect between and within objects in each group, and a1, a2 and a3 may be determined by the above-mentioned various factors for each group.
  • object information it is desirable to have a means for delivering mix information, etc. recommended by a producer or suggested by another user through metadata as position and size information of an object.
  • this is called preset information for convenience.
  • position information through presets, particularly in the case of a dynamic object whose position varies with time, the amount of information to be transmitted is not small. For example, if you transmit location information that changes every frame for 1000 objects, you get a very large amount of data. Therefore, it is desirable to transmit the location information of the object effectively.
  • the present invention uses an effective encoding method of the location information using the definition of the main object and the sub-object.
  • the main object is an object that expresses the location information of the object in absolute coordinate values in three-dimensional space.
  • the sub-object represents an object having location information by expressing a location in a three-dimensional space as a value relative to the main object. Therefore, the sub-object needs to know what the corresponding main object is.
  • grouping especially when grouping based on the location in space, one sub-object and the other as sub-objects in the same group are expressed. Can be implemented. If there is no grouping for encoding or using the sub-object location information encoding is not advantageous, a separate set for location information encoding may be formed. It is preferable that objects belonging to a group or a set are located within a certain range in space, in order that relative representation of sub-object position information is more advantageous than representation as an absolute value.
  • Another method of encoding the position information according to the present invention is to express the relative information on the fixed speaker position instead of the relative expression on the main object.
  • the relative position information of the object is expressed based on the designated position value of the 22 channel speaker.
  • the number of speakers and position values to be used as a reference may be made based on the value set in the current content.
  • the position information is expressed as an absolute value or a relative value and then quantization is performed, wherein the quantization step is variable based on the absolute position.
  • the quantization step is variable based on the absolute position. For example, since the front side of the listener is known to have a much higher discrimination ability with respect to the position than the side or the back side, it is preferable to set the quantization step so that the front side resolution is higher than the side side resolution. Similarly, since the resolution for azimuth is higher than that for height, it is desirable to make the quantization for azimuth angle higher.
  • the position information of the dynamic object is transmitted together with flag information for distinguishing which of the neighboring reference points is temporally and spatially.
  • FIG. 10 is a block diagram illustrating an object and channel signal decoding system according to the present invention.
  • the system may receive an object signal 1001 or a channel signal 1002 or a combination of an object signal and a channel signal, and the object signal or channel signal may be waveform coded 1001 or 1002 or parametric coded 1003 or 1004, respectively. May be
  • the decoding system may be largely divided into a 3DA decoder 1060 and a 3DA renderer 1070, and any external system or solution may be used for the 3DA renderer 1070. Accordingly, the 3DA decoder 1060 and the 3DA renderer 1070 preferably provide a standardized interface that is easily compatible with the outside.
  • FIG. 11 is a block diagram of another object and channel signal decoding system according to the present invention.
  • the system may receive the object signal 1101 or the channel signal 1102 or a combination of the object signal and the channel signal, and the object signal or the channel signal may be waveform coded 1101 and 1102 or parametric coded 1103, respectively. 1104).
  • the difference is that the individual object decoder 1010 and the individual channel decoder 1020, and the parametric channel decoder 1040 and the parametric object decoder 1030 are separated from each other. It is integrated into the individual decoder 1110 and the parametric decoder 1120 of the, and the 3DA rendering unit 1140 and the renderer interface unit 1130 for a convenient and standardized interface has been added.
  • the renderer interface unit 1130 receives a user environment information, a renderer version, and the like from the 3DA renderer 1140 existing inside or outside, and reproduces it along with a channel or object signal in a form compatible thereto and displays the related information. Data can be delivered.
  • the 3DA renderer interface 1130 may include an order controller 1830 to be described later.
  • the parametric decoder 1120 needs a downmix signal to generate an object or channel signal, and the necessary downmix signal is decoded and input through the individual decoder 1110.
  • the encoder corresponding to the object and the channel signal decoding system may be of various types, and at least one of the bit strings 1001, 1002, 1003, 1004, 1101, 1102, 1103, and 1104 of the types shown in FIGS. 10 and 11. If we can generate, we can see it as a compatible encoder. Also, according to the present invention, the decoding system shown in Figs. 10 and 11 is designed to ensure compatibility with past systems or bit strings.
  • an individual channel bit string encoded by AAC when it is input, it may be decoded through an individual (channel) decoder and sent to the 3DA renderer.
  • the downmix signal is sent together with the downmix signal.
  • the AAC-coded signal is decoded through a separate (channel) decoder to be transmitted to a parametric channel decoder. It works like a surround decoder.
  • SAOC Spaal Audio Object Coding
  • the SAOC transcoder receives the reproduction channel environment information, and generates and transmits a channel signal optimized for this purpose. Therefore, while receiving and decoding a conventional SAOC bit string, it is possible to perform rendering specialized for a user or a reproduction environment.
  • the system of FIG. 11 when the SAOC bit string is input, instead of the transcoding operation of converting the SAOC bit string into the MPS bit string, the system is converted into an individual object type suitable for channel or rendering.
  • the amount of calculation is lower than that of the transcoding structure, which is advantageous in terms of sound quality.
  • the output of the object decoder is expressed only as a channel, but may be transmitted to the renderer interface as a separate object signal.
  • decoding thereof is decoded through an individual decoder.
  • FIG. 12 illustrates a configuration of an encoder and a decoder according to another embodiment of the present invention. Specifically, FIG. 12 shows a structure for scalable coding when the speaker setup of the decoder is different.
  • the encoder includes a downmixing unit 1210, the decoder includes a demultiplexing unit 220, and includes one or more of the first decoding unit 1230 to the third decoding unit 1250.
  • the downmixing unit 1210 generates a downmix signal DMX by downmixing the input signal CH_N corresponding to the multichannel. In this process, one or more of the upmix parameter UP and the upmix residual UR are generated. Then, by multiplexing the downmix signal DMX, the upmix parameter UP (and the upmix residual UR), one or more bitstreams are generated and transmitted to the decoder.
  • the upmix parameter UP is a parameter required for upmixing one or more channels into two or more channels, and may include a spatial parameter and an inter-channel phase difference (IPD).
  • the upmix residual UR corresponds to a residual signal that is a difference between the input signal CH_N, which is the original signal, and the restored signal, and the restored signal includes an upmix parameter UP in the downmix DMX. It may be a signal that is applied upmixed, or a channel that is not downmixed by the downmixer 1210 may be a signal encoded in a discrete manner.
  • the demultiplexer 1220 of the decoder may extract the downmix signal DMX and the upmix parameter UP from one or more bitstreams, and further extract the upmix residual UR.
  • the residual signal may be encoded by a method similar to individual encoding of the downmix signal. Therefore, the decoding of the residual signal is characterized in that the system shown in FIG. 8 or 9 is performed through a separate (channel) decoder.
  • one (or more than one) of the first decoding unit 1230 to the third decoding unit 1250 may be selectively included.
  • the setup environment of the loudspeaker may vary.
  • the bitstream and the decoder for generating the multi-channel signal such as 22.2ch are not selective, after reconstructing all the signals of 22.2ch, it is necessary to downmix again according to the speaker reproduction environment. In this case, the amount of computation required for recovery and downmix is very high, and delay may occur.
  • one or more of the first decoder to the third decoder (or one or more) according to the setup environment of each device can be eliminated, as described above.
  • the first decoder 1230 is configured to decode only the downmix signal DMX and does not accompany an increase in the number of channels.
  • the downmix signal is mono, it outputs a mono channel signal, and if it is stereo, it outputs a stereo signal. It may be suitable for devices equipped with headphones having one or two speaker channels, smart phones, TVs, and the like.
  • the second decoder 1240 receives the downmix signal DMX and the upmix parameter UP and generates a parametric M channel PM based on the downmix signal DMX and the upmix parameter UP. If the number of channels increases compared to the first decoder, but only the parameters corresponding to the upmix up to the total M channels exist, the number of M channels less than the original channel number N can be reproduced. have.
  • the original signal which is an input signal of the encoder is a 22.2ch signal
  • the M channel may be a 5.1ch, 7.1ch channel, or the like.
  • the third decoder 1250 receives not only the downmix signal DMX and the upmix parameter UP but also upmix residual UR. While the second decoder generates the parametric channel of the M channel, the third decoder may additionally apply the upmix residual signal UR to output the recovered signals of the N channels.
  • Each device optionally includes one or more of a first decoder and a third decoder, and selectively parses upmix parameters (UP) and upmix residuals (UR) in the bitstream, thereby providing a signal suitable for each speaker setup environment. By creating it immediately, complexity and computations can be reduced.
  • UP upmix parameters
  • UR upmix residuals
  • a waveform encoder of an object according to the present invention refers to a case in which a channel or an object audio signal is encoded such that each channel or an object can be independently decoded, and a concept corresponding to parametric encoding / decoding. Also referred to as discrete encoding / decoding), bits are allocated in consideration of the position of the object's sound scene.
  • an MS (MidSide) stereo encoding used in the conventional audio encoding method is described as follows.
  • the masking phenomenon in psychoacoustic sound is possible when the masker generating the masking and the masking masking are in the same spatial direction. If the correlation between the two channel audio signals of the stereo audio signal is very high and the magnitude is the same, the image (sound) of the sound is centered between the two speakers. If there is no correlation, independent sound is generated from each speaker and the image is different. The speaker is attached.
  • each channel is independently encoded (dual mono) for the input signal with maximum correlation, the quantization noise in each channel is not correlated with each other, so the audio signal is centered and the quantization noise is different from each speaker. Will be made separately.
  • the quantization noise that should be a masque is not masked due to spatial inconsistency, and thus a problem that sounds human to distortion occurs.
  • the summation coding generates a signal (Mid signal) and a subtraction signal (Difference) of two channel signals, performs a psychoacoustic model using the quantization noise, and quantizes the quantization noise. Be in the same position as the sound image.
  • each channel is mapped to a speaker to be reproduced, and since the position of the speaker is fixed and separated from each other, masking between channels could not be considered.
  • whether to mask or not may be changed according to the position of the objects in the sound scene.
  • FIG. 13 shows a masking threshold 1330 for each signal for Object 1 1310 and Object 2 1320, a masking threshold that can be obtained from these signals, and a signal that combines Object 1 and Object 2.
  • object 1 and object 2 are considered to be at least at the same position relative to the listener's position, or within a range that will not cause problems with BMLD, the object will be masked by that signal to 1330, so the object Signal S2 included in 1 will be completely masked and inaudible. Therefore, in the process of encoding the object 1, it is preferable to encode in consideration of the masking threshold for the object 2. Since the masking thresholds add up to each other, they can be obtained by adding the respective masking thresholds for the object 1 and the object 2.
  • the process of calculating the masking threshold itself is very expensive, and it is also preferable to encode the object 1 and the object 2 by calculating a masking threshold using a signal generated by combining the object 1 and the object 2 in advance.
  • FIG. 14 is an embodiment of an encoder for calculating a masking threshold for a plurality of object signals according to the present invention.
  • Another masking threshold calculation method is a masking level in consideration of the extent to which two objects fall in space instead of adding a masking threshold for two objects when the positions of the two object signals are not completely matched on the basis of the acoustic angle. It is also possible to attenuate and reflect. That is, when the masking threshold for object 1 is M1 (f) and the masking threshold for object 2 is M2 (f), the final joint masking thresholds M1 '(f) and M2' (f) to be used for encoding each object Is created to have the following relationship.
  • the resolution of the direction of the person has a characteristic of worsening as it goes to the left and right with respect to the front, and worse as it goes to the back. Therefore, the absolute position of the object may serve as another factor for determining A (f).
  • one of two objects may be implemented by using only its own masking threshold and only another object to obtain a masking threshold for the relative object.
  • Each of these is called an independent object.
  • An object using only its own masking threshold is encoded in high quality regardless of a relative object, and thus, sound quality may be preserved even when a rendering that is spatially separated from the object is performed.
  • a masking threshold may be expressed as follows.
  • Whether the independent object and the dependent object are additional information about each object is preferably transmitted to the decoding and renderer.
  • the signals when two objects are somewhat similar in space, instead of generating only the masking thresholds, the signals may be combined into one object and processed.
  • FIG. 15 shows an arrangement 1510 according to the ITUR recommendation and a case 1520 placed in an arbitrary position for a 5.1 channel setup. In a real living environment, this can lead to a difference in both direction angle and distance compared to the ITUR recommendation (not shown in the figure, but may also vary in speaker height).
  • the object has an advantage of easily positioning the object as a sound source in accordance with a desired sound scene.
  • the mix (Mix, 1620) receives the position information represented by the mixing matrix and changes the channel signal. That is, the positional information on the sound scene is expressed as relative information from the speaker corresponding to the output channel. At this time, if the actual number and location of the speaker does not exist in the predetermined position it is necessary to render again using the corresponding location information (Speaker Config). As described below, rendering a channel signal back to another form of channel signal is more difficult to implement than rendering an object directly to the final channel.
  • FIG. 18 illustrates a structure of another embodiment implementing decoding and rendering on an object bit string according to the present invention.
  • the flexible rendering 1810 suitable for the final speaker environment is directly implemented with decoding from the bit string. That is, instead of going through two steps of mixing based on the mixing matrix and performing the process of rendering to the flexible speaker from the generated stereotyped channel, a rendering matrix or speaker location information 1820 is used. Render parameters are generated and used to render object signals directly to the target speaker.
  • another embodiment according to the present invention performs a flexible rendering on the channel signal first after performing a mix on the channel signal without separately performing the flexible rendering on the object.
  • Rendering using HRTF is preferably implemented in the same manner.
  • the decoder and the rendering are separated, for example, it may be necessary to decode 50 object signals along with an audio signal of 22.2 channels and transmit them to the renderer. Since the signal is a data rate, there is a problem that a very large bandwidth is required between the decoder and the renderer. Therefore, it is not desirable to transmit such a large amount of data at once, and it is desirable to have an effective transmission plan. And, it is preferable that the decoder determines the decoding order and transmits accordingly.
  • 19 is a block diagram illustrating a structure for determining and transmitting a transmission plan between a decoder and a renderer as described above.
  • the order controller 1930 receives the additional information and metadata obtained through the decoding of the bit string, the reproduction environment, the rendering information, and the like from the renderer 1920, and transmits the decoding order and the decoded signal to the renderer 1920; It determines the unit and the like and delivers the determined control information back to the decoder 1910 and the renderer 1920. For example, when the renderer 1920 instructs the user to completely remove a specific object, the object not only needs to be transmitted to the renderer 1920, but also does not need to be decrypted.
  • the transmission band will be reduced by downmixing and transmitting the corresponding object in advance instead of separately transmitting the corresponding object.
  • the transmission band by spatially grouping sound scenes and transmitting signals necessary for rendering for each group together, it is possible to minimize the amount of unnecessarily waiting in the renderer internal buffer.
  • the size of data that can be accommodated at one time may vary according to the renderer 1920. Such information is also notified to the sequence controller 1930, so that the decoder 1910 can determine the decoding timing and amount of transmission accordingly.
  • the decoding control by the order control unit 1930 is further transferred to the encoding stage, it is possible to control the encoding process. That is, it is possible to exclude unnecessary signals during encoding or to determine grouping of objects and channels.
  • an object corresponding to voice corresponding to bidirectional communication may be included in the bit string.
  • Bidirectional communication is very sensitive to time delay unlike other contents, so if an object or channel signal is received, it should be transmitted to the renderer first.
  • the corresponding object or channel signal may be indicated by a separate flag.
  • the transport object has an independent characteristic in presentation time with other object channel signals included in the same frame.
  • stereo speakers disposed at the left and right sides are not placed in a near field situation, and are sufficient to provide a sound scene for moving an object on the screen (for example, a car moving from left to right).
  • an object on the screen for example, a car moving from left to right.
  • an audiovisual angle of 100 degrees not only the left and right resolutions but additional resolutions constituting the top and bottom of the screen are required.
  • the current HDTV did not seem to be a big problem in reality, even though both sounds could be uttered in the middle, but in UHDTV size, the screen and the corresponding sound mismatch Will be perceived as a new form of distortion.
  • One solution to this problem is in the form of a 22.2 channel speaker configuration.
  • FIG. 3 is an example of a 22.2 channel arrangement. According to FIG. 3, a total of eleven speakers are disposed in the front part to greatly increase the spatial resolution of the front left and right and top and bottom. Place five speakers in the middle floor, where the previous three speakers were in charge.
  • FIG. 20 is a conceptual view illustrating a concept of reproducing speakers absent by a display among front-facing speakers in a 22.2 channel system by using peripheral channels thereof. It may also be considered to place additional speakers in the upper and lower periphery of the display, such as the circles indicated by the dotted lines to correspond to the FLc, FC, and FRc members. According to FIG. 20, there may be seven peripheral channels that can be used to generate FLc.
  • a virtual source can be generated to reproduce sound corresponding to the absence speaker position.
  • the processing method for arranging the sound source at the member speaker position according to the present invention is as shown in FIG. Referring to FIG. 21, a channel signal corresponding to a phantom speaker position is used as an input signal, and the input signal passes through a subband filter unit 2110 divided into three bands. It may be implemented by a method without a speaker array. In this case, instead of dividing into two bands instead of three bands or dividing into three bands, the second two bands may be processed differently.
  • the first band is a low frequency band, which is relatively insensitive to position, and is preferably reproduced through a large speaker, and thus a signal that can be reproduced through a woofer or subwoofer.
  • the first band signal adds a time delay 2120 to use the preceding effect. In this case, the time delay is not intended to compensate for the time delay of the filter occurring in the processing in the other band, but provides an additional time delay to reproduce later than other band signals, that is, to provide a preceding effect.
  • the second band is a signal that will be used to play through the speaker around the phantom speaker (the bezel of the TV display and the speaker disposed around the speaker).
  • the second band is divided into at least two speakers and is applied to a panning algorithm 2130 such as VBAP. Coefficients are generated and applied. Therefore, the panning effect can be improved by accurately providing the number and position (relative to the phantom speaker) of the speaker where the second band output is reproduced.
  • VBAP panning it is also possible to apply a filter considering HRTF or to apply different phase filters or time delay filters to provide a time panning effect.
  • Another advantage of applying the HRTF by dividing the band is that it can be limited within the band to handle the range of signal distortion caused by the HRTF.
  • the third band is for generating a signal reproduced by using the speaker array, if there is a speaker array, it is possible to apply the array signal processing technology 2140 for the virtualization of the sound source through at least three speakers. Alternatively, coefficients generated through Wave Field Synthesis (WFS) may be applied. At this time, the third band and the second band may be actually the same band.
  • WFS Wave Field Synthesis
  • FIG. 22 illustrates an embodiment in which a signal generated in each band is mapped to a speaker disposed around a TV.
  • the number and location information of the speakers corresponding to the second and third bands should be at a relatively precisely defined location, and the location information is preferably provided to the processing system of FIG. 21.
  • the TpC signal or the object signal located above the head may be downmixed by analyzing a specific value of the transmitted bit string or the characteristics of the signal.
  • the dynamic sound scene intended by the content provider becomes more static when the aforementioned matrix-based downmixer 2310 is used.
  • a downmix having a variable gain value may be performed by analyzing channel signals or using meta information of an object signal. This is called a path based downmixer 2320.
  • the downmix selector 2340 determines which downmix method to use by using input bit string information or analyzing input channel signals.
  • the output signal is determined by L, M or N channel signals according to the selected downmix method.
  • the input bit string is parsed (S240) to check whether there is a mode set by the content provider (S241). If there is a set mode, the downmix is performed using the set parameter of the corresponding mode (S242). If there is no mode set by the content provider, the speaker layout of the current user is analyzed (S243). This is because, when the speaker layout is very irregular, as described above, if the downmix is performed only by adjusting the gain value of the neighboring channel, the content provider cannot reproduce the intended sound scene. To overcome this, people have to use various clues to recognize high altitude images.
  • step S243 it is determined whether the user's speaker arrangement is at least a predetermined degree of irregularity, and if it is not at least a predetermined degree of irregularity, it is determined whether or not the channel signal (S245). At this time, if it is determined that the channel signal in S245 the coherence between adjacent channels is calculated (S246). In addition, if it is determined in step S245 that the signal is not a channel signal, the meta information of the object signal is analyzed (S247).
  • step S246 it is determined whether the coherence is high (S248). If the coherence is high in step S248, the matrix-based downmixer is selected (S250). If the coherence is not high, it is determined whether there is mobility (S249). In this case, if it is determined that there is no mobility in S249, the process proceeds to S250. If it is determined that there is mobility, the path-based downmixer is selected (S251).
  • the distance may be analyzed as the sum of distances of the position vectors of the speakers of the upper layer of FIG.
  • Vi be the position vector of the i-th speaker of the upper layer of FIG. 2 and Vi 'be the position vector of the i-th speaker at the playback end.
  • the speaker position error Espk may be defined by Equation 3.
  • the speaker position error Espk will be large. Therefore, if the speaker position error Espk exceeds or exceeds a certain threshold, it selects the virtual channel generator. If the speaker position error is below or below a certain threshold, a matrix based downmixer or path based downmixer is used. When the sound source to be downmixed is a channel signal, the downmix method may be selected according to the width of the estimated sound image size of the channel signal.
  • the measurement method is an example using an interaural cross correlation between two signals.
  • this requires a very complex operation, so assuming that the cross-correlation between each channel is proportional to the cross-correlation of the signal, the sum of the TpC channel signal and the cross-correlation between each channel is used to obtain a relatively small amount of The width can be estimated.
  • TpC channel signal is referred to as the peripheral channel signal
  • a method of estimating the sum C of the cross correlation between the TpC channel signal and the peripheral channel signal may be defined by Equation 4.
  • the downmix method may be selected according to the change of the position of the object signal.
  • the position information of the object signal is included in the meta information obtained by parsing the input bitstream.
  • a variance or standard deviation which is a statistical characteristic of the position of the object signal, may be used for N frames. If the measured change in the position of the object signal exceeds or exceeds a certain threshold, the object has a large change in position. Therefore, a more sophisticated path-based downmix method is selected. Otherwise, the object signal is regarded as a static sound source, so the matrix-based downmixer can be effectively downmixed even with a small amount of computation due to the positional spread of a person in a hurry.
  • the phonetic position in the median plane is very different from that in the horizontal plane.
  • a measure of the inaccuracy of the phonetic position is a localization blur, which represents the range in which the position of the sound image is not distinguished from a specific position in degrees.
  • the voice signal has an inaccuracy corresponding to 9 degrees to 17 degrees.
  • the voice signal has 0.9 to 1.5 degrees in the horizontal plane, it can be seen that the sound localization in the midplane has very low accuracy.
  • the channel gain value distributed to the top layer has the same value.
  • the conventional downmix method of setting a constant gain value can be described as reproducing the plane wave generated in the TpC channel using the surrounding channel.
  • the center of gravity of the polygon with the vertices of the speakers on the plane including the top layer is the same as that of the TpC channel. Therefore, in the case of the atypical channel environment, the gain value of each channel is expressed by the equation that the center of gravity vector of the two-dimensional position vectors on the plane including the top layer of each channel to which the gain value is weighted is equal to the position vector of the TpC channel position. Can be obtained.
  • N regions are divided equally around the TpC channel.
  • An equal gain value is given to an area divided by an isometric angle, and if two or more speakers are located in the area, the sum of squares of each gain is set to be equal to the gain value mentioned above.
  • the four regions are divided into 90-degree isometric angles around the TpC channel 2520.
  • Each region is given a gain value such that the sum of squares is equal to one while the same size is obtained. In this case, since there are four areas, the gain value of each area is 0.5.
  • the gain value of the two speaker outputs in the lower right area 2540 is 0.3536.
  • the parser 2610 separates an input bit string from a mode bit provided by a content provider and a channel signal or an object signal. If the mode bit is set, the speaker determiner 2620 selects the speaker group. If the mode bit is not set, the speaker group having the shortest distance is the minimum using the speaker position information currently used by the user. Select. Gain and delay are compensated for the gain and delay of each speaker to compensate for the difference in distance between the speaker group set in the compensator 2630 and the speaker arrangement of the actual user. Finally, the downmix matrix generator 2640 applies the gain and delay output from the gain and delay compensation unit 2630 to downmix the channel or object signal output from the parser to other channels.
  • the parser 2710 parses the input bit string and transmits a plurality of channel signals in the case of the TcP channel signal and meta information in the case of the object signal to the path estimator 2720.
  • the path estimator 2720 estimates a correlation between channels and estimates a change in channels having a high correlation as a path.
  • meta information a change in meta information is estimated as a path.
  • the speaker selector 2730 selects speakers having a predetermined distance or less from the estimated path using the path estimated by the path estimator 2720.
  • the location information of the selected speakers is transmitted to the downmixer 2740 and downmixed according to the speaker.
  • vector base amplitude panning (VBAP) is an example.
  • a detent effect occurs when the sound source is positioned using an amplitude panning method such as VBAP.
  • the detent effect refers to a phenomenon in which the sound image is pulled toward the speaker instead of being located at the correct position when the sound image is positioned between the speakers using the amplitude panning method. Because of this phenomenon, when a sound is continuously moved between speakers, the sound is discontinuously moved instead of continuously.
  • 29 is a conceptual diagram of the detent effect. If the intended sound image 2910 moves in the direction of the arrow with time, when the sound image is positioned using a general amplitude panning method, the sound image 2910 moves like the positioned sound image 2920. Due to the detent effect, the sound image is pulled toward the speaker and does not move significantly, but moves as shown in FIG. 29 when the azimuth angle of the sound image exceeds a predetermined threshold value. This problem is that when the sound image is placed for a certain time, the sound image is formed at a slightly different position due to sound image position error, which is not felt by the user as a large distortion. However, if the image is suddenly discontinuously moved in an environment in which sound images are to be continuously moved by the detent effect, the user perceives it as a large distortion.
  • a continuous moving sound source must be detected and corrected accordingly.
  • the simplest method is to apply a weighting function to the panning gain so that the less pulled sound source is pulled further.
  • an output of a specific sigmoid function is shown when an input changes from -1 to 1. As the value approaches 0, the change in value increases. Therefore, the farther away the image is from the speaker, the more the panning gain value changes.
  • the previous sigmoid function is an example, and such a function may include any function that makes the value change larger as the value approaches zero or the distance between the audio speakers. In addition, these detent effects vary from person to person.
  • the variation of the weighting function may be modeled and applied using information such as physiological characteristics of a person, as an example, head size, body size, height, weight, and shape of the outer ear.
  • the wired / wireless communication unit 3110 receives a bitstream through a wired / wireless communication scheme.
  • the wired / wireless communication unit 3110 may include at least one of a wired communication unit 3110A, an infrared communication unit 3110B, a Bluetooth unit 3110C, and a wireless LAN communication unit 3110D.
  • the user authentication unit 3120 receives user information and performs user authentication.
  • the user authentication unit 3120 performs at least one of a fingerprint recognition unit 3120A, an iris recognition unit 3120B, a face recognition unit 3120C, and a voice recognition unit 3120D.
  • the fingerprint, iris information, facial contour information, and voice information may be input, converted into user information, and the user authentication may be performed by determining whether the user information matches the existing registered user data. .
  • the input unit 3130 is an input device for a user to input various types of commands, and may include one or more of a keypad unit 3130A, a touch pad unit 3130B, and a remote controller unit 3130C. It is not limited.
  • the signal coding unit 3140 encodes or decodes the audio signal and / or the video signal received through the wired / wireless communication unit 3110, and outputs an audio signal of a time domain.
  • An audio signal processing device 3145 is included. As such, the audio signal processing device 3145 and a signal coding unit including the same may be implemented by one or more processors.
  • the controller 3150 receives input signals from the input devices, and controls all processes of the signal decoding unit 3140 and the output unit 3160.
  • the output unit 3160 is a component that outputs an output signal generated by the signal decoding unit 3140, and may include a speaker unit 3160A and a display unit 3160B. When the output signal is an audio signal, the output signal is output to the speaker, and when the output signal is a video signal, the output signal is output through the display.
  • the audio signal processing method for sound localization may be produced as a program for execution on a computer and stored in a computer-readable recording medium, and multimedia data having a data structure according to the present invention may also be read by a computer.
  • the computer readable recording medium includes all kinds of storage devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CDROM, magnetic tape, floppy disk, optical data storage, and the like, and may also be implemented in the form of a carrier wave (for example, transmission over the Internet).
  • the bitstream generated by the encoding method may be stored in a computer-readable recording medium or transmitted using a wired / wireless communication network.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명에 따른 음상정위를 위한 오디오 신호 처리 방법은, 오디오 신호 처리 방법에 있어서, 오디오의 객체 신호와 상기 오디오의 객체 위치 정보가 포함된 비트열을 수신하는 단계, 수신된 비트열을 이용하여 상기 객체 신호와 상기 객체 위치 정보를 복호화하는 단계, 객체 위치 정보에 대응되는 과거의 객체 위치 정보인 과거 객체 위치 정보를 저장매체에서 수신하는 단계, 수신된 과거 객체 위치 정보와 상기 복호화된 객체 위치 정보를 이용하여 객체 이동 경로를 생성하는 단계, 생성된 객체 이동 경로를 이용하여 시간에 따른 가변적 이득 값을 생성하는 단계, 생성된 가변적 이득 값 및 가중 함수를 이용하여 수정된 가변적 이득 값을 생성하는 단계 및 수정된 가변적 이득 값을 이용하여 상기 복호화 된 객체 신호로부터 채널 신호를 생성하는 단계를 포함한다.

Description

음상 정위를 위한 오디오 신호 처리 방법
본 발명은 음상 정위를 위한 오디오 신호 처리 방법에 관한 것으로서, 보다 상세하게는 객체 오디오 신호의 부호화 및 복호화를 수행하거나 3차원 공간에 렌더링하기 위한 음상 정위를 위한 오디오 신호 처리 방법{AUDIO SIGNAL PROCESSING METHOD FOR SOUND LOCALIZATION}에 관한 것이다. 본 발명은 2013년 4월 27일 출원된 한국특허출원 제1020130047056호의 출원일의 이익을 주장하며, 그 내용 전부는 본 명세서에 포함된다.
3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면 상의 사운드 장면(2D)에 높이 방향으로 또 다른 축(dimension)을 제공함으로써, 말그대로 3차원 공간에서의 임장감있는 사운드를 제공하기 위한 일련의 신호처리, 전송, 부호화, 재생 기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 널리 요구된다.
3D 오디오는 향후 출시될 초고해상도 TV (UHDTV)에 대응되는 오디오 솔루션이 될 것으로 예상되며, 고품질 인포테인먼트 공간으로 진화하고 있는 차량에서의 사운드를 비롯하여 그밖에 극장 사운드, 개인용 3DTV, 테블릿, 스마트폰, 클라우드 게임 등 다양하게 응용될 것으로 예상된다.
3D 오디오는 우선 최대 22.2채널까지 종래보다 많은 채널의 신호를 전송하는 것이 필요한데, 이를 위해서는 이에 적합한 압축 전송 기술이 요구된다.
종래의 MP3, AAC, DTS, AC3 등의 고음질 부호화의 경우, 주로 5.1채널 미만의 채널만을 전송하는데 최적화되어 있었다. 또한 22.2채널 신호를 재생하기 위해서는 24개의 스피커 시스템을 설치한 청취공간에 대한 인프라가 필요한데, 시장에 단기간 확산이 용이하지 않으므로, 22.2채널 신호를 그보다 작은 수의 스피커를 가진 공간에서 효과적으로 재생하기 위한 기술, 반대로 기존 스테레오 혹은 5.1채널 음원을 그보다 많은 수의 스피커인 10.1채널, 22.2채널 환경에서 재생할 수 있도록 하는 기술, 나아가서, 규정된 스피커 위치와 규정된 청취실 환경이 아닌 곳에서도 원래의 음원이 제공하는 사운드 장면을 제공할 수 있도록 하는 기술, 그리고 헤드폰 청취환경에서도 3D 사운드를 즐길 수 있도록 하는 기술 등이 요구된다. 이와 같은 기술들을 본원에서는 통칭 렌더링(rendering)이라고 하고, 세부적으로는 각각 다운믹스, 업믹스, 유연한 렌더링(flexible rendering), 바이노럴 렌더링 (binaural rendering) 등으로 부른다.
한편, 이와 같은 사운드 장면을 효과적으로 전송하기 위한 대안으로 객체 기반의 신호 전송 방안이 필요하다. 음원에 따라서 채널 기반으로 전송하는 것보다 객체 기반으로 전송하는 것이 더 유리한 경우가 있을 뿐 아니라, 객체 기반으로 전송하는 경우, 사용자가 임의로 객체들의 재생 크기와 위치를 제어할 수 있는 등 인터렉티브한 음원 청취를 가능하게 한다. 이에 따라 객체 신호를 높은 전송률로 압축할 수 있는 효과적인 전송 방법이 필요하다.
또한, 상기 채널 기반의 신호와 객체 기반의 신호가 혼합된 형태의 음원도 존재할 수 있으며, 이를 통해 새로운 형태의 청취 경험을 제공할 수도 있다. 따라서, 채널 신호와 객체 신호를 함께 효과적으로 전송하고, 이를 효과적으로 렌더링하기 위한 기술도 필요하다.
마지막으로 채널이 갖는 특수성과 재생 단에서의 스피커 환경에 따라 기존의 방식으로는 재생하기 어려운 예외 채널들이 발생할 수 있다. 이 경우 재생 단에서의 스피커 환경을 기반으로 효과적으로 예외 채널을 재현하는 기술이 필요하다.
상기한 목적을 달성하기 위한 본 발명에 따른 음상 정위를 위한 오디오 신호처리 방법은, 오디오 신호 처리 방법에 있어서, 오디오의 객체 신호와 상기 오디오의 객체 위치 정보가 포함된 비트열을 수신하는 단계, 상기 수신된 비트열을 이용하여 상기 객체 신호와 상기 객체 위치 정보를 복호화하는 단계, 상기 객체 위치 정보에 대응되는 과거의 객체 위치 정보인 과거 객체 위치 정보를 저장매체에서 수신하는 단계, 상기 수신된 과거 객체 위치 정보와 상기 복호화된 객체 위치 정보를 이용하여 객체 이동 경로를 생성하는 단계, 상기 생성된 객체 이동 경로를 이용하여 시간에 따른 가변적 이득 값을 생성하는 단계, 상기 생성된 가변적 이득 값 및 가중 함수를 이용하여 수정된 가변적 이득 값을 생성하는 단계 및 상기 수정된 가변적 이득 값을 이용하여 상기 복호화 된 객체 신호로부터 채널 신호를 생성하는 단계를 포함한다.
이 때, 상기 가중 함수는 사용자의 생리학적인 특징에 기초하여 변화할 수 있다.
이 때, 상기 생리학적 특징은 화상 또는 영상을 이용하여 추출될 수 있다.
이 때, 상기 생리학적 특징은 사용자의 머리, 몸통의 크기 및 외이(external ear)의 모양에 대한 정보 중 적어도 하나를 포함할 수 있다.
본 발명에 의하면, 연속적으로 움직이는 신호에 대하여 사용자가 컨텐츠의 의도와 다르게 불연속적으로 인지되는 문제를 해결한다. 본 발명은 사용자의 생리학적 특징을 반영하여 사용자 개개인에게 맞는 가중함수를 이용하여 선택적으로 이 문제를 해결하는 효과를 가진다. 본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
도 1은 본 발명에 따른 음상 정위를 위한 오디오 신호 처리 방법의 흐름도이다.
도 2는 동일한 시청 거리에서 영상 크기에 따른 시청 각도를 설명하기 위한 도면이다.
도 3은 멀티 채널의 일 예로서 22.2ch의 스피커 배치 구성도이다.
도 4는 청자가 3D 오디오를 청취하는 청취 공간상에서의 각 사운드 객체들의 위치를 나타내는 개념도이다.
도 5는 도 4에 도시된 객체들에 대해 본 발명에 따른 그룹핑 방법을 이용하여 객체신호그룹을 형성한 예시적 구성도이다.
도 6은 본 발명에 따른 객체 오디오 신호의 부호화기의 일 실시예에 대한 구성도이다.
도 7은 본 발명의 일 실시예에 따른 복호화 장치의 예시적인 구성도이다.
도 8 및 도 9는 본 발명에 따른 부호화 방법에 의해 부호화하여 생성한 비트열의 일 실시예이다.
도 10은 본 발명에 따른 객체 및 채널 신호 복호화 시스템을 블록도로 나타낸일 실시예이다.
도 11은 본 발명에 따른 또 다른 형태의 객체 및 채널 신호 복호화 시스템의 블록도이다.
도 12는 본 발명에 따른 복호화 시스템의 일 실시예이다.
도 13은 본 발명에 따른 복수 객체 신호에 대한 마스킹 임계치를 설명하기 위한 도면이다.
도 14는 본 발명에 따른 복수 객체 신호에 대한 마스킹 임계치를 산출하는 부호화기의 일 실시예이다.
도 15는 5.1채널 셋업에 대해 ITUR 권고안에 따른 배치와 임의 위치에 배치된 경우를 설명하기 위한 도면이다.
도 16 및 도17은 본 발명에 따른 객체 비트열에 대한 복호화기와 이를 이용한 플렉서블 렌더링 시스템이 연결된 일 실시예의 구조이다.
도 18은 본 발명에 따른 객체 비트열에 대한 복호화와 렌더링을 구현한 또 다른 실시예의 구조이다.
도 19는 복호화기와 렌더러 사이의 전송계획을 결정하여 전송하는 구조를 나타내는 도면이다.
도 20은 22.2 채널 시스템에서 전면 배치 스피커 가운데 디스플레이에 의해 부재한 스피커들을 그 주변 채널들을 이용하여 재생하는 개념을 설명하기 위한 개념도이다.
도 21은 본 발명에 따른 부재 스피커 위치에의 음원 배치를 위한 처리 방법의 일 실시예이다.
도 22는 각 밴드에서 생성된 신호를 TV 주변에 배치된 스피커와 매핑시키는 일 실시예이다.
도 23은 예외 신호가 다운믹스되는 과정을 설명하기 위한 개념도이다.
도 24는 다운 믹서 선택부의 순서도이다.
도 25는 매트릭스 기반 다운믹서에서의 간략화된 방법을 설명하기 위한 개념도이다.
도 26은 매트릭스 기반 다운믹서의 개념도이다.
도 27은 경로 기반 다운믹서의 개념도이다.
도 28은 가중함수의 일 예를 보여주는 단면이다.
도 29는 디텐트 효과의 개념도이다.
도 30은 가상 채널 생성기의 개념도이다.
도 31은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계를 보여주는 도면이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다.
본 명세서에 기재된 실시예는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 사상을 명확히 설명하기 위한 것이므로, 본 발명이 본 명세서에 기재된 실시예에 의해 한정되는 것은 아니며, 본 발명의 범위는 본 발명의 사상을 벗어나지 아니하는 수정예 또는 변형예를 포함하는 것으로 해석되어야 한다. 본 명세서에서 사용되는 용어와 첨부된 도면은 본 발명을 용이하게 설명하기 위한 것이고, 도면에 도시된 형상은 필요에 따라 본 발명의 이해를 돕기 위하여 과장되어 표시된 것이므로, 본 발명이 본 명세서에서 사용되는 용어와 첨부된 도면에 의해 한정되는 것은 아니다.
본 명세서에서 본 발명에 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에 이에 관한 자세한 설명은 필요에 따라 생략한다. 본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다.
코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보(information)는 값(values), 파라미터(parameter), 계수(coefficients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 의미는 달리 해석될 수 있으나, 본 발명은 이에 한정되지 아니한다.
본 발명의 일 양상에 따르면 오디오 신호 처리 방법에 있어서, 오디오의 객체 신호와 상기 오디오의 객체 위치 정보가 포함된 비트열을 수신하는 단계, 상기 수신된 비트열을 이용하여 상기 객체 신호와 상기 객체 위치 정보를 복호화하는 단계, 상기 객체 위치 정보에 대응되는 과거의 객체 위치 정보인 과거 객체 위치 정보를 저장매체에서 수신하는 단계, 상기 수신된 과거 객체 위치 정보와 상기 복호화된 객체 위치 정보를 이용하여 객체 이동 경로를 생성하는 단계, 상기 생성된 객체 이동 경로를 이용하여 시간에 따른 가변적 이득 값을 생성하는 단계, 상기 생성된 가변적 이득 값 및 가중 함수를 이용하여 수정된 가변적 이득 값을 생성하는 단계 및 상기 수정된 가변적 이득 값을 이용하여 상기 복호화 된 객체 신호로부터 채널 신호를 생성하는 단계를 포함한다.
이 때, 상기 가중 함수는 사용자의 생리학적인 특징에 기초하여 변화할 수 있다.
이 때, 상기 생리학적 특징은 화상 또는 영상을 이용하여 추출될 수 있다.
이 때, 상기 생리학적 특징은 사용자의 머리, 몸통의 크기 및 외이(external ear)의 모양에 대한 정보 중 적어도 하나를 포함할 수 있다.
이하에서는 본 발명의 실시예에 따른 음상 정위를 위한 오디오 신호처리 방법에 관하여 설명한다.
도 1은 본 발명에 따른 음상 정위를 위한 오디오 신호 처리 방법의 흐름도이다.
도 1을 참조하여 설명하면, 본 발명에 따른 음상 정위를 위한 오디오 신호 처리 방법은, 오디오 신호 처리 방법에 있어서, 오디오의 객체 신호와 상기 오디오의 객체 위치 정보가 포함된 비트열을 수신하는 단계(S100), 상기 수신된 비트열을 이용하여 상기 객체 신호와 상기 객체 위치 정보를 복호화하는 단계(S110), 상기 객체 위치 정보에 대응되는 과거의 객체 위치 정보인 과거 객체 위치 정보를 저장매체에서 수신하는 단계(S120), 상기 수신된 과거 객체 위치 정보와 상기 복호화된 객체 위치 정보를 이용하여 객체 이동 경로를 생성하는 단계(S130), 상기 생성된 객체 이동 경로를 이용하여 시간에 따른 가변적 이득 값을 생성하는 단계(S140), 상기 생성된 가변적 이득 값 및 가중 함수를 이용하여 수정된 가변적 이득 값을 생성하는 단계(S150) 및 상기 수정된 가변적 이득 값을 이용하여 상기 복호화 된 객체 신호로부터 채널 신호를 생성하는 단계(S160)를 포함한다.
도 2는 동일한 시청 거리상에서 영상 크기(예: UHDTV 및 HDTV)에 따른 시청 각도를 설명하기 위한 도면이다. 디스플레이의 제작 기술이 발전되고, 소비자의 요구에 따라서 영상크기가 대형화 되어가는 추세이다. 도 2에 나타난 바와 같이 HDTV(1920*1080픽셀 영상)(1)인 경우보다 UHDTV(7680*4320픽셀 영상)(2)는 약 16배가 커진 영상이다. HDTV(1)가 거실 벽면에 설치되고 시청자가 일정 시청거리를 두고 거실 쇼파에 앉은 경우 약 시청 각도가 30도일 수 있다. 그런데 동일 시청 거리에서 UHDTV(2)가 설치된 경우 시청 각도는 약 100도에 이르게 된다.
이와 같이 고화질 고해상도의 대형 스크린이 설치된 경우, 이 대형 컨텐츠에 걸맞게 높은 현장감과 임장감을 갖는 사운드가 제공되는 것이 바람직할 수 있다. 시청자가 마치 현장에 있는 것과 거의 동일한 환경을 제공하기 위해서는, 12개의 서라운드 채널 스피커가 존재하는 것만으로는 부족할 수 있다. 따라서, 보다 많은 스피커 및 채널 수를 갖는 멀티채널 오디오 환경이 요구될 수 있다.
위에 설명한 바와 같이 홈 시어터 환경 이외에도 개인 3D TV(personal 3D TV), 스마트폰 TV, 22.2채널 오디오 프로그램, 자동차, 3D video, 원격 현장감 룸(telepresence room), 클라우드 기반 게임(cloudbased gaming) 등이 있을 수 있다.
도 3은 멀티 채널의 일 예로서 22.2ch의 스피커 배치를 나타낸 도면이다.
22.2 채널(channel)는 음장감을 높이기 위한 멀티 채널 환경의 일 예일 수 있으며, 본 발명은 특정 채널 수 또는 특정 스피커 배치에 한정되지 아니한다.
도 3을 참조하면, 22.2ch은 세 개의 레이어(310, 320, 330)에 부산되어 배치된다. 세 개의 레이어(310, 320, 330)는 세 개의 레이어 중 가장 높은 위치의 탑 레이어(top layer, 310), 가장 낮은 위치의 바텀 레이어(bottom layer, 330), 탑 레이어(310)와 바텀 레이어(330) 사이의 미들 레이어(middle layer, 320)를 포함한다.
본 발명의 실시예에 따르면 탑 레이어(top layer, 310)에는 총 9개의 채널(TpFL, TpFC, TpFR, TpL, TpC, TpR, TpBL, TpBC, TpBR)이 제공될 수 있다. 도 3을 참조하면 탑 레이어(310)에는 전면에 좌측부터 우측으로 3개(TpFL, TpFC, TpFR), 중간 위치에 좌측부터 우측으로 3개(TpL, TpC, TpR), 서라운드 위치에 좌측부터 우측으로 3개(TpBL, TpBC, TpBR)의 채널에 총 9개의 채널에 스피커가 배치되어 있음을 알 수 있다. 본 명세서에서 전면이란 스크린 쪽을 의미할 수 도 있다.
본 발명의 실시예에 따르면 미들 레이어(middle layer, 320)에는 총 10개 채널(FL, FLC, FC, FRC, FR, L, R, BL, BC, BL)이 제공될 수 있다. 도 3을 참조하면 미들 레이어(320)에는 전면에 좌측부터 우측으로 5개(FL, FLC, FC, FRC, FR), 중간 위치에 좌측부터 우측으로 2개(L, R), 서라운드 위치에 좌측부터 우측으로 3개(BL, BC, BL)의 채널에 스피커가 배치될 수 있다. 전면의 5개 스피커 중에 중앙 위치의 3개는 TV 스크린의 내에 포함될 수도 있다.
본 발명의 실시예에 따르면 바텀 레이어(bottom layer, 330)에는 전면에 총 3개의 채널(BtFL, BtFC, BtFR) 및 2개의 LFE 채널(340)이 제공될 수 있다. 도 3을 참조하면 바텀 레이어(330)의 각 채널에는 스피커가 배치될 수 있다.
위에서 예를 든 22.2 채널을 넘어서 최대 수십 개 채널에 이르는 멀티 채널 신호를 전송하고 재생하는 데 있어서, 높은 연산량이 필요할 수 있다. 또한 통신 환경 등을 고려할 때 높은 압축률이 요구될 수 있다.
뿐만 아니라, 일반 가정에서는 멀티채널(예: 22.2ch) 스피커 환경을 구비하는 경우는 많지 않고 2ch 또는 5.1ch 셋업을 갖는 청취자가 많기 때문에, 모든 유저에게 공통적으로 전송되는 신호가 멀티채널을 각각 인코딩해서 보내지는 경우, 그 멀티채널을 2ch 및 5.1ch로 다시 변환하여 재생해야 하기 때문에 통신적인 비효율이 발생할 수 있다. 또한 22.2ch의 PCM 신호를 저장해야 하므로, 메모리 관리에 있어서의 비효율이 발생할 수 있다.
도 4는 청자(410)가 3D 오디오를 청취하는 청취 공간상(430)에서 3차원의 사운드 장면을 구성하는 각 사운드 객체(420)들의 위치를 나타내는 개념도이다. 도 4를 참조하면, 도식화의 편의상 각 사운드 객체(420)들이 점소스(point source) 인 것으로 나타내었으나, 점소스 이외에도 평면파(plain wave) 형태의 음원이나, 엠비언트(ambient) 음원(사운드 장면의 공간을 인식할 수 있는 전 방위에 걸쳐 퍼져있는 여음) 등도 있을 수 있다.
도 5는 도 4의 도식화된 객체들에 대해 본 발명에 따른 그룹핑 방법을 이용하여 객체신호그룹(510, 520)을 형성한 것을 표시한다. 본 발명에 따르면, 객체신호에 대한 부호화 혹은 처리를 함에 있어, 객체신호그룹을 형성하여 그룹핑된 객체들을 단위로 부호화하거나 처리하는 것이 특징이다. 이때 부호화의 경우 객체를 개별 신호로써 독립 부호화(discrete coding)하는 경우나 객체 신호에 대한 파라메트릭 부호화를 하는 경우를 포함한다. 특히 본 발명에 따르면, 객체신호에 대한 파라메터 부호화를 위한 다운믹스 신호의 생성과 다운믹스에 대응한 객체들의 파라메터 정보를 생성함에 있어서 그룹핑된 객체들을 단위로 생성하는 것이 특징이다.
즉, 종래의 예를 들어 SAOC 부호화 기술의 경우, 사운드 장면을 구성하는 모든 객체를 하나의 다운믹스 신호 (이때 다운믹스 신호는 모노(1채널), 혹은 스테레오(2채널) 일 수 있으나, 편의상 하나의 다운믹스 신호로 표현한다)와 그에 대응하는 객체 파라메터 정보로 표현하였으나, 이와 같은 방법을 본 발명에서 고려하는 시나리오에서처럼 20개 객체 이상, 많게는 200개, 500개를 하나의 다운믹스와 그에 대응한 파라메터로 표현할 경우 원하는 수준의 음질을 제공하는 업믹스 및 렌더링이 사실상 불가능하다. 이에 따라 본 발명에서는 부호화 대상이 되는 객체들을 그룹화하여 그룹단위로 다운믹스를 생성하는 방법을 이용한다. 그룹단위로 다운믹스되는 과정에서 각 객체가 다운믹스될 때 다운믹스 게인이 적용될 수 있으며, 적용된 객체별 다운믹스 게인은 부가정보로써 각 그룹에 대한 비트열에 포함된다.
한편, 부호화의 효율성 혹은 전체 게인에 대한 효과적인 제어를 위해 각 그룹에 공통으로 적용되는 글로벌 게인과 각 그룹별 객체들에 한정하여 적용되는 객체그룹게인이 사용될 수 있으며, 이들은 부호화되어 비트열에 포함되어 수신단에 전송된다.
그룹을 형성하는 첫번째 방법은 사운드 장면상에서 각 객체의 위치를 고려하여 가까운 객체들끼리 그룹을 형성하는 방법이다. 도 5의 객체그룹(510,520)은 이와 같은 방법으로 형성한 한 예이다. 이는 파라메터 부호화의 불완전성으로 각 객체들간에 발생하는 크로스토크 왜곡이나, 객체들을 제3의 위치로 이동하거나 크기를 변경하는 렌더링을 수행할 때 발생하는 왜곡들이 청자(410)에게 가급적 들리지 않도록 하기 위한 방법이다. 같은 위치에 있는 객체들에 발생한 왜곡은 상대적으로 마스킹에 의해 청자에게 들리지 않을 가능성이 높다. 같은 이유로 개별 부호화를 하는 경우도 공간적으로 유사 위치에 있는 객체들간의 그룹핑을 통해 부가정보를 공유하는 등의 효과를 기대할 수 있다.
도 6은 본 발명에 따른 객체 그룹핑 및 다운믹스 방법을 포함하는 객체 오디오 신호의 부호화기의 일 실시예에 대한 블록도다. 각 그룹별로 다운믹스를 수행하며 이 과정에서 다운믹스된 객체들을 복원하는데 필요한 파라메터를 생성한다(620,640). 각 그룹별로 생성된 다운믹스 신호들은 AAC, MP3와 같은 채널별 웨이브폼(waveform)을 부호화하는 웨이브폼 부호화기(660)를 통해 추가적으로 부호화된다. 이를 흔히 코어코덱(Core codec)이라고 부른다. 또한 각 다운믹스 신호간의 커플링 등을 통한 부호화가 이뤄질 수 있다. 각 부호화기를 통해 생성된 신호는 먹스(670)를 통해 하나의 비트열로 형성되어 전송된다. 따라서, 다운믹스&파라메터 부호화기들(620,640)과 웨이브폼 부호화기(660)을 통해 생성된 비트열은 모두 하나의 사운드 장면을 이루는 구성객체들을 부호화하는 경우로 볼 수 있다.
또한, 생성된 비트열내 서로 다른 객체 그룹에 속한 객체 신호는 동일한 시간 프레임을 가지고 부호화되며, 따라서, 같은 시간대에 재생되는 특징을 갖기도 한다. 객체그룹핑부에서 생성한 그룹핑정보는 부호화되어 수신단에 전달되는 것이 가능하다.
도 7은 이와같이 부호화되어 전송된 신호에 대한 복호화를 수행하는일 실시예를 나타내는 블록도이다. 복호화 과정은 부호화의 역과정으로써 웨이브폼 복호화(720)된 복수의 다운믹스 신호들은 각각 대응되는 파라메터와 함께 업믹서&파라메터 복호화기에 입력된다. 복수의 다운믹스가 존재하므로 복수의 파라메터 복호화가 필요하다.
전송된 비트열에 글로벌 게인 및 객체그룹 게인이 포함되어 있는 경우, 이들을 적용하여 정상적인 객체 신호의 크기를 복원할 수 있다. 한편, 렌더링 혹은 트랜스 코딩 과정에서 이 게인 값들은 제어가 가능하며, 글로벌 게인 조절을 통해 전체 신호의 크기를, 객체그룹 게인을 통해 그룹별 게인을 조절할 수 있다.
이를테면, 재생 스피커 단위로 객체 그룹핑이 이루어진 경우, 후술할 유연한 렌더링을 구현하기 위해 게인을 조절할 때, 객체그룹 게인을 조절을 통해 쉽게 구현할 수 있을 것이다.
이 때, 복수의 파라메터 부호화기 혹은 복호화기는 설명의 편의상 병렬로 처리되는 것처럼 도시되었으나, 하나의 시스템을 통해 순차적으로 복수 객체 그룹에 대한 부호화 혹은 복호화를 수행하는 것도 가능하다.
객체 그룹을 형성하는 또 다른 방법으로 서로 상관도가 낮은 객체끼리 하나의 그룹으로 그룹핑하는 방법이다. 이는 파라메터 부호화의 특징으로 상관도가 높은 객체들은 다운믹스로부터 각각을 분리하기 어려운 특징을 고려한 것이다. 이때, 다운믹스 시 다운믹스 게인 등의 파라메터를 조절하여, 그룹된 각 객체들이 보다 상관성이 멀어지도록 하는 부호화 방법도 가능하다. 이때 사용된 파라메터는 복호화 시 신호 복원에 사용될 수 있도록 전송되는 것이 바람직하다.
객체 그룹을 형성하는 또 다른 방법으로 서로 상관도가 높은 객체들을 하나의 그룹으로 그룹핑하는 방법이다. 이는 상관도가 높은 객체들의 경우 파라메터를 이용한 분리에 어려움이 있지만, 그런 활용도가 높지 않은 응용에서 압축 효율을 높이기 위한 방법이다. 코어코덱의 경우 다양한 스펙트럼을 가진 복잡한 신호일 경우 그만큼 비트가 많이 필요하므로 상관도가 높은 객체를 묶어 하나의 코어 코덱을 활용하면 부호화 효율이 높다.
객체 그룹을 형성하는 또 다른 방법으로 객체간 마스킹 여부를 판단하여 부호화하는 것이다. 예를 들어 객체 A가 객체 B를 마스킹하는 관계에 있는 경우 두 신호를 하나의 다운믹스에 포함하여 코어코덱으로 부호화할 경우, 객체 B는 부호화 과정에서 생략될 수 있다. 이 경우 복호화단에서 파라메터를 이용하여 객체 B를 얻을 경우 왜곡이 크다.
따라서, 이와 같은 관계를 가지는 객체 A와 객체 B는 별도의 다운믹스에 포함하는 것이 바람직하다. 반면, 객체 A와 객체 B가 마스킹 관계에 있지만, 두 객체를 분리하여 렌더링할 필요가 없는 응용이나, 적어도 마스킹 된 객체에 대한 별도 처리의 필요가 없는 경우는 반대로 객체 A와 B를 하나의 다운믹스에 포함시키는 것이 바람직하다. 따라서 응용에 따라 선택 방법이 다를 수 있다.
이를테면 부호화 과정에서 바람직한 사운드 장면상에서 특정 객체가 마스킹되어 없어지거나 최소한 미약한 경우라면, 이를 객체 리스트에서 제외하고 마스커가 되는 객체에 포함시키거나 두 객체를 합쳐 하나의 객체로 표현하는 식으로 구현할 수 있다.
객체 그룹을 형성하는 또 다른 방법으로 평면파 소스 객체나 엠비언트 소스 객체 등 점 소스 객체가 아닌 것들을 분리하여 별도로 그룹화하는 것이다.
이와 같은 소스들은 점 소스와 다른 특성으로 인해, 다른 형태의 압축 부호화 방법이나 파라메터가 필요하며, 따라서, 별도로 분리하여 처리하는 것이 바람직하다.
그룹별로 복호화된 객체 정보들은 전송된 그룹화 정보를 참조하여 객체디그룹핑을 통해 원래의 객체들로 환원된다.
도 8 및 도 9는 본 발명에 따른 부호화 방법에 의해 부호화하여 생성한 비트열의 일 실시예이다. 도 8을 참조하면, 부호화된 채널 혹은 객체 데이터가 전송되는 주비트열(800)이 채널 그룹(820,830,840) 혹은 객체 그룹(850,860,870) 순으로 정렬되어 있는 것을 알 수 있다. 또한 헤더에 각 그룹의 비트열 내에서의 위치정보인 채널 그룹 포지션 정보 CHG_POS_INFO(811), 객체 그룹 포지션 정보 OBJ_POS_INFO(812)를 포함하고 있으므로, 이를 참조하면 비트열을 순차적으로 복호화하지 않고도 원하는 그룹의 데이터만을 우선 복호화할 수 있다.
따라서 복호화기는 일반적으로 그룹단위로 먼저 도착한 데이터부터 복호화를 수행하나, 다른 정책이나 이유에 의해 복호화하는 순서를 임의로 변경할 수 있다.
또한 도 9는 주비트열(800) 외에 별도로 주요 복호화 관련 정보와 함께 각 채널 혹은 객체 대한 메타 데이터(903,904)를 담고 있는 부비트열(901)을 예시한다. 부비트열은 주비트열이 전송되는 중간에 간헐적으로 전송되거나, 별도 전송채널을 통해 전송될 수 있다.
(객체 그룹별로 비트할당하는 방법)
복수 그룹별로 다운믹스를 생성하고, 각 그룹별로 독립된 파라메트릭 객체 부호화를 수행하는데 있어서, 각 그룹에서 사용되는 비트수는 서로 다를 수 있다. 그룹별 비트를 할당하는 기준은 그룹내 포함된 객체의 수, 그룹내 객체 간의 마스킹 효과를 고려한 유효 객체수, 사람의 공간 해상도를 고려한 위치에 따른 가중치, 객체들의 음압 그기, 객체간 상관도, 사운드 장면상의 객체의 중요도 등을 고려할 수 있다. 예를 들면 A,B,C 세개의 공간적 객체 그룹을 갖는 경우, 각각 그룹의 object신호가 3,2,1개씩 포함되어 있다면, 할당된 비트는 3a1(nx),2 2a2(ny), a3n으로 할당될 수 있다. 여기서 x,y는 각 그룹 내에서 객체간 그리고 객체 내에서 마스킹효과에 의해서 비트를 덜 할당해도 되는 정도를 말하며, a1,a2 a3는 그룹별로 상기 언급한 다양한 요소들에 의해 결정될 수 있다.
(객체 그룹내에서 주객체,부객체 위치정보 부호화)
한편, 객체 정보의 경우 프로듀서가 생성한 의도에 따라 권고하거나 다른 사용자가 제안하는 믹스 정보 등을 객체의 위치 및 크기 정보로써 메타데이터를 통해 전달하는 수단을 갖는 것이 바람직하다. 본 발명에서는 이를 편의상 프리셋 정보라 부른다. 프리셋을 통한 위치 정보의 경우, 특히 객체가 시간에 따라 위치가 가변하는 다이내믹 객체의 경우, 전송되야할 정보량이 적지 않다. 예를들어 1000개의 객체에 대해 매 프레임 가변하는 위치 정보를 전송한다면 매우 큰 데이터량이 된다. 따라서, 객체의 위치 정보 역시 효과적으로 전송하는 것이 바람직하다.
이에 본 발명에서는 주 객체와 부 객체라는 정의를 이용하여 위치 정보의 효과적인 부호화 방법을 사용한다.
주 객체는 객체의 위치정보를 3차원 공간상의 절대적인 좌표값으로 표현하는 객체를 의미한다. 부 객체는 3차원 공간상의 위치를 주 객체에 대한 상대적인 값으로 표현하여 위치정보를 갖는 객체를 의미한다. 따라서 부 객체는 대응되는 주 객체가 무엇인지 알아야 하는데, 그룹핑을 수행하는 경우, 특히 공간상의 위치를 기준으로 그룹핑을 하는 경우, 동일 그룹내에 하나의 주 객체와 나머지를 부 객체로 두고 위치 정보를 표현하는 방법으로 구현 가능하다. 부호화를 위한 그룹핑이 없거나 이를 이용하는 것이 부 객체 위치정보 부호화에 유리하지 않은 경우, 위치 정보 부호화를 위한 별도의 집합을 형성할 수 있다. 부 객체 위치 정보를 상대적으로 표현하는 것이 절대값으로 표현하는 것보다 유리하기 위해서는 그룹 혹은 집합 내에 속하는 객체들은 공간상에서 일정 범위내에 위치하는 것이 바람직하다.
본 발명에 따른 또 다른 위치정보 부호화 방법은 주 객체에 대한 상대적인 표현 대신, 고정된 스피커 위치에 대한 상대 정보로써 표현하는 것이다. 이를테면, 22채널 스피커의 지정된 위치값을 기준으로 객체의 상대적 위치 정보를 표현한다. 이때 기준으로 사용할 스피커 개수와 위치 값 등은 현재 컨텐츠에서 설정한 값을 기준으로 이뤄질 수 있다.
본 발명에 따른 또다른 실시 예에서, 위치정보를 절대값 혹은 상대 값으로 표현한 뒤 양자화를 수행해야는데, 양자화 스텝은 절대위치를 기준으로 가변적인 것을 특징으로 한다. 예를들어, 청자의 정면 부근은 측면 혹은 후면에 비해 위치에 대한 구별 능력이 월등히 높은 것으로 알려져 있으므로, 정면에 대한 해상도는 측면에 대한 해상도보다 높도록 양자화 스텝을 설정하는 것이 바람직하다. 마찬가지로 사람은 방위에 대한 해상도가 높낮이에 대한 해상도보다 높으므로 방위각에 대한 양자화를 보다 높게 하는 것이 바람직하다.
본 발명에 따른 또다른 실시 예에서는, 위치가 시변하는 다이내믹 객체의 경우, 주 객체 혹은 다른 기준점에 대한 상대적인 위치값을 표현하는 대신, 해당 객체의 이전 위치값에 대한 상대적인 값으로 표현하는 것이 가능하다. 따라서 다이내믹 객체에 대한 위치 정보는 시간적으로 이전, 공간적으로 이웃 기준점 중 어디를 기준으로 했는지를 구별하기 위한 플래그 정보를 함께 전송하는 것이 바람직하다.
(복호화기 전체 아키텍처)
도 10은 본 발명에 따른 객체 및 채널 신호 복호화 시스템을 블록도로 나타낸 일 실시예이다.
시스템은 객체 신호(1001) 혹은 채널 신호(1002) 혹은 객체 신호와 채널 신호의 조합을 받을 수 있고, 또한 객체 신호 혹은 채널 신호는 각각 웨이브폼 부호화(1001, 1002) 되거나 파라메트릭 부호화(1003, 1004) 되어 있을 수 있다.
복호화 시스템은 크게 3DA 복호화부(1060)와 3DA 렌더링부(1070)로 구분될 수 있으며, 3DA 렌더링부(1070)는 임의의 외부 시스템 혹은 솔루션이 사용될 수도 있다. 따라서, 3DA 복호화부(1060)와 3DA 렌더링부(1070)는 외부와 쉽게 호환되는 표준화된 인터페이스를 제공하는 것이 바람직하다.
도 11은 본 발명에 따른 또 다른 형태의 객체 및 채널 신호 복호화 시스템의 블록도이다. 마찬가지로 본 시스템은 객체 신호(1101) 혹은 채널 신호(1102) 혹은 객체 신호와 채널 신호의 조합을 받을 수 있고, 또한 객체 신호 혹은 채널 신호는 각각 웨이브폼 부호화(1101,1102) 되거나 파라메트릭 부호화(1103,1104)되어 있을 수 있다.
도 10의 시스템과 비교할 때 차이점은 각각 분리되어 있던 개별 객체 복호화기(1010)와 개별 채널 복호화기(1020), 그리고 파라메트릭 채널 복호화기(1040)와 파라메트릭 객체 복호화기(1030)가 각각 하나의 개별 복호화기(1110)와 파라메트릭 복호화기(1120)로 통합되었다는 점과, 3DA 렌더링부(1140)와 편리하고 표준화 된 인터페이스를 위한 렌더러 인터페이부(1130)가 추가되었다는 점이다. 렌더러 인터페이스부(1130)는 내부 혹은 외부에 존재하는 3DA 렌더러(1140)로부터 사용자 환경정보, 렌더러 버전 등을 입력받아 이에 호환되는 형태의 채널 혹은 객체 신호와 함께 이를 재생하고 관련 정보를 표시하는데 필요한 메타데이터를 전달할 수 있도록 되어 있다. 3DA 렌더러 인터페이스(1130)는 후술할 순서 제어부(1830)를 포함할 수 있다.
파라메트릭 복호화기(1120)는 객체 혹은 채널 신호를 생성하기 위해 다운믹스 신호가 필요한데, 필요한 다운믹스 신호는 개별 복호화기(1110)를 통해 복호화되어 입력된다. 객체 및 채널 신호 복호화 시스템에 대응되는 부호화기는 여러가지 타입이 될 수 있으며, 도 10 및 도 11에 표현된 형태의 비트열(1001, 1002, 1003, 1004, 1101, 1102, 1103, 1104) 중 적어도 하나를 생성할 수 있으면 호환되는 부호화기로 볼 수 있다. 또한 본 발명에 따르면, 도 10 및 도 11에 제시된 복호화 시스템은 과거 시스템 혹은 비트열과의 호환성을 보장하도록 디자인되었다.
예를들어 AAC로 부호화된 개별 채널 비트열이 입력된 경우 개별 (채널) 복호화기를 통해 복호화하여 3DA 렌더러로 송부할 수 있다. MPS (MPEG Surround) 비트열의 경우 다운믹스 신호와 함께 송부되는데, 다운믹스된 후 AAC로 부호화된 신호는 개별 (채널)복호화기를 통해 복호화하여 파라메트릭 채널 복호화기에 전달되고, 파라메트릭 채널 복호화기는 마치 MPEG Surround 복호화기처럼 동작한다. SAOC (Spatial Audio Object Coding) 으로 부호화된 비트열의 경우도 마찬가지로 동작한다. SAOC의 경우 도 10의 시스템에서는 종래와 같이 SAOC는 트랜스코더로 동작한 후 MPEG Surround를 통해 채널로 렌더링이 되는 구조를 갖는다. 이를 위해서는 SAOC 트랜스코더는 재생 채널 환경정보를 받아서, 이에 맞도록 최적화된 채널 신호를 생성해서 전송하는 것이 바람직하다. 따라서, 종래 SAOC 비트열을 받아서 복호화 하되, 사용자 혹은 재생 환경에 특화된 렌더링을 수행할 수 있다. 도 11의 시스템에서는 SAOC 비트열이 입력될 경우 MPS 비트열로 변환하는 트랜스코딩 동작대신 바로 채널 혹은 렌더링에 적합한 개별 객체 형태로 변환하는 방법으로 구현된다.
따라서, 트랜스코딩하는 구조에 비해 연산량이 낮으며, 음질 면에서도 유리하다. 도 11에서 객체 복호화기의 출력을 channel 로만 표시하였으나, 개별 객체 신호로써 렌더러 인터페이스에 전달될 수도 있다. 또한 도 11에서만 표기되었으나, 도 10의 경우를 포함하여 파라메트릭 비트열상에 레지듀얼 신호가 포함된 경우 이에 대한 복호화는 개별 복호화기를 통해 복호화되는 것이 특징이다.
(채널에 대한 개별, 파라미터 조합, 레지듀얼)
도 12는 본 발명의 다른 실시예에 따른 인코더 및 디코더의 구성을 보여주는 도면이다. 구체적으로, 도 12는 디코더의 스피커 셋업이 각기 다를 경우에 스케일러블한 코딩을 위한 구조를 나타낸다.
인코더는 다운믹싱부(1210)를 포함하고, 디코더는 디멀티플렉싱부(220)를 포함하고, 제1 디코딩부(1230) 내지 제3 디코딩부(1250) 중 하나 이상을 포함한다.
다운믹싱부(1210)는 멀티채널에 해당하는 입력신호(CH_N)을 다운믹싱함으로써, 다운믹스 신호(DMX)를 생성한다. 이 과정에서 업믹스 파라미터(UP) 및 업믹스 레지듀얼(UR) 중 하나 이상을 생성한다. 그런 다음 다운믹스 신호(DMX), 업믹스 파라미터(UP) (및 업믹스 레지듀얼(UR))를 멀티플렉싱함으로써, 하나 이상의 비트스트림을 생성하여 디코더에 전송한다. 여기서 업믹스 파라메터(UP)는 하나 이상의 채널을 둘 이상을 채널로 업믹싱하기 위해 필요한 파라미터로서, 공간 파라메터 및 채널간 위상 차이(IPD) 등이 포함될 수 있다.
그리고 업믹스 레지듀얼(UR)은 원본 신호인 입력 신호(CH_N)과 복원된 신호와의 차이인 레지듀얼 신호에 해당하는데, 여기서 복원된 신호는 다운믹스(DMX)에 업믹스 파라미터(UP)를 적용하여 업믹싱된 신호일 수도 있고, 다운믹싱부(1210)에 의해 다운믹싱되지 않은 채널이 discrete한 방식으로 인코딩된 신호일 수 있다. 디코더의 디멀티플렉싱부(1220)는 하나 이상의 비트스트림으로부터 다운믹스 신호(DMX) 및 업믹스 파라미터(UP)를 추출하고 업믹스 레지듀얼(UR)를 더 추출할 수 있다. 여기서 레지듀얼 신호는 다운믹스 신호에 대한 개별 부호화 유사한 방법으로 부호화될 수 있다. 따라서, 레지듀얼 신호의 복호화는 도 8 혹은 도 9에 제시된 시스템에서는 개별 (채널) 복호화기를 통해 이뤄지는 것이 특징이다.
디코더의 스피커 셋업 환경에 따라서, 제1 디코딩부(1230) 내지 제3디코딩부(1250) 중 하나(또는 하나 이상)를 선택적으로 포함할 수 있다. 디바이스의 종류(스마트폰, 스테레오 TV, 5.1ch 홈시어터, 22.2ch 홈시어터 등)에 따라서 라우드 스피커의 셋업 환경이 다양할 수 있다. 이와 같이 다양한 환경에도 불구하고, 22.2ch 등의 멀티채널 신호를 생성하기 위한 비트스트림 및 디코더가 선택적이지 않다면, 22.2ch의 신호를 모두 복원한 후에, 스피커 재생환경에 따라서, 다시 다운믹스 해야 한다. 이러한 경우, 복원 및 다운믹스에 소요되는 연산량이 매우 높을 뿐만 아니라, 지연이 발생할 수도 있다.
그러나 본 발명의 다른 실시예에 따르면, 각 디바이스의 셋업 환경에 따라서 제1 디코더 내지 제3 디코더 중 하나(또는 하나 이상)을 선택적으로 구비함으로써, 상기와 같은 불리함으로 해소할 수 있다.
제1 디코더(1230)는 다운믹스 신호(DMX)만을 디코딩하는 구성으로써, 채널 수의 증가를 동반하지 않는다. 다운믹스 신호가 모노인 경우, 모노 채널 신호를 출력하고, 만약 스테레오인 경우, 스테레오 신호를 출력하는 것이다. 스피커 채널 수가 하나나 또는 두 개인 헤드폰 구비된 장치, 스마트폰, TV 등에 적합할 수 있다.
한편, 제2 디코더(1240)는 다운믹스 신호(DMX) 및 업믹스 파라미터(UP)를 수신하고, 이를 근거로 파라메트릭 M채널(PM)을 생성한다. 제1 디코더에 비해서 채널 수가 증가하지만, 업믹스 파라미터(UP)가 총 M채널까지의 업믹스에 해당하는 파라미터만 존재하는 경우, 원본 채널 수(N)에 못미치는 M채널 수의 신호를 재생할 수 있다. 예를 들어 인코더의 입력신호인 원본 신호가 22.2ch 신호이고, M채널은 5.1ch, 7.1ch 채널 등일 수 있다.
제3 디코더(1250)는 다운믹스 신호(DMX) 및 업믹스 파라미터(UP) 뿐만 아니라, 업믹스 레지듀얼(UR)까지 수신한다. 제2 디코더는 M채널의 파라메트릭 채널을 생성하는 데 비해, 제3 디코더는 이에 업믹스 레지듀얼 신호(UR)까지 추가적으로 적용함으로써, N개 채널의 복원된 신호를 출력할 수 있다.
각 디바이스는 제1 디코더 및 제3 디코더 중 하나 이상을 선택적으로 구비하고, 비트스트림 중에서 업믹스 파라미터(UP) 및 업믹스 레지듀얼(UR)을 선택적으로 파싱함으로써, 각 스피커 셋업 환경에 맞는 신호를 바로 생성함으로써, 복잡도 및 연산량을 줄일 수 있다.
(마스킹 고려한 객체 웨이브폼 부호화)
본 발명에 따른 객체의 웨이브폼 부호화기(이하 웨이브폼(waveform) 부호화기는 채널 혹은 객체 오디오 신호를 각 채널 혹은 객체별로 독립적으로 복호화가 가능하도록 부호화하는 경우를 말하며, 파라메트릭 부호화/복호화에 상대되는 개념으로 또한 개별(discrete) 부호화/복호화라고 부르기도 한다)는 객체의 사운드 장면상의 위치를 고려하여 비트할당한다.
이는 심리음향의 BMLD (Binaural Masking Level Difference) 현상과 객체 신호 부호화의 특징을 이용한 것이다.
BMLD 현상을 설명하기 위해 기존 오디오 부호화 방법에서 사용하던 MS (MidSide) 스테레오 부호화의 예를 가지고 설명하면 다음과 같다. 즉, 심리음향에서의 마스킹 현상은 마스킹을 발생시키는 마스커(Masker)와 마스킹이 되는 마스키(Maskee)가 공간적으로 동일한 방향에 있을 때 가능하다는 것이 BMLD이다. 스테레오 오디오 신호의 두 채널 오디오 신호간의 상관성이 매우 높고, 그 크기가 같은 경우 그 소리에 대한 상(음상)이 두 스피커 사이 중앙에 맺히게 되며, 상관성이 없는 경우 각 스피커에서 독립된 소리가 나와 그 상이 각각 스피커에 맺히게 된다.
만일 상관성이 최대인 입력 신호에 대해 각 채널을 독립적으로 부호화(dual mono)할 경우 이 때 발생하는 각 채널에서의 양자화 잡음은 서로 상관성이 없으므로, 오디오 신호는 중앙에, 양자화 잡음은 그 상이 각 스피커에 따로 맺히게 될 것이다.
따라서, 마스키가 되어야 하는 양자화 잡음이 공간적 불일치로 인해 마스킹되지 않아, 결국 사람에게 왜곡으로 들리는 문제가 발생한다. 합차부호화는 이와 같은 문제를 해결하고자, 두 채널 신호를 더한 신호 (Mid 신호)와 뺀 신호 (Difference)를 생성한 후 이를 이용하여 심리음향 모델을 수행하고, 이를 이용하여 양자화하여, 발생한 양자화 잡음이 음상과 같은 위치에 있도록 한다.
종래의 채널 부호화의 경우 각 채널은 재생되는 스피커에 매핑되며, 해당 스피커의 위치는 고정되고 서로 떨어져 있기 때문에, 채널간의 마스킹은 고려될 수 없었다. 그러나, 각 객체를 독립적으로 부호화 하는 경우는 해당 객체들의 사운드 장면상의 위치에 따라 마스킹 여부되는지 여부가 달라질 수 있다.
따라서 타 객체에 의해 현재 부호화되는 객체의 마스킹 여부를 판단하여 그에 따라 비트를 할당하여 부호화하는 것이 바람직하다.
도 13은 객체 1(1310)과 객체 2(1320)에 대한 각각의 신호와 이 신호들로부터 취득될 수 있는 마스킹 임계치와 객체 1과 객체 2를 합친 신호에 대한 마스킹 임계치(1330)를 도시한다.
객체 1과 객체 2가 적어도 청자의 위치를 기준으로 동일한 위치 혹은 BMLD의 문제가 발생하지 않을 만큼의 범위내에 위치하는 것으로 간주한다면, 청자에게 해당 신호에 의해 마스킹되는 영역은 1330과 같이 될 것이므로, 객체 1에 포함된 S2신호는 완전히 마스킹되어 들리지 않는 신호가 될 것이다. 그러므로, 객체 1을 부호화하는 과정에 있어서 객체 2에 대한 마스킹 임계치를 고려하여 부호화하는 것이 바람직하다. 마스킹 임계치는 서로 가산적으로 합쳐지는 성질이 있으므로, 결국 객체 1과 객체 2에 대한 각각의 마스킹 임계치를 더하는 방법으로 구할 수 있다.
혹은 마스킹 임계치를 계산하는 과정 자체도 연산량이 매우 높으므로 객체 1과 객체 2를 미리 합하여 생성한 신호를 이용하여 하나의 마스킹 임계치를 계산하여 객체 1과 객체 2를 각각 부호화 하는 것도 바람직하다.
도 14는 본 발명에 따른 복수 객체 신호에 대한 마스킹 임계치를 산출하는 부호화기의 일실시예이다.
본 발명에 따른 또다른 마스킹 임계치 산출 방법은 두 개의 객체 신호의 위치가 청음각 기준으로 완전히 일치 하지 않는 경우 두 객체에 대한 마스킹 임계치를 더하는 것 대신 두 객체가 공간상에 떨어진 정도를 고려하여 마스킹 레벨을 감쇄하여 반영하는 것도 가능하다. 즉 객체 1에 대한 마스킹 임계치를 M1(f), 객체 2에 대한 마스킹 임계치를 M2(f)라고 할 때, 각 객체를 부호화화는데 사용할 최종 조인트 마스킹 임계치 M1’(f), M2’(f)는 다음과 같은 관계를 갖도록 생성된다.
수학식 1
Figure PCTKR2014003576-appb-M000001
이때, A(f)는 두 객체간 공간상의 위치와 거리 및 두 객체의 속성 등을 통해 생성되는 감쇄팩터로써 0.0=<A(f)=<1.0 의 범위를 갖는다.
사람의 방향에 대한 해상도는 정면을 기준으로 좌우로 갈 수록 나빠지고 뒤쪽으로 갈 때 더욱 나빠지는 특성을 갖는데, 따라서, 객체의 절대적 위치는 A(f)를 결정하는 또 다른 요소로 작용할 수 있다.
본 발명에 따른 또 다른 실시예에서는, 두 객체 가운데 하나의 객체에 대해서는 자신의 마스킹 임계치만을 이용하고, 또 다른 객체에 대해서만 상대객체에 대한 마스킹 임계치를 가져오는 방법으로 구현할 수 있다. 이를 각각 독립객체 의존객체라고 한다. 자기 자신의 마스킹 임계치만을 이용하는 객체는 상대 객체와 무관하게 고음질 부호화 되므로, 해당 객체로부터 공간적으로 분리되는 렌더링이 수행되더라도 음질이 보존되는 장점을 가질 수 있다. 객체 1을 독립객체, 객체 2를 의존객체라고 하면, 다음과 같은 식으로 마스킹 임계치가 표현될 수 있다.
수학식 2
Figure PCTKR2014003576-appb-M000002
독립객체와 의존객체 여부는 각 객체에 대한 부가정보로써 복호화 및 렌더러에 전달하는 것이 바람직하다.
본 발명에 따른 또 다른 실시예에서는, 두 객체가 공간상에서 일정정도 유사한 경우, 마스킹 임계치만을 합쳐서 생성하는 것이 아니라, 신호 자체를 하나의 객체로 합쳐서 처리하는 것도 가능하다.
본 발명에 따른 또 다른 실시예에서는, 특히 파라미터 부호화를 수행하는 경우, 두 신호의 상관도와 두 신호의 공간 상의 위치를 고려하여, 하나의 객체로 합쳐서 처리하는 것이 바람직하다.
(트랜스코딩 특징)
본 발명에 따른 또 다른 실시예에서는, 커플링된 객체를 포함한 비트열을 트랜스코딩 함에 있어서, 특히 더 낮은 비트율로 트랜스 코딩 함에 있어서, 데이터 크기를 줄이기 위해 객체의 숫자를 줄여야 할 경우, 즉, 복수 객체를 하나로 다운믹스 하여 하나의 객체로 표현할 경우, 커플링된 객체에 대해 하나의 객체로 표현하는 것이 바람직하다.
이상의 객체간 커플링을 통한 부호화를 설명함에 있어서, 설명의 편의를 위해 2개의 객체만을 커플링하는 경우만을 예로 들었으나, 2개 이상 다수의 객체에 대한 커플링도 유사한 방법으로 구현 가능하다.
(유연한 렌더링 필요)
3D 오디오를 위해 필요한 기술 가운데 유연한 렌더링은 3D 오디오의 품질을 최상으로 끌어올리기 위해 해결해야할 중요한 과제 가운데 하나이다. 거실의 구조, 가구 배치에 따라 5.1 채널 스피커의 위치가 매우 비정형적인 것은 주지의 사실이다. 이와 같은 비정형적 위치에 스피커가 존재하더라도, 컨텐츠 제작자가 의도한 사운드 장면을 제공할 수 있도록 해야하는데, 이를 위해서는 사용자마다 제 각각인 재생 환경에서의 스피커 환경을 알아야 하는 것과 함께, 규격에 따른 위치 대비 차이를 보정하기 위한 렌더링 기술이 필요하다. 즉, 전송된 비트열을 디코딩 방법에 따라 디코딩하는 것으로 코덱의 역할이 끝나는 것이 아니라, 이를 사용자의 재생 환경에 맞게 최적화 변형하는 과정에 대한 일련의 기술이 요구된다.
도 15는 5.1채널 셋업에 대해 ITUR 권고안에 따른 배치(1510)와 임의 위치에 배치된 경우(1520)를 나타낸다. 실제 거실 환경에서는 이처럼 ITUR 권고안 대비 방향각과 거리 모두 달라지는 문제가 발생할 수 있다(그림에 나타내지 않았지만 스피커의 높이에도 차이가 있을 수 있다).
이와 같이 달라진 스피커 위치에서 원래의 채널 신호를 그대로 재생할 경우 이상적인 3D 사운드 장면을 제공하기 힘들다.
(플렉서블 렌더링)
신호의 크기를 기준으로 두 스피커 사이의 음원의 방향 정보를 결정하는 Amplitude Panning이나 3차원 공간상에서 3개의 스피커를 이용하여 음원의 방향을 결정하는데 널리 사용되는 VBAP (VectorBased Amplitude Panning)을 이용하면 객체별로 전송된 객체 신호에 대해서는 상대적으로 편리하게 플렉서블 렌더링을 구현할 수 있는 것을 알 수 있다. 채널 대신 객체 신호를 전송하는 것의 장점 중 하나이다.
(객체 복호화와 렌더링 구조)
도 16 및 도 17은 본 발명에 따른 객체 비트열에 대한 복호화기와 이를 이용한 플렉서블 렌더링 시스템이 연결된 두가지 실시예의 구조를 나타낸다. 전술한 바와 같이 객체의 경우 원하는 사운드 장면에 맞춰 객체를 음원으로 위치시키기 용이한 장점이 있으며, 여기서는 믹스(Mix, 1620)부에서 믹싱행렬로 표현된 위치정보를 입력받아서 우선 채널 신호로 변경한다. 즉, 사운드 장면에 대한 위치정보를 출력 채널에 대응되는 스피커로부터의 상대적인 정보로써 표현되는 것이다. 이때, 실제 스피커의 개수와 위치가 정해진 위치에 존재하지 않는 경우 해당위치 정보(Speaker Config)를 이용하여 다시 렌더링 하는 과정이 필요하다. 아래 기술하는 것처럼 채널 신호를 다시 다른 형태의 채널 신호로 렌더링하는 것은 객체를 최종 채널에 직접 렌더링하는 경우보다 구현하기 어렵다.
도 18은 본 발명에 따른 객체 비트열에 대한 복호화와 렌더링을 구현한 또 다른 실시예의 구조를 나타낸다. 도 16의 경우와 비교하면, 비트열로부터 복호화와 함께 최종 스피커 환경에 맞는 플렉서블 렌더링(1810)을 직접 구현하는 것이다. 즉, 믹싱 행렬에 바탕하여 정형의 채널로 수행하는 믹싱과 이렇게 생성된 정형 채널로부터 플렉서블 스피커로 렌더링하는 과정의 두 단계를 거치는 대신 믹싱행렬과 스피커 위치정보(1820)를 이용하여 하나의 렌더링 행렬 혹은 렌더링 파라미터를 생성하여, 이를 이용하여 객체 신호를 대상 스피커로 바로 렌더링하는 것이다.
(채널로 붙여서 플렉서블 렌더링)
한편, 채널 신호가 입력으로 전송된 경우, 해당 채널에 대응되는 스피커의 위치가 임의 위치로 변경된 경우는 객체 경우의 같은 패닝 기법을 이용하여 구현되기 어렵고 별도의 채널 매핑 프로세스가 필요하다. 더 문제는 이처럼 객체신호와 채널 신호에 대해 렌더링을 위해 필요한 과정과 해결 방법이 다르기 때문에 객체 신호와 채널 신호가 동시에 전송되어 두 신호를 믹스한 형태의 사운드 장면을 연출하고자 하는 경우는 공간의 부정합에 의한 왜곡이 발생하기 쉽다.
이와 같은 문제를 해결하기 위해 본 발명에 따른 또다른 실시예에서는 객체에 대한 플렉서블 렌더링을 별도로 수행하지 않고 채널 신호에 믹스를 먼저 수행한 후 채널 신호에 대한 플렉서블 렌더링을 수행하도록 한다. HRTF를 이용한 렌더링 등도 마찬가지 방법으로 구현되는 것이 바람직하다.
(복호화단 다운믹스: 파라미터 전송 혹은 자동생성)
다운믹스 렌더링의 경우, 멀티채널 컨텐츠를 그보다 적은 수의 출력채널을 통해 재생하는 경우 지금까지는 MN 다운믹스 매트릭스 (M은 입력채널 수, N은 출력 채널 수)로 구현하는 것이 일반적이었다.
즉, 5.1 채널 컨텐츠를 스테레오로 재생할 때, 주어진 수식에 의해 다운믹스를 수행하는 식으로 구현된다. 그런데, 이와 같은 다운믹스 구현 방법은 우선 사용자의 재생 스피커 환경이 5.1채널 뿐임에도 불구하고, 전송된 22.2채널에 해당하는 모든 비트열을 복호화 해야하는 연산량의 문제가 발생한다. 휴대기기에서의 재생을 위한 스테레오 신호 생성을 위해서도 22.2채널 신호를 모두 복호화 해야한다면, 그 연산량 부담이 매우 높을 뿐 아니라 엄청난 양의 메모리 낭비(22.2채널 복호화된 오디오 신호의 저장)가 발생한다.
(다운믹스 대안으로의 트랜스코딩)
이에 대한 대안으로 거대한 22.2채널 원본 비트열로부터 효과적인 트랜스코딩을 통해 목표 기기 혹은 목표 재생 공간에 적합한 수의 비트열로 전환하는 방법을 생각할 수 있다. 예를 들어 클라우드 서버에 저장된 22.2채널 컨텐츠라면, 클라이언트 단말로부터 재생 환경 정보를 수신하고 이에 맞게 변환하여 전송하는 시나리오가 구현가능하다.
(복호화 순서 혹은 다운믹스 순서; 순서제어부)
한편, 복호화기와 렌더링이 분리되어 있는 시나리오의 경우, 예를들어 22.2채널의 오디오 신호와 함께 50개의 객체신호를 복호화하여 이를 렌더러에 전달해야하는 경우가 발생할 수 있는데, 전송되는 오디오 신호는 복호화가 완료된 높은 데이터율의 신호이므로, 복호화기와 렌더러 사이에 매우 큰 대역폭을 요구하는 문제가 있다. 따라서, 한번에 이와 같이 많은 데이터를 동시에 전송하는 것은 바람직하지 않으며, 효과적인 전송계획을 세우는 것이 바람직하다. 그리고, 이에 맞게 복호화기가 복호화 순서를 결정하여 전송하는 것이 바람직하다.
도 19는 이와같이 복호화기와 렌더러 사이의 전송계획을 결정하여 전송하는 구조를 나타내는 블록도이다.
순서제어부(1930)는 비트열에 대한 복호화를 통해 취득한 부가정보 및 메타데이터와 렌더러(1920)로부터 재생 환경, 렌더링 정보 등을 수신하여 복호화 순서와 복호화된 신호를 렌더러(1920)에 전송하는 전송 순서 및 단위 등을 결정하여 결정된 통제 정보를 복호화기(1910)와 렌더러(1920)에 다시 전달하는 역할을 담당한다. 예를 들어 렌더러(1920)에서 특정 객체를 완전히 제거하도록 명령한 경우, 이 객체는 렌더러(1920)로의 전송이 불필요할 뿐 아니라, 복호화도 할 필요가 없다.
혹은 다른 예로 특정 객체들을 특정 채널로만 렌더링하는 상황인 경우, 해당 객체를 별도로 전송하는 대신 전송되는 해당 채널에 미리 다운믹스하여 전송하면 전송 대역이 줄어들 것이다. 또 다른 실시 예로, 사운드 장면을 공간적으로 그룹핑하여, 각 그룹별로 렌더링에 필요한 신호들을 같이 전송하면, 렌더러 내부 버퍼에서 불필요하게 대기하여야 하는 신호의 양을 최소화할 수 있다.
한편 렌더러(1920)에 따라 한번에 수용 가능한 데이터 크기가 다를 수 있는데 이와 같은 정보도 순서제어부(1930)에 통지하여 이에 맞게 복호화기(1910)가 복호화 타이밍 및 전송량을 결정할 수 있다.
한편, 순서제어부(1930)에 의한 복호화 통제는 나아가서 부호화단에 전달되어, 부호화 과정까지 통제할 수 있다. 즉, 불필요한 신호를 부호화 시 제외하거나, 객체, 채널에 대한 그룹핑을 결정하는 등이 가능하다.
(음성 고속도로)
한편, 비트열 가운데 양방향 통신에 해당하는 음성에 해당하는 객체가 포함될 수 있다. 양방향 통신은 다른 컨텐츠와 다르게 시간 지연에 매우 민감하므로, 이에 해당하는 객체 혹은 채널 신호가 수신된 경우, 이를 우선하여 렌더러에 전송해야한다. 이에 해당하는 객체 혹은 채널신호는 별도의 플래그 등으로 표시할 수 있다. 우선 전송 객체는 타 객체/채널과 다르게 같은 프레임에 들어있는 다른 객체채널 신호와 재생 시간(presentation time)에 있어서 독립적인 특성을 갖는다.
(AV 정합 및 Phantom Center)
UHDTV 즉 초고해상도 TV를 고려할 때, 발생하는 새로운 문제 가운데 하나로, 흔히 Near Field라고 부르는 상황이다. 즉, 일반적인 사용자 환경(거실)의 시청 거리를 고려할 때, 재생되는 스피커로부터의 청자까지의 거리가 각 스피커 사이의 거리보다 짧아짐으로 인해, 각 스피커가 점 음원으로 동작하게 된다는 점과 넓고 큰 스크린에 의해 중앙부에 스피커가 부재하게 된 상황에서 비디오에 동기화된 소리 객체의 공간 해상도가 매우 높아야만 고품질 3D 오디오 서비스가 가능하다는 점이다.
종래의 30도 정도의 시청각에서는 좌우에 배치된 스테레오 스피커가 Near Field 상황에 놓이지 않으며, 화면상의 객체의 이동 (예를 들어 왼쪽에서 오른쪽으로 이동하는 자동차)에 맞는 사운드 장면을 제공하기에 충분하다. 그러나, 시청각이 100도에 이르는 UHDTV 환경에서는 좌우 해상도뿐 아니라 화면의 상하를 구성하는 추가의 해상도가 필요하다. 예를 들어, 화면상의 2명의 등장 인물이 있을 경우, 현재의 HDTV에서는 두 명의 소리가 모두 가운데서 발화되는 것으로 들려도 현실감에 있어 큰 문제로 느껴지지 않았지만, UHDTV 크기에서는 화면과 그에 대응하는 소리의 불일치가 새로운 형태의 왜곡으로 인식될 것이다. 이에 대한 해결방안 중 하나로 22.2 채널 스피커 configuration의 형태를 들 수 있다. 도 3은 22.2채널 배치의 한 예이다. 도 3에 따르면, 전면부에 총 11개의 스피커를 배치하여 전면의 좌우 및 상하 공간 해상도를 크게 높이고 있다. 종전 3개의 스피커가 담당하던 중간층에 5개의 스피커를 배치한다.
그리고, 상위 개층 3개, 하위 계층에 3개를 추가하여 소리의 높낮이도 충분히 대응할 수 있도록 하였다. 이와 같은 배치를 이용하면 종전에 비해 전면의 공간 해상도가 높아지므로, 그만큼 비디오 신호와의 정합에 유리해질 것이다. 그런데, LCD, OLED 등의 디스플레이 소자를 이용하는 현재의 TV들에 있어, 스피커가 존재 해야할 위치를 디스플레이가 차지한다는 문제가 있다. 즉, 디스플레이 자체가 소리를 제공하거나 혹은 소리를 관통하는 소자성격을 갖지 않는 한 디스플레이 영역 밖에 존재하는 스피커들을 이용하여, 화면내의 각 오브젝트 위치에 정합된 소리를 제공해야하는 문제가 존재한다. 도 3에서 최소 FLc, FC, FRc에 해당하는 스피커는 디스플레이와 중복된 위치에 배치된다.
도 20은 22.2 채널 시스템에서 전면 배치 스피커 가운데 디스플레이에 의해 부재한 스피커들을 그 주변 채널들을 이용하여 재생하는 개념을 설명하기 위한 개념도이다. FLc, FC, FRc 부재를 대응하기 위해 점선으로 표시한 원과 같이 추가 스피커를 디스플레이의 상하 주변부에 배치하는 경우도 고려할 수 있다. 도 20에 따르면 FLc를 생성하는데 사용할 수 있는 주변 채널은 7개가 있을 수 있다.
이 7개의 스피커를 이용하여 가상 소스를 생성하는 원리로 부재 스피커 위치에 해당하는 소리를 재생할 수 있다.
주변 스피커를 이용하여 가상 소스를 생성하는 방법으로 VBAP이나 HAAS Effect (선행 효과)와 같은 기술 및 성질을 이용할 수 있다. 혹은 주파수 대역에 따라 서로 다른 패닝 기법을 적용할 수 있다. 나아가서는 HRTF를 이용한 방위각 변경 및 높이 조절 등을 고려할 수 있다. 예를들어 BtFC를 이용하여 FC를 대체할 경우, 상승 성질을 갖는 HRTF를 적용하여 FC 채널 신호를 BtFC에 더하는 방법으로 구현할 수 있다. HRTF 관찰을 통해 파악할 수 있는 성질은 소리의 높이를 조절하기 위해서는 고주파수 대역의 특정 Null의 위치(이는 사람에 따라 다름)를 제어해야 한다는 것이다. 그런데, 사람에 따라 다른 Null을 일반화하여 구현하기 위해서는 고주파수 대역을 넓게 키우거나 줄이는 방법으로 높이 조절을 구현할 수 있다.
이와 같은 방법을 사용하면 대신 필터의 영향으로 신호에 왜곡이 발생하는 단점이 있다.
본 발명에 따른 부재 스피커 위치에의 음원 배치를 위한 처리 방법은 도 18에 제시된 것과 같다. 도 21에 따르면 팬텀 스피커 위치에 대응하는 채널신호가 입력신호로 사용되며, 입력신호는 3개의 밴드로 분할하는 서브밴드 필터부(2110)를 거친다. 스피커 어레이가 없는 방법으로 구현될 수도 있는데, 이 경우 3개 밴드 대신 2개 밴드로 구분하거나 3개 밴드로 분할한 대신 상위 2개 밴드에 대해 각기 다른 처리를 거치는 방법으로 구현될 수도 있다. 첫번째 밴드는 저주파 대역으로 상대적으로 위치에 둔감한 대신 크기가 큰 스피커를 통해 재생하는 것이 바람직하므로, 우퍼 혹은 서브우퍼를 통해 재생될 수 있는 신호이다. 이때, 선행 효과를 이용하기 위해 첫번째 밴드 신호는 시간 지연(2120)을 추가한다. 이때 시간지연은 다른 밴드에서의 처리 과정에서 발생하는 필터의 시간 지연을 보상하기 위한 것이 아니라, 다른 밴드 신호 대비 더 늦게 재생되도록 하기 위해 즉, 선행 효과를 제공하기 위한 추가적인 시간 지연을 제공한다.
두번째 밴드는 팬텀 스피커 주변의 (TV 디스플레이의 배젤 및 그 주변에 배치되는 스피커) 스피커를 통해 재생되는데 사용될 신호로써, 적어도 2개의 스피커로 분할되어 재생되며, VBAP 등의 패닝 알고리즘(2130)을 적용하기 위한 계수가 생성되어 적용된다. 따라서, 두번째 밴드 출력이 재생되는 스피커의 개수와 위치(팬텀 스피커에 대해 상대적인)를 정확히 제공해야 이를 통한 패닝효과가 향상될 수 있다. 이때 VBAP 패닝 이외에도 HRTF를 고려한 필터의 적용이나, 시간 패닝효과를 제공하기 위해 서로 다른 위상 필터 혹은 시간 지연 필터를 적용하는 것도 가능하다. 이와 같이 밴드를 나누어 HRTF를 적용할 때 얻을 수 있는 또다른 장점은 HRTF에 의해 발생하는 신호 왜곡의 범위를 처리하는 대역내로 제한할 수 있다는 점이다.
세번째 밴드는 스피커 어레이가 존재하는 경우 이를 이용하여 재생되는 신호를 생성하기 위함이며, 적어도 3개의 스피커를 통한 음원 가상화를 위한 어레이 신호처리 기술(2140)을 적용할 수 있다. 혹은 WFS (Wave Field Synthesis)를 통해 생성되는 계수를 적용할 수 있다. 이때, 세번째 밴드와 두번째 밴드는 실제로 같은 밴드일 수도 있다.
도 22는 각 밴드에서 생성된 신호를 TV 주변에 배치된 스피커와 매핑시키는 일 실시예를 나타낸다. 도 22에 따르면, 두번째 및 세번째 밴드에 대응되는 스피커의 개수 및 위치 정보는 상대적으로 정확히 정의된 위치에 있어야 하며, 그 위치 정보는 도 21의 처리 시스템에 제공되는 것이 바람직하다.
(VOG 전체 블록도)
도 23은 TpC 신호가 다운믹스 되는 과정을 나타낸 개념도이다. TpC 신호 또는 머리 위쪽에 위치하는 객체 신호는 전송된 비트열의 특정 값 또는 신호의 특징을 분석하여 다운믹스 될 수 있다. 첫째로 머리 위쪽에 정지되어 있거나 방향성이 모호한 앰비언트(ambient)한 신호의 경우 다수의 채널에 동일한 다운믹스 게인을 적용하는 것이 타당하다. 이는 기존의 일반적인 매트릭스 기반 다운믹서(2310)를 사용하여 TcP 채널 또는 그 근방에 존재하는 객체신호를 다운믹스 할 수 있다. 둘째는 이동성을 가지는 사운드 장면에서의 TpC 채널 신호 또는 객체신호의 경우 앞에서 언급한 매트릭스 기반 다운믹서(2310)을 사용할 경우 컨텐츠 제공자가 의도한 동적인 사운드 장면이 보다 정적해진다. 이를 방지하기 위하여 채널 신호들을 분석하거나 객체 신호의 메타정보를 이용하여 가변적인 이득 값을 가지는 다운믹스를 수행 할 수 있다. 이를 경로 기반 다운믹서(2320)이라고 부른다.
마지막으로 마지막으로 근방의 스피커만으로 원하는 효과를 충분히 얻을 수 없는 경우 특정N개의 스피커의 출력 신호에 사람이 높이를 지각하는 스펙트럴 단서들을 사용할 수 있다. 이를 가상 채널 생성기(2330)이라고 부른다. 다운믹서 선택부(2340)에서는 입력 비트열 정보를 이용하거나 입력 채널 신호들을 분석하여 어떤 다운믹스 방법을 사용할 지 결정된다. 이렇게 선택된 다운믹스 방법에 따라 L, M 또는 N개의 채널 신호로 출력신호가 결정되게 된다.
(다운믹스 결정부)
도 24는 다운믹서 선택부(2440)의 순서도이다. 먼저 입력 비트열을 파싱(S240)하여 컨텐츠 제공자가 설정한 모드가 있는지를 체크(S241)한다. 설정된 모드가 있는 경우 해당 모드의 설정된 파라미터를 이용하여 다운믹스를 수행(S242)한다. 컨텐츠 제공자가 설정한 모드가 없는 경우 현재 사용자의 스피커 배치를 분석(S243)한다. 이는 스피커 배치가 매우 비정형인경우 앞에서 언급하였듯이 근방 채널의 이득값을 조절하는 것 만으로 다운믹스를 할 경우 컨텐츠 제공자가 의도한 사운드 장면을 충분히 재생할 수 없기 때문이다. 이를 극복하기 위해서는 사람이 높은 고도의 음상을 인지하는 여러가지 단서들을 이용하여만 한다.
이 때, 상기 S243에서 사용자의 스피커 배치가 기정해진 정도 이상의 비정형인지 여부를 판단하여, 기정해진 정도 이상의 비정형이 아닌 경우에는 채널 신호 인지 여부를 판단(S245)하게 된다. 이 때, 상기 S245에서 채널신호로 판단되면 인접한 채널 간의 코히어런스를 계산한다(S246). 또한, 상기 S245에서 채널신호가 아닌 것으로 판단되면 객체 신호의 메타 정보를 분석(S247)하게 된다.
상기 S246 이후에는 코히어런스가 높은지를 판단한다(S248). 상기 S248에서 코히어런스가 높은 경우에는 매트릭스 기반 다운믹서를 선택(S250)하게 되며, 코히어런스가 높지 않은 경우에는 이동성이 있는지를 판단(S249)하게 된다. 이 때, 상기 S249에서 이동성이 없는 것으로 판단되면 상기 S250으로 진행되고, 이동성이 있는 경우로 판단되면 경로 기반 다운믹서를 선택(S251)하게 된다.
또한, 상기 S245에서 채널 신호가 아닌 것으로 판단되면 객체 신호의 메타 정보를 분석(S247)하게 되며, 이동성이 있는 지를 판단(S249)하게 된다.
스피커 배치를 분석하는 실시 예로써 도 3의 상위 레이어의 스피커들의 위치 벡터들과 재생단에서의 상위 레이어 스피커 위치 벡터들의 거리합으로 분석할 수 있다. 도2의 상위 레이어의 i번째 스피커의 위치 벡터를 Vi, 재생단에서의 i번째 스피커의 위치 벡터를 Vi' 라고 하자. 또한 스피커의 위치적 중요도에 따라 가중치를 wi라고 하면 스피커 위치 에러 Espk 는 수학식 3으로 정의될 수 있다.
수학식 3
Figure PCTKR2014003576-appb-M000003
사용자의 스피커 배치가 매우 비 정형적인 경우 스피커 위치 에러 Espk는 큰 값을 갖게 된다. 따라서 스피커 위치 에러 Espk가 일정 임계 값을 이상 또는 초과하는 경우 이는 가상 채널 생성기를 선택한다. 스피커 위치 에러가 일정 임계 값보다 미만 또는 이하인 경우 매트릭스 기반 다운믹서 또는 경로 기반 다운믹서를 사용하게 된다. 다운믹스 하려는 음원이 채널 신호인 경우 채널신호의 추정된 음상 크기의 폭에 따라 다운믹스 방법이 선택 될 수 있다.
이는 뒤에서 언급할 사람의 정위 퍼짐(localization blur)이 정중면에 비하여 굉장히 크기 때문에, 음상의 폭(apparent source width)이 넓을 경우 정교한 음상 정위 방법이 불필요하기 때문이다. 여러 채널의 음상의 폭을 측정하는 실시 예로써 양 이 신호의 상호 상관도(interaural cross correlation)을 이용하여 측정방법이 한 예가 된다. 그러나 이는 매우 복잡한 연산을 필요로하므로 각 채널간의 상호상관도는 양 이 신호의 상호 상관도와 비례하다고 가정하면 TpC 채널 신호와 각 채널간의 상호상관도의 총 합을 이용하여 상대적으로 적은 연산량으로 음상의 폭을 추정할 수 있다.
TpC 채널신호를, 주변 채널 신호를 이라고 하면, TpC 채널 신호와 주변 채널 신호간의 상호 상관도의 총 합 C를 추정하는 방법은 수학식 4로 정의 될 수 있다.
TpC 채널 신호와 주변 채널 신호간의 상호 상관도의 총 합 C가 일정 임계값을 초과 또는 이상인 경우 음상의 폭이 기준보다 넓기 때문에 매트릭스 기반 다운믹서를 사용하고, 그렇지 않은 경우 음상의 폭이 기준보다 좁은 것이므로 보다 정교한 경로 기반 다운믹서를 이용한다.
반면 객체 신호의 경우 객체신호의 위치의 변화에 따라 다운믹스 방법을 선택할 수 있다. 객체신호의 위치정보는 입력 비트스트림을 파싱하여 얻을 수 있는 메타정보에 포함되어 있다. 객체신호의 위치의 변화량을 측정하는 실시 예로서 N개의 프레임동안 객체신호 위치의 통계적인 특성인 분산이나 표준편차를 이용할 수 있다. 측정된 객체신호 위치의 변화량이 일정 임계값 초과 혹은 이상인 경우 당 객체는 위치의 변화가 크므로 보다 정교한 경로 기반 다운믹스 방법을 선택한다. 반면 그렇지 않은 경우 해당 객체신호는 정적인 음원으로 간주되므로 앞에서 급한 사람의 정위 퍼짐에 의하여 적은 연산량임에도 효과적으로 다운믹스 할 수 는 매트릭스 기반 다운믹서를 선택한다.
(정적인 음원 다운믹서 / 매트릭스 기반 다운믹서)
여러 심리 음향적인 실험에 따르면 정중면(median plane)에서의 음상 정위는 수평면(horizontal plane)에서의 음상 정위와는 굉장히 다른 양상을 가진다. 이러한 음상 정위의 부정확도를 측정하는 수치로는 정위 퍼짐(localization blur)으로서 이는 특정 위치에서 음상의 위치가 구분이 가지 않는 범위를 각도로 나타낸 것이다. 앞에서 언급한 실험들에 따르면 음성신호의 경우 9도에서 17도에 해당하는 부정확도를 가진다. 그러나 수평면에서 음성신호의 경우 0.9도에서 1.5도를 갖는 것을 고려하면 정중면에서의 음상 정위는 매우 낮은 정확도를 가진다는 것을 알 수 있다.
높은 고도를 가지는 음상의 경우 사람이 인지할 수 있는 정확도가 낮기 때문에 정교한 정위 방법 보다는 매트릭스를 이용한 다운믹스가 효과적이다. 따라서 위치가 크게 변하지 않는 음상의 경우 대칭적으로 스피커가 분포 되어있는 Top채널들에 동등한 이득값을 분배함으로써 효과적으로 부재중인 TpC채널을 복수개의 채널로 업믹스 할 수 있다.
재생단의 채널 환경이 도 3의 구성에서 TpC채널을 제외하고 Top 레이어는 동일하다고 가정하면 Top 레이어에 분배되는 채널 이득 값은 동일한 값을 갖는다. 그러나 재생단에서 도 3과 같이 정형적인 채널 환경을 갖는 것이 어려운 것은 주지의 사실이다. 비정형한 채널 환경에서 앞에서 언급한 모든 채널에 일정 이득 값을 배분하는 것은 음상이 컨텐츠가 의도한 위치와 이루는 각도가 정위 퍼짐 수치보다 커질 수 있다. 이는 사용자로 하여금 잘못된 음상을 인지하게 한다. 이를 방지하기 위하여 비정형한 채널 환경의 경우 이를 보상해주는 과정이 필요하다. Top 레이어에 위치하는 채널의 경우 청자의 위치에서는 평면파로 도달한다고 가정할 수 있기 때문에 일정한 이득값을 설정하는 기존의 다운믹스 방법은 주변 채널을 이용하여 TpC 채널에서 발생하는 평면파를 재현한다고 설명할 수 있다. Top 레이어를 포함하는 평면상에서 스피커들의 위치를 꼭지점으로 하는 다각형의 무게중심이 TpC채널의 위치와 같은 것과 같다. 따라서 비정형적인 채널 환경의 경우 각 채널의 이득값은 이득값이 가중치로 부여된 각 채널의 Top 레이어를 포함하는 평면 상에서의 2차원 위치벡터들의 무게중심백터가 TpC채널 위치의 위치벡터와 같다는 수식으로 얻어질 수 있다.
그러나 이러한 수식적인 접근은 많은 연산량을 필요로 하며, 이후에 설명될 간략화된 방법에 비하여 성능 차이가 크지 않다. 간략화된 방법은 다음과 같다. 먼저 TpC 채널을 중심으로 N개의 영역을 등각도로 나눈다. 등각도로 나눈 영역에는 동일한 이득 값을 부여하고, 만일 영역 내에 2개 이상의 스피커가 위치할 경우 각 게인의 제곱의 합이 상기 언급된 이득 값과 같아지도록 설정한다. 이것의 실시 예로써 도 25와 같은 스피커 배치를 갖고, 4개의 영역을 TpC채널(2520)을 중심으로 90도의 등각도로 나누었을 때를 가정하자. 각 영역에는 크기가 같으면서 제곱의 합이 1이 되도록 하는 이득 값을 부여한다. 이 경우 4개의 영역이므로 각 영역의 이득 값은 0.5이다. 한 영역 상에 2개 이상의 스피커가 있는 경우 이 또한 제곱의 합이 영역의 이득 값과 같아지도록 이득 값을 설정한다. 따라서 오른쪽 하단 영역(2540)에 존재하는 2개의 스피커 출력의 이득 값은 0.3536이다. 마지막으로 탑 레이어를 포함하는 평면 밖에 위치하는 스피커(2530)의 경우 먼저 탑 레이어를 포함하는 평면에 프로젝션 시켰을 때의 이득 값을 먼저 구하고, 평면과 스피커의 거리 차이를 이득 값과 딜레이를 이용하여 보상한다.
도 26은 매트릭스 기반 다운믹서(2310)의 개념도이다. 먼저 파서(2610)를 이용하여 입력 비트열을 컨텐츠 제공자가 제공한 모드 비트와 채널신호 또는 객체신호를 분리한다. 모드 비트가 설정 되어있는 경우 스피커 결정부(2620)는 해당 스피커 그룹을 선택하고, 모드 비트가 설정되어 있지 않은 경우의 경우 현재 사용자가 사용하는 스피커 위치 정보를 이용하여 가장 최단 거리가 최소인 스피커 그룹을 선택한다. 게인 및 딜레이를 보상부(2630)에서 설정된 스피커 그룹과 실제 사용자의 스피커 배치 사이의 거리가 다른 것을 보상하기 위하여 각 스피커의 게인과 딜레이를 보상한다. 마지막으로 다운믹스 매트릭스 생성부(2640)에서 게인 및 딜레이 보상부(2630)에서 출력되는 게인 및 딜레이를 적용하여 파서에서 출력되는 채널 또는 객체신호를 다른 채널들로 다운믹스한다.
(동적인 음원 다운믹서 / 경로 기반 다운믹서)
도 27은 동적인 음원 다운믹서(2320)의 개념도이다. 먼저 파서(2710)는 입력 비트열을 파싱하여 TcP 채널 신호의 경우 복수의 채널 신호를, 객체 신호인 경우 메타정보를 경로 추정부(2720)에 전달한다. 경로 추정부(2720)에서는 복수의 채널 신호의 경우 채널간의 상관도를 추정하여 상관도가 높은 채널들의 변화를 경로로 추정한다. 반면 메타 정보의 경우 메타 정보의 변화를 경로로 추정한다. 스피커 선택부(2730)는 경로 추정부(2720)에서 추정한 경로를 이용하여 추정한 경로에서 일정 거리 이하의 스피커들을 선택한다. 이렇게 선택된 스피커들의 위치 정보는 다운믹서(2740)에 전해져 해당 스피커에 맞게 다운믹스 된다. 상기 다운믹스 방법의 한 예로써 벡터 기반 진폭 패닝 기법(Vector base amplitude panning, VBAP)가 한 예가 된다.
(Detent effect)
특정 경로를 따라 연속적으로 이동하는 음원의 경우 VBAP와 같은 진폭 패닝 방법을 이용하여 정위시키면 디텐트 효과(detent effect)가 발생한다. 디텐트 효과란 진폭 패닝 방법을 이용하여 스피커 사이에 음상을 정위시킬 때 이 음상이 정확한 위치에 맺히지 못하고 스피커 쪽으로 당겨지는 현상을 의미한다. 이러한 현상 때문에 음상이 스피커 사이에서 연속적으로 움직일 때 이것이 연속적으로 움직이는 것이 아니라 불연속적으로 음상이 이동하게 된다.
도 29는 디텐트 효과의 개념도이다. 의도된 음상(2910)이 시간에 따라 화살표 방향으로 이동한다면, 일반적인 진폭 패닝 방법을 이용하여 음상을 정위시키는 경우 정위된 음상(2920)처럼 이동하게 된다. 디텐트 효과에 의하여 스피커 방향으로 음상이 당겨져 크게 이동하지 않다가 음상의 방위각이 일정 임계 값을 초과하는 경우 도 29와 같이 이동하게 된다. 이러한 문제는 음상을 일정 시간동안 위치시키는 경우에는 단지 음상 정위 오차로 조금 다른 위치에 음상이 맺히고 이는 사용자로 하여금 큰 왜곡으로 느껴지지 않는다. 그러나 디텐트 효과에 의하여 음상이 연속적으로 이동해야되는 환경에서 갑자기 불연속적으로 이동하게 된다면 이는 사용자로 하여금 큰 왜곡으로 인지하게 된다.
이를 해결하기 위하여 연속적으로 이동하는 음원을 검출하고, 이에 따라 옳바른 보상을 해 줘야 한다. 가장 간단한 방법으로는 패닝게인에 가중 함수를 적용하여 덜 당겨지던 음원을 더 당겨지도록 하는 방법이 있다.
도 28은 가중함수의 일 예를 보여주는 단면이다.
도 28을 참조하여 설명하면 가중함수의 일 예로서 입력이 -1 에서 1로 변할 때 특정 시그모이드 함수의 출력을 보여준다. 값이 0에 가까워질수록 값의 변화량이 커지는 것을 확인할 수 있다. 따라서 음상이 스피커에 멀어지면 멀어질수록 패닝게인의 값의 변화가 켜지기 때문에 기존의 음상이 덜 당겨지는 것을 효과적으로 보상할 수 있다. 앞의 시그모이드 함수는 일 예이며, 이러한 함수는 값이 0 또는 음상 스피커 사이의 거리가 같은 지점에 다가오면 다가갈수록 값의 변화를 크게 만드는 모든 함수가 포함될 수 있다. 더불어 이러한 디텐트 효과는 사람마다 다른 정도를 가진다.
따라서 사람의 생리학적인 특징, 실시 예로서 머리의 크기, 몸의 크기, 키, 몸무게, 외이의 모양 등의 정보를 이용하여 상기 가중함수의 변화량 등을 모델링하여 적용할 수 있다.
도 31은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계를 보여주는 도면이다. 우선 도 31을 참조하면, 유무선 통신부(3110)는 유무선 통신 방식을 통해서 비트스트림을 수신한다. 구체적으로 유무선 통신부(3110)는 유선통신부(3110A), 적외선통신부(3110B), 블루투스부(3110C), 무선랜통신부(3110D) 중 하나 이상을 포함할 수 있다.
사용자 인증부는(3120)는 사용자 정보를 입력 받아서 사용자 인증을 수행하는 것으로서 지문인식부(3120A), 홍채인식부(3120B), 얼굴인식부(3120C), 및 음성인식부(3120D) 중 하나 이상을 포함할 수 있는데, 각각 지문, 홍채정보, 얼굴 윤곽 정보, 음성 정보를 입력받아서, 사용자 정보로 변환하고, 사용자 정보 및 기존 등록되어 있는 사용자 데이터와의 일치여부를 판단하여 사용자 인증을 수행할 수 있다.
입력부(3130)는 사용자가 여러 종류의 명령을 입력하기 위한 입력장치로서, 키패드부(3130A), 터치패드부(3130B), 리모컨부(3130C) 중 하나 이상을 포함할 수 있지만, 본 발명은 이에 한정되지 아니한다.
신호 코딩 유닛(3140)는 유무선 통신부(3110)를 통해 수신된 오디오 신호 및/또는 비디오 신호에 대해서 인코딩 또는 디코딩을 수행하고, 시간 도메인의 오디오 신호를 출력한다. 오디오 신호 처리 장치(3145)를 포함하는데, 이와 같이 오디오 신호 처리 장치(3145) 및 이를 포함한 신호 코딩 유닛은 하나 이상의 프로세서에 의해 구현될 수 있다.
제어부(3150)는 입력장치들로부터 입력 신호를 수신하고, 신호 디코딩부(3140)와 출력부(3160)의 모든 프로세스를 제어한다. 출력부(3160)는 신호 디코딩부(3140)에 의해 생성된 출력 신호 등이 출력되는 구성요소로서, 스피커부(3160A) 및 디스플레이부(3160B)를 포함할 수 있다. 출력 신호가 오디오 신호일 때 출력 신호는 스피커로 출력되고, 비디오 신호일 때 출력 신호는 디스플레이를 통해 출력된다.
본 발명에 따른 음상 정위를 위한 오디오 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CDROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 인코딩 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다.

Claims (4)

  1. 오디오 신호 처리 방법에 있어서,
    오디오의 객체 신호와 상기 오디오의 객체 위치 정보가 포함된 비트열을 수신하는 단계;
    상기 수신된 비트열을 이용하여 상기 객체 신호와 상기 객체 위치 정보를 복호화하는 단계;
    상기 객체 위치 정보에 대응되는 과거의 객체 위치 정보인 과거 객체 위치 정보를 저장매체에서 수신하는 단계;
    상기 수신된 과거 객체 위치 정보와 상기 복호화된 객체 위치 정보를 이용하여 객체 이동 경로를 생성하는 단계;
    상기 생성된 객체 이동 경로를 이용하여 시간에 따른 가변적 이득 값을 생성하는 단계;
    상기 생성된 가변적 이득 값 및 가중 함수를 이용하여 수정된 가변적 이득 값을 생성하는 단계; 및
    상기 수정된 가변적 이득 값을 이용하여 상기 복호화 된 객체 신호로부터 채널 신호를 생성하는 단계를 포함하는 음상 정위를 위한 오디오 신호 처리 방법.
  2. 제 1항에 있어서,
    상기 가중 함수는 사용자의 생리학적인 특징에 기초하여 변화하는 것을 특징으로 하는 음상 정위를 위한 오디오 신호 처리 방법.
  3. 제 2항에 있어서,
    상기 생리학적 특징은 화상 또는 영상을 이용하여 추출되는 것을 특징으로 하는 음상 정위를 위한 오디오 신호 처리 방법.
  4. 제 2항에 있어서,
    상기 생리학적 특징은 사용자의 머리, 몸통의 크기 및 외이(external ear)의 모양에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 음상 정위를 위한 오디오 신호 처리 방법.
PCT/KR2014/003576 2013-04-27 2014-04-24 음상 정위를 위한 오디오 신호 처리 방법 WO2014175669A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/787,065 US20160104491A1 (en) 2013-04-27 2014-04-24 Audio signal processing method for sound image localization

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0047056 2013-04-27
KR1020130047056A KR20140128564A (ko) 2013-04-27 2013-04-27 음상 정위를 위한 오디오 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2014175669A1 true WO2014175669A1 (ko) 2014-10-30

Family

ID=51792143

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/003576 WO2014175669A1 (ko) 2013-04-27 2014-04-24 음상 정위를 위한 오디오 신호 처리 방법

Country Status (3)

Country Link
US (1) US20160104491A1 (ko)
KR (1) KR20140128564A (ko)
WO (1) WO2014175669A1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017023423A1 (en) * 2015-07-31 2017-02-09 Apple Inc. Encoded audio metadata-based equalization
WO2017031016A1 (en) * 2015-08-14 2017-02-23 Dts, Inc. Bass management for object-based audio
CN107533845A (zh) * 2015-02-02 2018-01-02 弗劳恩霍夫应用研究促进协会 用于处理编码音频信号的装置和方法
CN107787584A (zh) * 2015-06-17 2018-03-09 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和装置
EP3291582A4 (en) * 2015-06-17 2018-05-09 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117037811A (zh) * 2013-09-12 2023-11-10 杜比国际公司 多声道音频内容的编码
EP3075173B1 (en) * 2013-11-28 2019-12-11 Dolby Laboratories Licensing Corporation Position-based gain adjustment of object-based audio and ring-based channel audio
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
US11128978B2 (en) * 2015-11-20 2021-09-21 Dolby Laboratories Licensing Corporation Rendering of immersive audio content
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
ES2834083T3 (es) 2016-11-08 2021-06-16 Fraunhofer Ges Forschung Aparato y método para la mezcla descendente o mezcla ascendente de una señal multicanal usando compensación de fase
KR102580502B1 (ko) * 2016-11-29 2023-09-21 삼성전자주식회사 전자장치 및 그 제어방법
JP2018101452A (ja) * 2016-12-20 2018-06-28 カシオ計算機株式会社 出力制御装置、コンテンツ記憶装置、出力制御方法、コンテンツ記憶方法、プログラム及びデータ構造
EP3819902A4 (en) * 2018-07-04 2021-11-10 Sony Group Corporation INFORMATION PROCESSING DEVICE AND METHOD AND PROGRAM
US10499181B1 (en) * 2018-07-27 2019-12-03 Sony Corporation Object audio reproduction using minimalistic moving speakers
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices
CN115039419A (zh) * 2020-02-10 2022-09-09 索尼集团公司 信息处理装置、信息处理方法、信息处理程序和信息处理系统
US11710491B2 (en) 2021-04-20 2023-07-25 Tencent America LLC Method and apparatus for space of interest of audio scene

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070006110A (ko) * 2005-07-07 2007-01-11 주식회사 하이닉스반도체 웨이퍼 레벨 공정을 이용한 플립칩 패키지 및 그 제조방법
KR20080093422A (ko) * 2006-02-09 2008-10-21 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치
KR20100066289A (ko) * 2008-12-08 2010-06-17 한국전자통신연구원 실감 멀티미디어 서비스 제공 방법 및 장치
KR20110111032A (ko) * 2010-04-02 2011-10-10 전자부품연구원 실감 객체 오디오 재생 및 생성 장치
US20120062700A1 (en) * 2010-06-30 2012-03-15 Darcy Antonellis Method and Apparatus for Generating 3D Audio Positioning Using Dynamically Optimized Audio 3D Space Perception Cues

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008069596A1 (en) * 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
EP2727381B1 (en) * 2011-07-01 2022-01-26 Dolby Laboratories Licensing Corporation Apparatus and method for rendering audio objects

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070006110A (ko) * 2005-07-07 2007-01-11 주식회사 하이닉스반도체 웨이퍼 레벨 공정을 이용한 플립칩 패키지 및 그 제조방법
KR20080093422A (ko) * 2006-02-09 2008-10-21 엘지전자 주식회사 오브젝트 기반 오디오 신호의 부호화 및 복호화 방법과 그장치
KR20100066289A (ko) * 2008-12-08 2010-06-17 한국전자통신연구원 실감 멀티미디어 서비스 제공 방법 및 장치
KR20110111032A (ko) * 2010-04-02 2011-10-10 전자부품연구원 실감 객체 오디오 재생 및 생성 장치
US20120062700A1 (en) * 2010-06-30 2012-03-15 Darcy Antonellis Method and Apparatus for Generating 3D Audio Positioning Using Dynamically Optimized Audio 3D Space Perception Cues

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107533845B (zh) * 2015-02-02 2020-12-22 弗劳恩霍夫应用研究促进协会 用于处理编码音频信号的装置和方法
US11004455B2 (en) 2015-02-02 2021-05-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an encoded audio signal
CN107533845A (zh) * 2015-02-02 2018-01-02 弗劳恩霍夫应用研究促进协会 用于处理编码音频信号的装置和方法
CN108028988B (zh) * 2015-06-17 2020-07-03 三星电子株式会社 处理低复杂度格式转换的内部声道的设备和方法
CN107787584B (zh) * 2015-06-17 2020-07-24 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和装置
EP3869825A1 (en) * 2015-06-17 2021-08-25 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
CN107787584A (zh) * 2015-06-17 2018-03-09 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和装置
EP3312834A4 (en) * 2015-06-17 2018-04-25 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
EP3291582A4 (en) * 2015-06-17 2018-05-09 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
CN108028988A (zh) * 2015-06-17 2018-05-11 三星电子株式会社 处理低复杂度格式转换的内部声道的设备和方法
US10607622B2 (en) 2015-06-17 2020-03-31 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
US10504528B2 (en) 2015-06-17 2019-12-10 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
WO2017023423A1 (en) * 2015-07-31 2017-02-09 Apple Inc. Encoded audio metadata-based equalization
KR102178231B1 (ko) 2015-07-31 2020-11-12 애플 인크. 인코딩된 오디오 메타데이터-기반 등화
CN107851449B (zh) * 2015-07-31 2020-04-17 苹果公司 基于编码音频元数据的均衡
KR102124547B1 (ko) 2015-07-31 2020-06-18 애플 인크. 인코딩된 오디오 메타데이터-기반 등화
KR20200074243A (ko) * 2015-07-31 2020-06-24 애플 인크. 인코딩된 오디오 메타데이터-기반 등화
US10699726B2 (en) 2015-07-31 2020-06-30 Apple Inc. Encoded audio metadata-based equalization
EP4290888A3 (en) * 2015-07-31 2024-02-21 Apple Inc. Encoded audio metadata-based equalization
US11501789B2 (en) 2015-07-31 2022-11-15 Apple Inc. Encoded audio metadata-based equalization
CN107851449A (zh) * 2015-07-31 2018-03-27 苹果公司 基于编码音频元数据的均衡
KR20180020295A (ko) * 2015-07-31 2018-02-27 애플 인크. 인코딩된 오디오 메타데이터-기반 등화
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
WO2017031016A1 (en) * 2015-08-14 2017-02-23 Dts, Inc. Bass management for object-based audio
US10425764B2 (en) 2015-08-14 2019-09-24 Dts, Inc. Bass management for object-based audio
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC

Also Published As

Publication number Publication date
KR20140128564A (ko) 2014-11-06
US20160104491A1 (en) 2016-04-14

Similar Documents

Publication Publication Date Title
WO2014175669A1 (ko) 음상 정위를 위한 오디오 신호 처리 방법
WO2014021588A1 (ko) 오디오 신호 처리 방법 및 장치
WO2018056780A1 (ko) 바이노럴 오디오 신호 처리 방법 및 장치
WO2015142073A1 (ko) 오디오 신호 처리 방법 및 장치
WO2014157975A1 (ko) 오디오 장치 및 이의 오디오 제공 방법
EP2038880B1 (en) Dynamic decoding of binaural audio signals
WO2015147533A2 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2015152663A2 (ko) 오디오 신호 처리 방법 및 장치
WO2015105393A1 (ko) 삼차원 오디오 재생 방법 및 장치
WO2015147435A1 (ko) 오디오 신호 처리 시스템 및 방법
WO2015147619A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2015156654A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2014175591A1 (ko) 오디오 신호처리 방법
KR102148217B1 (ko) 위치기반 오디오 신호처리 방법
WO2014021586A1 (ko) 오디오 신호 처리 방법 및 장치
WO2019035622A1 (ko) 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치
WO2015147434A1 (ko) 오디오 신호 처리 장치 및 방법
KR102059846B1 (ko) 오디오 신호 처리 방법 및 장치
KR101949756B1 (ko) 오디오 신호 처리 방법 및 장치
Floros et al. Spatial enhancement for immersive stereo audio applications
WO2015147433A1 (ko) 오디오 신호 처리 장치 및 방법
KR101950455B1 (ko) 오디오 신호 처리 방법 및 장치
WO2019147041A1 (ko) 바이노럴 스테레오 오디오 생성 방법 및 이를 위한 장치
GB2598751A (en) Spatial audio parameter encoding and associated decoding
KR20140016732A (ko) 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14787798

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14787065

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14787798

Country of ref document: EP

Kind code of ref document: A1