WO2014175591A1 - 오디오 신호처리 방법 - Google Patents

오디오 신호처리 방법 Download PDF

Info

Publication number
WO2014175591A1
WO2014175591A1 PCT/KR2014/003248 KR2014003248W WO2014175591A1 WO 2014175591 A1 WO2014175591 A1 WO 2014175591A1 KR 2014003248 W KR2014003248 W KR 2014003248W WO 2014175591 A1 WO2014175591 A1 WO 2014175591A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
downmix
signal
gain value
speaker
Prior art date
Application number
PCT/KR2014/003248
Other languages
English (en)
French (fr)
Inventor
오현오
이태규
송명석
송정욱
Original Assignee
인텔렉추얼디스커버리 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020130047055A external-priority patent/KR20140128182A/ko
Priority claimed from KR1020130047054A external-priority patent/KR102058619B1/ko
Application filed by 인텔렉추얼디스커버리 주식회사 filed Critical 인텔렉추얼디스커버리 주식회사
Priority to US14/787,137 priority Critical patent/US9905231B2/en
Publication of WO2014175591A1 publication Critical patent/WO2014175591A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Definitions

  • the present invention relates to an audio signal processing method, and more particularly, to a method for encoding and decoding an object audio signal or rendering in a three-dimensional space.
  • the present invention claims the benefits of the Korean Patent Application No. 10-2013-0047054 filed April 27, 2013 and the Korean Patent Application No. 10-2013-0047055 filed April 27, 2013, the contents of all Is included herein.
  • 3D audio is a series of signal processing to provide a realistic sound in three-dimensional space by providing another dimension in the height direction to the sound scene (2D) on the horizontal plane provided by conventional surround audio, Commonly referred to as transmission, encoding, and reproduction techniques.
  • transmission, encoding, and reproduction techniques Commonly referred to as transmission, encoding, and reproduction techniques.
  • a rendering technology that requires sound images to be formed at a virtual position where no speaker exists even if a larger number of speakers or a smaller number of speakers are used is widely required.
  • 3D audio is expected to be an audio solution for future Ultra High Definition Television (UHDTV) applications, including sound in vehicles evolving into a high quality infotainment space, as well as theater sound, personal 3DTV, tablets, smartphones, and It is expected to be applied to various applications such as cloud games.
  • Ultra High Definition Television UHDTV
  • 3D audio first needs to transmit signals of more channels than conventional ones up to 22.2 channels, which requires a suitable compression transmission technique.
  • rendering Such techniques are referred to herein as rendering, and specifically referred to as downmix, upmix, flexible rendering, binaural rendering, and the like.
  • an object-based signal transmission scheme is required as an alternative for effectively transmitting such a sound scene.
  • the user may arbitrarily control the playback size and position of the objects. To make it possible. Accordingly, there is a need for an effective transmission method capable of compressing an object signal at a high data rate.
  • exception channels may be difficult to reproduce in the conventional manner.
  • the existing rendering method cannot properly reproduce the sound field of the original content. Accordingly, there is a need for a technique of effectively positioning an object signal in the vicinity of an exception channel based on a speaker environment at a reproduction stage.
  • An audio signal processing method comprises the steps of: receiving a bit string including an object signal which is an exception channel signal and a general channel signal; Distributing an equal gain value to the normal channel signal; And outputting the exception channel signal as a plurality of channel signals using the gain value.
  • the exception channel to which the exception channel signal is output may be a channel located above the crown of the user.
  • the normal channel to which the normal channel signal is output may be located on the same plane as the exception channel.
  • An audio signal processing method comprises the steps of: receiving a bit string including an object signal and object position information; Receiving past object location information from a storage medium; Generating an object movement path using the object position information and the received past object position information; Selecting a speaker less than a certain distance from the moving path; Downmixing object position information in accordance with the selected speaker; And outputting an object signal by the selected speaker.
  • Downmixing object position information to the selected speaker may be based on a vector base amplitude panning technique (VBAP).
  • VBAP vector base amplitude panning technique
  • the speaker to which the object signal is output may be a speaker located in a plane above the crown of the user.
  • An audio signal processing method comprises the steps of: receiving a bit string including a normal channel signal and an exception channel signal; Decoding an exception channel signal and a normal channel signal from the received bit string; Generating correlation information using the decoded exception channel signal and the decoded general channel signal; Generating correlation information using the decoded general channel signal; Generating a gain value through at least one of a first downmix method applying the same downmix gain value using the correlation information and a second downmix method applying a variable gain value over time; And outputting the exception channel signal as a plurality of channel signals using the gain value.
  • the first downmix method may be characterized by applying the same downmix gain value to a plurality of channels.
  • the first downmix method may compensate for the gain value and the delay information by using the position information of the speaker.
  • the first downmix method may be characterized in that the same gain value is distributed in the equally divided space.
  • the second downmix method may estimate a moving path of a sound image based on the correlation information, and adjust the downmix gain value variably with time.
  • An audio signal processing method comprises the steps of: receiving a bit string including an object signal and object position information; Decoding the object signal and the object position information from the received bit string; Receiving past object location information from a storage medium; Generating an object movement path using the decoded object position information and the received past object position information; Selecting one of the first downmix method using the same gain value and the second downmix method applying the variable gain value over time using the object movement path; Generating a gain value using the selected downmix method; And generating a channel signal from the decoded object signal by using the generated gain value.
  • the first downmix method may be characterized by applying the same downmix gain value to a plurality of channels.
  • the second downmix method may be configured to variably adjust a channel gain value over time using the object signal movement path.
  • the second downmix method may be characterized in that the number of speakers is variably determined according to the selection of the system.
  • the absence of an exceptional position or a functioning channel can be effectively reproduced according to the characteristics of the sound source.
  • a typical example of such an exception channel is TpC, which is located directly above the head. This channel has a unique function of giving the effect of voice being heard directly above the head in the sky like the voice of God.
  • TpC has a special effect unlike other cases, so if this channel is absent, it should be able to play effectively using other channels.
  • the present invention has the effect that can be effectively compensated for even in the absence of such an exception channel.
  • the effects of the present invention are not limited to the above-described effects, and effects that are not mentioned will be clearly understood by those skilled in the art from the present specification and the accompanying drawings.
  • 1 is a view for explaining a viewing angle according to an image size at the same viewing distance.
  • 2 is a layout diagram of speaker arrangement of 22.2ch as an example of the multi-channel.
  • 3 is a conceptual diagram illustrating a process of downmixing an exception signal.
  • FIG. 5 is a conceptual diagram illustrating a simplified method in a matrix based downmixer.
  • FIG. 6 is a conceptual diagram of a matrix based downmixer.
  • FIG. 7 is a conceptual diagram of a path based downmixer.
  • FIG. 8 is a conceptual diagram of a virtual channel generator.
  • Coding can be interpreted as encoding or decoding in some cases, and information is a term that encompasses values, parameters, coefficients, elements, and so on. It may be interpreted otherwise, but the present invention is not limited thereto.
  • 1 is a view for explaining a viewing angle according to an image size (eg, UHDTV and HDTV) on the same viewing distance.
  • an image size eg, UHDTV and HDTV
  • the UHDTV (7680 * 4320 pixels) is about 16 times larger than the HDTV (1920 * 1080 pixels). If the HDTV is installed on the living room wall and the viewer is sitting on the living room couch with a certain viewing distance, the viewing angle may be about 30 degrees.
  • the viewing angle reaches about 100 degrees.
  • the presence of 12 surround channel speakers may not be enough.
  • a multichannel audio environment with more speakers and channel numbers may be required.
  • 2 is a diagram illustrating a speaker layout of 22.2ch as an example of a multi-channel.
  • 22.2 Channels may be an example of a multi-channel environment for enhancing the sound field, the present invention is not limited to a specific number of channels or a specific speaker arrangement.
  • 22.2ch may be located in three layers 210, 220, and 230.
  • the three layers 210, 220, and 230 are the top layer 210 of the three layers, the bottom layer 230 at the lowest position, the top layer 210 and the bottom layer ( A middle layer 220 between the layers 230.
  • a total of nine channels may be provided in the top layer 210.
  • the top layer 210 includes three (TpFL, TpFC, TpFR) from left to right on the front surface, three from left to right (TpL, TpC, and TpR) in the middle position, and from left to right in the surround position.
  • TpFL, TpFC, TpFR three from left to right
  • TpL, TpC, and TpR in the middle position
  • the front surface may mean the screen side.
  • a total of 10 channels (FL, FLC, FC, FRC, FR, L, R, BL, BC, BL) may be provided in the middle layer 220.
  • the middle layer 220 has five left to right (FL, FLC, FC, FRC, FR) in the front, two left to right in the middle position (L, R), and left in the surround position. From the right side, the speakers may be arranged in three channels BL, BC, and BL. Of the five speakers in the front, three of the center positions may be included in the TV screen.
  • a total of three channels (BtFL, BtFC, BtFR) and two LFE channels 240 may be provided on the bottom layer 230.
  • a speaker may be disposed in each channel of the bottom layer 230.
  • High throughput can be required to transmit and reproduce multi-channel signals up to dozens of channels beyond the 22.2 channels listed above.
  • a high compression ratio may be required when considering a communication environment.
  • Determining the direction information of the sound source between the two speakers based on the magnitude of the signal may be amplitude panning.
  • VBAP VectorBased Amplitude Panning
  • VBAP VectorBased Amplitude Panning
  • TpC the top of center
  • This channel is called the voice of God because the voice, the most dramatic situation that can be achieved by using this channel, can produce the effect of hearing from the sky.
  • the effects of using this channel can vary. Examples include falling objects just above your head, firecrackers running just above your head, or shouting at one person on the roof of a very tall building.
  • TpC according to an embodiment of the present invention may be a channel disposed above the crown of the listener.
  • TpC is also an essential channel in various scenes, such as the plane disappearing from the front over the viewer's head and back. In other words, TpC can give users a realistic sound field that many audio systems have not been able to provide in many dramatic situations.
  • TpC provides many effects as described above. However, TpC is an exception channel because it is difficult to install speakers in TpC or to generate sound from TpC.
  • TpC is an exception channel or there is no speaker at that location, compensating it in the same way as traditional flexible rendering is not effective and hard to expect big features. Therefore, there is a need for a method of effectively outputting an exception channel through another output channel.
  • Replaying multi-channel content through fewer output channels is typically implemented based on the MN downmix matrix, where M is the number of input channels and N is the number of output channels. That is, when 5.1 channel contents are reproduced in stereo, the 5.1 channel contents are downmixed by a given equation.
  • such a downmix implementation method generally takes a method of synthesizing by applying a downmix gain relative to speakers that are spatially close in distance.
  • the TpFC may be downmixed to the FC (or FRC, FLC) of the middle layer to be synthesized. That is, by generating a virtual TpFC using the speakers arranged in the FC, FRC and FLC, the sound corresponding to the position of the exception channel TpFC can be reproduced.
  • TpC is an exception channel
  • TpC is ambiguous to define the direction of the front, rear, left and right with respect to the listener, and thus it is difficult to determine the speaker position spatially close to the TpC among the speakers arranged in the channel of the middle layer 220.
  • TpC is an exception channel
  • TpC is ambiguous to define the direction of the front, rear, left and right with respect to the listener, and thus it is difficult to determine the speaker position spatially close to the TpC among the speakers arranged in the channel of the middle layer 220.
  • the sound source played by the TpC is really an object of "God's voice" and the object is played only in the TpC or the object is played around the TpC, it is preferable to downmix accordingly.
  • the sound source to be played is part of the object to be played in the entire top layer 210, or when the sound source to be played passes the TpBR through the TpC at the position of the TpFL, for example, when the plane passes through the sky. It is desirable to apply a specialized downmix method.
  • a rendering method of positioning the sound source in contrast to the above two situations, when a few limited number of speakers must be used depending on the position of the speaker, it is necessary to consider a rendering method of positioning the sound source at various angles. Elevation spectral cues exist for humans to perceive the height of sound sources.For example, due to the height of sound sources, the appearance characteristics of human pinna may be affected by the higher frequency bands and the shape of Nazis and peaks. Can be. Therefore, by artificially inserting a clue for recognizing the height of such a sound source, it is possible to effectively reproduce the effect of sound in the TpC.
  • the object signal when the object signal according to the embodiment of the present invention corresponds to VoG, the object signal may be a TpC signal.
  • the object signal according to the embodiment of the present invention may represent a VoG signal and a TpC signal.
  • FIG. 3 is a block diagram of an audio signal processing apparatus according to an embodiment of the present invention.
  • an audio signal processing apparatus includes a matrix-based downmixer 310, a path-based downmixer 320, a virtual channel generator 330, and a downmixer selector 340. do.
  • a matrix-based downmixer 310 includes a matrix-based downmixer 310, a path-based downmixer 320, a virtual channel generator 330, and a downmixer selector 340. do.
  • the components shown in FIG. 3 are not essential, an audio signal processing apparatus having more or fewer components may be implemented.
  • the downmixer selector 340 receives a bit string as an input and selects a signal processing method of an exception channel signal.
  • the downmixer selector 340 may receive object signals and object position information.
  • the bit string may include object signal and object position information.
  • the downmixer selector 340 selects a signal processing method of the exception channel signal when the object signal of the bit string corresponds to the exception channel signal.
  • the object signal according to the embodiment of the present invention may be a sound source.
  • the object signal according to an embodiment of the present invention may include a VoG signal or a TpC signal output from TpC, which is a signal output on the parietal of the receiver.
  • the downmix selector 340 may select a downmix method by analyzing a specific value of the bit string or the characteristic of the signal of the exceptional channel signal.
  • An example of an exception channel signal is a TpC signal output from a TpC present above the head of the listener.
  • the exception channel signal according to the embodiment of the present invention may be a signal output from the exception channel.
  • the exception channel signal according to an embodiment of the present invention may be a sound source heard in the exception channel.
  • the downmixer selector 340 uses the matrix-based downmixer 310 to select an exception channel signal when the exception channel signal is stopped above the head or the signal is ambiguous. Let downmix.
  • the channel signal may be analyzed to downmix the exceptional channel signal in the sound scene having mobility with a variable gain value.
  • a path-based downmixer 320 an apparatus for downmixing an exception channel signal in a mobility sound scene with a variable gain value.
  • a virtual channel generator 330 If you can't achieve the desired effect with only the speakers near the exception channel signal, you can use spectral cues to perceive the height of a specific N speaker's output signal.
  • the device operating based on this is called a virtual channel generator 330.
  • the downmixer selector 340 uses input bit string information or analyzes input channel signals to determine which downmix method to use. According to the selected downmix method, L, M or N output signals are determined as channel signals.
  • FIG. 4 is a flowchart illustrating a method of operating an audio signal processing apparatus according to an embodiment of the present invention.
  • the downmix selector 340 parses the input bit stream (S401).
  • the downmixer selector 340 may receive a bit string including an object signal and object position information.
  • the downmixer selector 340 may decode the received object signal and object position information.
  • the downmix selector 340 checks whether there is a mode set by the content provider based on the parsed bit string (S403).
  • the downmix is performed using the set parameter of the corresponding mode (S405).
  • the downmix selector 340 determines whether the speaker layout of the current user is atypical (S407). In this case, the downmix selector 340 may determine whether the speaker layout of the current user is at least a predetermined degree.
  • the downmix selector 340 selects the virtual channel generator 330.
  • the virtual channel generator 330 performs downmixing. If the speaker layout is atypical, as mentioned above, if downmixing is only done by adjusting the gain value of the channel near the exception channel, the content provider cannot reproduce the intended sound scene sufficiently. Only use a variety of clues to recognize the sound image.
  • the downmix selector 340 determines whether the object signal is a channel signal (S411).
  • the downmix selector 340 calculates a coherence between the object position and the adjacent channel based on the object position information (S413).
  • the downmix selector 340 analyzes meta information of the object signal (S415).
  • the downmix selector 340 determines whether the calculated coherence is high (S417). When the downmix selector 340 determines that the coherence is high and low, the downmix selector 340 may determine the preset setting value as a reference.
  • the downmix selector 340 selects the matrix-based downmixer 310 when the coherence is high (S419). At this time, the matrix-based downmixer 310 downmixes the object signal.
  • the downmix selector 340 selects the path-based downmixer 320 (S421). At this time, the path-based downmixer 320 downmixes the object signal.
  • the downmix selector 340 determines whether the object signal is mobile (S423).
  • the downmix selector 340 may determine whether there is mobility based on meta information of the object signal in determining whether the object signal is mobile.
  • the downmix selector 340 selects the path-based downmixer 320 (S421). At this time, the path-based downmixer 320 downmixes the object signal.
  • the downmix selector 340 selects the matrix-based downmixer 320 (S419). At this time, the matrix-based downmixer 320 downmixes the object signal.
  • the downmix selector 340 selects a method of downmixing based on the irregularity of the arrangement of the speaker of S407 described above.
  • the downmix selector 340 may analyze the sum of the distance vectors of the speaker of the upper layer and the position vector of the speaker of the upper layer at the play end.
  • Vi be the position vector of the i-th speaker of the upper layer of FIG. 2 and Vi 'be the position vector of the i-th speaker at the playback end. Also, if the weight is wi according to the positional importance of the speaker, the speaker position error Espk may be defined by Equation 1.
  • the downmix selector 340 selects the virtual channel generator 330.
  • the downmixer selector 340 selects the matrix-based downmixer 310 or the path-based downmixer 320.
  • the downmixing method may be selected according to the width of the estimated sound image size of the channel signal. This is because the localization blur of the person to be mentioned later is much larger than the median plane, so that a fine sound localization method is unnecessary when the parent source width is large.
  • a measurement method using an interaural cross correlation between two channel signals may be an example.
  • the downmixer selector 340 selects the matrix-based downmixer 310 because the width of the sound image is wider than the reference value when the total sum C of the cross correlations between the TpC channel signal and the peripheral channel signal exceeds or exceeds a predetermined threshold. Otherwise, since the width of the sound image is narrower than the reference, the more sophisticated path-based downmixer 320 is selected.
  • the downmixer selector 340 selects the virtual channel generator 330.
  • the downmixer selector 340 selects a matrix-based downmixer or a path-based downmixer when the speaker position error is equal to or less than a predetermined downmixer selector 340.
  • Both downmixers may select a downmix method according to a change in the position of the object signal.
  • the location information of the object signal is included in meta information obtained by parsing the input bitstream.
  • Meta information according to an embodiment of the present invention is expressed as azimuth, elevation, and distance or radius of the speaker configuration center.
  • a variance or standard deviation which is a statistical characteristic of the position of the object signal, may be used for N frames. If the measured change in the position of the object signal exceeds or exceeds a predetermined threshold, the corresponding object has a large change in position, and thus the downmixer selector 340 selects a more sophisticated path-based downmix method 320.
  • the downmixer selector 340 selects a matrix-based downmixer 310 that can be downmixed effectively even with a small amount of computation due to the positional spread of the aforementioned person. do.
  • FIG. 5 is a conceptual diagram illustrating a method of operating a matrix-based downmixer.
  • FIG. 6 is a conceptual diagram of a matrix based downmixer.
  • the phonetic position in the median plane is very different from that in the horizontal plane.
  • a measure of the inaccuracy of the phonetic position is a localization blur, which represents the range in which the position of the sound image is not distinguished from a specific position in degrees.
  • the voice signal has an inaccuracy corresponding to 9 degrees to 17 degrees.
  • the voice signal has 0.9 to 1.5 degrees in the horizontal plane, it can be seen that the sound localization in the midplane has very low accuracy. For high altitude sound images, the human-perceptible accuracy is low, so matrix downmixing is more effective than sophisticated positioning methods.
  • the sound is generated in the TpC based on the speaker disposed in the top layer 210 by distributing an equal gain value to the remaining channels. Is output.
  • TpC which is absent can be effectively upmixed into a plurality of channels by distributing an equal gain value to the top layer 210 channels in which the speakers are symmetrically distributed.
  • the channel gain values distributed to the top layer 210 have the same value.
  • the conventional downmix method of setting a constant gain value reproduces the plane wave generated in the TpC using the surrounding channel. can do.
  • the center of gravity of the polygon with the positions of the speakers as the vertex is equal to the position of the TpC. Therefore, in the case of the atypical channel environment, the gain value of each channel is that the center of gravity vector of the two-dimensional position vectors on the plane including the top layer 210 of each channel to which the gain value is weighted is equal to the position vector of the TpC position.
  • the matrix-based downmixer 310 divides the N regions into equidistant regions around the TpC.
  • the matrix-based downmixer 310 gives the same gain value to the area divided by the isometric angle. If two or more speakers are located in the area, the matrix-based downmixer 310 sets the sum of squares of each gain to be equal to the gain value mentioned above.
  • the speaker 510 located on the plane including the top layer 210, the TpC speaker 520, and the speaker 530 located outside the plane including the top layer 210.
  • the matrix-based downmixer 310 When the matrix-based downmixer 310 divides the four regions into 90 degree isometric angles around the TpC 520, the matrix-based downmixer 310 gives a gain value such that the sum of the squares is equal to 1 while the sizes are equal to each region. In this case, since there are four areas, the gain value of each area is 0.5. The matrix-based downmixer 310 sets the gain value such that if there are two or more speakers on one area, the sum of squares is equal to the gain value of the area. Therefore, the gain value of the two speaker outputs in the lower right region 540 is 0.3536.
  • the matrix-based downmixer 310 first obtains a gain value when the speaker 530 positioned outside the plane including the top layer is first projected onto the plane including the top layer, and calculates a difference between the distance between the plane and the speaker. Compensate using gain and delay.
  • the matrix based downmixer 310 distributes the same gain value to the general channel signal.
  • the matrix-based downmixer 310 outputs the exception channel signal as a plurality of channel signals using the gain value.
  • the exception channel signal may be a TpC located above the crown of the user.
  • the general channel through which the general channel signal is output may be disposed on the top layer 210.
  • the matrix based downmixer 310 distributes the same gain value to the general channel signal.
  • the matrix-based downmixer 310 outputs the exception channel signal as a plurality of channel signals using the gain value.
  • the exception channel signal may be a TpC located above the crown of the user.
  • the general channel through which the general channel signal is output may be disposed on the top layer 210.
  • the matrix-based downmixer 310 includes a parser 610, a speaker determiner 620, a gain and delay compensator 630, and a downmix matrix generator 640.
  • the components shown in FIG. 6 are not essential, so a matrix based downmixer with more or fewer components may be implemented.
  • the parser 610 separates the mode bits provided by the content provider from the bit stream and the channel signal or the object signal.
  • the speaker determiner 620 selects a corresponding speaker group.
  • the speaker determiner 620 selects a speaker group having the shortest shortest distance based on the speaker position information used by the current user.
  • the gain and delay compensator 630 compensates for gain and delay of each speaker to compensate for a difference in distance between the set speaker group and the actual speaker layout.
  • the downmix matrix generator 640 applies the gain and delay output from the gain and delay compensation unit 630 to downmix the channel signal or the object signal output from the parser to other channels.
  • FIG. 7 is a conceptual diagram of a path based downmixer.
  • the path based downmixer 320 receives the past object position information.
  • Past object location information may be stored in a storage medium (not shown).
  • the path based downmixer 320 selects a speaker of a predetermined distance or less from the object moving path.
  • the path based downmixer 320 downmixes object position information according to the selected speaker.
  • the path based downmixer 320 causes the selected speaker to output an object signal.
  • the path based downmixer 320 includes a parser 710, a path estimator 720, a speaker selector 730, and a downmixer 740.
  • a parser 710 includes a parser 710, a path estimator 720, a speaker selector 730, and a downmixer 740.
  • the components shown in FIG. 7 are not essential, so a path based downmixer with more or fewer components may be implemented.
  • the parser 710 parses the bit string and transmits the exception channel signal and the plurality of channel signals in the vicinity to the path estimator 720. It is also possible to separate the channel signal or the object signal from the bit string. The parser 710 may also separate a plurality of channel signals or meta information from the bit string.
  • the path estimator 720 receives a plurality of channel signals or meta information separated from the parser 710 as an input. In the case of the plurality of channel signals, the path estimator 720 estimates the correlation between the channels and estimates the change of the channels having high correlation as the path. In addition, the path estimator 720 may estimate a moving path of the object based on past object location information stored in a storage medium (not shown).
  • the speaker selector 730 selects speakers having a predetermined distance or less from the estimated path based on the path estimated by the path estimator 720.
  • the location information of the selected speakers is transmitted to the downmixer 740.
  • the downmixer 740 downmixes the channel signal or the object signal according to the selected speaker.
  • vector base amplitude panning VBAP
  • VBAP vector base amplitude panning
  • FIG. 8 is a conceptual diagram of a virtual channel generator.
  • the virtual channel generator 330 includes a parser 810, a parameter extractor 820, and a virtual channel based down mixer 830.
  • the components shown in FIG. 8 are not essential, so that the virtual channel generator 330 with more components or fewer components may be implemented.
  • the parser 810 parses the input bit string into an exception channel signal.
  • the parser 810 also separates the meta information and the channel signal or object signal from the bit stream.
  • the parser 810 transmits the meta information or the exception channel signal to the parameter extractor 820.
  • the parameter extractor 820 extracts a parameter using a generalized head transfer function or a provided personalized head transfer function embedded in the transferred exception channel signal.
  • the frequency and magnitude information of the Vietnamese or peak of a specific spectrum or the amount of a specific frequency may be a level difference and the amount may be a phase difference.
  • the virtual channel based downmixer 830 performs downmixing based on the passed parameters. Examples of such downmixes include filtering the head transfer function or complex panning, which performs panning by dividing into a specific band at the entire frequency.
  • the audio signal processing method according to the present invention can be stored in a computer-readable recording medium which is produced as a program for execution in a computer, and multimedia data having a data structure according to the present invention can also be stored in a computer-readable recording medium. Can be stored.
  • the computer readable recording medium includes all kinds of storage devices in which data that can be read by a computer system is stored.
  • Examples of computer-readable recording media include ROM, RAM, CDROM, magnetic tape, floppy disk, optical data storage, and the like, and may also be implemented in the form of a carrier wave (for example, transmission over the Internet).
  • the bitstream generated by the encoding method may be stored in a computer-readable recording medium or transmitted using a wired / wireless communication network.

Abstract

본 발명은 오디오 신호처리 방법으로써, 일반 채널 신호와 예외 채널 신호가 포함된 비트열을 수신하는 단계, 상기 수신된 비트열로부터 예외 채널 신호와 일반 채널 신호를 복호화하는 단계, 상기 복호화된 예외 채널 신호와 상기 복호화된 일반 채널 신호를 이용하여 상관 정보를 생성하는 단계, 상기 상관 정보를 이용하여 동일한 다운믹스 이득값을 적용하는 제 1 다운믹스 방법과 시간에 따른 가변적 이득값을 적용하는 제 2 다운믹스 방법 중 적어도 하나를 통해 이득값을 생성하는 단계, 상기 이득값을 이용하여 상기 예외 채널 신호를 복수개의 채널 신호로 출력하는 단계를 포함한다.

Description

오디오 신호처리 방법
본 발명은 오디오 신호 처리 방법(AUDIO SIGNAL PROCESSING METOD) 관한 것으로, 보다 상세하게는 객체 오디오 신호의 부호화 및 복호화하거나 3차원 공간에 렌더링하기 위한 방법에 관한 것이다.
본 발명은 2013년 4월 27일 출원된 한국특허출원 제10-2013-0047054호 및 2013년 4월 27일 출원된 한국특허출원 제10-2013-0047055호의 출원일의 이익을 주장하며, 그 내용 전부는 본 명세서에 포함된다.
3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면 상의 사운드 장면(2D)에 높이 방향으로 또 다른 축(dimension)을 제공함으로써, 말그대로 3차원 공간에서의 임장감있는 사운드를 제공하기 위한 일련의 신호처리, 전송, 부호화, 재생 기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 널리 요구된다.
3D 오디오는 향후 출시될 초고해상도 TV (UHDTV)에 대응되는 오디오 솔루션이 될 것으로 예상되며, 고품질 인포테인먼트 공간으로 진화하고 있는 차량에서의 사운드를 비롯하여 그밖에 극장 사운드, 개인용 3DTV, 테블릿, 스마트폰, 및 클라우드 게임 등 다양하게 응용될 것으로 예상된다.
3D 오디오는 우선 최대 22.2채널까지 종래보다 많은 채널의 신호를 전송하는 것이 필요한데, 이를 위해서는 이에 적합한 압축 전송 기술이 요구된다.
종래의 MP3, AAC, DTS, AC3 등의 고음질 부호화의 경우, 주로 5.1채널 미만의 채널만을 전송하는데 최적화되어 있었다.
또한 22.2채널 신호를 재생하기 위해서는 24개의 스피커 시스템을 설치한 청취공간에 대한 인프라가 필요한데, 시장에 단기간 확산이 용이하지 않으므로, 22.2채널 신호를 그보다 작은 수의 스피커를 가진 공간에서 효과적으로 재생하기 위한 기술, 반대로 기존 스테레오 혹은 5.1채널 음원을 그보다 많은 수의 스피커인 10.1채널, 22.2채널 환경에서 재생할 수 있도록 하는 기술, 나아가서, 규정된 스피커 위치와 규정된 청취실 환경이 아닌 곳에서도 원래의 음원이 제공하는 사운드 장면을 제공할 수 있도록 하는 기술, 그리고 헤드폰 청취환경에서도 3D 사운드를 즐길 수 있도록 하는 기술 등이 요구된다.
이와 같은 기술들을 본원에서는 통칭 렌더링(rendering)이라고 하고, 세부적으로는 각각 다운믹스, 업믹스, 유연한 렌더링(flexible rendering), 바이노럴 렌더링(binaural rendering) 등으로 부른다.
한편, 이와 같은 사운드 장면을 효과적으로 전송하기 위한 대안으로 객체 기반의 신호 전송 방안이 필요하다. 음원에 따라서 채널 기반으로 전송하는 것보다 객체 기반으로 전송하는 것이 더 유리한 경우가 있을 뿐 아니라, 객체 기반으로 전송하는 경우, 사용자가 임의로 객체들의 재생 크기와 위치를 제어할 수 있는 등 인터렉티브한 음원 청취를 가능하게 한다. 이에 따라 객체 신호를 높은 전송률로 압축할 수 있는 효과적인 전송 방법이 필요하다.
또한, 상기 채널 기반의 신호와 객체 기반의 신호가 혼합된 형태의 음원도 존재할 수 있으며, 이를 통해 새로운 형태의 청취 경험을 제공할 수도 있다. 따라서, 채널 신호와 객체 신호를 함께 효과적으로 전송하고, 이를 효과적으로 렌더링하기 위한 기술도 필요하다.
마지막으로 채널이 갖는 특수성과 재생단에서의 스피커 환경에 따라 기존의 방식으로는 재생하기 어려운 예외 채널들이 발생할 수 있다. 이 경우 재생단에서의 스피커 환경을 기반으로 효과적으로 예외 채널을 재현하는 기술이 필요하다. 또한 예외 채널 근방에 존재하는 객체 신호의 경우 기존의 렌더링 방법으로는 원 컨텐츠의 음장감을 제대로 재현 할 수 없다. 따라서 재생단에서의 스피커 환경을 기반으로 효과적으로 예외 채널 근방에 존재하는 객체신호를 정위시키는 기술이 필요하다.
본 발명의 실시예에 따른 오디오 신호처리 방법은 예외 채널 신호인 객체 신호와 일반 채널 신호가 포함된 비트열을 수신하는 단계; 상기 일반 채널 신호에 동일한 이득 값을 분배하는 단계; 상기 이득 값을 이용하여 상기 예외 채널 신호를 복수개의 채널 신호로 출력하는 단계를 포함한다.
상기 예외 채널 신호가 출력될 예외 채널은 사용자의 정수리 위쪽에 위치한 채널일 수 있다.
상기 일반 채널 신호가 출력될 일반 채널은 상기 예외 채널과 같은 평면상에 위치할 수 있다.
본 발명의 실시예에 따른 오디오 신호처리 방법은 객체 신호와 객체 위치 정보를 포함하는 비트열을 수신하는 단계; 과거 객체 위치 정보를 저장 매체에서 수신하는 단계; 상기 객체 위치 정보와 상기 수신된 과거 객체 위치 정보를 이용하여 객체 이동 경로를 생성하는 단계; 이동 경로로부터 일정 거리 이하의 스피커를 선택하는 단계; 선택된 스피커에 맞게 객체 위치 정보를 다운믹스 하는 단계; 및 상기 선택된 스피커가 객체 신호를 출력하는 단계를 포함한다.
상기 선택된 스피커에 맞게 객체 위치 정보를 다운믹스 하는 단계는 벡터 기반 진폭 패닝 기법(Vector base amplitude panning, VBAP)에 기초할 수 있다.
상기 객체 신호가 출력될 스피커는 사용자의 정수리 위쪽의 평면에 위치한 스피커일 수 있다.
본 발명의 실시예에 따른 오디오 신호처리 방법은 일반 채널 신호와 예외 채널 신호가 포함된 비트열을 수신하는 단계; 상기 수신된 비트열로부터 예외 채널 신호와 일반 채널 신호를 복호화하는 단계; 상기 복호화된 예외 채널 신호와 상기 복호화된 일반 채널 신호를 이용하여 상관 정보를 생성하는 단계; 상기 복호화된 일반 채널 신호를 이용하여 상관 정보를 생성하는 단계; 상기 상관 정보를 이용하여 동일한 다운믹스 이득값을 적용하는 제 1 다운믹스 방법과 시간에 따른 가변적 이득값을 적용하는 제 2 다운믹스 방법 중 적어도 하나를 통해 이득값을 생성하는 단계; 및 상기 이득값을 이용하여 상기 예외 채널 신호를 복수개의 채널 신호로 출력하는 단계를 포함한다.
상기 제 1 다운믹스 방법은 복수개의 채널에 동일한 다운믹스 이득값을 적용하는 것을 특징으로 할 수 있다.
상기 제 1 다운믹스 방법은 스피커의 위치 정보를 이용하여 이득값과 딜레이 정보를 보상하는 것을 특징으로 할 수 있다.
상기 제 1 다운믹스 방법은 균등하게 나눠진 공간에 동일한 이득값이 분배 하는 것을 특징으로 할 수 있다.
상기 제 2 다운믹스 방법은 상기 상관 정보를 기준으로 음상의 이동 경로를 추정하여 다운믹스 이득값을 시간에 따라 가변적으로 조절하는 것을 특징으로 할 수 있다.
본 발명의 실시예에 따른 오디오 신호처리 방법은 객체 신호와 객체 위치 정보를 포함하는 비트열을 수신하는 단계; 상기 수신된 비트열로부터 상기 객체 신호와 상기 객체 위치 정보를 복호화 하는 단계; 과거 객체 위치 정보를 저장 매체에서 수신하는 단계; 상기 복호화된 객체 위치 정보와 상기 수신된 과거 객체 위치 정보를 이용하여 객체 이동 경로를 생성하는 단계; 상기 객체 이동경로를 이용하여 동일한 이득값을 적용하는 제1 다운믹스 방법과 시간에 따른 가변적 이득값을 적용하는 제2 다운믹스 방법 중 하나의 다운믹스 방법을 선택하는 단계; 상기 선택된 다운믹스 방법을 이용하여 이득값을 생성하는 단계; 및 상기 생성된 이득값을 이용하여 상기 복호화된 객체 신호로부터 채널 신호를 생성하는 단계를 포함한다.
상기 제1 다운믹스 방법은 복수개의 채널에 동일한 다운믹스 이득값을 적용하는 것을 특징으로 할 수 있다.
상기 제2 다운믹스 방법은 상기 객체 신호 이동 경로를 이용하여 채널 이득값을 시간에 따라 가변적으로 조절하는 것을 특징으로 할 수 있다.
상기 제2 다운믹스 방법은 시스템의 선택에 따라 가변적으로 스피커의 수를 결정하는 것을 특징으로 할 수 있다.
본 발명에 의하면, 예외 위치 또는 예외 기능을 하는 채널이 부재할 경우 이를 음원의 특성에 따라서 효과적으로 재생할 수 있다. 이러한 예외 채널의 대표적인 예가 머리 바로 위에 존재하는 TpC로 이 채널은 신의 음성과 같이 하늘에서 머리 바로 위로 음성이 들리는 듯한 효과 등을 주는 독특한 기능을 하는 채널이다.
TpC의 경우 다른 경우와는 달리 특별한 효과를 주기 때문에 이 채널이 부재할 경우 효과적으로 다른 채널들을 이용하여 재생할 수 있어야 한다. 본 발명은 이러한 예외 채널이 부재한 경우에도 효과적으로 이를 보상할 수 있는 효과를 가진다. 본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
도 1은 동일한 시청 거리에서 영상 크기에 따른 시청 각도를 설명하기 위한 도면이다.
도 2는 멀티 채널의 일 예로서 22.2ch의 스피커 배치 구성도이다.
도 3은 예외 신호가 다운믹스되는 과정을 설명하기 위한 개념도이다.
도 4은 다운 믹서 선택부의 순서도이다.
도 5은 매트릭스 기반 다운믹서에서의 간략화된 방법을 설명하기 위한 개념도이다.
도 6은 매트릭스 기반 다운믹서의 개념도이다.
도 7는 경로 기반 다운믹서의 개념도이다.
도 8는 가상 채널 생성기의 개념도이다.
본 명세서에 기재된 실시예는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 사상을 명확히 설명하기 위한 것이므로, 본 발명이 본 명세서에 기재된 실시예에 의해 한정되는 것은 아니며, 본 발명의 범위는 본 발명의 사상을 벗어나지 아니하는 수정예 또는 변형예를 포함하는 것으로 해석되어야 한다. 본 명세서에서 사용되는 용어와 첨부된 도면은 본 발명을 용이하게 설명하기 위한 것이고, 도면에 도시된 형상은 필요에 따라 본 발명의 이해를 돕기 위하여 과장되어 표시된 것이므로, 본 발명이 본 명세서에서 사용되는 용어와 첨부된 도면에 의해 한정되는 것은 아니다. 본 명세서에서 본 발명에 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에 이에 관한 자세한 설명은 필요에 따라 생략한다. 본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보(information)는 값(values), 파라미터(parameter), 계수(coefficients), 성분(elements) 등을 모두 아우르는 용어로서, 경우에 따라 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.
이하에서는 본 발명의 실시예에 따른 객체 오디오 신호의 처리 방법 및 장치에 관하여 설명한다.
도 1은 동일한 시청 거리상에서 영상 크기(예: UHDTV 및 HDTV)에 따른 시청 각도를 설명하기 위한 도면이다.
디스플레이의 제작 기술이 발전되고, 소비자의 요구에 따라서 영상크기가 대형화 되어가는 추세이다. 도 1에 나타난 바와 같이 HDTV(1920*1080픽셀 영상, 120)인 경우보다 UHDTV(7680*4320픽셀 영상)는 약 16배가 커진 영상이다. HDTV가 거실 벽면에 설치되고 시청자가 일정 시청거리를 두고 거실 쇼파에 앉은 경우 약 시청 각도가 30도일 수 있다.
그런데 동일 시청 거리에서 UHDTV가 설치된 경우 시청 각도는 약 100도에 이르게 된다. 이와 같이 고화질 고해상도의 대형 스크린이 설치된 경우, 이 대형 컨텐츠에 걸맞게 높은 현장감과 임장감을 갖는 사운드가 제공되는 것이 바람직할 수 있다. 시청자가 마치 현장에 있는 것과 거의 동일한 환경을 제공하기 위해서는, 12개의 서라운드 채널 스피커가 존재하는 것만으로는 부족할 수 있다. 따라서, 보다 많은 스피커 및 채널 수를 갖는 멀티채널 오디오 환경이 요구될 수 있다.
위에 설명한 바와 같이 홈 시어터 환경 이외에도 개인 3DTV(personal 3D TV), 스마트폰 TV, 22.2채널 오디오 프로그램, 자동차, 3D video, 원격 현장감 룸(telepresence room), 클라우드 기반 게임(cloudbased gaming) 등에도 12개의 서라운드 채널 스피커 보다 많은 스피커 및 채널 수를 갖는 멀티채널 오디오 환경이 요구될 수 있다.
또한 이하에서 설명할 본 발명은 홈 시어터 환경 이외에도 개인 3DTV(personal 3D TV), 스마트폰 TV, 22.2채널 오디오 프로그램, 자동차, 3D video, 원격 현장감 룸(telepresence room), 클라우드 기반 게임(cloudbased gaming) 등에도 적용이 가능하다.
도 2는 멀티 채널의 일 예로서 22.2ch의 스피커 배치를 나타낸 도면이다.
22.2 채널(Channel, ch)는 음장감을 높이기 위한 멀티 채널 환경의 일 예일 수 있으며, 본 발명은 특정 채널 수 또는 특정 스피커 배치에 한정되지 아니한다. 도 2를 참조하면, 22.2ch은 세 개의 레이어(210, 220, 230)에 부산되어 배치된다. 세 개의 레이어(210, 220, 230)는 세 개의 레이어 중 가장 높은 위치의 탑 레이어(top layer, 210), 가장 낮은 위치의 바텀 레이어(bottom layer, 230), 탑 레이어(210)와 바텀 레이어(230) 사이의 미들 레이어(middle layer, 220)를 포함한다.
본 발명의 실시예에 따르면 탑 레이어(top layer, 210)에는 총 9개의 채널(TpFL, TpFC, TpFR, TpL, TpC, TpR, TpBL, TpBC, TpBR)이 제공될 수 있다. 도 2를 참조하면 탑 레이어(210)에는 전면에 좌측부터 우측으로 3개(TpFL, TpFC, TpFR), 중간 위치에 좌측부터 우측으로 3개(TpL, TpC, TpR), 서라운드 위치에 좌측부터 우측으로 3개(TpBL, TpBC, TpBR)의 채널에 총 9개의 채널에 스피커가 배치되어 있음을 알 수 있다. 본 명세서에서 전면이란 스크린 쪽을 의미할 수 도 있다.
본 발명의 실시예에 따르면 미들 레이어(middle layer, 220)에는 총 10개 채널(FL, FLC, FC, FRC, FR, L, R, BL, BC, BL)이 제공될 수 있다. 도 2를 참조하면 미들 레이어(220)에는 전면에 좌측부터 우측으로 5개(FL, FLC, FC, FRC, FR), 중간 위치에 좌측부터 우측으로 2개(L, R), 서라운드 위치에 좌측부터 우측으로 3개(BL, BC, BL)의 채널에 스피커가 배치될 수 있다. 전면의 5개 스피커 중에 중앙 위치의 3개는 TV 스크린의 내에 포함될 수도 있다.
본 발명의 실시예에 따르면 바텀 레이어(bottom layer, 230)에는 전면에 총 3개의 채널(BtFL, BtFC, BtFR) 및 2개의 LFE 채널(240)이 제공될 수 있다. 도 2를 참조하면 바텀 레이어(230)의 각 채널에는 스피커가 배치될 수 있다.
위에서 예를 든 22.2 채널을 넘어서 최대 수십 개 채널에 이르는 멀티 채널 신호를 전송하고 재생하는 데 있어서, 높은 연산량이 필요할 수 있다. 또한 통신 환경 등을 고려할 때 높은 압축률이 요구될 수 있다.
뿐만 아니라, 일반 가정에서는 멀티채널(예: 22.2ch) 스피커 환경을 구비하는 경우는 많지 않고 2ch 또는 5.1ch 셋업을 갖는 청취자가 많기 때문에, 모든 유저에게 공통적으로 전송되는 신호가 멀티채널을 각각 인코딩해서 보내지는 경우, 그 멀티채널을 2ch 및 5.1ch로 다시 변환하여 재생해야 하기 때문에 통신적인 비효율이 발생할 수 있다. 또한 22.2ch의 PCM 신호를 저장해야 하므로, 메모리 관리에 있어서의 비효율이 발생할 수 있다.
(유연한 렌더링 필요)
3D 오디오를 위해 필요한 기술 가운데 유연한 렌더링은 3D 오디오의 품질을 최상으로 끌어올리기 위해 해결해야할 중요한 과제 가운데 하나이다. 거실의 구조, 가구 배치에 따라 5.1 채널 스피커의 위치가 매우 비정형적인 것은 주지의 사실이다. 이와 같은 비정형적 위치에 스피커가 존재하더라도, 배치된 스피커는 컨텐츠 제작자가 의도한 사운드 장면을 제공할 수 있도록 하여야 한다. 그런데 이를 위해서는 사용자마다 제각각인 재생 환경에서의 스피커 환경을 알아야 하는 것과 함께, 규격에 따른 위치 대비 차이를 보정하기 위한 렌더링 기술이 필요하다. 즉, 전송된 비트열을 디코딩 방법에 따라 디코딩하는 것으로 코덱의 역할이 끝나는 것이 아니라, 이를 사용자의 재생 환경에 맞게 최적화 변형하는 과정에 대한 일련의 기술이 요구된다.
(플렉서블 렌더링)
신호의 크기를 기준으로 두 스피커 사이의 음원의 방향 정보를 결정하는 것은 진폭 패닝(Amplitude Panning)일 수 있다. 또한 3차원 공간상에서 3개의 스피커를 이용하여 음원의 방향을 결정하는데 널리 사용되는 VBAP (VectorBased Amplitude Panning)을 이용하면 객체별로 전송된 객체 신호에 대해서는 상대적으로 편리하게 플렉서블 렌더링을 구현할 수 있는 것을 알 수 있다. 이것이 VBAP에 기초한 채널 대신 객체 신호를 전송하는 것의 장점 중 하나이다.
(Voice of God)
멀티채널 오디오 시스템에서 청취자 머리위의 채널인 TpC(Top of center)은 흔히 ‘신의 음성(VoiceofGod)’ 이라고 불린다. 이 채널이 신의 음성이라고 불리는 이유는 이 채널을 사용함으로써 얻을 수 있는 가장 극적인 상황인 음성이 하늘에서 들리는 효과를 연출할 수 있기 때문이다. 이 밖에도 이 채널을 사용함으로써 얻을 수 있는 효과는 매우 다양하다. 머리 바로 위에서 물체가 떨어지는 상황이나, 머리 바로 위에서 폭죽놀이가 진행되는 상황, 매우 높은 빌딩의 옥상에서 한 사람이 소리치는 상황 등이 그 예가 될 수 있다. 본 발명의 실시예에 따른 TpC는 청취자의 정수리 위쪽에 배치된 채널일 수 있다.
또한 TpC는 비행기가 전방에서 시청자의 머리 위를 지나 후면으로 사라지는 장면처럼 다양한 씬(Scene)에서 매우 필수적인 채널이라고 할 수 있다. 즉, TpC는 사용함으로써 많은 극적인 상황들에서 기존의 오디오 시스템이 제공하지 못했던 현실감 있는 음장을 사용자에게 부여할 수 있다.
TpC는 위에서 설명한 것과 같이 많은 효과를 제공한다. 그러나 TpC는 TpC 에 스피커를 설치하거나, TpC에서 소리를 발생시키는 것이 어려워 예외 채널이 되기 쉽다.
TpC가 예외 채널에 해당하거나, 해당 위치에 스피커가 존재하지 않은 경우 기존의 유연한 렌더링과 같은 방식으로 이를 보상하는 것은 효과적이지 못하며 큰 기능을 기대하기 어렵다. 따라서 이러한 경우 다른 출력 채널을 통하여 예외 채널을 효과적으로 출력하는 방법이 필요하다.
멀티 채널 컨텐츠를 그보다 적은 수의 출력 채널을 통해 재생하는 것은 MN 다운믹스 매트릭스 (M은 입력채널 수, N은 출력 채널 수)에 기초하여 구현 하는 것이 일반적이다. 즉, 5.1 채널 컨텐츠를 스테레오로 재생할 때, 5.1 채널 컨텐츠를 주어진 수식에 의해 다운믹스(downmix) 하는 방식으로 구현된다. 그런데, 이와 같은 다운믹스 구현 방법은 일반적으로 공간적으로 거리가 가까운 스피커들에 상대적인 다운믹스 게인을 적용하여 합성하는 방법을 취한다.
예를 들어 탑 레이어(210)의 TpFC에 스피커가 배치되지 않은 경우, TpFC는 중간 레이어의 FC(혹은 FRC, FLC)로 다운믹스되어 합성될 수 있다. 즉, FC, FRC 및 FLC에 배치된 스피커를 이용하여 가상의 TpFC를 생성함으로써 예외 채널인 TpFC의 위치에 해당하는 소리를 재생할 수 있다.
그러나, TpC가 예외 채널인 경우, TpC는 청취자를 기준으로 전후좌우의 방향성을 규정하기 모호하여 미들 레이어(220)의 채널에 배치된 스피커들 중 TpC와 공간적으로 근접한 스피커 위치를 결정하기 어려운 문제점을 갖는다. 더불어 비정형적인 스피커 배열 환경에서 TpC로 할당된 신호를 다운믹스 렌더링 하는 경우, 유연한 렌더링 기술과 연관하여 다운믹스 매트릭스의 형태를 유연하게 변화시키는 것이 효과적인 경우도 있다.
이에 대한 해결 방안 중 하나로 TpC로 재생되는 음원이 정말로 “신의 목소리”에 해당하는 객체로써, TpC에서만 재생되는 객체이거나, TpC를 중심으로 재생되는 객체라면, 그에 맞게 다운믹스하는 것이 바람직하다.
그러나, 재생되는 음원이 탑 레이어(210) 전체에서 재생되는 객체의 일부이거나, 재생되는 음원이 TpFL의 위치에서 TpC를 통과하여 TpBR를 지나는 것 예를 들면 비행기가 하늘을 스쳐 지나가는 순간을 나타내는 경우에는 그에 특화된 다운믹스 방법을 적용하는 것이 바람직하다. 게다가 위 두 상황과는 다르게 스피커의 위치에 따라 소수의 제한된 숫자의 스피커들을 이용해야만 하는 경우, 다양한 각도에 음원을 위치시키는 렌더링 방법에 관한 고려가 필요하다. 사람이 음원의 높이를 인지하는 단서(elevation spectral cue)들이 존재하는데 한 예로써 음원의 높이에 따라 사람의 귓바퀴(pinna)의 외형적 특성에 영향으로 인해 이상의 고주파 대역에서와 나치와 피크의 형태가 될 수 있다. 따라서, 이러한 음원의 높이를 인지하는 단서를 인위적으로 삽입함으로써 TpC에서 사운드가 발생하는 효과를 효과적으로 재현할 수 있다.
본 발명의 실시예에 따른 객체 신호가 VoG에 해당하는 경우, 객체 신호는 TpC 신호일 수 있다.
본 발명의 실시예에 따른 객체 신호는 VoG 신호 및 TpC 신호를 나타낼 수도 있다.
이하에서는 본 발명의 실시예에 따른 오디오 신호 처리 장치 및 신호 처리 방법에 대하여 각 도면을 참조하여 설명한다.
도 3은 본 발명의 실시예 따른 오디오 신호 처리 장치의 블록도이다.
도 3을 참조하면, 본 발명의 실시예에 따른 오디오 신호 처리 장치는 매트릭스 기반 다운믹서(310), 경로 기반 다운믹서(320), 가상 채널 생성기(330) 및 다운믹서 선택부(340)를 포함한다. 그러나 도 3 에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 오디오 신호 처리 장치가 구현될 수도 있다
다운믹서 선택부(340)는 비트열을 입력으로 받아, 예외 채널 신호의 신호 처리 방법을 선택한다. 본 발명의 실시예에 따른 다운믹서 선택부(340)는 객체 신호 및 객체 위치 정보를 받을 수도 있다. 비트열은 객체 신호 및 객체 위치 정보를 포함할 수도 있다. 다운믹서 선택부(340)는 비트열의 객체 신호가 예외 채널 신호에 해당하는 경우, 예외 채널 신호의 신호 처리 방법을 선택한다. 본 발명의 실시예에 따른 객체 신호는 음원일 수 있다.
또한 본 발명의 실시예에 따른 객체 신호는 수신자의 정수리 위에서 출력되는 신호인 VoG 신호 또는 TpC에서 출력되는 TpC 신호를 포함할 수도 있다.
다운믹서 선택부(340)는 예외 채널 신호의 비트열의 특정 값 또는 신호의 특징을 분석하여 다운믹스 방법을 선택할 수도 있다. 예외 채널 신호의 실시 예로써 청취자의 머리 위쪽에 존재하는 TpC에서 출력되는 TpC 신호를 들 수 있다. 본 발명의 실시예에 따른 예외 채널 신호는 예외 채널에서 출력되는 신호일 수도 있다. 또한 본 발명의 실시예에 따른 예외 채널 신호는 예외 채널에서 들리는 음원일 수도 있다.
예외 채널 신호가 머리 위쪽에 정지되어 있거나 방향성이 모호한 앰비언트(ambient)한 신호의 경우 다수의 채널에 동일한 다운믹스 게인을 적용하는 것이 타당하다. 본 발명의 실시예에 따른 다운믹서 선택부(340)는 예외 채널 신호가 머리 위쪽에 정지되어 있거나 방향성이 모호한 앰비언트(ambient)한 신호의 경우 매트릭스 기반 다운믹서(310)를 사용하여 예외 채널 신호를 다운믹스 하게 한다.
이동성을 가지는 사운드 장면에서의 예외 채널 신호를 매트릭스 기반 다운믹서(310)를 사용하여 다운믹스 할 경우, 컨텐츠 제공자가 의도한 동적인 사운드 장면이 보다 정적해진다. 본 발명의 실시예에 따른 다운믹서 선택부(340)이를 방지하기 위하여 채널 신호들을 분석하여 이동성을 가지는 사운드 장면에서의 예외 채널 신호를 가변적인 이득 값을 가지게 다운믹스 할 수 있다. 본 명세서에서는 이동성을 가지는 사운드 장면에서의 예외 채널 신호를 가변적인 이득 값을 가지게 다운믹스하는 장치를 경로 기반 다운믹서(320)이라고 부른다.
예외 채널 신호를 근방의 스피커만으로 원하는 효과를 충분히 얻을 수 없는 경우 특정 N개의 스피커의 출력 신호에 사람이 높이를 지각하는 스펙트럴 단서들을 사용할 수 있다. 이것에 기초하여 동작하는 기기를 가상 채널 생성기(330)이라고 한다.
다운믹서 선택부(340)는 입력 비트열 정보를 이용하거나 입력 채널 신호들을 분석하여 어떤 다운믹스 방법을 사용할 지 결정한다. 이렇게 선택된 다운믹스 방법에 따라 L, M 또는 N개의 출력신호가 채널 신호로 결정되게 된다.
(다운믹스 선택부)
도 4은 본 발명의 실시예 따른 오디오 신호 처리 장치의 동작방법에 대한 흐름도이다
먼저 다운믹서 선택부(340)가 입력 비트열을 파싱한다(S401). 이때 다운믹서 선택부(340)는 객체 신호와 객체 위치 정보를 포함하는 비트열을 수신할 수도 있다. 또한 다운믹서 선택부(340)는 입력 받은 객체 신호 및 객체 위치 정보를 복호화 할 수도 있다.
다운믹서 선택부(340)가 파싱된 비트열에 기초하여 컨텐츠 제공자가 설정한 모드가 있는지를 체크한다(S403).
컨텐츠 제공자가 설정된 모드가 있는 경우, 해당 모드의 설정된 파라미터를 이용하여 다운믹스를 수행한다(S405).
컨텐츠 제공자가 설정한 모드가 없는 경우, 다운믹스 선택부(340)는 현재 사용자의 스피커 배치가 비정형인지 여부를 판단한다(S407). 이 때 다운믹스 선택부(340)는 현재 사용자의 스피커 배치가 기정해진 정도 이상의 비정형인지 여부를 판단할 수도 있다.
스피커 배치가 비정형인 경우, 다운믹스 선택부(340)는 가상 채널 생성기(330)를 선택한다. 가상 채널 생성기(330)가 선택되면, 가상 채널 생성기(330)는 다운믹스를 수행한다. 스피커 배치가 비정형인 경우, 앞에서 언급하였듯이 예외 채널 근방의 채널의 이득 값을 조절하는 것 만으로 다운믹스를 할 경우에는 컨텐츠 제공자가 의도한 사운드 장면을 충분히 재생할 수 없기 때문에 이를 극복하기 위해서는 사람이 높은 고도의 음상을 인지하는 여러 가지 단서들을 이용하여만 한다.
스피커 배치가 비정형이지 않은 경우, 다운믹스 선택부(340)는 객체 신호가 채널 신호인지를 판단한다(S411).
객체 신호가 채널 신호인 경우, 다운믹스 선택부(340)는 객체 위치 정보에 기초한 객체 위치와 인접한 채널 간의 코히어런스를 계산한다(S413).
만일 객체 신호가 채널 신호가 아닌 경우, 다운믹스 선택부(340)는 객체 신호의 메타 정보를 분석한다(S415).
상기 S413 이후 다운믹스 선택부(340)는 계산된 코히어런스가 높은지를 판단한다(S417). 다운믹스 선택부(340)가 코히어런스의 높고 낮음을 판단함에 있어서, 기 설정된 설정치를 기준으로 판단할 수도 있다.
다운믹스 선택부(340)는 코히어런스가 높은 경우, 매트릭스 기반 다운믹서(310)를 선택한다(S419). 이 때 매트릭스 기반 다운믹서(310)는 객체 신호를 다운믹스 한다.
다운믹스 선택부(340)는 코히어런스가 높지 않은 경우, 경로 기반 다운믹서(320)를 선택한다(S421). 이 때 경로 기반 다운믹서(320)는 객체 신호를 다운믹스 한다.
상기 S415 이후 다운믹스 선택부(340)는 객체 신호의 이동성 여부를 판단한다(S423). 본 발명의 실시예에 따른 다운믹스 선택부(340)는 객체 신호의 이동성 여부를 판단함에 있어서, 객체 신호의 메타 정보에 기초하여 이동성이 있는 지를 판단할 수 있다.
다운믹스 선택부(340)는 객체 신호가 이동성이 있는 경우, 경로 기반 다운믹서(320)를 선택한다(S421). 이 때 경로 기반 다운믹서(320)는 객체 신호를 다운믹스 한다.
다운믹스 선택부(340)는 객체 신호가 이동성이 있지 않은 경우, 메트릭스 기반 다운믹서(320)를 선택한다(S419). 이 때 매트릭스 기반 다운믹서(320)는 객체 신호를 다운믹스 한다.
다음은 다운믹스 선택부(340)가 위에서 설명한 S407의 스피커의 배치의 비정형여부에 기초하여 다운믹서하는 방법을 선택하는 것을 설명하겠다.
도2를 참조하면. 다운믹스 선택부(340)는 상위 레이어의 스피커들의 위치 벡터들과 재생단에서의 상위 레이어 스피커 위치 벡터들의 거리합으로 분석할 수 있다.
도2의 상위 레이어의 i번째 스피커의 위치 벡터를 Vi, 재생단에서의 i번째 스피커의 위치 벡터를 Vi' 라고 하자. 또한 스피커의 위치적 중요도에 따라 가중치를 wi라고 하면 스피커 위치 에러 Espk 는 수학식 1으로 정의될 수 있다.
수학식 1
Figure PCTKR2014003248-appb-M000001
사용자의 스피커 배치가 매우 비 정형적인 경우 스피커 위치 에러 Espk는 큰 값을 갖게 된다. 따라서 스피커 위치 에러 Espk가 일정 임계값을 이상 또는 초과하는 경우 다운믹스 선택부(340)는 가상 채널 생성기(330)를 선택한다.
다음은 S409 내지 S421에 대하여 상세히 설명하겠다.
스피커 위치 에러가 일정 임계값보다 미만 또는 이하인 경우 다운믹서 선택부(340)는 매트릭스 기반 다운믹서(310) 또는 경로 기반 다운믹서(320)를 선택한다.
다운믹스 하려는 음원 또는 객체 신호가 채널 신호인 경우 채널 신호의 추정된 음상 크기의 폭에 따라 다운믹스 방법이 선택 될 수 있다. 이는 뒤에서 언급할 사람의 정위 퍼짐(localization blur)이 정중면에 비하여 굉장히 크기 때문에, 음상의 폭(apparent source width)이 넓을 경우 정교한 음상 정위 방법이 불필요하기 때문이다. 여러 채널의 음상의 폭을 측정하는 실시 예로써 양 채널 신호의 상호 상관도(interaural cross correlation)을 이용하는 측정방법이 한 예가 될 수 있다.
그러나 이는 매우 복잡한 연산을 필요로 하므로 각 채널간의 상호 상관도는 양 채널 신호의 상호 상관도와 비례 하다고 가정하면, TpC 신호와 각 채널간의 상호 상관도의 총 합을 이용하여 상대적으로 적은 연산량으로 음상의 폭을 추정할 수 있다.
다운믹서 선택부(340)는 TpC 채널 신호와 주변 채널 신호간의 상호 상관도의 총 합 C가 일정 임계값을 초과 또는 이상인 경우 음상의 폭이 기준보다 넓기 때문에 매트릭스 기반 다운믹서(310)를 선택하고, 그렇지 않은 경우 음상의 폭이 기준보다 좁은 것이므로 보다 정교한 경로 기반 다운믹서(320)를 선택한다.
사용자의 스피커 배치가 매우 비 정형적인 경우 스피커 위치 에러Espk는 큰 값을 갖게 된다. 따라서 스피커 위치 에러가 일정 임계값을 이상 또는 초과하는 경우 다운믹서 선택부(340)는 가상 채널 생성기(330)를 선택한다.
다운믹서 선택부(340)는 스피커 위치 에러가 일정 다운믹서 선택부(340)는 이하인 경우 매트릭스 기반 다운믹서 또는 경로 기반 다운믹서를 선택하게 된다.
두 다운믹서는 객체신호의 위치의 변화에 따라 다운믹스 방법이 선택될 수 있다. 객체 신호의 위치 정보는 입력 비트스트림을 파싱하여 얻을 수 있는 메타정보에 포함되어 있다. 본 발명의 실시예에 따른 메타정보는 방위각(Azimuth), 고도(Elevation)와 스피커 구성 중심과의 거리 혹은 반지름(Radius)으로 표현된다. 객체신호의 위치의 변화량을 측정하는 실시 예로서 N개의 프레임동안 객체신호 위치의 통계적인 특성인 분산이나 표준편차를 이용할 수 있다. 측정된 객체신호 위치의 변화량이 일정 임계값 초과 혹은 이상인 경우 해당 객체는 위치의 변화가 크므로 다운믹서 선택부(340)는 보다 정교한 경로 기반 다운믹스 방법(320)을 선택한다. 반면 그렇지 않은 경우 해당 객체신호는 정적인 음원으로 간주되므로 다운믹서 선택부(340)는 앞에서 언급한 사람의 정위 퍼짐에 의하여 적은 연산량임 에도 효과적으로 다운믹스 할 수 있는 매트릭스 기반 다운믹서(310)를 선택한다.
(정적인 음원 다운믹서 / 매트릭스 기반 다운믹서)
다음은 도 5 및 도 6을 참조하여 본 발명의 실시예에 따른 매트릭스 기반 다운믹서에 대하여 설명한다.
도 5은 매트릭스 기반 다운믹서의 동작 방법을 설명하기 위한 개념도이다.
도 6은 매트릭스 기반 다운믹서의 개념도이다.
여러 심리 음향적인 실험에 따르면 정중면(median plane)에서의 음상 정위는 수평면(horizontal plane)에서의 음상 정위와는 굉장히 다른 양상을 가진다. 이러한 음상 정위의 부정확도를 측정하는 수치로는 정위 퍼짐(localization blur)으로서 이는 특정 위치에서 음상의 위치가 구분이 가지 않는 범위를 각도로 나타낸 것이다. 앞에서 언급한 실험들에 따르면 음성신호의 경우 9도에서 17도에 해당하는 부정확도를 가진다. 그러나 수평면에서 음성신호의 경우 0.9도에서 1.5도를 갖는 것을 고려하면 정중면에서의 음상 정위는 매우 낮은 정확도를 가진다는 것을 알 수 있다. 높은 고도를 가지는 음상의 경우 사람이 인지할 수 있는 정확도가 낮기 때문에 정교한 정위 방법 보다는 매트릭스를 이용한 다운믹스가 효과적이다.
본 발명의 실시예에 따르면 탑 레이어(210)의 채널 중 TpC 채널에 스피커가 부재중인 경우, 나머지 채널에 동등한 이득값을 분배함으로써, 탑 레이어(210)에 배치된 스피커에 기초하여 TpC에서 소리가 출력된다.
위치가 크게 변하지 않는 음상의 경우 대칭적으로 스피커가 분포 되어있는 탑 레이어(210) 채널들에 동등한 이득값을 분배함으로써 효과적으로 부재중인 TpC를 복수개의 채널로 업믹스 할 수 있다.
재생단의 채널 환경이 도 2의 구성에서 TpC를 제외하고 탑 레이어(210)의 채널은 동일하다고 가정하면, 탑 레이어(210)에 분배되는 채널 이득값은 동일한 값을 갖는다. 그러나 재생단에서 도2와 같이 정형적인 채널 환경을 갖는 것이 어려운 것은 주지의 사실이다. 비정형한 채널 환경에서 앞에서 언급한 모든 채널에 일정 이득값을 배분하는 것은 음상이 컨텐츠가 의도한 위치와 이루는 각도가 정위 퍼짐 수치보다 커질 수 있다. 이는 사용자로 하여금 잘못된 음상을 인지하게 한다. 이를 방지하기 위하여 비정형한 채널 환경의 경우 이를 보상해주는 과정이 필요하다.
탑 레이어(210)에 위치하는 채널의 경우 청자의 위치에서는 평면파로 도달한다고 가정할 수 있기 때문에 일정한 이득값을 설정하는 기존의 다운믹스 방법은 주변 채널을 이용하여 TpC에서 발생하는 평면파를 재현한다고 설명할 수 있다. 탑 레이어(210)를 포함하는 평면상에서 스피커들의 위치를 꼭지점으로 하는 다각형의 무게중심이 TpC의 위치와 같은 것과 같다. 따라서 비정형적인 채널 환경의 경우 각 채널의 이득값은 이득값이 가중치로 부여된 각 채널의 탑 레이어(210)를 포함하는 평면 상에서의 2차원 위치벡터들의 무게중심백터가 TpC 위치의 위치벡터와 같다는 수식으로 얻어질 수 있다.
그러나 이러한 수식적인 접근은 많은 연산량을 필요로 하며, 이후에 설명될 간략화된 방법에 비하여 성능 차이가 크지 않다.
간략화된 방법을 도 5를 참조하여 설명한다.
먼저 매트릭스 기반 다운믹서(310)는 TpC를 중심으로 N개의 영역을 등각도로 나눈다. 매트릭스 기반 다운믹서(310)는 등각도로 나눈 영역에 동일한 이득값을 부여한다. 만일 영역 내에 2개 이상의 스피커가 위치할 경우 매트릭스 기반 다운믹서(310)는 각 게인의 제곱의 합이 상기 언급된 이득값과 같아지도록 설정한다.
이것의 실시 예로써 도 5와 같이 탑 레이어(210)를 포함하는 평면 상에 위치하는 스피커(510), TpC 스피커(520), 탑 레이어(210)를 포함하는 평면 밖에 위치하는 스피커(530)으로 구성되는 스피커 배치를 갖는다고 가정한다.
매트릭스 기반 다운믹서(310)는 4개의 영역을 TpC(520)을 중심으로 90도의 등각도로 나누었을 때 각 영역에 크기가 같으면서 제곱의 합이 1이 되도록 하는 이득값을 부여한다. 이 경우 4개의 영역이므로 각 영역의 이득값은 0.5이다. 매트릭스 기반 다운믹서(310)는 한 영역 상에 2개 이상의 스피커가 있는 경우 이 또한 제곱의 합이 영역의 이득값과 같아지도록 이득값을 설정한다. 따라서 오른쪽 하단 영역(540)에 존재하는 2개의 스피커 출력의 이득값은 0.3536이다. 매트릭스 기반 다운믹서(310)는 마지막으로 탑 레이어를 포함하는 평면 밖에 위치하는 스피커(530)의 경우 먼저 탑 레이어를 포함하는 평면에 프로젝션 시켰을 때의 이득값을 먼저 구하고, 평면과 스피커의 거리 차이를 이득값과 딜레이를 이용하여 보상한다.
본 발명의 실시예에 따른 매트릭스 기반 다운믹서(310)는 일반 채널 신호에 동일한 이득값을 분배한다. 매트릭스 기반 다운믹서(310)는 이득 값을 이용하여 예외 채널 신호를 복수개의 채널 신호로 출력한다. 예외 채널 신호는 사용자의 정수리 위쪽에 위치한 TpC 일 수 있다. 또한 일반 채널 신호가 출력되는 일반채널은 탑 레이어(210)에 배치될 수 있다.
다음은 도 6을 참조하여 매트릭스 기반 다운믹서(310)를 설명한다.
본 발명의 실시예에 따른 매트릭스 기반 다운믹서(310)는 일반 채널 신호에 동일한 이득값을 분배한다. 매트릭스 기반 다운믹서(310)는 이득 값을 이용하여 예외 채널 신호를 복수개의 채널 신호로 출력한다. 예외 채널 신호는 사용자의 정수리 위쪽에 위치한 TpC 일 수 있다. 또한 일반 채널 신호가 출력되는 일반채널은 탑 레이어(210)에 배치될 수 있다.
본 발명의 실시예에 따른 매트릭스 기반 다운믹서(310)는 파서(610), 스피커 결정부(620), 게인 및 딜레이 보상부(630) 및 다운믹스 매트릭스 생성부(640)을 포함한다. 그러나 도 6 에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 매트릭스 기반 다운믹서가 구현될 수도 있다
파서(610)는 비트열에서 컨텐츠 제공자가 제공한 모드 비트와 채널 신호 또는 객체 신호를 분리한다.
모드 비트가 설정 되어있는 경우 스피커 결정부(620)는 해당 스피커 그룹을 선택한다. 스피커 결정부(620)는 모드 비트가 설정되어 있지 않은 경우의 경우 현재 사용자가 사용하는 스피커 위치 정보에 기초하여 가장 최단 거리가 최소인 스피커 그룹을 선택한다.
게인 및 딜레이를 보상부(630)는 설정된 스피커 그룹과 실제 사용자의 스피커 배치 사이의 거리가 다른 것을 보상하기 위하여 각 스피커의 게인과 딜레이를 보상한다.
다운믹스 매트릭스 생성부(640)에서 게인 및 딜레이 보상부(630)에서 출력되는 게인 및 딜레이를 적용하여 파서에서 출력되는 채널 신호 또는 객체 신호를 다른 채널들로 다운믹스한다.
다음은 도 7을 참조하여 경로 기반 다운믹서(320)를 설명한다.
도 7는 경로 기반 다운믹서의 개념도이다.
(동적인 음원 다운믹서 / 경로 기반 다운믹서)
본 발명의 실시예에 따른 경로 기반 다운믹서(320)는 과거 객체 위치 정보를 수신한다. 과거 객체 위치 정보는 저장 매체(미도시)에 저장될 수 있다. 경로 기반 다운믹서(320)는 객체 이동 경로로부터 일정 거리 이하의 스피커를 선택한다. 경로 기반 다운믹서(320)는 선택된 스피커에 맞게 객체 위치 정보를 다운믹스한다. 경로 기반 다운믹서(320)는 선택된 스피커가 객체 신호를 출력하게 한다.
본 발명의 실시예에 따른 경로 기반 다운믹서(320)는 파서(710), 경로 추정부(720), 스피커 선택부(730) 및 다운믹서(740)를 포함한다. 그러나 도 7 에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 경로 기반 다운믹서가 구현될 수도 있다
파서(710)는 비트열을 파싱하여 예외 채널 신호와 근방의 복수의 채널 신호를 경로 추정부(720)에 전달한다. 또한 비트열로부터 채널 신호 또는 객체 신호를 분리할 수도 있다. 또한 파서(710)는 비트열로부터 복수의 채널 신호 또는 메타 정보를 분리할 수도 있다.
경로 추정부(720)는 파서(710)로부터 분리된 복수의 채널 신호 또는 메타 정보를 입력으로 받는다. 경로 추정부(720)는 복수의 채널 신호의 경우, 채널간의 상관도를 추정하여 상관도가 높은 채널들의 변화를 경로로 추정한다. 또한 경로 추정부(720)는 저장 매체(미도시)에 저장된 과거 객체 위치 정보에 기초하여 객체의 이동 경로를 추정할 수도 있다.
스피커 선택부(730)는 경로 추정부(720)에서 추정된 경로에 기초하여 추정된 경로에서 일정 거리 이하의 스피커들을 선택한다.
이렇게 선택된 스피커들의 위치정보는 다운믹서(740)에 전해진다. 다운믹서(740)는 선택된 스피커에 맞게 채널 신호 또는 객체 신호를 다운믹스 한다. 상기 다운믹스 방법의 한 예로써 벡터 기반 진폭 패닝 기법(Vector base amplitude panning, VBAP)가 한 예가 된다.
다음은 도 8을 참조하여 가상 채널 생성기를 설명한다.
(가상 채널 생성기)
도 8는 가상 채널 생성기의 개념도이다.
본 발명의 실시예에 따른 가상 채널 생성기(330)는 파서(810), 파라미터 추출부(820) 및 가상 채널 기반 다운믹서(830)을 포함한다. 그러나 도 8에 도시된 구성요소들이 필수적인 것은 아니어서, 그보다 많은 구성요소들을 갖거나 그보다 적은 구성요소들을 갖는 가상 채널 생성기(330)가 구현될 수도 있다
파서(810)는 입력 비트열을 예외 채널 신호로 파싱한다. 또한 파서(810)는 비트열에서 메타 정보 및 채널 신호 또는 객체 신호를 분리한다. 또한 파서(810)는 메타 정보 또는 예외 채널 신호를 파라미터 추출부(820)로 전달한다.
파라미터 추출부(820)는 전달된 예외 채널 신호 내장되어 있는 일반화 된 머리 전달 함수 혹은 제공된 개인화 된 머리 전달 함수를 이용하여 파라미터를 추출한다.
파라미터의 실시예로써 특정 스펙트럼의 나치나 피크의 주파수 및 크기 정보 또는 특정 주파수의 양이 레벨차, 양이 위상차가 될 수 있다.
가상 채널 기반 다운믹서(830)는 전달 된 파라미터를 바탕으로 다운믹스를 수행한다. 이러한 다운믹스의 실시예로 머리 전달 함수를 필터링 하는 것 또는 전체 주파수에서 특정 대역으로 나누어 패닝을 수행하는 콤플렉스 패닝 등이 있다.
본 발명에 따른 오디오 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다.
상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CDROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 인코딩 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.

Claims (16)

  1. 오디오 신호처리 방법으로써,
    예외 채널 신호인 객체 신호와 일반 채널 신호가 포함된 비트열을 수신하는 단계;
    상기 일반 채널 신호에 동일한 이득 값을 분배하는 단계;
    상기 이득 값을 이용하여 상기 예외 채널 신호를 복수개의 채널 신호로 출력하는 단계를 포함하는 오디오 신호처리 방법.
  2. 제1항에 있어서,
    상기 예외 채널 신호가 출력될 예외 채널은 사용자의 정수리 위쪽에 위치한 채널인 오디오 신호처리 방법.
  3. 제2항에 있어서,
    상기 일반 채널 신호가 출력될 일반 채널은 상기 예외 채널과 같은 평면상에 위치하는 채널인 오디오 신호처리 방법.
  4. 오디오 신호처리 방법으로써,
    객체 신호와 객체 위치 정보를 포함하는 비트열을 수신하는 단계;
    과거 객체 위치 정보를 저장 매체에서 수신하는 단계;
    상기 객체 위치 정보와 상기 수신된 과거 객체 위치 정보를 이용하여 객체 이동 경로를 생성하는 단계;
    객체 이동 경로로부터 일정 거리 이하의 스피커를 선택하는 단계;
    선택된 스피커에 맞게 객체 위치 정보를 다운믹스 하는 단계; 및
    상기 선택된 스피커가 객체 신호를 출력하는 단계를 포함하는 오디오 신호처리 방법.
  5. 제4항에 있어서,
    상기 선택된 스피커에 맞게 객체 위치 정보를 다운믹스 하는 단계는
    벡터 기반 진폭 패닝 기법(Vector base amplitude panning, VBAP)에 기초하는 오디오 신호처리 방법.
  6. 제4항에 있어서,
    상기 객체 신호가 출력될 스피커는 사용자의 정수리 위쪽의 평면에 위치한 스피커인 오디오 신호처리 방법.
  7. 오디오 신호처리 방법으로써,
    일반 채널 신호와 예외 채널 신호가 포함된 비트열을 수신하는 단계;
    상기 수신된 비트열로부터 예외 채널 신호와 일반 채널 신호를 복호화하는 단계;
    상기 복호화된 예외 채널 신호와 상기 복호화된 일반 채널 신호를 이용하여 상관 정보를 생성하는 단계;
    상기 복호화된 일반 채널 신호를 이용하여 상관 정보를 생성하는 단계;
    상기 상관 정보를 이용하여 동일한 다운믹스 이득값을 적용하는 제 1 다운믹스 방법과 시간에 따른 가변적 이득값을 적용하는 제 2 다운믹스 방법 중 적어도 하나를 통해 이득값을 생성하는 단계; 및
    상기 이득값을 이용하여 상기 예외 채널 신호를 복수개의 채널 신호로 출력하는 단계를 포함하는 오디오 신호처리 방법.
  8. 제7항에 있어서.
    상기 제 1 다운믹스 방법은 복수개의 채널에 동일한 다운믹스 이득값을 적용 하는 것을 특징으로 하는 오디오 신호처리 방법.
  9. 제8항에 있어서,
    상기 제 1 다운믹스 방법은 스피커의 위치 정보를 이용하여 이득값과 딜레이 정보를 보상하는 것을 특징으로 하는 오디오 신호처리 방법;
  10. 제8항에 있어서,
    상기 제 1 다운믹스 방법은 균등하게 나눠진 공간에 동일한 이득값이 분배 하는 것을 특징으로 하는 오디오 신호처리 방법.
  11. 제 7항에 있어서.
    상기 제 2 다운믹스 방법은 상기 상관 정보를 기준으로 음상의 이동 경로를 추정하여 다운믹스 이득값을 시간에 따라 가변적으로 조절하는 것을 특징으로 하는 오디오 신호처리 방법.
  12. 오디오 신호처리 방법으로써,
    객체 신호와 객체 위치 정보를 포함하는 비트열을 수신하는 단계;
    상기 수신된 비트열로부터 상기 객체 신호와 상기 객체 위치 정보를 복호화 하는 단계;
    과거 객체 위치 정보를 저장 매체에서 수신하는 단계;
    상기 복호화된 객체 위치 정보와 상기 수신된 과거 객체 위치 정보를 이용하여 객체 이동 경로를 생성하는 단계;
    상기 객체 이동경로를 이용하여 동일한 이득값을 적용하는 제1 다운믹스 방법과 시간에 따른 가변적 이득값을 적용하는 제2 다운믹스 방법 중 하나의 다운믹스 방법을 선택하는 단계;
    상기 선택된 다운믹스 방법을 이용하여 이득값을 생성하는 단계; 및
    상기 생성된 이득값을 이용하여 상기 복호화된 객체 신호로부터 채널 신호를 생성하는 단계를 포함하는 오디오 신호처리 방법.
  13. 제12항에 있어서.
    상기 제1 다운믹스 방법은 복수개의 채널에 동일한 다운믹스 이득값을 적용하는 것을 특징으로 하는 오디오 신호처리 방법.
  14. 제13항에 있어서,
    상기 제1 다운믹스 방법은 스피커의 위치 정보를 이용하여 이득값과 딜레이 정보를 보상하는 것을 특징으로 하는 오디오 신호처리 방법.
  15. 제12항에 있어서.
    상기 제2 다운믹스 방법은 상기 객체 신호 이동 경로를 이용하여 채널 이득값을 시간에 따라 가변적으로 조절하는 것을 특징으로 하는 오디오 신호처리 방법.
  16. 제15항에 있어서,
    상기 제2 다운믹스 방법은 시스템의 선택에 따라 가변적으로 스피커의 수를 결정하는 것을 특징으로 하는 오디오 신호처리 방법.
PCT/KR2014/003248 2013-04-27 2014-04-15 오디오 신호처리 방법 WO2014175591A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/787,137 US9905231B2 (en) 2013-04-27 2014-04-15 Audio signal processing method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2013-0047055 2013-04-27
KR1020130047055A KR20140128182A (ko) 2013-04-27 2013-04-27 예외 채널 근방의 객체 신호의 렌더링 방법
KR1020130047054A KR102058619B1 (ko) 2013-04-27 2013-04-27 예외 채널 신호의 렌더링 방법
KR10-2013-0047054 2013-04-27

Publications (1)

Publication Number Publication Date
WO2014175591A1 true WO2014175591A1 (ko) 2014-10-30

Family

ID=51792099

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/003248 WO2014175591A1 (ko) 2013-04-27 2014-04-15 오디오 신호처리 방법

Country Status (2)

Country Link
US (1) US9905231B2 (ko)
WO (1) WO2014175591A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3657823A1 (en) * 2013-11-28 2020-05-27 Dolby Laboratories Licensing Corporation Position-based gain adjustment of object-based audio and ring-based channel audio
WO2016004258A1 (en) * 2014-07-03 2016-01-07 Gopro, Inc. Automatic generation of video and directional audio from spherical content
WO2017192972A1 (en) 2016-05-06 2017-11-09 Dts, Inc. Immersive audio reproduction systems
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
JP7102024B2 (ja) * 2018-04-10 2022-07-19 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理装置
WO2020031453A1 (ja) * 2018-08-10 2020-02-13 ソニー株式会社 情報処理装置及び情報処理方法、並びに映像音声出力システム
CN109599104B (zh) * 2018-11-20 2022-04-01 北京小米智能科技有限公司 多波束选取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040037437A (ko) * 2002-10-28 2004-05-07 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
KR20070005330A (ko) * 2005-07-06 2007-01-10 에스케이 텔레콤주식회사 착신링 시간 표시 방법과 이를 위한 이동통신 단말
KR20090053958A (ko) * 2006-10-16 2009-05-28 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 멀티 채널 파라미터 변환 장치 및 방법
KR20090057131A (ko) * 2006-10-16 2009-06-03 돌비 스웨덴 에이비 멀티채널 다운믹스된 객체 코딩의 개선된 코딩 및 파라미터 표현
KR20100086002A (ko) * 2008-01-01 2010-07-29 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
US9338572B2 (en) * 2011-11-10 2016-05-10 Etienne Corteel Method for practical implementation of sound field reproduction based on surface integrals in three dimensions
US10178489B2 (en) * 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040037437A (ko) * 2002-10-28 2004-05-07 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
KR20070005330A (ko) * 2005-07-06 2007-01-10 에스케이 텔레콤주식회사 착신링 시간 표시 방법과 이를 위한 이동통신 단말
KR20090053958A (ko) * 2006-10-16 2009-05-28 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 멀티 채널 파라미터 변환 장치 및 방법
KR20090057131A (ko) * 2006-10-16 2009-06-03 돌비 스웨덴 에이비 멀티채널 다운믹스된 객체 코딩의 개선된 코딩 및 파라미터 표현
KR20100086002A (ko) * 2008-01-01 2010-07-29 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
US20160111096A1 (en) 2016-04-21
US9905231B2 (en) 2018-02-27

Similar Documents

Publication Publication Date Title
WO2014175591A1 (ko) 오디오 신호처리 방법
WO2014175669A1 (ko) 음상 정위를 위한 오디오 신호 처리 방법
US10674262B2 (en) Merging audio signals with spatial metadata
WO2014021588A1 (ko) 오디오 신호 처리 방법 및 장치
WO2015147435A1 (ko) 오디오 신호 처리 시스템 및 방법
WO2018056780A1 (ko) 바이노럴 오디오 신호 처리 방법 및 장치
WO2014088328A1 (ko) 오디오 제공 장치 및 오디오 제공 방법
US9094771B2 (en) Method and system for upmixing audio to generate 3D audio
US11785408B2 (en) Determination of targeted spatial audio parameters and associated spatial audio playback
WO2014171706A1 (ko) 가상 객체 생성을 이용한 오디오 신호 처리 방법
WO2015105393A1 (ko) 삼차원 오디오 재생 방법 및 장치
WO2015156654A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2015147533A2 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2019004524A1 (ko) 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치
BR122020001361B1 (pt) Sistema para processar sinais de áudio, sistema para processar sinais de áudio, e método para renderizar sinais de áudio
WO2015037905A1 (ko) 입체음향 조절기를 내포한 멀티 뷰어 영상 및 3d 입체음향 플레이어 시스템 및 그 방법
WO2014175668A1 (ko) 오디오 신호 처리 방법
WO2017209477A1 (ko) 오디오 신호 처리 방법 및 장치
WO2017126895A1 (ko) 오디오 신호 처리 장치 및 처리 방법
US20170289724A1 (en) Rendering audio objects in a reproduction environment that includes surround and/or height speakers
WO2015152661A1 (ko) 오디오 오브젝트를 렌더링하는 방법 및 장치
KR102580502B1 (ko) 전자장치 및 그 제어방법
WO2019049409A1 (ja) 音声信号処理装置および音声信号処理システム
JP2018110366A (ja) 3dサウンド映像音響機器
WO2016190460A1 (ko) 입체 음향 재생 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14788100

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14787137

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14788100

Country of ref document: EP

Kind code of ref document: A1