WO2015111949A1 - 보컬 하모닉 코딩을 위한 인코딩 장치, 디코딩 장치 및 그 방법 - Google Patents

보컬 하모닉 코딩을 위한 인코딩 장치, 디코딩 장치 및 그 방법 Download PDF

Info

Publication number
WO2015111949A1
WO2015111949A1 PCT/KR2015/000713 KR2015000713W WO2015111949A1 WO 2015111949 A1 WO2015111949 A1 WO 2015111949A1 KR 2015000713 W KR2015000713 W KR 2015000713W WO 2015111949 A1 WO2015111949 A1 WO 2015111949A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
harmonic
vocal
object signal
information
Prior art date
Application number
PCT/KR2015/000713
Other languages
English (en)
French (fr)
Inventor
박지훈
Original Assignee
재단법인 다차원 스마트 아이티 융합시스템 연구단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인 다차원 스마트 아이티 융합시스템 연구단 filed Critical 재단법인 다차원 스마트 아이티 융합시스템 연구단
Publication of WO2015111949A1 publication Critical patent/WO2015111949A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/38Chord
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/245Ensemble, i.e. adding one or more voices, also instrumental voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/305Source positioning in a soundscape, e.g. instrument positioning on a virtual soundstage, stereo panning or related delay or reverberation changes; Changing the stereo width of a musical source

Definitions

  • Various embodiments described herein relate to an encoding apparatus, a decoding apparatus, and a method for vocal harmonic coding, and more particularly, to effectively remove vocal harmonic components according to conventional spatial audio object coding (SAOC) decoding.
  • SAOC spatial audio object coding
  • the present invention relates to an encoding device, a decoding device, and a method thereof.
  • SAOC spatial audio object coding
  • S-TSC SAOC two-step coding
  • International Publication No. 2010-143907 discloses a method and encoding apparatus for encoding a multi-object audio signal, a decoding method and a decoding apparatus, and a transcoding method and a transcoder.
  • the multi-object audio signal encoding apparatus discloses a method of encoding object signals except for foreground object signals among a plurality of input object signals and encoding foreground object signals to provide a satisfactory sound quality to a listener. do.
  • an encoding apparatus a decoding apparatus, and a method for vocal harmonic coding are provided.
  • an encoding apparatus and method for generating harmonic information from a vocal signal for removing harmonic components of a vocal generated when a background signal is reproduced according to a spatial audio object coding (SAOC) technique are provided.
  • a decoding apparatus and method for effectively removing vocal harmonic components remaining in a background signal using harmonic information are provided.
  • the encoding apparatus weights a plurality of input object signals including a vocal object signal and an instrument object signal to generate a downmix signal, and normalizes subband power of the plurality of input object signals to generate a spatial parameter.
  • a spatial audio object coding (SAOC) parameter generator configured to generate harmonic information from the vocal object signal to remove harmonic components generated when the instrument object signal is reproduced from the downmix signal using the spatial parameter.
  • SAOC spatial audio object coding
  • the harmonic information may include a pitch of a voiced sound signal included in the vocal object signal, a maximum harmonic frequency of the voiced sound signal, and a spectral harmonic size of the voiced sound signal.
  • the harmonic information generation unit generates pitch information of the voiced sound signal included in the vocal object signal, generates harmonic maximum frequency information of the voiced sound signal using the pitch information, and uses the pitch information and the maximum frequency information. To generate the spectral harmonic magnitude of the voiced signal.
  • the harmonic information generator is configured to calculate the spectral harmonic size of the voiced sound signal included in the vocal object signal using a quantization table calculated based on an average value of the subband power of the vocal object signal and the subband power of the vocal object signal. Can be quantized
  • An object signal reproducing unit reproducing the vocal object signal and the instrument object signal from the downmix signal using spatial parameters
  • the decoding apparatus the reproduced vocal object signal and harmonic information? And a harmonic filtering unit for removing harmonic components from the reproduced instrument object signal using information generated by an encoding apparatus to remove harmonic components generated when reproducing an instrument object signal from the downmix signal.
  • the decoding apparatus may further include a rendering unit configured to generate a spatial audio object coding (SAOC) demodulation output using the reproduced vocal object signal and the reproduced instrument object signal.
  • SAOC spatial audio object coding
  • the harmonic information may include a pitch of a voiced sound signal included in the vocal object signal, a maximum harmonic frequency of the voiced sound signal, and a spectral harmonic size of the voiced sound signal.
  • the decoding apparatus may further include a smoothing filtering unit to flatten the instrument object signal from which the harmonic component is removed.
  • the encoding method by weighting a plurality of input object signals including a vocal object signal and the instrument object signal to generate a downmix signal, and normalizing the sub-band power of the plurality of input object signals to generate a spatial parameter Doing; And generating harmonic information from the vocal object signal to remove the harmonic component generated when reproducing the instrument object signal in the downmix signal using the spatial parameter.
  • the harmonic information may include a pitch of a voiced sound signal included in the vocal object signal, a maximum harmonic frequency of the voiced sound signal, and a spectral harmonic size of the voiced sound signal.
  • the generating of the harmonic information may include generating pitch information of the voiced sound signal included in the vocal object signal; Generating harmonic maximum frequency information of the voiced sound signal using the pitch information; And generating the spectral harmonic magnitude of the voiced signal using the pitch information and the harmonic maximum frequency information.
  • the encoding method comprises a spectrum of the voiced sound signal included in the vocal object signal using a quantization table calculated based on an average value of the subband power of the vocal object signal and the subband power of the vocal object signal. Quantizing the harmonic size may be further included.
  • the decoding method comprises: reproducing a vocal object signal and an instrument object signal from a downmix signal using spatial parameters; And the reproduced vocal object signal and harmonic information? Removing the harmonic component from the reproduced instrument object signal using information generated by the encoding apparatus to remove the harmonic component generated when reproducing the instrument object signal in the downmix signal.
  • the decoding method may further include generating a spatial audio object coding (SAOC) demodulation output using the reproduced vocal object signal and the reproduced instrument object signal.
  • SAOC spatial audio object coding
  • the harmonic information may include a pitch of a voiced sound signal included in the vocal object signal, a maximum harmonic frequency of the voiced sound signal, and a spectral harmonic size of the voiced sound signal.
  • the decoding method may further include planarizing the instrument object signal from which the harmonic component is removed.
  • the harmonic information of the vocal signal for removing the harmonic component of the vocal generated when the background signal is reproduced according to the spatial audio object coding (SAOC) technique may be generated.
  • the harmonic information may be used to effectively remove vocal harmonic components remaining in the background signal.
  • 1 is a diagram illustrating a SAOC encoder and a decoder.
  • FIG. 2 is a block diagram illustrating an encoding apparatus and a decoding apparatus for vocal harmonic coding.
  • 3 is a graph showing harmonic information.
  • FIG. 4 is a flowchart illustrating a pitch extraction method, according to an exemplary embodiment.
  • 5 is a graph according to the pitch extraction method of FIG. 4.
  • FIG. 6 is a flowchart illustrating an MVF extraction method according to an embodiment.
  • FIG. 7 is a graph according to the MVF extraction method of FIG. 6.
  • FIG. 9 is a graph illustrating a harmonic filtering and a smoothing filtering process.
  • 10 is a graph illustrating test results according to vocal harmonic coding.
  • 11 is a flowchart illustrating an encoding method for vocal harmonic coding.
  • FIG. 12 is a flowchart illustrating a decoding method for vocal harmonic coding.
  • 1 is a diagram illustrating a SAOC encoder and a decoder.
  • SAOC spatial audio object coding
  • the SAOC encoder converts the input object signals into downmix signals and spatial parameters and sends them to the SAOC decoder.
  • the decoder reproduces the object signal using the received downmix signal and spatial parameters, and the renderer renders the respective objects according to user input to generate final music.
  • the SAOC encoder calculates the downmix signal and the spatial parameter OLD (Object Level Difference).
  • the downmix signal can be obtained by the weighted sum of the input signals.
  • OLD may be obtained by normalizing to the power of the largest value among the subband powers of the object. OLD may be defined according to [Equation 1].
  • P represents the parameter subband power
  • B represents the number of parameter subbands
  • N represents the number of input objects.
  • the SAOC decoder can reproduce the object signal through the downmix signal and the OLD.
  • the SAOC decoder may reproduce the object signal using Equation 2.
  • the SAOC decoder when a specific object is to be adjusted, the SAOC decoder adjusts a specific object from the downmix signal with only OLD.
  • FIG. 2 is a block diagram illustrating an encoding apparatus and a decoding apparatus for vocal harmonic coding.
  • the SAOC parameter generator 211 the harmonic information generator 212, the object signal reproducing unit 221, the harmonic filtering unit 222, the smoothing filtering unit 223, and the rendering unit 224 are provided. Is shown.
  • the SAOC parameter generator 211 generates a downmix signal by weighting a plurality of input object signals including a vocal object signal and an instrument object signal, and normalizes subband powers of the plurality of input object signals. To create a spatial parameter.
  • the SAOC parameter generator 211 may correspond to the SAOC encoder of FIG. 1.
  • the downmix signal and the spatial parameter are transmitted to the harmonic information generator 212.
  • the harmonic information generation unit 212 generates harmonic information from the vocal object signal in order to remove the harmonic component generated when reproducing the instrument object signal from the downmix signal using spatial parameters.
  • the vocal object signal When the vocal object signal is removed from the downmix signal based on the OLD, a difference may occur between the unvoiced sound signal and the voiced sound signal included in the vocal object signal. In fact, in order to obtain a background signal composed of the instrument object signal, if the vocal object signal is removed from the downmix signal based on the OLD, the removal performance in the voiced signal portion is lowered.
  • the harmonic information may include the pitch of the voiced sound signal included in the vocal object signal, the harmonic maximum frequency of the voiced sound signal, and the spectral harmonic magnitude of the voiced sound signal.
  • the harmonic component may correspond to the voiced sound signal.
  • the harmonic information generation unit 212 generates pitch information of the voiced sound signal included in the vocal object signal, generates harmonic maximum frequency information of the voiced sound signal using the pitch information, pitch information and the maximum frequency information.
  • the harmonic information generation unit 212 is a voiced sound included in the vocal object signal using a quantization table calculated based on an average value of the subband power of the vocal object signal and the subband power of the vocal object signal.
  • the spectral harmonic magnitude of the signal can be quantized. Quantization of the spectral harmonic magnitude of the voiced signal is described in detail with reference to FIG. 8.
  • the object signal reproducing unit 221 reproduces the vocal object signal and the instrument object signal from the downmix signal using spatial parameters.
  • the object signal reproducing unit 221 may correspond to the SAOC decoder of FIG. 1.
  • the harmonic filtering unit 222 removes the harmonic component from the reproduced instrument object signal using the reproduced vocal object signal and the harmonic information.
  • the harmonic information is information generated by the encoding apparatus to remove harmonic components generated when reproducing the instrument object signal in the downmix signal. A detailed operation of the harmonic filtering unit 222 will be described with reference to FIG. 9.
  • the smoothing filtering unit 223 smoothes the instrument object signal from which the harmonic component is removed.
  • the planarization of the instrument object signal is an operation for reducing the discontinuity due to the harmonic filtering unit 222.
  • a detailed operation of the smoothing filtering unit 223 will be described with reference to FIG. 9.
  • the renderer 224 generates the SAOC demodulation output by using the reproduced vocal object signal and the reproduced instrument object signal.
  • the renderer 224 may correspond to the renderer of FIG. 1.
  • the output signal of the rendering unit 224 may be output through the speaker as it is.
  • the output signal of the rendering unit 224 may be transmitted to the harmonic filtering unit 222.
  • the output signal of the rendering unit 224 may be output as the improved background music through the harmonic filtering unit 222 and the smoothing filtering unit 223.
  • 3 is a graph showing harmonic information.
  • Harmonic information is information used to remove harmonic components that occur when reproducing an instrument object signal in a downmix signal using spatial parameters.
  • the harmonic information may include the pitch of the voiced sound signal included in the vocal object signal, the harmonic maximum frequency of the voiced sound signal, and the spectral harmonic magnitude of the voiced sound signal. Since vocal harmonics are mostly generated by voiced sound signals of vocal object signals, the harmonic information may be information about voiced sound signals.
  • FIG. 3 a graph in the time domain (left) of a voiced signal and a graph in the frequency domain (right) are shown.
  • the interval or pitch period between pitches of the spectral harmonic magnitude of the voiced sound may be the pitch of the voiced sound signal.
  • the inverse of the pitch of the voiced sound signal may be a fundamental frequency (F0).
  • the maximum voiced frequency (MVF) may be the harmonic maximum frequency of the voiced sound signal. MVF may represent a frequency band in which harmonics are distributed.
  • the harmonic amplifier (HA) may be the spectral harmonic magnitude of the voiced signal. The harmonic amplifier can indicate the magnitude of the harmonic.
  • FIG. 4 is a flowchart illustrating a pitch extraction method, according to an exemplary embodiment.
  • a pitch may be extracted through Discrete Fourier Transform (DFT), Spectral Whitening, and Salience for a vocal object signal.
  • the pitch can be extracted according to various methods commonly used. 4 is a pitch extraction method using the saliency function of [Equation 3].
  • tau ⁇ is a candidate of the pitch value.
  • 5 is a graph according to the pitch extraction method of FIG. 4.
  • a graph of a vocal object a graph based on spectral whitening, and a graph based on a result of a salience function are shown.
  • the graph according to the result of the sales function is a graph of the sales function according to the tau ⁇ of [Equation 3], where the index of the maximum value is predicted as the pitch value.
  • FIG. 6 is a flowchart illustrating an MVF extraction method according to an embodiment.
  • the harmonic information generator 212 may use an LP residual signal to find a harmonic peak on a frequency to predict the MVF. Each step shown in FIG. 6 is described in detail in FIG.
  • FIG. 7 is a graph according to the MVF extraction method of FIG. 6.
  • the harmonic information generator 212 calculates the LP residual signal through LP (Linear Predictive) analysis of the input signal, and extracts the local peak of the fundamental frequency interval. In addition, the harmonic information generator 212 performs a local peak. Linear interpolation can be used to predict the shaping curve.
  • the harmonic information generator 212 truncates the residual signal by 3-dB down the shaping curve.
  • the harmonic information generator 212 normalizes the interval of peak points of the truncated signal to a fundamental frequency and predicts the MVF through the MVF decision.
  • the example shown in FIG. 7 is the result of using 0.5 and 1.5 as thresholds for the determination of MVF.
  • the harmonic information generator 212 may calculate the HA from the power spectrum at the harmonic peak point.
  • HA varies in size
  • quantization is required.
  • an adaptive quantization technique using an OLD parameter and an arithmetic mean may be used for HA.
  • the harmonic quantization table for the adaptive quantization technique may be generated using the maximum and minimum values calculated through Equations 4 to 6 below.
  • Equations 4 to 6 the minimum and maximum values at which the m th harmonic may exist to quantize the m th harmonic impedance are shown in Equations 4 to 6 as shown in the right figure.
  • Equation 4 the maximum value is Pv (b), which is the b-th subband power of the vocal signal.
  • the minimum value is Pv (b) / (nD) which is an average of Pv (b).
  • n is the number of harmonics included in the sub band
  • D is the duration of the sub band.
  • Equation 5 If the logarithm of Equation 4 is taken, Equation 5 is obtained. If the Equation 5 is normalized, the minimum and maximum values of the quantization table can be obtained as shown in Equation 6.
  • FIG. 9 is a graph illustrating a harmonic filtering and a smoothing filtering process.
  • Equation 7 shows the harmonic filtering unit 222.
  • Equation 7 Denotes an instrument object signal from which the harmonic component that is the output of the harmonic filter has been removed, Denotes the reproduced instrument object signal that is the input of the harmonic filter.
  • G E (k) is the transfer function of the harmonic filter, which is designed according to Equation (8).
  • Equation 8 Represents the reproduced vocal object signal, Denotes the reproduced instrument object signal.
  • the harmonic impedance H (m) according to the harmonic information is the power spectrum of the m th harmonic in the frequency domain. H (m) is defined as shown in [Equation 9].
  • F 0 represents the fundamental frequency
  • m is an integer
  • M is the number of harmonics.
  • M ⁇ f mvf / F 0 >.
  • f mvf is the MVF frequency.
  • X v represents a vocal object signal.
  • Equation 10 shows the smoothing filtering unit 222.
  • Equation 10 Denotes an instrument object signal from which the harmonic component is removed, which is the output of the harmonic filter and the input of the smoothing filter, Denotes the flattened instrument object signal that is the output of the smoothing filter, and Gs (k) denotes the transfer function of the smoothing filter. Gs (k) is defined as shown in [Equation 11].
  • W denotes the bandwidth of the harmonic according to the smoothing range
  • 10 is a graph illustrating test results according to vocal harmonic coding.
  • VHC Vocal Harmonic Coding
  • the VHC shows a lower score than the TSC II, but considering that the bit rate of the VHC is much lower than the bit rate of the TSC II, the overall performance is good.
  • 11 is a flowchart illustrating an encoding method for vocal harmonic coding.
  • the encoding apparatus weights a plurality of input object signals including a vocal object signal and an instrument object signal to generate a downmix signal.
  • the encoding apparatus In operation 1120, the encoding apparatus generates a spatial parameter by normalizing subband powers of the plurality of input object signals.
  • the encoding apparatus generates harmonic information from the vocal object signal.
  • the harmonic information may include the pitch of the voiced sound signal included in the vocal object signal, the maximum harmonic frequency of the voiced sound signal, and the spectral harmonic size of the voiced sound signal.
  • the encoding apparatus may include generating pitch information of the voiced sound signal included in the vocal object signal, generating harmonic maximum frequency information of the voiced sound signal using the pitch information, and spectrum of the voiced sound signal using the pitch information and the maximum frequency information.
  • the harmonic information may be generated by generating the harmonic size.
  • the encoding apparatus may quantize the spectral harmonic size of the voiced sound signal included in the vocal object signal using a quantization table calculated based on the average value of the subband power of the vocal object signal and the subband power of the vocal object signal.
  • FIG. 12 is a flowchart illustrating a decoding method for vocal harmonic coding.
  • step 1210 the decoding apparatus reproduces a vocal object signal and an instrument object signal from a downmix signal using spatial parameters.
  • the decoding apparatus removes the harmonic component from the reproduced instrument object signal using the reproduced vocal object signal and the harmonic information.
  • Step 1220 may be performed through a harmonic filter.
  • the harmonic information may include the pitch of the voiced sound signal included in the vocal object signal, the maximum harmonic frequency of the voiced sound signal, and the spectral harmonic size of the voiced sound signal.
  • the decoding apparatus flattens the instrument object signal from which the harmonic component is removed using a smoothing filter.
  • the decoding apparatus may generate a SAOC demodulation output using the reproduced vocal object signal and the reproduced instrument object signal.
  • the method according to the embodiment may be embodied in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the media may be those specially designed and constructed for the purposes of the embodiments, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

Abstract

보컬 하모닉 코딩을 위한 인코딩 장치, 디코딩 장치 및 그 방법이 개시된다. 그 인코딩 장치는, 보컬 객체 신호와 인스트루먼트 객체 신호를 포함하는 복수의 입력 객체 신호를 가중합하여 다운믹스 신호를 생성하고, 상기 복수의 입력 객체 신호의 서브 밴드 파워를 정규화하여 공간 파라미터를 생성하는 SAOC(Spatial Audio Object Coding) 파라미터 생성부 및 상기 공간 파라미터를 이용하여 상기 다운믹스 신호에서 상기 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해, 상기 보컬 객체 신호로부터 하모닉 정보를 생성하는 하모닉 정보 생성부를 포함한다.

Description

보컬 하모닉 코딩을 위한 인코딩 장치, 디코딩 장치 및 그 방법
본 명세서에 기재된 다양한 실시예들은 보컬 하모닉 코딩을 위한 인코딩 장치, 디코딩 장치 및 그 방법에 관한 것으로, 보다 상세하게는, 기존의 SAOC(Spatial Audio Object Coding) 디코딩에 따른 보컬 하모닉 성분을 효과적으로 제거하기 위한 인코딩 장치, 디코딩 장치 및 그 방법에 관한 것이다.
인터넷 서비스, 광대역 네트워크, 멀티미디어 기기, 멀티미디어 컨텐츠 개발에 따라 사용자들은 좀더 고급화된 오디오 서비스를 원하게 되었다. 나아가, 오디오 코덱의 개발 트렌드 또한 변하고 있다.
예를 들어, SAOC(Spatial Audio Object Coding) 기법과 S-TSC(SAOC Two-Step Coding) 기법에 따라 고급화된 오디오 서비스가 개발되고 있다.
이와 관련하여, 국제 공개특허 제2010-143907호는, 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더를 개시한다.
공개특허에 따르면, 다객체 오디오 신호 부호화 장치는 복수의 입력 객체 신호들 중에서 포그라운드 객체 신호들을 제외한 객체 신호들을 부호화하고, 포그라운드 객체 신호들을 부호화하여, 청취자에게 만족할만한 음질을 제공하는 방법을 개시한다.
본 명세서에 기재된 다양한 실시예들에 따르면, 보컬 하모닉 코딩을 위한 인코딩 장치, 디코딩 장치 및 그 방법이 제공된다.
SAOC(Spatial Audio Object Coding) 기법에 따라 백그라운드 신호를 재생시킬 때 발생하는 보컬의 하모닉 성분을 제거하기 위한 보컬 신호로부터 하모닉 정보를 생성하는 인코딩 장치 및 그 방법이 제공된다.
또한, 낮은 오류율을 갖는 양자화 테이블이 제공된다.
또한, 하모닉 정보를 이용하여 백그라운드 신호에 남아있는 보컬 하모닉 성분을 효과적으로 제거하기 위한 디코딩 장치 및 그 방법이 제공된다.
일측에 따르면, 인코딩 장치는, 보컬 객체 신호와 인스트루먼트 객체 신호를 포함하는 복수의 입력 객체 신호를 가중합하여 다운믹스 신호를 생성하고, 상기 복수의 입력 객체 신호의 서브 밴드 파워를 정규화하여 공간 파라미터를 생성하는 SAOC(Spatial Audio Object Coding) 파라미터 생성부; 및 상기 공간 파라미터를 이용하여 상기 다운믹스 신호에서 상기 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해, 상기 보컬 객체 신호로부터 하모닉 정보를 생성하는 하모닉 정보 생성부를 포함한다.
상기 하모닉 정보는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치, 상기 유성음 신호의 하모닉 최대 주파수 및 상기 유성음 신호의 스펙트럼 하모닉 크기를 포함할 수 있다.
상기 하모닉 정보 생성부는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치 정보를 생성하고, 상기 피치 정보를 이용하여 상기 유성음 신호의 하모닉 최대 주파수 정보를 생성하고, 상기 피치 정보 및 상기 최대 주파수 정보를 이용하여 상기 유성음 신호의 스펙트럼 하모닉 크기를 생성할 수 있다.
상기 하모닉 정보 생성부는, 상기 보컬 객체 신호의 서브 밴드 파워와 상기 보컬 객체 신호의 서브 밴드 파워의 평균 값에 기초하여 계산된 양자화 테이블을 이용하여 상기 보컬 객체 신호에 포함된 유성음 신호의 스펙트럼 하모닉 크기를 양자화할 수 있다.
공간 파라미터를 이용하여 다운믹스 신호로부터 보컬 객체 신호와 인스트루먼트 객체 신호를 재생시키는 객체 신호 재생부; 및
일측에 따르면, 디코딩 장치는, 상기 재생된 보컬 객체 신호와 하모닉 정보 ? 상기 다운믹스 신호에서 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해 인코딩 장치에서 생성된 정보 - 를 이용하여 상기 재생된 인스트루먼트 객체 신호에서 하모닉 성분을 제거하는 하모닉 필터링부를 포함한다.
다른 일측에 따르면, 디코딩 장치는, 상기 재생된 보컬 객체 신호와 상기 재생된 인스트루먼트 객체 신호를 이용하여 SAOC(Spatial Audio Object Coding) 복조 출력을 생성하는 렌더링부를 더 포함할 수 있다.
상기 하모닉 정보는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치, 상기 유성음 신호의 하모닉 최대 주파수 및 상기 유성음 신호의 스펙트럼 하모닉 크기를 포함할 수 있다.
다른 일측에 따르면, 디코딩 장치는, 상기 하모닉 성분이 제거된 인스트루먼트 객체 신호를 평탄화하는 스무딩 필터링부를 더 포함할 수 있다.
일측에 따르면, 인코딩 방법은, 보컬 객체 신호와 인스트루먼트 객체 신호를 포함하는 복수의 입력 객체 신호를 가중합하여 다운믹스 신호를 생성하고, 상기 복수의 입력 객체 신호의 서브 밴드 파워를 정규화하여 공간 파라미터를 생성하는 단계; 및 상기 공간 파라미터를 이용하여 상기 다운믹스 신호에서 상기 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해, 상기 보컬 객체 신호로부터 하모닉 정보를 생성하는 단계를 포함한다.
상기 하모닉 정보는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치, 상기 유성음 신호의 하모닉 최대 주파수 및 상기 상기 유성음 신호의 스펙트럼 하모닉 크기를 포함할 수 있다.
상기 하모닉 정보를 생성하는 단계는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치 정보를 생성하는 단계; 상기 피치 정보를 이용하여 상기 유성음 신호의 하모닉 최대 주파수 정보를 생성하는 단계; 및 상기 피치 정보 및 상기 하모닉 최대 주파수 정보를 이용하여 상기 유성음 신호의 스펙트럼 하모닉 크기를 생성하는 단계를 포함할 수 있다.
다른 일측에 따르면, 인코딩 방법은, 상기 보컬 객체 신호의 서브 밴드 파워와 상기 보컬 객체 신호의 서브 밴드 파워의 평균 값에 기초하여 계산된 양자화 테이블을 이용하여 상기 보컬 객체 신호에 포함된 유성음 신호의 스펙트럼 하모닉 크기를 양자화하는 단계를 더 포함할 수 있다.
일측에 따르면, 디코딩 방법은, 공간 파라미터를 이용하여 다운믹스 신호로부터 보컬 객체 신호와 인스트루먼트 객체 신호를 재생시키는 단계; 및 상기 재생된 보컬 객체 신호와 하모닉 정보 ? 상기 다운믹스 신호에서 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해 인코딩 장치에서 생성된 정보 - 를 이용하여 상기 재생된 인스트루먼트 객체 신호에서 하모닉 성분을 제거하는 단계를 포함한다.
다른 일측에 따르면, 디코딩 방법은, 상기 재생된 보컬 객체 신호와 상기 재생된 인스트루먼트 객체 신호를 이용하여 SAOC(Spatial Audio Object Coding) 복조 출력을 생성하는 단계를 더 포함할 수 있다.
상기 하모닉 정보는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치, 상기 유성음 신호의 하모닉 최대 주파수 및 상기 유성음 신호의 스펙트럼 하모닉 크기를 포함할 수 있다.
다른 일측에 따르면, 디코딩 방법은, 상기 하모닉 성분이 제거된 인스트루먼트 객체 신호를 평탄화하는 단계를 더 포함할 수 있다.
본 명세서에 기재된 다양한 실시예들에 따르면, SAOC(Spatial Audio Object Coding) 기법에 따라 백그라운드 신호를 재생시킬 때 발생하는 보컬의 하모닉 성분을 제거하기 위한 보컬 신호의 하모닉 정보를 생성할 수 있다.
또한, 하모닉 정보를 이용하여 백그라운드 신호에 남아있는 보컬 하모닉 성분을 효과적으로 제거할 수 있다.
도 1은 SAOC 인코더 및 디코더를 나타낸 도면이다.
도 2는 보컬 하모닉 코딩을 위한 인코딩 장치 및 디코딩 장치를 나타낸 블록도이다.
도 3은 하모닉 정보를 나타낸 그래프이다.
도 4는 일실시예에 따른 피치 추출 방법을 나타낸 플로우 차트이다.
도 5는 도 4의 피치 추출 방법에 따른 그래프이다.
도 6은 일실시예에 따른 MVF 추출 방법을 나타낸 플로우 차트이다.
도 7은 도 6의 MVF 추출 방법에 따른 그래프이다.
도 8은 하모닉 엠플리튜드(Harmonic Amplitude; HA)에 대한 그래프이다.
도 9는 하모닉 필터링 및 스무딩 필터링 과정을 나타낸 그래프이다.
도 10은 보컬 하모닉 코딩에 따른 테스트 결과를 나타낸 그래프이다.
도 11은 보컬 하모닉 코딩을 위한 인코딩 방법을 나타낸 플로우 차트이다.
도 12는 보컬 하모닉 코딩을 위한 디코딩 방법을 나타낸 플로우 차트이다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 SAOC 인코더 및 디코더를 나타낸 도면이다.
도 1을 참조하면, SAOC(Spatial Audio Object Coding) 기법에 따른 프로듀서/서비스 제공자 측의 장치 및 사용자 측의 장치가 도시되어 있다. 프로듀서/서비스 제공자 측의 장치는 SAOC 인코더를 포함할 수 있으며, 사용자 측의 장치는 SAOC 디코더 및 렌더러를 포함할 수 있다. SAOC 기법은 오디오 객체들을 다운믹스 신호와 공간 파라미터로 다시 표현하여 낮은 비트 레이트로 압축하는 다객체 코딩 기법이다.
SAOC 인코더는 입력 객체 신호들을 다운믹스 신호와 공간 파라미터로 변환하여 SAOC 디코더로 전송한다. 디코더는 수신한 다운믹스 신호와 공간 파라미터를 사용해서 객체 신호를 재생시키고, 렌더러는 사용자 입력에 따라 각각의 객체들을 렌더링하여 최종 음악을 생성한다.
SAOC 인코더는 다운믹스 신호와 공간 파라미터인 OLD(Object Level Difference)를 계산한다. 다운믹스 신호는 입력 신호의 가중합(weighted sum)으로 구할 수 있다. 또한, OLD는 객체의 서브 밴드 파워들 중에 가장 큰 값의 파워로 정규화(normalization)하여 구할 수 있다. OLD는 [수학식 1]에 따라 정의될 수 있다.
수학식 1
Figure PCTKR2015000713-appb-M000001
여기서, P는 파라미터 서브 밴드 파워를 나타내고, B는 파라미터 서브 밴드의 수를 나타내고, N은 입력 객체의 수를 나타낸다.
SAOC 디코더는 다운믹스 신호와 OLD를 통해 객체 신호를 재생시킬 수 있다. 구체적으로, SAOC 디코더는 [수학식 2]를 이용하여 객체 신호를 재생시킬 수 있다.
수학식 2
Figure PCTKR2015000713-appb-M000002
SAOC 기법에서는 특정 객체를 조절하고자 할 때, SAOC 디코더는 OLD만으로 다운믹스 신호로부터 특정 객체를 조절한다.
도 2는 보컬 하모닉 코딩을 위한 인코딩 장치 및 디코딩 장치를 나타낸 블록도이다.
도 2를 참조하면, SAOC 파라미터 생성부(211), 하모닉 정보 생성부(212), 객체 신호 재생부(221), 하모닉 필터링부(222), 스무딩 필터링부(223) 및 렌더링부(224)가 도시되어 있다.
SAOC 파라미터 생성부(211)는 보컬(vocal) 객체 신호와 인스트루먼트(instrument) 객체 신호를 포함하는 복수의 입력 객체 신호를 가중합하여 다운믹스 신호를 생성하고, 복수의 입력 객체 신호의 서브 밴드 파워를 정규화하여 공간 파라미터를 생성한다. SAOC 파라미터 생성부(211)는 도 1의 SAOC 인코더에 대응될 수 있다. 다운믹스 신호와 공간 파라미터는 하모닉 정보 생성부(212)로 전달된다.
하모닉 정보 생성부(212)는 공간 파라미터를 이용하여 다운믹스 신호에서 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해, 보컬 객체 신호로부터 하모닉 정보를 생성한다.
OLD 기반으로 다운믹스 신호에서 보컬 객체 신호를 제거할 경우, 보컬 객체 신호에 포함된 무성음 신호와 유성음 신호의 제거 결과에 차이가 발생할 수 있다. 실제로, 인스트루먼트 객체 신호로 구성된 백그라운드 신호를 얻기 위해, 다운믹스 신호에서 OLD 기반으로 보컬 객체 신호를 제거하면, 유성음 신호 부분에서 제거 성능이 떨어지는 결과가 나온다.
하모닉 정보는, 보컬 객체 신호에 포함된 유성음 신호의 피치, 유성음 신호의 하모닉 최대 주파수 및 유성음 신호의 스펙트럼 하모닉 크기를 포함할 수 있다. 본 명세서에서, 하모닉 성분은 유성음 신호에 대응될 수 있다.
이 때, 하모닉 정보 생성부(212)는, 보컬 객체 신호에 포함된 유성음 신호의 피치 정보를 생성하고, 피치 정보를 이용하여 유성음 신호의 하모닉 최대 주파수 정보를 생성하고, 피치 정보 및 상기 최대 주파수 정보를 이용하여 유성음 신호의 스펙트럼 하모닉 크기를 생성할 수 있다. 유성음 신호의 피치, 유성음 신호의 하모닉 최대 주파수 및 유성음 신호의 스펙트럼 하모닉 크기의 생성 과정은 도 4 내지 도 8에서 구체적으로 설명한다.
하모닉 정보 생성부(212)는, 상기 보컬 객체 신호의 서브 밴드 파워와 상기 보컬 객체 신호의 서브 밴드 파워의 평균 값에 기초하여 계산된 양자화(quantization) 테이블을 이용하여 상기 보컬 객체 신호에 포함된 유성음 신호의 스펙트럼 하모닉 크기를 양자화할 수 있다. 유성음 신호의 스펙트럼 하모닉 크기에 대한 양자화는 도 8에서 구체적으로 설명한다.
객체 신호 재생부(221) 공간 파라미터를 이용하여 다운믹스 신호로부터 보컬 객체 신호와 인스트루먼트 객체 신호를 재생시킨다. 객체 신호 재생부(221)는 도 1의 SAOC 디코더에 대응될 수 있다.
하모닉 필터링부(222)는 재생된 보컬 객체 신호와 하모닉 정보를 이용하여 재생된 인스트루먼트 객체 신호에서 하모닉 성분을 제거한다. 하모닉 정보는 다운믹스 신호에서 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해 인코딩 장치에서 생성된 정보이다. 하모닉 필터링부(222)의 구체적인 동작은 도 9에서 설명한다.
스무딩 필터링부(223)는 하모닉 성분이 제거된 인스트루먼트 객체 신호를 평탄화(smoothing)한다. 인스트루먼트 객체 신호에 대한 평탄화는 하모닉 필터링부(222)에 따른 단절(discontinuity)을 줄이기 위한 동작이다. 스무딩 필터링부(223)의 구체적인 동작은 도 9에서 설명한다.
렌더링부(224)는 재생된 보컬 객체 신호와 재생된 인스트루먼트 객체 신호를 이용하여 SAOC 복조 출력을 생성한다. 렌더링부(224)는 도 1의 렌더러에 대응될 수 있다.
사용자 입력이 음악을 출력하기 위한 입력인 경우, 렌더링부(224)의 출력 신호는 그대로 스피커를 통해 출력될 수 있다. 사용자 입력이 노래에서 보컬을 제거한 것과 같은 배경음악을 출력하기 위한 입력인 경우, 렌더링부(224)의 출력 신호는 하모닉 필터링부(222)로 전달될 수 있다. 이 경우, 렌더링부(224)의 출력 신호는 하모닉 필터링부(222)와 스무딩 필터링부(223)를 거쳐, 개선된 배경음악으로 출력될 수 있다.
도 3은 하모닉 정보를 나타낸 그래프이다.
하모닉 정보는 공간 파라미터를 이용하여 다운믹스 신호에서 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해 사용되는 정보이다. 하모닉 정보는, 보컬 객체 신호에 포함된 유성음 신호의 피치, 유성음 신호의 하모닉 최대 주파수 및 유성음 신호의 스펙트럼 하모닉 크기를 포함할 수 있다. 보컬 하모닉은 대부분 보컬 객체 신호의 유성음 신호에 의해 발생하기 때문에, 하모닉 정보는 유성음 신호에 대한 정보일 수 있다.
도 3을 참조하면, 유성음(voiced signal)의 시간 도메인에서의 그래프(좌측) 및 주파수 도메인에서의 그래프(우측)가 도시되어 있다.
좌측의 그래프에서, 유성음의 스펙트럼 하모닉 크기의 피치(pitch)간의 간격 또는 피치의 주기가 유성음 신호의 피치일 수 있다.
우측의 그래프에서, 유성음 신호의 피치의 역수가 기본 주파수(fundamental frequency, F0)일 수 있다. 또한, MVF(Maximum Voiced Frequency)는 유성음 신호의 하모닉 최대 주파수일 수 있다. MVF는 하모닉이 분포하는 주파수 대역을 나타낼 수 있다. 또한, 하모닉 앰플리튜드(Harmonic Amplitude; HA)는 유성음 신호의 스펙트럼 하모닉 크기일 수 있다. 하모닉 앰플리튜드는 하모닉의 크기를 나타낼 수 있다.
도 4는 일실시예에 따른 피치 추출 방법을 나타낸 플로우 차트이다.
도 4를 참조하면, 보컬 객체 신호에 대한 DFT(Discrete Fourier Transform), 스펙트럴 화이트닝(Spectral Whitening), 세일리언스(Salience)를 통해 피치가 추출될 수 있다. 피치는 통상적으로 사용되는 다양한 방법에 따라 추출될 수 있다. 도 4는 [수학식 3]의 세일리언스 함수를 사용한 피치 추출 방법이다. [수학식 3]에서 타우(τ )가 피치 값의 후보(candidate)이다.
수학식 3
Figure PCTKR2015000713-appb-M000003
도 5는 도 4의 피치 추출 방법에 따른 그래프이다.
도 5를 참조하면, 보컬 객체의 그래프, 스펙트럴 화이트닝에 따른 그래프 및 세일리언스 함수 결과에 따른 그래프가 도시되어 있다. 세일리언스 함수 결과에 따른 그래프는, [수학식 3]의 타우( τ)에 따른 세일리언스 함수에 대한 그래프로, 여기서 최대 값의 인덱스가 피치 값으로 예측된다.
도 6은 일실시예에 따른 MVF 추출 방법을 나타낸 플로우 차트이다.
하모닉 정보 생성부(212)는 LP 레지듀얼(Linear Predictive residual) 신호를 사용하고, 주파수상에서 하모닉 피크를 찾아내어 MVF를 예측할 수 있다. 도 6에 도시된 각각의 단계는 도 7에서 상세히 설명한다.
도 7은 도 6의 MVF 추출 방법에 따른 그래프이다.
하모닉 정보 생성부(212)는 입력 신호의 LP((Linear Predictive) 분석을 통해 LP 레지듀얼 신호를 계산하고, 기본 주파수 간격의 로컬피크를 추출한다. 또한, 하모닉 정보 생성부(212)는 로컬 피크들을 리니어 인터폴레이션하여 쉐이핑 커브를 예측할 수 있다.
다음으로, 하모닉 정보 생성부(212)는 쉐이핑 커브를 3-dB 다운시켜 레지듀얼 신호를 트렁케이트(truncate)한다. 하모닉 정보 생성부(212)는 트렁케이트된 신호의 피크 점들의 간격을 기본 주파수로 정규화하고, MVF 디시젼을 통해 MVF를 예측한다.
도 7에 도시된 실시예는 0.5와 1.5를 MVF의 결정을 위한 임계치로 사용한 결과이다.
도 8은 하모닉 엠플리튜드(HA)에 대한 그래프이다.
하모닉 정보 생성부(212)는 하모닉 피크 점에서의 파워 스펙트럼으로부터 HA를 계산할 수 있다.
다만, HA는 그 크기가 다양하기 때문에, 양자화가 필요하다. 예를 들어, HA에 대해 OLD 파라미터와 산술평균을 이용한 적응적인(adaptive) 양자화 기법을 사용할 수 있다. 적응적인 양자화 기법을 위한 하모닉 양자화 테이블은 아래의 [수학식 4] 내지 [수학식 6]을 통해 계산된 최대값과 최소값을 이용하여 생성될 수 있다.
수학식 4
Figure PCTKR2015000713-appb-M000004
수학식 5
Figure PCTKR2015000713-appb-M000005
수학식 6
Figure PCTKR2015000713-appb-M000006
도 8에서, 우측 그림과 같이 m 번째 하모닉 엠플리튜드를 양자화 하기위해 m번째 하모닉이 존재할 수 있는 최소값과 최대값을 구해보면 [수학식 4] 내지 [수학식 6]과 같다.
[수학식 4]에서 최대값은 보컬 신호의 b 번째 서브 밴드 파워인 Pv(b)이다. 또한, 최소값은 Pv(b)의 평균인 Pv(b)/(nD)이다. 여기서, n은 서브 밴드에 포함되는 하모닉의 개수이고, D는 서브 밴드의 듀레이션이다.
[수학식 4]에 로그식을 취하면 [수학식 5]가 나오며, [수학식 5]를 대해 정규화시키면 [수학식 6]과 같이 양자화 테이블의 최소값과 최대값을 구할 수 있다.
[수학식 4] 내지 [수학식 6]에 따라 계산된 최소값 및 최대값을 사용한 양자화 테이블로 양자화를 수행했을 때, 이를 사용하지 않은 양자화에 비해, 3.4dB의 양자화 에러 게인을 얻을 수 있다.
도 9는 하모닉 필터링 및 스무딩 필터링 과정을 나타낸 그래프이다.
도 9를 참조하면, 하모닉 필터링을 위한 하모닉 게인, 스무딩 필터링을 위한 스무딩 게인 및 하모닉 필터링과 스무딩 필터링에 따른 최종 결과에 대한 그래프가 각각 도시되어 있다.
첫 번째 그래프는 하모닉 필터링을 위한 하모닉 게인을 나타낸 그래프이다. [수학식 7]은 하모닉 필터링부(222)를 나타낸다.
수학식 7
Figure PCTKR2015000713-appb-M000007
[수학식 7]에서
Figure PCTKR2015000713-appb-I000001
는 하모닉 필터의 출력인 하모닉 성분이 제거된 인스트루먼트 객체 신호를 나타내고,
Figure PCTKR2015000713-appb-I000002
는 하모닉 필터의 입력인 재생된 인스트루먼트 객체 신호를 나타낸다. GE(k)는 하모닉 필터의 전달함수로, [수학식 8]에 따라 디자인된다.
수학식 8
Figure PCTKR2015000713-appb-M000008
[수학식 8]에서
Figure PCTKR2015000713-appb-I000003
는 재생된 보컬 객체 신호를 나타내고,
Figure PCTKR2015000713-appb-I000004
는 재생된 인스트루먼트 객체 신호를 나타낸다. 하모닉 정보에 따른 하모닉 엠플리튜드 H(m)은 주파수 도메인에서 m 번째 하모닉의 파워 스펙트럼이다. H(m)은 [수학식 9]와 같이 정의된다.
수학식 9
Figure PCTKR2015000713-appb-M000009
여기서, F0는 기본 주파수를 나타내고, m은 정수이며, M은 하모닉의 수이다. 예를 들어, M=<fmvf/F0>일 수 있다. fmvf는 MVF 주파수이다. Xv는 보컬 객체 신호를 나타낸다.
두 번째 그래프는 스무딩 필터링을 위한 스무딩 게인을 나타낸 그래프이다. [수학식 10]은 스무딩 필터링부(222)를 나타낸다.
수학식 10
Figure PCTKR2015000713-appb-M000010
[수학식 10]에서
Figure PCTKR2015000713-appb-I000005
는, 하모닉 필터의 출력이면서 스무딩 필터의 입력인, 하모닉 성분이 제거된 인스트루먼트 객체 신호를 나타내고,
Figure PCTKR2015000713-appb-I000006
는 스무딩 필터의 출력인 평탄화된 인스트루먼트 객체 신호를 나타내고, Gs(k)는 스무딩 필터의 전달 함수를 나타낸다. Gs(k)는 [수학식 11]과 같이 정의된다.
수학식 11
Figure PCTKR2015000713-appb-M000011
여기서, W는 스무딩 범위에 따른 하모닉의 대역폭을 나타내고, λ는 기본 주파수에 대한 정수 배의 값으로 λ=m*F0 를 나타낸다.
도 10은 보컬 하모닉 코딩에 따른 테스트 결과를 나타낸 그래프이다.
도 10을 참조하면, 본 발명에 따른 보컬 하모닉 코딩(Vocal Harmonic Coding; VHC)에 따른 스코어가 SAOC에 따른 스코어보다 월등히 높은 것을 알 수 있다. 또한, VHC는 TSC I보다도 높은 성능을 나타낸다.
VHC는 TSC II보다는 낮은 스코어를 나타내지만, VHC의 비트 레이트가 TSC II의 비트 레이트보다 월등히 낮다는 점을 고려할 때, 전체적인 성능은 VHC가 좋다고 할 수 있다.
도 11은 보컬 하모닉 코딩을 위한 인코딩 방법을 나타낸 플로우 차트이다.
도 11을 참조하면, 단계(1110)에서, 인코딩 장치는 보컬 객체 신호와 인스트루먼트 객체 신호를 포함하는 복수의 입력 객체 신호를 가중합하여 다운믹스 신호를 생성한다.
단계(1120)에서, 인코딩 장치는 복수의 입력 객체 신호의 서브 밴드 파워를 정규화하여 공간 파라미터를 생성한다.
단계(1130)에서, 인코딩 장치는 보컬 객체 신호로부터 하모닉 정보를 생성한다. 이 때, 하모닉 정보는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치, 상기 유성음 신호의 하모닉 최대 주파수 및 상기 유성음 신호의 스펙트럼 하모닉 크기를 포함할 수 있다. 인코딩 장치는, 보컬 객체 신호에 포함된 유성음 신호의 피치 정보를 생성하는 단계, 피치 정보를 이용하여 유성음 신호의 하모닉 최대 주파수 정보를 생성하는 단계 및 피치 정보 및 최대 주파수 정보를 이용하여 유성음 신호의 스펙트럼 하모닉 크기를 생성하는 단계를 통해, 하모닉 정보를 생성할 수 있다.
인코딩 장치는 보컬 객체 신호의 서브 밴드 파워와 보컬 객체 신호의 서브 밴드 파워의 평균 값에 기초하여 계산된 양자화 테이블을 이용하여 보컬 객체 신호에 포함된 유성음 신호의 스펙트럼 하모닉 크기를 양자화할 수 있다.
도 12는 보컬 하모닉 코딩을 위한 디코딩 방법을 나타낸 플로우 차트이다.
도 12를 참조하면, 단계(1210)에서, 디코딩 장치는 공간 파라미터를 이용하여 다운믹스 신호로부터 보컬 객체 신호와 인스트루먼트 객체 신호를 재생한다.
단계(1220)에서, 디코딩 장치는 재생된 보컬 객체 신호와 하모닉 정보를 이용하여 재생된 인스트루먼트 객체 신호에서 하모닉 성분을 제거한다. 단계(1220)은 하모닉 필터를 통해 수행될 수 있다. 이 때, 하모닉 정보는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치, 상기 유성음 신호의 하모닉 최대 주파수 및 상기 유성음 신호의 스펙트럼 하모닉 크기를 포함할 수 있다.
단계(1230)에서, 디코딩 장치는 스무딩 필터를 이용하여 하모닉 성분이 제거된 인스트루먼트 객체 신호를 평탄화한다. 디코딩 장치는 재생된 보컬 객체 신호와 상기 재생된 인스트루먼트 객체 신호를 이용하여 SAOC 복조 출력을 생성할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (16)

  1. 보컬 객체 신호와 인스트루먼트 객체 신호를 포함하는 복수의 입력 객체 신호를 가중합하여 다운믹스 신호를 생성하고, 상기 복수의 입력 객체 신호의 서브 밴드 파워를 정규화하여 공간 파라미터를 생성하는 SAOC(Spatial Audio Object Coding) 파라미터 생성부; 및
    상기 공간 파라미터를 이용하여 상기 다운믹스 신호에서 상기 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해, 상기 보컬 객체 신호로부터 하모닉 정보를 생성하는 하모닉 정보 생성부
    를 포함하는 인코딩 장치.
  2. 제1항에 있어서,
    상기 하모닉 정보는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치, 상기 유성음 신호의 하모닉 최대 주파수 및 상기 유성음 신호의 스펙트럼 하모닉 크기를 포함하는,
    인코딩 장치.
  3. 제1항에 있어서,
    상기 하모닉 정보 생성부는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치 정보를 생성하고, 상기 피치 정보를 이용하여 상기 유성음 신호의 하모닉 최대 주파수 정보를 생성하고, 상기 피치 정보 및 상기 최대 주파수 정보를 이용하여 상기 유성음 신호의 스펙트럼 하모닉 크기를 생성하는,
    인코딩 장치.
  4. 제1항에 있어서,
    상기 하모닉 정보 생성부는,
    상기 보컬 객체 신호의 서브 밴드 파워와 상기 보컬 객체 신호의 서브 밴드 파워의 평균 값에 기초하여 계산된 양자화 테이블을 이용하여 상기 보컬 객체 신호에 포함된 유성음 신호의 스펙트럼 하모닉 크기를 양자화하는,
    인코딩 장치.
  5. 공간 파라미터를 이용하여 다운믹스 신호로부터 보컬 객체 신호와 인스트루먼트 객체 신호를 재생시키는 객체 신호 재생부; 및
    상기 재생된 보컬 객체 신호와 하모닉 정보 ? 상기 다운믹스 신호에서 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해 인코딩 장치에서 생성된 정보 - 를 이용하여 상기 재생된 인스트루먼트 객체 신호에서 하모닉 성분을 제거하는 하모닉 필터링부
    를 포함하는 디코딩 장치.
  6. 제5항에 있어서,
    상기 재생된 보컬 객체 신호와 상기 재생된 인스트루먼트 객체 신호를 이용하여 SAOC(Spatial Audio Object Coding) 복조 출력을 생성하는 렌더링부
    를 더 포함하는 디코딩 장치.
  7. 제5항에 있어서,
    상기 하모닉 정보는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치, 상기 유성음 신호의 하모닉 최대 주파수 및 상기 유성음 신호의 스펙트럼 하모닉 크기를 포함하는,
    디코딩 장치.
  8. 제5항에 있어서,
    상기 하모닉 성분이 제거된 인스트루먼트 객체 신호를 평탄화하는 스무딩 필터링부
    를 더 포함하는 디코딩 장치.
  9. 보컬 객체 신호와 인스트루먼트 객체 신호를 포함하는 복수의 입력 객체 신호를 가중합하여 다운믹스 신호를 생성하고, 상기 복수의 입력 객체 신호의 서브 밴드 파워를 정규화하여 공간 파라미터를 생성하는 단계; 및
    상기 공간 파라미터를 이용하여 상기 다운믹스 신호에서 상기 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해, 상기 보컬 객체 신호로부터 하모닉 정보를 생성하는 단계
    를 포함하는 인코딩 방법.
  10. 제9항에 있어서,
    상기 하모닉 정보는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치, 상기 유성음 신호의 하모닉 최대 주파수 및 상기 유성음 신호의 스펙트럼 하모닉 크기를 포함하는,
    인코딩 방법.
  11. 제9항에 있어서,
    상기 하모닉 정보를 생성하는 단계는,
    상기 보컬 객체 신호에 포함된 유성음 신호의 피치 정보를 생성하는 단계;
    상기 피치 정보를 이용하여 상기 유성음 신호의 하모닉 최대 주파수 정보를 생성하는 단계; 및
    상기 피치 정보 및 상기 최대 주파수 정보를 이용하여 상기 유성음 신호의 스펙트럼 하모닉 크기를 생성하는 단계
    를 포함하는 인코딩 방법.
  12. 제9항에 있어서,
    상기 보컬 객체 신호의 서브 밴드 파워와 상기 보컬 객체 신호의 서브 밴드 파워의 평균 값에 기초하여 계산된 양자화 테이블을 이용하여 상기 보컬 객체 신호에 포함된 유성음 신호의 스펙트럼 하모닉 크기를 양자화하는 단계
    를 더 포함하는 인코딩 방법.
  13. 공간 파라미터를 이용하여 다운믹스 신호로부터 보컬 객체 신호와 인스트루먼트 객체 신호를 재생시키는 단계; 및
    상기 재생된 보컬 객체 신호와 하모닉 정보 ? 상기 다운믹스 신호에서 인스트루먼트 객체 신호를 재생시킬 때 발생하는 하모닉 성분을 제거하기 위해 인코딩 장치에서 생성된 정보 - 를 이용하여 상기 재생된 인스트루먼트 객체 신호에서 하모닉 성분을 제거하는 단계
    를 포함하는 디코딩 방법.
  14. 제13항에 있어서,
    상기 재생된 보컬 객체 신호와 상기 재생된 인스트루먼트 객체 신호를 이용하여 SAOC(Spatial Audio Object Coding) 복조 출력을 생성하는 단계
    를 더 포함하는 디코딩 방법.
  15. 제13항에 있어서,
    상기 하모닉 정보는, 상기 보컬 객체 신호에 포함된 유성음 신호의 피치, 상기 유성음 신호의 하모닉 최대 주파수 및 상기 유성음 신호의 스펙트럼 하모닉 크기를 포함하는,
    디코딩 방법.
  16. 제13항에 있어서,
    상기 하모닉 성분이 제거된 인스트루먼트 객체 신호를 평탄화하는 단계
    를 더 포함하는 디코딩 방법.
PCT/KR2015/000713 2014-01-23 2015-01-23 보컬 하모닉 코딩을 위한 인코딩 장치, 디코딩 장치 및 그 방법 WO2015111949A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20140008593 2014-01-23
KR10-2014-0008593 2014-01-23

Publications (1)

Publication Number Publication Date
WO2015111949A1 true WO2015111949A1 (ko) 2015-07-30

Family

ID=53681685

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/000713 WO2015111949A1 (ko) 2014-01-23 2015-01-23 보컬 하모닉 코딩을 위한 인코딩 장치, 디코딩 장치 및 그 방법

Country Status (1)

Country Link
WO (1) WO2015111949A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108461086A (zh) * 2016-12-13 2018-08-28 北京唱吧科技股份有限公司 一种音频的实时切换方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080018658A (ko) * 2006-08-25 2008-02-28 주식회사 예람 사용자 선택구간에 대한 음성비교 시스템
KR20100007740A (ko) * 2008-07-10 2010-01-22 한국전자통신연구원 공간정보 기반의 다객체 오디오 부호화에서의 오디오 객체 편집 방법 및 그 장치
KR20100132913A (ko) * 2009-06-10 2010-12-20 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080018658A (ko) * 2006-08-25 2008-02-28 주식회사 예람 사용자 선택구간에 대한 음성비교 시스템
KR20100007740A (ko) * 2008-07-10 2010-01-22 한국전자통신연구원 공간정보 기반의 다객체 오디오 부호화에서의 오디오 객체 편집 방법 및 그 장치
KR20100132913A (ko) * 2009-06-10 2010-12-20 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PARK, JI HUN ET AL.: "KOREA ADVANCED INSTITUTE OF SCIENCE AND TECHNOLOGY", JOURNAL OF KOREA MULTIMEDIA SOCIETY, vol. 16, no. 10, October 2013 (2013-10-01), pages 1171 - 1179 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108461086A (zh) * 2016-12-13 2018-08-28 北京唱吧科技股份有限公司 一种音频的实时切换方法和装置
CN108461086B (zh) * 2016-12-13 2020-05-15 北京唱吧科技股份有限公司 一种音频的实时切换方法和装置

Similar Documents

Publication Publication Date Title
CN107180639B (zh) 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
WO2010005272A2 (ko) 멀티 채널 부호화 및 복호화 방법 및 장치
WO2012053798A2 (en) Apparatus and method for determining weighting function having low complexity for linear predictive coding (lpc) coefficients quantization
WO2011049416A2 (en) Apparatus and method encoding/decoding with phase information and residual information
WO2011002185A2 (ko) 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
WO2014021587A1 (ko) 오디오 신호 처리 장치 및 방법
US20070100483A1 (en) Audio processing
WO2013002623A4 (ko) 대역폭 확장신호 생성장치 및 방법
US20120140935A1 (en) Audio Fingerprint Differences for End-to-End Quality of Experience Measurement
WO2013183928A1 (ko) 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
JP2001209399A (ja) 第1成分と第2成分を含む信号を処理する装置と方法
US20080275697A1 (en) Audio Processing
JP2006259517A (ja) 音声処理装置及び音声処理方法
WO2015065137A1 (ko) 광대역 신호 생성방법 및 장치와 이를 채용하는 기기
KR20120070578A (ko) 인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩
WO2015111949A1 (ko) 보컬 하모닉 코딩을 위한 인코딩 장치, 디코딩 장치 및 그 방법
KR20160120713A (ko) 복호 장치, 부호화 장치, 복호 방법, 부호화 방법, 단말 장치, 및 기지국 장치
WO2015037969A1 (ko) 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
KR100601748B1 (ko) 디지털 음성 데이터의 부호화 방법 및 복호화 방법
CN101751928B (zh) 应用音频帧频谱平坦度简化声学模型分析的方法及其装置
KR100663379B1 (ko) 멀티미디어용 휴대기기 오디오의 음질 향상 시스템 및 그향상 방법
WO2015111970A1 (ko) 레지듀얼 코딩을 이용하는 인코딩 장치 및 방법
WO2015034115A1 (ko) 오디오 신호의 부호화, 복호화 방법 및 장치
WO2010101354A2 (en) Quantization for audio encoding
WO2014112793A1 (ko) 채널 신호를 처리하는 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15740071

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15740071

Country of ref document: EP

Kind code of ref document: A1