KR101393300B1 - Method and Apparatus for decoding audio/speech signal - Google Patents

Method and Apparatus for decoding audio/speech signal Download PDF

Info

Publication number
KR101393300B1
KR101393300B1 KR1020070040042A KR20070040042A KR101393300B1 KR 101393300 B1 KR101393300 B1 KR 101393300B1 KR 1020070040042 A KR1020070040042 A KR 1020070040042A KR 20070040042 A KR20070040042 A KR 20070040042A KR 101393300 B1 KR101393300 B1 KR 101393300B1
Authority
KR
South Korea
Prior art keywords
signal
domain
frame
encoded
time domain
Prior art date
Application number
KR1020070040042A
Other languages
Korean (ko)
Other versions
KR20080095491A (en
Inventor
손창용
오은미
김중회
성호상
이강은
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070040042A priority Critical patent/KR101393300B1/en
Priority to US11/872,116 priority patent/US8630863B2/en
Publication of KR20080095491A publication Critical patent/KR20080095491A/en
Priority to US14/132,224 priority patent/US9418666B2/en
Application granted granted Critical
Publication of KR101393300B1 publication Critical patent/KR101393300B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 오디오/스피치 신호의 부호화 방법에 관한 것으로, 입력 신호의 처리 단위인 프레임의 길이를 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하고, 각 프레임 별로 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하며, 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 서브 밴드의 신호를 주파수 도메인에서 부호화하고, 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 서브 밴드의 신호를 시간 도메인으로 역변환하여 시간 도메인에서 부호화함으로써, 시간 해상도 및 주파수 해상도를 조절하여 효과적으로 오디오/스피치 신호를 부호화할 수 있다.The present invention relates to a method of coding an audio / speech signal, wherein a length of a frame, which is a processing unit of an input signal, is variably determined according to an attack position of an input signal, and an input signal is transformed into a frequency domain If it is determined that the divided subband signal is encoded in the frequency domain, the subband signal is encoded in the frequency domain. If it is determined that the divided subband signal is encoded in the time domain, The signal is encoded in the time domain by inverse transforming the signal into the time domain, thereby effectively encoding the audio / speech signal by adjusting the time resolution and the frequency resolution.

Description

오디오/스피치 신호 복호화 방법 및 장치{Method and Apparatus for decoding audio/speech signal}[0001] The present invention relates to a method and apparatus for decoding audio / speech signals,

도 1은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치를 나타내는 블록도이다.1 is a block diagram illustrating an audio / speech signal encoding apparatus according to an embodiment of the present invention.

도 2는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 조정되는 프레임을 나타내는 그래프이다.FIG. 2 is a graph illustrating a frame to be adjusted in an audio / speech signal encoding apparatus according to an embodiment of the present invention. Referring to FIG.

도 3은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 프레임 및 밴드 별 부호화 도메인을 나타내는 그래프이다.FIG. 3 is a graph illustrating encoding domains for each frame and band in an audio / speech signal encoding apparatus according to an exemplary embodiment of the present invention. Referring to FIG.

도 4는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 장치를 나타내는 블록도이다.4 is a block diagram illustrating an audio / speech signal decoding apparatus according to an embodiment of the present invention.

도 5는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 방법을 나타내는 흐름도이다.5 is a flowchart illustrating a method of encoding an audio / speech signal according to an embodiment of the present invention.

도 6은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 방법을 나타내는 흐름도이다.6 is a flowchart illustrating a method of decoding an audio / speech signal according to an embodiment of the present invention.

본 발명은 오디오(audio) 신호와 스피치(speech) 신호를 부호화 및 복호화하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for encoding and decoding audio and speech signals.

종래의 코덱(codec)은 스피치 코덱과 오디오 코덱으로 분류된다. 스피치 코덱은 음성 발성 모델을 이용하여 주로 50Hz에서 7kHz에 이르는 주파수 대역에 해당하는 신호를 부호화거나 복호화한다. 이러한 스피치 코덱은 일반적으로 성대와 성도를 모델링함으로써 음성 신호를 대표하는 파라미터를 추출하여 부호화 및 복호화를 수행한다. 오디오 코덱은 HE-AAC와 같이 심리 음향 모델을 적용하여 주로 0Hz에서 24kHz에 이르는 주파수 대역에 해당하는 신호를 부호화하거나 복호화한다. 이러한 오디오 코덱은 인간의 청각 특성을 이용하여 감도가 낮은 신호를 생략함으로써 부호화 및 복호화를 수행한다.Conventional codecs are classified into a speech codec and an audio codec. The speech codec encodes or decodes a signal corresponding to a frequency band ranging mainly from 50 Hz to 7 kHz using a speech utterance model. Such a speech codec generally encodes and decodes parameters representative of a speech signal by modeling vocal cords and syllables. The audio codec applies a psychoacoustic model like HE-AAC to encode or decode signals corresponding to a frequency range from 0 Hz to 24 kHz. The audio codec performs coding and decoding by omitting low-sensitivity signals using human auditory characteristics.

그러나, 스피치 코덱은 스피치 신호를 부호화하거나 복호화하는 데 적합하지만, 오디오 신호를 부호화하거나 복호화하는 데 있어서 음질이 저하될 수 있다. 오디오 코덱은 오디오 신호를 부호화하거나 복호화할 경우 압축 효과가 뛰어나지만, 음성 신호를 부호화하거나 복호화함에 있어서 신호를 압축하는 효율이 떨어질 수 있다. 그러므로 스피치 신호, 오디오 신호, 스피치와 오디오가 혼합된 신호를 각각 부호화 또는 복호화함에 있어서 압축 효율 및 음질을 향상시킬 수 있는 방법 및 장치가 요구된다.However, the speech codec is suitable for encoding or decoding a speech signal, but sound quality may be degraded in encoding or decoding an audio signal. The audio codec is excellent in compression effect when encoding or decoding an audio signal, but efficiency of compressing a signal in encoding or decoding a voice signal may be lowered. Therefore, there is a need for a method and apparatus capable of improving compression efficiency and sound quality when encoding or decoding a speech signal, an audio signal, or a mixed signal of speech and audio, respectively.

본 발명이 이루고자 하는 기술적 과제는 입력 신호의 특성을 반영하여 압축 효율 및 음질을 향상시킬 수 있는 오디오/스피치 신호의 부호화 방법 및 장치를 제 공하는데 있다.SUMMARY OF THE INVENTION The present invention is directed to a method and apparatus for encoding an audio / speech signal that can improve compression efficiency and sound quality by reflecting characteristics of an input signal.

본 발명이 이루고자 하는 다른 기술적 과제는 입력 신호의 특성을 반영하여 압축 효율 및 음질을 향상시킬 수 있는 오디오/스피치 신호의 복호화 방법 및 장치를 제공하는데 있다.According to another aspect of the present invention, there is provided a method and apparatus for decoding an audio / speech signal capable of improving compression efficiency and sound quality by reflecting characteristics of an input signal.

상기 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 부호화 방법은 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하는 단계, 상기 각 프레임 별로 상기 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 단계, 및 상기 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 주파수 도메인에서 부호화하고, 상기 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 시간 도메인으로 역변환하여 시간 도메인에서 부호화하는 단계를 포함한다.According to another aspect of the present invention, there is provided a method of encoding an audio / speech signal, the method comprising: variably determining a length of a frame, which is a processing unit of an input signal, according to an attack position of the input signal; Converting the input signal into a frequency domain and dividing the input signal into subbands; and if the divided subband signal is determined to be encoded in the frequency domain, encoding the subband signal in a frequency domain, If the signal of the subband is determined to be encoded in the time domain, inverse transforming the signal of the subband into the time domain and encoding in the time domain.

또한, 상기 다른 기술적 과제는 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하는 단계, 상기 각 프레임 별로 상기 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 단계, 및 상기 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 주파수 도메인에서 부호화하고, 상기 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 시간 도메인으로 역변환하여 시간 도메인에서 부호화하는 단계를 포함하는 오디오/스피치 신호의 부호화 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 의해 달성된다.According to another aspect of the present invention, there is provided a method for processing an input signal, the method comprising: varying a length of a frame, which is a processing unit of an input signal, according to an attack position of the input signal; Dividing a signal of the subband into a frequency domain and a frequency domain of the signal of the subband when the signal of the subband is determined to be encoded in the frequency domain; And encoding the audio / speech signal in a time domain by inversely transforming the signal of the subband into a time domain.

또한, 상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 부호화 장치는 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하는 프레임 결정부, 상기 각 프레임 별로 상기 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 도메인 변환부, 상기 분할된 서브 밴드 별로 상기 서브 밴드의 신호를 주파수 도메인에서 부호화할지 시간 도메인에서 부호화할지 여부를 결정하는 도메인 결정부, 시간 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 시간 도메인으로 역변환하는 도메인 역변환부, 및 상기 역변환된 서브 밴드의 신호를 시간 도메인에서 부호화하고, 상기 주파수 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 주파수 도메인에서 부호화하는 부호화부를 포함한다.According to another aspect of the present invention, there is provided an apparatus for encoding an audio / speech signal, the apparatus including: a frame determination unit configured to variably determine a length of a frame, which is a processing unit of an input signal, according to an attack position of the input signal; A domain converter for converting the input signal into a frequency domain and dividing the input signal into subbands for each of the subbands, and determining whether to encode the signals of the subbands in the frequency domain or the time domain for each of the divided subbands, A domain determination unit, a domain inversion unit that inversely transforms a signal of a subband determined to be encoded in the time domain into a time domain, and a subband determination unit that encodes the signal of the inversely transformed subband in a time domain and determines a subband The frequency domain It includes stand encoding unit for encoding.

또한, 상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 복호화 방법은 부호화된 신호의 프레임 및 서브 밴드 별로 부호화된 도메인을 판단하는 단계, 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인에서 복호화하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인에서 복호화하는 단계, 및 상기 시간 도메인에서 복호화된 신호 및 상기 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환하는 단계를 포함한다.According to another aspect of the present invention, there is provided a method of decoding an audio / speech signal, the method comprising: determining a domain coded by a frame and a subband of a coded signal; Decoding the signal in the frequency domain, decoding the signal in the frequency domain, and synthesizing the decoded signal in the time domain and the decoded signal in the frequency domain, do.

또한, 상기 또 다른 기술적 과제는 부호화된 신호의 프레임 및 서브 밴드 별 로 부호화된 도메인을 판단하는 단계, 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인에서 복호화하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인에서 복호화하는 단계, 및 상기 시간 도메인에서 복호화된 신호 및 상기 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환하는 단계를 포함하는 오디오/스피치 신호의 복호화 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 의해 달성된다.According to another aspect of the present invention, there is provided a method of decoding a signal, comprising the steps of: determining a domain encoded by a frame and a subband of the encoded signal; decoding the signal determined to be encoded in the time domain in a time domain; Decoding a signal in a frequency domain, and synthesizing a signal decoded in the time domain and a signal decoded in the frequency domain and inverse-transforming the decoded signal into a time domain, the method comprising: And a computer-readable recording medium recorded thereon.

또한, 상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 복호화 장치는 부호화된 신호의 프레임 및 서브 밴드 별로 부호화된 도메인을 판단하는 판단부, 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인에서 복호화하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인에서 복호화하는 복호화부, 및 상기 시간 도메인에서 복호화된 신호 및 상기 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환하는 도메인 역변환부를 포함한다.According to another aspect of the present invention, there is provided an apparatus for decoding an audio / speech signal, the apparatus including: a determination unit for determining a domain encoded by a frame and a subband of a coded signal; A decoding unit for decoding the signal decoded in the time domain and decoded in the frequency domain, and a decoding unit for decoding the signal decoded in the time domain and the decoded signal in the frequency domain, And an inverse transform unit.

본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다. For the embodiments of the invention disclosed herein, specific structural and functional descriptions are set forth for the purpose of describing an embodiment of the invention only, and it is to be understood that the embodiments of the invention may be practiced in various forms, The present invention should not be construed as limited to the embodiments described in Figs.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 구성요소에 대해 사용하였다. The present invention is capable of various modifications and various forms, and specific embodiments are illustrated in the drawings and described in detail in the text. It should be understood, however, that the invention is not intended to be limited to the particular forms disclosed, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. Similar reference numerals have been used for the components in describing each drawing.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the contextual meaning of the related art and are to be interpreted as either ideal or overly formal in the sense of the present application Do not.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. The same reference numerals are used for the same constituent elements in the drawings and redundant explanations for the same constituent elements are omitted.

도 1은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치를 나타내는 블록도이다.1 is a block diagram illustrating an audio / speech signal encoding apparatus according to an embodiment of the present invention.

도 1을 참조하면, 오디오/스피치 신호의 부호화 장치는 프레임 결정부(11), 도메인 변환부(12), 도메인 결정부(13), 도메인 역변환부(14) 및 부호화부(15)를 포함한다. 또한, 오디오/스피치 신호의 부호화 장치는 다중화부(16)를 더 포함한다.1, an apparatus for encoding an audio / speech signal includes a frame determination unit 11, a domain conversion unit 12, a domain determination unit 13, a domain inversion unit 14, and an encoding unit 15 . The apparatus for encoding an audio / speech signal further includes a multiplexer 16.

프레임 결정부(11)는 입력 신호(IN)를 수신하여 입력 신호(IN)의 처리 단위인 프레임(frame)의 길이를 입력 신호(IN)의 어택(attack) 위치에 따라 가변적으로 결정한다. 입력 신호(IN)는 아날로그의 스피치 신호 또는 오디오 신호를 디지털 신 호로 변조한 PCM(pulse code modulation) 신호일 수 있으며, 입력 신호(IN)는 비주기적으로 어택이 존재할 수 있다. The frame determination unit 11 variably determines the length of a frame as a processing unit of the input signal IN according to an attack position of the input signal IN by receiving the input signal IN. The input signal IN may be a pulse code modulation (PCM) signal obtained by modulating an analog speech signal or an audio signal with a digital signal, and the input signal IN may have an aperiodic attack.

여기서, 어택은 소리를 발생, 지속 및 소멸의 세 단계로 나눌 때 발생 부분을 의미한다. 예를 들어, 오케스트라에서 악기의 개시와 같이 한 개의 음표를 시작하는 것일 수 있다. 어택 시간은 소리가 발생한 직후부터 음량이 최고점이 되는 동안의 시간을 의미하며, 이에 대비되는 디케이(decay) 시간은 음량의 최고점에서 중간점에 이르는 시간을 의미한다. 예를 들어, 피아노 건반을 '땅'하고 쳤을 때 '땅' 소리가 최고로 올라갈 때까지의 시간을 어택 시간이라고 하고, 최고점에서 바로 내려가서 그 소리가 유지되기 전까지의 시간이 디케이 시간이다.Here, attack refers to the part that occurs when sound is divided into three stages of generation, continuation and extinction. For example, in an orchestra, it could be to start a single note like the beginning of a musical instrument. The attack time refers to the time during which the volume is peaking from immediately after the sound is generated, and the decay time corresponding to the time from the highest point to the midpoint of the volume. For example, when you hit the piano key 'land', the time until the 'ground' sound rises to the highest is called the attack time, and the time until the sound goes down from the peak is the decay time.

여기서, 프레임은 데이터 통신 등에서 한 단위로 전송되는 정보의 패키지이며, 부호화 및 복호화의 단위가 될 수 있다. 구체적으로, 프레임은 시간 도메인 데이터를 주파수 도메인으로 변환하기 위해 고속 푸리에 변환(FFT, fast fourier transform)을 적용할 수 있는 기본 단위가 될 수 있다. 이때, 각 프레임은 하나의 주파수 도메인 스펙트럼을 생성할 수 있다.Here, a frame is a package of information transmitted in a unit of data communication or the like, and can be a unit of encoding and decoding. In particular, a frame may be a basic unit that can apply a fast fourier transform (FFT) to transform time domain data into the frequency domain. At this time, each frame can generate one frequency domain spectrum.

종래의 오디오 부호화 장치는 고정된 프레임의 길이로 오디오 신호를 처리하였다. 예를 들어, 대표적인 부호화 기술로는 ITU-T(International Telecommunication Union-Telecommunication Standardization Sector)의 G.723.1, G.729 등이 있는데, G.723.1은 30ms, G.729는 10ms의 고정된 길이의 프레임으로 동작한다. 그리고 AMR-NB(adaptive multi rate-narrow band) 부호화 장치는 20ms의 고정된 길이의 프레임으로 동작한다. 이와 같이, 고정된 길이의 프레임으로 오디오 신호를 처리하는 경우에는 입력되는 오디오 신호의 특성, 예를 들어, 어택의 위치 및 강도 등을 반영하지 못하고 오디오 신호를 부호화하게 되므로, 압축 효율이 떨어지거나 음질이 저하될 수 있다.The conventional audio coding apparatus processes audio signals with a fixed frame length. For example, G.723.1 and G.729 of the International Telecommunication Union-Telecommunication Standardization Sector (ITU-T) are a typical coding technique. G.723.1 is a frame having a fixed length of 30 ms, G.729 is a frame having a fixed length of 10 ms . The AMR-NB (adaptive multi-rate-narrow band) coding apparatus operates with a fixed length frame of 20 ms. In the case of processing an audio signal with a frame having a fixed length, the audio signal is encoded without reflecting the characteristics of the input audio signal, for example, the position and intensity of the attack, Can be lowered.

구체적으로, 프레임 결정부(11)는 입력 신호(IN)의 소리가 발생하는 어택 위치에 따라 입력 신호(IN)를 정적 구간(stationary region) 및 천이 구간(transition region)으로 구별한다. 예를 들어, 프레임 결정부(11)는 입력 신호(IN)에서 어택이 존재하는 영역은 천이 구간으로 하고, 그 외의 영역은 정적 구간으로 할 수 있다. 프레임 결정부(11)는 천이 구간의 경우 입력 신호(IN)의 어택의 강도에 따라 가변 프레임의 길이를 짧게 결정할 수 있고, 정적 구간의 경우 입력 신호(IN)의 정적인 정도에 따라, 즉, 어택이 존재하지 않는 범위에 따라 가변 프레임의 길이를 길게 결정할 수 있다.Specifically, the frame determination unit 11 distinguishes the input signal IN as a stationary region and a transition region according to an attack position at which the sound of the input signal IN is generated. For example, the frame determination unit 11 may determine that the region where the attack exists in the input signal IN is a transition region, and the other region is a static region. The frame determining unit 11 can determine the length of the variable frame to be short according to the intensity of the attack of the input signal IN in the transition period and can determine the length of the variable frame in accordance with the static degree of the input signal IN, The length of the variable frame can be determined to be long depending on the range in which no attack exists.

보다 상세하게 설명하면, 프레임 결정부(11)는 어택이 존재하는 천이 구간의 경우에 어택의 강도가 클수록 가변 프레임의 길이를 짧게 결정하여, 짧은 구간에 대한 부호화를 수행함으로써 시간 해상도(time resolution)를 높일 수 있다. 해상도(resolution)는 보통 화면 등에서 이미지의 정밀도를 나타내는 지표로 사용되며, 오디오 영역에서 시간 해상도는 오디오 신호의 시간 방향의 해상도, 즉, 정밀도를 나타낸다. More specifically, the frame determination unit 11 determines the length of the variable frame as the attack strength increases in the transition period in which the attack exists, . The resolution is usually used as an index indicating the accuracy of an image on a screen or the like. In the audio area, the time resolution indicates the temporal resolution of the audio signal, that is, the precision.

이와 반대로, 프레임 결정부(11)는 어택이 존재하지 않는 정적 구간의 경우에 입력 신호(IN)의 정적인 정도에 따라, 즉, 어택이 존재하지 않는 범위에 따라 가변 프레임의 길이를 길게 결정하여 보다 긴 구간에 대한 부호화를 수행함으로써 시간 해상도는 제한되지만, 보다 긴 시간 동안 주파수와 입력 신호(IN)의 변화를 검출할 수 있으므로, 주파수 해상도(frequency resolution)를 높일 수 있다. 오디오 영역에서 주파수 해상도는 주파수 방향의 해상도, 즉, 정밀도를 나타낸다. 이는 시간과 주파수가 반비례 관계임을 근거로 할 때, 더욱 명확해진다.On the contrary, in the case of a static section in which there is no attack, the frame determining section 11 determines the length of the variable frame to be long according to the degree of staticness of the input signal IN, that is, The time resolution is limited by performing encoding for a longer interval, but it is possible to detect the change of the frequency and the input signal IN for a longer time, thereby increasing the frequency resolution. In the audio domain, the frequency resolution represents the resolution in the frequency direction, that is, the precision. This becomes clearer on the basis that time and frequency are inversely related.

이와 같이, 프레임의 길이를 가변적으로 결정하여 천이 구간과 같이 소리의 변동이 심한 영역에서는 시간 해상도를 높여주고, 주파수 해상도를 제한하며, 정적 구간과 같이 소리의 변동이 없는 영역에서는 주파수 해상도를 높여주고, 시간 해상도를 제한하여 부호화함으로써 부호화 성능을 향상할 수 있다.As described above, the frame length is variably determined. In a region where the sound fluctuates as much as the transition period, the time resolution is increased, the frequency resolution is limited, and the frequency resolution is increased in the region where there is no sound variation , And coding is performed by restricting the time resolution, thereby improving the coding performance.

또한, 프레임 결정부(11)는 시간 도메인의 입력 신호(IN)를 주파수 도메인으로 변환(transform)하는 경우의 윈도우의 길이를 입력 신호(IN)의 어택 위치에 따라 결정한다. 입력 신호(IN)는 시간 도메인의 PCM 신호이므로 이를 주파수 도메인으로 변환할 필요가 있다. 불연속 푸리에 변환 및 고속 푸리에 변환 등에 있어서 처리할 데이터는 주기적으로 반복되는 신호의 일정 구간이므로, 시간 도메인에서 주파수 도메인으로의 변환이 수행되는 경우 신호의 일정 구간을 선택하여야 하므로 이 때 윈도우가 사용된다. 이와 같이, 윈도우를 시간 도메인의 입력 신호(IN)에 적용하여 시간 도메인에서 주파수 도메인으로의 변환을 수행할 수 있다. 시간 및 주파수는 역수 관계로서, 윈도우의 폭이 좁으면 시간 해상도는 좋아지지만, 주파수 해상도는 나빠지며, 윈도우의 폭이 넓으면 주파수 해상도는 좋아지지만, 시간 해상도는 나빠진다. 이는 프레임의 길이를 어택의 위치에 따라 가변적으로 조정하는 것과 유사하다.The frame determination unit 11 determines the length of the window when transforming the input signal IN in the time domain into the frequency domain according to the attack position of the input signal IN. Since the input signal IN is a PCM signal in the time domain, it is necessary to convert it into the frequency domain. Since the data to be processed in the discontinuous Fourier transform and the fast Fourier transform is a constant interval of the periodically repeated signal, when a conversion from the time domain to the frequency domain is performed, a certain period of the signal must be selected. In this manner, the window can be transformed from the time domain to the frequency domain by applying the window to the input signal IN of the time domain. Time and frequency are reciprocal. As the window width is narrow, the temporal resolution is improved. However, the frequency resolution is worse. If the window width is wide, the frequency resolution is improved, but the temporal resolution is worse. This is analogous to adjusting the length of the frame variably according to the position of the attack.

또한, 프레임 결정부(11)는 입력 신호(IN)의 어택 위치 및 강도 등과 같은 어택 정보를 부호화부(15)에 제공할 수 있다.Further, the frame determination unit 11 can provide the encoding unit 15 with attack information such as an attack position and an intensity of the input signal IN.

도메인 변환부(12)는 각 프레임 별로 입력 신호(IN)를 주파수 도메인으로 변환하고, 변환된 주파수 도메인의 신호를 서브 밴드 별로 분할한다. 구체적으로, 도메인 변환부(12)는 입력 신호(IN)를 수신하고, 프레임 결정부(11)의 출력을 기초로, 즉, 프레임 결정부(11)에서 결정된 프레임의 길이를 기초로 입력 신호(IN)의 프레임을 가변적으로 조정한다. 그리고, 도메인 변환부(12)는 주파수 도메인으로 변환된 신호를 서브 밴드 별로 분할하여 도메인 결정부(13)에 제공한다. The domain converter 12 converts the input signal IN into a frequency domain for each frame and divides the converted frequency domain signal by subband. Specifically, the domain conversion unit 12 receives the input signal IN and, based on the output of the frame determination unit 11, that is, based on the length of the frame determined by the frame determination unit 11, IN) is variably adjusted. The domain converter 12 divides the frequency domain converted signal into subbands and provides the divided signals to the domain determiner 13. [

예를 들어, 시간 도메인의 입력 신호(IN)는 MDCT(modified discrete cosine transform)에 의해 주파수 도메인으로 변환되어 실수부로 표현되고, MDST(modified discrete sine transform)에 의해 주파수 도메인으로 변환되어 허수부로 표현될 수 있다. 여기서, MDCT에 의해 변환되어 실수부로 표현된 신호는 입력 신호(IN)를 부호화하는데 사용되고, MDST에 의해 변환되어 허수부로 표현된 신호는 심리 음향 모델을 적용하는데 이용된다. For example, the input signal IN in the time domain is transformed into a frequency domain by a modified discrete cosine transform (MDCT), expressed as a real part, transformed into a frequency domain by a modified discrete sine transform (MDST) . Here, the signal converted by the MDCT and represented by the real part is used for encoding the input signal IN, and the signal converted by the MDST and expressed by the imaginary part is used for applying the psychoacoustic model.

도메인 결정부(13)는 프레임 결정부(11)에서 어택의 위치 등과 같은 입력 신호(IN)의 특성에 따라 길이가 각각 서로 다르게 결정된 프레임을 기초로 서브 밴드 별로 입력 신호를 주파수 도메인에서 부호화할지 시간 도메인에서 부호화할지 여부를 결정한다. 구체적으로, 도메인 결정부(13)는 선형 예측 부호화 이득(linear prediction coding gain), 인접한 프레임의 선형 예측 필터 간의 스펙트럼 변화, 주파수 스펙트럼의 기울기(spectral tilt) 등과 같은 스펙트럴 계측(spectral measure) 방식, 각 대역의 신호 에너지 크기, 대역 간의 신호 에너지 변화 등과 같은 에너지 계측(energy measure) 방식, 예측된 피치 지연(predicted pitch delay), 예측된 장기 예측 이득(predicted long term prediction gain) 등과 같은 장기 예측 추정(long term prediction estimation) 방식, 및 유성음/무성음을 구별하는 음성 레벨 결정도(voicing level determination)를 기초로 밴드 별로 부호화 도메인을 결정할 수 있다.The domain determination unit 13 determines whether the input signal IN is to be encoded in the frequency domain on a subband basis based on a frame whose length is determined to be different from each other according to the characteristics of the input signal IN, And decides whether to encode in the domain. Specifically, the domain determination unit 13 may use a spectral measure method such as a linear prediction coding gain, a spectrum change between linear prediction filters of adjacent frames, a spectral tilt of a frequency spectrum, A long term prediction estimation such as an energy measure method such as a signal energy size of each band, a signal energy change between bands, a predicted pitch delay, a predicted long term prediction gain, a long term prediction estimation method, and a voicing level determination method for discriminating voiced / unvoiced sounds.

도메인 역변환부(14)는 도메인 결정부(13)의 출력을 기초로, 즉, 도메인 결정부(13)에서 시간 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 시간 도메인으로 역변환한다. The domain inverting unit 14 inversely converts the signal of the subband determined to be encoded in the time domain into the time domain based on the output of the domain determination unit 13, that is, the domain determination unit 13.

이와 같이, 프레임 결정부(11) 및 도메인 결정부(13)에 의해 입력 신호(IN)의 프레임 길이는 각각 달라지고, 입력 신호(IN)는 각각의 프레임에서 서브 밴드 별로 분할된 후, 각각의 주파수 밴드에서 부호화될 도메인이 결정된다. 그리하여, 프레임 및 주파수 밴드 별로 각각 서로 다른 도메인에서 부호화된다.As described above, the frame length of the input signal IN is varied by the frame determination unit 11 and the domain determination unit 13, the input signal IN is divided into subbands in each frame, The domain to be encoded in the frequency band is determined. Thus, each frame and each frequency band are encoded in different domains.

부호화부(15)는 주파수 도메인 부호화부(151) 및 시간 도메인 부호화부(152)를 포함한다. 주파수 도메인 부호화부(151)는 도메인 결정부(13)의 결정 결과 주파수 도메인에서 부호화하는 것으로 결정된 경우 도메인 변환부(12)로부터 신호를 수신하여 주파수 도메인에서 부호화한다. 시간 도메인 부호화부(152)는 도메인 결정부(13)의 결정 결과 시간 도메인에서 부호화하는 것으로 결정된 경우 도메인 역변환부(14)로부터 신호를 수신하여 시간 도메인에서 부호화한다.The encoding unit 15 includes a frequency domain encoding unit 151 and a time domain encoding unit 152. The frequency domain encoding unit 151 receives the signal from the domain conversion unit 12 and encodes it in the frequency domain if it is determined to perform encoding in the frequency domain of the decision result of the domain determination unit 13. The time domain encoding unit 152 receives the signal from the domain inversion unit 14 and encodes it in the time domain when it is determined to perform the encoding in the time domain, as a result of determination by the domain determination unit 13.

또한, 다른 실시예에서, 부호화부(15)는 주파수 도메인 부호화부(151) 및 시 간 도메인 부호화부(152)를 포함하고, 도메인 변환부(12) 및 도메인 역변환부(14)로부터 제공된 신호는 일단 주파수 도메인 부호화부로 입력될 수 있다. 이 경우, 도메인 역변환부(14)에서 생성된 시간 도메인 신호는 다시 시간 도메인 부호화부로 출력될 수 있다. 부호화부(15)는 프레임 결정부(11)로부터 입력 신호(IN)의 어택 위치 및 강도 등과 같은 어택 정보를 제공받아 입력 신호(IN)의 부호화에 적응적으로 이용할 수 있다.In another embodiment, the encoding unit 15 includes a frequency domain encoding unit 151 and a time domain encoding unit 152, and the signals provided from the domain conversion unit 12 and the domain inversion unit 14 are And may be input to the frequency domain encoding unit. In this case, the time domain signal generated by the domain inversion unit 14 may be output to the time domain encoding unit. The encoding unit 15 may receive attack information such as an attack position and intensity of the input signal IN from the frame determination unit 11 and adaptively use the information to encode the input signal IN.

다중화부(16)는 주파수 도메인 부호화부(151) 및 시간 도메인 부호화부(151)의 출력을 수신하고, 즉, 주파수 도메인에서 부호화된 결과 및 시간 도메인에서 부호화된 결과를 수신하고 다중화(multiplexing)하여 비트 스트림(bit stream)을 생성한다.The multiplexing unit 16 receives the outputs of the frequency domain encoding unit 151 and the time domain encoding unit 151 and receives and multiplexes the results encoded in the frequency domain and the time domain, And generates a bit stream.

도 2는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 조정되는 프레임을 나타내는 그래프이다.FIG. 2 is a graph illustrating a frame to be adjusted in an audio / speech signal encoding apparatus according to an embodiment of the present invention. Referring to FIG.

도 2를 참조하면, 도 1의 오디오/스피치 신호의 부호화 장치에 포함된 프레임 결정부에 의해 입력 신호의 프레임의 길이는 서로 다르게 결정될 수 있다. 예를 들어, 제1 프레임(21)의 길이는 15ms이고, 제2 및 제3 프레임(22, 23)의 길이는 5ms이며, 제4 프레임(24)의 길이는 10ms이고, 제5 프레임(25)의 길이는 5ms이다. 즉, 제1 프레임(21)의 길이가 제일 길고, 다음으로 제4 프레임(24)의 길이가 길며, 제2, 제3 및 제5 프레임(22, 23, 25)의 길이가 가장 짧다.Referring to FIG. 2, the length of a frame of an input signal may be determined differently by a frame determination unit included in the audio / speech signal encoding apparatus of FIG. For example, the length of the first frame 21 is 15 ms, the length of the second and third frames 22 and 23 is 5 ms, the length of the fourth frame 24 is 10 ms, ) Is 5 ms. That is, the length of the first frame 21 is the longest, the length of the fourth frame 24 is long, and the lengths of the second, third and fifth frames 22, 23 and 25 are the shortest.

프레임의 길이가 5ms로 가장 짧은 제2, 제3 및 제5 프레임(22, 23, 25)은 어택이 발견된 천이 구간일 수 있다. 어택이 발견된 경우 프레임의 길이를 짧게 조정 하고, 변환 윈도우를 짧게 하여 시간 해상도를 향상시킬 수 있다. 프레임의 길이가 15ms로 가장 긴 제1 프레임(21)은 어택이 발견되지 않은 정적 구간일 수 있다. 어택이 발견되지 않은 경우 정적인 정도에 따라, 즉, 어택의 발견 간격 등에 따라 프레임의 길이를 길게 조정하고, 변환 윈도우를 길게 하여 주파수 해상도를 향상시킬 수 있다.The second, third, and fifth frames 22, 23, 25 having the shortest frame length of 5 ms may be the transition period in which the attack is found. If an attack is found, the length of the frame can be shortened and the conversion window can be shortened to improve the temporal resolution. The first frame 21 having the longest frame length of 15 ms may be a static section in which no attack is found. If an attack is not found, the length of the frame can be adjusted to be long according to the degree of staticness, that is, the detection interval of the attack, and the frequency resolution can be improved by lengthening the conversion window.

도 3은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 프레임 및 밴드 별 부호화 도메인을 나타내는 그래프이다.FIG. 3 is a graph illustrating encoding domains for each frame and band in an audio / speech signal encoding apparatus according to an exemplary embodiment of the present invention. Referring to FIG.

도 2 및 도 3을 참조하면, 도 1의 오디오/스피치 신호의 부호화 장치에 포함된 도메인 결정부에 의해 입력 신호의 주파수 밴드 별로 부호화 도메인은 서로 다르게 결정될 수 있다. 상술한 바와 같이, 도메인 결정부는 입력 신호의 특성에 따라 부호화에 유리한 도메인을 주파수 밴드 별로 적응적으로 결정할 수 있다. 도 3에서 흰색 영역은 주파수 도메인 부호화 구간(frequency domain coding region)이고, 검은색 점으로 채워진 영역은 시간 도메인 부호화 구간(time domain coding region)를 나타낸다.Referring to FIGS. 2 and 3, the encoding domain of the input signal may be determined differently by the domain determination unit included in the audio / speech signal encoding apparatus of FIG. As described above, the domain determination unit can adaptively determine a domain that is advantageous for encoding according to the characteristics of the input signal for each frequency band. In FIG. 3, a white region is a frequency domain coding region and a black dot region is a time domain coding region.

예를 들어, 제1 프레임(21)에서 0에서 6kHz의 주파수 밴드(211)는 시간 도메인에서 부호화하고, 6kHz에서 10kHz의 주파수 밴드(212)는 주파수 도메인에서 부호화하도록 부호화 도메인을 주파수 밴드 별로 결정할 수 있다. 제2 프레임(22)의 0에서 6kHz의 주파수 밴드(221)은 시간 도메인에서 부호화하고, 6kHz에서 10kHz의 주파수 밴드(222)은 주파수 도메인에서 부호화하도록 부호화 도메인을 주파수 밴드 별로 결정할 수 있다. 제3 프레임(23)의 0에서 6kHz의 주파수 밴드(231)는 시간 도 메인에서 부호화하고, 6kHz에서 10kHz의 주파수 밴드(232)는 주파수 도메인에서 부호화하도록 부호화 도메인을 주파수 밴드 별로 결정할 수 있다. 제4 프레임(24)의 경우 0에서 10kHz의 주파수 밴드(240)는 모두 주파수 도메인에서 부호화하도록 부호화 도메인을 결정할 수 있다. 제5 프레임(25)의 경우 0에서 4kHz의 주파수 밴드(251)는 시간 도메인에서 부호화하고, 4kHz에서 10kHz의 주파수 밴드(252)는 주파수 도메인에서 부호화하도록 부호화 도메인을 주파수 대역 별로 결정할 수 있다.For example, in the first frame 21, a frequency band 211 of 0 to 6 kHz is encoded in the time domain, and a frequency domain of 6 kHz to 10 kHz is encoded in the frequency domain. have. The frequency band 221 of 0 to 6 kHz of the second frame 22 is encoded in the time domain and the frequency domain of 6 kHz to 10 kHz is encoded in the frequency domain. The frequency band 231 of 0 to 6 kHz of the third frame 23 is coded in the time domain and the frequency domain of 6 kHz to 10 kHz is encoded in the frequency domain. In the case of the fourth frame 24, the frequency domain 240 of 0 to 10 kHz may all be determined to be encoded in the frequency domain. In the fifth frame 25, the frequency band 251 of 0 to 4 kHz may be encoded in the time domain and the frequency domain 252 of 4 kHz to 10 kHz may be encoded in the frequency domain.

종래의 오디오/스피치 신호의 부호화 장치는 일정한 길이의 프레임에서 주파수 밴드 별로 부호화 도메인을 달리하였으나, 본 발명의 일 실시예에 의한 오디오/스피치 신호의 부호화 장치는 입력 신호의 특성에 따라 프레임의 길이를 가변적으로 조정하고, 프레임에서 주파수 밴드 별로 부호화 도메인을 달리할 수 있다. 이로써, 입력 신호의 어택의 위치 및 강도에 따라 프레임의 길이 및 윈도우 타입을 달리할 수 있으므로 시간 해상도 및 주파수 해상도를 향상시킬 수 있다.In the conventional apparatus for encoding an audio / speech signal, the encoding domain is different for each frequency band in a frame having a predetermined length. However, the apparatus for encoding an audio / speech signal according to an exemplary embodiment of the present invention, And the encoding domain may be different for each frequency band in the frame. Thus, the length of the frame and the window type can be different according to the position and the intensity of the attack of the input signal, so that the time resolution and the frequency resolution can be improved.

도 4는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 장치를 나타내는 블록도이다.4 is a block diagram illustrating an audio / speech signal decoding apparatus according to an embodiment of the present invention.

도 4를 참조하면, 오디오/스피치 신호의 복호화 장치는 역다중화부(41), 판단부(42) 및 복호화부(43)를 포함한다. 또한, 오디오/스피치 신호의 복호화 장치는 도메인 역변환부(44)를 더 포함할 수 있다. Referring to FIG. 4, the apparatus for decoding an audio / speech signal includes a demultiplexer 41, a determination unit 42, and a decoding unit 43. Further, the apparatus for decoding an audio / speech signal may further include a domain inverting unit 44.

역다중화부(41)는 비트 스트림을 수신하고 역다중화(demultiplexing)하여 주파수 도메인에서 부호화된 결과 및 시간 도메인에서 부호화된 결과를 출력한다. The demultiplexer 41 receives and demultiplexes the bitstream, and outputs a result encoded in the frequency domain and a result encoded in the time domain.

판단부(42)는 역다중화된 신호로부터 얻은 정보를 기초로 역다중화된 신호의 프레임 길이 및 주파수 밴드 별로 부호화된 도메인을 판단하고, 판단 결과를 복호화부(43)에 제공한다. 역다중화된 신호의 부호화 도메인은 프레임 길이 및 주파수 밴드 별로 서로 다를 수 있다.The determination unit 42 determines a domain encoded according to the frame length and the frequency band of the demultiplexed signal based on the information obtained from the demultiplexed signal, and provides the determination result to the decoding unit 43. The encoding domain of the demultiplexed signal may be different for each frame length and frequency band.

복호화부(43)는 주파수 도메인 복호화부(431) 및 시간 도메인 복호화부(432)를 포함한다. 구체적으로, 주파수 도메인 복호화부(431)는 판단부(42)의 판단 결과 역다중화된 신호가 주파수 도메인에서 부호화된 경우 역다중화된 신호를 주파수 도메인에서 복호화한다. 또한, 시간 도메인 복호화부(432)는 판단부(42)의 판단 결과 역다중화된 신호가 시간 도메인에서 부호화된 경우 역다중화된 신호를 시간 도메인에서 복호화한다. The decoding unit 43 includes a frequency domain decoding unit 431 and a time domain decoding unit 432. More specifically, when the demultiplexed signal is encoded in the frequency domain, the frequency domain decoding unit 431 decodes the demultiplexed signal in the frequency domain. The time domain decoding unit 432 decodes the demultiplexed signal in the time domain when the demultiplexed signal is encoded in the time domain as a result of the determination by the determination unit 42. [

또한, 다른 실시예에서, 복호화부(43)는 주파수 도메인 복호화부(431) 및 시간 도메인 복호화부(432)를 포함하고, 역다중화된 신호는 주파수 도메인 복호화부(431)로 일단 입력될 수 있다. 이 경우, 판단부(42)의 판단 결과 역다중화된 신호가 시간 도메인에서 부호화된 경우에는 주파수 도메인 복호화부(431)에 입력된 신호는 다시 시간 도메인 복호화부(432)로 출력될 수 있다.In another embodiment, the decoding unit 43 includes a frequency domain decoding unit 431 and a time domain decoding unit 432, and the demultiplexed signal can be input to the frequency domain decoding unit 431 once . In this case, when the demultiplexed signal is coded in the time domain as a result of the determination by the determination unit 42, the signal input to the frequency domain decoding unit 431 may be output to the time domain decoding unit 432 again.

도메인 역변환부(44)는 복호화부(43)의 출력을 수신하고, 즉, 복호화된 신호를 수신하고 시간 도메인에서 복호화된 신호 및 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환한다.The domain inverting unit 44 receives the output of the decoding unit 43, that is, receives the decoded signal, synthesizes the decoded signal in the time domain and the decoded signal in the frequency domain, and inversely converts the decoded signal into the time domain.

도 5는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 방법을 나타내는 흐름도이다.5 is a flowchart illustrating a method of encoding an audio / speech signal according to an embodiment of the present invention.

도 5를 참조하면, 51 단계에서 입력 신호의 처리 단위인 프레임의 길이를 입 력 신호의 어택(attack) 위치에 따라 가변적으로 결정한다. 구체적으로, 입력 신호를 어택 위치에 따라 정적 구간 또는 천이 구간으로 구별하고, 정적 구간 및 천이 구간에서 프레임의 길이를 다르게 결정한다. 예를 들어, 정적 구간에는 긴 프레임을 적용하고, 천이 구간에는 어택 강도에 따라 짧은 프레임을 적용할 수 있다.Referring to FIG. 5, in step 51, a length of a frame, which is a processing unit of an input signal, is variably determined according to an attack position of an input signal. Specifically, the input signal is classified into a static section or a transition section according to an attack position, and a length of a frame is determined differently in a static section and a transition section. For example, a long frame may be applied to the static section, and a short frame may be applied to the transition section depending on the attack strength.

52 단계에서 각 프레임 별로 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할한다. In step 52, the input signal is transformed into the frequency domain for each frame, and the input signal is divided into subbands.

53 단계에서 분할된 서브 밴드의 신호를 주파수 도메인에서 부호화할지 판단한다. 다시 말해, 분할된 서브 밴드의 신호를 주파수 도메인에서 부호화할지 시간 도메인에서 부호화할지 여부를 결정한다. In step 53, it is determined whether the signals of the divided subbands are to be encoded in the frequency domain. In other words, it is determined whether the signals of the divided subbands are to be encoded in the frequency domain or in the time domain.

54 단계에서 주파수 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 주파수 도메인에서 부호화한다.In step 54, the subband signal determined to be encoded in the frequency domain is encoded in the frequency domain.

55 단계에서 시간 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 시간 도메인으로 역변환하여 시간 도메인에서 부호화한다.In step 55, the signal of the subband determined to be encoded in the time domain is inversely transformed into the time domain and is encoded in the time domain.

도 6은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 방법을 나타내는 흐름도이다.6 is a flowchart illustrating a method of decoding an audio / speech signal according to an embodiment of the present invention.

도 6을 참조하면, 61 단계에서 부호화된 신호의 프레임 및 서브 밴드 별로 부호화된 도메인을 판단한다. Referring to FIG. 6, in step 61, the encoded domain of the signal and the subband is determined.

62 단계에서 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인에서 복호화하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인에서 복호화한다.In step 62, the signal determined to be encoded in the time domain is decoded in the time domain, and the signal determined to be encoded in the frequency domain is decoded in the frequency domain.

63 단계에서 시간 도메인에서 복호화된 신호 및 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환한다.In operation 63, the signal decoded in the time domain and the signal decoded in the frequency domain are synthesized and inverse transformed into the time domain.

본 발명은 상술한 실시예에 한정되지 않으며, 본 발명의 사상 내에서 당업자에 의한 변형이 가능함은 물론이다.It is needless to say that the present invention is not limited to the above-described embodiments, and can be modified by those skilled in the art within the scope of the present invention.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.The present invention can also be embodied as computer-readable codes on a computer-readable recording medium. A computer-readable recording medium includes all kinds of recording apparatuses in which data that can be read by a computer system is stored. Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, magnetic tape, hard disk, floppy disk, flash memory, optical data storage, And the like. The computer readable recording medium may also be distributed over a networked computer system and stored and executed as computer readable code in a distributed manner.

상술한 바와 같이, 본 발명에 따른 오디오/스피치 신호의 부호화 장치 및 방법에 의하면, 입력 신호의 어택 위치에 따라 조정되는 프레임의 길이 및 주파수 밴드 별로 결정된 부호화 도메인에 따라 부호화를 수행함으로써, 시간 해상도 및 주파수 해상도를 조절하여 오디오/스피치 신호를 부호화할 때 압축 효율 및 음질을 향상시킬 수 있다.As described above, according to the apparatus and method for encoding an audio / speech signal according to the present invention, encoding is performed according to a coding domain determined according to a length of a frame and a frequency band adjusted according to an attack position of an input signal, The compression efficiency and sound quality can be improved when the audio / speech signal is encoded by adjusting the frequency resolution.

또한, 본 발명에 따른 오디오/스피치 신호의 복호화 장치 및 방법에 의하면, 프레임의 길이 및 주파수 밴드 별로 결정된 복호화 도메인에 따라 적응적으로 복호 화를 수행함으로써, 시간 해상도 및 주파수 해상도를 조절하여 오디오/스피치 신호를 복호화할 때 압축 효율 및 음질을 향상시킬 수 있다.According to the apparatus and method for decoding an audio / speech signal according to the present invention, decoding is performed adaptively according to a decoding domain determined according to a length of a frame and a frequency band, thereby adjusting a time resolution and a frequency resolution, The compression efficiency and the sound quality can be improved when the signal is decoded.

Claims (13)

삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 부호화된 신호의 프레임별로 부호화된 도메인을 판단하는 단계;Determining a domain encoded for each frame of the encoded signal; 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인 복호화를 수행하여 시간 도메인 복원신호를 생성하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인 복호화를 수행한 다음 시간 도메인 복원신호를 생성하는 단계; 및Generating a time domain reconstruction signal by performing time domain decoding on a signal determined to be encoded in a time domain, generating a time domain reconstruction signal by performing frequency domain decoding on a signal determined to be encoded in the frequency domain, And 서로 다른 도메인에서 복호화되어 생성된 상기 시간 도메인 복원신호를 각 프레임의 복원신호로 제공하는 단계를 포함하며,And providing the time domain restoration signal, which is generated by decoding in different domains, as a restoration signal of each frame, 상기 시간 도메인 복호화시 장구간 예측과 고정 코드북을 사용하는 것을 특징으로 하는 오디오/스피치 신호의 복호화 방법.Wherein the long-term prediction and the fixed codebook are used in the time-domain decoding. 제11항의 오디오/스피치 신호의 복호화 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.A computer-readable recording medium having recorded thereon a program for executing the method of decoding an audio / speech signal according to claim 11. 부호화된 신호의 프레임별로 부호화된 도메인을 판단하는 판단부; 및A determination unit for determining a domain encoded for each frame of the encoded signal; And 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인 복호화를 수행하여 시간 도메인 복원신호를 생성하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인 복호화를 수행한 다음 시간 도메인 복원신호를 생성하고, 서로 다른 도메인에서 복호화되어 생성된 상기 시간 도메인 복원신호를 각 프레임의 복원신호로 제공하는 복호화부를 포함하며,The signal determined to be encoded in the time domain is time domain decoded to generate a time domain reconstructed signal, the signal determined to be encoded in the frequency domain is frequency domain decoded and then a time domain reconstructed signal is generated, And a decoding unit for providing the time domain restoration signal, which is generated by decoding in another domain, as a restoration signal of each frame, 상기 시간 도메인 복호화시 장구간 예측과 고정 코드북을 사용하는 것을 특징으로 하는 오디오/스피치 신호의 복호화 장치.Wherein the long-term prediction and the fixed codebook are used in the time-domain decoding.
KR1020070040042A 2007-04-24 2007-04-24 Method and Apparatus for decoding audio/speech signal KR101393300B1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020070040042A KR101393300B1 (en) 2007-04-24 2007-04-24 Method and Apparatus for decoding audio/speech signal
US11/872,116 US8630863B2 (en) 2007-04-24 2007-10-15 Method and apparatus for encoding and decoding audio/speech signal
US14/132,224 US9418666B2 (en) 2007-04-24 2013-12-18 Method and apparatus for encoding and decoding audio/speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070040042A KR101393300B1 (en) 2007-04-24 2007-04-24 Method and Apparatus for decoding audio/speech signal

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020130118803A Division KR101441312B1 (en) 2013-10-04 2013-10-04 Method and Apparatus for encoding audio/speech signal

Publications (2)

Publication Number Publication Date
KR20080095491A KR20080095491A (en) 2008-10-29
KR101393300B1 true KR101393300B1 (en) 2014-05-12

Family

ID=40155145

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070040042A KR101393300B1 (en) 2007-04-24 2007-04-24 Method and Apparatus for decoding audio/speech signal

Country Status (1)

Country Link
KR (1) KR101393300B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101027969B1 (en) * 2008-12-29 2011-04-13 전자부품연구원 Apparatus and method of an multi-resoultion frequency detection based recursive discrete fourier transform
EP2525357B1 (en) * 2010-01-15 2015-12-02 LG Electronics Inc. Method and apparatus for processing an audio signal

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002056297A1 (en) * 2001-01-11 2002-07-18 Sasken Communication Technologies Limited Adaptive-block-length audio coder
JP2006126372A (en) 2004-10-27 2006-05-18 Canon Inc Audio signal coding device, method, and program
KR100647336B1 (en) * 2005-11-08 2006-11-23 삼성전자주식회사 Apparatus and method for adaptive time/frequency-based encoding/decoding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002056297A1 (en) * 2001-01-11 2002-07-18 Sasken Communication Technologies Limited Adaptive-block-length audio coder
JP2006126372A (en) 2004-10-27 2006-05-18 Canon Inc Audio signal coding device, method, and program
KR100647336B1 (en) * 2005-11-08 2006-11-23 삼성전자주식회사 Apparatus and method for adaptive time/frequency-based encoding/decoding

Also Published As

Publication number Publication date
KR20080095491A (en) 2008-10-29

Similar Documents

Publication Publication Date Title
US10885926B2 (en) Classification between time-domain coding and frequency domain coding for high bit rates
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
KR101373004B1 (en) Apparatus and method for encoding and decoding high frequency signal
US9418666B2 (en) Method and apparatus for encoding and decoding audio/speech signal
KR101078625B1 (en) Systems, methods, and apparatus for gain factor limiting
JP5357055B2 (en) Improved digital audio signal encoding / decoding method
JP5203929B2 (en) Vector quantization method and apparatus for spectral envelope display
RU2485606C2 (en) Low bitrate audio encoding/decoding scheme using cascaded switches
RU2483364C2 (en) Audio encoding/decoding scheme having switchable bypass
KR101435893B1 (en) Method and apparatus for encoding and decoding audio signal using band width extension technique and stereo encoding technique
JP5628163B2 (en) Apparatus and method for generating bandwidth extended output data
KR100721537B1 (en) Apparatus and Method for Highband Coding of Splitband Wideband Speech Coder
RU2636685C2 (en) Decision on presence/absence of vocalization for speech processing
KR20080005325A (en) Method and apparatus for adaptive encoding/decoding
KR20030046468A (en) Perceptually Improved Enhancement of Encoded Acoustic Signals
KR20080045047A (en) Method and apparatus for bandwidth extension encoding and decoding
JPWO2013168414A1 (en) Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
JP2012532344A (en) Audio signal encoding and decoding apparatus and method using weighted linear predictive transform
US9418671B2 (en) Adaptive high-pass post-filter
KR101441312B1 (en) Method and Apparatus for encoding audio/speech signal
US9390722B2 (en) Method and device for quantizing voice signals in a band-selective manner
KR101393300B1 (en) Method and Apparatus for decoding audio/speech signal
KR101377667B1 (en) Method for encoding audio/speech signal in Time Domain
KR20100006491A (en) Method and apparatus for encoding and decoding silence signal
KR101449432B1 (en) Method and apparatus for encoding and decoding signal

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170427

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180427

Year of fee payment: 5