KR101393300B1 - Method and Apparatus for decoding audio/speech signal - Google Patents
Method and Apparatus for decoding audio/speech signal Download PDFInfo
- Publication number
- KR101393300B1 KR101393300B1 KR1020070040042A KR20070040042A KR101393300B1 KR 101393300 B1 KR101393300 B1 KR 101393300B1 KR 1020070040042 A KR1020070040042 A KR 1020070040042A KR 20070040042 A KR20070040042 A KR 20070040042A KR 101393300 B1 KR101393300 B1 KR 101393300B1
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- domain
- frame
- encoded
- time domain
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 오디오/스피치 신호의 부호화 방법에 관한 것으로, 입력 신호의 처리 단위인 프레임의 길이를 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하고, 각 프레임 별로 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하며, 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 서브 밴드의 신호를 주파수 도메인에서 부호화하고, 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 서브 밴드의 신호를 시간 도메인으로 역변환하여 시간 도메인에서 부호화함으로써, 시간 해상도 및 주파수 해상도를 조절하여 효과적으로 오디오/스피치 신호를 부호화할 수 있다.The present invention relates to a method of coding an audio / speech signal, wherein a length of a frame, which is a processing unit of an input signal, is variably determined according to an attack position of an input signal, and an input signal is transformed into a frequency domain If it is determined that the divided subband signal is encoded in the frequency domain, the subband signal is encoded in the frequency domain. If it is determined that the divided subband signal is encoded in the time domain, The signal is encoded in the time domain by inverse transforming the signal into the time domain, thereby effectively encoding the audio / speech signal by adjusting the time resolution and the frequency resolution.
Description
도 1은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치를 나타내는 블록도이다.1 is a block diagram illustrating an audio / speech signal encoding apparatus according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 조정되는 프레임을 나타내는 그래프이다.FIG. 2 is a graph illustrating a frame to be adjusted in an audio / speech signal encoding apparatus according to an embodiment of the present invention. Referring to FIG.
도 3은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 프레임 및 밴드 별 부호화 도메인을 나타내는 그래프이다.FIG. 3 is a graph illustrating encoding domains for each frame and band in an audio / speech signal encoding apparatus according to an exemplary embodiment of the present invention. Referring to FIG.
도 4는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 장치를 나타내는 블록도이다.4 is a block diagram illustrating an audio / speech signal decoding apparatus according to an embodiment of the present invention.
도 5는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 방법을 나타내는 흐름도이다.5 is a flowchart illustrating a method of encoding an audio / speech signal according to an embodiment of the present invention.
도 6은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 방법을 나타내는 흐름도이다.6 is a flowchart illustrating a method of decoding an audio / speech signal according to an embodiment of the present invention.
본 발명은 오디오(audio) 신호와 스피치(speech) 신호를 부호화 및 복호화하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for encoding and decoding audio and speech signals.
종래의 코덱(codec)은 스피치 코덱과 오디오 코덱으로 분류된다. 스피치 코덱은 음성 발성 모델을 이용하여 주로 50Hz에서 7kHz에 이르는 주파수 대역에 해당하는 신호를 부호화거나 복호화한다. 이러한 스피치 코덱은 일반적으로 성대와 성도를 모델링함으로써 음성 신호를 대표하는 파라미터를 추출하여 부호화 및 복호화를 수행한다. 오디오 코덱은 HE-AAC와 같이 심리 음향 모델을 적용하여 주로 0Hz에서 24kHz에 이르는 주파수 대역에 해당하는 신호를 부호화하거나 복호화한다. 이러한 오디오 코덱은 인간의 청각 특성을 이용하여 감도가 낮은 신호를 생략함으로써 부호화 및 복호화를 수행한다.Conventional codecs are classified into a speech codec and an audio codec. The speech codec encodes or decodes a signal corresponding to a frequency band ranging mainly from 50 Hz to 7 kHz using a speech utterance model. Such a speech codec generally encodes and decodes parameters representative of a speech signal by modeling vocal cords and syllables. The audio codec applies a psychoacoustic model like HE-AAC to encode or decode signals corresponding to a frequency range from 0 Hz to 24 kHz. The audio codec performs coding and decoding by omitting low-sensitivity signals using human auditory characteristics.
그러나, 스피치 코덱은 스피치 신호를 부호화하거나 복호화하는 데 적합하지만, 오디오 신호를 부호화하거나 복호화하는 데 있어서 음질이 저하될 수 있다. 오디오 코덱은 오디오 신호를 부호화하거나 복호화할 경우 압축 효과가 뛰어나지만, 음성 신호를 부호화하거나 복호화함에 있어서 신호를 압축하는 효율이 떨어질 수 있다. 그러므로 스피치 신호, 오디오 신호, 스피치와 오디오가 혼합된 신호를 각각 부호화 또는 복호화함에 있어서 압축 효율 및 음질을 향상시킬 수 있는 방법 및 장치가 요구된다.However, the speech codec is suitable for encoding or decoding a speech signal, but sound quality may be degraded in encoding or decoding an audio signal. The audio codec is excellent in compression effect when encoding or decoding an audio signal, but efficiency of compressing a signal in encoding or decoding a voice signal may be lowered. Therefore, there is a need for a method and apparatus capable of improving compression efficiency and sound quality when encoding or decoding a speech signal, an audio signal, or a mixed signal of speech and audio, respectively.
본 발명이 이루고자 하는 기술적 과제는 입력 신호의 특성을 반영하여 압축 효율 및 음질을 향상시킬 수 있는 오디오/스피치 신호의 부호화 방법 및 장치를 제 공하는데 있다.SUMMARY OF THE INVENTION The present invention is directed to a method and apparatus for encoding an audio / speech signal that can improve compression efficiency and sound quality by reflecting characteristics of an input signal.
본 발명이 이루고자 하는 다른 기술적 과제는 입력 신호의 특성을 반영하여 압축 효율 및 음질을 향상시킬 수 있는 오디오/스피치 신호의 복호화 방법 및 장치를 제공하는데 있다.According to another aspect of the present invention, there is provided a method and apparatus for decoding an audio / speech signal capable of improving compression efficiency and sound quality by reflecting characteristics of an input signal.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 부호화 방법은 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하는 단계, 상기 각 프레임 별로 상기 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 단계, 및 상기 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 주파수 도메인에서 부호화하고, 상기 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 시간 도메인으로 역변환하여 시간 도메인에서 부호화하는 단계를 포함한다.According to another aspect of the present invention, there is provided a method of encoding an audio / speech signal, the method comprising: variably determining a length of a frame, which is a processing unit of an input signal, according to an attack position of the input signal; Converting the input signal into a frequency domain and dividing the input signal into subbands; and if the divided subband signal is determined to be encoded in the frequency domain, encoding the subband signal in a frequency domain, If the signal of the subband is determined to be encoded in the time domain, inverse transforming the signal of the subband into the time domain and encoding in the time domain.
또한, 상기 다른 기술적 과제는 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하는 단계, 상기 각 프레임 별로 상기 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 단계, 및 상기 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 주파수 도메인에서 부호화하고, 상기 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 시간 도메인으로 역변환하여 시간 도메인에서 부호화하는 단계를 포함하는 오디오/스피치 신호의 부호화 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 의해 달성된다.According to another aspect of the present invention, there is provided a method for processing an input signal, the method comprising: varying a length of a frame, which is a processing unit of an input signal, according to an attack position of the input signal; Dividing a signal of the subband into a frequency domain and a frequency domain of the signal of the subband when the signal of the subband is determined to be encoded in the frequency domain; And encoding the audio / speech signal in a time domain by inversely transforming the signal of the subband into a time domain.
또한, 상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 부호화 장치는 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하는 프레임 결정부, 상기 각 프레임 별로 상기 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 도메인 변환부, 상기 분할된 서브 밴드 별로 상기 서브 밴드의 신호를 주파수 도메인에서 부호화할지 시간 도메인에서 부호화할지 여부를 결정하는 도메인 결정부, 시간 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 시간 도메인으로 역변환하는 도메인 역변환부, 및 상기 역변환된 서브 밴드의 신호를 시간 도메인에서 부호화하고, 상기 주파수 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 주파수 도메인에서 부호화하는 부호화부를 포함한다.According to another aspect of the present invention, there is provided an apparatus for encoding an audio / speech signal, the apparatus including: a frame determination unit configured to variably determine a length of a frame, which is a processing unit of an input signal, according to an attack position of the input signal; A domain converter for converting the input signal into a frequency domain and dividing the input signal into subbands for each of the subbands, and determining whether to encode the signals of the subbands in the frequency domain or the time domain for each of the divided subbands, A domain determination unit, a domain inversion unit that inversely transforms a signal of a subband determined to be encoded in the time domain into a time domain, and a subband determination unit that encodes the signal of the inversely transformed subband in a time domain and determines a subband The frequency domain It includes stand encoding unit for encoding.
또한, 상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 복호화 방법은 부호화된 신호의 프레임 및 서브 밴드 별로 부호화된 도메인을 판단하는 단계, 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인에서 복호화하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인에서 복호화하는 단계, 및 상기 시간 도메인에서 복호화된 신호 및 상기 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환하는 단계를 포함한다.According to another aspect of the present invention, there is provided a method of decoding an audio / speech signal, the method comprising: determining a domain coded by a frame and a subband of a coded signal; Decoding the signal in the frequency domain, decoding the signal in the frequency domain, and synthesizing the decoded signal in the time domain and the decoded signal in the frequency domain, do.
또한, 상기 또 다른 기술적 과제는 부호화된 신호의 프레임 및 서브 밴드 별 로 부호화된 도메인을 판단하는 단계, 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인에서 복호화하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인에서 복호화하는 단계, 및 상기 시간 도메인에서 복호화된 신호 및 상기 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환하는 단계를 포함하는 오디오/스피치 신호의 복호화 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 의해 달성된다.According to another aspect of the present invention, there is provided a method of decoding a signal, comprising the steps of: determining a domain encoded by a frame and a subband of the encoded signal; decoding the signal determined to be encoded in the time domain in a time domain; Decoding a signal in a frequency domain, and synthesizing a signal decoded in the time domain and a signal decoded in the frequency domain and inverse-transforming the decoded signal into a time domain, the method comprising: And a computer-readable recording medium recorded thereon.
또한, 상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 복호화 장치는 부호화된 신호의 프레임 및 서브 밴드 별로 부호화된 도메인을 판단하는 판단부, 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인에서 복호화하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인에서 복호화하는 복호화부, 및 상기 시간 도메인에서 복호화된 신호 및 상기 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환하는 도메인 역변환부를 포함한다.According to another aspect of the present invention, there is provided an apparatus for decoding an audio / speech signal, the apparatus including: a determination unit for determining a domain encoded by a frame and a subband of a coded signal; A decoding unit for decoding the signal decoded in the time domain and decoded in the frequency domain, and a decoding unit for decoding the signal decoded in the time domain and the decoded signal in the frequency domain, And an inverse transform unit.
본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다. For the embodiments of the invention disclosed herein, specific structural and functional descriptions are set forth for the purpose of describing an embodiment of the invention only, and it is to be understood that the embodiments of the invention may be practiced in various forms, The present invention should not be construed as limited to the embodiments described in Figs.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 구성요소에 대해 사용하였다. The present invention is capable of various modifications and various forms, and specific embodiments are illustrated in the drawings and described in detail in the text. It should be understood, however, that the invention is not intended to be limited to the particular forms disclosed, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. Similar reference numerals have been used for the components in describing each drawing.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. Terms such as those defined in commonly used dictionaries are to be interpreted as having a meaning consistent with the contextual meaning of the related art and are to be interpreted as either ideal or overly formal in the sense of the present application Do not.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. The same reference numerals are used for the same constituent elements in the drawings and redundant explanations for the same constituent elements are omitted.
도 1은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치를 나타내는 블록도이다.1 is a block diagram illustrating an audio / speech signal encoding apparatus according to an embodiment of the present invention.
도 1을 참조하면, 오디오/스피치 신호의 부호화 장치는 프레임 결정부(11), 도메인 변환부(12), 도메인 결정부(13), 도메인 역변환부(14) 및 부호화부(15)를 포함한다. 또한, 오디오/스피치 신호의 부호화 장치는 다중화부(16)를 더 포함한다.1, an apparatus for encoding an audio / speech signal includes a
프레임 결정부(11)는 입력 신호(IN)를 수신하여 입력 신호(IN)의 처리 단위인 프레임(frame)의 길이를 입력 신호(IN)의 어택(attack) 위치에 따라 가변적으로 결정한다. 입력 신호(IN)는 아날로그의 스피치 신호 또는 오디오 신호를 디지털 신 호로 변조한 PCM(pulse code modulation) 신호일 수 있으며, 입력 신호(IN)는 비주기적으로 어택이 존재할 수 있다. The
여기서, 어택은 소리를 발생, 지속 및 소멸의 세 단계로 나눌 때 발생 부분을 의미한다. 예를 들어, 오케스트라에서 악기의 개시와 같이 한 개의 음표를 시작하는 것일 수 있다. 어택 시간은 소리가 발생한 직후부터 음량이 최고점이 되는 동안의 시간을 의미하며, 이에 대비되는 디케이(decay) 시간은 음량의 최고점에서 중간점에 이르는 시간을 의미한다. 예를 들어, 피아노 건반을 '땅'하고 쳤을 때 '땅' 소리가 최고로 올라갈 때까지의 시간을 어택 시간이라고 하고, 최고점에서 바로 내려가서 그 소리가 유지되기 전까지의 시간이 디케이 시간이다.Here, attack refers to the part that occurs when sound is divided into three stages of generation, continuation and extinction. For example, in an orchestra, it could be to start a single note like the beginning of a musical instrument. The attack time refers to the time during which the volume is peaking from immediately after the sound is generated, and the decay time corresponding to the time from the highest point to the midpoint of the volume. For example, when you hit the piano key 'land', the time until the 'ground' sound rises to the highest is called the attack time, and the time until the sound goes down from the peak is the decay time.
여기서, 프레임은 데이터 통신 등에서 한 단위로 전송되는 정보의 패키지이며, 부호화 및 복호화의 단위가 될 수 있다. 구체적으로, 프레임은 시간 도메인 데이터를 주파수 도메인으로 변환하기 위해 고속 푸리에 변환(FFT, fast fourier transform)을 적용할 수 있는 기본 단위가 될 수 있다. 이때, 각 프레임은 하나의 주파수 도메인 스펙트럼을 생성할 수 있다.Here, a frame is a package of information transmitted in a unit of data communication or the like, and can be a unit of encoding and decoding. In particular, a frame may be a basic unit that can apply a fast fourier transform (FFT) to transform time domain data into the frequency domain. At this time, each frame can generate one frequency domain spectrum.
종래의 오디오 부호화 장치는 고정된 프레임의 길이로 오디오 신호를 처리하였다. 예를 들어, 대표적인 부호화 기술로는 ITU-T(International Telecommunication Union-Telecommunication Standardization Sector)의 G.723.1, G.729 등이 있는데, G.723.1은 30ms, G.729는 10ms의 고정된 길이의 프레임으로 동작한다. 그리고 AMR-NB(adaptive multi rate-narrow band) 부호화 장치는 20ms의 고정된 길이의 프레임으로 동작한다. 이와 같이, 고정된 길이의 프레임으로 오디오 신호를 처리하는 경우에는 입력되는 오디오 신호의 특성, 예를 들어, 어택의 위치 및 강도 등을 반영하지 못하고 오디오 신호를 부호화하게 되므로, 압축 효율이 떨어지거나 음질이 저하될 수 있다.The conventional audio coding apparatus processes audio signals with a fixed frame length. For example, G.723.1 and G.729 of the International Telecommunication Union-Telecommunication Standardization Sector (ITU-T) are a typical coding technique. G.723.1 is a frame having a fixed length of 30 ms, G.729 is a frame having a fixed length of 10 ms . The AMR-NB (adaptive multi-rate-narrow band) coding apparatus operates with a fixed length frame of 20 ms. In the case of processing an audio signal with a frame having a fixed length, the audio signal is encoded without reflecting the characteristics of the input audio signal, for example, the position and intensity of the attack, Can be lowered.
구체적으로, 프레임 결정부(11)는 입력 신호(IN)의 소리가 발생하는 어택 위치에 따라 입력 신호(IN)를 정적 구간(stationary region) 및 천이 구간(transition region)으로 구별한다. 예를 들어, 프레임 결정부(11)는 입력 신호(IN)에서 어택이 존재하는 영역은 천이 구간으로 하고, 그 외의 영역은 정적 구간으로 할 수 있다. 프레임 결정부(11)는 천이 구간의 경우 입력 신호(IN)의 어택의 강도에 따라 가변 프레임의 길이를 짧게 결정할 수 있고, 정적 구간의 경우 입력 신호(IN)의 정적인 정도에 따라, 즉, 어택이 존재하지 않는 범위에 따라 가변 프레임의 길이를 길게 결정할 수 있다.Specifically, the
보다 상세하게 설명하면, 프레임 결정부(11)는 어택이 존재하는 천이 구간의 경우에 어택의 강도가 클수록 가변 프레임의 길이를 짧게 결정하여, 짧은 구간에 대한 부호화를 수행함으로써 시간 해상도(time resolution)를 높일 수 있다. 해상도(resolution)는 보통 화면 등에서 이미지의 정밀도를 나타내는 지표로 사용되며, 오디오 영역에서 시간 해상도는 오디오 신호의 시간 방향의 해상도, 즉, 정밀도를 나타낸다. More specifically, the
이와 반대로, 프레임 결정부(11)는 어택이 존재하지 않는 정적 구간의 경우에 입력 신호(IN)의 정적인 정도에 따라, 즉, 어택이 존재하지 않는 범위에 따라 가변 프레임의 길이를 길게 결정하여 보다 긴 구간에 대한 부호화를 수행함으로써 시간 해상도는 제한되지만, 보다 긴 시간 동안 주파수와 입력 신호(IN)의 변화를 검출할 수 있으므로, 주파수 해상도(frequency resolution)를 높일 수 있다. 오디오 영역에서 주파수 해상도는 주파수 방향의 해상도, 즉, 정밀도를 나타낸다. 이는 시간과 주파수가 반비례 관계임을 근거로 할 때, 더욱 명확해진다.On the contrary, in the case of a static section in which there is no attack, the
이와 같이, 프레임의 길이를 가변적으로 결정하여 천이 구간과 같이 소리의 변동이 심한 영역에서는 시간 해상도를 높여주고, 주파수 해상도를 제한하며, 정적 구간과 같이 소리의 변동이 없는 영역에서는 주파수 해상도를 높여주고, 시간 해상도를 제한하여 부호화함으로써 부호화 성능을 향상할 수 있다.As described above, the frame length is variably determined. In a region where the sound fluctuates as much as the transition period, the time resolution is increased, the frequency resolution is limited, and the frequency resolution is increased in the region where there is no sound variation , And coding is performed by restricting the time resolution, thereby improving the coding performance.
또한, 프레임 결정부(11)는 시간 도메인의 입력 신호(IN)를 주파수 도메인으로 변환(transform)하는 경우의 윈도우의 길이를 입력 신호(IN)의 어택 위치에 따라 결정한다. 입력 신호(IN)는 시간 도메인의 PCM 신호이므로 이를 주파수 도메인으로 변환할 필요가 있다. 불연속 푸리에 변환 및 고속 푸리에 변환 등에 있어서 처리할 데이터는 주기적으로 반복되는 신호의 일정 구간이므로, 시간 도메인에서 주파수 도메인으로의 변환이 수행되는 경우 신호의 일정 구간을 선택하여야 하므로 이 때 윈도우가 사용된다. 이와 같이, 윈도우를 시간 도메인의 입력 신호(IN)에 적용하여 시간 도메인에서 주파수 도메인으로의 변환을 수행할 수 있다. 시간 및 주파수는 역수 관계로서, 윈도우의 폭이 좁으면 시간 해상도는 좋아지지만, 주파수 해상도는 나빠지며, 윈도우의 폭이 넓으면 주파수 해상도는 좋아지지만, 시간 해상도는 나빠진다. 이는 프레임의 길이를 어택의 위치에 따라 가변적으로 조정하는 것과 유사하다.The
또한, 프레임 결정부(11)는 입력 신호(IN)의 어택 위치 및 강도 등과 같은 어택 정보를 부호화부(15)에 제공할 수 있다.Further, the
도메인 변환부(12)는 각 프레임 별로 입력 신호(IN)를 주파수 도메인으로 변환하고, 변환된 주파수 도메인의 신호를 서브 밴드 별로 분할한다. 구체적으로, 도메인 변환부(12)는 입력 신호(IN)를 수신하고, 프레임 결정부(11)의 출력을 기초로, 즉, 프레임 결정부(11)에서 결정된 프레임의 길이를 기초로 입력 신호(IN)의 프레임을 가변적으로 조정한다. 그리고, 도메인 변환부(12)는 주파수 도메인으로 변환된 신호를 서브 밴드 별로 분할하여 도메인 결정부(13)에 제공한다. The
예를 들어, 시간 도메인의 입력 신호(IN)는 MDCT(modified discrete cosine transform)에 의해 주파수 도메인으로 변환되어 실수부로 표현되고, MDST(modified discrete sine transform)에 의해 주파수 도메인으로 변환되어 허수부로 표현될 수 있다. 여기서, MDCT에 의해 변환되어 실수부로 표현된 신호는 입력 신호(IN)를 부호화하는데 사용되고, MDST에 의해 변환되어 허수부로 표현된 신호는 심리 음향 모델을 적용하는데 이용된다. For example, the input signal IN in the time domain is transformed into a frequency domain by a modified discrete cosine transform (MDCT), expressed as a real part, transformed into a frequency domain by a modified discrete sine transform (MDST) . Here, the signal converted by the MDCT and represented by the real part is used for encoding the input signal IN, and the signal converted by the MDST and expressed by the imaginary part is used for applying the psychoacoustic model.
도메인 결정부(13)는 프레임 결정부(11)에서 어택의 위치 등과 같은 입력 신호(IN)의 특성에 따라 길이가 각각 서로 다르게 결정된 프레임을 기초로 서브 밴드 별로 입력 신호를 주파수 도메인에서 부호화할지 시간 도메인에서 부호화할지 여부를 결정한다. 구체적으로, 도메인 결정부(13)는 선형 예측 부호화 이득(linear prediction coding gain), 인접한 프레임의 선형 예측 필터 간의 스펙트럼 변화, 주파수 스펙트럼의 기울기(spectral tilt) 등과 같은 스펙트럴 계측(spectral measure) 방식, 각 대역의 신호 에너지 크기, 대역 간의 신호 에너지 변화 등과 같은 에너지 계측(energy measure) 방식, 예측된 피치 지연(predicted pitch delay), 예측된 장기 예측 이득(predicted long term prediction gain) 등과 같은 장기 예측 추정(long term prediction estimation) 방식, 및 유성음/무성음을 구별하는 음성 레벨 결정도(voicing level determination)를 기초로 밴드 별로 부호화 도메인을 결정할 수 있다.The
도메인 역변환부(14)는 도메인 결정부(13)의 출력을 기초로, 즉, 도메인 결정부(13)에서 시간 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 시간 도메인으로 역변환한다. The
이와 같이, 프레임 결정부(11) 및 도메인 결정부(13)에 의해 입력 신호(IN)의 프레임 길이는 각각 달라지고, 입력 신호(IN)는 각각의 프레임에서 서브 밴드 별로 분할된 후, 각각의 주파수 밴드에서 부호화될 도메인이 결정된다. 그리하여, 프레임 및 주파수 밴드 별로 각각 서로 다른 도메인에서 부호화된다.As described above, the frame length of the input signal IN is varied by the
부호화부(15)는 주파수 도메인 부호화부(151) 및 시간 도메인 부호화부(152)를 포함한다. 주파수 도메인 부호화부(151)는 도메인 결정부(13)의 결정 결과 주파수 도메인에서 부호화하는 것으로 결정된 경우 도메인 변환부(12)로부터 신호를 수신하여 주파수 도메인에서 부호화한다. 시간 도메인 부호화부(152)는 도메인 결정부(13)의 결정 결과 시간 도메인에서 부호화하는 것으로 결정된 경우 도메인 역변환부(14)로부터 신호를 수신하여 시간 도메인에서 부호화한다.The
또한, 다른 실시예에서, 부호화부(15)는 주파수 도메인 부호화부(151) 및 시 간 도메인 부호화부(152)를 포함하고, 도메인 변환부(12) 및 도메인 역변환부(14)로부터 제공된 신호는 일단 주파수 도메인 부호화부로 입력될 수 있다. 이 경우, 도메인 역변환부(14)에서 생성된 시간 도메인 신호는 다시 시간 도메인 부호화부로 출력될 수 있다. 부호화부(15)는 프레임 결정부(11)로부터 입력 신호(IN)의 어택 위치 및 강도 등과 같은 어택 정보를 제공받아 입력 신호(IN)의 부호화에 적응적으로 이용할 수 있다.In another embodiment, the
다중화부(16)는 주파수 도메인 부호화부(151) 및 시간 도메인 부호화부(151)의 출력을 수신하고, 즉, 주파수 도메인에서 부호화된 결과 및 시간 도메인에서 부호화된 결과를 수신하고 다중화(multiplexing)하여 비트 스트림(bit stream)을 생성한다.The multiplexing
도 2는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 조정되는 프레임을 나타내는 그래프이다.FIG. 2 is a graph illustrating a frame to be adjusted in an audio / speech signal encoding apparatus according to an embodiment of the present invention. Referring to FIG.
도 2를 참조하면, 도 1의 오디오/스피치 신호의 부호화 장치에 포함된 프레임 결정부에 의해 입력 신호의 프레임의 길이는 서로 다르게 결정될 수 있다. 예를 들어, 제1 프레임(21)의 길이는 15ms이고, 제2 및 제3 프레임(22, 23)의 길이는 5ms이며, 제4 프레임(24)의 길이는 10ms이고, 제5 프레임(25)의 길이는 5ms이다. 즉, 제1 프레임(21)의 길이가 제일 길고, 다음으로 제4 프레임(24)의 길이가 길며, 제2, 제3 및 제5 프레임(22, 23, 25)의 길이가 가장 짧다.Referring to FIG. 2, the length of a frame of an input signal may be determined differently by a frame determination unit included in the audio / speech signal encoding apparatus of FIG. For example, the length of the
프레임의 길이가 5ms로 가장 짧은 제2, 제3 및 제5 프레임(22, 23, 25)은 어택이 발견된 천이 구간일 수 있다. 어택이 발견된 경우 프레임의 길이를 짧게 조정 하고, 변환 윈도우를 짧게 하여 시간 해상도를 향상시킬 수 있다. 프레임의 길이가 15ms로 가장 긴 제1 프레임(21)은 어택이 발견되지 않은 정적 구간일 수 있다. 어택이 발견되지 않은 경우 정적인 정도에 따라, 즉, 어택의 발견 간격 등에 따라 프레임의 길이를 길게 조정하고, 변환 윈도우를 길게 하여 주파수 해상도를 향상시킬 수 있다.The second, third, and
도 3은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 프레임 및 밴드 별 부호화 도메인을 나타내는 그래프이다.FIG. 3 is a graph illustrating encoding domains for each frame and band in an audio / speech signal encoding apparatus according to an exemplary embodiment of the present invention. Referring to FIG.
도 2 및 도 3을 참조하면, 도 1의 오디오/스피치 신호의 부호화 장치에 포함된 도메인 결정부에 의해 입력 신호의 주파수 밴드 별로 부호화 도메인은 서로 다르게 결정될 수 있다. 상술한 바와 같이, 도메인 결정부는 입력 신호의 특성에 따라 부호화에 유리한 도메인을 주파수 밴드 별로 적응적으로 결정할 수 있다. 도 3에서 흰색 영역은 주파수 도메인 부호화 구간(frequency domain coding region)이고, 검은색 점으로 채워진 영역은 시간 도메인 부호화 구간(time domain coding region)를 나타낸다.Referring to FIGS. 2 and 3, the encoding domain of the input signal may be determined differently by the domain determination unit included in the audio / speech signal encoding apparatus of FIG. As described above, the domain determination unit can adaptively determine a domain that is advantageous for encoding according to the characteristics of the input signal for each frequency band. In FIG. 3, a white region is a frequency domain coding region and a black dot region is a time domain coding region.
예를 들어, 제1 프레임(21)에서 0에서 6kHz의 주파수 밴드(211)는 시간 도메인에서 부호화하고, 6kHz에서 10kHz의 주파수 밴드(212)는 주파수 도메인에서 부호화하도록 부호화 도메인을 주파수 밴드 별로 결정할 수 있다. 제2 프레임(22)의 0에서 6kHz의 주파수 밴드(221)은 시간 도메인에서 부호화하고, 6kHz에서 10kHz의 주파수 밴드(222)은 주파수 도메인에서 부호화하도록 부호화 도메인을 주파수 밴드 별로 결정할 수 있다. 제3 프레임(23)의 0에서 6kHz의 주파수 밴드(231)는 시간 도 메인에서 부호화하고, 6kHz에서 10kHz의 주파수 밴드(232)는 주파수 도메인에서 부호화하도록 부호화 도메인을 주파수 밴드 별로 결정할 수 있다. 제4 프레임(24)의 경우 0에서 10kHz의 주파수 밴드(240)는 모두 주파수 도메인에서 부호화하도록 부호화 도메인을 결정할 수 있다. 제5 프레임(25)의 경우 0에서 4kHz의 주파수 밴드(251)는 시간 도메인에서 부호화하고, 4kHz에서 10kHz의 주파수 밴드(252)는 주파수 도메인에서 부호화하도록 부호화 도메인을 주파수 대역 별로 결정할 수 있다.For example, in the
종래의 오디오/스피치 신호의 부호화 장치는 일정한 길이의 프레임에서 주파수 밴드 별로 부호화 도메인을 달리하였으나, 본 발명의 일 실시예에 의한 오디오/스피치 신호의 부호화 장치는 입력 신호의 특성에 따라 프레임의 길이를 가변적으로 조정하고, 프레임에서 주파수 밴드 별로 부호화 도메인을 달리할 수 있다. 이로써, 입력 신호의 어택의 위치 및 강도에 따라 프레임의 길이 및 윈도우 타입을 달리할 수 있으므로 시간 해상도 및 주파수 해상도를 향상시킬 수 있다.In the conventional apparatus for encoding an audio / speech signal, the encoding domain is different for each frequency band in a frame having a predetermined length. However, the apparatus for encoding an audio / speech signal according to an exemplary embodiment of the present invention, And the encoding domain may be different for each frequency band in the frame. Thus, the length of the frame and the window type can be different according to the position and the intensity of the attack of the input signal, so that the time resolution and the frequency resolution can be improved.
도 4는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 장치를 나타내는 블록도이다.4 is a block diagram illustrating an audio / speech signal decoding apparatus according to an embodiment of the present invention.
도 4를 참조하면, 오디오/스피치 신호의 복호화 장치는 역다중화부(41), 판단부(42) 및 복호화부(43)를 포함한다. 또한, 오디오/스피치 신호의 복호화 장치는 도메인 역변환부(44)를 더 포함할 수 있다. Referring to FIG. 4, the apparatus for decoding an audio / speech signal includes a
역다중화부(41)는 비트 스트림을 수신하고 역다중화(demultiplexing)하여 주파수 도메인에서 부호화된 결과 및 시간 도메인에서 부호화된 결과를 출력한다. The
판단부(42)는 역다중화된 신호로부터 얻은 정보를 기초로 역다중화된 신호의 프레임 길이 및 주파수 밴드 별로 부호화된 도메인을 판단하고, 판단 결과를 복호화부(43)에 제공한다. 역다중화된 신호의 부호화 도메인은 프레임 길이 및 주파수 밴드 별로 서로 다를 수 있다.The
복호화부(43)는 주파수 도메인 복호화부(431) 및 시간 도메인 복호화부(432)를 포함한다. 구체적으로, 주파수 도메인 복호화부(431)는 판단부(42)의 판단 결과 역다중화된 신호가 주파수 도메인에서 부호화된 경우 역다중화된 신호를 주파수 도메인에서 복호화한다. 또한, 시간 도메인 복호화부(432)는 판단부(42)의 판단 결과 역다중화된 신호가 시간 도메인에서 부호화된 경우 역다중화된 신호를 시간 도메인에서 복호화한다. The
또한, 다른 실시예에서, 복호화부(43)는 주파수 도메인 복호화부(431) 및 시간 도메인 복호화부(432)를 포함하고, 역다중화된 신호는 주파수 도메인 복호화부(431)로 일단 입력될 수 있다. 이 경우, 판단부(42)의 판단 결과 역다중화된 신호가 시간 도메인에서 부호화된 경우에는 주파수 도메인 복호화부(431)에 입력된 신호는 다시 시간 도메인 복호화부(432)로 출력될 수 있다.In another embodiment, the
도메인 역변환부(44)는 복호화부(43)의 출력을 수신하고, 즉, 복호화된 신호를 수신하고 시간 도메인에서 복호화된 신호 및 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환한다.The
도 5는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 방법을 나타내는 흐름도이다.5 is a flowchart illustrating a method of encoding an audio / speech signal according to an embodiment of the present invention.
도 5를 참조하면, 51 단계에서 입력 신호의 처리 단위인 프레임의 길이를 입 력 신호의 어택(attack) 위치에 따라 가변적으로 결정한다. 구체적으로, 입력 신호를 어택 위치에 따라 정적 구간 또는 천이 구간으로 구별하고, 정적 구간 및 천이 구간에서 프레임의 길이를 다르게 결정한다. 예를 들어, 정적 구간에는 긴 프레임을 적용하고, 천이 구간에는 어택 강도에 따라 짧은 프레임을 적용할 수 있다.Referring to FIG. 5, in step 51, a length of a frame, which is a processing unit of an input signal, is variably determined according to an attack position of an input signal. Specifically, the input signal is classified into a static section or a transition section according to an attack position, and a length of a frame is determined differently in a static section and a transition section. For example, a long frame may be applied to the static section, and a short frame may be applied to the transition section depending on the attack strength.
52 단계에서 각 프레임 별로 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할한다. In
53 단계에서 분할된 서브 밴드의 신호를 주파수 도메인에서 부호화할지 판단한다. 다시 말해, 분할된 서브 밴드의 신호를 주파수 도메인에서 부호화할지 시간 도메인에서 부호화할지 여부를 결정한다. In
54 단계에서 주파수 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 주파수 도메인에서 부호화한다.In
55 단계에서 시간 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 시간 도메인으로 역변환하여 시간 도메인에서 부호화한다.In
도 6은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 방법을 나타내는 흐름도이다.6 is a flowchart illustrating a method of decoding an audio / speech signal according to an embodiment of the present invention.
도 6을 참조하면, 61 단계에서 부호화된 신호의 프레임 및 서브 밴드 별로 부호화된 도메인을 판단한다. Referring to FIG. 6, in
62 단계에서 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인에서 복호화하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인에서 복호화한다.In
63 단계에서 시간 도메인에서 복호화된 신호 및 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환한다.In
본 발명은 상술한 실시예에 한정되지 않으며, 본 발명의 사상 내에서 당업자에 의한 변형이 가능함은 물론이다.It is needless to say that the present invention is not limited to the above-described embodiments, and can be modified by those skilled in the art within the scope of the present invention.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.The present invention can also be embodied as computer-readable codes on a computer-readable recording medium. A computer-readable recording medium includes all kinds of recording apparatuses in which data that can be read by a computer system is stored. Examples of the computer-readable recording medium include ROM, RAM, CD-ROM, magnetic tape, hard disk, floppy disk, flash memory, optical data storage, And the like. The computer readable recording medium may also be distributed over a networked computer system and stored and executed as computer readable code in a distributed manner.
상술한 바와 같이, 본 발명에 따른 오디오/스피치 신호의 부호화 장치 및 방법에 의하면, 입력 신호의 어택 위치에 따라 조정되는 프레임의 길이 및 주파수 밴드 별로 결정된 부호화 도메인에 따라 부호화를 수행함으로써, 시간 해상도 및 주파수 해상도를 조절하여 오디오/스피치 신호를 부호화할 때 압축 효율 및 음질을 향상시킬 수 있다.As described above, according to the apparatus and method for encoding an audio / speech signal according to the present invention, encoding is performed according to a coding domain determined according to a length of a frame and a frequency band adjusted according to an attack position of an input signal, The compression efficiency and sound quality can be improved when the audio / speech signal is encoded by adjusting the frequency resolution.
또한, 본 발명에 따른 오디오/스피치 신호의 복호화 장치 및 방법에 의하면, 프레임의 길이 및 주파수 밴드 별로 결정된 복호화 도메인에 따라 적응적으로 복호 화를 수행함으로써, 시간 해상도 및 주파수 해상도를 조절하여 오디오/스피치 신호를 복호화할 때 압축 효율 및 음질을 향상시킬 수 있다.According to the apparatus and method for decoding an audio / speech signal according to the present invention, decoding is performed adaptively according to a decoding domain determined according to a length of a frame and a frequency band, thereby adjusting a time resolution and a frequency resolution, The compression efficiency and the sound quality can be improved when the signal is decoded.
Claims (13)
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070040042A KR101393300B1 (en) | 2007-04-24 | 2007-04-24 | Method and Apparatus for decoding audio/speech signal |
US11/872,116 US8630863B2 (en) | 2007-04-24 | 2007-10-15 | Method and apparatus for encoding and decoding audio/speech signal |
US14/132,224 US9418666B2 (en) | 2007-04-24 | 2013-12-18 | Method and apparatus for encoding and decoding audio/speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070040042A KR101393300B1 (en) | 2007-04-24 | 2007-04-24 | Method and Apparatus for decoding audio/speech signal |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130118803A Division KR101441312B1 (en) | 2013-10-04 | 2013-10-04 | Method and Apparatus for encoding audio/speech signal |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080095491A KR20080095491A (en) | 2008-10-29 |
KR101393300B1 true KR101393300B1 (en) | 2014-05-12 |
Family
ID=40155145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070040042A KR101393300B1 (en) | 2007-04-24 | 2007-04-24 | Method and Apparatus for decoding audio/speech signal |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101393300B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101027969B1 (en) * | 2008-12-29 | 2011-04-13 | 전자부품연구원 | Apparatus and method of an multi-resoultion frequency detection based recursive discrete fourier transform |
EP2525357B1 (en) * | 2010-01-15 | 2015-12-02 | LG Electronics Inc. | Method and apparatus for processing an audio signal |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002056297A1 (en) * | 2001-01-11 | 2002-07-18 | Sasken Communication Technologies Limited | Adaptive-block-length audio coder |
JP2006126372A (en) | 2004-10-27 | 2006-05-18 | Canon Inc | Audio signal coding device, method, and program |
KR100647336B1 (en) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | Apparatus and method for adaptive time/frequency-based encoding/decoding |
-
2007
- 2007-04-24 KR KR1020070040042A patent/KR101393300B1/en active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002056297A1 (en) * | 2001-01-11 | 2002-07-18 | Sasken Communication Technologies Limited | Adaptive-block-length audio coder |
JP2006126372A (en) | 2004-10-27 | 2006-05-18 | Canon Inc | Audio signal coding device, method, and program |
KR100647336B1 (en) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | Apparatus and method for adaptive time/frequency-based encoding/decoding |
Also Published As
Publication number | Publication date |
---|---|
KR20080095491A (en) | 2008-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885926B2 (en) | Classification between time-domain coding and frequency domain coding for high bit rates | |
US10249313B2 (en) | Adaptive bandwidth extension and apparatus for the same | |
KR101373004B1 (en) | Apparatus and method for encoding and decoding high frequency signal | |
US9418666B2 (en) | Method and apparatus for encoding and decoding audio/speech signal | |
KR101078625B1 (en) | Systems, methods, and apparatus for gain factor limiting | |
JP5357055B2 (en) | Improved digital audio signal encoding / decoding method | |
JP5203929B2 (en) | Vector quantization method and apparatus for spectral envelope display | |
RU2485606C2 (en) | Low bitrate audio encoding/decoding scheme using cascaded switches | |
RU2483364C2 (en) | Audio encoding/decoding scheme having switchable bypass | |
KR101435893B1 (en) | Method and apparatus for encoding and decoding audio signal using band width extension technique and stereo encoding technique | |
JP5628163B2 (en) | Apparatus and method for generating bandwidth extended output data | |
KR100721537B1 (en) | Apparatus and Method for Highband Coding of Splitband Wideband Speech Coder | |
RU2636685C2 (en) | Decision on presence/absence of vocalization for speech processing | |
KR20080005325A (en) | Method and apparatus for adaptive encoding/decoding | |
KR20030046468A (en) | Perceptually Improved Enhancement of Encoded Acoustic Signals | |
KR20080045047A (en) | Method and apparatus for bandwidth extension encoding and decoding | |
JPWO2013168414A1 (en) | Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method | |
JP2012532344A (en) | Audio signal encoding and decoding apparatus and method using weighted linear predictive transform | |
US9418671B2 (en) | Adaptive high-pass post-filter | |
KR101441312B1 (en) | Method and Apparatus for encoding audio/speech signal | |
US9390722B2 (en) | Method and device for quantizing voice signals in a band-selective manner | |
KR101393300B1 (en) | Method and Apparatus for decoding audio/speech signal | |
KR101377667B1 (en) | Method for encoding audio/speech signal in Time Domain | |
KR20100006491A (en) | Method and apparatus for encoding and decoding silence signal | |
KR101449432B1 (en) | Method and apparatus for encoding and decoding signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
A107 | Divisional application of patent | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170427 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180427 Year of fee payment: 5 |