KR20080095492A - 오디오/스피치 신호의 시간 도메인에서의 부호화 방법 - Google Patents
오디오/스피치 신호의 시간 도메인에서의 부호화 방법 Download PDFInfo
- Publication number
- KR20080095492A KR20080095492A KR1020070040043A KR20070040043A KR20080095492A KR 20080095492 A KR20080095492 A KR 20080095492A KR 1020070040043 A KR1020070040043 A KR 1020070040043A KR 20070040043 A KR20070040043 A KR 20070040043A KR 20080095492 A KR20080095492 A KR 20080095492A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- input signal
- attack
- encoding
- time domain
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000003044 adaptive effect Effects 0.000 claims abstract description 28
- 230000005284 excitation Effects 0.000 claims abstract description 17
- 230000007704 transition Effects 0.000 claims description 15
- 230000003068 static effect Effects 0.000 claims description 10
- 230000007774 longterm Effects 0.000 description 30
- 230000005236 sound signal Effects 0.000 description 12
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 210000001260 vocal cord Anatomy 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Mathematical Analysis (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 오디오/스피치 신호의 시간 도메인에서의 부호화 방법에 관한 것으로, 입력 신호의 어택의 위치에 따라 입력 신호의 포락선(envelop)을 검출하고, 입력 신호의 어택에 관한 정보를 기초로 조절되는 파라미터의 해상도에 따라 적응 코드북을 검색하여 잔여 신호를 부호화하며, 입력 신호의 어택의 위치에 따라 조절되는 인덱스를 기초로 고정 코드북을 검색하여 여기 신호를 부호화함으로써, 입력 신호의 특성을 반영하여 효과적으로 오디오/스피치 신호를 부호화할 수 있다.
Description
도 1은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치를 나타내는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 프레임 및 주파수 밴드 별 부호화 도메인을 나타내는 그래프이다.
도 3은 시간 도메인에서의 부호화 방법을 나타내는 개략적인 흐름도이다.
도 4A는 선형 예측 분석 시의 윈도우의 예를 나타낸다.
도 4B는 본 발명의 일 실시예에 따른 어택 위치에 적응적인 선형 예측 분석 시의 윈도우의 예를 나타낸다.
도 5는 본 발명의 일 실시예에 따른 장구간 예측부를 나타내는 개략적인 블록도이다.
도 6A는 G.729의 고정 코드북의 펄스 트랙 구조의 예를 나타낸다.
도 6B는 본 발명의 일 실시예에 따른 어택 위치에 적응적인 고정 코드북의 펄스 트랙 구조의 예를 나타낸다.
도 7은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 시간 도메인에서의 부호화 방법을 나타내는 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 방법을 나타내는 흐름도이다.
본 발명은 오디오(audio) 신호와 스피치(speech) 신호를 시간 도메인에서 부호화하는 방법에 관한 것이다.
종래의 코덱(codec)은 스피치 코덱과 오디오 코덱으로 분류된다. 스피치 코덱은 음성 발성 모델을 이용하여 주로 50Hz에서 7kHz에 이르는 주파수 대역에 해당하는 신호를 부호화거나 복호화한다. 이러한 스피치 코덱은 일반적으로 성대와 성도를 모델링함으로써 음성 신호를 대표하는 파라미터를 추출하여 부호화 및 복호화를 수행한다. 오디오 코덱은 HE-AAC와 같이 심리 음향 모델을 적용하여 주로 0Hz에서 24kHz에 이르는 주파수 대역에 해당하는 신호를 부호화하거나 복호화한다. 이러한 오디오 코덱은 인간의 청각 특성을 이용하여 감도가 낮은 신호를 생략함으로써 부호화 및 복호화를 수행한다.
그러나, 스피치 코덱은 스피치 신호를 부호화하거나 복호화하는 데 적합하지만, 오디오 신호를 부호화하거나 복호화하는 데 있어서 음질이 저하될 수 있다. 오디오 코덱은 오디오 신호를 부호화하거나 복호화할 경우 압축 효과가 뛰어나지만, 음성 신호를 부호화하거나 복호화함에 있어서 신호를 압축하는 효율이 떨어질 수 있다. 그러므로 스피치 신호, 오디오 신호, 스피치와 오디오가 혼합된 신호를 각각 부호화 또는 복호화함에 있어서 압축 효율 및 음질을 향상시킬 수 있는 방법 및 장치가 요구된다.
본 발명이 이루고자 하는 기술적 과제는 입력 신호의 특성을 반영하여 압축 효율 및 음질을 향상시킬 수 있는 오디오/스피치 신호의 시간 도메인에서의 부호화 방법을 제공하는데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 입력 신호의 특성을 반영하여 압축 효율 및 음질을 향상시킬 수 있는 오디오/스피치 신호의 부호화 방법 및 장치를 제공하는데 있다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 시간 도메인에서의 부호화 방법은 (a) 입력 신호의 어택의 위치에 따라 상기 입력 신호의 포락선(envelop)을 검출하는 단계, (b) 상기 입력 신호의 상기 어택에 관한 정보를 기초로 조절되는 파라미터의 해상도에 따라 상기 입력 신호에서 포락선을 제외한 잔여(residual) 신호를 모델링하기 위한 적응 코드북을 검색하여 상기 잔여 신호를 부호화하는 단계, 및 (c) 상기 입력 신호의 상기 어택의 위치에 따라 조절되는 인덱스를 기초로 상기 (b) 단계에서 부호화되지 않은 여기(excitation) 신호를 모델링하기 위한 고정 코드북을 검색하여 상기 여기 신호를 부호화하는 단계를 포함한다.
또한, 상기 기술적 과제는 (a) 입력 신호의 어택의 위치에 따라 상기 입력 신호의 포락선(envelop)을 검출하는 단계, (b) 상기 입력 신호의 상기 어택에 관한 정보를 기초로 조절되는 파라미터의 해상도에 따라 상기 입력 신호에서 포락선을 제외한 잔여(residual) 신호를 모델링하기 위한 적응 코드북을 검색하여 상기 잔여 신호를 부호화하는 단계, 및 (c) 상기 입력 신호의 상기 어택의 위치에 따라 조절되는 인덱스를 기초로 상기 (b) 단계에서 부호화되지 않은 여기(excitation) 신호를 모델링하기 위한 고정 코드북을 검색하여 상기 여기 신호를 부호화하는 단계를 포함하는 오디오/스피치 신호의 시간 도메인에서 부호화 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 의해 달성된다.
또한, 상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 부호화 방법은 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택의 위치에 따라 가변적으로 결정하는 단계, 상기 각 프레임 별로 상기 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 단계, 상기 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 주파수 도메인에서 부호화하는 단계, 및 상기 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 시간 도메인으로 역변환하고, 상기 입력 신호의 상기 어택의 위치에 대한 정보 및 주파수 도메인 부호화 정보를 이용하여 상기 역변환된 서브 밴드의 신호를 적응적으로 시간 도메인에서 부호화하는 단계를 포함한다.
또한, 상기 또 다른 기술적 과제는 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택의 위치에 따라 가변적으로 결정하는 단계, 상기 각 프레 임 별로 상기 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 단계, 상기 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 주파수 도메인에서 부호화하는 단계, 및 상기 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 시간 도메인으로 역변환하고, 상기 입력 신호의 상기 어택의 위치에 대한 정보 및 주파수 도메인 부호화 정보를 이용하여 상기 역변환된 서브 밴드의 신호를 적응적으로 시간 도메인에서 부호화하는 단계를 포함하는 오디오/스피치 신호의 부호화 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 의해 달성된다.
또한, 상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 부호화 장치는 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택의 위치에 따라 가변적으로 결정하는 프레임 결정부, 상기 각 프레임 별로 상기 입력 신호의 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 도메인 변환부, 상기 분할된 서브 밴드 별로 상기 서브 밴드의 신호를 주파수 도메인에서 부호화할지 시간 도메인에서 부호화할지 여부를 결정하는 도메인 결정부, 시간 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 시간 도메인으로 역변환하는 도메인 역변환부, 상기 주파수 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 주파수 도메인에서 부호화하는 주파수 도메인 부호화부, 및 상기 프레임 결정부로부터 제공받은 상기 입력 신호의 상기 어택의 위치에 대한 정보 및 상기 주파수 도메인 부호화부로부터 제공받은 주파수 도메인 부호화 정보를 이용하여 상기 역변환된 서브 밴드의 신호를 적응적으로 시간 도메인에서 부호화하는 시간 도메인 부호화부를 포함한다.
본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 구성요소에 대해 사용하였다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치를 나타내는 블록도이다.
도 1을 참조하면, 오디오/스피치 신호의 부호화 장치는 프레임 결정부(11), 도메인 변환부(12), 도메인 결정부(13), 도메인 역변환부(14), 및 부호화부(15)를 포함한다. 부호화부(15)는 주파수 도메인 부호화부(151) 및 시간 도메인 부호화부(152)를 포함한다. 또한, 오디오/스피치 신호의 부호화 장치는 다중화부(16)를 더 포함한다.
프레임 결정부(11)는 입력 신호(IN)를 수신하여 입력 신호(IN)의 처리 단위인 프레임(frame)의 길이를 입력 신호(IN)의 어택(attack) 위치에 따라 가변적으로 결정한다. 입력 신호(IN)는 아날로그의 스피치 신호 또는 오디오 신호를 디지털 신호로 변조한 PCM(pulse code modulation) 신호일 수 있으며, 입력 신호(IN)는 비주기적으로 어택이 존재할 수 있다.
여기서, 어택은 소리를 발생, 지속 및 소멸의 세 단계로 나눌 때 발생 부분을 의미한다. 예를 들어, 오케스트라에서 악기의 개시와 같이 한 개의 음표를 시작하는 것일 수 있다. 어택 시간은 소리가 발생한 직후부터 음량이 최고점이 되는 동안의 시간을 의미하며, 이에 대비되는 디케이(decay) 시간은 음량의 최고점에서 중간점에 이르는 시간을 의미한다. 예를 들어, 피아노 건반을 '땅'하고 쳤을 때 '땅' 소리가 최고로 올라갈 때까지의 시간을 어택 시간이라고 하고, 최고점에서 바로 내려가서 그 소리가 유지되기 전까지의 시간이 디케이 시간이다.
여기서, 프레임은 데이터 통신 등에서 한 단위로 전송되는 정보의 패키지이 며, 부호화 및 복호화의 단위가 될 수 있다. 구체적으로, 프레임은 시간 도메인 데이터를 주파수 도메인으로 변환하기 위해 FFT(fast fourier transform, 고속 푸리에 변환)를 적용할 수 있는 기본 단위가 될 수 있다. 이때, 각 프레임은 하나의 주파수 도메인 스펙트럼을 생성할 수 있다.
종래의 오디오 부호화 장치는 고정된 프레임의 길이로 오디오 신호를 처리하였다. 예를 들어, 대표적인 부호화 기술로는 ITU-T(International Telecommunication Union-Telecommunication Standardization Sector)의 G.723.1, G.729 등이 있는데, G.723.1은 30ms, G.729는 10ms의 고정된 길이의 프레임으로 동작한다. 그리고 AMR-NB(adaptive multi rate-narrow band) 부호화 장치는 20ms의 고정된 길이의 프레임으로 동작한다. 이와 같이, 고정된 길이의 프레임으로 오디오 신호를 처리하는 경우에는 입력되는 오디오 신호의 특성, 예를 들어, 어택의 위치 및 강도 등을 반영하지 못하고 오디오 신호를 부호화하게 되므로, 압축 효율이 떨어지거나 음질이 저하될 수 있다.
구체적으로, 프레임 결정부(11)는 입력 신호(IN)의 소리가 발생하는 어택 위치에 따라 입력 신호(IN)를 정적 구간(stationary region) 및 천이 구간(transition region)으로 구별한다. 예를 들어, 프레임 결정부(11)는 입력 신호(IN)에서 어택이 존재하는 영역은 천이 구간으로 하고, 그 외의 영역은 정적 구간으로 할 수 있다. 프레임 결정부(11)는 천이 구간의 경우 입력 신호(IN)의 어택의 강도에 따라 가변 프레임의 길이를 짧게 결정할 수 있고, 정적 구간의 경우 입력 신호(IN)의 정적인 정도에 따라, 즉, 어택이 존재하지 않는 범위에 따라 가변 프레임의 길이를 길게 결정할 수 있다.
보다 상세하게 설명하면, 프레임 결정부(11)는 어택이 존재하는 천이 구간의 경우에 어택의 강도가 클수록 가변 프레임의 길이를 짧게 결정하여, 짧은 구간에 대한 부호화를 수행함으로써 시간 해상도(time resolution)를 높일 수 있다. 해상도(resolution)는 보통 화면 등에서 이미지의 정밀도를 나타내는 지표로 사용되며, 오디오 영역에서 시간 해상도는 오디오 신호의 시간 방향의 해상도, 즉, 정밀도를 나타낸다.
이와 반대로, 프레임 결정부(11)는 어택이 존재하지 않는 정적 구간의 경우에 입력 신호(IN)의 정적인 정도에 따라, 즉, 어택이 존재하지 않는 범위에 따라 가변 프레임의 길이를 길게 결정하여 보다 긴 구간에 대한 부호화를 수행함으로써 시간 해상도는 제한되지만, 보다 긴 시간 동안 주파수와 입력 신호(IN)의 변화를 검출할 수 있으므로, 주파수 해상도(frequency resolution)를 높일 수 있다. 오디오 영역에서 주파수 해상도는 주파수 방향의 해상도, 즉, 정밀도를 나타낸다. 이는 시간과 주파수가 반비례 관계임을 근거로 할 때 더욱 명확해진다.
이와 같이, 프레임의 길이를 가변적으로 결정하여 천이 구간과 같이 소리의 변동이 심한 영역에서는 시간 해상도를 높여주고, 주파수 해상도를 제한하며, 정적 구간과 같이 소리의 변동이 없는 영역에서는 주파수 해상도를 높여주고, 시간 해상도를 제한하여 부호화함으로써 부호화 성능을 향상할 수 있다.
또한, 프레임 결정부(11)는 시간 도메인의 입력 신호(IN)를 주파수 도메인으로 변환(transform)하는 경우의 윈도우의 길이를 입력 신호(IN)의 어택 위치에 따 라 결정한다. 입력 신호(IN)는 시간 도메인의 PCM 신호이므로 이를 주파수 도메인으로 변환할 필요가 있다. 불연속 푸리에 변환 및 고속 푸리에 변환 등에 있어서 처리할 데이터는 주기적으로 반복되는 신호의 일정 구간이므로, 시간 도메인에서 주파수 도메인으로의 변환이 수행되는 경우 신호의 일정 구간을 선택하여야 하므로 이 때 윈도우가 사용된다. 이와 같이, 윈도우를 시간 도메인의 입력 신호(IN)에 적용하여 시간 도메인에서 주파수 도메인으로의 변환을 수행할 수 있다. 시간 및 주파수는 역수 관계로서, 윈도우의 폭이 좁으면 시간 해상도는 좋아지지만, 주파수 해상도는 나빠지며, 윈도우의 폭이 넓으면 주파수 해상도는 좋아지지만, 시간 해상도는 나빠진다. 이는 프레임의 길이를 어택의 위치에 따라 가변적으로 조정하는 것과 유사하다.
또한, 프레임 결정부(11)는 입력 신호(IN)의 어택 위치 및 강도 등과 같은 어택 정보를 시간 도메인 부호화부(152)에 제공하며, 이는 시간 도메인에서의 부호화에 이용될 수 있다.
도메인 변환부(12)는 각 프레임 별로 입력 신호(IN)를 주파수 도메인으로 변환하고, 변환된 주파수 도메인의 신호를 서브 밴드 별로 분할한다. 구체적으로, 도메인 변환부(12)는 입력 신호(IN)를 수신하고, 프레임 결정부(11)의 출력을 기초로, 즉, 프레임 결정부(11)에서 결정된 프레임의 길이를 기초로 입력 신호(IN)의 프레임을 가변적으로 조정한다. 그리고, 도메인 변환부(12)는 주파수 도메인으로 변환된 신호를 서브 밴드 별로 분할하여 도메인 결정부(13)에 제공한다.
예를 들어, 시간 도메인의 입력 신호(IN)는 MDCT(modified discrete cosine transform)에 의해 주파수 도메인으로 변환되어 실수부로 표현되고, MDST(modified discrete sine transform)에 의해 주파수 도메인으로 변환되어 허수부로 표현될 수 있다. 여기서, MCDT에 의해 변환되어 실수부로 표현된 신호는 입력 신호(IN)를 부호화하는데 사용되고, MDST에 의해 변환되어 허수부로 표현된 신호는 심리 음향 모델을 적용하는데 이용된다.
도메인 결정부(13)는 프레임 결정부(11)에서 어택의 위치 등과 같은 입력 신호(IN)의 특성에 따라 길이가 각각 서로 다르게 결정된 프레임을 기초로 서브 밴드 별로 입력 신호를 주파수 도메인에서 부호화할지 시간 도메인에서 부호화할지 여부를 결정한다. 구체적으로, 도메인 결정부(13)는 선형 예측 부호화 이득(linear prediction coding gain), 인접한 프레임의 선형 예측 필터 간의 스펙트럼 변화, 주파수 스펙트럼의 기울기(spectral tilt) 등과 같은 스펙트럴 계측(spectral measure) 방식, 각 대역의 신호 에너지 크기, 대역 간의 신호 에너지 변화 등과 같은 에너지 계측(energy measure) 방식, 예측된 피치 지연(predicted pitch delay), 예측된 장기 예측 이득(predicted long term prediction gain) 등과 같은 장기 예측 추정(long term prediction estimation) 방식, 및 유성음/무성음을 구별하는 음성 레벨 결정도(voicing level determination)를 기초로 밴드 별로 부호화 도메인을 결정할 수 있다.
도메인 역변환부(14)는 도메인 결정부(13)의 출력을 기초로, 즉, 도메인 결정부(13)에서 시간 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 시간 도메인으로 역변환한다.
이와 같이, 프레임 결정부(11) 및 도메인 결정부(13)에 의해 입력 신호(IN)의 프레임 길이는 각각 달라지고, 입력 신호(IN)는 각각의 프레임에서 서브 밴드 별로 분할된 후, 각각의 주파수 밴드에서 부호화될 도메인이 결정된다. 그리하여, 프레임 및 주파수 밴드 별로 각각 서로 다른 도메인에서 부호화된다.
부호화부(15)는 주파수 도메인 부호화부(151) 및 시간 도메인 부호화부(152)를 포함한다. 주파수 도메인 부호화부(151)는 도메인 결정부(13)의 결정 결과 주파수 도메인에서 부호화하는 것으로 결정된 경우 도메인 변환부(12)로부터 신호를 수신하여 주파수 도메인에서 부호화한다. 시간 도메인 부호화부(152)는 선택적으로 연결되어 도메인 결정부(13)의 결정 결과 시간 도메인에서 부호화하는 것으로 결정된 경우 도메인 역변환부(14)로부터 신호를 수신하여 시간 도메인에서 부호화하고, 도메인 결정부(13)의 결정 결과 주파수 도메인에서 부호화하는 것으로 결정된 경우에는 연결되지 않는다.
시간 도메인 부호화부(152)는 주파수 도메인 부호화부(151)로부터 주파수 도메인 부호화 정보를 수신하여 이를 시간 도메인 부호화에 이용한다. 예를 들어, 주파수 도메인 부호화 정보 중 인지 정보량, 즉, 오디오 신호의 에너지 변화를 나타내는 지각 엔트로피(perceptual entropy, PE) 값으로부터 어택 강도를 얻고, 주파수 도메인에서의 성대의 울림의 규칙성을 나타내는 하모닉(harmonic) 상관도를 제공받아 시간 도메인 부호화에 이용할 수 있다. 이에 대해서는 이하에서 도 4A 및 도 4B를 참조하여 상세하게 설명하기로 한다.
또한, 시간 도메인 부호화부(152)는 프레임 결정부(11)로부터 어택 정보를 수신하여 이를 시간 도메인 부호화에 이용한다. 예를 들어, 어택 정보 중 어택의 위치에 대한 정보를 제공받아 시간 도메인 부호화에 이용할 수 있다. 이에 대해서는 이하에서 도 3 내지 도 5를 참조하여 상세하게 설명하기로 한다.
다른 실시예에서, 부호화부(15)는 주파수 도메인 부호화부(151) 및 시간 도메인 부호화부(152)를 포함하고, 도메인 변환부(12) 및 도메인 역변환부(14)로부터 제공된 신호는 일단 주파수 도메인 부호화부(151)로 입력될 수 있다. 이 경우, 도메인 역변환부(14)에서 생성된 시간 도메인 신호는 다시 시간 도메인 부호화부로 출력될 수 있다.
다중화부(16)는 주파수 도메인 부호화부(151) 및 시간 도메인 부호화부(151)의 출력을 수신하고, 즉, 주파수 도메인에서 부호화된 결과 및 시간 도메인에서 부호화된 결과를 수신하고 다중화(multiplexing)하여 비트 스트림(bit stream)을 생성한다.
도 2는 본 발명의 일 실시예에 따른 프레임 및 주파수 밴드 별 부호화 도메인을 나타내는 그래프이다.
도 2를 참조하면, 프레임 및 주파수 밴드 별 부호화 도메인을 나타내는 그래프의 가로축은 ms 단위로 시간을 나타내고, 세로축은 kHz 단위로 주파수를 나타낸다. 먼저, 시간 축에서 서로 다른 간격으로 프레임의 길이가 결정되고, 각 프레임에서 서브 밴드 별로 분할된 신호는 주파수 밴드 별로 시간 도메인에서 부호화되거나 주파수 도메인에서 부호화된다. 그래프에서 흰색으로 처리된 부분은 주파수 도메인에서 부호화되는 영역이고, 검은 점으로 채워진 부분은 시간 도메인에서 부호 화되는 영역이다.
구체적으로, 제1 프레임의 길이는 20ms이고, 0에서 4kHz의 주파수 밴드(211)는 시간 도메인에서 부호화하고, 6kHz에서 10kHz의 주파수 밴드(212)는 주파수 도메인에서 부호화하도록 부호화 도메인은 주파수 밴드 별로 결정될 수 있다. 제2 프레임 및 제3 프레임의 길이는 각각 5ms이고, 0에서 6kHz의 주파수 밴드(221, 231)는 시간 도메인에서 부호화하고, 6kHz에서 10kHz의 주파수 밴드(222, 232)는 주파수 도메인에서 부호화하도록 부호화 도메인은 주파수 밴드 별로 결정될 수 있다. 제4 프레임의 길이는 10ms이고, 0에서 10kHz의 주파수 밴드(241)는 주파수 도메인에서 부호화하도록 부호화 도메인은 주파수 밴드 별로 결정될 수 있다. 제5 프레임의 길이는 5ms이고, 0에서 4kHz의 주파수 밴드(251)는 시간 도메인에서 부호화하고, 4kHz에서 10kHz의 주파수 밴드(252)는 주파수 도메인에서 부호화하도록 부호화 도메인은 주파수 밴드 별로 결정될 수 있다.
도 3은 시간 도메인에서의 부호화 방법을 나타내는 개략적인 흐름도이다.
도 3을 참조하면, 시간 도메인 부호화 방법은 31 단계에서 입력 신호에 대한 선형 예측 부호화를 수행하고, 32 단계에서 장구간 예측을 수행하고, 33 단계에서 여기 신호를 부호화한다. 각각의 단계에 대하여 이하에서 상세하게 설명하기로 한다.
31 단계에서 선형 예측 부호화(linear prediction coding)는 주어진 시점에서의 음성 신호를 지난 음성 신호의 선형 조합(linear combination)으로 근사하는 방법으로, 주어진 시간의 값을 그 값의 근처에 있는 과거 값(일반적으로 작은 수) 으로 모델링하므로 단구간 예측(short-term prediction)이라고 한다. 이와 같이, 과거 음성 샘플들로부터 현재 음성 샘플을 예측하여 원 샘플과의 오류가 최소가 되도록 하는 선형 예측 필터의 계수를 계산한다.
여기서, 포먼트는 성대(vocal band)와 비도에서 발생하는 공진 주파수로서, 포먼트 주파수라고도 한다. 포먼트는 성대의 기하학적인 모양에 따라 달라지며, 특정 음성 신호는 대표적인 몇 개의 포먼트로 대표될 수 있다. 음성 신호는 크게 성도 모델에 따른 포먼트(formant) 성분과 성대의 떨림을 반영하는 피치(pitch) 성분으로 나눌 수 있으며, 성도 모델은 선형 예측 부호화 필터에 의해 모델링이 가능하고, 에러(error) 성분은 포먼트를 제외한 피치 성분을 나타낸다.
32 단계에서 장구간 예측은 31 단계를 통과한 잔여 성분(LP-residual)으로부터 피치(pitch) 성분을 검출하고, 적응 코드북에 저장된 과거의 신호를 추출하여, 구체적으로, 검출된 피치 성분의 피치 지연(pitch delay)만큼의 과거 신호를 추출하여 현재 분석하고자 하는 신호와 가장 적당한 주기와 이득 값을 구하여 부호화한다. 적응 코드북의 적용에서 피치 검출 방법은 주어진 시점에서의 음성 신호를 피치 지연, 즉, 피치 래그(pitch lag)만큼 지나간 음성 신호에 일정한 피치 게인(pitch gain)을 곱한 것으로 근사하는 것이다. 선형 예측 부호화는 주어진 시간의 값을 그 값의 근처에 있는 과거 값으로 모델링하므로 단구간 예측이라고 하는 반면, 32 단계는 해당 피치 주기 이전의 과거의 신호를 이용하여 현재 분석하고자 하는 신호를 부호화하므로 장구간 예측이라고 한다.
일반적으로 음성 신호의 피치라는 단어는 기본(fundamental) 주파수라는 말 과 동의어로 쓰인다. 기본 주파수는 음성 신호 중에서 가장 기본이 되는 주파수, 즉, 시간 축에서 크게 나타나는 피크(peak)들의 주파수를 의미하여 성대의 주기적인 떨림에 의해서 생성된다. 피치는 인간의 청각에 매우 민감하게 반응하는 파라미터로써, 음성 신호의 화자를 구분하는데 사용될 수 있다. 그러므로, 정확한 피치 해석은 음성 합성의 음질을 좌우하는 중요한 요소이며, 음성 부호화에 있어서도 피치의 정확한 추출과 복원은 음질에 결정적인 역할을 한다. 그리고, 피치 정보는 음성 신호의 유성음/무성음을 판단하는 파라미터로도 사용된다. 피치는 허파에서 압축된 공기가 성대에 진동을 일으키면서 생기는 주기적인 펄스이므로 성대의 진동 없이 난류를 일으키는 무성음의 경우에는 피치가 생기지 않는다.
33 단계에서 여기 신호 부호화는 31 단계 및 32 단계에서 부호화되지 못한 잔여 성분인 여기 신호(excitation signal)에 대하여 고정 코드북을 검색하여 부호화한다. 고정 코드북은 사람의 음성 신호 중에서 포먼트 및 피치 추출 후 잔여 신호의 대표 값으로 이루어졌으며, 벡터 양자화에 의해서 만들어진 것으로 펄스가 가질 수 있는 위치의 조합들이 나타난다. 구체적으로, 여기 신호에 대하여 고정 코드북에서 가장 비슷한 부분을 잔여 성분으로 찾아내어서 코드북 인덱스(index)와 코드북 게인(gain)을 전송한다.
도 4A는 선형 예측 분석 시의 윈도우의 예를 나타낸다. 도 4B는 본 발명의 일 실시예에 따른 어택 위치에 적응적인 선형 예측 분석 시의 윈도우의 예를 나타낸다. 이하에서는 도 3, 도 4A 및 도 4B를 참조하여 선형 예측 분석에 의한 적응적인 부호화 방법을 설명하기로 한다.
도 4A는 현재 프레임에 대하여 선형 예측 부호화를 수행하는 경우에 선형 예측 분석에 사용되는 분석 윈도우(analysis window)를 나타낸다. 윈도우(window)는 긴 신호, 즉, 넓은 시간 영역의 신호가 있을 때, 신호의 일부만, 즉, 짧은 시간 영역의 신호만을 볼 수 있게 해주는 역할을 한다.
현재 프레임에서 윈도우는 A1에서 피크 값을 갖는다. 이 경우, 어택의 위치는 A1과 일치하지 않을 확률이 있음에도 불구하고, 어택의 위치와 무관하게 고정된 형태의 윈도우를 사용하여 선형 예측 분석을 수행함으로써, 어택 신호가 퍼져서(spreading) 부호화의 효율이 떨어질 수 있다.
도 4B는 현재 프레임에 대하여 선형 예측 부호화를 수행하는 경우에 어택의 위치에 적응적으로 선형 예측 분석에 사용되는 분석 윈도우를 나타낸다. 구체적으로, 선형 예측 분석은 프레임 결정부로부터 어택의 위치에 대한 정보를 제공받아, 어택의 위치에 따라 적응적으로 윈도우의 형상을 다르게 적용하여 수행될 수 있다.
구체적으로, 프레임 결정부에서 어택의 위치를 검출하여 천이 구간으로 판단된 구간에서는, 즉, 어택이 존재하는 구간에서는 선형 예측 분석에 사용되는 분석 윈도우를 어택 위치 정보에 따라 적응적으로 조절할 수 있다. 예를 들어, 현재 프레임은 천이 구간이고, 어택은 A2에 위치한 경우 윈도우는 A2에서 피크 값을 갖도록 윈도우의 형상을 적응적으로 조절할 수 있다. 이와 같이 어택 위치 정보에 적응적으로 윈도우를 조절함으로써, 즉, 윈도우의 피크 값의 위치를 적응적으로 조절함으로써 어택 신호가 퍼지는 것을 억제할 수 있다.
또한, 프레임 결정부에서 어택의 위치를 검출하여 천이 구간으로 판단된 구 간에서는 윈도우의 길이를 짧게 조절하고, 정적 구간으로 판단된 구간에서는 윈도우의 길이를 길게 조절하여 선형 예측 분석을 수행할 수 있다.
도 5는 본 발명의 일 실시예에 따른 장구간 예측부를 나타내는 개략적인 블록도이다.
도 5를 참조하면, 장구간 예측부는 피치 기여도 제어부(pitch contribution controlling unit, 51), 고해상도 장구간 예측부(high-resolution long-term prediction unit, 52), 및 저해상도 장구간 예측부(low-resolution long-term prediction unit, 53)를 포함하여 장구간 예측을 수행한다.
피치 기여도 제어부(51)는 주파수 도메인 부호화 정보 등을 기초로 선형 예측 부호화를 거친 잔여 성분(LP-residual)을 고해상도 장구간 예측부(52) 또는 저해상도 장구간 예측부(53)에 선택적으로 전송한다.
구체적으로, 피치 기여도 제어부(51)는 프레임 결정부로부터 어택의 위치와 같은 어택 정보를 제공받고, 어택의 위치에 따라 어택이 존재하는 구간(즉, 천이 구간)은 고해상도 장구간 예측부(52)에 잔여 성분을 전송하여 고해상도의 장구간 예측을 수행할 수 있으며, 어택이 존재하지 않는 구간(즉, 정적 구간)은 저해상도 장구간 예측부(53)에 잔여 성분을 전송하여 저해상도의 장구간 예측을 수행할 수 있다.
여기서, 고해상도 또는 저해상도의 장구간 예측은 적응 코드북의 검색에 있어서의 파라미터인 피치 지연과 피치 이득의 해상도의 차이를 나타낸다. 상술한 바와 같이, 신호의 피치를 샘플 간격으로 표시할 경우 적응 코드북은 피치 간격이 정 확히 정수 값인 분석 음성에 대해서는 우수한 성능을 보인다. 반면 피치 간격이 샘플 간격의 정수 배가 아닌 경우 적응 코드북의 성능은 급격히 떨어진다. 이러한 경우 성능을 유지하기 위하여 분수형 피치(fractional pitch) 방식과 정수형 피치(integer pitch, multi-tap adaptive codebook) 방식이 이용된다. 분수형 피치 방식은 분석 음성의 피치를 정수가 아닌 소수로 가정한다. 예를 들어, 부호화 장치의 전송 용량을 고려하여 0.25 단위의 소수만을 피치로 가정할 수 있다. 우선 현재 신호로부터 0.25 단위의 분해능을 얻기 위해 신호를 오버샘플링(oversampling)한다. 또한, 과거 신호도 4배의 오버샘플링을 행한 후 적응 코드북을 탐색하여 주기와 이득 값을 구한다. 이러한 분수형 피치 방식은 피치의 변화가 정수가 아닌 경우에도 적응 코드북의 성능을 그대로 유지할 수 있는 반면 오버샘플링을 위한 계산 및 분석 음성과의 비교를 위한 임펄스 응답 필터링 등을 위해 4배 이상의 계산이 요구된다. 또한, 분수형 피치를 전송하기 위한 부가 비트가 요구된다. 예를 들어, 0.25 단위의 분수형 피치 방식을 위해서는 2 비트가 추가되어야 한다.
다시 말해, 고해상도 장구간 예측부(52)는 피치 지연과 이득의 해상도를 높임으로써 정밀도를 향상시킬 수 있지만, 더 많은 비트가 할당되어야 한다. 반면, 저해상도 장구간 예측부(53)는 피치 지연과 이득의 해상도를 낮춤으로써 정밀도는 떨어지지만, 할당되는 비트 수가 줄어든다.
또한, 피치 기여도 제어부(51)는 주파수 도메인 부호화부로부터 하모닉 상관도를 제공 받는다. 상술한 바와 같이 하모닉은 성대의 울림에 의한 규칙성을 나타내므로, 하모닉이 주기적으로 나타나는 경우에는 하모닉 상관도가 크고, 하모닉이 비주기적으로 나타나는 경우에는 하모닉 상관도가 작다. 그리고, 피치 기여도 제어부(32)는 주파수 도메인 부호화부로부터 어택 강도에 대한 정보를 제공 받는다. 어택 강도는 인지 엔트로피로부터 구할 수 있다.
고해상도 장구간 예측부(52)는 정수의 샘플들뿐만 아니라 정수의 샘플들 사이에 존재하는 분수로 나타나는 샘플들에 대하여 장구간 예측을 수행할 수 있다. 이 경우 할당되는 비트 수는 증가하지만, 정밀도는 향상하게 된다.
저해상도 장구간 예측부(53)는 정수의 샘플들에 대하여 장구간 예측을 수행할 수 있다. 이 경우 할당되는 비트 수는 감소하지만, 고해상도 장구간 예측부에 비하여 정밀도는 떨어진다.
예를 들어, 적응 코드북의 적용 시에 프레임 결정부로부터 제공받은 어택의 위치 정보로부터 천이 구간이 결정된 경우에 천이 구간에는 고해상도의 장구간 예측이 수행될 수 있다. 그리고, 어택이 존재하지 않는 정적 구간이 결정된 경우에 정적 구간에는 저해상도의 장구간 예측이 수행될 수 있다.
예를 들어, 적응 코드북의 적용 시에 주파수 도메인 부호화부로부터 하모닉 상관도에 대한 정보를 제공받은 경우, 하모닉 상관도가 큰 경우에는, 즉, 신호에 규칙적으로 피치가 존재하는 경우에는 고해상도의 장구간 예측이 수행될 수 있고, 하모닉 상관도가 작은 경우에는 저해상도의 장구간 예측이 수행될 수 있다.
예를 들어, 적응 코드북의 적용 시에 주파수 도메인 부호화부로부터 어택 강도에 대한 정보를 제공받은 경우, 어택 강도가 큰 경우에는 고해상도의 장구간 예측이 수행될 수 있고, 어택의 강도가 작은 경우에는 저해상도의 장구간 예측이 수 행될 수 있다.
도 6A는 G.729의 고정 코드북의 펄스 트랙 구조의 예를 나타낸다. 도 6B는 본 발명의 일 실시예에 따른 어택 위치에 적응적인 고정 코드북의 펄스 트랙 구조의 예를 나타낸다. 이하에서는 도 6A 및 6B를 참조하여 어택 위치 정보에 따라 적응적으로 고정 코드북을 적용하는 방법에 대하여 설명하기로 한다.
도 6A를 참조하면, G.729의 펄스 트랙 구조는 제1 내지 제4 트랙에 각각 제1 내지 제4 펄스(i0, i1, i2, i3)를 가지며, 각 펄스는 +1 또는 -1의 크기를 갖는다. 제1 트랙에서 펄스 위치 인덱스는 0, 5, 10, 15, 20, 25, 30, 35이고, 제2 트랙에서 펄스 위치 인덱스는 1, 6, 11, 16, 21, 26, 31, 36이며, 제3 트랙에서 펄스 위치 인덱스는 2, 7, 12, 17, 22, 27, 32, 37이고, 제4 트랙에서 펄스 위치 인덱스는 3, 8, 13, 18, 23, 28, 33, 38, 4, 9, 14, 19, 24, 29, 34, 39이다. 이때 고정 코드북을 검색하는 것은 제1 내지 제4 트랙에서 각 트랙 별로 최적 펄스의 위치를 찾아내는 것을 의미한다.
이와 같이, 위치(position)를 나타내는 위치 인덱스에 13 비트(3 + 3 + 3 + 4 = 13)가 할당되며, 각각의 펄스의 부호(sign)를 나타내는데 4 비트(1 + 1 + 1 + 1 = 4)가 할당된다. 그러나, 이와 같이 고정된 트랙 구조를 가진 고정 코드북을 사용할 경우에 어택의 발생과 무관하게 일정한 위치에서 펄스를 검출하므로 효과적으로 부호화하기 어렵다.
도 6B를 참조하면, 본 발명의 일 실시예에 따른 고정 코드북은 어택의 위치에 따라 트랙 구조를 적응적으로 선택하여 사용한다. 왜냐하면, 어택이 발생하면 그 주변에 연속적으로 펄스가 존재할 확률이 많기 때문이다. 상술한 바와 같이 고정된 펄스 트랙 구조를 이용할 경우에는 어택이 발생하지 않은 곳과 어택이 발생한 곳에서 같은 비율로 펄스를 검출하게 되므로 효율적이지 못하게 된다.
예를 들어, 40개의 샘플에서 펄스 트랙 구조는 제1 트랙에 제1 내지 제4 펄스(i0, i1, i2, i3)를 갖고 제2 트랙에 제5 펄스(i4)를 가지며, 각 펄스는 +1 또는 -1의 크기를 갖는다. 먼저, 5 비트를 할당하여 펄스 위치 인덱스 0, 3, 5, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 34, 36, 38에서 어택의 위치를 표현한다. 40개의 샘플 중 앞부분은 0, 3, 5만 선택하고, 뒷부분은 34, 36, 38만 선택하며, 어택이 존재할 확률이 큰 중간 부분은 매 샘플마다 어택의 존재 여부를 확인한다. 이로써, 40개의 샘플이지만 5 비트 만으로 어택의 위치를 표현할 수 있다.
만약 40개의 샘플 중에서 어택의 위치가 22의 펄스 위치 인덱스인 경우에는 제1 트랙과 제2 트랙을 다음과 같이 적응적으로 선택할 수 있다. 제1 트랙에서 펄스 위치 인덱스를 22, 23, 24, 25로 하고, 제2 트랙에서 펄스 위치 인덱스를 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 21, 22로 한다. 제1 트랙에는 4개의 펄스가 존재하므로 각각의 펄스 위치 인덱스인 22, 23, 24, 25에서 펄스를 찾아낼 수 있다. 제2 트랙에는 1개의 펄스가 존재하는데, 어택의 위치와 가까운 위치에서 펄스를 검출하여 부호화의 효율을 높일 수 있다.
이와 같이, 위치를 나타내는 위치 인덱스에 12 비트(5 + 1 + 1 + 1 + 4 = 12)가 할당되며, 각각의 펄스의 부호를 나타내는데 5 비트(1 + 1 + 1 + 1 + 1 = 5) 가 할당된다. 도 6A와 비교할 때, 비트 수는 같지만, 어택의 위치에 근접한 샘플 위치에서 집중적으로 펄스를 검출함으로써 부호화의 효율을 높일 수 있다.
도 7은 본 발명의 일 실시예에 따른 시간 도메인 부호화 방법을 나타내는 흐름도이다.
도 7을 참조하면, 71 단계에서 입력 신호의 어택의 위치에 따라 입력 신호의 포락선(envelop)을 검출한다. 구체적으로, 입력 신호의 어택의 위치에 따라 형상 또는 길이 중 적어도 하나가 조절되는 윈도우를 입력 신호에 적용하여 입력 신호의 포락선을 검출한다.
72 단계에서 입력 신호의 어택에 관한 정보를 기초로 조절되는 파라미터의 해상도에 따라 입력 신호에서 포락선을 제외한 잔여(residual) 신호를 모델링하기 위한 적응 코드북을 검색하여 잔여 신호를 부호화한다.
73 단계에서 입력 신호의 어택의 위치에 따라 조절되는 인덱스를 기초로 적응 코드북을 검색하여 부호화되지 않은 여기(excitation) 신호를 모델링하기 위한 고정 코드북을 검색하여 여기 신호를 부호화한다.
도 8은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 방법을 나타내는 흐름도이다.
도 8을 참조하면, 81 단계에서 입력 신호의 처리 단위인 프레임의 길이를 입력 신호의 어택의 위치에 따라 가변적으로 결정한다.
82 단계에서 각 프레임 별로 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할한다.
83 단계에서 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 서브 밴드의 신호를 주파수 도메인에서 부호화한다.
84 단계에서 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 서브 밴드의 신호를 시간 도메인으로 역변환하고, 입력 신호의 어택의 위치에 대한 정보 및 주파수 도메인 부호화 정보를 이용하여 역변환된 서브 밴드의 신호를 적응적으로 시간 도메인에서 부호화한다. 구체적으로, 입력 신호의 어택의 위치에 따라 형상 또는 길이 중 적어도 하나가 조절되는 윈도우를 입력 신호에 적용하여 입력 신호의 포락선(envelop)을 검출하고, 입력 신호의 어택에 관한 정보를 기초로 조절되는 파라미터의 해상도에 따라 입력 신호에서 포락선을 제외한 잔여(residual) 신호를 모델링하기 위한 적응 코드북을 검색하여 잔여 신호를 부호화하며, 입력 신호의 어택의 위치에 따라 조절되는 인덱스를 기초로 적응 코드북을 검색하여 부호화되지 않은 여기(excitation) 신호를 모델링하기 위한 고정 코드북을 검색하여 여기 신호를 부호화한다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
상술한 바와 같이, 본 발명에 따른 오디오/스피치 신호의 시간 도메인에서의 부호화 방법에 의하면, 입력 신호의 어택 위치에 따라 선형 예측 분석에서 포락선을 검출하고, 입력 신호의 어택 위치 및 강도 등에 따라 적응 코드북 및 고정 코드북을 적응적으로 적용함으로써, 오디오/스피치 신호를 부호화할 때 입력 신호의 특성을 반영하여 압축 효율 및 음질을 향상시킬 수 있다.
또한, 본 발명에 따른 오디오/스피치 신호의 부호화 장치 및 방법에 의하면, 입력 신호의 어택 위치에 따라 프레임의 길이를 가변적으로 결정하고, 시간 도메인에서의 부호화 과정에서 입력 신호의 어택 위치에 따라 선형 예측 분석에서 포락선을 검출하고, 입력 신호의 어택 위치 및 강도 등에 따라 적응 코드북 및 고정 코드북을 적응적으로 적용함으로써, 오디오/스피치 신호를 부호화할 때 입력 신호의 특성을 반영하여 압축 효율 및 음질을 향상시킬 수 있다.
Claims (12)
- (a) 입력 신호의 어택의 위치에 따라 상기 입력 신호의 포락선(envelop)을 검출하는 단계;(b) 상기 입력 신호의 상기 어택에 관한 정보를 기초로 조절되는 파라미터의 해상도에 따라 상기 입력 신호에서 포락선을 제외한 잔여(residual) 신호를 모델링하기 위한 적응 코드북을 검색하여 상기 잔여 신호를 부호화하는 단계; 및(c) 상기 입력 신호의 상기 어택의 위치에 따라 조절되는 인덱스를 기초로 상기 (b) 단계에서 부호화되지 않은 여기(excitation) 신호를 모델링하기 위한 고정 코드북을 검색하여 상기 여기 신호를 부호화하는 단계를 포함하는 것을 특징으로 하는 오디오/스피치 신호의 시간 도메인에서 부호화 방법.
- 제1항에 있어서,상기 (a) 단계는상기 입력 신호의 상기 어택의 위치에 따라 형상 또는 길이 중 적어도 하나 가 조절되는 윈도우를 상기 입력 신호에 적용하여 상기 입력 신호의 포락선을 검출하는 것을 특징으로 하는 오디오/스피치 신호의 시간 도메인에서의 부호화 방법.
- 제2항에 있어서,상기 (a) 단계는상기 입력 신호에 어택이 존재하지 않는 정적 구간에 대하여 제1 윈도우를 적용하고,상기 입력 신호에 어택이 존재하는 천이 구간에 대하여 상기 제1 윈도우 보다 길이가 짧은 제2 윈도우를 적용하는 것을 특징으로 하는 오디오/스피치 신호의 시간 도메인에서의 부호화 방법.
- 제2항에 있어서,상기 (a) 단계는상기 입력 신호에 어택이 존재하는 천이 구간에 대하여 상기 윈도우의 피크를 상기 어택의 위치로 조정하여 상기 윈도우의 형상을 조절하는 것을 특징으로 하는 오디오/스피치 신호의 시간 도메인에서의 부호화 방법.
- 제1항에 있어서,상기 (b) 단계는상기 입력 신호의 상기 어택의 위치, 상기 어택의 강도 및 주파수 도메인으로 변환된 상기 입력 신호에서 하모닉 상관도 중 적어도 하나를 기초로 상기 적응 코드북의 파라미터인 피치 지연 및 이득의 해상도를 조절하는 것을 특징으로 하는 오디오/스피치 신호의 시간 도메인에서의 부호화 방법.
- 제1항에 있어서,상기 (c) 단계는상기 인덱스 및 이득에 따른 펄스 트랙 구조를 나타낸 상기 고정 코드북에서 상기 입력 신호에 어택이 존재하는 천이 구간에 대하여 상기 어택의 위치에 따라 상기 인덱스를 조절하는 것을 특징으로 하는 오디오/스피치 신호의 시간 도메인에서의 부호화 방법.
- 제6항에 있어서,상기 (c) 단계는상기 입력 신호에 어택이 존재하는 천이 구간에 대하여상기 입력 신호의 상기 어택의 위치로부터 소정의 간격에 상기 인덱스를 밀집시키는 것을 특징으로 하는 오디오/스피치 신호의 시간 도메인에서의 부호화 방법.
- 제1항 내지 제7항 중 어느 한 항의 오디오/스피치 신호의 시간 도메인에서의 부호화 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
- 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택의 위치에 따라 가변적으로 결정하는 단계;상기 각 프레임 별로 상기 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 단계;상기 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 주파수 도메인에서 부호화하는 단계; 및상기 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 시간 도메인으로 역변환하고, 상기 입력 신호의 상기 어택의 위치에 대한 정보 및 주파수 도메인 부호화 정보를 이용하여 상기 역변환된 서브 밴드의 신호를 적응적으로 시간 도메인에서 부호화하는 단계를 포함하는 것을 특징으로 하는 오디오/스피치 신호의 부호화 방법.
- 제11항에 있어서,상기 시간 도메인에서 부호화하는 단계는(a) 상기 입력 신호의 상기 어택의 위치에 따라 상기 입력 신호의 포락선(envelop)을 검출하는 단계;(b) 상기 입력 신호의 상기 어택에 관한 정보를 기초로 조절되는 파라미터의 해상도에 따라 상기 입력 신호에서 포락선을 제외한 잔여(residual) 신호를 모델링하기 위한 적응 코드북을 검색하여 상기 잔여 신호를 부호화하는 단계; 및(c) 상기 입력 신호의 상기 어택의 위치에 따라 조절되는 인덱스를 기초로 상기 (b) 단계에서 부호화되지 않은 여기(excitation) 신호를 모델링하기 위한 고정 코드북을 검색하여 상기 여기 신호를 부호화하는 단계를 포함하는 것을 특징으로 하는 오디오/스피치 신호의 부호화 방법.
- 제9항 및 제10항 중 어느 한 항의 오디오/스피치 신호의 부호화 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
- 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택의 위치에 따라 가변적으로 결정하는 프레임 결정부;상기 각 프레임 별로 상기 입력 신호의 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 도메인 변환부;상기 분할된 서브 밴드 별로 상기 서브 밴드의 신호를 주파수 도메인에서 부호화할지 시간 도메인에서 부호화할지 여부를 결정하는 도메인 결정부;시간 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 시간 도메인으로 역변환하는 도메인 역변환부;상기 주파수 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 주파수 도메인에서 부호화하는 주파수 도메인 부호화부; 및상기 프레임 결정부로부터 제공받은 상기 입력 신호의 상기 어택의 위치에 대한 정보 및 상기 주파수 도메인 부호화부로부터 제공받은 주파수 도메인 부호화 정보를 이용하여 상기 역변환된 서브 밴드의 신호를 적응적으로 시간 도메인에서 부호화하는 시간 도메인 부호화부를 포함하는 것을 특징으로 하는 오디오/스피치 신호의 부호화 장치.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070040043A KR101377667B1 (ko) | 2007-04-24 | 2007-04-24 | 오디오/스피치 신호의 시간 도메인에서의 부호화 방법 |
US11/872,116 US8630863B2 (en) | 2007-04-24 | 2007-10-15 | Method and apparatus for encoding and decoding audio/speech signal |
US14/132,224 US9418666B2 (en) | 2007-04-24 | 2013-12-18 | Method and apparatus for encoding and decoding audio/speech signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070040043A KR101377667B1 (ko) | 2007-04-24 | 2007-04-24 | 오디오/스피치 신호의 시간 도메인에서의 부호화 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080095492A true KR20080095492A (ko) | 2008-10-29 |
KR101377667B1 KR101377667B1 (ko) | 2014-03-26 |
Family
ID=40155146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070040043A KR101377667B1 (ko) | 2007-04-24 | 2007-04-24 | 오디오/스피치 신호의 시간 도메인에서의 부호화 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101377667B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011087332A3 (ko) * | 2010-01-15 | 2011-12-01 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
CN111813367A (zh) * | 2020-07-22 | 2020-10-23 | 广州繁星互娱信息科技有限公司 | 调整音量的方法、装置、设备以及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2001276588A1 (en) | 2001-01-11 | 2002-07-24 | K. P. P. Kalyan Chakravarthy | Adaptive-block-length audio coder |
KR100647336B1 (ko) | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
-
2007
- 2007-04-24 KR KR1020070040043A patent/KR101377667B1/ko not_active IP Right Cessation
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011087332A3 (ko) * | 2010-01-15 | 2011-12-01 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US9305563B2 (en) | 2010-01-15 | 2016-04-05 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
US9741352B2 (en) | 2010-01-15 | 2017-08-22 | Lg Electronics Inc. | Method and apparatus for processing an audio signal |
CN111813367A (zh) * | 2020-07-22 | 2020-10-23 | 广州繁星互娱信息科技有限公司 | 调整音量的方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR101377667B1 (ko) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9418666B2 (en) | Method and apparatus for encoding and decoding audio/speech signal | |
US10885926B2 (en) | Classification between time-domain coding and frequency domain coding for high bit rates | |
KR100647336B1 (ko) | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 | |
RU2485606C2 (ru) | Схема кодирования/декодирования аудио сигналов с низким битрейтом с применением каскадных переключений | |
JP5357055B2 (ja) | 改良形デジタルオーディオ信号符号化/復号化方法 | |
RU2483364C2 (ru) | Схема аудиокодирования/декодирования с переключением байпас | |
KR101078625B1 (ko) | 이득 계수 제한을 위한 시스템, 방법 및 장치 | |
EP2040253B1 (en) | Predictive dequantization of voiced speech | |
US6678655B2 (en) | Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
KR20090122142A (ko) | 오디오 신호 처리 방법 및 장치 | |
JP6763849B2 (ja) | スペクトル符号化方法 | |
KR20070121254A (ko) | 광대역 부호화 및 복호화 방법 및 장치 | |
KR102593442B1 (ko) | 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치 | |
JP2012532344A (ja) | 加重線形予測変換を利用したオーディオ信号符号化及び復号化装置並びにその方法 | |
KR101216098B1 (ko) | 신호 처리 방법 및 장치 | |
KR101377667B1 (ko) | 오디오/스피치 신호의 시간 도메인에서의 부호화 방법 | |
KR101441312B1 (ko) | 오디오/스피치 신호 부호화방법 및 장치 | |
KR101393300B1 (ko) | 오디오/스피치 신호 복호화 방법 및 장치 | |
JP4287840B2 (ja) | 符号化装置 | |
KR20080034817A (ko) | 부호화/복호화 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |