KR101441312B1 - 오디오/스피치 신호 부호화방법 및 장치 - Google Patents
오디오/스피치 신호 부호화방법 및 장치 Download PDFInfo
- Publication number
- KR101441312B1 KR101441312B1 KR1020130118803A KR20130118803A KR101441312B1 KR 101441312 B1 KR101441312 B1 KR 101441312B1 KR 1020130118803 A KR1020130118803 A KR 1020130118803A KR 20130118803 A KR20130118803 A KR 20130118803A KR 101441312 B1 KR101441312 B1 KR 101441312B1
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- input signal
- signal
- domain
- encoding
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000007704 transition Effects 0.000 claims description 15
- 230000003068 static effect Effects 0.000 claims description 13
- 230000007774 longterm Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 abstract description 5
- 230000005236 sound signal Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 오디오/스피치 신호의 부호화 방법에 관한 것으로, 입력 신호의 처리 단위인 프레임의 길이를 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하고, 각 프레임 별로 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하며, 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 서브 밴드의 신호를 주파수 도메인에서 부호화하고, 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 서브 밴드의 신호를 시간 도메인으로 역변환하여 시간 도메인에서 부호화함으로써, 시간 해상도 및 주파수 해상도를 조절하여 효과적으로 오디오/스피치 신호를 부호화할 수 있다.
Description
본 발명은 오디오(audio) 신호와 스피치(speech) 신호를 부호화 및 복호화하는 방법 및 장치에 관한 것이다.
종래의 코덱(codec)은 스피치 코덱과 오디오 코덱으로 분류된다. 스피치 코덱은 음성 발성 모델을 이용하여 주로 50Hz에서 7kHz에 이르는 주파수 대역에 해당하는 신호를 부호화거나 복호화한다. 이러한 스피치 코덱은 일반적으로 성대와 성도를 모델링함으로써 음성 신호를 대표하는 파라미터를 추출하여 부호화 및 복호화를 수행한다. 오디오 코덱은 HE-AAC와 같이 심리 음향 모델을 적용하여 주로 0Hz에서 24kHz에 이르는 주파수 대역에 해당하는 신호를 부호화하거나 복호화한다. 이러한 오디오 코덱은 인간의 청각 특성을 이용하여 감도가 낮은 신호를 생략함으로써 부호화 및 복호화를 수행한다.
그러나, 스피치 코덱은 스피치 신호를 부호화하거나 복호화하는 데 적합하지만, 오디오 신호를 부호화하거나 복호화하는 데 있어서 음질이 저하될 수 있다. 오디오 코덱은 오디오 신호를 부호화하거나 복호화할 경우 압축 효과가 뛰어나지만, 음성 신호를 부호화하거나 복호화함에 있어서 신호를 압축하는 효율이 떨어질 수 있다. 그러므로 스피치 신호, 오디오 신호, 스피치와 오디오가 혼합된 신호를 각각 부호화 또는 복호화함에 있어서 압축 효율 및 음질을 향상시킬 수 있는 방법 및 장치가 요구된다.
본 발명이 이루고자 하는 기술적 과제는 입력 신호의 특성을 반영하여 압축 효율 및 음질을 향상시킬 수 있는 오디오/스피치 신호의 부호화 방법 및 장치를 제공하는데 있다.
본 발명이 이루고자 하는 다른 기술적 과제는 입력 신호의 특성을 반영하여 압축 효율 및 음질을 향상시킬 수 있는 오디오/스피치 신호의 복호화 방법 및 장치를 제공하는데 있다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 부호화 방법은 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하는 단계, 상기 각 프레임 별로 상기 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 단계, 및 상기 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 주파수 도메인에서 부호화하고, 상기 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 시간 도메인으로 역변환하여 시간 도메인에서 부호화하는 단계를 포함한다.
또한, 상기 다른 기술적 과제는 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하는 단계, 상기 각 프레임 별로 상기 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 단계, 및 상기 분할된 서브 밴드의 신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 주파수 도메인에서 부호화하고, 상기 분할된 서브 밴드의 신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 상기 서브 밴드의 신호를 시간 도메인으로 역변환하여 시간 도메인에서 부호화하는 단계를 포함하는 오디오/스피치 신호의 부호화 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 의해 달성된다.
또한, 상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 부호화 장치는 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하는 프레임 결정부, 상기 각 프레임 별로 상기 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할하는 도메인 변환부, 상기 분할된 서브 밴드 별로 상기 서브 밴드의 신호를 주파수 도메인에서 부호화할지 시간 도메인에서 부호화할지 여부를 결정하는 도메인 결정부, 시간 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 시간 도메인으로 역변환하는 도메인 역변환부, 및 상기 역변환된 서브 밴드의 신호를 시간 도메인에서 부호화하고, 상기 주파수 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 주파수 도메인에서 부호화하는 부호화부를 포함한다.
또한, 상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 복호화 방법은 부호화된 신호의 프레임 및 서브 밴드 별로 부호화된 도메인을 판단하는 단계, 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인에서 복호화하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인에서 복호화하는 단계, 및 상기 시간 도메인에서 복호화된 신호 및 상기 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환하는 단계를 포함한다.
또한, 상기 또 다른 기술적 과제는 부호화된 신호의 프레임 및 서브 밴드 별로 부호화된 도메인을 판단하는 단계, 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인에서 복호화하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인에서 복호화하는 단계, 및 상기 시간 도메인에서 복호화된 신호 및 상기 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환하는 단계를 포함하는 오디오/스피치 신호의 복호화 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 의해 달성된다.
또한, 상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 오디오/스피치 신호의 복호화 장치는 부호화된 신호의 프레임 및 서브 밴드 별로 부호화된 도메인을 판단하는 판단부, 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인에서 복호화하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인에서 복호화하는 복호화부, 및 상기 시간 도메인에서 복호화된 신호 및 상기 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환하는 도메인 역변환부를 포함한다.
상술한 바와 같이, 본 발명에 따른 오디오/스피치 신호의 부호화 장치 및 방법에 의하면, 입력 신호의 어택 위치에 따라 조정되는 프레임의 길이 및 주파수 밴드 별로 결정된 부호화 도메인에 따라 부호화를 수행함으로써, 시간 해상도 및 주파수 해상도를 조절하여 오디오/스피치 신호를 부호화할 때 압축 효율 및 음질을 향상시킬 수 있다.
또한, 본 발명에 따른 오디오/스피치 신호의 복호화 장치 및 방법에 의하면, 프레임의 길이 및 주파수 밴드 별로 결정된 복호화 도메인에 따라 적응적으로 복호화를 수행함으로써, 시간 해상도 및 주파수 해상도를 조절하여 오디오/스피치 신호를 복호화할 때 압축 효율 및 음질을 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치를 나타내는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 조정되는 프레임을 나타내는 그래프이다.
도 3은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 프레임 및 밴드 별 부호화 도메인을 나타내는 그래프이다.
도 4는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 장치를 나타내는 블록도이다.
도 5는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 방법을 나타내는 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 방법을 나타내는 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 조정되는 프레임을 나타내는 그래프이다.
도 3은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 프레임 및 밴드 별 부호화 도메인을 나타내는 그래프이다.
도 4는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 장치를 나타내는 블록도이다.
도 5는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 방법을 나타내는 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 방법을 나타내는 흐름도이다.
본문에 개시되어 있는 본 발명의 실시예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시예들에 한정되는 것으로 해석되어서는 아니 된다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 구성요소에 대해 사용하였다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치를 나타내는 블록도이다.
도 1을 참조하면, 오디오/스피치 신호의 부호화 장치는 프레임 결정부(11), 도메인 변환부(12), 도메인 결정부(13), 도메인 역변환부(14) 및 부호화부(15)를 포함한다. 또한, 오디오/스피치 신호의 부호화 장치는 다중화부(16)를 더 포함한다.
프레임 결정부(11)는 입력 신호(IN)를 수신하여 입력 신호(IN)의 처리 단위인 프레임(frame)의 길이를 입력 신호(IN)의 어택(attack) 위치에 따라 가변적으로 결정한다. 입력 신호(IN)는 아날로그의 스피치 신호 또는 오디오 신호를 디지털 신호로 변조한 PCM(pulse code modulation) 신호일 수 있으며, 입력 신호(IN)는 비주기적으로 어택이 존재할 수 있다.
여기서, 어택은 소리를 발생, 지속 및 소멸의 세 단계로 나눌 때 발생 부분을 의미한다. 예를 들어, 오케스트라에서 악기의 개시와 같이 한 개의 음표를 시작하는 것일 수 있다. 어택 시간은 소리가 발생한 직후부터 음량이 최고점이 되는 동안의 시간을 의미하며, 이에 대비되는 디케이(decay) 시간은 음량의 최고점에서 중간점에 이르는 시간을 의미한다. 예를 들어, 피아노 건반을 '땅'하고 쳤을 때 '땅' 소리가 최고로 올라갈 때까지의 시간을 어택 시간이라고 하고, 최고점에서 바로 내려가서 그 소리가 유지되기 전까지의 시간이 디케이 시간이다.
여기서, 프레임은 데이터 통신 등에서 한 단위로 전송되는 정보의 패키지이며, 부호화 및 복호화의 단위가 될 수 있다. 구체적으로, 프레임은 시간 도메인 데이터를 주파수 도메인으로 변환하기 위해 고속 푸리에 변환(FFT, fast fourier transform)을 적용할 수 있는 기본 단위가 될 수 있다. 이때, 각 프레임은 하나의 주파수 도메인 스펙트럼을 생성할 수 있다.
종래의 오디오 부호화 장치는 고정된 프레임의 길이로 오디오 신호를 처리하였다. 예를 들어, 대표적인 부호화 기술로는 ITU-T(International Telecommunication Union-Telecommunication Standardization Sector)의 G.723.1, G.729 등이 있는데, G.723.1은 30ms, G.729는 10ms의 고정된 길이의 프레임으로 동작한다. 그리고 AMR-NB(adaptive multi rate-narrow band) 부호화 장치는 20ms의 고정된 길이의 프레임으로 동작한다. 이와 같이, 고정된 길이의 프레임으로 오디오 신호를 처리하는 경우에는 입력되는 오디오 신호의 특성, 예를 들어, 어택의 위치 및 강도 등을 반영하지 못하고 오디오 신호를 부호화하게 되므로, 압축 효율이 떨어지거나 음질이 저하될 수 있다.
구체적으로, 프레임 결정부(11)는 입력 신호(IN)의 소리가 발생하는 어택 위치에 따라 입력 신호(IN)를 정적 구간(stationary region) 및 천이 구간(transition region)으로 구별한다. 예를 들어, 프레임 결정부(11)는 입력 신호(IN)에서 어택이 존재하는 영역은 천이 구간으로 하고, 그 외의 영역은 정적 구간으로 할 수 있다. 프레임 결정부(11)는 천이 구간의 경우 입력 신호(IN)의 어택의 강도에 따라 가변 프레임의 길이를 짧게 결정할 수 있고, 정적 구간의 경우 입력 신호(IN)의 정적인 정도에 따라, 즉, 어택이 존재하지 않는 범위에 따라 가변 프레임의 길이를 길게 결정할 수 있다.
보다 상세하게 설명하면, 프레임 결정부(11)는 어택이 존재하는 천이 구간의 경우에 어택의 강도가 클수록 가변 프레임의 길이를 짧게 결정하여, 짧은 구간에 대한 부호화를 수행함으로써 시간 해상도(time resolution)를 높일 수 있다. 해상도(resolution)는 보통 화면 등에서 이미지의 정밀도를 나타내는 지표로 사용되며, 오디오 영역에서 시간 해상도는 오디오 신호의 시간 방향의 해상도, 즉, 정밀도를 나타낸다.
이와 반대로, 프레임 결정부(11)는 어택이 존재하지 않는 정적 구간의 경우에 입력 신호(IN)의 정적인 정도에 따라, 즉, 어택이 존재하지 않는 범위에 따라 가변 프레임의 길이를 길게 결정하여 보다 긴 구간에 대한 부호화를 수행함으로써 시간 해상도는 제한되지만, 보다 긴 시간 동안 주파수와 입력 신호(IN)의 변화를 검출할 수 있으므로, 주파수 해상도(frequency resolution)를 높일 수 있다. 오디오 영역에서 주파수 해상도는 주파수 방향의 해상도, 즉, 정밀도를 나타낸다. 이는 시간과 주파수가 반비례 관계임을 근거로 할 때, 더욱 명확해진다.
이와 같이, 프레임의 길이를 가변적으로 결정하여 천이 구간과 같이 소리의 변동이 심한 영역에서는 시간 해상도를 높여주고, 주파수 해상도를 제한하며, 정적 구간과 같이 소리의 변동이 없는 영역에서는 주파수 해상도를 높여주고, 시간 해상도를 제한하여 부호화함으로써 부호화 성능을 향상할 수 있다.
또한, 프레임 결정부(11)는 시간 도메인의 입력 신호(IN)를 주파수 도메인으로 변환(transform)하는 경우의 윈도우의 길이를 입력 신호(IN)의 어택 위치에 따라 결정한다. 입력 신호(IN)는 시간 도메인의 PCM 신호이므로 이를 주파수 도메인으로 변환할 필요가 있다. 불연속 푸리에 변환 및 고속 푸리에 변환 등에 있어서 처리할 데이터는 주기적으로 반복되는 신호의 일정 구간이므로, 시간 도메인에서 주파수 도메인으로의 변환이 수행되는 경우 신호의 일정 구간을 선택하여야 하므로 이 때 윈도우가 사용된다. 이와 같이, 윈도우를 시간 도메인의 입력 신호(IN)에 적용하여 시간 도메인에서 주파수 도메인으로의 변환을 수행할 수 있다. 시간 및 주파수는 역수 관계로서, 윈도우의 폭이 좁으면 시간 해상도는 좋아지지만, 주파수 해상도는 나빠지며, 윈도우의 폭이 넓으면 주파수 해상도는 좋아지지만, 시간 해상도는 나빠진다. 이는 프레임의 길이를 어택의 위치에 따라 가변적으로 조정하는 것과 유사하다.
또한, 프레임 결정부(11)는 입력 신호(IN)의 어택 위치 및 강도 등과 같은 어택 정보를 부호화부(15)에 제공할 수 있다.
도메인 변환부(12)는 각 프레임 별로 입력 신호(IN)를 주파수 도메인으로 변환하고, 변환된 주파수 도메인의 신호를 서브 밴드 별로 분할한다. 구체적으로, 도메인 변환부(12)는 입력 신호(IN)를 수신하고, 프레임 결정부(11)의 출력을 기초로, 즉, 프레임 결정부(11)에서 결정된 프레임의 길이를 기초로 입력 신호(IN)의 프레임을 가변적으로 조정한다. 그리고, 도메인 변환부(12)는 주파수 도메인으로 변환된 신호를 서브 밴드 별로 분할하여 도메인 결정부(13)에 제공한다.
예를 들어, 시간 도메인의 입력 신호(IN)는 MDCT(modified discrete cosine transform)에 의해 주파수 도메인으로 변환되어 실수부로 표현되고, MDST(modified discrete sine transform)에 의해 주파수 도메인으로 변환되어 허수부로 표현될 수 있다. 여기서, MDCT에 의해 변환되어 실수부로 표현된 신호는 입력 신호(IN)를 부호화하는데 사용되고, MDST에 의해 변환되어 허수부로 표현된 신호는 심리 음향 모델을 적용하는데 이용된다.
도메인 결정부(13)는 프레임 결정부(11)에서 어택의 위치 등과 같은 입력 신호(IN)의 특성에 따라 길이가 각각 서로 다르게 결정된 프레임을 기초로 서브 밴드 별로 입력 신호를 주파수 도메인에서 부호화할지 시간 도메인에서 부호화할지 여부를 결정한다. 구체적으로, 도메인 결정부(13)는 선형 예측 부호화 이득(linear prediction coding gain), 인접한 프레임의 선형 예측 필터 간의 스펙트럼 변화, 주파수 스펙트럼의 기울기(spectral tilt) 등과 같은 스펙트럴 계측(spectral measure) 방식, 각 대역의 신호 에너지 크기, 대역 간의 신호 에너지 변화 등과 같은 에너지 계측(energy measure) 방식, 예측된 피치 지연(predicted pitch delay), 예측된 장기 예측 이득(predicted long term prediction gain) 등과 같은 장기 예측 추정(long term prediction estimation) 방식, 및 유성음/무성음을 구별하는 음성 레벨 결정도(voicing level determination)를 기초로 밴드 별로 부호화 도메인을 결정할 수 있다.
도메인 역변환부(14)는 도메인 결정부(13)의 출력을 기초로, 즉, 도메인 결정부(13)에서 시간 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 시간 도메인으로 역변환한다.
이와 같이, 프레임 결정부(11) 및 도메인 결정부(13)에 의해 입력 신호(IN)의 프레임 길이는 각각 달라지고, 입력 신호(IN)는 각각의 프레임에서 서브 밴드 별로 분할된 후, 각각의 주파수 밴드에서 부호화될 도메인이 결정된다. 그리하여, 프레임 및 주파수 밴드 별로 각각 서로 다른 도메인에서 부호화된다.
부호화부(15)는 주파수 도메인 부호화부(151) 및 시간 도메인 부호화부(152)를 포함한다. 주파수 도메인 부호화부(151)는 도메인 결정부(13)의 결정 결과 주파수 도메인에서 부호화하는 것으로 결정된 경우 도메인 변환부(12)로부터 신호를 수신하여 주파수 도메인에서 부호화한다. 시간 도메인 부호화부(152)는 도메인 결정부(13)의 결정 결과 시간 도메인에서 부호화하는 것으로 결정된 경우 도메인 역변환부(14)로부터 신호를 수신하여 시간 도메인에서 부호화한다.
또한, 다른 실시예에서, 부호화부(15)는 주파수 도메인 부호화부(151) 및 시간 도메인 부호화부(152)를 포함하고, 도메인 변환부(12) 및 도메인 역변환부(14)로부터 제공된 신호는 일단 주파수 도메인 부호화부로 입력될 수 있다. 이 경우, 도메인 역변환부(14)에서 생성된 시간 도메인 신호는 다시 시간 도메인 부호화부로 출력될 수 있다. 부호화부(15)는 프레임 결정부(11)로부터 입력 신호(IN)의 어택 위치 및 강도 등과 같은 어택 정보를 제공받아 입력 신호(IN)의 부호화에 적응적으로 이용할 수 있다.
다중화부(16)는 주파수 도메인 부호화부(151) 및 시간 도메인 부호화부(151)의 출력을 수신하고, 즉, 주파수 도메인에서 부호화된 결과 및 시간 도메인에서 부호화된 결과를 수신하고 다중화(multiplexing)하여 비트 스트림(bit stream)을 생성한다.
도 2는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 조정되는 프레임을 나타내는 그래프이다.
도 2를 참조하면, 도 1의 오디오/스피치 신호의 부호화 장치에 포함된 프레임 결정부에 의해 입력 신호의 프레임의 길이는 서로 다르게 결정될 수 있다. 예를 들어, 제1 프레임(21)의 길이는 15ms이고, 제2 및 제3 프레임(22, 23)의 길이는 5ms이며, 제4 프레임(24)의 길이는 10ms이고, 제5 프레임(25)의 길이는 5ms이다. 즉, 제1 프레임(21)의 길이가 제일 길고, 다음으로 제4 프레임(24)의 길이가 길며, 제2, 제3 및 제5 프레임(22, 23, 25)의 길이가 가장 짧다.
프레임의 길이가 5ms로 가장 짧은 제2, 제3 및 제5 프레임(22, 23, 25)은 어택이 발견된 천이 구간일 수 있다. 어택이 발견된 경우 프레임의 길이를 짧게 조정하고, 변환 윈도우를 짧게 하여 시간 해상도를 향상시킬 수 있다. 프레임의 길이가 15ms로 가장 긴 제1 프레임(21)은 어택이 발견되지 않은 정적 구간일 수 있다. 어택이 발견되지 않은 경우 정적인 정도에 따라, 즉, 어택의 발견 간격 등에 따라 프레임의 길이를 길게 조정하고, 변환 윈도우를 길게 하여 주파수 해상도를 향상시킬 수 있다.
도 3은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 장치에서 프레임 및 밴드 별 부호화 도메인을 나타내는 그래프이다.
도 2 및 도 3을 참조하면, 도 1의 오디오/스피치 신호의 부호화 장치에 포함된 도메인 결정부에 의해 입력 신호의 주파수 밴드 별로 부호화 도메인은 서로 다르게 결정될 수 있다. 상술한 바와 같이, 도메인 결정부는 입력 신호의 특성에 따라 부호화에 유리한 도메인을 주파수 밴드 별로 적응적으로 결정할 수 있다. 도 3에서 흰색 영역은 주파수 도메인 부호화 구간(frequency domain coding region)이고, 검은색 점으로 채워진 영역은 시간 도메인 부호화 구간(time domain coding region)를 나타낸다.
예를 들어, 제1 프레임(21)에서 0에서 6kHz의 주파수 밴드(211)는 시간 도메인에서 부호화하고, 6kHz에서 10kHz의 주파수 밴드(212)는 주파수 도메인에서 부호화하도록 부호화 도메인을 주파수 밴드 별로 결정할 수 있다. 제2 프레임(22)의 0에서 6kHz의 주파수 밴드(221)은 시간 도메인에서 부호화하고, 6kHz에서 10kHz의 주파수 밴드(222)은 주파수 도메인에서 부호화하도록 부호화 도메인을 주파수 밴드 별로 결정할 수 있다. 제3 프레임(23)의 0에서 6kHz의 주파수 밴드(231)는 시간 도메인에서 부호화하고, 6kHz에서 10kHz의 주파수 밴드(232)는 주파수 도메인에서 부호화하도록 부호화 도메인을 주파수 밴드 별로 결정할 수 있다. 제4 프레임(24)의 경우 0에서 10kHz의 주파수 밴드(240)는 모두 주파수 도메인에서 부호화하도록 부호화 도메인을 결정할 수 있다. 제5 프레임(25)의 경우 0에서 4kHz의 주파수 밴드(251)는 시간 도메인에서 부호화하고, 4kHz에서 10kHz의 주파수 밴드(252)는 주파수 도메인에서 부호화하도록 부호화 도메인을 주파수 대역 별로 결정할 수 있다.
종래의 오디오/스피치 신호의 부호화 장치는 일정한 길이의 프레임에서 주파수 밴드 별로 부호화 도메인을 달리하였으나, 본 발명의 일 실시예에 의한 오디오/스피치 신호의 부호화 장치는 입력 신호의 특성에 따라 프레임의 길이를 가변적으로 조정하고, 프레임에서 주파수 밴드 별로 부호화 도메인을 달리할 수 있다. 이로써, 입력 신호의 어택의 위치 및 강도에 따라 프레임의 길이 및 윈도우 타입을 달리할 수 있으므로 시간 해상도 및 주파수 해상도를 향상시킬 수 있다.
도 4는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 장치를 나타내는 블록도이다.
도 4를 참조하면, 오디오/스피치 신호의 복호화 장치는 역다중화부(41), 판단부(42) 및 복호화부(43)를 포함한다. 또한, 오디오/스피치 신호의 복호화 장치는 도메인 역변환부(44)를 더 포함할 수 있다.
역다중화부(41)는 비트 스트림을 수신하고 역다중화(demultiplexing)하여 주파수 도메인에서 부호화된 결과 및 시간 도메인에서 부호화된 결과를 출력한다.
판단부(42)는 역다중화된 신호로부터 얻은 정보를 기초로 역다중화된 신호의 프레임 길이 및 주파수 밴드 별로 부호화된 도메인을 판단하고, 판단 결과를 복호화부(43)에 제공한다. 역다중화된 신호의 부호화 도메인은 프레임 길이 및 주파수 밴드 별로 서로 다를 수 있다.
복호화부(43)는 주파수 도메인 복호화부(431) 및 시간 도메인 복호화부(432)를 포함한다. 구체적으로, 주파수 도메인 복호화부(431)는 판단부(42)의 판단 결과 역다중화된 신호가 주파수 도메인에서 부호화된 경우 역다중화된 신호를 주파수 도메인에서 복호화한다. 또한, 시간 도메인 복호화부(432)는 판단부(42)의 판단 결과 역다중화된 신호가 시간 도메인에서 부호화된 경우 역다중화된 신호를 시간 도메인에서 복호화한다.
또한, 다른 실시예에서, 복호화부(43)는 주파수 도메인 복호화부(431) 및 시간 도메인 복호화부(432)를 포함하고, 역다중화된 신호는 주파수 도메인 복호화부(431)로 일단 입력될 수 있다. 이 경우, 판단부(42)의 판단 결과 역다중화된 신호가 시간 도메인에서 부호화된 경우에는 주파수 도메인 복호화부(431)에 입력된 신호는 다시 시간 도메인 복호화부(432)로 출력될 수 있다.
도메인 역변환부(44)는 복호화부(43)의 출력을 수신하고, 즉, 복호화된 신호를 수신하고 시간 도메인에서 복호화된 신호 및 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환한다.
도 5는 본 발명의 일 실시예에 따른 오디오/스피치 신호의 부호화 방법을 나타내는 흐름도이다.
도 5를 참조하면, 51 단계에서 입력 신호의 처리 단위인 프레임의 길이를 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정한다. 구체적으로, 입력 신호를 어택 위치에 따라 정적 구간 또는 천이 구간으로 구별하고, 정적 구간 및 천이 구간에서 프레임의 길이를 다르게 결정한다. 예를 들어, 정적 구간에는 긴 프레임을 적용하고, 천이 구간에는 어택 강도에 따라 짧은 프레임을 적용할 수 있다.
52 단계에서 각 프레임 별로 입력 신호를 주파수 도메인으로 변환하여 서브 밴드 별로 분할한다.
53 단계에서 분할된 서브 밴드의 신호를 주파수 도메인에서 부호화할지 판단한다. 다시 말해, 분할된 서브 밴드의 신호를 주파수 도메인에서 부호화할지 시간 도메인에서 부호화할지 여부를 결정한다.
54 단계에서 주파수 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 주파수 도메인에서 부호화한다.
55 단계에서 시간 도메인에서 부호화하는 것으로 결정된 서브 밴드의 신호를 시간 도메인으로 역변환하여 시간 도메인에서 부호화한다.
도 6은 본 발명의 일 실시예에 따른 오디오/스피치 신호의 복호화 방법을 나타내는 흐름도이다.
도 6을 참조하면, 61 단계에서 부호화된 신호의 프레임 및 서브 밴드 별로 부호화된 도메인을 판단한다.
62 단계에서 시간 도메인에서 부호화된 것으로 판단된 신호는 시간 도메인에서 복호화하고, 주파수 도메인에서 부호화된 것으로 판단된 신호는 주파수 도메인에서 복호화한다.
63 단계에서 시간 도메인에서 복호화된 신호 및 주파수 도메인에서 복호화된 신호를 합성하여 시간 도메인으로 역변환한다.
본 발명은 상술한 실시예에 한정되지 않으며, 본 발명의 사상 내에서 당업자에 의한 변형이 가능함은 물론이다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
13 ... 도메인 결정부 15 ... 부호화부
Claims (11)
- 입력신호에 대하여 각 프레임 별로 부호화할 도메인을 결정하는 단계; 및
상기 입력신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 상기 입력신호를 주파수 도메인에서 부호화하고, 상기 입력신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 상기 입력신호를 시간 도메인에서 부호화하는 단계를 포함하고,
상기 시간 도메인에서 부호화시 장구간 예측과 고정 코드북을 사용하는 것을 특징으로 하는 오디오/스피치 신호의 부호화 방법. - 제1 항에 있어서, 상기 방법은 상기 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하는 단계를 더 포함하는 오디오/스피치 신호의 부호화 방법.
- 제2 항에 있어서, 상기 입력 신호를 상기 어택 위치에 따라 정적 구간 또는 천이 구간으로 구별하고, 상기 정적 구간 및 상기 천이 구간에서 상기 프레임의 길이를 다르게 결정하는 것을 특징으로 하는 오디오/스피치 신호의 부호화 방법.
- 제3 항에 있어서,
상기 정적 구간에는 제1 프레임을 적용하고,
상기 천이 구간에는 어택 강도에 따라 상기 제1 프레임 보다 짧은 제2 프레임을 적용하는 것을 특징으로 하는 오디오/스피치 신호의 부호화 방법. - 제1 항에 있어서,
상기 시간 도메인에서 부호화된 결과 및 상기 주파수 도메인에서 부호화된 결과를 다중화하여 비트 스트림을 출력하는 단계를 더 포함하는 것을 특징으로 하는 오디오/스피치 신호의 부호화 방법. - 제1항 내지 제5항 중 어느 한 항의 오디오/스피치 신호의 부호화 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
- 입력신호에 대하여 각 프레임 별로 부호화할 도메인을 결정하는 도메인 결정부; 및
상기 입력신호가 주파수 도메인에서 부호화하는 것으로 결정된 경우 상기 입력신호를 주파수 도메인에서 부호화하고, 상기 입력신호가 시간 도메인에서 부호화하는 것으로 결정된 경우 상기 입력신호를 시간 도메인에서 부호화하는 부호화부를 포함하고,
상기 시간 도메인에서 부호화시 장구간 예측과 고정 코드북을 사용하는 것을 특징으로 하는 오디오/스피치 신호의 부호화 장치. - 제7 항에 있어서, 상기 입력 신호의 처리 단위인 프레임의 길이를 상기 입력 신호의 어택(attack) 위치에 따라 가변적으로 결정하는 프레임 결정부를 더 포함하는 오디오/스피치 신호의 부호화 장치.
- 제8항에 있어서, 상기 프레임 결정부는
상기 입력 신호를 상기 어택 위치에 따라 정적 구간 또는 천이 구간으로 구별하고, 상기 정적 구간 및 상기 천이 구간에서 상기 프레임의 길이를 다르게 결정하는 것을 특징으로 하는 오디오/스피치 신호의 부호화 장치. - 제8항에 있어서, 상기 프레임 결정부는
정적 구간에는 제1 프레임을 적용하고,
천이 구간에는 어택 강도에 따라 상기 제1 프레임 보다 짧은 제2 프레임을 적용하는 것을 특징으로 하는 오디오/스피치 신호의 부호화 장치. - 제7항에 있어서, 상기 시간 도메인에서 부호화된 결과 및 상기 주파수 도메인에서 부호화된 결과를 다중화하여 비트 스트림을 출력하는 다중화부를 포함하는 것을 특징으로 하는 오디오/스피치 신호의 부호화 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130118803A KR101441312B1 (ko) | 2013-10-04 | 2013-10-04 | 오디오/스피치 신호 부호화방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130118803A KR101441312B1 (ko) | 2013-10-04 | 2013-10-04 | 오디오/스피치 신호 부호화방법 및 장치 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070040042A Division KR101393300B1 (ko) | 2007-04-24 | 2007-04-24 | 오디오/스피치 신호 복호화 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130133712A KR20130133712A (ko) | 2013-12-09 |
KR101441312B1 true KR101441312B1 (ko) | 2014-09-17 |
Family
ID=49981600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130118803A KR101441312B1 (ko) | 2013-10-04 | 2013-10-04 | 오디오/스피치 신호 부호화방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101441312B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8630863B2 (en) | 2007-04-24 | 2014-01-14 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding audio/speech signal |
KR101441312B1 (ko) * | 2013-10-04 | 2014-09-17 | 삼성전자주식회사 | 오디오/스피치 신호 부호화방법 및 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130133712A (ko) * | 2013-10-04 | 2013-12-09 | 삼성전자주식회사 | 오디오/스피치 신호 부호화방법 및 장치 |
-
2013
- 2013-10-04 KR KR1020130118803A patent/KR101441312B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130133712A (ko) * | 2013-10-04 | 2013-12-09 | 삼성전자주식회사 | 오디오/스피치 신호 부호화방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20130133712A (ko) | 2013-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10885926B2 (en) | Classification between time-domain coding and frequency domain coding for high bit rates | |
US9418666B2 (en) | Method and apparatus for encoding and decoding audio/speech signal | |
US10249313B2 (en) | Adaptive bandwidth extension and apparatus for the same | |
KR101373004B1 (ko) | 고주파수 신호 부호화 및 복호화 장치 및 방법 | |
KR101435893B1 (ko) | 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치 | |
KR101078625B1 (ko) | 이득 계수 제한을 위한 시스템, 방법 및 장치 | |
KR101376100B1 (ko) | 대역폭 확장 복호화 방법 및 장치 | |
RU2483364C2 (ru) | Схема аудиокодирования/декодирования с переключением байпас | |
JP5203929B2 (ja) | スペクトルエンベロープ表示のベクトル量子化方法及び装置 | |
RU2485606C2 (ru) | Схема кодирования/декодирования аудио сигналов с низким битрейтом с применением каскадных переключений | |
JP5357055B2 (ja) | 改良形デジタルオーディオ信号符号化/復号化方法 | |
KR101375582B1 (ko) | 대역폭 확장 부호화 및 복호화 방법 및 장치 | |
RU2636685C2 (ru) | Решение относительно наличия/отсутствия вокализации для обработки речи | |
KR20080005325A (ko) | 적응적 부호화/복호화 방법 및 장치 | |
WO2009142466A2 (ko) | 오디오 신호 처리 방법 및 장치 | |
KR20100086000A (ko) | 오디오 신호 처리 방법 및 장치 | |
KR20030046468A (ko) | 부호화 음향 신호를 지각적으로 개선 강화시키는 방법 및장치 | |
JPWO2013168414A1 (ja) | 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法 | |
KR20080053739A (ko) | 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법 | |
JP2012532344A (ja) | 加重線形予測変換を利用したオーディオ信号符号化及び復号化装置並びにその方法 | |
US9418671B2 (en) | Adaptive high-pass post-filter | |
KR101441312B1 (ko) | 오디오/스피치 신호 부호화방법 및 장치 | |
KR101393300B1 (ko) | 오디오/스피치 신호 복호화 방법 및 장치 | |
KR101377667B1 (ko) | 오디오/스피치 신호의 시간 도메인에서의 부호화 방법 | |
KR20080084043A (ko) | 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170830 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180830 Year of fee payment: 5 |