KR20080034819A - 부호화/복호화 장치 및 방법 - Google Patents
부호화/복호화 장치 및 방법 Download PDFInfo
- Publication number
- KR20080034819A KR20080034819A KR1020070104675A KR20070104675A KR20080034819A KR 20080034819 A KR20080034819 A KR 20080034819A KR 1020070104675 A KR1020070104675 A KR 1020070104675A KR 20070104675 A KR20070104675 A KR 20070104675A KR 20080034819 A KR20080034819 A KR 20080034819A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- difference
- decoding
- encoded
- difference signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000005284 excitation Effects 0.000 claims description 29
- 238000001914 filtration Methods 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 2
- 238000012856 packing Methods 0.000 claims description 2
- 238000011084 recovery Methods 0.000 claims 1
- 230000005236 sound signal Effects 0.000 abstract description 14
- 239000011295 pitch Substances 0.000 description 37
- 238000013139 quantization Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000000737 periodic effect Effects 0.000 description 10
- 239000002131 composite material Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 부호화/복호화 장치 및 방법에 관한 것이다. 그 복호화 방법은, 입력되는 비트스트림으로부터 부호화된 신호 및 상기 부호화된 신호로부터 복원되는 신호와 원본 신호의 차에 대한 정보를 가지는 부호화된 차이 신호를 추출하는 단계; 시간 도메인 상에서 수행되는 음성 복호화 방식을 이용하여 부호화된 신호를 복호화하여 신호를 복원하는 단계; 차이 신호를 복호화하는 단계; 및 복원된 신호에 복호화된 차이 신호를 합성하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따른 부호화/복호화 장치 및 방법에 의하면, 부호화하고자 하는 신호의 특성에 관계없이 고정된 제1 부호화 방식을 이용해 신호를 부호화하고, 부호화되지 않은 차이 신호를 그에 맞는 제2 부호화 방식을 이용해 부호화하도록 함으로써, 부호화 및 복호화의 연산량을 감소시킬 수 있으며, 신호의 특성에 따른 비트율 조절이 가능하다.
Description
도 1은 본 발명에 따른 부호화 장치의 구성에 대한 일실시예를 나타내는 블록도이다.
도 2는 원본 신호와 합성 신호 간 차이를 나타내는 차이 신호를 생성하는 방법에 대한 제1 실시예를 나타내는 블록도이다.
도 3은 상기 차이 신호를 생성하는 방법에 대한 제2 실시예를 나타내는 블록도이다.
도 4 및 도 5는 상기 차이 신호를 부호화하기 위한 장치의 구성에 대한 실시예들을 나타내는 블록도이다.
도 6은 본 발명에 따른 복호화 장치의 구성에 대한 일실시예를 나타내는 블록도이다.
본 발명은 신호의 부호화/복호화 장치 및 방법에 관한 것으로, 더욱 상세하게는 음성 신호와 오디오 신호를 모두 효율적으로 부호화/복호화할 수 있는 방법 및 장치에 관한 것이다.
일반적으로, 오디오 부호화기는 48kbps 이상의 높은 비트율에서는 고음질의 오디오 신호를 제공하지만 음성 신호의 처리에는 비효율적이며, 종래의 음성 부호화기는 12kbps 이하의 낮은 비트율에서 음성 신호를 효과적으로 부호화할 수 있지만 다양한 오디오 신호를 부호화하기에 부족하다.
따라서 음성 신호 및 오디오 신호와 같이 서로 특성이 다른 신호들을 모두 효율적으로 부호화할 수 있는 부호화 및 복호화 방법이 필요하다.
본 발명이 이루고자 하는 기술적 과제는, 음성 신호, 오디오 신호 등과 같이 서로 다른 특성을 가지는 신호들을 최적의 비트율로 부호화할 수 있도록 하는 부호화/복호화 장치 및 방법을 제공하는 데 있다.
상술한 기술적 과제를 해결하기 위한 본 발명에 따른 복호화 방법은, 입력되는 비트스트림으로부터 부호화된 신호 및 상기 부호화된 신호로부터 복원되는 신호와 원본 신호의 차에 대한 정보를 가지는 부호화된 차이 신호를 추출하는 단계; 시간 도메인 상에서 수행되는 음성 복호화 방식을 이용하여 상기 부호화된 신호를 복호화하여 신호를 복원하는 단계; 상기 차이 신호를 복호화하는 단계; 및 상기 복원된 신호에 상기 복호화된 차이 신호를 합성하는 단계를 포함하는 것을 특징으로 한다.
상술한 기술적 과제를 해결하기 위한 본 발명에 따른 부호화 방법은, 입력 신호에 대해 선형 예측 분석을 수행하여 선형 예측 계수를 획득하고, 상기 입력 신호의 피치를 검출하는 단계; 상기 구해진 선형 예측 계수, 상기 검출된 피치 및 여기 신호를 이용하여 신호를 합성하는 단계; 상기 합성된 신호와 상기 입력 신호 간 차에 대한 정보를 가지는 차이 신호를 구하는 단계; 상기 차이 신호를 부호화하는 단계; 및 상기 선형 예측 계수, 피치 및 여기 신호에 대한 정보와 상기 부호화된 차이 신호를 포함하는 비트스트림을 생성하는 단계를 포함하는 것을 특징으로 한다.
상술한 기술적 과제를 해결하기 위한 본 발명에 따른 복호화 장치는, 입력되는 비트스트림으로부터 선형 예측 계수, 여기 신호 정보, 피치 정보 및 부호화된 차이 신호를 추출하는 비트언팩킹부; 상기 여기 신호 정보 및 피치 정보를 이용하여 잔차 신호를 생성하는 잔차신호생성부; 상기 선형 예측 계수 및 잔차 신호를 이용하여 신호를 복원하는 신호합성부; 상기 합성된 신호와 원본 신호의 차에 대한 정보를 가지는 상기 부호화된 차이 신호를 복호화하는 차이신호복호화부; 및 상기 합성된 신호에 상기 복호화된 차이 신호를 합성하는 가산부를 포함하는 것을 특징으로 한다.
상술한 기술적 과제를 해결하기 위한 본 발명에 따른 부호화 장치는, 시간 도메인 상에서 수행되는 오디오 복호화 방식을 이용하여 입력 신호를 부호화하는 제1 부호화부; 상기 입력 신호와 상기 부호화된 신호로부터 복원되는 신호 간 차에 대한 정보를 가지는 차이 신호를 생성하는 차이신호생성부; 주파수 도메인 상에서 수행되는 오디오 복호화 방식을 이용하여 상기 차이 신호를 부호화하는 제2 부호화 부; 및 상기 부호화된 입력 신호 및 차이 신호를 포함하는 비트스트림을 생성하는 비트팩킹부를 포함하는 것을 특징으로 한다.
상기 본 발명에 의한 부호화/복호화 방법은 바람직하게는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현할 수 있다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 본 발명에 따른 부호화/복호화 장치 및 방법에 관해 상세히 설명한다.
도 1은 본 발명에 따른 부호화 장치의 구성에 대한 일실시예를 블록도로 도시한 것으로, 도시된 부호화 장치는 제1 부호화기(100), 제2 부호화기(110)를 포함하여 이루어진다.
제1 부호화기(100)는 부호화하고자 하는 입력 신호를 부호화하고, 상기 입력 신호와 상기 부호화된 신호에 이해 복원되는 합성 신호 사이의 차이에 대한 정보를 가지는 차이 신호를 생성한다.
제2 부호화기(110)는 상기 차이 신호를 부호화하며, 제1 부호화기(100)의 부호화 방식과 다른 부호화 방식을 이용하여 부호화를 수행하는 것이 바람직하다. 예를 들어, 제1 부호화기(100)는 음성 부호화 방식과 같이 선형 예측 분석을 이용하거나, 시간 도메인 상에서 부호화를 수행하고, 제2 부호화기(110)는 오디오 부호화 방식과 같이 도메인 변환을 수행하여 주파수 도메인 상에서 부호화를 수행할 수 있다.
도 1을 참조하면, 제1 부호화기(100)는 피치검출부(101) 및 선형예측분석부(102)를 포함할 수 있다.
음성 신호는 인간의 발성 기구를 참고하여 모델링(modeling)될 수 있다. 즉, 성대의 진동은 임의의 주파수로 진동하는 발진기로 치환할 수 있으며, 후두에서 입에 이르는 부분은 성대의 진동으로 생기는 음의 스펙트럼에 변화를 가하는 부분이므로 상기 발진기에서 출력된 신호를 변화시키는 필터로 치환할 수 있다. 그에 따라, 상기 발진기의 주파수와 필터의 특성을 나타내는 계수를 결정함으로써 음성 신호를 부호화할 수 있다.
또한, 인간의 발성은 크게 주기적인 특성을 가지는 유성음과 주기성이 없는 잡음적인 특성을 가지는 무성음으로 나눌 수 있으므로, 상기 발진기는 주기 신호 발진기와 잡음 신호 발진기의 조합으로 생각할 수 있다.
따라서, 음성 신호는 주파수 공간 상에서의 특성을 나타내는 계수, 주기 성분인 피치(pitch)에 관한 정보 및 잡음 성분에 관한 정보로 부호화될 수 있다.
피치검출부(101)는 부호화하고자하는 신호의 피치를 검출한다. 음성 신호의 경우에는 하나의 피치만을 포함하나, 오디오 신호의 경우에는 2 이상의 피치를 포함할 수 있다.
도 1에 도시된 바와 같이, 피치검출부(101)는 다음의 수학식 1로 표현될 수 있다.
상기 수학식 1에서, T는 피치의 주기를 나타내며, gp는 상기 피치의 게인(gain)을 나타낸다.
피치검출부(101)는 입력 신호의 피치의 주기 및 게인을 프레임 단위로 검출함으로써 입력 신호의 주기적인 성분을 부호화할 수 있다. 본 발명에 따른 부호화 장치는 음성 신호뿐 아니라 오디오 신호에도 적용 가능하기 위해, 프레임 단위로 2 이상의 피치 주기 및 게인을 검출하는 것이 바람직하다.
선형예측분석부(102)는 입력 신호에 대해 선형 예측 분석을 수행하여 선형 예측 계수를 구한다. 상기 구해진 선형 예측 계수는 상기 입력 신호의 스펙트럼 포락선(spectral envelope), 즉 주파수 공간 상에서의 신호 특성을 표현한다.
다음의 수학식 2와 같이 현재 신호 X(n)을 과거 입력 신호들의 선형 조합으로 표현될 수 있다.
상기 수학식 2에서 p는 선형 예측 차수이고, a1 내지 ap는 선형 예측 계수이며, e(n)은 선형 예측의 오차를 나타내는 잔차 신호이다. 상기 선형 예측 계수는 프레임 전체에 걸쳐 상기 잔차 신호 e(n)이 최소가 되도록 프레임 단위로 결정된다.
선형예측분석부(102)는 비대칭 윈도우(window)를 이용해 구한 자기 상관 계수를 사용하여 입력되는 신호에 대해 프레임 단위로 선형 예측 분석을 수행할 수 있다. 자기 상관 계수를 구함에 있어, 선형예측분석부(110)는 예견 구간, 예를 들어 상기 비대칭 윈도우가 30ms의 길이를 가지는 경우 5ms의 길이를 가지는 예견 구간을 두어 선형 예측 분석을 수행할 수 있다. 상기 자기 상관 계수는 Levinson-Durbin 알고리듬을 이용하여 선형 예측 계수로 변환된다.
상기 구해진 선형 예측 계수는 양자화에 적합한 파라미터인 LAR(Log Area Ratio) 또는 LSP(Line Spectrum Pair)로 변환된 후 양자화되어, 양자화 테이블의 인덱스 형태로 부호화될 수 있다.
입력된 여기 신호와 상기 검출된 피치에 의해 표현되는 주기적인 음원 신호에 대해, 상기 구해진 선형 예측 계수를 이용해 LPC 합성 필터링을 수행하면 합성된 신호를 얻을 수 있다.
상기 여기 신호는 입력 신호의 잡음 성분을 나타내는 것으로, 상기 합성 신호와 원본 신호인 상기 입력 신호 사이의 오차가 최소화되도록 결정된 것이다. 상기 피치 검출 및 여기 신호 결정 방법에 대해서는 도 3을 참조하여 상세히 설명하기로 한다.
도 1에 도시된 바와 같이, 여기 신호에는 게인(gc)이 곱해지는데, 상기 여기 신호의 게인(gc) 및 상기 피치의 게인(gp)을 제어함에 따라 주기성이 강한 신호에서 주기성이 없는 잡음 신호까지 다양한 신호의 생성이 가능하다. 상기 게인(gc, gp)은 양자화되어 양자화 테이블의 인덱스 형태로 부호화될 수 있다.
상기 선형 예측 계수에 대한 정보, 상기 검출된 피치 주기 및 게인 정보, 상 기 여기 신호에 대한 정보는 비트스트림으로 생성되어 복호화 장치로 전송될 수 있다.
제1 부호화기(100)는 원본 신호인 입력 신호와 상기 합성 신호 사이의 차이 신호를 생성하여 출력하고, 제2 부호화기(110)는 상기 차이 신호를 부호화한다.
상기 부호화된 차이 신호는 요구되는 비트율, 통신 환경, 복호화 장치의 성능 등에 따라, 비트스트림에 포함되거나 포함되지 않을 수도 있다. 즉, 상기 차이 신호를 이용하여 가변적인 비트율 조절이 가능하도록 할 수 있다.
본 발명에 따른 부호화 장치는 차이신호분석부(120)를 더 포함할 수 있으며, 차이신호분석부(120)는 상기 차이신호를 분석하여 부호화 품질을 판단하는데 필요한 정보들을 생성하거나, 제2 부호화기(110)가 수행할 부호화 방식을 선택할 수 있다. 상기 차이 신호 분석에 의한 부호화 품질 정보는 최적의 비트율을 결정하는데 이용될 수도 있다.
또한, 차이신호분석부(120)는 상기 차이 신호를 분석하여 제2 부호화기(110)에 의한 상기 차이 신호의 부호화 수행 여부를 결정할 수도 있다. 즉, 차이신호분석부(120)는 상기 차이 신호를 부호화하지 않더라도 재생되는 신호의 품질이 기준치 이상이 된다고 판단되는 경우, 상기 차이 신호의 부호화가 수행되지 않도록 하거나, 비트스트림에 상기 부호화된 차이 신호가 포함되지 않도록 결정할 수 있다.
도 2는 상기 차이 신호를 생성하는 방법에 대한 제1 실시예를 블록도로 도시한 것이다.
원본 신호인 입력 신호를 합성 신호로 출력하기 위해 제1 부호화기(100)에 입력되어야할 신호를 잔여 신호라도 정의하면, 상기 잔여 신호는 다음의 수학식 3과 같이 상기 입력 신호에 피치검출부(101)에서 검출된 피치 및 선형예측분석부(102)에서 구해진 선형 예측 계수를 이용하여 순서대로 역필터링을 수행함으로써 구해질 수 있다.
상기 수학식 3에서, a1 내지 a2는 선형예측분석부(102)에서 구해진 선형 예측 계수이고, gp는 피치검출부(101)에서 검출된 피치의 게인이다.
제1 부호화기(100)는 선형 시스템이기 때문에, 상기와 같이 구해진 잔여 신호와 여기 신호의 차를 제1 부호화기(100)에 입력시키는 경우, 제1 부호화기(100)는 원본 신호와 합성 신호의 차인 차이 신호를 출력할 수 있다.
도 2를 참조하면, 피치검출역필터링부(200)는 원본 신호에 대해 피치검출부(101)에서 검출된 피치의 주기 및 게인을 이용하여 역필터링을 수행하고, 선형예측역필터링부(210)는 상기 피치 검출 역필터링이 수행된 신호에 대해 선형에측분석부(102)에서 구해진 선형 예측 계수를 이용하여 역필터링을 수행하여 잔여 신호를 생성한다.
상기에서 설명한 바와 같이, 상기 생성된 잔여 신호와 여기 신호의 차를 제1 부호화기(100)에 입력시키면, 제1 부호화기(100)는 차이 신호를 합성하여 출력한다.
도 3은 음성 부호화기의 구성에 대한 일실시예를 블록도로 도시한 것으로, 상기 차이 신호를 생성하는 방법에 대한 제2 실시예를 설명하기 위해 도시한 것이다.
선형예측분석부(300)는 입력 신호에 대해 선형 예측 분석을 수행하여 선형 예측 계수를 구하고, 양자화부(310)는 상기 구해진 선형 예측 계수를 양자화에 적합한 파라미터인 LAR(Log Area Ratio) 또는 LSP(Line Spectrum Pair)로 변환된 후 양자화한다.
피치추정부(320)는 상기 입력 신호의 피치 주기를 추정한다. 적응코드북(330)는 과거의 입력 신호 중 주기적인 성분인 음원 신호들을 코드북의 형태로 저장한다. 잡음생성부(340)는 비주기적인 잡음 신호를 생성하며, 상기 잡음 신호들을 코드북의 형태로 저장하고 있을 수도 있다.
가산부(350)는 피치추정부(320)에서 추정된 피치 주기에 따라 적응코드북(330)으로부터 추출된 주기적인 음원 신호와 잡음생성부(340)로부터 출력된 잡음 신호 각각에 게인(gp, gc)을 곱한 후 가산하여 잔차 신호를 생성한다. 일반적으로 잔차 신호는 선형 예측 계수를 이용해 입력 신호에 대해 선형 예측 역필터링을 수행하여 얻어지는 신호를 의미하는데, 가산부(350)로부터 출력되는 상기 잔차 신호는 정확하게는 잔차 신호에 가까운 신호이다.
합성필터(360)는 가산부(350)로부터 출력된 잔차 신호에 대해 상기 양자화된 선형 예측 계수에 의한 합성 필터링을 수행하여 합성 신호를 생성한다.
오차계산부(370)는 원본 신호인 입력 신호와 상기 합성 신호 사이의 오차를 계산하고, 청각가중치필터(380)는 상기 계산된 오차에 대하여 청각적인 가중치를 준다.
오차최소화부(390)는 상기 청각적인 특성을 고려한 오차를 최소로 하는 피치의 주기(Ti), 게인(gpi, gci), 잡음 신호를 결정한다. 여기 신호는 오차를 최소로 하기 위해 결정된 상기 잡음 신호를 의미한다.
상기한 바와 같이, 오차계산부(370)에서 실시간으로 출력되는 오차 신호는 원본 신호와 합성 신호의 차이므로, 상기 오차 신호를 여기 신호를 결정하는데 뿐 아니라 상기 차이 신호를 생성하는데 사용할 수 있다. 즉. 오차계산부(370)에서 실시간으로 출력되는 오차 신호의 최소값을 상기 차이 신호로 이용할 수 있다.
도 4는 상기 차이 신호를 부호화하기 위한 장치의 구성에 대한 실시예들을 블록도로 도시한 것으로, 도시된 바와 같이 차이 신호에 대해 도메인 변환을 수행하여 부호화를 수행할 수 있다.
도 4에 도시된 부호화 장치는 도메인변환부(400), 심리음향모델링부(410) 및 양자화부(420)를 포함하여 이루어진다.
도메인변환부(400)는 필터 뱅크를 이용해 차이 신호를 주파수 도메인으로 변환한다. 예를 들어, 도메인변환부(400)는 상기 차이 신호에 대해 코사인 변환, 예를 들어 MDCT(Modified Discrete Transform)를 수행할 수 있다.
심리음향모델링부(410)는 상기 차이 신호의 마스킹 임계치 또는 신호 대 마 스크 비(SMR, Signal-to-Mask Ratio)를 계산한다. 양자화부(420)는 상기 도메인변환부(400)로부터 출력되는 MDCT 계수들에 대해 상기 마스킹 임계치를 이용하여 양자화를 수행한다. 또한, 양자화부(420)는 주어진 비트율 내에서 양자화된 신호의 가청 왜곡을 최소화하기 위하여 상기 신호 대 마스크 비(SMR)를 사용할 수 있다.
도 5에 도시된 부호화 장치는 전처리부(500), 도메인변환부(510), 벡터양자화부(520), 도메인역변환부(530) 및 게인최적화/양자화부(540)를 포함하여 이루어진다.
전처리부(500)는 차이 신호에 대해 필터링 및 윈도우잉(windowing)을 수행하여 상기 차이 신호를 부호화에 효율적인 신호로 변환한다.
도메인변환부(510)는 상기 전처리가 수행된 차이 신호에 대해 주파수 도메인 변환, 예를 들어 FFT(Fast Fourier Transform)을 하고, 벡터양자화부(520)는 벡터 양자화를 수행하여 코드북 인덱스(codebook index), 코드 벡터 인덱스(code vector index), 보로노이 확장 인덱스(Voronoi extention index)를 출력한다.
최초 스펙트럼 피크(first spectral peak) 이전의 저에너지 블럭(low energy block)의 부호화를 개선하기 위해, 상기 벡터양자화 전후에 스펙트럼 프리엠퍼시스(pre-emphasis) 및 디엠퍼스트(de-emphasis)를 수행할 수 있다.
도메인역변환부(530)는 벡터양자화부(520)의 출력 신호에 대해 도메인변환부(510)에서 수행된 변환의 역변환, 예를 들어 inverse FFT를 수행한다.
게인최적화/양자화부(540)는 상기 도메인 변환 이전 신호와 상기 도메인 역변환 이후 신호의 게인 차이를 계산하여 최적 게인 인덱스를 출력한다.
벡터양자화부(520)로부터 출력되는 인덱스들과 게인최적화/양자화부(540)로부터 출력되는 최적 게인 인덱스가 차이 신호를 복원하기 위한 데이터로서 비트스트림에 포함될 수 있다.
도 4 및 도 5를 참조하여 차이 신호를 부호화하는 장치의 구성에에 대한 실시예들을 설명하였으나, 상기에서 설명한 부호화 방식 이외에 AAC(Advanced Audio Coding) 또는 TCX(Transform Coded Excitation) 등과 같은 여러 오디오 부호화 방식들이 상기 차이 신호 부호화에 사용 가능하다.
본 발명에 따른 복호화 장치는 상기 도 1 내지 도 5를 참조하여 설명한 부호화 장치의 부호화 과정의 역 과정을 수행함에 의해, 입력되는 비트스트림으로부터 신호를 복원할 수 있다.
도 6은 본 발명에 따른 복호화 장치의 구성에 대한 일실시예를 블록도로 도시한 것으로, 도시된 복호화 장치는 비트언팩킹부(600), 제1 복호화기(610), 제2 복호화기(620) 및 가산부(430)를 포함하여 이루어진다.
비트언팩킹부(600)는 입력되는 비트스트림으로부터 합성 신호를 복호화하기 위한 합성 정보 및 부호화된 차이 신호를 추출한다.
제1 복호화기(610)는 상기 합성 정보를 이용하여 합성 신호를 생성하고, 제2 복호화기(620)는 상기 부호화된 차이 신호를 복호화한다. 가산부(430)는 상기 합성 신호와 차이 신호를 가산하여 원본 신호를 복원한다.
상기 추출된 합성 정보는 선형 예측 계수에 대한 정보, 복수의 피치들에 대한 정보 및 여기 신호에 대한 정보를 포함할 수 있다.
잔차신호생성부(611)는 상기 추출된 피치 정보, 예를 들어 피치의 주기(T)를 이용하여 주기적인 특성을 가지는 음원 신호를 생성하고, 상기 추출된 여기 신호 정보를 이용하여 여기 신호를 생성하며, 상기 생성된 음원 신호와 여기 신호에 게인(gp, gc)을 곱한 후 가산하여 잔차 신호를 생성한다.
잔차신호생성부(611)에서 생성된 잔차 신호는 수학식 2에서 설명한 이상적인 잔차 신호와 정확히 일치하지 않을 수 있다.
상기 비트스트림으로부터 추출된 피치 정보 및 여기 신호 정보는 코드북 인덱스일 수 있다. 그러한 경우 잔차신호생성부(611)는 부호화 장치와 동일한 코드북을 포함하여, 상기 추출된 코드북 인덱스에 대응되는 음원 신호 및 여기 신호를 상기 코드북에서 추출할 수 있다. 또한, 코드북 인덱스는 각 트랙에서의 신호의 위치와 부호를 나타내게 되므로 상기 코드북 인덱스 자체만으로 상기 여기 신호를 생성할 수도 있다.
LPC합성필터(612)는 상기 생성된 잔차 신호에 대해 상기 추출된 선형 예측 계수를 이용해 합성 필터링을 수행하여 합성 신호를 복원한다.
상술한 본 발명에 따른 부호화/복호화 장치는 DAB(Digital Audio Broadcasting), DMB(Digital Multimedia Broadcasting)과 같은 멀티미디어 방송 송/수신 장치에 구비되어, 오디오 신호 또는 음성 신호 등을 부호화/복호화 하는데 사용될 수 있다. 또한 상기 멀티미디어 방송 송/수신 장치는 이동통신 단말기를 포함할 수 있다.
상술한 본 발명에 따른 부호화/복호화 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 상기한 본 발명에 따른 데이터 구조를 가지는 멀티 미디어 데이터도 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 사용자 추적 방법을 구현하기 위한 기능적인(function) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다. 또한, 상술한 부호화 방법에 의해 생성된 비트스트림은 상기 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유/무선 통신망을 이용해 전송될 수 있다.
상술한 본 발명에 따른 복호화 장치는 이동 통신 단말기, PMP(Portable Multimedia Player)와 같은 멀티미디어 플레이어, PDA(Personal Digital Assistants) 등의 재생 장치에 구비될 수 있다. 또한, 상술한 복호화 장치는 하드웨어적으로 구현되어 재생 장치 등에 포함되거나, 상술한 바와 같이 소프트웨어적으로 재생 장치에 구현될 수도 있다.
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해돼서는 안 될 것이다.
상기한 바와 같은 본 발명에 따른 부호화/복호화 방법 및 장치에 의하면, 부호화하고자 하는 신호의 특성에 관계없이 고정된 제1 부호화 방식을 이용해 신호를 부호화하고, 부호화되지 않은 차이 신호를 그에 맞는 제2 부호화 방식을 이용해 부호화하도록 함으로써, 부호화 및 복호화의 연산량을 감소시킬 수 있으며, 신호의 특성에 따른 비트율 조절이 가능하다.
Claims (13)
- 입력되는 비트스트림으로부터 부호화된 신호 및 상기 부호화된 신호로부터 복원되는 신호와 원본 신호의 차에 대한 정보를 가지는 부호화된 차이 신호를 추출하는 단계;시간 도메인 상에서 수행되는 음성 복호화 방식을 이용하여 상기 부호화된 신호를 복호화하여 신호를 복원하는 단계;상기 차이 신호를 복호화하는 단계; 및상기 복원된 신호에 상기 복호화된 차이 신호를 합성하는 단계를 포함하는 것을 특징으로 하는 복호화 방법.
- 제1항에 있어서, 상기 신호 복원 단계는상기 비트스트림으로부터 추출된 여기 신호 정보 및 피치 정보를 이용하여 잔차 신호를 생성하는 단계;상기 비트스트림으로부터 추출된 선형 예측 계수 및 상기 생성된 잔차 신호를 이용하여 신호를 합성하는 단계를 포함하는 것을 특징으로 하는 복호화 방법.
- 제1항에 있어서, 상기 차이 신호 복호화 단계는주파수 도메인 상에서 수행되는 오디오 복호화 방식을 이용하여 상기 부호화된 차이 신호를 복호화하는 것을 특징으로 하는 복호화 방법.
- 입력 신호에 대해 선형 예측 분석을 수행하여 선형 예측 계수를 획득하고, 상기 입력 신호의 피치를 검출하는 단계;상기 구해진 선형 예측 계수, 상기 검출된 피치 및 여기 신호를 이용하여 신호를 합성하는 단계;상기 합성된 신호와 상기 입력 신호 간 차에 대한 정보를 가지는 차이 신호를 구하는 단계;상기 차이 신호를 부호화하는 단계; 및상기 선형 예측 계수, 피치 및 여기 신호에 대한 정보와 상기 부호화된 차이 신호를 포함하는 비트스트림을 생성하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.
- 제4항에 있어서, 상기 차이 신호를 구하는 단계는상기 입력 신호로부터 상기 검출된 피치 성분을 제거하는 단계; 및상기 구해진 선형 예측 계수를 이용하여 상기 피치 성분이 제거된 신호에 선형 예측 역필터링을 수행하여 제1 신호를 생성하는 단계; 및상기 제1 신호와 상기 여기 신호의 차를 입력 신호로 하여 상기 피치 검출 단계 및 상기 신호 합성 단계를 수행하여 상기 차이 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.
- 제4항에 있어서,상기 합성된 신호와 상기 입력 신호 간 오차를 계산하는 단계; 및상기 오차를 최소화 시키기 위한 잡음 신호를 상기 여기 신호로 결정하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.
- 제6항에 있어서,상기 차이 신호는 상기 계산된 오차의 최소값인 것을 특징으로 하는 부호화 방법.
- 제4항에 있어서, 상기 차이 신호 부호화 단계는상기 차이 신호를 주파수 도메인 상에서 수행되는 오디오 부호화 방식을 이용하여 상기 차이 신호를 부호화하는 것을 특징으로 하는 부호화 방법.
- 입력되는 비트스트림으로부터 선형 예측 계수, 여기 신호 정보, 피치 정보 및 부호화된 차이 신호를 추출하는 비트언팩킹부;상기 여기 신호 정보 및 피치 정보를 이용하여 잔차 신호를 생성하는 잔차신호생성부;상기 선형 예측 계수 및 잔차 신호를 이용하여 신호를 복원하는 신호합성부;상기 합성된 신호와 원본 신호의 차에 대한 정보를 가지는 상기 부호화된 차이 신호를 복호화하는 차이신호복호화부; 및상기 합성된 신호에 상기 복호화된 차이 신호를 합성하는 가산부를 포함하는 것을 특징으로 하는 복호화 장치.
- 제9항에 있어서, 상기 차이신호복호화부는주파수 도메인 상에서 수행되는 오디오 복호화 방식을 이용하여 상기 부호화된 차이 신호를 복호화하는 것을 특징으로 하는 복호화 장치.
- 시간 도메인 상에서 수행되는 오디오 복호화 방식을 이용하여 입력 신호를 부호화하는 제1 부호화부;상기 입력 신호와 상기 부호화된 신호로부터 복원되는 신호 간 차에 대한 정보를 가지는 차이 신호를 생성하는 차이신호생성부;주파수 도메인 상에서 수행되는 오디오 복호화 방식을 이용하여 상기 차이 신호를 부호화하는 제2 부호화부; 및상기 부호화된 입력 신호 및 차이 신호를 포함하는 비트스트림을 생성하는 비트팩킹부를 포함하는 것을 특징으로 하는 부호화 장치.
- 제1항 내지 제8항 중 어느 한 항에 기재된 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
- 제9항 내지 제11항 중 어느 한 항에 기재된 장치를 포함하는 것을 특징으로 하는 멀티 미디어 방송 장치.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US82979406A | 2006-10-17 | 2006-10-17 | |
US60/829,794 | 2006-10-17 | ||
US86082406A | 2006-11-24 | 2006-11-24 | |
US60/860,824 | 2006-11-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20080034819A true KR20080034819A (ko) | 2008-04-22 |
Family
ID=39574067
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070104675A KR20080034819A (ko) | 2006-10-17 | 2007-10-17 | 부호화/복호화 장치 및 방법 |
KR1020070104674A KR20080034818A (ko) | 2006-10-17 | 2007-10-17 | 부호화/복호화 장치 및 방법 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070104674A KR20080034818A (ko) | 2006-10-17 | 2007-10-17 | 부호화/복호화 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (2) | KR20080034819A (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10186273B2 (en) | 2013-12-16 | 2019-01-22 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding/decoding an audio signal |
WO2024012040A1 (en) * | 2022-07-15 | 2024-01-18 | Huawei Technologies Co., Ltd. | Method for speech generation and related device |
-
2007
- 2007-10-17 KR KR1020070104675A patent/KR20080034819A/ko not_active Application Discontinuation
- 2007-10-17 KR KR1020070104674A patent/KR20080034818A/ko not_active Application Discontinuation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10186273B2 (en) | 2013-12-16 | 2019-01-22 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding/decoding an audio signal |
WO2024012040A1 (en) * | 2022-07-15 | 2024-01-18 | Huawei Technologies Co., Ltd. | Method for speech generation and related device |
Also Published As
Publication number | Publication date |
---|---|
KR20080034818A (ko) | 2008-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101373004B1 (ko) | 고주파수 신호 부호화 및 복호화 장치 및 방법 | |
KR100958144B1 (ko) | 오디오 압축 | |
US9728196B2 (en) | Method and apparatus to encode and decode an audio/speech signal | |
JP6170520B2 (ja) | オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置 | |
TWI407432B (zh) | 用於可縮放的語言及音頻編碼之方法、器件、處理器及機器可讀媒體 | |
KR101413968B1 (ko) | 오디오 신호의 부호화, 복호화 방법 및 장치 | |
CA2968699C (en) | Noise generation in audio codecs | |
TWI576832B (zh) | 產生帶寬延伸訊號的裝置與方法 | |
KR101413967B1 (ko) | 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치 | |
US7599833B2 (en) | Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same | |
KR20080101873A (ko) | 부호화/복호화 장치 및 방법 | |
JP4302978B2 (ja) | 音声コーデックにおける擬似高帯域信号の推定システム | |
KR101216098B1 (ko) | 신호 처리 방법 및 장치 | |
JP2016504635A (ja) | Celp状コーダのためのサイド情報を用いないノイズ充填 | |
KR20080034819A (ko) | 부호화/복호화 장치 및 방법 | |
US8719012B2 (en) | Methods and apparatus for coding digital audio signals using a filtered quantizing noise | |
KR100911994B1 (ko) | Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법 | |
JP3348759B2 (ja) | 変換符号化方法および変換復号化方法 | |
KR101413969B1 (ko) | 오디오 신호의 복호화 방법 및 장치 | |
KR20060067016A (ko) | 음성 부호화 장치 및 방법 | |
KR20080092823A (ko) | 부호화/복호화 장치 및 방법 | |
KR0155798B1 (ko) | 음성신호 부호화 및 복호화 방법 | |
CA2504174A1 (en) | Transcoder and code conversion method | |
KR20070008211A (ko) | 스케일러블 대역 확장 음성 부호화/복호화 방법 및 장치 | |
KR20080034817A (ko) | 부호화/복호화 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |