KR100745721B1 - 임베디드 코드여기 선형예측 음성 부호화/복호화 장치 및그 방법 - Google Patents
임베디드 코드여기 선형예측 음성 부호화/복호화 장치 및그 방법 Download PDFInfo
- Publication number
- KR100745721B1 KR100745721B1 KR1020050077355A KR20050077355A KR100745721B1 KR 100745721 B1 KR100745721 B1 KR 100745721B1 KR 1020050077355 A KR1020050077355 A KR 1020050077355A KR 20050077355 A KR20050077355 A KR 20050077355A KR 100745721 B1 KR100745721 B1 KR 100745721B1
- Authority
- KR
- South Korea
- Prior art keywords
- excitation signal
- speech
- signal
- pulse
- embedded
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000005284 excitation Effects 0.000 claims abstract description 139
- 230000005540 biological transmission Effects 0.000 claims abstract description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 238000003786 synthesis reaction Methods 0.000 claims description 23
- 238000001914 filtration Methods 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 abstract description 6
- 230000010485 coping Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008929 regeneration Effects 0.000 description 2
- 238000011069 regeneration method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000220010 Rhode Species 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 235000014121 butter Nutrition 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 임베디드 코드여기 선형예측 음성 부호화/복호화 장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 채널 전송율에 기초하여 기본 음성 부호화기에서 표현하지 못한 오차 신호를 다중펄스 검색 방식 또는 이득 보상 방식으로 모델링한 후 최적의 방식으로 전송함으로써, 음성 전송 채널의 용량 변화에 능동적으로 대처할 수 있는, 임베디드 코드여기 선형예측 음성 부호화 장치 및 그 방법을 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 음성 부호화 장치로서, 입력 음성 신호로부터 음성의 포락선 정보와 여기신호를 분리 생성하기 위한 음성 부호화 코어부; 전송 채널 용량에 따라 추가 가능한 비트수를 할당하기 위한 전송율 결정부; 및 상기 추가 가능한 비트수를 기초로 상기 음성 부호화 코어부에서 표현하지 못한 잔차 여기신호를 다중 펄스 여기 부호화 방식과 이득 보상 방식 중 하나로 부호화하기 위한 임베디드 여기신호 부호화부를 포함함.
4. 발명의 중요한 용도
본 발명은 광대역 통합망에서 음성 통화 서비스 등에 이용됨.
임베디드 음성 부호화기, 스케일러블 음성 부호화기, 다중 펄스 여기, 코드북 이득보상
Description
도 1은 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화 장치의 일실시예 구성도,
도 2는 도 1의 임베디드 여기신호 모델링부의 상세한 구성도,
도 3은 본 발명에 따른 임베디드 코드여기 선형예측 음성 복호화 장치의 일실시예 구성도,
도 4는 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화 방법을 설명하는 일실시예 흐름도,
도 5는 도 4의 임베디드 여기신호 모델링 과정을 상세히 설명하는 일실시예 흐름도,
도 6은 본 발명에 따른 임베디드 코드여기 선형예측 음성 복호화 방법을 설명하는 일실시예 흐름도,
도 7은 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화기의 성능 결과를 나타낸 일실시예 도면이다.
* 도면의 주요 부분에 대한 부호의 설명
101 : 입력 음성 처리부 102 : 선형예측 필터부
103 : 여기신호 모델링부 120 : 임베디드 여기신호 모델링부
130 : 전송율 결정부
본 발명은 임베디드 코드여기 선형예측 음성 부호화 및 복호화 장치와 그 방법에 관한 것으로, 더욱 상세하게는 음성 전송 채널 용량의 변화에 능동적으로 대처하면서 음질을 향상시킬 수 있는 임베디드 구조를 갖는 비트율 스케일러블한 음성 부호화 및 복호화 장치와 그 방법에 관한 것이다.
현재 광대역 통합망(Broadband Convergence Network)에서 인터넷 프로토콜 기반의 음성 통화(Voice over Internet Protocol) 서비스 등에 활용 가능한 고품질 음성 부호화기의 개발이 활발히 진행 중이다.
이러한 음성 부호화기는 현재 사용되는 표준 음성 부호화기와 상호 연동이 가능해야 한다. 이를 위해서는 개발될 음성 부호화기에 기존의 음성 부호화기와 호환성을 갖도록 하는 내부 모듈이 있거나, 또는 개발될 음성 부호화기 자체의 코어(core) 부분이 기존의 음성 부호화기를 포함하도록 하여야 한다.
또한, 통신망, 특히 패킷망에서의 음성 통화 품질(Quality of Service)을 보 장하기 위해서는 전송선로의 트래픽에 따라 가변적으로 음성을 전달할 필요가 있다. 예를 들어, IP(Internet Protocol) 망의 경우 전송도중 발생하는 패킷 손실로 인해 통화 중 음질의 변화폭이 커서 전체적인 체감 음질을 저하시킨다. 패킷 손실이 발생하는 원인 중 하나는 채널의 부하이다. 따라서, 채널의 부하가 심한 경우에 전송 비트율을 줄임으로써 패킷 손실로 인한 음질 변동을 줄일 수 있어야 하고, 채널의 상태가 좋은 경우에는 높은 비트율로 음성 데이터를 전송하여 우수한 통화 품질을 제공할 수 있어야 한다.
즉, 음성 부호화기는 임베디드(embedded) 형태로 구현되어야 하고, 통신망의 전송 상태에 따라 비트율을 조정할 수 잇는 스케일러블(scalable) 구조를 가져야 한다.
스케일러블 음성 부호화기에 대한 연구 동향은 크게 분리 스케일러블 부호화(separate scalable coding) 방식과 합성 스케일러블 부호화(composite scalable coding) 방식으로 나눌 수 있다.
분리 스케일러블 부호화 방식에서는, 우선 입력 음성을 코어(core) 음성 부호화기로 압축을 한 후, 원 신호와 압축된 신호와의 차를 부가적으로 할당된 비트율(bitrate)로 한번 더 압축한다. 예를 들어, Kataoka 등은 G.729를 코어 음성 부호화기로 한 후, 2개의 랜덤 코드북(random codebook)의 조합으로 구성된 고정 코드북으로부터 나머지 신호를 모델링한다(A. Kataoka. S. Kurihara, S. Sasaki, and S. Hayashi, "A 16-kbit/s wideband speech codec scalable with G.729," in Proc. Eurospeech, Rhodes, Greece, pp. 1491-1494, Sept. 1997).
한편, 합성 스케일러블 부호화 방식에서는, 코어 음성 부호화기에 별도의 강화 계층(enhancement layer)을 두는 대신에 코어 음성 부호화기 내부에 존재하는 모듈에서 분해능을 올리는 방향으로 비트 할당을 한다. 예를 들어, MPEG-4의 CELP 음성 부호화기에서는 2kbps의 증가율로 정규 펄스 여기(regular pulse excitation) 신호의 펄스 수를 증가시키는 강화 여기(enhancement excitation) 기법을 사용하고 있다(ISO/JTC1 SC29 WG 11, Final draft international standard FDIS 14496-3: Coding of audiovisual objects, part 3:Audio, 1998). 또한, Nomura 등은 멀티-펄스 CELP(Multi-Pulse CELP) 음성 부호화기를 코어 음성 부호화기로 하여, 여기 신호 모델링(exciting modeling)에 사용하는 멀티-펄스의 수를 증가시켜 비트율 스케일러블을 구현한다(T. Nomura, M. lwadare, M. Serizawa, and K. Ozawa, "A bitrate and bandwidth scalable CELP coder," in Proc. ICASSP, Seattle, WA, pp. 341-344, May 1998). 최근에는 선택적 모드 음성 부호화기(selective mode vocoder)에서 대수적 코드북(algebraic codebook)을 캐스캐이드(cascade) 형식으로 다단 구현하여 비트율 스케일러블 음성 부호화기를 구현하였다(S.-K.Jung, K.-T. Kim, H.-G. Kang, and D.-H. Youn, "A cascade algebraic codebook structure to improve the performance of speech coder," in Poc. ICASSP, Hong Kong, China, vol. 2, pp. 173-176, Apr. 2003).
그러나, 이러한 방법들은 스케일러블한 부호화를 위해 상당히 많은 수의 비트율이 요구된다. 따라서, 1kbits/s 미만의 스케일러블한 음성 부호화를 위해서는 개선되어야 한다.
본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 채널 전송율에 기초하여 기본 음성 부호화기에서 표현하지 못한 오차 신호를 다중펄스 검색 방식 또는 이득 보상 방식으로 모델링한 후 최적의 방식으로 전송함으로써, 음성 전송 채널의 용량 변화에 능동적으로 대처할 수 있는, 임베디드 코드여기 선형예측 음성 부호화 장치 및 그 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 상기 임베디드 코드여기 선형예측 음성 부호화 장치에서 부호화되어 전송된 비트 스트림으로부터 음성 신호를 복호화하기 위한, 임베디드 코드여기 선형예측 음성 복호화 장치 및 그 방법을 제공하는데 또다른 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명은, 음성 부호화 장치로서, 입력 음성 신호로부터 음성의 포락선 정보와 여기신호를 분리 생성하기 위한 음성 부호화 코어부; 전송 채널 용량에 따라 추가 가능한 비트수를 할당하기 위한 전송율 결정부; 및 상기 추가 가능한 비트수를 기초로 상기 음성 부호화 코어부에서 표현하지 못한 잔차 여기신호를 다중 펄스 여기 부호화 방식과 이득 보상 방식 중 하나로 부호화하기 위한 임베디드 여기신호 부호화부를 포함하는 것을 특징으로 한다.
또한, 본 발명은, 음성 복호화 장치로서, 적응 코드북 검색결과와 대수적 코드북 검색결과를 이용하여 음성의 기본적인 여기신호를 복호화하기 위한 여기신호 재생부; 임베디드 형태로 추가된 비트 스트림으로부터 여기신호를 복호화하기 위한 임베디드 여기신호 재생부; 및 상기 여기신호 재생부에서 복호화된 여기신호와 상기 임베디드 여기신호 재생부에서 복호화된 여기신호를 선형예측 합성 필터링하여 음성 신호를 복원하기 위한 선형예측 합성 필터부를 포함하는 것을 특징으로 한다.
또한, 본 발명은, 음성 부호화 방법으로서, 기존 음성 부호화기를 통해 음성 신호를 모델링하는 단계; 및 기존 음성 부호화기를 통해 부호화되지 않은 음성의 잔차 여기신호를 채널 전송율에 기초하여 다중 펄스 여기 부호화 방식과 이득 보상 방식 중 하나로 부호화하는 임베디드 여기신호 부호화 단계를 포함하는 하는 것을 특징으로 한다.
또한, 본 발명은, 음성 복호화 방법으로서, 적응 코드북 검색결과와 대수적 코드북 검색결과를 이용하여 음성의 기본적인 여기신호를 복호화하는 여기신호 재생단계; 임베디드 형태로 추가된 비트 스트림으로부터 여기신호를 복호화하는 임베디드 여기신호 재생단계; 및 상기 여기신호 재생단계에서 복호화된 여기신호와 상기 임베디드 여기신호 재생단계에서 복호화된 여기신호를 선형예측 합성 필터링하여 음성 신호를 복원하는 선형예측 합성 필터링단계를 포함하하는 것을 특징으로 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다. 한편, 이하 상세한 설명에서 사용되는 모델링은 부호화와 동일한 의미이며, 모델링으로 통칭하여 사용한다.
도 1은 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화 장치의 일실시예 구성도로, 도 1에 도시된 바와 같이, 본 발명에 따른 음성 부호화 장치는 음성 부호화 코어부(110), 임베디드 여기신호 모델링부(120) 및 전송율 결정부(130)를 포함한다. 여기서, 모델링은 부호화와 동일한 의미이며, 이하 모델링으로
음성 부호화 코어부(110)는 음성 신호로부터 스펙트럼 포락선 정보와 여기 신호를 분리 추출하는 구성요소로, 6.3 kbits/s나 5.4 kbits/s의 전송율을 갖는 ITU-T G.723.1 부호화기(ITU-T Recommendation G.723.1, Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbits/s)나, 8 kbits/s의 전송율을 갖는 ITU-T G.729 부호화기(ITU-T Recommendation G.729, Coding of speech at 8 kbits/s using conjugate-structure algebraic-code-excited linear-predition(CS-ACELP)) 등이 사용될 수 있다. 그러나 이에 국한되지 않는다. 본 실시예에서 음성 부호화 코어부(110)는 입력 음성 처리부(101), 선형예 측 필터부(102) 및 여기신호 모델링부(103)를 포함한다.
입력 음성 처리부(101)는 외부로부터 입력되는 디지털 음성 신호를 버퍼링한 후 창함수 등을 사용하여 단구간의 음성을 얻는다. 예를 들어, 8kHz로 샘플링된 음성 신호는 0.125 msec 마다 입력되고, 입력 음성 처리부(101)는 0.125 msec 마다 입력되는 음성 신호를 10 msec 혹은 20 msec동안 계속 버터링한 후 창함수를 적용한다. 즉, 160 샘플을 모아 창함수를 적용한다. 이와 같이, 20 msec 단위의 음성을 단구간 음성이라고 하고, 이 단구간의 음성을 프레임이라 한다. 이 때, 외부로부터 입력되는 음성 신호는 마이크로폰(microphone)을 통해 입력되어 아날로그-디지털 변환기(Analog-digital converter)로 표본화된 디지털 신호이거나, CD-ROM, MP3 플레이어, DVD 등을 포함하는 디지털 음성 저장 매체로부터 직접 디지털로 입력되어 데시메이터(decimator)를 통해 원하는 샘플링 비율로 변환된 디지털 신호가 될 수 있으나, 이에 국한되지 않는다.
선형예측 필터부(102)는 입력 음성 처리부(101)로부터 입력된 한 프레임의 음성 신호로부터 선형예측계수(LPC:Linear Prediction Coefficient)를 구한다. 이 선형예측계수는 선 스펙트럼쌍 계수(LSP:Line Spectrum Pair) 또는 이에 등가적인 파라미터로 표현되어 양자화된다.
여기신호 모델링부(103)는 선형예측 필터부(102)에서 구해진 필터 계수와 입력 음성 처리부(101)로부터 입력된 음성 프레임을 이용하여 여기신호를 모델링한다. 즉, 필터 계수와 입력 음성 프레임을 선형예측 분석 필터링함으로써 선형예측 필터부(102)에서 선형예측되지 못한 여기신호(잔차신호)를 생성하고, 그 여기신호 의 주기적 성분은 적응코드북으로 표현하고(코드북 인덱스, 이득), 비주기적 성분은 대수적 코드북으로 표현(코드북 인덱스, 이득)하여 양자화한다. 이 때, 8 kbit/s 음성 부호화기에서는 대수적 코드북을 위해, 3.4 kbits/s 이상을 할당한다. 따라서 스케일러블 음성 부호화기를 위해서 2차 코드북으로 대수적 코드북을 사용할 경우, 작은 단위의 스케일러블한 음성 부호화기의 실현은 어렵다.
한편, 임베디드 여기신호 모델링부(120)는 본 발명에서 고안된 블록으로, 임베디드하고 스케일러블한 음성 부호화기를 위해 전송율 결정부(130)에서 주어지는 추가로 할당된 비트만큼 상기 여기신호 모델링부(103)에서 표현하지 못한 잔차 여기 신호를 모델링한다. 즉, 음성의 여기 신호를 다중펄스 여기 모델에 기반한 펄스의 위치와 부호로 모델링하고, 동시에 여기 코드북의 이득보상계수로 모델링 한 후, 두 가지 방식 중에서 최적의 방식을 찾는다. 최종적으로 여기 신호를 다중펄스의 위치 및 부호, 또는 이득보상계수 중 어느 방식으로 모델링을 할지 결정한 후 이를 양자화하여 전송하고, 양자화된 추가 비트가 전송율 결정부(130)에서 주어지는 비트에 비해 적을 경우 상술한 과정을 반복하여 수행한다.
도 2는 도 1의 임베디드 여기신호 모델링부(120)의 상세한 구성도로, 도 2에 도시된 바와 같이, 도 1의 임베디드 여기신호 모델링부(120)는 목적신호 계산부(121), 다중펄스 검색부(122), 이득 보상부(123) 및 여기신호 모델 선택부(124, 여기신호 부호화 모델 선택부)를 포함한다. 여기서, 도 1의 음성 부호화 코어부(110)는 ITU-T의 G.729 부호화기라고 가정하고, 현재 주어진 하나의 프레임이 2개의 부 프레임으로 나누어져 있다고 가정한다. 그리고, 음성 부호화 코어부(110)의 여기신호 모델링부(103)에서 결정된 k번째 부프레임에서 코드북 검색결과는 다음과 같다고 정의한다.
목적신호 계산부(121)는 임베디드 여기신호 모델링부(120)에서 모델링할 목적 신호(잔차신호)를 계산한다. 즉, 여기신호 모델링부(103)에서 결정된 적응 코드북 검색결과와 대수적 코드북 검색결과를 더한 후에 선형예측 합성 필터링하고 그 신호를 원래 음성 신호에서 빼는 것으로, 다중펄스 검색부(122) 및 이득 보상부(123)에서 모델링할 각각의 목적신호를 아래 [수학식 1] 및 [수학식 2]와 같이 계산한다.
여기서, s(n)은 원래의 음성 신호, hk(n)은 합성 필터의 임펄스 응답이다.
다중펄스 검색부(122)는 상기 [수학식 1]의 목적 신호를 다중펄스의 위치와 부호로 모델링한다. 즉, 음질에 가장 큰 영향을 주는 펄스의 위치와 부호를 찾는 것으로, 아래 [수학식 3]을 만족시키는 펄스 위치 pm 과 그 펄스 위치에서의 펄스 부호 sm을 찾는다. 이것은 곧 [수학식 3]에서 cm(n)을 찾는 것이다. 이 때, 계산된 최소 제곱오차를 εm라 한다.
여기서, s(n)은 원래의 음성 신호, hk(n)은 합성 필터의 임펄스 응답이다.
이득 보상부(123)는 상기 [수학식 2]의 목적 신호로부터 이득 보상을 위한 이득값을 구하는 것으로, 음성 부호화 코어부(110)의 여기신호 모델링부(103)에서 대수적 코드북 검색시 구한 이득을 좀 더 정확히 표현하기 위한 이득을 구한다. 즉, 아래 [수학식 4]를 만족시키는 이득 보상값 gm을 찾는다. 이 때, 계산된 최소 제곱오차를 εg라 한다.
여기서, s(n)은 원래의 음성 신호, hk(n)은 합성 필터의 임펄스 응답이다.
여기신호 모델 선택부(124)는 전송율을 기반으로 다중 펄스 검색 방식과 이득 보상 방식 중 성능이 우수한 방식을 선택한다. 즉, 다중펄스 검색부(122)에서 계산된 최소 제곱오차 εm와 이득 보상부(123)에서 계산된 최소 제곱오차 εg를 비교하여, εm < εg 이면 다중 펄스의 위치 pm 과 그 펄스 위치에서의 펄스 부호 sm을 양자화하고, εm > εg 이면 이득 보상값 gm을 양자화한다.
또한, 여기신호 모델 선택부(124)는 전송율 결정부(130)에서 주어진 비트율 증가에 대한 제약값에 따라 제안된 알고리즘을 반복할지를 결정한다. 반복하기로 결정될 경우, 파라미터를 갱신하고 임베디드 여기신호 모델링을 반복한다. 즉, 다중펄스 검색 방식으로 여기신호가 모델링될 경우에는 대수적 코드북 여기신호를 다음 [수학식 5]의 (1)과 같이 갱신하고, 이득 보상 방식으로 여기신호의 이득을 보상할 경우에는 대수적 코드북 이득값을 [수학식 5]의 (2)와 같이 갱신하여 임베디드 여기신호 모델링을 반복한다.
도 3은 본 발명에 따른 임베디드 코드여기 선형예측 음성 복호화 장치의 일실시예 구성도이다.
도 3에 도시된 바와 같이, 본 발명에 따른 임베디드 코드여기 선형예측 음성 복호화 장치는 여기신호 재생부(310), 임베디드 여기신호 재생부(320) 및 선형예측 합성 필터부(330)를 포함한다.
여기신호 재생부(310)는 적응 코드북과 대수적 코드북을 이용하여 기본적인 여기신호를 복호화하고, 임베디드 여기신호 재생부(320)는 음질을 향상시키기 위해 임베디드 형태로 추가된 비트 스트림으로부터 여기신호를 복호화한다. 여기신호 재생부(310)에서 복호화된 여기신호와 임베디드 여기신호 재생부(320)에서 복호화된 여기신호는 선형예측 합성 필터부(330)로 입력되고, 선형예측 합성 필터부(330)는 선형예측 합성 필터링을 하여 음성신호를 복원한다. 이 때, 임베디드 여기신호 재생부(320)는 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화 장치로부터 양자화되어 전송된 다중 펄스 위치와 그 펄스 위치에서의 펄스 부호를 이용하여 여기신호를 복호화하거나, 여기 코드북 이득값을 이용하여 여기신호를 복호화한다.
도 4는 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화 방법을 설 명하는 일실시예 흐름도이다.
도 4에 도시된 바와 같이, 먼저, 기존 음성 부호화기를 통해 음성 신호를 모델링하여 코드북 결과값을 구한다(410). 예를 들어, 기존 음성 부호화기가 ITU-T의 G.729라고 하고, 현재 주어진 하나의 프레임이 2개의 부프레임으로 나누어져 있다고 하고, k번째 부프레임에서 코드북 결과값은 아래와 같다고 정의한다.
이어서, 기존 음성 부호화기로 모델링되지 않은 음성의 여기신호를 전송율에 기반하여 임베디드 여기신호 모델링한다(420). 즉, 기존 음성 부호화기로 모델링되지 않은 음성의 여기신호를 다중펄스 여기 모델에 기반한 펄스의 위치 및 부호로 모델링하고 동시에 이득보상계수로 모델링한 후 그 두가지 방식 중에서 가장 최적의 방식을 선택한다. 그리고, 선택된 방식에 따라 다중펄스의 위치 및 부호 또는 이득보상계수를 양자화한다. 이하 도 5를 참조하여 상세히 설명한다.
이어서, 주어진 비트율 증가에 대한 제약값에 따라 임베디드 여기신호 모델링을 반속 수행할 것인지를 결정한다(430).
반복 수행을 결정하는 경우, 상기 코드북 결과값을 상기 [수학식 5]와 같이 갱신하여 상기 과정을 반복 수행한다(440).
도 5는 도 4의 임베디드 여기신호 모델링 과정을 상세히 설명하는 일실시예 흐름도이다.
도 5에 도시된 바와 같이, 먼저, 임베디드 여기신호 모델링을 위한 목적신호를 계산한다(510). 즉, 기존 음성 부호화기에서 결정된 적응 코드북 검색결과와 대수적 코드북 검색결과를 더한 후에 선형예측 합성 필터링하고 그 신호를 원래 음성 신호에서 빼는 것으로, 다음 [수학식 7] 및 [수학식 8]과 같은 목적신호를 계산한다.
이어서, 계산된 목적신호를 다중펄스의 위치와 부호로 모델링한다(520). 즉, 상기 [수학식 7]의 목적신호를 이용하여 음질에 가장 큰 영향을 주는 펄스의 위치와 부호를 찾는 것으로, 다음 [수학식 9]를 만족시키는 펄스 위치 pm 과 그 펄스 위치에서의 펄스 부호 sm을 찾는다. 이 때, [수학식 9]에서 계산된 최소 제곱오차를 εm이라 한다.
또한, 상기 계산된 목적신호로부터 이득 보상을 위한 이득값을 구한다(530). 즉, 상기 [수학식 8]을 이용하여 기존 음성 부호화기에서 대수적 코드북 검색시 구한 이득을 보상하기 위한 이득값을 구하는 것으로, 다음 [수학식 10]을 만족시키는 이득 보상값 gm을 찾는다. 이 때, [수학식 10]에서 계산된 최소 제곱오차를 εg이라 한다.
이어서, 다중펄스 검색 방식과 이득 보상 방식 중 성능이 우수한 방식을 선택한다(540). 즉, 상기 520 단계에서 계산된 최소 제곱오차 εm과 상기 530 단계에서 계산된 최소 제곱오차 εg를 비교하여, εm < εg 이면 상기 520 단계의 다중펄스 검색 방식을 선택하고, εm > εg 이면 상기 530 단계의 이득 보상 방식을 선택한다.
이어서, 선택된 방식에 따라 결과값을 양자화한다(550). 즉, 다중펄스 검색 방식이 선택되면 다중펄스의 위치 pm과 그 펄스 위치에서의 펄스 부호 sm을 양자화하고, 이득 보상 방식이 선택되면 이득 보상값 gm을 양자화한다.
도 6은 본 발명에 따른 임베디드 코드여기 선형예측 음성 복호화 방법을 설명하는 일실시예 흐름도이다.
도 6에 도시된 바와 같이, 기존 음성 부호화기에서 부호화되어 전송된 적응 코드북과 대수적 코드북 결과값을 이용하여 기본적인 여기신호를 복호화한다(610).
또한, 본 발명에 따라 음질 향상을 위해 임베디드 형태로 추가된 비트 스트림으로부터 여기신호를 복호화한다(620). 이 때, 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화 장치로부터 양자화되어 전송된 다중 펄스 위치와 그 펄스 위치에서의 펄스 부호를 이용하여 여기신호를 복호화하거나, 여기 코드북 이득값을 이용하여 여기신호를 복호화한다.
이어서, 상기 610 단계에서 복화화된 여기신호와 상기 620 단계에서 복호화된 여기신호를 선형예측 합성 필터링하여 음성 신호를 복원한다(630).
도 7은 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화기의 성능 결과를 나타낸 일실시예 도면이다. 도 1의 전송율 결정부(130)에서 주어지는 비트 율을 변화시킬 경우의 음질을 측정한 결과로, 0.8 kbits/s의 비율로 비트율을 변화시킨다. 이 때, 모든 비트율의 변화는 그 전 단계의 비트율을 포함하고, 본 발명에 따른 음성 부호화기의 음성 부호화 코어부(110)는 ITU-T G.729를 기반으로 수정된 9.5 kbits/s의 전송율을 갖는 대수적 코드여기 선형예측 부호화기(Algebraic Code-Excited Linear Prediction:ACELP)를 사용한다.
그리고, 음질의 측정은 객관적 척도의 하나인 ITU-T P.862(ITU-T Recommendation P.862, Perceptual evaluation of speech quality(PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs, Feb, 2001)를 사용하였다.
도 7에 도시된 바와 같이, 다중펄스 검색 방식 또는 이득 보상 방식의 결정 상태는 세번째 열에 나타나 있고, 0.8 kbits/s의 비트율 증가에 따라 음질은 0.013 MOS 증가하는 효과가 있다. 즉, 스케일러블한 비트율의 변화에 따른 점진적인 성능 향상을 볼 수 있다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상기와 같은 본 발명은, VoIP 등의 음성 서비스에 있어서 전송율의 변화에 따른 점진적인 고품질 통화 서비스를 제공할 수 있고, 또한 사용자의 요구 및 비용에 따른 차별적인 음성 통화 품질을 제공할 수 있는 효과가 있다.
Claims (19)
- 삭제
- 음성 부호화 장치로서,입력 음성 신호로부터 음성의 포락선 정보와 여기신호를 분리 생성하기 위한 음성 부호화 코어부;전송 채널 용량에 따라 추가 가능한 비트수를 할당하기 위한 전송율 결정부; 및상기 추가 가능한 비트수를 기초로 상기 음성 부호화 코어부에서 표현하지 못한 잔차 여기신호를 다중 펄스 여기 부호화 방식과 이득 보상 방식 중 하나로 부호화하기 위한 임베디드 여기신호 부호화부를 포함하되,상기 임베디드 여기신호 부호화부는,상기 음성 부호화 코어부에서 부호화되지 않은 잔차 신호를 계산하기 위한 목적 신호 계산부;계산된 잔차 신호의 제곱오차를 최소화하는 다중 펄스의 위치와 부호를 결정하기 위한 다중 펄스 검색부;계산된 잔차 신호의 제곱오차를 최소화하는 이득 보상값을 결정하기 위한 이득 보상부; 및상기 다중 펄스 검색부 및 상기 이득 보상부의 최소 제곱오차에 근거하여 부호화 방식을 선택하는 여기신호 부호화 모델 선택부를 포함하는 음성 부호화 장치.
- 제 2 항에 있어서,상기 목적 신호 계산부는,상기 음성 부호화 코어부에서 결정된 적응 코드북 검색결과와 대수적 코드북 검색결과를 더한 후 선형예측 합성 필터링하고 그 신호를 원래 음성 신호에서 빼는 것을 특징으로 하는 음성 부호화 장치.
- 제 2 항에 있어서,상기 여기신호 부호화 모델 선택부는,상기 다중 펄스 검색부에서 계산된 최소 제곱오차가 상기 이득 보상부에서 계산된 최소 제곱오차보다 큰 경우 다중 펄스의 위치 및 그 펄스 위치에서의 펄스 부호를 양자화하고, 상기 이득 보상부에서 계산된 최소 제곱오차가 상기 다중 펄스 검색부에서 계산된 최소 제곱오차보다 큰 경우 이득 보상값을 양자화하는 것을 특징으로 하는 음성 부호화 장치.
- 삭제
- 삭제
- 음성 복호화 장치로서,적응 코드북 검색결과와 대수적 코드북 검색결과를 이용하여 음성의 기본적인 여기신호를 복호화하기 위한 여기신호 재생부;임베디드 형태로 추가된 비트 스트림으로부터 여기신호를 복호화하기 위한 임베디드 여기신호 재생부; 및상기 여기신호 재생부에서 복호화된 여기신호와 상기 임베디드 여기신호 재생부에서 복호화된 여기신호를 선형예측 합성 필터링하여 음성 신호를 복원하기 위한 선형예측 합성 필터부를 포함하되,상기 임베디드 여기신호 재생부는,양자화되어 전송된 여기 코드북 이득값을 이용하여 여기신호를 복호화하는음성 복호화 장치.
- 삭제
- 음성 부호화 방법으로서,기존 음성 부호화기를 통해 음성 신호를 모델링하는 단계; 및기존 음성 부호화기를 통해 부호화되지 않은 음성의 잔차 여기신호를 채널 전송율에 기초하여 다중 펄스 여기 부호화 방식과 이득 보상 방식 중 하나로 부호화하는 임베디드 여기신호 부호화 단계를 포함하되,상기 임베디드 여기신호 부호화 단계는,잔차 신호를 계산하는 목적신호 계산단계;계산된 잔차 신호의 제곱오차를 최소화하는 다중 펄스의 위치와 부호를 결정하는 다중펄스 검색단계;계산된 잔차 신호의 제곱오차를 최소화하는 이득 보상값을 결정하는 이득 보상단계; 및상기 최소 제곱오차에 근거하여 부호화 방식을 선택하는 여기신호 부호화 모델 선택단계를 포함하는 음성 부호화 방법.
- 제 11 항에 있어서,상기 목적신호 계산단계는,입력 음성 신호의 적응 코드북 검색결과와 대수적 코드북 검색결과를 더한 후 선형예측 합성 필터링하고 그 신호를 원래 음성 신호에서 빼는 것을 특징으로 하는 음성 부호화 방법.
- 제 11에 있어서,상기 여기신호 부호화 모델 선택단계는,상기 다중펄스 검색단계에서 계산된 최소 제곱오차가 상기 이득 보상단계에서 계산된 최소 제곱오차보다 큰 경우 다중 펄스의 위치 및 그 펄스 위치에서의 펄스 부호를 양자화하고, 상기 이득 보상단계에서 계산된 최소 제곱오차가 상기 다중펄스 검색단계에서 계산된 최소 제곱오차보다 큰 경우 이득 보상값을 양자화하는 것을 특징으로 하는 음성 부호화 방법.
- 삭제
- 삭제
- 음성 복호화 방법으로서,적응 코드북 검색결과와 대수적 코드북 검색결과를 이용하여 음성의 기본적인 여기신호를 복호화하는 여기신호 재생단계;임베디드 형태로 추가된 비트 스트림으로부터 여기신호를 복호화하는 임베디드 여기신호 재생단계; 및상기 여기신호 재생단계에서 복호화된 여기신호와 상기 임베디드 여기신호 재생단계에서 복호화된 여기신호를 선형예측 합성 필터링하여 음성 신호를 복원하는 선형예측 합성 필터링단계를 포함하되,상기 임베디드 여기신호 재생단계는,양자화되어 전송된 여기 코드북 이득값을 이용하여 여기신호를 복호화하는음성 복호화 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/297,686 US8265929B2 (en) | 2004-12-08 | 2005-12-07 | Embedded code-excited linear prediction speech coding and decoding apparatus and method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040103156 | 2004-12-08 | ||
KR20040103156 | 2004-12-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060064498A KR20060064498A (ko) | 2006-06-13 |
KR100745721B1 true KR100745721B1 (ko) | 2007-08-03 |
Family
ID=37160049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050077355A KR100745721B1 (ko) | 2004-12-08 | 2005-08-23 | 임베디드 코드여기 선형예측 음성 부호화/복호화 장치 및그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100745721B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101322392B1 (ko) | 2006-06-16 | 2013-10-29 | 삼성전자주식회사 | 스케일러블 코덱의 부호화 및 복호화 방법 및 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1188549A (ja) | 1997-09-10 | 1999-03-30 | Toyo Commun Equip Co Ltd | 音声符号化/復号化装置 |
US6704703B2 (en) | 2000-02-04 | 2004-03-09 | Scansoft, Inc. | Recursively excited linear prediction speech coder |
US20040102963A1 (en) | 2002-11-21 | 2004-05-27 | Jin Li | Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform |
KR20050073561A (ko) * | 2002-10-22 | 2005-07-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 매립된 데이터의 시그널링 |
-
2005
- 2005-08-23 KR KR1020050077355A patent/KR100745721B1/ko not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1188549A (ja) | 1997-09-10 | 1999-03-30 | Toyo Commun Equip Co Ltd | 音声符号化/復号化装置 |
US6704703B2 (en) | 2000-02-04 | 2004-03-09 | Scansoft, Inc. | Recursively excited linear prediction speech coder |
KR20050073561A (ko) * | 2002-10-22 | 2005-07-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 매립된 데이터의 시그널링 |
US20040102963A1 (en) | 2002-11-21 | 2004-05-27 | Jin Li | Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform |
Also Published As
Publication number | Publication date |
---|---|
KR20060064498A (ko) | 2006-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1991986B1 (en) | Methods and arrangements for audio coding | |
JP4213243B2 (ja) | 音声符号化方法及び該方法を実施する装置 | |
US7529663B2 (en) | Method for flexible bit rate code vector generation and wideband vocoder employing the same | |
Hasegawa-Johnson et al. | Speech coding: Fundamentals and applications | |
US8265929B2 (en) | Embedded code-excited linear prediction speech coding and decoding apparatus and method | |
JPH10187196A (ja) | 低ビットレートピッチ遅れコーダ | |
CN104517612B (zh) | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 | |
KR100499047B1 (ko) | 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법 | |
KR100480341B1 (ko) | 광대역 저전송률 음성 신호의 부호화기 | |
KR100745721B1 (ko) | 임베디드 코드여기 선형예측 음성 부호화/복호화 장치 및그 방법 | |
US7089180B2 (en) | Method and device for coding speech in analysis-by-synthesis speech coders | |
Song et al. | Harmonic enhancement in low bitrate audio coding using an efficient long-term predictor | |
KR100550003B1 (ko) | 상호부호화기에서 개회로 피치 추정 방법 및 그 장치 | |
Kim et al. | An efficient transcoding algorithm for G. 723.1 and EVRC speech coders | |
US7472056B2 (en) | Transcoder for speech codecs of different CELP type and method therefor | |
JP3490325B2 (ja) | 音声信号符号化方法、復号方法およびその符号化器、復号器 | |
Sun et al. | Speech compression | |
Drygajilo | Speech Coding Techniques and Standards | |
Patel et al. | Implementation and Performance Analysis of g. 723.1 speech codec | |
BAKIR | Compressing English Speech Data with Hybrid Methods without Data Loss | |
JPH06130994A (ja) | 音声符号化方法 | |
Miki et al. | Pitch synchronous innovation code excited linear prediction (PSI‐CELP) | |
Sahab et al. | SPEECH CODING ALGORITHMS: LPC10, ADPCM, CELP AND VSELP | |
JPH08160996A (ja) | 音声符号化装置 | |
JPH05273999A (ja) | 音声符号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
G170 | Publication of correction | ||
FPAY | Annual fee payment |
Payment date: 20110711 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |