KR100745721B1 - 임베디드 코드여기 선형예측 음성 부호화/복호화 장치 및그 방법 - Google Patents

임베디드 코드여기 선형예측 음성 부호화/복호화 장치 및그 방법 Download PDF

Info

Publication number
KR100745721B1
KR100745721B1 KR1020050077355A KR20050077355A KR100745721B1 KR 100745721 B1 KR100745721 B1 KR 100745721B1 KR 1020050077355 A KR1020050077355 A KR 1020050077355A KR 20050077355 A KR20050077355 A KR 20050077355A KR 100745721 B1 KR100745721 B1 KR 100745721B1
Authority
KR
South Korea
Prior art keywords
excitation signal
speech
signal
pulse
embedded
Prior art date
Application number
KR1020050077355A
Other languages
English (en)
Other versions
KR20060064498A (ko
Inventor
이미숙
김도영
성종모
김현우
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US11/297,686 priority Critical patent/US8265929B2/en
Publication of KR20060064498A publication Critical patent/KR20060064498A/ko
Application granted granted Critical
Publication of KR100745721B1 publication Critical patent/KR100745721B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 임베디드 코드여기 선형예측 음성 부호화/복호화 장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 채널 전송율에 기초하여 기본 음성 부호화기에서 표현하지 못한 오차 신호를 다중펄스 검색 방식 또는 이득 보상 방식으로 모델링한 후 최적의 방식으로 전송함으로써, 음성 전송 채널의 용량 변화에 능동적으로 대처할 수 있는, 임베디드 코드여기 선형예측 음성 부호화 장치 및 그 방법을 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 음성 부호화 장치로서, 입력 음성 신호로부터 음성의 포락선 정보와 여기신호를 분리 생성하기 위한 음성 부호화 코어부; 전송 채널 용량에 따라 추가 가능한 비트수를 할당하기 위한 전송율 결정부; 및 상기 추가 가능한 비트수를 기초로 상기 음성 부호화 코어부에서 표현하지 못한 잔차 여기신호를 다중 펄스 여기 부호화 방식과 이득 보상 방식 중 하나로 부호화하기 위한 임베디드 여기신호 부호화부를 포함함.
4. 발명의 중요한 용도
본 발명은 광대역 통합망에서 음성 통화 서비스 등에 이용됨.
임베디드 음성 부호화기, 스케일러블 음성 부호화기, 다중 펄스 여기, 코드북 이득보상

Description

임베디드 코드여기 선형예측 음성 부호화/복호화 장치 및 그 방법{Embedded Code-Excited Linear Prediction Speech Coder/Decoder and Method thereof}
도 1은 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화 장치의 일실시예 구성도,
도 2는 도 1의 임베디드 여기신호 모델링부의 상세한 구성도,
도 3은 본 발명에 따른 임베디드 코드여기 선형예측 음성 복호화 장치의 일실시예 구성도,
도 4는 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화 방법을 설명하는 일실시예 흐름도,
도 5는 도 4의 임베디드 여기신호 모델링 과정을 상세히 설명하는 일실시예 흐름도,
도 6은 본 발명에 따른 임베디드 코드여기 선형예측 음성 복호화 방법을 설명하는 일실시예 흐름도,
도 7은 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화기의 성능 결과를 나타낸 일실시예 도면이다.
* 도면의 주요 부분에 대한 부호의 설명
101 : 입력 음성 처리부 102 : 선형예측 필터부
103 : 여기신호 모델링부 120 : 임베디드 여기신호 모델링부
130 : 전송율 결정부
본 발명은 임베디드 코드여기 선형예측 음성 부호화 및 복호화 장치와 그 방법에 관한 것으로, 더욱 상세하게는 음성 전송 채널 용량의 변화에 능동적으로 대처하면서 음질을 향상시킬 수 있는 임베디드 구조를 갖는 비트율 스케일러블한 음성 부호화 및 복호화 장치와 그 방법에 관한 것이다.
현재 광대역 통합망(Broadband Convergence Network)에서 인터넷 프로토콜 기반의 음성 통화(Voice over Internet Protocol) 서비스 등에 활용 가능한 고품질 음성 부호화기의 개발이 활발히 진행 중이다.
이러한 음성 부호화기는 현재 사용되는 표준 음성 부호화기와 상호 연동이 가능해야 한다. 이를 위해서는 개발될 음성 부호화기에 기존의 음성 부호화기와 호환성을 갖도록 하는 내부 모듈이 있거나, 또는 개발될 음성 부호화기 자체의 코어(core) 부분이 기존의 음성 부호화기를 포함하도록 하여야 한다.
또한, 통신망, 특히 패킷망에서의 음성 통화 품질(Quality of Service)을 보 장하기 위해서는 전송선로의 트래픽에 따라 가변적으로 음성을 전달할 필요가 있다. 예를 들어, IP(Internet Protocol) 망의 경우 전송도중 발생하는 패킷 손실로 인해 통화 중 음질의 변화폭이 커서 전체적인 체감 음질을 저하시킨다. 패킷 손실이 발생하는 원인 중 하나는 채널의 부하이다. 따라서, 채널의 부하가 심한 경우에 전송 비트율을 줄임으로써 패킷 손실로 인한 음질 변동을 줄일 수 있어야 하고, 채널의 상태가 좋은 경우에는 높은 비트율로 음성 데이터를 전송하여 우수한 통화 품질을 제공할 수 있어야 한다.
즉, 음성 부호화기는 임베디드(embedded) 형태로 구현되어야 하고, 통신망의 전송 상태에 따라 비트율을 조정할 수 잇는 스케일러블(scalable) 구조를 가져야 한다.
스케일러블 음성 부호화기에 대한 연구 동향은 크게 분리 스케일러블 부호화(separate scalable coding) 방식과 합성 스케일러블 부호화(composite scalable coding) 방식으로 나눌 수 있다.
분리 스케일러블 부호화 방식에서는, 우선 입력 음성을 코어(core) 음성 부호화기로 압축을 한 후, 원 신호와 압축된 신호와의 차를 부가적으로 할당된 비트율(bitrate)로 한번 더 압축한다. 예를 들어, Kataoka 등은 G.729를 코어 음성 부호화기로 한 후, 2개의 랜덤 코드북(random codebook)의 조합으로 구성된 고정 코드북으로부터 나머지 신호를 모델링한다(A. Kataoka. S. Kurihara, S. Sasaki, and S. Hayashi, "A 16-kbit/s wideband speech codec scalable with G.729," in Proc. Eurospeech, Rhodes, Greece, pp. 1491-1494, Sept. 1997).
한편, 합성 스케일러블 부호화 방식에서는, 코어 음성 부호화기에 별도의 강화 계층(enhancement layer)을 두는 대신에 코어 음성 부호화기 내부에 존재하는 모듈에서 분해능을 올리는 방향으로 비트 할당을 한다. 예를 들어, MPEG-4의 CELP 음성 부호화기에서는 2kbps의 증가율로 정규 펄스 여기(regular pulse excitation) 신호의 펄스 수를 증가시키는 강화 여기(enhancement excitation) 기법을 사용하고 있다(ISO/JTC1 SC29 WG 11, Final draft international standard FDIS 14496-3: Coding of audiovisual objects, part 3:Audio, 1998). 또한, Nomura 등은 멀티-펄스 CELP(Multi-Pulse CELP) 음성 부호화기를 코어 음성 부호화기로 하여, 여기 신호 모델링(exciting modeling)에 사용하는 멀티-펄스의 수를 증가시켜 비트율 스케일러블을 구현한다(T. Nomura, M. lwadare, M. Serizawa, and K. Ozawa, "A bitrate and bandwidth scalable CELP coder," in Proc. ICASSP, Seattle, WA, pp. 341-344, May 1998). 최근에는 선택적 모드 음성 부호화기(selective mode vocoder)에서 대수적 코드북(algebraic codebook)을 캐스캐이드(cascade) 형식으로 다단 구현하여 비트율 스케일러블 음성 부호화기를 구현하였다(S.-K.Jung, K.-T. Kim, H.-G. Kang, and D.-H. Youn, "A cascade algebraic codebook structure to improve the performance of speech coder," in Poc. ICASSP, Hong Kong, China, vol. 2, pp. 173-176, Apr. 2003).
그러나, 이러한 방법들은 스케일러블한 부호화를 위해 상당히 많은 수의 비트율이 요구된다. 따라서, 1kbits/s 미만의 스케일러블한 음성 부호화를 위해서는 개선되어야 한다.
본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 채널 전송율에 기초하여 기본 음성 부호화기에서 표현하지 못한 오차 신호를 다중펄스 검색 방식 또는 이득 보상 방식으로 모델링한 후 최적의 방식으로 전송함으로써, 음성 전송 채널의 용량 변화에 능동적으로 대처할 수 있는, 임베디드 코드여기 선형예측 음성 부호화 장치 및 그 방법을 제공하는데 그 목적이 있다.
또한, 본 발명은 상기 임베디드 코드여기 선형예측 음성 부호화 장치에서 부호화되어 전송된 비트 스트림으로부터 음성 신호를 복호화하기 위한, 임베디드 코드여기 선형예측 음성 복호화 장치 및 그 방법을 제공하는데 또다른 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기 목적을 달성하기 위한 본 발명은, 음성 부호화 장치로서, 입력 음성 신호로부터 음성의 포락선 정보와 여기신호를 분리 생성하기 위한 음성 부호화 코어부; 전송 채널 용량에 따라 추가 가능한 비트수를 할당하기 위한 전송율 결정부; 및 상기 추가 가능한 비트수를 기초로 상기 음성 부호화 코어부에서 표현하지 못한 잔차 여기신호를 다중 펄스 여기 부호화 방식과 이득 보상 방식 중 하나로 부호화하기 위한 임베디드 여기신호 부호화부를 포함하는 것을 특징으로 한다.
또한, 본 발명은, 음성 복호화 장치로서, 적응 코드북 검색결과와 대수적 코드북 검색결과를 이용하여 음성의 기본적인 여기신호를 복호화하기 위한 여기신호 재생부; 임베디드 형태로 추가된 비트 스트림으로부터 여기신호를 복호화하기 위한 임베디드 여기신호 재생부; 및 상기 여기신호 재생부에서 복호화된 여기신호와 상기 임베디드 여기신호 재생부에서 복호화된 여기신호를 선형예측 합성 필터링하여 음성 신호를 복원하기 위한 선형예측 합성 필터부를 포함하는 것을 특징으로 한다.
또한, 본 발명은, 음성 부호화 방법으로서, 기존 음성 부호화기를 통해 음성 신호를 모델링하는 단계; 및 기존 음성 부호화기를 통해 부호화되지 않은 음성의 잔차 여기신호를 채널 전송율에 기초하여 다중 펄스 여기 부호화 방식과 이득 보상 방식 중 하나로 부호화하는 임베디드 여기신호 부호화 단계를 포함하는 하는 것을 특징으로 한다.
또한, 본 발명은, 음성 복호화 방법으로서, 적응 코드북 검색결과와 대수적 코드북 검색결과를 이용하여 음성의 기본적인 여기신호를 복호화하는 여기신호 재생단계; 임베디드 형태로 추가된 비트 스트림으로부터 여기신호를 복호화하는 임베디드 여기신호 재생단계; 및 상기 여기신호 재생단계에서 복호화된 여기신호와 상기 임베디드 여기신호 재생단계에서 복호화된 여기신호를 선형예측 합성 필터링하여 음성 신호를 복원하는 선형예측 합성 필터링단계를 포함하하는 것을 특징으로 한다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명하기로 한다. 한편, 이하 상세한 설명에서 사용되는 모델링은 부호화와 동일한 의미이며, 모델링으로 통칭하여 사용한다.
도 1은 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화 장치의 일실시예 구성도로, 도 1에 도시된 바와 같이, 본 발명에 따른 음성 부호화 장치는 음성 부호화 코어부(110), 임베디드 여기신호 모델링부(120) 및 전송율 결정부(130)를 포함한다. 여기서, 모델링은 부호화와 동일한 의미이며, 이하 모델링으로
음성 부호화 코어부(110)는 음성 신호로부터 스펙트럼 포락선 정보와 여기 신호를 분리 추출하는 구성요소로, 6.3 kbits/s나 5.4 kbits/s의 전송율을 갖는 ITU-T G.723.1 부호화기(ITU-T Recommendation G.723.1, Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbits/s)나, 8 kbits/s의 전송율을 갖는 ITU-T G.729 부호화기(ITU-T Recommendation G.729, Coding of speech at 8 kbits/s using conjugate-structure algebraic-code-excited linear-predition(CS-ACELP)) 등이 사용될 수 있다. 그러나 이에 국한되지 않는다. 본 실시예에서 음성 부호화 코어부(110)는 입력 음성 처리부(101), 선형예 측 필터부(102) 및 여기신호 모델링부(103)를 포함한다.
입력 음성 처리부(101)는 외부로부터 입력되는 디지털 음성 신호를 버퍼링한 후 창함수 등을 사용하여 단구간의 음성을 얻는다. 예를 들어, 8kHz로 샘플링된 음성 신호는 0.125 msec 마다 입력되고, 입력 음성 처리부(101)는 0.125 msec 마다 입력되는 음성 신호를 10 msec 혹은 20 msec동안 계속 버터링한 후 창함수를 적용한다. 즉, 160 샘플을 모아 창함수를 적용한다. 이와 같이, 20 msec 단위의 음성을 단구간 음성이라고 하고, 이 단구간의 음성을 프레임이라 한다. 이 때, 외부로부터 입력되는 음성 신호는 마이크로폰(microphone)을 통해 입력되어 아날로그-디지털 변환기(Analog-digital converter)로 표본화된 디지털 신호이거나, CD-ROM, MP3 플레이어, DVD 등을 포함하는 디지털 음성 저장 매체로부터 직접 디지털로 입력되어 데시메이터(decimator)를 통해 원하는 샘플링 비율로 변환된 디지털 신호가 될 수 있으나, 이에 국한되지 않는다.
선형예측 필터부(102)는 입력 음성 처리부(101)로부터 입력된 한 프레임의 음성 신호로부터 선형예측계수(LPC:Linear Prediction Coefficient)를 구한다. 이 선형예측계수는 선 스펙트럼쌍 계수(LSP:Line Spectrum Pair) 또는 이에 등가적인 파라미터로 표현되어 양자화된다.
여기신호 모델링부(103)는 선형예측 필터부(102)에서 구해진 필터 계수와 입력 음성 처리부(101)로부터 입력된 음성 프레임을 이용하여 여기신호를 모델링한다. 즉, 필터 계수와 입력 음성 프레임을 선형예측 분석 필터링함으로써 선형예측 필터부(102)에서 선형예측되지 못한 여기신호(잔차신호)를 생성하고, 그 여기신호 의 주기적 성분은 적응코드북으로 표현하고(코드북 인덱스, 이득), 비주기적 성분은 대수적 코드북으로 표현(코드북 인덱스, 이득)하여 양자화한다. 이 때, 8 kbit/s 음성 부호화기에서는 대수적 코드북을 위해, 3.4 kbits/s 이상을 할당한다. 따라서 스케일러블 음성 부호화기를 위해서 2차 코드북으로 대수적 코드북을 사용할 경우, 작은 단위의 스케일러블한 음성 부호화기의 실현은 어렵다.
한편, 임베디드 여기신호 모델링부(120)는 본 발명에서 고안된 블록으로, 임베디드하고 스케일러블한 음성 부호화기를 위해 전송율 결정부(130)에서 주어지는 추가로 할당된 비트만큼 상기 여기신호 모델링부(103)에서 표현하지 못한 잔차 여기 신호를 모델링한다. 즉, 음성의 여기 신호를 다중펄스 여기 모델에 기반한 펄스의 위치와 부호로 모델링하고, 동시에 여기 코드북의 이득보상계수로 모델링 한 후, 두 가지 방식 중에서 최적의 방식을 찾는다. 최종적으로 여기 신호를 다중펄스의 위치 및 부호, 또는 이득보상계수 중 어느 방식으로 모델링을 할지 결정한 후 이를 양자화하여 전송하고, 양자화된 추가 비트가 전송율 결정부(130)에서 주어지는 비트에 비해 적을 경우 상술한 과정을 반복하여 수행한다.
도 2는 도 1의 임베디드 여기신호 모델링부(120)의 상세한 구성도로, 도 2에 도시된 바와 같이, 도 1의 임베디드 여기신호 모델링부(120)는 목적신호 계산부(121), 다중펄스 검색부(122), 이득 보상부(123) 및 여기신호 모델 선택부(124, 여기신호 부호화 모델 선택부)를 포함한다. 여기서, 도 1의 음성 부호화 코어부(110)는 ITU-T의 G.729 부호화기라고 가정하고, 현재 주어진 하나의 프레임이 2개의 부 프레임으로 나누어져 있다고 가정한다. 그리고, 음성 부호화 코어부(110)의 여기신호 모델링부(103)에서 결정된 k번째 부프레임에서 코드북 검색결과는 다음과 같다고 정의한다.
Figure 112005046423211-pat00001
목적신호 계산부(121)는 임베디드 여기신호 모델링부(120)에서 모델링할 목적 신호(잔차신호)를 계산한다. 즉, 여기신호 모델링부(103)에서 결정된 적응 코드북 검색결과와 대수적 코드북 검색결과를 더한 후에 선형예측 합성 필터링하고 그 신호를 원래 음성 신호에서 빼는 것으로, 다중펄스 검색부(122) 및 이득 보상부(123)에서 모델링할 각각의 목적신호를 아래 [수학식 1] 및 [수학식 2]와 같이 계산한다.
Figure 112005046423211-pat00002
Figure 112005046423211-pat00003
여기서, s(n)은 원래의 음성 신호, hk(n)은 합성 필터의 임펄스 응답이다.
다중펄스 검색부(122)는 상기 [수학식 1]의 목적 신호를 다중펄스의 위치와 부호로 모델링한다. 즉, 음질에 가장 큰 영향을 주는 펄스의 위치와 부호를 찾는 것으로, 아래 [수학식 3]을 만족시키는 펄스 위치 pm 과 그 펄스 위치에서의 펄스 부호 sm을 찾는다. 이것은 곧 [수학식 3]에서 cm(n)을 찾는 것이다. 이 때, 계산된 최소 제곱오차를 εm라 한다.
Figure 112005046423211-pat00004
여기서, s(n)은 원래의 음성 신호, hk(n)은 합성 필터의 임펄스 응답이다.
이득 보상부(123)는 상기 [수학식 2]의 목적 신호로부터 이득 보상을 위한 이득값을 구하는 것으로, 음성 부호화 코어부(110)의 여기신호 모델링부(103)에서 대수적 코드북 검색시 구한 이득을 좀 더 정확히 표현하기 위한 이득을 구한다. 즉, 아래 [수학식 4]를 만족시키는 이득 보상값 gm을 찾는다. 이 때, 계산된 최소 제곱오차를 εg라 한다.
Figure 112005046423211-pat00005
여기서, s(n)은 원래의 음성 신호, hk(n)은 합성 필터의 임펄스 응답이다.
여기신호 모델 선택부(124)는 전송율을 기반으로 다중 펄스 검색 방식과 이득 보상 방식 중 성능이 우수한 방식을 선택한다. 즉, 다중펄스 검색부(122)에서 계산된 최소 제곱오차 εm와 이득 보상부(123)에서 계산된 최소 제곱오차 εg를 비교하여, εm < εg 이면 다중 펄스의 위치 pm 과 그 펄스 위치에서의 펄스 부호 sm을 양자화하고, εm > εg 이면 이득 보상값 gm을 양자화한다.
또한, 여기신호 모델 선택부(124)는 전송율 결정부(130)에서 주어진 비트율 증가에 대한 제약값에 따라 제안된 알고리즘을 반복할지를 결정한다. 반복하기로 결정될 경우, 파라미터를 갱신하고 임베디드 여기신호 모델링을 반복한다. 즉, 다중펄스 검색 방식으로 여기신호가 모델링될 경우에는 대수적 코드북 여기신호를 다음 [수학식 5]의 (1)과 같이 갱신하고, 이득 보상 방식으로 여기신호의 이득을 보상할 경우에는 대수적 코드북 이득값을 [수학식 5]의 (2)와 같이 갱신하여 임베디드 여기신호 모델링을 반복한다.
Figure 112005046423211-pat00006
도 3은 본 발명에 따른 임베디드 코드여기 선형예측 음성 복호화 장치의 일실시예 구성도이다.
도 3에 도시된 바와 같이, 본 발명에 따른 임베디드 코드여기 선형예측 음성 복호화 장치는 여기신호 재생부(310), 임베디드 여기신호 재생부(320) 및 선형예측 합성 필터부(330)를 포함한다.
여기신호 재생부(310)는 적응 코드북과 대수적 코드북을 이용하여 기본적인 여기신호를 복호화하고, 임베디드 여기신호 재생부(320)는 음질을 향상시키기 위해 임베디드 형태로 추가된 비트 스트림으로부터 여기신호를 복호화한다. 여기신호 재생부(310)에서 복호화된 여기신호와 임베디드 여기신호 재생부(320)에서 복호화된 여기신호는 선형예측 합성 필터부(330)로 입력되고, 선형예측 합성 필터부(330)는 선형예측 합성 필터링을 하여 음성신호를 복원한다. 이 때, 임베디드 여기신호 재생부(320)는 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화 장치로부터 양자화되어 전송된 다중 펄스 위치와 그 펄스 위치에서의 펄스 부호를 이용하여 여기신호를 복호화하거나, 여기 코드북 이득값을 이용하여 여기신호를 복호화한다.
도 4는 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화 방법을 설 명하는 일실시예 흐름도이다.
도 4에 도시된 바와 같이, 먼저, 기존 음성 부호화기를 통해 음성 신호를 모델링하여 코드북 결과값을 구한다(410). 예를 들어, 기존 음성 부호화기가 ITU-T의 G.729라고 하고, 현재 주어진 하나의 프레임이 2개의 부프레임으로 나누어져 있다고 하고, k번째 부프레임에서 코드북 결과값은 아래와 같다고 정의한다.
Figure 112005046423211-pat00007
이어서, 기존 음성 부호화기로 모델링되지 않은 음성의 여기신호를 전송율에 기반하여 임베디드 여기신호 모델링한다(420). 즉, 기존 음성 부호화기로 모델링되지 않은 음성의 여기신호를 다중펄스 여기 모델에 기반한 펄스의 위치 및 부호로 모델링하고 동시에 이득보상계수로 모델링한 후 그 두가지 방식 중에서 가장 최적의 방식을 선택한다. 그리고, 선택된 방식에 따라 다중펄스의 위치 및 부호 또는 이득보상계수를 양자화한다. 이하 도 5를 참조하여 상세히 설명한다.
이어서, 주어진 비트율 증가에 대한 제약값에 따라 임베디드 여기신호 모델링을 반속 수행할 것인지를 결정한다(430).
반복 수행을 결정하는 경우, 상기 코드북 결과값을 상기 [수학식 5]와 같이 갱신하여 상기 과정을 반복 수행한다(440).
도 5는 도 4의 임베디드 여기신호 모델링 과정을 상세히 설명하는 일실시예 흐름도이다.
도 5에 도시된 바와 같이, 먼저, 임베디드 여기신호 모델링을 위한 목적신호를 계산한다(510). 즉, 기존 음성 부호화기에서 결정된 적응 코드북 검색결과와 대수적 코드북 검색결과를 더한 후에 선형예측 합성 필터링하고 그 신호를 원래 음성 신호에서 빼는 것으로, 다음 [수학식 7] 및 [수학식 8]과 같은 목적신호를 계산한다.
Figure 112005046423211-pat00008
Figure 112005046423211-pat00009
이어서, 계산된 목적신호를 다중펄스의 위치와 부호로 모델링한다(520). 즉, 상기 [수학식 7]의 목적신호를 이용하여 음질에 가장 큰 영향을 주는 펄스의 위치와 부호를 찾는 것으로, 다음 [수학식 9]를 만족시키는 펄스 위치 pm 과 그 펄스 위치에서의 펄스 부호 sm을 찾는다. 이 때, [수학식 9]에서 계산된 최소 제곱오차를 εm이라 한다.
Figure 112005046423211-pat00010
또한, 상기 계산된 목적신호로부터 이득 보상을 위한 이득값을 구한다(530). 즉, 상기 [수학식 8]을 이용하여 기존 음성 부호화기에서 대수적 코드북 검색시 구한 이득을 보상하기 위한 이득값을 구하는 것으로, 다음 [수학식 10]을 만족시키는 이득 보상값 gm을 찾는다. 이 때, [수학식 10]에서 계산된 최소 제곱오차를 εg이라 한다.
Figure 112005046423211-pat00011
이어서, 다중펄스 검색 방식과 이득 보상 방식 중 성능이 우수한 방식을 선택한다(540). 즉, 상기 520 단계에서 계산된 최소 제곱오차 εm과 상기 530 단계에서 계산된 최소 제곱오차 εg를 비교하여, εm < εg 이면 상기 520 단계의 다중펄스 검색 방식을 선택하고, εm > εg 이면 상기 530 단계의 이득 보상 방식을 선택한다.
이어서, 선택된 방식에 따라 결과값을 양자화한다(550). 즉, 다중펄스 검색 방식이 선택되면 다중펄스의 위치 pm과 그 펄스 위치에서의 펄스 부호 sm을 양자화하고, 이득 보상 방식이 선택되면 이득 보상값 gm을 양자화한다.
도 6은 본 발명에 따른 임베디드 코드여기 선형예측 음성 복호화 방법을 설명하는 일실시예 흐름도이다.
도 6에 도시된 바와 같이, 기존 음성 부호화기에서 부호화되어 전송된 적응 코드북과 대수적 코드북 결과값을 이용하여 기본적인 여기신호를 복호화한다(610).
또한, 본 발명에 따라 음질 향상을 위해 임베디드 형태로 추가된 비트 스트림으로부터 여기신호를 복호화한다(620). 이 때, 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화 장치로부터 양자화되어 전송된 다중 펄스 위치와 그 펄스 위치에서의 펄스 부호를 이용하여 여기신호를 복호화하거나, 여기 코드북 이득값을 이용하여 여기신호를 복호화한다.
이어서, 상기 610 단계에서 복화화된 여기신호와 상기 620 단계에서 복호화된 여기신호를 선형예측 합성 필터링하여 음성 신호를 복원한다(630).
도 7은 본 발명에 따른 임베디드 코드여기 선형예측 음성 부호화기의 성능 결과를 나타낸 일실시예 도면이다. 도 1의 전송율 결정부(130)에서 주어지는 비트 율을 변화시킬 경우의 음질을 측정한 결과로, 0.8 kbits/s의 비율로 비트율을 변화시킨다. 이 때, 모든 비트율의 변화는 그 전 단계의 비트율을 포함하고, 본 발명에 따른 음성 부호화기의 음성 부호화 코어부(110)는 ITU-T G.729를 기반으로 수정된 9.5 kbits/s의 전송율을 갖는 대수적 코드여기 선형예측 부호화기(Algebraic Code-Excited Linear Prediction:ACELP)를 사용한다.
그리고, 음질의 측정은 객관적 척도의 하나인 ITU-T P.862(ITU-T Recommendation P.862, Perceptual evaluation of speech quality(PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs, Feb, 2001)를 사용하였다.
도 7에 도시된 바와 같이, 다중펄스 검색 방식 또는 이득 보상 방식의 결정 상태는 세번째 열에 나타나 있고, 0.8 kbits/s의 비트율 증가에 따라 음질은 0.013 MOS 증가하는 효과가 있다. 즉, 스케일러블한 비트율의 변화에 따른 점진적인 성능 향상을 볼 수 있다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다. 이러한 과정은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있으므로 더 이상 상세히 설명하지 않기로 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.
상기와 같은 본 발명은, VoIP 등의 음성 서비스에 있어서 전송율의 변화에 따른 점진적인 고품질 통화 서비스를 제공할 수 있고, 또한 사용자의 요구 및 비용에 따른 차별적인 음성 통화 품질을 제공할 수 있는 효과가 있다.

Claims (19)

  1. 삭제
  2. 음성 부호화 장치로서,
    입력 음성 신호로부터 음성의 포락선 정보와 여기신호를 분리 생성하기 위한 음성 부호화 코어부;
    전송 채널 용량에 따라 추가 가능한 비트수를 할당하기 위한 전송율 결정부; 및
    상기 추가 가능한 비트수를 기초로 상기 음성 부호화 코어부에서 표현하지 못한 잔차 여기신호를 다중 펄스 여기 부호화 방식과 이득 보상 방식 중 하나로 부호화하기 위한 임베디드 여기신호 부호화부
    를 포함하되,
    상기 임베디드 여기신호 부호화부는,
    상기 음성 부호화 코어부에서 부호화되지 않은 잔차 신호를 계산하기 위한 목적 신호 계산부;
    계산된 잔차 신호의 제곱오차를 최소화하는 다중 펄스의 위치와 부호를 결정하기 위한 다중 펄스 검색부;
    계산된 잔차 신호의 제곱오차를 최소화하는 이득 보상값을 결정하기 위한 이득 보상부; 및
    상기 다중 펄스 검색부 및 상기 이득 보상부의 최소 제곱오차에 근거하여 부호화 방식을 선택하는 여기신호 부호화 모델 선택부
    를 포함하는 음성 부호화 장치.
  3. 제 2 항에 있어서,
    상기 목적 신호 계산부는,
    상기 음성 부호화 코어부에서 결정된 적응 코드북 검색결과와 대수적 코드북 검색결과를 더한 후 선형예측 합성 필터링하고 그 신호를 원래 음성 신호에서 빼는 것을 특징으로 하는 음성 부호화 장치.
  4. 제 2 항에 있어서,
    상기 다중 펄스 검색부는,
    하기 수학식을 만족시키는 펄스 위치 pm과 그 펄스 위치에서의 펄스 부호 sm을 찾는 것을 특징으로 하는 음성 부호화 장치.
    [수학식]
    Figure 112005046423211-pat00012
    여기서,
    Figure 112005046423211-pat00013
    s(n)은 원래의 음성 신호,
    h(n)은 합성 필터의 임펄스 응답.
  5. 제 2 항에 있어서,
    상기 이득 보상부는,
    하기 수학식을 만족시키는 이득 보상값 gm을 찾는 것을 특징으로 하는 음성 부호화 장치.
    [수학식]
    Figure 112005046423211-pat00014
    여기서,
    Figure 112005046423211-pat00015
    s(n)은 원래의 음성 신호,
    h(n)은 합성 필터의 임펄스 응답.
  6. 제 2 항에 있어서,
    상기 여기신호 부호화 모델 선택부는,
    상기 다중 펄스 검색부에서 계산된 최소 제곱오차가 상기 이득 보상부에서 계산된 최소 제곱오차보다 큰 경우 다중 펄스의 위치 및 그 펄스 위치에서의 펄스 부호를 양자화하고, 상기 이득 보상부에서 계산된 최소 제곱오차가 상기 다중 펄스 검색부에서 계산된 최소 제곱오차보다 큰 경우 이득 보상값을 양자화하는 것을 특징으로 하는 음성 부호화 장치.
  7. 삭제
  8. 삭제
  9. 음성 복호화 장치로서,
    적응 코드북 검색결과와 대수적 코드북 검색결과를 이용하여 음성의 기본적인 여기신호를 복호화하기 위한 여기신호 재생부;
    임베디드 형태로 추가된 비트 스트림으로부터 여기신호를 복호화하기 위한 임베디드 여기신호 재생부; 및
    상기 여기신호 재생부에서 복호화된 여기신호와 상기 임베디드 여기신호 재생부에서 복호화된 여기신호를 선형예측 합성 필터링하여 음성 신호를 복원하기 위한 선형예측 합성 필터부
    를 포함하되,
    상기 임베디드 여기신호 재생부는,
    양자화되어 전송된 여기 코드북 이득값을 이용하여 여기신호를 복호화하는
    음성 복호화 장치.
  10. 삭제
  11. 음성 부호화 방법으로서,
    기존 음성 부호화기를 통해 음성 신호를 모델링하는 단계; 및
    기존 음성 부호화기를 통해 부호화되지 않은 음성의 잔차 여기신호를 채널 전송율에 기초하여 다중 펄스 여기 부호화 방식과 이득 보상 방식 중 하나로 부호화하는 임베디드 여기신호 부호화 단계
    를 포함하되,
    상기 임베디드 여기신호 부호화 단계는,
    잔차 신호를 계산하는 목적신호 계산단계;
    계산된 잔차 신호의 제곱오차를 최소화하는 다중 펄스의 위치와 부호를 결정하는 다중펄스 검색단계;
    계산된 잔차 신호의 제곱오차를 최소화하는 이득 보상값을 결정하는 이득 보상단계; 및
    상기 최소 제곱오차에 근거하여 부호화 방식을 선택하는 여기신호 부호화 모델 선택단계
    를 포함하는 음성 부호화 방법.
  12. 제 11 항에 있어서,
    상기 목적신호 계산단계는,
    입력 음성 신호의 적응 코드북 검색결과와 대수적 코드북 검색결과를 더한 후 선형예측 합성 필터링하고 그 신호를 원래 음성 신호에서 빼는 것을 특징으로 하는 음성 부호화 방법.
  13. 제 11 항에 있어서,
    상기 다중 펄스 검색단계는,
    하기 수학식을 만족시키는 펄스 위치 pm과 그 펄스 위치에서의 펄스 부호 sm을 찾는 것을 특징으로 하는 음성 부호화 방법.
    [수학식]
    Figure 112005046423211-pat00016
    여기서,
    Figure 112005046423211-pat00017
    s(n)은 원래의 음성 신호,
    h(n)은 합성 필터의 임펄스 응답이다.
  14. 제 11 항에 있어서,
    상기 이득 보상단계는,
    하기 수학식을 만족시키는 이득 보상값 gm을 찾는 것을 특징으로 하는 음성 부호화 방법.
    [수학식]
    Figure 112005046423211-pat00018
    여기서,
    Figure 112005046423211-pat00019
    s(n)은 원래의 음성 신호,
    h(n)은 합성 필터의 임펄스 응답이다.
  15. 제 13 항 또는 제 14 항에 있어서,
    다중펄스 검색 방식으로 여기신호가 모델링될 경우에는 대수적 코드북 여기신호를 하기 수학식의 (1)과 같이 갱신하고, 이득 보상 방식으로 여기신호의 이득을 보상할 경우에는 대수적 코드북 이득값을 하기 수학식의 (2)와 같이 갱신하여 임베디드 여기신호 부호화를 반복수행하는 단계
    를 더 포함하는 음성 부호화 방법.
    [수학식]
    Figure 112007021222572-pat00020
  16. 제 11에 있어서,
    상기 여기신호 부호화 모델 선택단계는,
    상기 다중펄스 검색단계에서 계산된 최소 제곱오차가 상기 이득 보상단계에서 계산된 최소 제곱오차보다 큰 경우 다중 펄스의 위치 및 그 펄스 위치에서의 펄스 부호를 양자화하고, 상기 이득 보상단계에서 계산된 최소 제곱오차가 상기 다중펄스 검색단계에서 계산된 최소 제곱오차보다 큰 경우 이득 보상값을 양자화하는 것을 특징으로 하는 음성 부호화 방법.
  17. 삭제
  18. 삭제
  19. 음성 복호화 방법으로서,
    적응 코드북 검색결과와 대수적 코드북 검색결과를 이용하여 음성의 기본적인 여기신호를 복호화하는 여기신호 재생단계;
    임베디드 형태로 추가된 비트 스트림으로부터 여기신호를 복호화하는 임베디드 여기신호 재생단계; 및
    상기 여기신호 재생단계에서 복호화된 여기신호와 상기 임베디드 여기신호 재생단계에서 복호화된 여기신호를 선형예측 합성 필터링하여 음성 신호를 복원하는 선형예측 합성 필터링단계
    를 포함하되,
    상기 임베디드 여기신호 재생단계는,
    양자화되어 전송된 여기 코드북 이득값을 이용하여 여기신호를 복호화하는
    음성 복호화 방법.
KR1020050077355A 2004-12-08 2005-08-23 임베디드 코드여기 선형예측 음성 부호화/복호화 장치 및그 방법 KR100745721B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US11/297,686 US8265929B2 (en) 2004-12-08 2005-12-07 Embedded code-excited linear prediction speech coding and decoding apparatus and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040103156 2004-12-08
KR20040103156 2004-12-08

Publications (2)

Publication Number Publication Date
KR20060064498A KR20060064498A (ko) 2006-06-13
KR100745721B1 true KR100745721B1 (ko) 2007-08-03

Family

ID=37160049

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050077355A KR100745721B1 (ko) 2004-12-08 2005-08-23 임베디드 코드여기 선형예측 음성 부호화/복호화 장치 및그 방법

Country Status (1)

Country Link
KR (1) KR100745721B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101322392B1 (ko) 2006-06-16 2013-10-29 삼성전자주식회사 스케일러블 코덱의 부호화 및 복호화 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1188549A (ja) 1997-09-10 1999-03-30 Toyo Commun Equip Co Ltd 音声符号化/復号化装置
US6704703B2 (en) 2000-02-04 2004-03-09 Scansoft, Inc. Recursively excited linear prediction speech coder
US20040102963A1 (en) 2002-11-21 2004-05-27 Jin Li Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform
KR20050073561A (ko) * 2002-10-22 2005-07-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 매립된 데이터의 시그널링

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1188549A (ja) 1997-09-10 1999-03-30 Toyo Commun Equip Co Ltd 音声符号化/復号化装置
US6704703B2 (en) 2000-02-04 2004-03-09 Scansoft, Inc. Recursively excited linear prediction speech coder
KR20050073561A (ko) * 2002-10-22 2005-07-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 매립된 데이터의 시그널링
US20040102963A1 (en) 2002-11-21 2004-05-27 Jin Li Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform

Also Published As

Publication number Publication date
KR20060064498A (ko) 2006-06-13

Similar Documents

Publication Publication Date Title
EP1991986B1 (en) Methods and arrangements for audio coding
JP4213243B2 (ja) 音声符号化方法及び該方法を実施する装置
US7529663B2 (en) Method for flexible bit rate code vector generation and wideband vocoder employing the same
Hasegawa-Johnson et al. Speech coding: Fundamentals and applications
US8265929B2 (en) Embedded code-excited linear prediction speech coding and decoding apparatus and method
JPH10187196A (ja) 低ビットレートピッチ遅れコーダ
CN104517612B (zh) 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法
KR100499047B1 (ko) 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법
KR100480341B1 (ko) 광대역 저전송률 음성 신호의 부호화기
KR100745721B1 (ko) 임베디드 코드여기 선형예측 음성 부호화/복호화 장치 및그 방법
US7089180B2 (en) Method and device for coding speech in analysis-by-synthesis speech coders
Song et al. Harmonic enhancement in low bitrate audio coding using an efficient long-term predictor
KR100550003B1 (ko) 상호부호화기에서 개회로 피치 추정 방법 및 그 장치
Kim et al. An efficient transcoding algorithm for G. 723.1 and EVRC speech coders
US7472056B2 (en) Transcoder for speech codecs of different CELP type and method therefor
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
Sun et al. Speech compression
Drygajilo Speech Coding Techniques and Standards
Patel et al. Implementation and Performance Analysis of g. 723.1 speech codec
BAKIR Compressing English Speech Data with Hybrid Methods without Data Loss
JPH06130994A (ja) 音声符号化方法
Miki et al. Pitch synchronous innovation code excited linear prediction (PSI‐CELP)
Sahab et al. SPEECH CODING ALGORITHMS: LPC10, ADPCM, CELP AND VSELP
JPH08160996A (ja) 音声符号化装置
JPH05273999A (ja) 音声符号化方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20110711

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee