KR100540707B1 - 저비트율 씨이엘피용 펄스여기에 고주파 노이즈를도입하는 시스템 및 방법 - Google Patents

저비트율 씨이엘피용 펄스여기에 고주파 노이즈를도입하는 시스템 및 방법 Download PDF

Info

Publication number
KR100540707B1
KR100540707B1 KR1020037008926A KR20037008926A KR100540707B1 KR 100540707 B1 KR100540707 B1 KR 100540707B1 KR 1020037008926 A KR1020037008926 A KR 1020037008926A KR 20037008926 A KR20037008926 A KR 20037008926A KR 100540707 B1 KR100540707 B1 KR 100540707B1
Authority
KR
South Korea
Prior art keywords
codebook
output
noise
convolver
high frequency
Prior art date
Application number
KR1020037008926A
Other languages
English (en)
Other versions
KR20030076596A (ko
Inventor
양 가오
Original Assignee
코넥스안트 시스템스, 인코퍼레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코넥스안트 시스템스, 인코퍼레이티드 filed Critical 코넥스안트 시스템스, 인코퍼레이티드
Publication of KR20030076596A publication Critical patent/KR20030076596A/ko
Application granted granted Critical
Publication of KR100540707B1 publication Critical patent/KR100540707B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Manipulation Of Pulses (AREA)
  • Analogue/Digital Conversion (AREA)
  • Dc Digital Transmission (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

여기신호(P1, P2, P3)를 나타내는 펄스는 보통 임펄스로서 표현된다. 보다 양호한 품질의 사운드를 제공하기 위해 각각의 펄스에 고주파 노이즈가 부가될 것이다.

Description

저비트율 씨이엘피용 펄스여기에 고주파 노이즈를 도입하는 시스템 및 방법{INJECTION HIGH FREQUENCY NOISE INTO PULSE EXCITATION FOR LOW BIT RATE CELP}
발명의 배경
1. 관련출원의 상호참조
본 출원은 2000년 9월 15일자 가출원 제60/223,043호의 이익을 청구한다. 다음의 동시 계류중이고 공통으로 양도된 미국특허출원은 본 출원과 동일한 날에 출원되었다. 이들 모든 출원은 본 출원에 개시(開示)된 실시예의 다른 특징에 관한 것으로 이들을 추가로 기재하고 있으며, 참고로 완전한 형태로 포함되어 있다.
"선택가능한 모드 보코더 시스템(selectable mode vocoder system)"이란 명칭의 변리사 참조번호 : 98RSS365CIP(10508.4)의 미국특허출원 제_______호가 2000년 9월 15일자로 출원되었으며, 현재 미국특허번호 제_______호이다.
"CELP 음성코딩에 있어서의 단기 인헨스먼트(short term enhancement in CELP speech coding)"이란 명칭의 변리사 참조번호 : 00CXT0666N(10508.6)의 미국특허출원 제_______호가 2000년 9월 15일자로 출원되었으며, 현재 미국특허번호 제_______호이다.
"음성코딩에 있어서 펄스형 여기를 위한 동적 펄스위치 추적 시스템(system of dynamic pulse position tracks for pulse-like excitation in speech coding)" 이란 명칭의 변리사 참조번호 : 00CXT0573N(10508.7)의 미국특허출원 제_______호가 2000년 9월 15일자로 출원되었으며, 현재 미국특허번호 제_______호이다.
"타임 도메인 노이즈 감쇠를 갖는 음성 코딩 시스템(speech coding system with time-domain noise attenuation)"이란 명칭의 변리사 참조번호 : 00CXT0554N(10508.8)의 미국특허출원 제_______호가 2000년 9월 15일자로 출원되었으며, 현재 미국특허번호 제_______호이다.
"음성코딩을 위한 어댑티브 여기패턴용 시스템(system for an adaptive excitation pattern for speech coding)"이란 명칭의 변리사 참조번호 : 98RSS366(10508.9)의 미국특허출원 제_______호가 2000년 9월 15일자로 출원되었으며, 현재 미국특허번호 제_______호이다.
"상이한 해상레벨을 갖는 어댑티브 코드북을 이용하여 음성정보를 인코딩하는 시스템(system for encoding speech information using an adaptive codebook with different resolution levels)"이란 명칭의 변리사 참조번호 : 00CXT0670N(10508.13)의 미국특허출원 제_______호가 2000년 9월 15일자로 출원되었으며, 현재 미국특허번호 제_______호이다.
"인코딩과 디코딩을 위한 코드북 테이블(codebook tables for encoding and decoding)"이란 명칭의 변리사 참조번호 : 00CXT0669N(10508.14)의 미국특허출원 제_______호가 2000년 9월 15일자로 출원되었으며, 현재 미국특허번호 제_______호이다.
"인코딩된 음성신호의 전송을 위한 비트 스트림 프로토콜(bit stream protocol for transmission of encoded voice signals)"이란 명칭의 변리사 참조번호 : 00CXT0668N(10508.15)의 미국특허출원 제_______호가 2000년 9월 15일자로 출원되었으며, 현재 미국특허번호 제_______호이다.
"음성 인코딩을 위한 신호의 스펙트럼 콘텐트를 필터링하는 시스템(system for filtering spectral content of a signal for speech encoding)"이란 명칭의 변리사 참조번호 : 00CXT0667N(10508.16)의 미국특허출원 제_______호가 2000년 9월 15일자로 출원되었으며, 현재 미국특허번호 제_______호이다.
"음성신호를 인코딩 및 디코딩하는 시스템(system for encoding and decoding speech signals)"이란 명칭의 변리사 참조번호 : 00CXT0665N(10508.75)의 미국특허출원 제_______호가 2000년 9월 15일자로 출원되었으며, 현재 미국특허번호 제_______호이다.
"어댑티브 프레임 배열을 갖는 음성인코딩용 시스템(system for speech encoding having an adaptive frame arrangement)"이란 명칭의 변리사 참조번호 : 98RSS384CIP(10508.18)의 미국특허출원 제_______호가 2000년 9월 15일자로 출원되었으며, 현재 미국특허번호 제_______호이다.
"서브 코드북으로 피치 강화 개선된 사용을 위한 시스템인(system for improved use of pitch enhancement with sub codebooks)"이란 명칭의 변리사 참조번호 : 00CXT0569N(10508.19)의 미국특허출원 제_______호가 2000년 9월 15일자로 출원되었으며, 현재 미국특허번호 제_______호이다.
본 발명은 음성코딩에 관한 것으로, 보다 구체적으로는 디지털 처리된 음성의 지각적 품질을 향상시키는 시스템에 관한 것이다.
음성합성은 유성음과 무성음을 디지털 신호로 변환하는 것을 종종 필요로 하는 복합처리이다. 어떤 사운드를 모델화하기 위해서는 그 사운드가 샘플링되고 이산열(discrete sequence)로 인코딩된다. 사운드를 표현하기 위해 사용되는 비트의 수는 합성된 사운드 또는 음성의 지각적 품질을 결정할 수 있다. 조악한 품질의 복제품은 노이즈를 갖는 목소리를 들리지 않게 하거나, 명확성을 잃게 하거나, 또는 억양, 톤(tone), 피치 또는 인접한 사운드를 생성할 수 있는 연결발음(co-articulation)을 포착하는데 실패하게 한다.
코드여기 선형 예측 코딩(CELP: Code Excited Linear Predictive Coding)으로 알려진 음성합성의 기술에서 사운드 트랙은 디지털 처리되기 전에 이산파형(discrete waveform)으로 샘플링된다. 그리고 이산파형은 어떤 선택된 기준에 따라 분석된다. 노이즈 콘텐트의 정도와 목소리 콘텐트의 정도 등과 같은 기준은 실지로 지연된 시간 내에 선형함수를 통해 음성을 모델화하기 위해 사용될 수 있다. 이들 선형함수는 정보를 포착할 수 있으며, 장래의 파형을 예측할 수 있다.
CELP 코더(coder)의 구조는 고품질의 재구성된 음성을 생성할 수 있다. 그러나 코더의 품질은 그 비트율이 감축되면 빠르게 저하할 수 있다. 높은 코더 품질을 4Kbps 등의 저비트율로 유지하기 위해서는 추가적인 방법이 개발되어야 한다. 본 발명은 유성음의 효율적 코딩시스템과, 유성음의 지각적으로 중요한 특징을 정확하 게 인코드하고 디코딩하는 방법을 제공하기 위한 것이다.
발명의 개요
본 발명은 유성음의 지각적으로 중요한 특징의 인코딩 및 디코딩을 이음매 없이 향상시키는 시스템에 관한 것이다. 이 시스템은 고주파에서 유성음의 지각적 품질을 향상시키기 위해 수정된 펄스여기를 사용한다. 이 시스템은 펄스 코드북, 노이즈 소스 및 필터를 포함한다. 필터는 노이즈 소스의 출력을 펄스 코드북에 연결한다. 노이즈 소스는 고역필터에 의해 필터링되는 가우스 화이트 노이즈(Gaussian white noise) 등의 화이트 노이즈를 생성할 수 있다. 필터의 통과대역은 화이트 가우스 노이즈의 선택된 부분을 통과한다. 필터링된 노이즈는 스케일되고(scaled) 윈도우화된(windowed) 후 단일펄스로 합해져 펄스 코드북의 출력과 서로 얽혀지는 임펄스 응답을 생성한다.
본 발명의 다른 특징에서는 어댑티브 고주파 노이즈가 펄스 코드북의 출력에 도입된다. 어댑티브 노이즈의 크기는 음성신호의 고주파 부분 내의 콘텐트와 같은 노이즈의 정도, 사운드 트랙내의 유성음 콘텐트의 정도, 사운드 트랙내의 무성음 콘텐트의 정도, 사운드 트랙의 에너지, 사운드 트랙내의 주기성의 정도 등과 같은 선택가능한 기준에 기초한다. 이 시스템은 하나 이상의 선택된 기준을 목표로 하는 상이한 에너지 또는 노이즈 레벨을 생성한다. 바람직하게는 노이즈 레벨 모델은 음성 세그먼트의 하나 이상의 중요한 지각적 특징을 모델화한다.
본 발명의 다른 시스템, 방법, 특징 및 이점은 다음의 특징 및 상세한 설명을 검토하면 당업자에게 분명하게 될 것이다. 이러한 모든 부가적 시스템, 방법, 특징 및 이점은 이 설명에 포함되며 본 발명의 범위 내에 포함되고 첨부의 청구범위에 의해 보호된다.
도면에서 구성요소는 본 발명의 원리를 설명할 때 정확한 위치를 나타내는 대신에 축척으로 표시하거나 강조하기 위한 것으로 필연적인 것은 아니다. 또한 도면에서 유사한 참조번호는 다른 도면에서 대응하는 부분을 나타낸다.
도 1은 확장 코드 여기 선형 예측 시스템에 내장될 수 있는 음성통신 시스템의 부분 블록도
도 2는 도 1의 고정 코드북을 도시한 도면
도 3은 타임 도메인에서 도 1의 고정 코드북의 펄스의 일부를 도시한 단면도
도 4는 주파수-도메인에서 도 3의 제 1 펄스 P₁의 임펄스 반응을 도시한 도면
도 5는 타임-도메인에서 도 3의 펄스 여기상태에 수정된 고주파 노이즈를 도입시키는 것을 도시한 도면
도 6은 도 1의 인헨스먼트(enhancement)의 흐름도
도 7은 도 1의 인헨스먼트의 이산 실행을 도시한 도면
도 1, 도 2 및 도 6에 도시된 점선은 직접 및 간접 연결을 표현한 것이다. 도 2에 도시된 바와 같이, 고정 코드북(102)은 하나 또는 그 이상의 서브 코드북을 포함할 수 있다. 마찬가지로 도 6의 점선은 도시된 각 단계 이전 또는 이후에 다른 작용이 발생할 수 있다는 것을 표시한 것이다.
펄스 여기(pulse excitation)는 일반적으로 유성음의 경우 통상적인 노이즈 여기보다 우수한 음성 품질을 발생시킬 수 있다. 펄스 여기는 저주파에서 유성음의 준주기성 타임-도메인 신호(quasi-periodic time-domain signal)를 탐지한다. 그러나 고주파에서 저비트율 펄스 여기는 종종 유성음에 수반되는 지각적 "노이즈 효과(noise effect)"를 탐지하지 못한다. 이는 예를들면 펄스 여기가 유성음의 주기성뿐만 아니라 고주파에서 발생하는 "노이즈 효과"도 탐지해야 하는 4 Kbps 또는 그 이하의 저비트율에서 특히 문제가 된다.
도 1은 확장 코드 여기 선형 예측 시스템(eX-CELPS)으로서 알려진 코드 여기 선형 예측 시스템(CELPS)의 한 변형에 포함될 수 있는 음성통신 시스템(100)의 부분 블록도이다. 개념상으로 eX-CELP는 청취자에 의해 인식되지 않는 청각적 특징은 중요시하지 않는 반면 샘플화된 입력 신호(즉, 유성음 신호)의 지각적으로 중요한 특징은 강조함으로써 저비트율에서 톨 품질(toll quality)을 달성한다. 본 실시예는 선형 예측 기술을 이용하여 어떠한 음성 샘플도 나타낼 수 있다. 어떤 순간(n)에서의 음성의 단시간 예측(s)은 수학식 1에 의해 표현될 수 있다.
Figure 112003023986791-pct00001
이식에서 a₁, a₂… ap는 선형 예측 코딩(LPC) 계수이고 p는 선형 예측 코딩 차수이다. 음성 샘플과 예측 음성 샘플간의 차는 음성 신호와 유사한 주기성 s(n)를 갖는 예측 잉여(prediction residual) r(n)로 알려져 있다. 예측 잉여(r(n))는 다음과 같이 나타낼 수 있다.
Figure 112003023986791-pct00002
상기 식을 다시 쓰면 다음과 같다.
Figure 112003023986791-pct00003
수학식 3에 보다 가까운 예는 현 음성 샘플이 예측 부분
Figure 112003023986791-pct00004
과 쇄신 부분(innovative portion) r(n)으로 분류될 수 있다는 것을 보여준다. 일부 경우 코드화된 쇄신 부분은 여기 신호 또는 e(n)(106)으로 불려 진다. 신디사이저 또는 합성 필터(108)에 의한 여기 신호 e(n)의 필터링은 재구성된 음성 신호 s'(n) (110)을 생성한다.
유성음 및 무성음 세그먼트가 정확하게 재생된다는 것을 확실하게 하기 위해, 여기 신호 e(n)(106)은 어댑티브 코드북(112)과 고정 코드북(102)으로부터 나온 출력의 선형 조합을 통해 형성된다. 이 어댑티브 코드북(112)은 음성 신호 s(n)의 주기성을 나타내는 신호를 생성시킨다. 본 실시예에서 어댑티브 코드북(112)의 콘텐트는 이미 재구성된 여기 신호 e(n)(106)로부터 형성된다. 이 신호는 인접하는 서브프레임내에 있는 사전 샘플링된 신호의 선택가능한 범위의 콘텐트를 반복한다. 현 서브프레임과 이전 인접 서브프레임 사이에 존재하는 높은 상관관계로 인해, 어댑티브 코드북(112)은 선택된 인접 서브프레임을 통해 신호를 탐지하고, 이러한 사전 샘플링된 신호를 이용하여 현 여기 신호 e(n)(106)의 일부 또는 전부를 발생시 킨다.
여기 신호 e(n)(106)의 일부 또는 전부를 발생시키는데 사용되는 제 2 코드북은 고정 코드북(102)이다. 고정 코드북은 주로 여기 신호 e(n)(106)의 비예측 또는 비주기성 부분을 제공한다. 이러한 역할은 어댑티브 코드북(112)이 비주기성 신호를 효과적으로 모델화할 수 없을 때 음성 신호 s(n)의 근사치를 향상시킨다. 예를들면, 유성음에서 급격한 주파수의 변화 때문에 또는 일시적인 잡음류의 신호가 유성음을 방해하기 때문에 잡음류 또는 비주기성 신호가 사운드 트랙에 존재하는 경우, 고정 코드북(102)은 어댑티브 코드북(112)에 의해 포착될 수 없는 이러한 비주기성 신호를 가장 근사치로 생성시킨다.
본 실시예에서 사용되는 코드북의 선택 목적은 현 음성 세그먼트의 지각적으로 중요한 특징에 가장 가깝게 접근하는 여기를 생성시키기 위한 것이다. 이러한 목적을 보다 잘 달성하기 위해서, 본 실시예에서는 코드북을 여러 개의 서브 코드북으로 구성하는 모듈 코드북 구조가 사용된다. 고정 코드북(102)은 도 2에 도시된 바와 같이 최소한 3개의 서브 코드북(202 - 206)으로 구성되는 것이 바람직하다. 두 개의 고정 서브 코드북은 2-펄스 서브 코드북 및 3-펄스 코드북과 같은 펄스 코드북(202 및 204)이다. 제 3 코드북(206)은 가우스 코드북 또는 고펄스 서브 코드북일 수 있다. 또한 코드화 정도는 코드북을 세밀하게 구별지으며, 특히 주어진 서브 코드북에 사용되는 수를 한정하는 것이 바람직하다. 예를들면 본 발명의 실시예에서, 음성 코딩 시스템은 "주기성"과 "비주기성" 프레임을 구별지으며 전비율, 1/2비율 및 1/8비율 코딩을 사용한다. 표 1은 "비주기성 프레임"에 사용될 수 있는 여러 가지 고정 서브 코드북 사이즈 중 하나를 예시한 것으로 예를들어 피치 상관관계 및 피치 지연 등과 같은 전형적인 변수는 신속하게 변할 수 있다.
비주기성 프레임용 고정 코드북 비트 할당
SMV¹코딩 비율 서브 코드북 사이즈
전비율 코딩 5-펄스(CB1) 221
5-펄스(CB2) 220
5-펄스(CB3) 220
1/2 비율 코딩 2-펄스(CB1) 214
3-펄스(CB2) 213
가우스(CB3) 213
¹선택가능한 모드 보코더
"주기성 프레임"에서, 주기성이 높은 신호가 매끄러운 피치 트랙과 함께 지각적으로 잘 나타내어지는 경우, 고정 서브 코드북의 형태 및 사이즈는 "비주기성 프레임"에 사용되는 고정 코드북과 다르게 변화될 수 있다. 표 2는 "주기성 프레임"에 사용될 수 있는 여러 가지 고정 서브 코드북 사이즈 중 하나를 예시한 것이다.
주기성 프레임용 고정 코드북 비트 할당
SMV 코딩 비율 서브 코드북 사이즈
전비율 코딩 8-펄스(CB1) 230
1/2비율 코딩 2-펄스(CB1) 212
3-펄스(CB2) 211
5-펄스(CB3) 211
선택성 모드 보코더(SMV)에 사용될 수 있는 고정 코드북의 기타 자세한 사항 은 앞서 참고문헌으로 소개된 "음성 신호 인코딩 및 디코딩 시스템"(Yang Gao, Adil Beyassine, Jes Thyssen, Eyal Shlomot, Huan-yu Su)이라는 제목의 동시 계류중인 특허 출원서에 기술되어 있다.
가장 우수한 출력 신호를 획득하는 고정 서브 코드북의 조사에 이어 모델화된 신호의 지각적 품질을 향상시키기 위해서, 인헨스먼트(enhancement) h1이 펄스 서브 코드북의 출력과 함께 컨볼루트된다(convoluted). 이러한 인헨스먼트는 음성 세그먼트의 선택 특징을 탐지하는 것이 바람직하며 서브 프레임에서 서브 프레임까지 계산된다. 제 1 인헨스먼트 h1은 펄스 서브 프레임으로부터 생겨난 펄스 출력에 고주파 노이즈를 도입함으로써 유도된다. 고주파 인헨스먼트 h1은 일반적으로 펄스 서브 코드북에서만 실행되고 가우스 서브 코드북에서는 실행되지 않는다.
도 3은 고정 펄스 코드북의 예시 출력 Yp(n)를 도시한 것이다. 설명을 단순화시키기 위해서, 단일 서브프레임에 단지 3개의 출력 펄스 P1, P2, 및 P3 (302 - 306)을 도시하였다. 물론 당일 또는 다수의 서브프레임에 어떠한 수의 펄스 Pn도 인헨스될 수 있다. 3개의 출력 펄스 P1, P2, 및 P3 (302 - 306)은 예시된 시간 간격이 5 - 10 밀리초 사이인 서브프레임내에 위치한다. 주파수-도메인의 경우, 펄스 P1, P2, 및 P3 (302 - 306)은 균일한 크기를 가지며 이후 직선상태로 된다(주파수-도메인 에서의 P1의 크기 및 상태는 도 4에 도시되어 있다). 인헨스먼트 h1의 경우, P1 , P2, 및 P3을 h1(n)과 컨볼루트시킴으로써 P1, P2, 및 P3 (302 - 306)에 타임-도메인 고주파 노이즈 신호를 추가할 수 있다. 컨볼루션(convolution)의 생성물은 도 5에 도시되어 있다.
도 6은 재구성된 음성 신호 s'(n)의 지각적 품질을 향상시키기 위해 어떠한 펄스 코드북의 여기 출력과도 컨볼루트될 수 있는 인헨스먼트 h1의 흐름도이다. 단계 602에서, 노이즈 소스는 화이트 가우스 노이즈 X(n)를 발생시킨다. 화이트 가우스 노이즈는 주파수-도메인에서 기본적으로 균일한 크기를 가지는 것이 바람직하다. 단계 604에서, 화이트 가우스 노이즈 X(n)는 고역 필터에 의해 필터링될 수 있다. 고역 필터의 차단 주파수는 음성 세그먼트 s(n)의 바람직한 지각적 품질에 의해 한정될 수 있다. 단계 606에서, 필터링된 노이즈 Xh(n)는 다른 실시예에서는 고정 또는 어댑티브 이득율이 될 수도 있는 프로그래머블 이득율 gn에 의해 기준화된다. 단계 608에서, 노이즈 Xh(n)·gn는 샘플 w(i)의 길이 L의 평활 윈도우 W(n)(예를들면 하프 해밍 윈도우)로 윈도우화될 수 있다. 윈도우 W(n)는 노이즈 Xh(n)·gn를 h1(n)의 길이로 감쇠시키는 것이 바람직하다. 단계 610 및 612에서, 수정된 노이즈는 도 5 와 수학식 4 및 5에 예시된 바와 같이 펄스 서브 코드북의 출력 Yp(n)으로 도입된다. 수학식 4의 n의 델타, δ(n)는 n=0에서 값이 1이고, n이 다른 모든 값일 경우(즉, n≠0) 값이 제로인 단일 유니트 펄스인 것이 바람직하다.
Figure 112003023986791-pct00005
Figure 112003023986791-pct00006
물론, 제 1 인헨스먼트 h1 또한 예를들면 디지털 컨트롤러(즉, 디지털 신호 프로세서), 하나 또는 그 이상의 인헨스먼트 회로, 하나 또는 그 이상의 디지털 필터 또는 또 다른 별개의 회로소자로 구성되는 적어도 두 개의 포트 또는 장치(702)를 구비한 컨볼버(convolver)를 통해 개별-도메인에서 이행될 수 있다. 도 7에 도시된 이러한 이행은 다음과 같이 표현될 수 있다.
Figure 112003023986791-pct00007
상술한 설명으로부터 펄스 출력의 발생 이전에 펄스 코드북의 출력에 쇠퇴하는 노이즈(decaying noise)를 첨가할 수도 있다는 것이 명백하다. 메모리는 하나 이상의 이전 서브프레임의 인헨스먼트 h1을 보유하는 것이 바람직하다. h1이 펄스의 발생 이전에 생기지 않는 경우, 펄스 출력의 발생 이전에 선택된 이전의 h1을 펄스 코드북과 컨볼루트시킬 수 있다.
본 발명은 특정 코딩 기술에 국한되지 않는다. 코드 여기 선형 예측 시스템(CELP) 및 대수 코드 여기 선형 예측 시스템(ACELP)을 포함한 어떠한 지각적 코딩 기술도 사용될 수 있다. 또한 본 발명은 인코더에서 이용되는 폐로 서치에 국한되지 않는다. 본 발명은 또한 디코더에서 펄스 처리 방법으로서 이용될 수 있다. 또한 인헨스먼트 h1은 펄스 서브 코드북의 서치 이전에 합성 필터 또는 서브 코드북 내에 도입될 수도 있고 이와 단일체로 만들어질 수도 있다.
또한 다른 많은 대체방법도 가능하다. 예를들면 노이즈 에너지는 고정되거나 적응될(adaptive) 수 있다. 어댑티브 노이즈 실시예에서, 본 발명은 예를들어 유성음의 고주파 부분 내에서의 노이즈류 콘텐트의 정도, 사운드 트랙에서의 유성음 콘텐트의 정도, 사운드 트랙에서의 무성음 콘텐트의 정도, 사운드 트랙에서의 에너지 콘텐트, 사운드 트랙에서의 주기성의 정도 등을 포함하는 서로 다른 기준을 사용하여 유성음을 구별화시킬 수 있으며, 하나 또는 그 이상의 선택된 기준을 목표로 하는 서로 다른 에너지 또는 노이즈를 발생시킬 수 있다. 노이즈 정도는 음성 세그먼트의 하나 또는 그 이상의 중요한 지각적 특징을 모델링하는 것이 바람직하다.
본 발명은 유성음의 지각적으로 중요한 특징의 인코딩 및 디코딩을 이음매 없이 향상시키는 시스템 및 그 방법에 관한 것이다. 고주파 노이즈를 여기상태에 이음매 없이 가함으로써 청취자가 고주파 범위에서 기대할 수 있는 높은 지각적 품질의 사운드를 향상시킨다. 본 발명은 후처리 기술에 적용될 수 있으며 인코더, 디코더 및 코덱(codec)내에 통합되거나 이와 단일체로 만들어질 수 있다.
본 발명의 다양한 실시예들이 기술되어 있으나, 본 발명의 범위내에서 보다 많은 실시예 및 응용이 당업자에게 가능하다는 것이 명백해질 것이다. 따라서 본 발명은 첨부된 청구범위와 그 균등물의 관점에서 생각할 때를 제외하고는 제한적이 지 않다.

Claims (34)

  1. 음성여기 세그먼트의 특징을 나타내는 제 1 코드북과;
    음성여기 세그먼트의 특징을 나타내는 제 2 코드북과;
    상기 제 2 코드북의 출력에 전기적으로 접속되는 컨볼버(convolver)와;
    상기 컨볼버의 출력과 상기 제 1 코드북의 출력에 전기적으로 접속되는 신시사이저를 포함하며, 상기 컨볼버는 고주파 노이즈를 유성음 세그먼트에 대한 상기 제 2코드북의 출력에 도입하도록 구성되는 것을 특징으로 하는 음성통신 시스템.
  2. 음성여기 세그먼트의 특징을 나타내는 제 1 코드북과;
    음성여기 세그먼트의 특징을 나타내는 제 2 코드북과;
    상기 제 2 코드북의 출력에 접속되는 컨볼버(convolver)와;
    상기 컨볼버의 출력과 상기 제 1 코드북의 출력에 접속되는 신시사이저를 포함하며, 상기 컨볼버는 고주파 노이즈를 유성음 세그먼트에 대한 상기 제 2코드북의 출력에 도입하도록 구성되는 것을 특징으로 하는 음성통신 시스템.
  3. 제 2 항에 있어서,
    상기 제 1 코드북은 어댑티브 코드북(adaptive codebook)을 포함하는 것을 특징으로 하는 음성통신 시스템.
  4. 제 2 항에 있어서,
    상기 제 2 코드북은 고정 코드북(fixed codebook)을 포함하는 것을 특징으로 하는 음성통신 시스템.
  5. 제 2 항에 있어서,
    상기 컨볼버는 2개의 신호를 컨볼브(convolve)하도록 구성되는 적어도 2-포트 디바이스를 포함하는 것을 특징으로 하는 음성통신 시스템.
  6. 제 2 항에 있어서,
    상기 컨볼버는 화이트 노이즈 소스(white noise source)에 접속되는 고역필터(high pass filter)를 포함하며, 상기 고역필터는 생성된 화이트 노이즈의 고주파부를 통과하도록 구성되는 것을 특징으로 하는 음성통신 시스템.
  7. 제 2 항에 있어서,
    상기 컨볼버는 상기 제 2 코드북에 의해 생성된 출력신호와 수정된 노이즈를 포함하는 임펄스 응답(impulsive response)을 컨볼브하도록 구성되는 것을 특징으로 하는 음성통신 시스템.
  8. 제 2 항에 있어서,
    상기 신시사이저는 합성필터를 포함하는 것을 특징으로 하는 음성통신 시스 템.
  9. 제 2 항에 있어서,
    스칼라(scalar) gc를 추가로 포함하며, 상기 컨볼버는 상기 제 2 코드북의 출력과 상기 스칼라 gc의 입력에 접속되는 것을 특징으로 하는 음성통신 시스템.
  10. 제 2 항에 있어서,
    코드 여기 선형 예측시스템(Code Excited Linear Prediction System)을 포함하는 것을 특징으로 하는 음성통신 시스템.
  11. 제 2 항에 있어서,
    확장 코드 여기 선형 예측시스템(eXtended Code Excited Linear Prediction System)을 포함하는 것을 특징으로 하는 음성통신 시스템.
  12. 제 2 항에 있어서,
    상기 컨볼버는 화이트 노이즈 소스를 포함하는 것을 특징으로 하는 음성통신 시스템.
  13. 제 2 항에 있어서,
    상기 컨볼버는 고주파 노이즈를 펄스 코드북의 출력에 도입하는 것을 특징으 로 하는 음성통신 시스템.
  14. 제 2 항에 있어서,
    상기 컨볼버는 수정된 화이트 노이즈를 상기 제 2 코드북의 출력에 도입하도록 구성되는 것을 특징으로 하는 음성통신 시스템.
  15. 제 14 항에 있어서,
    상기 컨볼버는 상기 수정된 화이트 노이즈를 도입하도록 구성된 인헨스먼트 회로(enhancement circuit)를 포함하는 것을 특징으로 하는 음성통신 시스템.
  16. 제 2 항에 있어서,
    상기 노이즈는 어댑티브 노이즈를 포함하는 것을 특징으로 하는 음성통신 시스템.
  17. 제 2 항에 있어서,
    상기 노이즈는 고정 노이즈를 포함하는 것을 특징으로 하는 음성통신 시스템.
  18. 제 2 항에 있어서,
    상기 제 1 코드북, 제 2 코드북, 컨볼버 및 신시사이저는 인코더와 디코더의 적어도 하나에 구비되는 것을 특징으로 하는 음성통신 시스템.
  19. 음성 세그먼트의 특징을 나타내는 고정 코드북과;
    음성 세그먼트의 특징을 나타내는 어댑티브 코드북과;
    유성음 세그먼트에 대한 상기 고정코드북의 출력에 고주파 노이즈를 도입하도록 구성된 도입수단과;
    상기 도입수단의 출력에 접속된 합성필터를 포함하는 것을 특징으로 하는 음성코딩 시스템.
  20. 제 19 항에 있어서,
    상기 도입수단은 윈도우 고주파 노이즈(windowed high frequency noise)를 컨볼브하는 것을 특징으로 하는 음성코딩 시스템.
  21. 제 19 항에 있어서,
    상기 도입수단은 필터를 포함하는 것을 특징으로 하는 음성코딩 시스템.
  22. 제 19 항에 있어서,
    상기 도입수단은 고역필터를 포함하는 것을 특징으로 하는 음성코딩 시스템.
  23. 제 19 항에 있어서,
    상기 도입수단은 컨볼버를 포함하는 것을 특징으로 하는 음성코딩 시스템.
  24. 제 19 항에 있어서,
    상기 도입수단은 상기 고정코드북의 출력과 합성회로의 입력에 접속되는 것을 특징으로 하는 음성코딩 시스템.
  25. 제 19 항에 있어서,
    상기 도입수단과 고정 코드북은 단일 디바이스인 것을 특징으로 하는 음성코딩 시스템.
  26. 제 19 항에 있어서,
    상기 도입수단과 합성필터는 단일 디바이스인 것을 특징으로 하는 음성코딩 시스템.
  27. 음성코딩을 향상시키는 방법에 있어서,
    제 1 코드북으로부터의 출력을 선택함으로써 제 1 여기신호를 형성하는 단계와;
    제 2 코드북으로부터의 출력을 선택함으로써 제 2 여기신호를 형성하는 단계와;
    쇠퇴하는 고주파 노이즈를 생성하는 단계와;
    상기 고주파 노이즈와 유성음 세그먼트에 대한 제 2 여기신호를 결합하여 제 3 여기신호를 생성하는 단계와;
    상기 제 1 여기신호와 상기 제 3 여기신호를 결합하여 음성 세그먼트를 발생하는 제 4 여기신호를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  28. 제 27 항에 있어서,
    상기 제 2 코드북은 펄스 코드북을 포함하는 것을 특징으로 하는 방법.
  29. 제 27 항에 있어서,
    상기 제 4 여기신호를 합성필터로 필터링하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
  30. 제 27 항에 있어서,
    상기 결합단계는 컨볼브하는 단계를 포함하는 것을 특징으로 하는 방법.
  31. 제 27 항에 있어서,
    상기 쇠퇴 고주파 노이즈를 생성하는 단계는 화이트 노이즈를 생성하는 단계, 상기 화이트 노이즈를 고역필터로 필터링하는 단계, 및 상기 필터링된 노이즈를 평활 윈도우(smooth window)로 윈도잉하는 것을 특징으로 하는 방법.
  32. 제 31 항에 있어서,
    상기 윈도우는 프로그래머블 윈도우(programmable window)를 포함하는 것을 특징으로 하는 방법.
  33. 제 28 항에 있어서,
    상기 펄스코드북은 고정 펄스 코드북을 포함하고, 상기 제 1 코드북은 어댑티브 코드북을 포함하는 것을 특징으로 하는 방법.
  34. 제 33 항에 있어서,
    상기 제 4 여기신호를 합성필터로 필터링하는 하는 단계를 추가로 포함하는 것을 특징으로 하는 방법.
KR1020037008926A 2001-01-05 2001-12-10 저비트율 씨이엘피용 펄스여기에 고주파 노이즈를도입하는 시스템 및 방법 KR100540707B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/755,441 US6529867B2 (en) 2000-09-15 2001-01-05 Injecting high frequency noise into pulse excitation for low bit rate CELP
US09/755,441 2001-01-05
PCT/US2001/046778 WO2002054380A2 (en) 2001-01-05 2001-12-10 Injection high frequency noise into pulse excitation for low bit rate celp

Publications (2)

Publication Number Publication Date
KR20030076596A KR20030076596A (ko) 2003-09-26
KR100540707B1 true KR100540707B1 (ko) 2006-01-11

Family

ID=25039175

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037008926A KR100540707B1 (ko) 2001-01-05 2001-12-10 저비트율 씨이엘피용 펄스여기에 고주파 노이즈를도입하는 시스템 및 방법

Country Status (7)

Country Link
US (1) US6529867B2 (ko)
EP (2) EP1892701A1 (ko)
KR (1) KR100540707B1 (ko)
CN (2) CN100399420C (ko)
AT (1) ATE555471T1 (ko)
AU (1) AU2002225953A1 (ko)
WO (1) WO2002054380A2 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
KR100707173B1 (ko) * 2004-12-21 2007-04-13 삼성전자주식회사 저비트율 부호화/복호화방법 및 장치
CN104584123B (zh) * 2012-08-29 2018-02-13 日本电信电话株式会社 解码方法、以及解码装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5699477A (en) * 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
SE506379C3 (sv) * 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5692102A (en) * 1995-10-26 1997-11-25 Motorola, Inc. Method device and system for an efficient noise injection process for low bitrate audio compression
DE69730779T2 (de) * 1996-06-19 2005-02-10 Texas Instruments Inc., Dallas Verbesserungen bei oder in Bezug auf Sprachkodierung
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6029125A (en) * 1997-09-02 2000-02-22 Telefonaktiebolaget L M Ericsson, (Publ) Reducing sparseness in coded speech signals
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6173257B1 (en) * 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder

Also Published As

Publication number Publication date
EP1348214B1 (en) 2012-04-25
CN100399420C (zh) 2008-07-02
ATE555471T1 (de) 2012-05-15
US20020128828A1 (en) 2002-09-12
EP1348214A4 (en) 2005-08-17
CN1531723A (zh) 2004-09-22
EP1892701A1 (en) 2008-02-27
CN101281751B (zh) 2012-09-12
WO2002054380A3 (en) 2002-11-07
WO2002054380A2 (en) 2002-07-11
US6529867B2 (en) 2003-03-04
CN101281751A (zh) 2008-10-08
KR20030076596A (ko) 2003-09-26
WO2002054380B1 (en) 2003-03-27
AU2002225953A1 (en) 2002-07-16
EP1348214A2 (en) 2003-10-01

Similar Documents

Publication Publication Date Title
KR101039343B1 (ko) 디코딩된 음성의 피치 증대를 위한 방법 및 장치
Salami et al. Design and description of CS-ACELP: A toll quality 8 kb/s speech coder
RU2483364C2 (ru) Схема аудиокодирования/декодирования с переключением байпас
Ragot et al. Itu-t g. 729.1: An 8-32 kbit/s scalable coder interoperable with g. 729 for wideband telephony and voice over ip
RU2414010C2 (ru) Трансформация шкалы времени кадров в широкополосном вокодере
US6678651B2 (en) Short-term enhancement in CELP speech coding
RU2712125C2 (ru) Кодер и способ кодирования аудиосигнала с уменьшенным фоновым шумом с использованием кодирования с линейным предсказанием
KR20020077389A (ko) 광대역 신호의 코딩을 위한 대수적 코드북에서의 펄스위치 및 부호의 인덱싱
JP4180677B2 (ja) 音声符号化並びに復号化方法及びその装置
US6826527B1 (en) Concealment of frame erasures and method
KR100338211B1 (ko) 음성의 부호화 및 복호화 방법 및 장치
CN107710324B (zh) 音频编码器和用于对音频信号进行编码的方法
KR100540707B1 (ko) 저비트율 씨이엘피용 펄스여기에 고주파 노이즈를도입하는 시스템 및 방법
Bergstrom et al. Code-book driven glottal pulse analysis
WO2002023536A2 (en) Formant emphasis in celp speech coding
US7133823B2 (en) System for an adaptive excitation pattern for speech coding
Bessette et al. Techniques for high-quality ACELP coding of wideband speech
JP2853170B2 (ja) 音声符号化復号化方式
JP3071800B2 (ja) 適応ポストフィルタ
Taddei et al. A Scalable Three Bit Rate (8, 14.2, and 24 kbit/s) Audio Coder
JPH10105200A (ja) 音声符号化/復号化方法
Taddei et al. Codeur Audio Hiérarchique (8–14, 1—24 kbit/s)
RECOMMENDATION ITU-Tg. 722.2
JPH0291698A (ja) 音声符号化復号化方式
MXPA96002143A (en) System for speech compression based on adaptable codigocifrado, better

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20111220

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee