KR20010073146A - 정보 신호를 부호화하는 방법 및 장치 - Google Patents

정보 신호를 부호화하는 방법 및 장치 Download PDF

Info

Publication number
KR20010073146A
KR20010073146A KR1020017003129A KR20017003129A KR20010073146A KR 20010073146 A KR20010073146 A KR 20010073146A KR 1020017003129 A KR1020017003129 A KR 1020017003129A KR 20017003129 A KR20017003129 A KR 20017003129A KR 20010073146 A KR20010073146 A KR 20010073146A
Authority
KR
South Korea
Prior art keywords
pulse
pulses
signal
equation
positions
Prior art date
Application number
KR1020017003129A
Other languages
English (en)
Other versions
KR100409167B1 (ko
Inventor
제임스 피. 애쉴리
웨이민 펭
Original Assignee
비센트 비.인그라시아, 알크 엠 아헨
모토로라 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 비센트 비.인그라시아, 알크 엠 아헨, 모토로라 인코포레이티드 filed Critical 비센트 비.인그라시아, 알크 엠 아헨
Publication of KR20010073146A publication Critical patent/KR20010073146A/ko
Application granted granted Critical
Publication of KR100409167B1 publication Critical patent/KR100409167B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Paper (AREA)
  • Control Of El Displays (AREA)
  • Control Of Motors That Do Not Use Commutators (AREA)

Abstract

본 발명에 의하면, 낮은 비트 레이트에서 고품질 음성 재구성을 달성하기 위해서, 2 이상의 펄스 사이의 위치 조합에 대한 제한이 실행된다. 위치 조합에 대해 제한을 둠으로써, 가장 중요한 펄스들이 항상 부호화되도록 하는 펄스들의 특정 조합들이 금지된다. 모든 유효 조합이 고려된 이후에, 단일, 소정의 비트 길이 코드워드를 사용하여 인덱스될 수 있는 펄스쌍의 리스트(코드북)가 생성될 수 있다. 코드워드는 그것이 디코더에 의해 사용되는 목적지로 전송되어, 원래의 정보 신호를 재구성한다.

Description

정보 신호를 부호화하는 방법 및 장치{METHOD AND APPARATUS FOR CODING AN INFORMATION SIGNAL}
CDMA(Code-Division Multiple Access) 통신 시스템이 잘 알려져 있다. CDMA 통신 시스템의 일예로서 전자 통신 산업 협회(TIA:Telecommunication Industry Association)에 의해 북미에서의 사용을 위해 규정된 소위 IS-95가 있다. IS-95에 대한 더 많은 정보를 위해서는, 워싱턴 D.C.20006 뉴욕주 아이가 2001에 있는 전자 산업 협회(EIA : Electronic Industries Association)에 의해 1997년 1월에 출판된 TIA/EIA/IS-95,듀얼 모드 광대역 확산 스펙트럼 셀룰러 시스템용 이동국-기지국 호환 규격(Dual Mode Wideband Spread Spectrum Cellular System)을 참조한다. IS-95와 호환가능한 통신 시스템에서 사용하기 위한 가변레이트 음성 코덱, 및 구체적으로 부호 여기 선형 예측(CELP : Code Excited Linear Prediction) 코덱은강화된 가변레이트 코덱, 광대역 확산 스펙트럼 디지털 시스템용 음성 서비스 옵션 3 (Enhanced Variable Rate Codec, Speech Service Option 3 for Wideband Spread Spectrum Digital System)이라는 제목의 IS-127로 알려진 문서에 규정되어 있다.IS-127은 또한 워싱턴 D.C. 20006 뉴욕주 아이가 2001에 있는 전자 산업 협회(EIA)에 의해 출판되어 있다.
현재의 CELP 코덱에서는, 낮은 비트 레이트에서 고품질 음성 재생을 유지하는데 문제가 있다. 이 문제는 CELP 합성기에 자극으로서 사용되는 "여기" 시퀀스 또는 "코드벡터(codevector)"를 적절히 모델링하는데 사용할 수 있는 비트가 너무 적기 때문에 발생한다. 따라서, 종래 기술의 결점을 극복하는 향상된 방법 및 장치가 필요하다.
본 발명은 일반적으로 통신 시스템에 관한 것이고, 특히 이와 같은 통신 시스템에서 정보 신호들을 부호화하는 것에 관한 것이다.
도 1은 종래 기술에서 알려져 있는 CELP 디코더를 전체적으로 도시한 도면.
도 2는 종래 기술에서 알려진 부호 여기 선형 예측(CELP)을 전체적으로 도시한 도면.
도 3은 본 발명에 따라 조인트 인터리브 펄스 순열 매트릭스를 전체적으로 도시하는 도면.
도 4는 본 발명에 따라 코드북을 생성하는 방법을 전체적으로 설명하는 순서도.
도 5는 본 발명에 따라 펄스 3과 4에 대한 조인트 인터리브 펄스 순열 매트릭스를 전체적으로 도시한 도면.
일반적으로 말하면, 낮은 비트 레이트에서 고품질 음성 재구성을 실행하기 위해, 2 이상의 펄스들 간의 위치 조합에 대한 제한이 행해진다. 위치 조합에 대한 제한을 둠으로써, 가장 중요한 펄스가 항상 부호화되도록 하는 특정 펄스의 조합이 금지되고, 이에 의해 음성 품질이 향상한다. 모든 유효 조합을 고려한 후에, 하나의 소정의 비트 길이 코드워드를 사용하여 인덱스될 수 있는 펄스 쌍의 리스트(코드북)가 작성된다. 이 코드워드는 이것이 디코더에 의해 사용되는 목적지에 전송되어, 원래의 정보 신호를 재구성한다.
구체적으로 말하면, 정보 신호를 부호화하는 방법은 정보 신호를 블록들로 분할하는 단계와, 이 정보 신호의 한 블록에 의거하여 타겟 신호를 도출하는 단계를 포함한다. 이 방법은 에러 기준에 의거한 펄스 포지셔닝(positioning) 기술- 주어진 펄스의 허용 가능 위치는 하나 이상의 다른 펄스의 위치에 의존함 - 을 사용하여 타겟 신호를 부호화하여 부호화된 펄스 위치를 생성하는 단계와, 이 부호화된 펄스 위치를 목적지로 전송하는 단계를 더 포함한다.
바람직한 실시예에서, 상기 정보 신호는 음성 신호 또는 오디오 신호를 더 포함하고 이 정보 신호의 블록은 상기 정보 신호의 프레임 또는 서브프레임을 더 포함한다. 에러 기준은 지각 가중 제곱 에러 기준을 더 포함하고 허용 가능 펄스 위치는 임의의 폐쇄형 표현(F(λ)) - 이 표현 내의 조건들 중 적어도 하나는 λ내의 요소들 중 적어도 2개와 관련됨 - 을 사용하여 결정된다.
도 1은 전체적으로 이 분야에서 알려져 있는 부호 여기 선형 예측(CELP) 디코더(100)를 도시한다. 현재의 CELP 디코더에는, 낮은 비트 레이트에서 고품질 음성 재생을 유지하는데에 문제가 있다. 이 문제는 CELP 디코더(100)에 자극으로서사용되는 "여기" 시퀀스 또는 "코드벡터"(c k )를 적절히 모델링하는데 사용할 수 있는 비트가 너무 적기 때문에 발생된다.
도 1에 도시된 바와 같이, 이 여기 시퀀스 또는 "코드벡터"(c k )는 적절한 코드북 인덱스(k)를 사용하는 고정 코드북(102)(FCB)으로부터 발생된다. 이 신호는 FCB 이득 팩터(λ)를 사용하여 스케일되고 적응 코드북(104)(ACB)으로부터 출력된 신호와 조합되고 음성 신호의 롱텀(long term)(또는 주기적) 성분(주기 τ를 가짐)을 모델링하는데 사용되는 팩터(β)에 의해 스케일된다. 총 여기를 나타내는 이 신호(E t (n))는 일반적으로 "포르만트(formant)"라고 하는 성긴 쇼트텀 스펙트럼 형상(coarse short term spectral shape)을 모델링하는 LPC 합성 필터(106)에의 입력으로 사용된다. 합성 필터(106)의 출력은 그리고나서 높은 음성 에너지를 포함하는 주파수에서의 신호 스펙트럼을 증폭하고 낮은 음성 에너지를 포함하는 주파수에서의 신호 스펙트럼을 감쇠하는 지각 포스트 필터(108)에 의해 지각으로 포스트필터(postfilter)된다. 또한, 총 여기 신호(E t (n))는 합성 음성의 그 다음 블럭에 대해 적응 코드북으로서 사용된다.
도 2는 전체적으로 CELP 인코더(200)를 도시한다. CELP 인코더(200) 내에서는, 수학식 1의 z변환에 의해 일반적인 방식으로 표현될 수 있는 지각 가중 타겟 신호(x w (n))를 부호화하는 것이 목적이다.
(여기에서W(z)는 지각 가중 필터(208)의 변환 함수이고, 수학식 2의 형태이고,
H(z)는 지각 가중 합성 필터(206,210)의 변환 함수이고, 수학식 3의 형태이고,
A(z)는 양자화 되지 않은 직접 변환 LPC 계수이고,A q (z)는 양자화된 직접 변환 LPC 계수이고,λ 1 λ 2 는 지각 가중 계수이다. 또한,H ZS (z)는 필터(206)로부터H(z)의 "제로 상태" 응답이고, 여기에서H(z)의 초기 상태는 모두 제로이고,H ZIR (z)은 필터(210)로부터의H(z)의 "제로 입력 응답"이고, 여기에서H(z)의 이전 상태는 어떤 입력 여기로도 전개되지 않도록 된다.H ZIR (z)의 생성에 사용된 초기 상태는 이전 서브프레임으로부터의 총 여기(E t (n))로부터 도출된다.
x w (n)를 생성하는데 필요한 파라미터를 풀기 위해, 본 발명에 따른 고정 코드북(FCB : Fixed Codebook) 폐쇄 루프 분석이 설명된다. 여기에서, 코드북 인덱스(k)는 지각 가중 타겟 신호(x w (n))와 지각 가중 여기 신호() 사이의 평균 제곱 에러를 최소화하기 위해 선택된다. 이것은 수학식 4의 시간 도메인 형식으로 표현될 수 있다.
여기에서c k (n)은 FCB 코드북 인덱스(k)에 대응하는 코드벡터이고,λ k 는 코드 벡터(c k (n))와 관련된 최적 FCB 이득이고,h(n)은 지각 가중 합성 필터(H(z))의 임펄스 응답이고,M은 코드북 사이즈이고,L은 서브프레임 길이이고, *는 콘벌루션 처리를 나타내고이다. 바람직한 실시예에서, 음성은 20밀리세컨드(ms) 마다 부호화되고 각 프레임은 길이 L의 3개의 프레임을 포함한다.
수학식 4는 수학식 5와 같이 벡터-매트릭스 형태로 표현될 수 있다.
여기에서c k x w 는 길이L칼럼 벡터이고,H는 수학식 6의L ×L제로 상태 콘벌루션 매트릭스이고,
T는 적절한 벡터 또는 매트릭스 전환을 나타낸다. 수학식 5는 수학식 7로 확장될 수 있다.
코드벡터(c k )에 대한 최적 코드북 이득()은 수학식 8과 같이, 상기 표현 수학식 7의 ()에 대한 미분을 0으로 설정함으로써 유도될 수 있다.
그리고나서에 대해 풀면 수학식 9가 산출된다.
이 양을 수학식 7에 대입하면, 수학식 10이 계산된다.
수학식 10의 첫번째 항은k에 대해 일정하므로, 수학식 11과 같이 쓰여질 수 있다.
수학식 11로부터,k에 의존하지 않는 수학식 11의 항들을 미리 계산함으로써, 즉로 놓음으로써, 탐색과 관련된 많은 계산적 부담이 회피될 수 있다. 이것이 행해질 때, 수학식 11은 IS-127의 수학식 4.5.7.2-1과 등가인 수학식 12로 줄어든다.
이 항을 미리 계산하는 처리는 "백워드 필터링(backward filtering)"으로 알려져 있다. 이 결과, 지각 가중 타겟 신호(x w (n))와 지각 가중 여기 신호() 사이의 최소 제곱 에러의 원인인 코드벡터(c k )에 대응하는 인덱스(k)는 수학식 12의 항을 최대화함으로써 구해질 수 있다.
IS-127 1/2 레이트 케이스(4.0kbps)에서는, FCB는 여기 벡터(c k )가 매우 적은 논제로(non-zero), 즉 단위 크기 값들을 포함하는 다중 펄스 구성을 이용한다. 이 구성은 대수 CELP, 즉 ACELP로서 이 분야에서 알려져 있다.c k 내에 제로가 아닌(non-zero) 요소들이 매우 적으므로, 수학식 12와 관련된 계산 상의 복잡성은 비교적 낮다. IS-127 3개 "펄스" 경우에 대해, 펄스 위치에 대해 할당되고 (L= 53,53,54의 길이의) 3개의 서브 프레임 각각에 대한 사인과 관련되어 겨우 10개의 비트만이 있다. 이 구성에서, 관련 "트랙"은c k 내의 3개의 펄스 각각에 대한 허용가능 위치들을 정의한다(+,-,+ 또는 -,+,-의 혼합 사인에 대해 펄스당 3비트 + 1비트). 표 4.5.7.4-1에 도시된 바와 같이, 펄스 1은 위치 0,7,14,...,49를 차지할 수 있고, 펄스 2는 위치 2,9,16,...51을 차지할 수 있고, 펄스 3은 위치 4,11,18,...,53을 차지할 수 있다. 이것은 이 분야에서 잘 알려진 "인터리브 펄스 순열(interleaved pulse permutation)"로 알려져 있다. 3개의 펄스의 위치는 조인트하여 최적화되고 따라서 수학식 12는 83= 512회 실행된다. 그리고나서 사인 비트는 이득 항(γ k )의 사인에 따라 설정된다.
표 1은 일반적으로 IS-127 레이트 1/2을 위해 정의된 펄스 위치들을 나타낸다. 상기 시나리오의 한 문제점은 여기 코드벡터(ck)가 소정의 위치들이 벡터 공간에 의해 표시되지 않은 홀(hole)들을 가질 수 있다는 것이다. 즉, 타겟 벡터에 대한 최적의 매치는 위치 12에서 펄스를 필요로 하지만 표 1의 펄스 위치들에 대한 정의는 펄스가 그 위치에 위치하는 것을 허용하지 않는다. 위치에 대한 제한은 펄스가 최적 위치에 가까운 위치에 위치되도록 하거나, 나쁘게는 타겟 신호의 에너지가 그 위치에서 완전히 없어질 수 있다. 이것은 왜곡을 유발할 수 있으며, 합성 음성 신호에서 가청 인공 신호를 유발시키는 것도 가능하다.
유사한 예로서, 설계 요건이 4개의 개별 트랙 각각에 대해 하나의 펄스씩 L=[53, 53, 54]의 서브프레임 크기 및 서브프레임 당 16 비트의 비트 할당을 갖는 4개의 펄스를 갖는 설계상의 요구가 있을 수 있다. 이 시나리오에서, 트랙들은 종래 기술에서 사용되는 펄스 위치의 예를 나타내는 표 2에서와 같이 종래 기술에 따라 배치될 수 있는 4 펄스 ×14 위치= 총 56 위치로 구성된다. 여기서, 16 비트의 비트 할당은 4개의 트랙 사이에 동일하게 분할되어, 각 트랙은 4 비트를 수신한다. 트랙 당 4 비트는 또한 위치를 위한 3 비트 및 펄스의 극성을 표시하기 위한 1 사인 비트로 구성된다.
이 예에서 알 수 있듯이, 모든 펄스 위치가 적당히 표시될 수 없기 때문에 벡터 공간에는 여전히 홀이 존재하게 된다. 하나의 해결책은 14개 위치 모드가 유효할 수 있도록 하는 것인데, 예컨대 펄스 p0의 위치는 [0, 4, 8,..., 52], p1은[1, 5, 9,..., 53] 등등이다. 이 방법의 문제점은 4 비트가 위치 정보를 부호화하는 데 요구되어, 서브프레임 당 16 비트 요건(4 트랙 ×(4 위치 비트 + 1 사인 비트) = 20 비트)을 위반한다는 것이다.
종래 기술에서 알려진 펄스 부호화를 위한 또 하나의 방법은 2 펄스의 인덱스를 하나의 신호 코드워드로 다중화 처리하는 것이다. 예컨대, IS-127 레이트 1의 경우(8.5 kbps), 5 트랙에 걸쳐 확산된 11개의 가능한 펄스 위치가 존재한다. 각 펄스 위치에 대해 4 비트를 사용하는 대신, 2 펄스의 위치가 7 비트만을 이용하여 공동으로 부호화될 수 있다. 이것은 2 펄스에 대한 총 위치 수가 11 ×11=121로서 7 비트(27=128)로 부호화될 수 있는 총 위치 수보다 적다는 것을 고려함으로써 달성된다. 부호화의 세부사항은 수학식 13으로 표현될 수 있다.
여기서, pi및 pj는 i 번째 및 j 번째 펄스의 위치이고, [x]는 ≤x 의 가장 큰 정수를 나타낸다.
펄스 위치는 수학식 14에 의해 디코더에서 추출될 수 있다.
여기서, λi및 λj는 표 2를 이용하여 디코딩될 수 있는 적당한 트랙 내의 10진 위치이고, λ의 값은 표의 열에 대응한다. 표 2의 14 위치의 경우에 대해 이 방법을 사용할 때의 문제점은 14 ×14=196 위치 멀티플렉스가 여전히 8 비트(28)를 필요로 하여 4 비트 펄스를 간단히 사용하는 것 이상의 이점이 없다는 것이다. 명백히, 전술한 종래의 방법 모두에서 모든 위치는 펄스 위치의 효율적인 낮은 레이트 부호화를 허용하는 벡터 공간에 의해 적당히 표현되지 못한다.
전술한 바와 같이, 효율적인 16 비트, 4 펄스, 56 위치 코드북(표현가능한 모든 위치에 대해)의 설계는 종래 기술에서 쉽게 달성될 수 없다. 그러나, 본 발명에 따르면, 전술한 예에서 나타나는 설계 제한을 유지하면서 모든 펄스 위치가 부호화될 수 있도록 하는 방법이 제공된다. 또한, 본 발명은 다양한 설계 제한에 대한 효율적인 해결책을 허용하는 전반적인 유연성을 제공한다.
본 발명은 2개 이상의 펄스 간의 위치 조합에 대한 제한을 가함으로써 전술한 문제를 해결한다. 예컨대, 주어진 펄스에 대해 허용가능한 위치들은 하나 이상의 다른 펄스의 관련 위치에 공동으로 의존한다. 이것은 본 발명에 따른 조인트 인터리브 펄스 순열 매트릭스를 나타내는 도 3의 14 위치 트랙 예에서 알 수 있다. 이 실시예에서, 도 3에 도시된 매트릭스는 펄스 0 및 1에 대한 것이고 서브프레임 길이 L=54이다. 이 도면에서, 펄스 0에 대한 각 위치는 수평축을 따라 도시되고 펄스 1에 대한 위치는 수직축을 따라 도시된다. "금지" 펄스 조합은 음영 영역으로 표시되고 허용 가능 조합은 비음영 영역으로 표시된다. 비음영 영역의 수는 주어진 비트의 수, 이 경우에는 27=128에 의해 표시될 수 있는 조합의 수와 정확히 같고, 음영 영역의 수는 펄스 0의 10진 위치의 총 수 ×펄스 1의 10진 위치의 총 수 - 주어진 비트 수에 의해 표시될 수 있는 조합의 수, 즉 (14 ×14) - 128 = 68과 정확히 같다는 것을 알 수 있다.
각종 펄스 위치 코드벡터가 검색될 때(수학식 12를 통해), 펄스 p1이 λ1=0(위치 (0×4)+1=1에 대응)에 위치할 때, 펄스 p0에 대한 허용가능 위치는 [4, 8, 16, 20, 28, 32, 40, 48, 52]이다. 마찬가지로, 펄스 p1이 위치 5(λ1)에 위치할 때, 펄스 p0의 허용가능 위치는 [0, 8, 12, 20, 24, 32, 36, 44, 52]이며, 기타 등등. 모든 유효한 조합을 고려한 후, 단일 7 비트 코드워드를 사용하여 인덱싱될 수 있는 펄스 쌍들(코드북)의 128 ×2 리스트가 본 발명에 따라 생성된다. 이 코드워드는 디코딩 및 재구성을 위한 목적지로의 전송에 적합하다. 더욱이, 이 코드북은 실행 시간에 대수적으로 생성되어 휘발성 메모리(RAM)에 저장되거나 불휘발성 메모리(ROM)에 저장될 수 있다.
도 4는 본 발명에 따라 코드북이 생성되는 방법을 나타내는 순서도이다. 먼저, 순서도는 0≤i≤M 및 0≤j≤N의 모든 순열이 생성되는 기본 중첩 루프 구조를 나타낸다. 이 예에서, N 및 M은 각 펄스에 대한 허용가능 위치의 총 수를 나타낸다. 최내측 루프에서의 결정은 단계 402에서 함수 F(i, j)에 따라 금지된 조합[i, j]을 간단히 검사하는데, 도 3의 예에서 상기 함수는 수학식 15로 표시된다.
이 함수는 i 및 j의 차의 절대값이 주어진 세트의 요소인 경우에는 1의 값을 반환하고 그렇지 않은 경우에는 0이 반환된다. 이것은 단계403에 도시된다. 주어진 세트의 요소들은 도 3의 대각 음영 요소들 간의 간격에 대응하며, 따라서 이 식은 필요한 모든 음영 영역을 기술하는 데 충분하다. 허용된 펄스 조합에서 각 위치는 수학식 16을 이용하여 계산된다.
여기서, λ는 10진 트랙 위치이고, Ntracks는 트랙 수이며, n은 트랙 번호이다. 코드북 엔트리가 단계 403에서 생성된 때, 코드북 인덱스 k가 단계 404에서증분되고, 프로세스는 전체 코드북이 단계 400-401 및 405-408을 통해 채워질 때까지 계속된다. 주어진 예의 펄스 p2및 p3에 대한 위치 정보를 생성하기 위해 유사한 기술이 이용된다.
전술한 예가 금지 영역이 좌상에서 우하로의 대각으로 제한되는 것을 나타내지만, 128 비음영 영역을 사용하는 임의의 패턴이 가능하며 본 발명의 범위에 속하는 것으로 간주된다. 바람직한 실시예의 또 다른 특징은 다음과 같이 설명된다. 즉, 총 4 ×4=56개의 가능한 펄스 위치가 있다. 그러나, 서브프레임의 길이는 54 샘플보다 크지 않다. 따라서, 위치를 53(또는 서브프레임 1 및 2에 대해서는 52)보다 큰 장소에 제공하는 것은 부호화 효율을 감소시켜 품질을 저하시키게 된다. 도 5는 본 발명에 따라 펄스 p2및 p3에 대한 조인트 인터리브 펄스 순열 매트릭스를 나타낸다. 도 5에 도시된 바와 같이, 위치 54 및 55는 음영 영역에 의해 제외되어 유효 벡터 공간에 더 많은 조합이 표시될 수 있게 되는데, 이는 비음영 영역의 총 수가 여전히 128이기 때문이다. 이것은 도 3 및 5의 대각선들 사이의 상대 간격을 비교함으로써 알 수 있는데, 도 3은 일반적으로 금지 대각선 사이에 2개 공간을 가지며, 도 5는 3개의 공간을 가진다. 도 5의 금지 조합에 대한 폐쇄형 식은 수학식 17로 나타낼 수 있다.
도 5의 예는 본질적으로 덜 제한적이며 따라서 더 높은 부호화 정밀도를 얻을 수 있다는 것을 알 수 있다.
당업자는 본 발명에 따라 여기에 설명된 기술을 이용하여 특정 응용에 유리할 수 있는 우상에서 좌하로의 대각선 및 다수의 각종 다른 패턴을 형성할 수 있다는 것을 알 것이다. 더욱이, 펄스의 수를 2보다 크게 하여 임의의 폐쇄형 식 F(λ)(λ=[λ01,...,λn-1]는 지원 펄스 위치들의 벡터이고, n은 펄스 수임)가 허용될 수 있다.
본 발명은 특정 실시예를 참조하여 구체적으로 도시되고 설명되었지만, 당업자는 본 발명의 사상 및 범위를 벗어나지 않고도 각종 변화가 만들어질 수 있다는 것을 알 것이다. 아래의 청구범위의 모든 수단 또는 단계 플러스 기능 요소들의 대응 구조, 재료, 작용 및 균등물은 구체적으로 청구된 다른 요소와 조합하여 기능을 수행하기 위한 모든 구조, 재료 또는 작용을 포함하는 것으로 의도된다.

Claims (5)

  1. 정보 신호를 부호화하기 위한 방법에 있어서,
    a) 상기 정보 신호를 블록으로 분할하는 단계;
    b) 상기 정보 신호의 블록에 기초하여 타겟 신호를 도출하는 단계;
    c) 에러 기준에 기초하는 펄스 포지셔닝(positioning) 기술- 주어진 펄스의 허용가능 위치들은 하나 이상의 다른 펄스의 위치에 의존함 - 을 이용하여 상기 타겟 신호를 부호화하여, 부호화된 펄스 위치를 생성하는 단계, ; 및
    d) 상기 부호화된 펄스 위치를 목적지로 전송하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 상기 정보 신호는 음성 신호 또는 오디오 신호를 더 포함하는 방법.
  3. 제1항에 있어서, 상기 정보 신호의 블록은 상기 정보 신호의 프레임 또는 서브프레임을 더 포함하는 방법.
  4. 제1항에 있어서, 상기 에러 기준은 지각적으로 가중된 제곱 에러 기준을 더 포함하는 방법.
  5. 제1항에 있어서, 상기 허용가능 펄스 위치들은 임의의 폐쇄형 식 F(λ)를 이용하여 결정되며, 상기 식의 조건 중 적어도 하나는 λ의 요소 중 적어도 2개와 관련된 방법.
KR10-2001-7003129A 1998-09-11 1999-08-24 정보 신호를 부호화하는 방법 및 장치 KR100409167B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15143098A 1998-09-11 1998-09-11
US09/151,430 1998-09-11

Publications (2)

Publication Number Publication Date
KR20010073146A true KR20010073146A (ko) 2001-07-31
KR100409167B1 KR100409167B1 (ko) 2003-12-12

Family

ID=22538745

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-7003129A KR100409167B1 (ko) 1998-09-11 1999-08-24 정보 신호를 부호화하는 방법 및 장치

Country Status (6)

Country Link
EP (1) EP1112625B1 (ko)
JP (1) JP4460165B2 (ko)
KR (1) KR100409167B1 (ko)
AT (1) ATE328407T1 (ko)
DE (1) DE69931641T2 (ko)
WO (1) WO2000016501A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6539349B1 (en) 2000-02-15 2003-03-25 Lucent Technologies Inc. Constraining pulse positions in CELP vocoding
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2579356B1 (fr) * 1985-03-22 1987-05-07 Cit Alcatel Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation
SE463691B (sv) * 1989-05-11 1991-01-07 Ericsson Telefon Ab L M Foerfarande att utplacera excitationspulser foer en lineaerprediktiv kodare (lpc) som arbetar enligt multipulsprincipen
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
JP3057907B2 (ja) * 1992-06-16 2000-07-04 松下電器産業株式会社 音声符号化装置
KR950011967B1 (ko) * 1992-07-31 1995-10-12 임홍식 반도체 녹음기용 메모리 정리 장치
JP3196595B2 (ja) * 1995-09-27 2001-08-06 日本電気株式会社 音声符号化装置
JP4063911B2 (ja) * 1996-02-21 2008-03-19 松下電器産業株式会社 音声符号化装置
US5970444A (en) * 1997-03-13 1999-10-19 Nippon Telegraph And Telephone Corporation Speech coding method
US5963897A (en) * 1998-02-27 1999-10-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for hybrid excited linear prediction speech encoding
JP3180762B2 (ja) * 1998-05-11 2001-06-25 日本電気株式会社 音声符号化装置及び音声復号化装置
JP3824810B2 (ja) * 1998-09-01 2006-09-20 富士通株式会社 音声符号化方法、音声符号化装置、及び音声復号装置

Also Published As

Publication number Publication date
JP2002525667A (ja) 2002-08-13
ATE328407T1 (de) 2006-06-15
DE69931641D1 (de) 2006-07-06
JP4460165B2 (ja) 2010-05-12
EP1112625A4 (en) 2004-06-16
EP1112625A1 (en) 2001-07-04
KR100409167B1 (ko) 2003-12-12
EP1112625B1 (en) 2006-05-31
WO2000016501A1 (en) 2000-03-23
DE69931641T2 (de) 2006-10-05

Similar Documents

Publication Publication Date Title
US6141638A (en) Method and apparatus for coding an information signal
US5991717A (en) Analysis-by-synthesis linear predictive speech coder with restricted-position multipulse and transformed binary pulse excitation
JP4064236B2 (ja) 広帯域信号コーディング用の代数コードブック中のパルス位置と符号の索引付け方法
DE69928288T2 (de) Kodierung periodischer sprache
EP0747883A2 (en) Voiced/unvoiced classification of speech for use in speech decoding during frame erasures
EP0747882A2 (en) Pitch delay modification during frame erasures
JP2011050070A (ja) 情報コード化のための階乗パッキング方法及び装置
KR20010024935A (ko) 음성 코딩
EP2805324B1 (en) System and method for mixed codebook excitation for speech coding
US6678651B2 (en) Short-term enhancement in CELP speech coding
JP3396480B2 (ja) 多重モード音声コーダのためのエラー保護
US6330531B1 (en) Comb codebook structure
KR100338211B1 (ko) 음성의 부호화 및 복호화 방법 및 장치
KR100465316B1 (ko) 음성 부호화기 및 이를 이용한 음성 부호화 방법
KR100409167B1 (ko) 정보 신호를 부호화하는 방법 및 장치
Juan et al. An 8-kb/s conjugate-structure algebraic CELP (CS-ACELP) speech coding
KR100540707B1 (ko) 저비트율 씨이엘피용 펄스여기에 고주파 노이즈를도입하는 시스템 및 방법
JP3103108B2 (ja) 音声符号化装置
KR100389898B1 (ko) 음성부호화에 있어서 선스펙트럼쌍 계수의 양자화 방법
Taddei et al. Efficient coding of transitional speech segments in CELP
Kövesi et al. A Multi-Rate Codec Family Based on GSM EFR and ITU-T G. 729
RECOMMENDATION ITU-Tg. 722.2
Liu et al. Enhancing the EVRC half rate by the algebraic VQ-CELP

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121030

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20131030

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20141107

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20151109

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20161110

Year of fee payment: 14

LAPS Lapse due to unpaid annual fee