KR100409167B1 - 정보 신호를 부호화하는 방법 및 장치 - Google Patents

정보 신호를 부호화하는 방법 및 장치 Download PDF

Info

Publication number
KR100409167B1
KR100409167B1 KR10-2001-7003129A KR20017003129A KR100409167B1 KR 100409167 B1 KR100409167 B1 KR 100409167B1 KR 20017003129 A KR20017003129 A KR 20017003129A KR 100409167 B1 KR100409167 B1 KR 100409167B1
Authority
KR
South Korea
Prior art keywords
pulse
pulses
signal
equation
positions
Prior art date
Application number
KR10-2001-7003129A
Other languages
English (en)
Other versions
KR20010073146A (ko
Inventor
제임스 피. 애쉴리
웨이민 펭
Original Assignee
모토로라 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 인코포레이티드 filed Critical 모토로라 인코포레이티드
Publication of KR20010073146A publication Critical patent/KR20010073146A/ko
Application granted granted Critical
Publication of KR100409167B1 publication Critical patent/KR100409167B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Paper (AREA)
  • Control Of El Displays (AREA)
  • Control Of Motors That Do Not Use Commutators (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

본 발명에 따르면, 낮은 비트 레이트에서 고품질 음성 복원을 실현하기 위해, 2 이상의 펄스들 간의 위치 조합에 대한 제약이 실행된다. 위치 조합에 대해 제약을 둠으로써, 특정 펄스의 조합이 금지되어 최상위의 펄스가 항상 후보화될 수 있으므로, 이에 의해 음성 품질이 향상된다. 모든 유효 조합을 검토한 후에, 하나의 소정의 비트 길이 코드워드를 사용하여 인덱스될 수 있는 펄스쌍의 리스트(코드북)가 작성된다. 이 코드워드는 목적지로 전송되고, 목적지에서의 디코더에 의해 원래의 정보 신호로 복원된다.

Description

정보 신호를 부호화하는 방법 및 장치{METHOD AND APPARATUS FOR CODING AN INFORMATION SIGNAL}
CDMA(Code-Division Multiple Access) 통신 시스템이 잘 알려져 있다. CDMA 통신 시스템의 일예로는, 미국 전자 통신 산업 협회(Telecommunication Industry Association : TIA)에 의해 북미에서의 사용을 위해 규정된 소위 IS-95가 있다. IS-95에 대한 더 많은 정보를 위해서는, 미국 워싱턴 D.C. 20006 노스이스트 아이가 2001에 위치한 미국 전자 산업 협회(Electronic Industries Association : EIA)에서 1997년 1월에 출판한 TIA/EIA/IS-95,듀얼 모드 광대역 확산 스펙트럼 셀룰러 시스템용 이동국-기지국 호환 규격(Dual Mode Wideband Spread Spectrum Cellular System)을 참조한다. IS-95와 호환 가능한 통신 시스템에 사용하기 위한 가변 레이트 음성 코덱, 및 구체적으로 부호 여기 선형 예측(Code Excited Linear Prediction : CELP) 코덱은강화된 가변 레이트 코덱, 광대역 확산 스펙트럼 디지털 시스템용 음성 서비스 옵션 3(Enhanced Variable Rate Codec, Speech Service Option 3 for Wideband Spread Spectrum Digital System)라는 제목의 IS-127로 알려진 문서에 규정되어 있다. IS-127도 미국 워싱턴 D.C. 20006 노스이스트 아이가 2001에 위치한 EIA에서 출판한 것이다.
현재의 CELP 코덱에서는, 낮은 비트 레이트에서 고품질의 음성 재생을 유지하는 데 문제가 있다. 이 문제는 CELP 합성기에 자극(stimulus)으로서 사용되는 "여기(excitation)" 시퀀스 또는 "코드벡터(codevector)"를 적절히 모델링하는 데 사용할 수 있는 비트가 너무 적기 때문에 발생한다. 따라서, 종래 기술의 결점을 극복하는 향상된 방법 및 장치가 필요하다.
본 발명은 일반적으로 통신 시스템에 관한 것으로서, 특히 이와 같은 통신 시스템에서 정보 신호를 부호화하는 것에 관한 것이다.
도 1은 종래 기술에서 알려져 있는 CELP 디코더를 개략적으로 도시한 도면.
도 2는 종래 기술에서 알려져 있는 CELP 인코더를 개략적으로 도시한 도면.
도 3은 본 발명에 따른 조인트 인터리브 펄스 순열 매트릭스(joint interleaved pulse permutation matrix)를 개략적으로 도시한 도면.
도 4는 본 발명에 따라 코드북을 생성하는 방법을 개략적으로 설명하는 순서도.
도 5는 본 발명에 따른 펄스 3 및 4에 대한 조인트 인터리브 펄스 순열 매트릭스를 개략적으로 도시한 도면.
일반적으로 말하면, 낮은 비트 레이트에서 고품질의 음성 복원을 실현하기 위해, 2 이상의 펄스들 간의 위치 조합에 대한 제약이 행해진다. 위치 조합에 대한 제약을 둠으로써 특정 펄스의 조합이 금지되어 최상위의 펄스가 항상 부호화될 수 있으므로, 이에 의해 음성 품질이 향상된다. 모든 유효 조합을 검토한 후에, 하나의 소정의 비트 길이 코드워드를 사용하여 인덱스될 수 있는 펄스 쌍의 리스트(코드북(codebook))가 작성된다. 이 코드워드는 목적지로 전송되고, 목적지에서의 디코더에 의해 원래의 정보 신호로 복원된다.
구체적으로 말하면, 정보 신호를 부호화하는 방법은 정보 신호를 블록들로 분할하는 단계 및 이 정보 신호의 블록에 기초하여 타겟 신호를 도출하는 단계를 포함한다. 또한, 이 방법은, 오차 기준(error criteria)에 기초한 펄스 위치 결정 기술(pulse positioning technique) - 주어진 펄스의 허용 가능 위치는 하나 이상의 다른 펄스의 위치에 의존함 - 을 사용하여 타겟 신호를 부호화하고, 부호화된 펄스 위치를 생성하는 단계, 및 이 부호화된 펄스 위치를 목적지로 전송하는 단계를 더 포함한다.
바람직한 실시예에서, 상기 정보 신호는 음성(speech) 신호 또는 오디오(audio) 신호를 더 포함하고, 이 정보 신호의 블록은 상기 정보 신호의 프레임 또는 서브프레임을 더 포함한다. 상기 오차 기준은 지각 가중 제곱 오차 기준(perceptually weighted squared error criteria)을 더 포함하고, 상기 허용 가능 펄스 위치는 임의의 폐형식의 식(closed form expression) F(λ) - 이 식 내의 조건들 중 적어도 하나는 λ내의 요소들 중 적어도 2개와 관련됨 - 를 사용하여 결정된다.
도 1은 본 기술 분야에서 알려져 있는 CELP 디코더(100)를 개략적으로 도시한다. 현재의 CELP 디코더에는, 낮은 비트 레이트에서의 고품질 음성 재생을 유지하는 데 문제가 있다. 이 문제는 CELP 디코더(100)에 자극으로서 사용되는 "여기" 시퀀스 또는 "코드벡터"c k 를 적절히 모델링하는 데 사용할 수 있는 비트가 너무 적기 때문에 발생된다.
도 1에 도시된 바와 같이, 여기 시퀀스 또는 "코드벡터"c k 는 적절한 코드북 인덱스k를 사용하는 고정 코드북(102)(fixed codebook : FCB)으로부터 발생된다. 이 신호는 FCB 이득 팩터(FCB gain factor)를 사용하여 스케일링되고, 적응 코드북(104)(adpative codebook : ACB)으로부터 출력되어 팩터에 의해 스케일링된 신호와 조합되며, 음성 신호(주기 τ)의 장기적(또는 주기적) 성분을 모델링하는 데 사용된다. 총 여기를 나타내는 신호E t (n)은, "포르만트(formant)"라고도 지칭되는 저정밀 단기 스펙트럼 형상(coarse short term spectral shape)을 모델링하는 LPC 합성 필터(106)로 입력된다. 합성 필터(106)의 출력은 지각 포스트 필터(perceptual postfilter)(108)에 의해 지각적으로 포스트 필터링되는데, 여기서 부호화 왜곡(coding distortion)은 높은 음성 에너지를 포함하는 주파수에서의 신호 스펙트럼을 증폭하고 낮은 음성 에너지를 포함하는 주파수로 감쇠함으로써 효과적으로 마스킹(masking)된다. 또한, 총 여기 신호E t (n)은 합성 음성의 다음 블럭을 위한 적응 코드북으로서 사용된다.
도 2는 CELP 인코더(200)를 개략적으로 도시한다. CELP 인코더(200) 내에서는, z 변환에 의해 일반항으로 표현될 수 있는 지각 가중 타겟 신호(perceptually weighted target signal)x w (n)을 부호화하는 것이 목적이다.
여기서,W(z)는 지각 가중 필터(208)의 전달 함수(transfer function)로서, 수학식 2의 형태이고,
H(z)는 지각 가중 합성 필터(206, 210)의 전달 함수로서, 수학식 3의 형태이며,
A(z)는 양자화되지 않은 직접 형식(direct form) LPC 계수이고,A q (z)는 양자화된 직접 형식 LPC 계수이며,λ 1 λ 2 는 지각 가중 계수이다. 또한,H ZS (z)는 필터(206)로부터의H(z)의 "제로 상태"의 응답이며, 여기서H(z)의 초기 상태는 모두 제로이다.H ZIR (z)는 필터(210)로부터의H(z)의 "제로 입력 응답"이며, 여기서H(z)의 이전 상태는 어떤 입력 여기로도 전개되지 않는다.H ZIR (z)의 생성에 사용되는 초기 상태는 이전의 서브프레임으로부터의 총 여기E t (n)으로부터 도출된다.
x w (n)을 생성하는 데 필요한 파라미터를 풀기 위해, 본 발명에 따른 고정 코드북(FCB) 폐루프 분석에 대해 설명한다. 여기에서, 코드북 인덱스k는 지각 가중 타겟 신호x w (n)과 지각 가중 여기 신호간의 평균 제곱 오차를 최소화하도록 선택된다. 이것은 수학식 4와 같이 시간 도메인 형식으로 표현될 수 있다.
여기서,c k (n)은 FCB 코드북 인덱스k에 대응하는 코드벡터이고, 는 코드 벡터c k (n))과 관련된 최적 FCB 이득이며,h(n)은 지각 가중 합성 필터H(z)의 임펄스 응답이고,M은 코드북 사이즈이며,L은 서브프레임 길이이고, *는 컨벌루션(convoluton) 처리를 나타내며이다. 바람직한 실시예에서, 음성은 20 밀리세컨드(㎳)마다 부호화되고 각 프레임은 길이가 L인 3개의 서브프레임을 포함한다.
수학식 4는 수학식 5와 같이 벡터-매트릭스 형태로 표현될 수 있다.
여기서,c k x w 는 길이가L인 컬럼 벡터이고,HL ×L제로 상태 콘벌루션 매트릭스이다.
T는 적절한 벡터 또는 매트릭스 전치(transpose)를 나타낸다. 수학식 5는 수학식 7로 전개될 수 있다.
코드벡터c k 에 대한 최적 코드북 이득는 상기 수학식 7의 (에 대한) 도함수를 0으로 설정함으로써 수학식 8과 같이 유도될 수 있다.
그 다음,에 대해 풀면 수학식 9가 산출된다.
이 값을 수학식 7에 대입하면, 수학식 10을 얻는다.
수학식 10의 제1항은k에 대해 일정하므로, 수학식 11과 같이 나타낼 수 있다.
수학식 11로부터,k에 의존하지 않는 수학식 11의 항들을 미리 계산함으로써 즉,라 함으로써, 검색과 관련된 많은 계산적 부담이 회피될 수 있다. 이와 같이 실행하면, 수학식 11은 IS-127의 수학식 4.5.7.2-1과 등가인 수학식 12로 정리된다.
이 항을 미리 계산하는 처리는 "백워드 필터링(backward filtering)"으로서 알려져 있다. 그 결과, 지각 가중 타겟 신호x w (n)과 지각 가중 여기 신호간의 제곱 오차가 최소가 되게 하는 코드벡터c k 에 대응하는 인덱스k는 수학식 12의 항을 최대화함으로써 구할 수 있다.
IS-127의 하프 레이트(half rate)의 경우(4.0Kbps), FCB는, 여기 벡터c k 가 제로가 아닌 단위 크기 값들(non-zero, unit magnitude values)을 극히 포함하지 않는 다중 펄스 구성을 이용한다. 이 구성은 본 기술 분야에서 ACELP(algebra CELP)로서 알려져 있다.c k 내에는 제로가 아닌 요소들이 매우 적으므로, 수학식 12와 관련된 계산 상의 복잡성은 비교적 낮다. IS-127의 3개의 "펄스"의 경우, (L= 53, 53, 54인 길이의) 3개의 서브 프레임 각각에 있어서, 펄스 위치 및 관련 부호에 대하여 10개 비트만이 할당되어 있다. 이 구성에서, 관련 "트랙"(track)은c k 내의 3개의 펄스 각각에 대하여 허용 가능 위치를 정의한다 (펄스당 3 비트와, +, -, + 또는 -, +, -의 복합 사인에 대한 1 비트). 표 4.5.7.4-1에 나타나 있는 바와 같이, 펄스 1은 위치 0, 7, 14, …, 49를 차지할 수 있고, 펄스 2는 위치 2, 9, 16, …, 51을 차지할 수 있으며, 펄스 3은 위치 4, 11, 18, …, 53을 차지할 수 있다. 이는 본 기술 분야에서 "인터리브 펄스 순열"(interleaved pulse permutation)로서 알려져 있다. 3개의 펄스의 위치는 공동으로(jointly) 최적화되고, 따라서 수학식 12는 83= 512회 실행된다. 그 다음, 사인(sign) 비트는 이득 항의 사인에 따라 설정된다.
표 1은 IS-127 레이트 1/2에 대해 정의된 펄스 위치를 개략적으로 나타낸다. 상기 시나리오의 한 문제점으로, 여기 코드벡터 ck는, 소정 위치가 벡터 공간에 의해 표시되지 않는 홀(hole)을 가질 수 있다는 것이다. 즉, 타겟 벡터에 대한 최적의 일치(match)는 위치 12에서 펄스를 필요로 하지만, 표 1의 펄스 위치들에 대한 정의는 펄스가 그 위치에 위치하는 것을 허용하지 않는다. 위치에 대한 제약에 의해, 펄스가 최적 위치에 가까운 위치에 위치되거나, 나쁘게는 타겟 신호의 에너지가 그 위치에서 완전히 없어질 수 있다. 이것은 합성 음성 신호에서 왜곡을 유발할 수 있으며, 가청 인공 신호(audible artifact)를 유발할 수 있다.
유사한 예로서, 설계 요건은, 4개의 개별 트랙 각각에 대해 1 펄스씩 4개의 펄스를 가지며, 서브프레임의 크기가 L = [53, 53, 54]이고, 서브프레임 당 16 비트로 비트 할당되는 것이다. 이 시나리오에서, 트랙들은, 종래 기술에서 사용되는 펄스 위치의 예를 나타내는 표 2에서와 같이 종래 기술에 따라 배치될 수 있는 4 펄스 ×14 위치 = 총 56 위치로 구성된다. 여기서, 16 비트의 비트 할당은 4개의 트랙 간에 동일하게 분할되어, 각 트랙은 4 비트를 수신한다. 트랙 당 4 비트는 또한 위치를 나타내기 위한 3 비트(8개의 서로 다른 위치를 나타냄) 및 펄스의 극성을 표시하기 위한 1 사인 비트로 구성된다.
이 예에서 알 수 있듯이, 모든 펄스 위치가 적당히 표시될 수 없기 때문에 벡터 공간에는 여전히 홀이 존재하게 된다. 한 가지 해결책은 14개의 위치 모드가 전부 유효하게 되도록 하는 것인데, 예컨대 펄스 p0의 위치를 [0, 4, 8, …, 52]로 하고, p1을 [1, 5, 9, …, 53]로 하는 것 등이다. 이 방법의 문제점은 위치 정보를 부호화하는 데 4 비트가 요구되므로, 서브프레임 당 16 비트로 하는 요건을 위반한다는 것이다 (4 트랙 ×(4 위치 비트 + 1 사인 비트) = 20 비트).
종래 기술에서 알려진 펄스 부호화를 위한 또 하나의 방법은 2 펄스의 인덱스를 하나의 신호 코드워드로 다중화 처리하는 것이다. 예컨대, IS-127 레이트 1의 경우(8.5Kbps), 5 트랙에 걸쳐 확산된 11개의 가능한 펄스 위치가 존재한다. 각 펄스 위치에 대해 4 비트를 사용하는 대신, 7 비트만을 이용하여 2 펄스의 위치를 공동으로 부호화될 수 있다. 이것은 2 펄스에 대한 위치의 총 수가 11 ×11 = 121로서, 7 비트(27= 128)로 부호화될 수 있는 총 위치 수보다 적다는 것을 고려할 때 달성된다. 부호화의 세부 사항은 수학식 13으로 표현될 수 있다.
여기서, pi및 pj는 i번째 및 j번째 펄스의 위치이고, [x]는 ≤x 의 가장 큰 정수를 나타낸다.
펄스 위치는 수학식 14에 의해 디코더에서 추출될 수 있다.
여기서, λi및 λj는 적당한 트랙 내의 절사(切捨)된 위치(decimated position)로서, 이들은 표 2를 이용하여 디코딩될 수 있으며, λ의 값은 표의 열에 대응한다. 표 2의 14개의 위치의 경우에 대해 이 방법을 사용할 때의 문제점은 14 ×14 = 196개의 위치 다중화가 여전히 8 비트(28= 256개의 가능한 위치)를 필요로 하므로, 단순히 펄스 당 4 비트를 사용하는 것에 비해 절약되는 것이 없다는 것이다. 명백히, 전술한 모든 종래 방법에서는, 펄스 위치의 효율적인 낮은 레이트 부호화를 허용하는 벡터 공간에 의해서 모든 위치가 적당히 표현되지 못한다.
전술한 바와 같이, 효율적인 16 비트, 4 펄스, 56 위치의 코드북(모든 위치를 표현 가능함)의 설계는 종래 기술에서 쉽게 달성될 수 없다. 그러나, 본 발명에 따르면, 전술한 예에서 나타나는 설계 제약을 유지하면서도 모든 펄스 위치를 부호화할 수 있는 방법이 제공된다. 또한, 본 발명은 다양한 설계 제약에 대해서도 효율적인 해결을 가능하게 하는 유연성을 제공한다.
본 발명은 2개 이상의 펄스 간의 위치 조합(postion combination)에 대한 제약을 가함으로써 전술한 문제를 해결한다. 예컨대, 주어진 펄스에 대해 허용가능한 위치들은 하나 이상의 다른 펄스의 관련 위치에 공동으로 의존한다. 이것은 본 발명에 따른 조인트 인터리브 펄스 순열 매트릭스를 나타내는 도 3의 14개의 위치 트랙 예에서 알 수 있다. 이 실시예에서, 도 3에 도시된 매트릭스는 펄스 0 및 1에 대한 것이고 서브프레임 길이 L은 L = 54이다. 이 도면에서, 펄스 0에 대한 각 위치는 수평축을 따라 도시되고, 펄스 1에 대한 위치는 수직축을 따라 도시된다. "금지"(forbidden) 펄스 조합은 사선부로 표시되고, 허용 가능 조합은 비사선부로 표시된다. 비사선부의 수는 주어진 비트의 수에 의해 표시될 수 있는 조합의 수와 정확히 같은데, 이 경우에는 27= 128이며, 사선부의 수는 펄스 0의 절사된 위치의 총 수 ×펄스 1의 절사된 위치의 총 수이고, 이로부터 주어진 비트 수에 의해 표시될 수 있는 조합의 수 즉, (14 ×14) - 128 = 68과 정확히 같다는 것을 알 수 있다.
각종의 펄스 위치 코드벡터가 (수학식 12를 통해) 검색될 때, 펄스 p1이 λ1= 0 (위치 (0 ×4) + 1 = 1에 대응)에 위치할 때, 펄스 p0에 대한 허용 가능 위치는 [4, 8, 16, 20, 28, 32, 40, 48, 52]이다. 유사하게, 펄스 p1이 위치 5(λ1= 1)에 위치할 때, 펄스 p0의 허용 가능 위치는 [0, 8, 12, 20, 24, 32, 36, 44, 52]이며, 그 외의 경우도 마찬가지이다. 모든 유효한 조합을 고려한 후, 단일의 7 비트 코드워드를 사용하여 인덱스할 수 있는 펄스 쌍들(코드북)의 128 ×2 리스트가 본 발명에 따라 생성된다. 이 코드워드는 복호 및 복원을 위한 목적지로의 전송에 적합하다. 더욱이, 이 코드북은 실행 시간(run time)에 대수적으로 생성되어, 휘발성 메모리(RAM)에 저장되거나 불휘발성 메모리(ROM)에 저장될 수 있다.
도 4는 본 발명에 따라 코드북을 생성하는 방법을 설명하는 순서도를 개략적으로 도시한다. 먼저, 순서도는 0 ≤i ≤M 및 0 ≤j ≤N의 모든 순열이 생성되는 기본적인 중첩형(nested) 루프 구조를 나타낸다. 이 예에서, N 및 M은 각 펄스에 대한 허용 가능 위치의 총 수를 나타낸다. 최내측 루프에서의 판정은 단계 402에서 함수 F(i, j)에 의해 금지 조합 [i, j]를 간단히 검사하는데, 상기 함수가 도 3의 예에서는 수학식 15로 표시된다.
이 함수는 i 및 j의 차의 절대값이 주어진 세트의 요소인 경우에는 값 1을 반환하고, 그렇지 않은 경우에는 0을 반환한다. 이것은 단계 403에 도시되어 있다. 주어진 세트의 요소들은 도 3의 대각선의 사선부 요소들 간의 거리에 대응하며, 따라서 이 식은 모든 필요한 사선부를 기술하는 데 충분하다. 허용된 펄스 조합에 있어서, 각 위치는 수학식 16을 이용하여 계산된다.
여기서, λ는 절사된 트랙 위치이고, Ntracks는 트랙 수이며, n은 트랙 번호이다. 단계 403에서 코드북 엔트리가 생성되면, 코드북 인덱스 k가 단계 404에서 증분되고, 프로세스는 코드북 전체가 단계 400, 401, 및 405 ~ 408을 통해 채워질 때까지 계속된다. 주어진 예의 펄스 p2및 p3에 대해서도, 위치 정보를 생성하는 데 마찬가지의 방법이 이용된다.
전술한 예는 금지 영역이 좌상에서 우하로의 대각선으로 나타나 있지만, 128개의 비사선부를 사용하는 임의의 패턴이 가능하며, 본 발명의 범위에 속하는 것으로 간주된다. 바람직한 실시예의 또 다른 특징은 다음과 같이 설명된다. 즉, 총 4 ×4 = 56개의 가능한 펄스 위치가 있다. 그러나, 서브프레임의 길이는 54개의 샘플보다 크지 않다. 따라서, 53(또는 서브프레임 1 및 2에 대해서는 52)보다 큰 장소에 위치를 제공하는 것은 부호화 효율을 감소시켜 품질을 저하시키게 된다. 도 5는 본 발명에 따른 펄스 p2및 p3에 대한 조인트 인터리브 펄스 순열 매트릭스를 개략적으로 나타낸다. 도 5에 도시된 바와 같이, 위치 54 및 55는 사선부에 의해 제외되어도 비사선부의 총 수는 128개 그대로이기 때문에, 보다 많은 조합을 유효 벡터 공간 내에 표시할 수 있게 된다. 이것은 도 3 및 5의 대각선들 간의 상대적인 간격을 비교함으로써 알 수 있는데, 도 3은 금지 대각선 사이에 2개 공간을 갖고, 도 5는 3개의 공간을 갖는다. 도 5의 금지 조합에 대한 폐형식의 식(closed form expression)은 수학식 17로 나타낼 수 있다.
도 5의 예는 본질적으로 덜 제한적이며, 따라서 더 높은 부호화 정밀도를 얻을 수 있다는 것을 알 수 있다.
당업자라면 이해할 수 있는 바와 같이, 우상으로부터 좌하로의 대각선 뿐만 아니라, 본 발명에 따라 설명된 방법을 이용하여 특정의 용도에 유리하도록 다수의 다른 패턴을 형성하는 것이 가능하다. 또한, 펄스의 수의 차원을 2 이상으로 확장함으로써 임의의 폐형식의 식 F(λ)가 허용될 수 있는데, 여기서, λ = [λ0, λ1, …, λn-1]는 후보 펄스 위치들의 벡터이고, n은 펄스 수이다.
본 발명은 특정 실시예를 참조하여 구체적으로 도시되고 설명되었지만, 당업자는 본 발명의 사상 및 범위를 벗어나지 않고도 각종 변형이 가능하다는 것을 이해할 것이다. 첨부된 청구범위의 모든 수단 또는 단계 및 기능 요소들의 대응 구조, 재료, 작용 및 균등물은 구체적으로 청구된 다른 요소와 조합하여 기능을 수행하기 위한 모든 구조, 재료 또는 작용을 포함하는 것으로 의도되었다.

Claims (5)

  1. 정보 신호를 부호화하기 위한 방법에 있어서,
    a) 상기 정보 신호를 블록으로 분할하는 단계;
    b) 상기 정보 신호의 블록에 기초하여 타겟 신호를 도출하는 단계;
    c) 오차 기준에 기초하는 펄스 위치 결정 기술 - 주어진 펄스의 허용 가능 위치는 하나 이상의 다른 펄스의 위치에 의존함 - 을 이용하여 상기 타겟 신호를 부호화하여, 부호화된 펄스 위치를 생성하는 단계, ; 및
    d) 상기 부호화된 펄스 위치를 목적지로 전송하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 상기 정보 신호는 음성 신호 또는 오디오 신호를 더 포함하는 방법.
  3. 제1항에 있어서, 상기 정보 신호의 블록은 상기 정보 신호의 프레임 또는 서브프레임을 더 포함하는 방법.
  4. 제1항에 있어서, 상기 오차 기준은 지각 가중 제곱 오차 기준을 더 포함하는 방법.
  5. 제1항에 있어서, 상기 허용 가능 펄스 위치는 폐형식의 식(closed form expression)을 이용하여 결정되는 방법.
KR10-2001-7003129A 1998-09-11 1999-08-24 정보 신호를 부호화하는 방법 및 장치 KR100409167B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15143098A 1998-09-11 1998-09-11
US09/151,430 1998-09-11

Publications (2)

Publication Number Publication Date
KR20010073146A KR20010073146A (ko) 2001-07-31
KR100409167B1 true KR100409167B1 (ko) 2003-12-12

Family

ID=22538745

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-7003129A KR100409167B1 (ko) 1998-09-11 1999-08-24 정보 신호를 부호화하는 방법 및 장치

Country Status (6)

Country Link
EP (1) EP1112625B1 (ko)
JP (1) JP4460165B2 (ko)
KR (1) KR100409167B1 (ko)
AT (1) ATE328407T1 (ko)
DE (1) DE69931641T2 (ko)
WO (1) WO2000016501A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6539349B1 (en) 2000-02-15 2003-03-25 Lucent Technologies Inc. Constraining pulse positions in CELP vocoding
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4847905A (en) * 1985-03-22 1989-07-11 Alcatel Method of encoding speech signals using a multipulse excitation signal having amplitude-corrected pulses
JPH05346798A (ja) * 1992-06-16 1993-12-27 Matsushita Electric Ind Co Ltd 音声符号化装置
KR940002854A (ko) * 1992-07-31 1994-02-19 임홍식 반도체 녹음기의 메모리 정리 기능
JPH1097294A (ja) * 1996-02-21 1998-04-14 Matsushita Electric Ind Co Ltd 音声符号化装置
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
US5826226A (en) * 1995-09-27 1998-10-20 Nec Corporation Speech coding apparatus having amplitude information set to correspond with position information
US5963897A (en) * 1998-02-27 1999-10-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for hybrid excited linear prediction speech encoding
US5970444A (en) * 1997-03-13 1999-10-19 Nippon Telegraph And Telephone Corporation Speech coding method
JPH11327597A (ja) * 1998-05-11 1999-11-26 Nec Corp 音声符号化装置及び音声復号化装置
EP0984432A2 (en) * 1998-09-01 2000-03-08 Fujitsu Limited Pulse position control for an algebraic speech coder

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE463691B (sv) * 1989-05-11 1991-01-07 Ericsson Telefon Ab L M Foerfarande att utplacera excitationspulser foer en lineaerprediktiv kodare (lpc) som arbetar enligt multipulsprincipen

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4847905A (en) * 1985-03-22 1989-07-11 Alcatel Method of encoding speech signals using a multipulse excitation signal having amplitude-corrected pulses
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
JPH05346798A (ja) * 1992-06-16 1993-12-27 Matsushita Electric Ind Co Ltd 音声符号化装置
KR940002854A (ko) * 1992-07-31 1994-02-19 임홍식 반도체 녹음기의 메모리 정리 기능
US5826226A (en) * 1995-09-27 1998-10-20 Nec Corporation Speech coding apparatus having amplitude information set to correspond with position information
JPH1097294A (ja) * 1996-02-21 1998-04-14 Matsushita Electric Ind Co Ltd 音声符号化装置
US5970444A (en) * 1997-03-13 1999-10-19 Nippon Telegraph And Telephone Corporation Speech coding method
US5963897A (en) * 1998-02-27 1999-10-05 Lernout & Hauspie Speech Products N.V. Apparatus and method for hybrid excited linear prediction speech encoding
JPH11327597A (ja) * 1998-05-11 1999-11-26 Nec Corp 音声符号化装置及び音声復号化装置
EP0984432A2 (en) * 1998-09-01 2000-03-08 Fujitsu Limited Pulse position control for an algebraic speech coder

Also Published As

Publication number Publication date
JP4460165B2 (ja) 2010-05-12
KR20010073146A (ko) 2001-07-31
DE69931641T2 (de) 2006-10-05
WO2000016501A1 (en) 2000-03-23
JP2002525667A (ja) 2002-08-13
ATE328407T1 (de) 2006-06-15
DE69931641D1 (de) 2006-07-06
EP1112625A1 (en) 2001-07-04
EP1112625A4 (en) 2004-06-16
EP1112625B1 (en) 2006-05-31

Similar Documents

Publication Publication Date Title
KR100310811B1 (ko) 정보 신호 코드화 방법 및 장치
US5991717A (en) Analysis-by-synthesis linear predictive speech coder with restricted-position multipulse and transformed binary pulse excitation
EP1225568B1 (en) Algebraic codebook with signal-selected pulse amplitudes for fast coding of speech
US6236960B1 (en) Factorial packing method and apparatus for information coding
US8688439B2 (en) Method for speech coding, method for speech decoding and their apparatuses
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
KR100487943B1 (ko) 음성 코딩
US6055496A (en) Vector quantization in celp speech coder
KR20020077389A (ko) 광대역 신호의 코딩을 위한 대수적 코드북에서의 펄스위치 및 부호의 인덱싱
US6678651B2 (en) Short-term enhancement in CELP speech coding
JP3396480B2 (ja) 多重モード音声コーダのためのエラー保護
US6330531B1 (en) Comb codebook structure
KR100338211B1 (ko) 음성의 부호화 및 복호화 방법 및 장치
KR100409167B1 (ko) 정보 신호를 부호화하는 방법 및 장치
Bessette et al. Techniques for high-quality ACELP coding of wideband speech
Juan et al. An 8-kb/s conjugate-structure algebraic CELP (CS-ACELP) speech coding
KR20060064694A (ko) 디지털 음성 코더들에서의 고조파 잡음 가중
CA2210765E (en) Algebraic codebook with signal-selected pulse amplitudes for fast coding of speech
CA2618002C (en) Algebraic codebook with signal-selected pulse amplitudes for fast coding of speech
WO2001009880A1 (en) Multimode vselp speech coder
Taddei et al. Efficient coding of transitional speech segments in CELP
Kövesi et al. A multi-rate codec family based on GSM EFR and ITU-t g. 729.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121030

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20131030

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20141107

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20151109

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20161110

Year of fee payment: 14

LAPS Lapse due to unpaid annual fee