KR20010073149A - 지연 윤곽 조정을 사용하여 정보 신호를 코딩하는 방법 및장치 - Google Patents

지연 윤곽 조정을 사용하여 정보 신호를 코딩하는 방법 및장치 Download PDF

Info

Publication number
KR20010073149A
KR20010073149A KR1020017003143A KR20017003143A KR20010073149A KR 20010073149 A KR20010073149 A KR 20010073149A KR 1020017003143 A KR1020017003143 A KR 1020017003143A KR 20017003143 A KR20017003143 A KR 20017003143A KR 20010073149 A KR20010073149 A KR 20010073149A
Authority
KR
South Korea
Prior art keywords
delay
information signal
contour
information
coding
Prior art date
Application number
KR1020017003143A
Other languages
English (en)
Other versions
KR100409166B1 (ko
Inventor
제임스 피. 애실리
웨이민 펑
Original Assignee
비센트 비.인그라시아, 알크 엠 아헨
모토로라 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 비센트 비.인그라시아, 알크 엠 아헨, 모토로라 인코포레이티드 filed Critical 비센트 비.인그라시아, 알크 엠 아헨
Publication of KR20010073149A publication Critical patent/KR20010073149A/ko
Application granted granted Critical
Publication of KR100409166B1 publication Critical patent/KR100409166B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

개방-루프 지연 윤곽 추정기(204)는 정보 신호의 코딩 동안 지연 정보를 생성한다. 지연 윤곽은 서브프레임 베이시스에서 에러 최소화 크리테리아에 따라 조정되고, 이는 실제 지연 윤곽의 보다 정확한 추정을 허가한다. 지연 윤곽 재구성 블럭(211)은 정보 신호를 재구성하는데 있어서 디코더 내의 지연 정보를 사용한다.

Description

지연 윤곽 조정을 사용하여 정보 신호를 코딩하는 방법 및 장치{METHOD AND APPARATUS FOR CODING AN INFORMATION SIGNAL USING DELAY CONTOUR ADJUSTMENT}
디지털 음성 압축 시스템은 통상적으로 입력 신호의 기본 주파수 추정을 필요로 한다. 기본 주파수는 일반적으로 피치 지연(혹은 "lag"로 공지됨)의 견지에서 추정된다. 이 둘은 다음 표현에 의해 관련된다.
여기서 샘플링 주파수는 전화 등급 어플리케이션(telephone grade application)에 있어서 일반적으로 8000 ㎐이다.
음성 신호는 일반적으로 비-정지(non-stationary)이므로, 프레임이라 불리는 유한 길이 벡터로 분할되고(예컨데, 10 대 40 ㎳), 이들 각각은 준-정지(quasi-stationary)인 것으로 추정된다. 음성 신호를 기술하는 파라미터는 그 때 조합(associated) 프레임 길이 간격에서 갱신된다. 또한 오리지널 CELP(CodeExcited Linear Prediction) 알고리즘은 보다 짧은 서브 프레임 간격에서 피치 주기(LTP(Long Term Prediction)로 불리는 것을 사용하여) 정보를 갱신하고, 따라서 프레임에서 프레임으로의 보다 원활한 전이(transition)를 허가한다.은 개방-루프(open-loop) 방식을 사용하여 추정될 수 있지만, 폐쇄-루프(closed-loop) 접근법을 사용하여 보다 우수하게 수행될 수 있다는 것을 주목해야 한다. 폐쇄-루프 방식은 서브프레임 베이시스 상에서의 모든 가능한 값(통상적으로 20에서 147까지의 정수 값)의 소모적인 탐색(exhaustive search)을 수반하고, 그 값을 선택하여 임의의 최소 에러 표준을 만족한다.
이러한 방식이 개선되어이 정수 플러스 분수 값 상에서 얻어지도록 허가하게 한다. 이러한 방식의 실제적인 실행의 일례는 GSM 1/2 레이트 음성 코더에서 발견될 수 있으며, 도 1에 도시된다. 여기서, 21 내지 22-2/3 범위 내의 래그(lag)는 1/3 샘플 해상도를 허가하고, 23 내지 34-5/6 범위 내의 래그는 1/6 샘플 해상도를 허가한다. 낮은 탐색 복잡성을 유지하기 위해, 개방-루프 및 폐쇄-루프 방식의 조합이 사용된다. 개방-루프 방식은 자동상관성 피크 피킹 알고리즘(autocorrelation peak picking algorithm)을 사용하여 정수 래그 후보 리스트를 생성하도록 한다. 그 때 최적의 분수 래그 값을 위해 폐쇄-루프 방식은 정수 래그 후보의 주변에서, 허가 가능한 래그를 탐색한다. 또한, 서브프레임 2, 3, 및 4에 대한 래그는 이전 서브프레임과의 차이에 의거하여 코드된다. 이는 래그 파라미터의 높은 내부-프레임 상관성으로 인해, 보다 소수의 비트를 사용하여 래그정보가 코드될 수 있도록 허가한다. 비록 그렇다 하더라도, GSM HR 코덱은 피치 주기 정보를 전달하기 위해 20 ㎳ 마다 총 8 + (3 ×4) = 20 비트를 사용한다.
피치 주기 정보의 비트 레이트를 줄이기 위한 노력에 있어서, 일반적인 서브프레임 해상도에 의한 것 보다 (단지 7 비트 => 350 bps를 사용하여) 보간법 (interpolation strategy)이 개선되어, 피치 정보가 프레임 당 단지 한 번 코드되도록 허가한다. 이러한 기술은 완화된 CELP(혹은 RCELP)로서 공지되고, 이는 CDMA(Code Division Multiple Access) 무선 전화 시스템에 있어서 최근에 채택된 EVRC(enhanced variable rate codec)을 위한 베이시스이다.
피치 주기는 현재 프레임의 끝에서 중심에 있는 분석 윈도우에 대해 추정된다. 래그(지연) 윤곽은 그 때 발생되고, 이는 과거 프레임의 래그를 현재 프레임의 래그에 선형 보간함으로써 구성된다. 그 때, LP(linear prediction) 잉여 신호 (residual signal)는 정교한 다상 필터링 및 시프팅 기술에 의해 변형되고, 이는 추정된 지연 윤곽에 잉여 파형을 매치하도록 설계된다. 이러한 잉여 변형 처리의 주된 이유는 개방-루프 정수 래그 추정 처리의 정확성 한정을 설명하기 위한 것이다. 예를 들어, 정수 래그가 32 샘플인 것으로 추정되면, 실제 래그(true lag)가 사실 32.5 샘플일 때, 잉여 파형은 단일 160 샘플 프레임에서 2.5 샘플 만큼 많음으로써 추정된 래그와 상충될 수 있다. 이는 LTP 수행을 상당히 격하시킬 수 있다. RCELP 알고리즘은 추정된 지연 윤곽을 매치하기 위한 잉여 파형(즉, 저 에너지)에 있어서 지각적으로 중요하지 않은 사례 동안 잉여 파형을 시프팅함으로써 이를 설명한다. 추정된 지연 윤곽을 매치하기 위해 잉여 파형을 변형함으로써, LTP의 효과가 보호되고, 코딩 이득이 유지된다. 또한, 잉여 변형으로 인한 조합한 지각적인 격하는 중요하지 않은 것으로 주장된다.
그러나, 이러한 이전 주장은 EVRC 풀 레이트 모드(즉, 8.5 kbps)와 같은 매체 비트 레이트 코더에 대해서는 참일 수 있는 반면, EVRC 해프 레이트 모드에 대해서는 그다지 명백하지 않고, 이는 4.0 kbps에서 동작한다. 고정된 코드북의 상대적인 능력 때문에 관련된 인벌스 에러 신호를 모델링한다. 즉, LTP에서의 비능률에 의해 코딩 왜곡이 나타난다면, 이러한 왜곡은 고정된 코드북에 의해 효과적으로 모델링될 수 있고, 그 때 왜곡이 취소되는 네트 효과가 나타날 수 있다. 그래서, EVRC 풀 레이트 모드는 고정된 코드북 이득 및 형태에 대해 프레임 당 170 비트 중에서 120을 할당하는 반면, 해프 레이트 모드는 동일한 것에 대해 프레임 당 80 비트 중에서 단지 42를 제공할 수 있다. 이 결과, LTP에 의한 코딩 왜곡을 모델링하는 고정된 코드북의 무능력으로 인해 불균형 수행 격하가 나타난다.
따라서, 저 레이트 음성 코딩 방식을 개선하기 위해 필요한 것이 있다.
본 발명은 일반적으로, 통신 시스템에 관한 것이고, 특히, 그러한 통신 시스템에서의 정보 신호 코딩에 관한 것이다.
도 1은 일반적으로 GSM 해프-레이트 음성 코더에 대한 분수 래그 값을 기술하는 도면.
도 2는 일반적으로 본 발명에 따른 지연 윤곽 조정을 사용하는 음성 압축 시스템을 기술하는 도면.
도 3은 일반적으로 종래 기술에 공지된 지연 윤곽의 추정을 기술하는 도면.
도 4는 일반적으로 본 발명에 따른 지연 윤곽 조정 공정의 순서도를 도시하는 도면.
도 5는 일반적으로 본 발명에 따른 디코딩 및 지연 윤곽 재구성 공정을 도시하는 도면.
도 6은 일반적으로 본 발명에 따른 윤곽 지연 조정 공정의 결과를 기술하는 도면.
일반적으로, 개방-루프 지연 윤곽 추정기는 정보 신호의 코딩 동안 지연 정보를 생성한다. 지연 윤곽은 실제 지연 윤곽의 보다 정확하게 추정할 수 있도록 허가하는 서브프레임 베이시스 상에서 조정된다. 지연 윤곽 재구성 블럭은 정보 신호를 재구성하는데 있어서 디코더에서 지연 정보를 사용한다. 음질을 보다 개선하기 위해, 지연 윤곽은 축적된 시프트에서 변형이 최소화되도록 조정된다.
보다 구체적으로, 정보 신호를 코딩하는 방법은 정보 신호를 블럭으로 나누는 단계, 정보의 현재 및 과거 블럭의 지연을 추정하는 단계, 및 정보의 현재 및 과거 블럭의 지연에 의거하여 지연 윤곽을 형성하는 단계를 포함한다. 상기 방법은 길이에 있어서 한 블럭 이하의 간격에서 지연 윤곽의 형태를 조정하는 단계, 및 착신지로 전송하기에 적합한 코드를 생성하기 위해 조정된 지연 윤곽의 형태를 코딩하는 단계를 더 포함한다.
바람직한 실시예에 있어서, 정보 신호는 음성 혹은 오디오 신호 중 하나를 더 포함하고, 정보 신호의 블럭은 정보 신호의 프레임을 더 포함한다. 또한, 이전 지연 및 현재 지연 사이에는 지연 윤곽을 형성하기 위해 선형 보간이 사용된다. 길이에 있어서 한 블럭보다 적은 간격은 길이에 있어서 서브프레임을 포함한다.
길이에 있어서 한 블럭 이하의 간격에서 지연 윤곽의 형태를 조정하는 단계는 한 점 혹은 현재 및 이전 지연 사이에서, 조정된 지연을 결정하는 단계, 및 이전 지연 지점 및 조정된 지연 지점 사이에 선형 보간을 형성하는 단계를 더 포함한다. 조정된 지연 지점을 결정할 때, 축적된 시프트에서의 변형은 최소화된다. 조정된 지연을 결정하는 단계는 타겟 잉여 신호 및 오리지널 잉여 신호 간의 상관성을 최대화하는 단계를 더 포함한다. 이전 지연 지점은 미리 조정된 지연 지점을 더 포함한다. 또한, 지연 윤곽의 형태를 조정하는 단계는 한 지점에서 혹은 현재 및 이전 지연 사이에서, 복수의 조정된 지연을 결정하는 단계, 및 조정된 지연 지점들 사이에 선형 보간을 형성하는 단계를 더 포함한다.
정보 신호를 코딩하는 시스템 역시 개시된다. 시스템은 정보 신호를 블럭으로 나누는 수단, 및 정보의 현재 및 이전 블럭의 지연을 추정하고, 디코더로의 전송에 있어서 지연 정보를 생성하기 위해, 길이에 있어서 한 블럭 이하의 간격에서 지연 윤곽의 형태를 조정하기 위해 정보의 현재 및 이전 블럭의 지연에 의거하여 지연 윤곽을 형성하는 수단을 포함하는 코더를 포함한다.
시스템 내에 있어서, 정보 신호는 음성 혹은 오디오 신호 중 하나를 더 포함하고, 정보 신호의 블럭은 정보 신호의 프레임을 더 포함한다. 지연 정보는 지연 조정 인덱스를 더 포함한다. 또한 시스템은 지연 정보를 수신하고 정보 신호를 재구성하는데 사용하는 조정된 지연 윤곽을 생성하는 디코더를 포함한다.
도 2는 일반적으로 본 발명에 따른 지연 윤곽 조정을 사용하는 음성 압축 시스템(200)을 기술한다. 도 2에 도시된 바와 같이, 입력 음성 신호 s(n)은 입력 음성 신호 s(n)의 단-기간 스펙트럼 엔벌로프를 평평하게 하는 LP(linear prediction) 분석 필터(202)에 의해 처리된다. LP 분석 필터의 출력은 LP 잉여로서 설계된다. LP 잉여 신호는 그 때 지연 윤곽 조정을 위해 사용되도록 지연 윤곽, 개방-루프 피치 예측 이득및 지연 정보를 추정하기 위한 베이시스로서 개방-루프 래그 추정기(204)에 의해 사용된다. RCELP 잉여 변형 공정(206)은 상술한 바와 같이, LP 잉여를 지연 윤곽에 매핑하기 위해 이러한 정보를 사용한다. 변형된 잉여 신호는 그 때 장 기간 예측기(208)에 의해 처리되기 이전에 결국 합성기 여기 시퀀스(synthesizer excitation sequence)의 특성을 나타내는 고정된 코드북(210)에 의해 가중 합성 필터(207)를 통과한다. 디코더 측에서, 고정된 코드북 인덱스/이득은 여기 시퀀스를 출력하는 여기 발생기(excitation generator; 212)에 입력된다. 지연 정보는 조정된 지연 윤곽이 출력되는 지연 윤곽 재구성 블럭(211)으로 입력된다. 블럭(211)로부터 출력된 조정된 지연 윤곽은 장 기간 합성 필터(214)에 입력되고, 본 발명에 따라 재구성된 음성 출력을 생성하기 위해 단 기간 합성 필터(216)로 입력되는 신호를 출력한다.
종래 기술에 있어서, 지연 윤곽은 도 3에 도시된 바와 같이, 음성의 현재 프레임 끝에 있는 추정된 지연, 및 음성의 이전 프레임 끝에 있는 지연 사이의 선형 보간에 의해 추정된다. 프레임의 끝에 있는 지점에 대응하여 지연을 추정하기 위해, 피치 분석 프레임이 그 지점에 대해 중심에 위치되어야 한다. 따라서, 피치 분석 프레임의 반(half)은 다음 프레임으로 "룩-어헤드(look-ahead)"해야 한다. 이러한 실시예에 있어서 피치 분석 프레임은 160 샘플로 구성되고, 이는 80 샘플(혹은 10 ㎳)의 룩-어헤드 길이에 대응한다. 당업자에게는 명백한 바와 같이, 적어도 두 개의 풀 피치 주기가 요구되므로, 80 샘플 이상의 지연이 160 샘플을 사용하여 반드시 분해될 수 있는 것은 아니다. 룩-어헤드(및 이어서, 알고리즘적 지연)의 양을 증가시키는 것 보다, 보충 피치 윈도우가 사용되어, 보다 긴 지연을 추정하는 것을 설명하기 위해 주어진 피치 윈도우로부터 제시간에 오프셋된다. 그러나 단순화를 위해, 단지 주요 피치 분석 윈도우만 도 3에 도시된다.
그러나 보간된 지연 윤곽으로도, 추정이 실제 마진에 의해 실제 지연 윤곽으로부터 이탈할 수 있다는 것을 보다 쉽게 볼 수 있다. 프레임동안, 예를 들어, 지연 윤곽의 추정은 정수 종점 속박(integer endpoint constraints)에 의해 가능한한 정확하게 주어지지만, 볼 수 있는 것과 같이, 추정은 지연 유닛의 약 1/4 이상에 의해 일관적으로 오프된다. 40의 지연에 대해, 단일 프레임은 하나의 샘플의 에러를 축적하고, 따라서 LTP 효율이 감소한다. 프레임에서 추정된 지연 윤곽은 지연 파라미터의 선형 보간이 실제 지연 윤곽에 나타난 다양성을 적절하게분해할 수 없을 때의 일례를 도시한다.
상술된 바와 같이, RCELP 알고리즘은 지연 윤곽을 매칭하기 위해 잉여를 변형함으로써 소정의 효율을 돌려 받을 수 있지만, 다음 수행을 제한할 수 있다는 알고리즘에 대한 제한이 있다. 예를 들어, 지연 윤곽을 매칭하기 위해 잉여 신호를 시프팅하는 것은 특정 실례, 즉 국부화된 잉여 에너지가 낮을 때 만 일어날 수 있다. 그러나, 이러한 예는 피치 주기들 간의 상대적인 공간이 짧기 때문에 고 주파수의 화자에게는 좋지 않을 수도 있고, 따라서, 시프팅 동작을 수행할 기회가 적다. 또한 허가된 전체 축적 시프트에서 최대 한계가 존재하여, 한계에 도달할 때 인공물(artifacts)로 될 수 있다. 최대 허락할 수 있는 축적된 시프트는 부분적으로 룩-어헤드 길이의 기능이므로, 이는 특히 알고리즘적 지연을 바람직하게 줄이는 것에 관계한다.
알고리즘적 지연(이는 주어진 입력 샘플이 출력에 나타나는 시간으로서 정의된다.)은 매무 중요하므로, 룩-어헤드의 길이를 줄이는 것이 바람직하고, 이로써 전체 알고르즘적 지연을 감소시킬 수 있다. 예를 들어, GSM(Gobal Systems for Mobile Communications) 상태에 있어서 AMR(Adaptive Multi-Rate) 코덱과 같은 음성 코딩 표준을 위한 요구로서, 알고리즘적 지연이 프레임 길이 플러스 5 ㎳를 초과할 수 없다. 이는 40 샘플의 룩-어헤드에 대응한다. 여기서 기술된 종래 기술에 따른 음성 코더에 있어서, 피치 분석 윈도우는 왼쪽으로 시프트(혹은, 시간 내에 돌아온다)되어야 한다. 이러한 상황에 있어서의 문제는 피치 분석 윈도우가 현재 프레임의 끝에서 더이상 중앙에 위치하지 않는다는 것이지만, 프레임 내에서3/4 마크(160 중 120 샘플)에 있다. 이는 잘해야 지연 윤곽의 불연속적 추정을 유도한다. 지연 윤곽에 있어서 불연속성과 관련된 문제는, 동등한 알고리즘의 증가된 룩-어헤드 버전이 얻어질 수 있는 음질을 얻는 것이 불가능하다는 것이다.
본 발명의 바람직한 실시예에 따르면, 지연 윤곽의 보다 정확한 추정은 지연 윤곽에서 LP 잉여 신호의 보다 정확한 매핑의 결과로서 제공된다. 이는 다음과 같이 달성된다.
종래 기술에 있어서, TIA 다큐먼트 IS-127에서 정의된 바와 같은 음성 인코딩인 경우에, 지연 보간 매트릭스d는 서브프레임 베이시스에서 지연 보간을 위해 종점을 확립하는데 사용되는데, 다음과 같다.
여기서,은 현재 프레임에 대한 지연 추정이고,은 이전 프레임에 대한 지연 추정이고,m'은 현재 서브프레임이고,j는 보간 지점의 시작, 끝 및 확장부를 위한 인덱스이다. 이는 IS-127에서 Eq. 4.5.4.5-1에 나타난다. 또한, 보간 계수는 다음과 같이 주어진다.
이는 각 서브프레임 보간에 대한 0/160, 53/160, (53+53)/160, 및 160/160종점 분수를 반영한다. 이는 IS-127에서 Eq. 4.5.4.5-2에 나타난다. 끝에서 1.0의 두배는 프레임 끝을 지나서 까지의 추정 확장으로 인한 것이다. 각 서브프레임에 대한 지연 윤곽은 그 때 샘플 베이시스 당 엄밀한 선형 보간으로 계산된다.
여기서,L은 서브프레임 사이즈이다. 이는 IS-127에서 Eq. 4.5.5.1-1에 나타난다.
본 발명에 따르면, 지연 윤곽은 실제 지연 윤곽에 있어서 정제되고 보다 높은 해상도 추정을 허가하기 위해 서브프레임 베이시스에서 조정된다. 서브프레임 베이시스에서 종점을 조정하는 공정은 축적된 시프트를 수반하는 최소화 절차로 구성된다. 기본적으로, 축적된 시프트는 현재 잉여 타겟 신호를 생성하는데 사용되는 것으로, IS-127에서 Eq. 4.5.6.1-1에 정의된 바와 같이 과거 변형된 잉여 신호의 최적이 아닌 왜곡의 결과로서 변형한다. 입력 단-기간 잉여 신호가 지연 윤곽의 기능인 타겟 잉여 신호를 충분히 매칭하지 않는다면, 그 때 잉여 신호는 지연 윤곽을 매칭하기 위해 시프트될 것이다. 그러나 초과적인 시프트는 지연 윤곽이 적절히 추정되지 않는다는 지표이고, 이는 격하된 음질을 생성할 수 있다. 따라서, 본 발명은 본 발명에 따른 축적된 시프트에서의 변형을 최소화하기 위해 지연 윤곽을 조정함으로써 음질을 개선한다. 또한, 조정된 지연 윤곽을 결정하는 방법은 축적된 시프트를 상수값으로 유지할 수 없다면 축적된 시프트의 절대값을 줄이는 쪽으로의 성향을 포함한다.
도 4는 일반적으로 본 발명에 따른 지연 윤곽 조정 공정의 순서도를 도시한다. 조정된 지연 윤곽 계산의 부분으로서, 첫 번째 공정은 종래 기술에서 공지되고, IS-127에서 4.2.3 부분에 기술된 바와 같이, 단계 301에서 현재 프레임의 지연을 계산한다. 또한, 여기서 참고용으로 포함된 것으로, 본 발명의 양수인에게 양된 "Method and Apparatus for Estimating the Fundamental Frequency of a Signal"이란 제목의 미국 특허출원 일련 번호 09/086,509에서 기술된 방법 역시 단계 301을 수행하기 위해 유용하게 사용될 수 있다. 지연 윤곽 종점은 그 때 상기 수학식 2와 유사한, 다음 수학식에서 주어진 조건부 선형 보간에 의해 현재 서브프레임m'에 대한 단계 302에서 계산된다.
여기서은 이전 서브프레임에 대한 지연 조정 팩터이고, 이는 현재 프레임에 대해 단계 305-310에서 계산된다. 지연 조정 팩터의 초기값은 제로이다. 수학식 2와 수학식 5 및 6의 근본적인 차이는
(a) 제1 서브프레임(m'= 0, 수학식 5)에 있어서, 보간에 대한 종점은이고,이 아니다. 이는 프레임에서 프레임으로의 지연 조정 연속성을 허가한다.
(b) 제 1 서브프레임 이외의 서브프레임들(, 수학식 6)에 있어서, 그리고 프레임 지연이 큰 마진에 의해 변형될 때, 디폴트 지연 값은이고,이 아니다.
(c) 제1 서브프레임 이외의 서브프레임들(, 수학식 6)에 있어서, 그리고 프레임 지연이 보간 한계 내에 있을 때, 지연 종점은 이전 지연 조정 값에 의해 전체적으로 시프트된다.
현재 서브프레임에 대한 지연 증대 팩터m'는 그 때 다음 수학식에 따라 단계 303에서 계산된다.
여기서,은 사이즈가 상수인 단계이다. 이러한 수학식은 평균 서브프레임 지연에 비례하는 증대 팩터를 야기한다.
다음에, 지연 조정 바이어스 섹터b는 다음 수학식에 따라 단계 304에서 계산된다.
바이어스 선택자b의 목적은 지연 궤도에 의거하는 지연 조정 팩터에 대해 보다 많은 양자 레벨을 허가하기 위한 것이다. 예를 들어, 바람직한 실시예에 있어서, 지연 조정 파라미터는 서브프레임 당 2 비트를 포함하고, 이는 4개의 별개의 지연 조정값에 대응한다. 바이어스 선택자를 사용하여, 지연 조정 후보에 대한 값이 다음과 같을 수 있다.
그 결과,b= 0의 바이어스 선택자는 - 조정 쪽으로 바이어스된 값들을 사용하고,b= 1의 바이어스 선택자는 + 조정 쪽으로 바이어스된 값들을 사용한다. 이러한 체계에서 두 가지의 이점이 있다. 첫 번째로, 0의 조정은 지연 윤곽이 강요되는 조정없이도 충분히 정확하다는 것을 의미하도록 항상 나타난다. 두 번째로, 바이어스는 동적 범위가 보다 높은 확률을 갖는 값 쪽에서 보다 크도록 설정될 수 있다. 즉,의 지연은 지연 윤곽에 있어서 상향하는 경향을 나타낸다. 따라서,b= 1의 바이어스는 지연에서 상향하는 경향을 보다 명백하게 나타내도록 + 측에서 보다 큰 동적 범위를 허가하도록 선택될 것이다. 즉,. 유사한 로직은 하향하는 경향을 위해 사용된다.
단계 305-310은 최적 지연 조정 팩터의 결정에 관계하고, 이는 일반적으로 본 발명에 따른 정보의 주어진 서브프레임에 대해, 축적된 시프트 내에서의 변형을 최소화하는 절차를 포함한다. 후보 지연 윤곽 각각은 다음 수학식에 따라 단계 305에서 계산되고, 이는 상기 수학식 4와 유사하다.
여기서는 상기 수학식 9에서 기술되는 요소를 갖는다. 후보 지연 윤곽이 계산될 때, 축적된 시프트는 종래 기술, 구체적으로, "Modification of the Residual"이라는 제목의 IS-127의 4.5.6 부분에서 기술되는 바와 같이 단계 306에서 갱신된다. 또한, 축적된 시프트에서의 변형 최소화와 관련된 파라미터는 단계 307-309에서 저장되고, 처리 루프는 단계 310에서 소실되는 모든 조정된 지연 윤곽 후보에 따라 종결된다.
최적 서브프레임 지연 윤곽이 발견될 때, 최적 지연 조정에 대응하는 테이블 인덱스는 단계 311에서 디코더로 전송되고, 서브프레임 인코딩 공정의 리마인더가 수행되며, 이는 단계 312에서의 잉여의 변형과 단계 313에서의 적응성 코드북 기여의 발생을 포함한다. 공정은 그 때 단계 314에서 지시되는 바와 같이, 리마인딩 서브프레임을 위해 반복된다.
여기서, 정보의 주어진 서브프레임에 대해, 수학식 10으로부터 조정된 모든 지연 윤곽 후보들이 축적된 시프트에서 이상적인 변형을 수행할 수 있다는 것은 주목되어야 한다. 이러한 경우에, 제로의 조정은 탐색 후보의 오더링때문에 선택된다. 수학식 9에서 보여지는 바와 같이,의 값은 첫 번째로 테스트되고, 최소화가 구성됨으로써 다음 후보들이 선택되기 위해, 축적된 시프트에서 절대적인 변형을 줄여야한다. 또한 후보는 0에서 시작되도록 지시되고, 절대값에서 점차적으로 증가함을 주의한다. 이는 최소값에서의 지연 조정에서 절대적인 변형을 유지하는 쪽으로 바이어스를 형성한다. 또한, 바람직한 실시예는 단계 307에서 추가적인 최소화 로직을 실행하고, 그 결과 조정된 지연 윤곽 후보 두 개가 축적된 시프트에서 동일하지만 서로 반대 극을 갖는 절대적인 변형을 야기하고, 절대적인 축적된 시프트를 낮추는 지연 조정 후보가 선택된다. 예로서, 현재 축적된 시프트가 5라면,의 조정은 +1 및 -1의 축적된 시프트 각각의 변형을 야기하고, 그 때 네트 축적된 시프트가 6 대신 4이므로의 값이 선택될 것이다. 절대적인 축적된 시프트를 최소화하는 쪽을 향하는 이러한 바이어스는 시프트 버퍼를 포화시키는 확률을 감소시키고, 또한 오리지널 음성 및 변형된 음성 사이의 스큐를 최소화함으로써 음질을 개선한다(배경 기술에서 기술된 바와 같이).
본 발명에 따른 디코딩 및 지연 윤곽 재구성의 공정은 도 5에 도시된다. 이러한 공정은 최소화 절차가 실행되지 않는 것 외에는, 도 4의 인코딩 공정과 관련하여 상술된 바와 같은 많은 기능적 블럭을 포함한다. 코더에서 시행되는 것과 같은 조정된 지연 윤곽을 정확히 재구성하기 위한 지연 및 지연 조정이 필요하다. 도 5에 도시된 공정은 단계 401에서 프레임 지연이 코더로부터 수신될 때 시작한다. 지연 윤곽 종점은 단계 402에서 계산되고, 지연 증대 팩터는 그 때 단계 403에서 계산된다. 단계 404에서, 지연 조정 바이어스가 계산되고, 도 2에서 신호 지연 정보에 의해 표현된 지연 조정 인덱스는 단계 405에서 코더로부터 수신된다. 조정된 지연 윤곽은 단계 406에서 계산되고, 조정된 지연 윤곽을 사용하는 적응성의 코드북 기여는 단계 407에서 생성된다. 단계 408에서 디코더는 디코딩하기 위해 보다 많은 서브프레임을 찾고 그 공정이 반복된다.
도 6은 일반적으로 본 발명에 따른 윤곽 지연 조정 공정의 결과를 기술한다. 도 3의 종래 기술에 따른 지연 윤곽과 비교할 때, 본 발명은 보다 높은 해상도 및 정확도로 실제 지연 윤곽을 탐지한다는 것이 명백하다. 본 발명과 다른 (GSM 해프 레이트와 같은) 서브프레임 해상도 지연 인코딩 기술 간의 중요한 차이는 본 발명이 선형 보간으로 인해 지연 윤곽 경사를 유지한다는 것이다. 서브프레임 해상도를 사용하는 다른 기술은 상수 지연 값 만을 나타낸다.
최소화 절차 동안, 갱신된 축적된 시프트를 결정하기 위해 IS-127의 4.5.6 부분 수행이 특정된다는 것을 주목하는 것 역시 중요하다. 이러한 공정은 상대적으로 높은 복잡성을 가지므로, 소정의 결과를 생성하기 위해 필요한 이러한 기간만을 계산하고, 불필요한 계산을 생략하는 것이 유리하다. 또한, 타겟 잉여 신호(IS-127에서 4.5.6.1-1 부분 참조) 및 서브프레임 잉여 신호(IS-127에서 4.5.6.2-1 부분 참조) 사이의 크로스 상관성의 최소화와 같은, 교호 선택 크리테리아(alternate selection criteria)를 사용할 수 있다. 또한, 다른 방법들은 특정한 환경에서 개선하기 위해 다양한 방식에서 지연 윤곽을 조정할 수도 있다. 그러한 방식은, 예컨데, 바람직한 실시예에서 기술된 바와 같은 양쪽 종점을 조정하는 것 보다, 서브프레임 지연의 단일 종점 만을 조정하는 것을 포함할 수 있다(이에 제한되는 것은 아님). 또한 다른 방법은 또한 적어도 스퀘어 혹은 다른 폴리노미얼 기반 기술과 같은 보다 높은 오더 커브 피팅을 포함할 수도 있다.
본 발명은 특히 특정한 실시예와 관련하여 도시되고 기술되는 동안, 본 발명의 진의 및 범주에서 벗어나지 않는 한 형태 및 상세에 있어서 다양한 변형이 가능하다는 것이 당업자들에게 이해될 수 있을 것이다. 따라서 바람직한 실시예에서 상술된 모든 다양성들은 본 발명의 범주 내에 있도록 고려된다. 이하 청구항에 있어서 대응하는 모든 수단 혹은 단계의 구조, 재료, 동작 등 플러스 기능 요소는 구체적으로 청구된 것과 다른 청구된 요소를 갖는 조합에 있어서 기능을 수행하는 소정의 구조, 재료 혹은 동작을 포함하도록 의도된다.

Claims (10)

  1. 정보 신호를 코딩하는 방법에 있어서,
    상기 정보 신호를 블럭으로 나누는 단계(a);
    현재 및 이전 정보 블럭의 지연을 추정하는 단계(b);
    상기 현재 및 이전 정보 블럭의 상기 지연에 의거하여 지연 윤곽을 형성하는 단계(c);
    길이에 있어서 한 블럭 이하의 간격에서 상기 지연 윤곽의 형태를 조정하는 단계(d); 및
    착신지에 전송하기에 적합한 코드를 생성하기 위해 상기 조정된 지연 윤곽의 상기 형태를 코딩하는 단계
    를 포함하는 정보 신호 코딩 방법.
  2. 제1항에 있어서, 상기 정보 신호는 음성 혹은 오디오 신호 중 하나를 더 포함하는 정보 신호 코딩 방법.
  3. 제1항에 있어서, 정보 신호의 상기 블럭은 정보 신호의 프레임들을 더 포함하는 정보 신호 코딩 방법.
  4. 제1항에 있어서, 상기 이전 지연 및 상기 현재 지연 사이의 선형 보간이 상기 지연 윤곽을 형성하는데 사용되는 정보 신호 코딩 방법.
  5. 제1항에 있어서, 길이에 있어서 한 블럭 보다 적은 간격은 길이에 있어서 서브프레임을 더 포함하는 정보 신호코딩 방법.
  6. 제1항에 있어서, 상기 지연 윤곽의 형태를 조정하는 상기 단계는,
    상기 현재 및 이전 지연 혹은 그 사이에서 복수의 조정된 지연 지점을 결정하는 단계(a); 및
    상기 조정된 지연 지점들 사이에서 선형 보간을 형성하는 단계
    를 더 포함하는 정보 신호 코딩 방법.
  7. 제6항에 있어서, 축적된 시프트에 있어서의 변형은 상기 조정된 지연 지점을 결정할 때 최소화되고, 상기 축적된 시프트에서의 상기 변형을 최소화하는 것은 상기 축적된 시프트를 최소화하는 쪽으로 바이어스를 더 포함하는 정보 신호 코딩 방법.
  8. 코더를 포함하여 정보 신호를 코딩하는 시스템에 있어서,
    상기 정보 신호를 블럭으로 나누는 수단; 및
    현재 및 이전 정보 블럭의 지연을 추정하고, 디코더로의 전송을 위한 지연 정보를 생성하기 위해 길이에 있어서 한 블럭 이하의 간격에서 지연 윤곽의 형태를조정하기 위해, 상기 현재 및 이전 정보 블럭의 지연에 의거하여 상기 지연 윤곽을 형성하는 수단
    을 포함하는 정보 신호 코딩 시스템.
  9. 제8항에 있어서, 상기 정보 신호는 음성 혹은 오디오 신호 중 하나를 더 포함하고, 여기서 정보 신호의 상기 블럭들은 정보 신호의 프레임들을 더 포함하는 정보 신호 코딩 시스템.
  10. 제8항에 있어서, 상기 정보 신호 재구성에 사용하기 위해, 상기 지연 정보를 수신하고, 조정된 지연 윤곽을 생성하는 디코더를 더 포함하는 정보 신호 코딩 시스템.
KR10-2001-7003143A 1998-09-11 1999-08-24 지연 윤곽 조정을 사용하여 정보 신호를 코딩하는 방법 및장치 KR100409166B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/151,567 US6113653A (en) 1998-09-11 1998-09-11 Method and apparatus for coding an information signal using delay contour adjustment
US09/151,567 1998-09-11

Publications (2)

Publication Number Publication Date
KR20010073149A true KR20010073149A (ko) 2001-07-31
KR100409166B1 KR100409166B1 (ko) 2003-12-12

Family

ID=22539347

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-7003143A KR100409166B1 (ko) 1998-09-11 1999-08-24 지연 윤곽 조정을 사용하여 정보 신호를 코딩하는 방법 및장치

Country Status (5)

Country Link
US (1) US6113653A (ko)
EP (1) EP1110339A4 (ko)
JP (1) JP2002525662A (ko)
KR (1) KR100409166B1 (ko)
WO (1) WO2000016309A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
GB0008117D0 (en) * 2000-04-03 2000-05-24 Nokia Networks Oy Estimating communication quality
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
US7048956B2 (en) * 2002-03-05 2006-05-23 The Penn State Research Foundation Process for antimicrobial treatment of fresh produce, particularly mushrooms
US7096132B2 (en) * 2002-10-17 2006-08-22 Qualcomm Incorporated Procedure for estimating a parameter of a local maxima or minima of a function
US6873910B2 (en) 2002-10-22 2005-03-29 Qualcomm Incorporated Procedure for searching for position determination signals using a plurality of search modes
GB0307752D0 (en) * 2003-04-03 2003-05-07 Seiko Epson Corp Apparatus for algebraic codebook search
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
CN103825675B (zh) * 2014-01-28 2017-10-27 华南理工大学 一种次超声波通信中编码方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
JPH04115300A (ja) * 1990-09-05 1992-04-16 Nippon Telegr & Teleph Corp <Ntt> 音声のピッチ予測符号化法
JPH04284500A (ja) * 1991-03-14 1992-10-09 Nippon Telegr & Teleph Corp <Ntt> 低遅延符号駆動型予測符号化方法
US5255339A (en) * 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
JPH0573097A (ja) * 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 低遅延符号駆動形予測符号化方法
DE69225293T2 (de) * 1991-10-25 1998-09-10 At & T Corp Verallgemeinerte Analyse-durch-Synthese Methode und Einrichtung zur Sprachkodierung
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
JPH08211895A (ja) * 1994-11-21 1996-08-20 Rockwell Internatl Corp ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
US5839102A (en) * 1994-11-30 1998-11-17 Lucent Technologies Inc. Speech coding parameter sequence reconstruction by sequence classification and interpolation
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps

Also Published As

Publication number Publication date
KR100409166B1 (ko) 2003-12-12
WO2000016309A1 (en) 2000-03-23
JP2002525662A (ja) 2002-08-13
EP1110339A4 (en) 2004-09-08
EP1110339A1 (en) 2001-06-27
US6113653A (en) 2000-09-05

Similar Documents

Publication Publication Date Title
KR100979090B1 (ko) 피치 지연 윤곽부 조절을 사용하여 정보 신호를 코딩하기위한 방법 및 장치
US7222069B2 (en) Voice code conversion apparatus
US6202046B1 (en) Background noise/speech classification method
US7680651B2 (en) Signal modification method for efficient coding of speech signals
JP2004038211A (ja) 音声符号化方法及び装置
KR19990088582A (ko) 신호의기본주파수를추정하기위한방법및장치
KR20040028750A (ko) 음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템
FI97580C (fi) Rajoitetun stokastisen herätteen koodaus
KR20040042903A (ko) 일반화된 분석에 의한 합성 스피치 코딩 방법 및 그방법을 구현하는 코더
KR100409166B1 (ko) 지연 윤곽 조정을 사용하여 정보 신호를 코딩하는 방법 및장치
US6012026A (en) Variable bitrate speech transmission system
US6470310B1 (en) Method and system for speech encoding involving analyzing search range for current period according to length of preceding pitch period
EP1114415B1 (en) Linear predictive analysis-by-synthesis encoding method and encoder
JP3168238B2 (ja) 再構成音声信号の周期性を増大させる方法および装置
JP3435310B2 (ja) 音声符号化方法および装置
KR100563016B1 (ko) 가변비트레이트음성전송시스템
JPH05165498A (ja) 音声符号化方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121030

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20131030

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20141107

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20151109

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20161110

Year of fee payment: 14

LAPS Lapse due to unpaid annual fee