KR20030009517A - 위상-스미어링 및 위상-디스미어링 필터를 구비하는adpcm 스피치 코딩 시스템 - Google Patents

위상-스미어링 및 위상-디스미어링 필터를 구비하는adpcm 스피치 코딩 시스템 Download PDF

Info

Publication number
KR20030009517A
KR20030009517A KR1020027016633A KR20027016633A KR20030009517A KR 20030009517 A KR20030009517 A KR 20030009517A KR 1020027016633 A KR1020027016633 A KR 1020027016633A KR 20027016633 A KR20027016633 A KR 20027016633A KR 20030009517 A KR20030009517 A KR 20030009517A
Authority
KR
South Korea
Prior art keywords
processor
phase
smearing
speech
coding system
Prior art date
Application number
KR1020027016633A
Other languages
English (en)
Inventor
기기에르칸에프
Original Assignee
코닌클리즈케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리즈케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리즈케 필립스 일렉트로닉스 엔.브이.
Publication of KR20030009517A publication Critical patent/KR20030009517A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B14/00Transmission systems not characterised by the medium used for transmission
    • H04B14/02Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
    • H04B14/04Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using pulse code modulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B14/00Transmission systems not characterised by the medium used for transmission
    • H04B14/02Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
    • H04B14/06Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using differential modulation, e.g. delta modulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

스피치 인코더 및 상기 스피치 인코더와 협혁하는 스피치 디코더를 구비하는 스피치 코딩 시스템에서, 스피치 인코더는 프리-프로세서와, 양자화기 및 스텝-사이즈 적응(adaptation) 수단을 구비하는 ADPCM(adaptive differential pulse code modulation) 인코더를 포함하는 한편, 스피치 디코더는 ADPCM 인코더에서와 유사한 스텝-사이즈 적응 수단과, 디코더 및 포스트-프로세서와 유사한 스텝-사이즈 적응 수단을 구비하는 ADPCM 디코더를 포함한다. 프리-프로세서에 양자화기의 입력에서 높은 그리고/또는 빠른 에너지 변화를 완화하기 위한 위상-스미어링 필터링 수단이 제공되는 반면, 포스트-프로세서에는 상기 위상-스미어링 필터링 수단에 역인 필터링 수단이 제공된다.

Description

위상-스미어링 및 위상-디스미어링 필터를 구비하는 ADPCM 스피치 코딩 시스템{ADPCM SPEECH CODING SYSTEM WITH PHASE-SMEARING AND PHASE-DESMEARING FILTERS}
전화기의 핸드셋(handset)에서와 같이 마이크까지의 음성 소스(입)의 거리를 최소화함으로써, 근접 마이크 음성(close-microphone voice) 레코딩이 음성 신호에 실내 음향(room acoustics) 효과를 감소시키거나 제거하는 것이 관찰되어 왔다. 이 음성 신호가 표준 P2CM 오디오 코딩 시스템의 인코더, 즉, 프리-프로세싱된 ADPCM인코더에서 프로세싱될 때, 더 먼 거리로부터의 레코딩에 비해 근접-마이크 음성 레코딩의 펄스같은 특성을 재생하는 것에 관하여 문제가 발생한다. ADPCM 코더에 양자화기가 제공되되, 양자화기 내에서 그 입력 신호, 즉 샘플링된 오디오 입력 신호와 그것의 예측된 양자화된 값 사이의 차는 스텝-사이즈로 양자화되어 양자화기 입력 신호로 적응된다. 근접-마이크 음성 레코딩에서의 펄스 같은 영역에서, ADPCM 코더내의 양자화기의 신호는 너무 높고 너무 빨라서 양자화기가 그 스텝-사이즈를 적응시킬 수 없을 수 있다. 실내에서의 잔향(reverberation)은 시간에 걸쳐 음성 신호의 에너지를 스미어링하고, 스텝-사이즈의 더 느린 적응을 허용한다.
그러므로, 펄스같은 신호를 위한 P2CM 오디오 코딩 시스템의 성능을 향상시키기 위하여, ADPCM 인코더 입력 신호는 양자화기를 위한 입력이 짧은 시간 프레임에 걸친 빠른 에너지 증가가 없는 그러한 방식으로 프로세싱되어야 한다. 그러나 스피치 디코더의 출력은 어떠한 아티팩트(artifact)도 없는 원래의 소리와 같은 소리여야 한다. 그래서 오리지널 레코딩의 디스턴트 버전(distant verstion)을 만들기 위해서 실내 효과를 시뮬레이팅하는 것과 이 신호에 코딩을 적용하는 선택이 충분히 좋지는 않다.
발명의 개요
본 발명의 목적은 상기 문제를 완화하는 것이고, 특히, 펄스 같은 음성 신호를 위한 향상된 레코딩 및 재생을 스피치 코딩 시스템에 제공하는 것이다.
본 발명에 따르면, 개시 문단에서 설명된 바와 같이, 스피치 코딩 시스템은 프리 프로세서에 양자화기의 입력에서 높은 그리고/또는 빠른 에너지 변화의 효과를 제거하기 위한 위상-스미어링 필터링 수단이 제공되고, 상기 위상-스미어링 필터링 수단에 역(inverse)인 필터링 수단이 포스트-프로세서에 제공되는 것을 특징으로 한다.
위상-스미어링 필터링이 시간-도메인에서 수행될 수 있음에도 불구하고, 프리-프로세서 및 포스트-프로세서에 스펙트럼의 진폭 와핑 수단이 제공되고, 이러한 와핑 효과를 취소하기 위한 수단 각각이 제공되는 경우에, 상기 와핑 수단 및 언와핑(unwarping) 수단은 주파수 도메인에서 동작 가능하기 때문에 주파수 도메인에서 이 필터링을 수행하는 것이 선호된다. 그러므로, 특히 위상-스미어링 및 언와핑 뿐만 아니라 위상-스미어링 및 와핑이 동일한 프로세싱 블록에서 수행된다. 위상-스미어링이 선형 프로세스이나, 스펙트럼의 진폭 와핑이 비선형 프로세스이기 때문에 양 프로세스가 함께 통합되지는 않지만 주파수 도메인에서 직렬로 수행된다. 즉, 필터링된 신호는 와핑된다. 스펙트럼의 진폭 와핑은 per se로 알려져 있다(참조:R.Lefebre, C. Laflamme; "Spectral Amplitude Warping(SAW) for Noise Spectrum Shaping in Audio Coding", ICASSP, Vol. 1, p.335-338, 1997).
본 발명은 스피치 인코더 및 스피치 인코더와 협력하는 스피치 디코더를 구비하는 스피치 코딩 시스템에 관한 것이며, 스피치 인코더는 프리-프로세서, 및 양자화기(quantizer)와 스텝-사이즈 적응(adaptation) 수단을 구비하는 ADPCM(adaptive differential pulse code molulation) 인코더를 포함하고, 스피치 디코더는 ADPCM 인코더에서와 유사한 스텝-사이즈 적응 수단과 디코더 및 포스트- 프로세서(post-processor)를 포함한다.
본 발명의 상기한 측면들, 그리고 다른 측면들은 도면 및 본 명세서에서 이후에 설명되는 실시예에 의해 명백해질 것이다.
도 1은 각각 시간 도메인에서 동작 가능한 위상-스미어링 필터링 수단과 역 위상-스미어링 필터링 수단을 포함하는 프리-프로세싱 및 포스트-프로세싱을 위한 수단을 구비하는 P2CM 코딩 시스템의 개략도를 도시한다.
도 2의 (a) 및 (b)는 ADPCM 인코더 및 ADPCM 디코더 각각의 개략도이다.
도 3의 (a) 내지 (d)는 위상 스미어링 필터의 제 1 실시예의 다양한 특성을 도시한다.
도 4의 (a) 내지 (d)는 위상 스미어링 필터의 제 2 실시예의 다양한 특성을 도시한다.
도 5는 위상 스미어링은 주파수 도메인에서 동작 가능한 P2CM 오디오 인코더 및 디코더를 위한 프리-프로세서/포스트-프로세서의 개략도이다.
도 6은 프리-프로세서에서 프레이밍(framing) 및 윈도우잉(windowing)을 도시한다.
도 1에서 P2CM 오디오 코딩 시스템은 인코더(1) 및 디코더(2)에 의해 구성된다. 인코더(1)는 프리-프로세서(3) 및 ADPCM 인코더(4)를 포함하는 반면, 디코더(2)에는 ADPCM 디코더(5) 및 포스트-프로세서(6)가 제공된다. ADPCM 인코더(4)는 도 2의 (a)에, 그리고 ADPCM 디코더(5)는 도 2의 (b)에 도시되어 있다.
예로, P2CM 오디오 인코더(1)에서 PCM 입력 신호는 가령 10 밀리 초의 프레임으로 분할된다. 가령 8kHz의 샘플링 주파수와 함께, 프레임은 80개의 샘플로 이루어진다. 각 샘플은 가령 16 비트에 의해 표시된다. 이 입력 신호는 프리-프로세서(3)에 공급되는 반면, 이것에 응답하여 획득된 출력 신호가 ADPCM 인코더(4)에 공급된다. ADPCM 인코더(4)를 위한 다른 입력 신호는 코덱 모드 신호 CMS에 의해 형성되고, ADPCM 인코더(4)의 비트스트림 출력에서 코드 워드를 위한 비트 할당을 결정한다. ADPCM 인코더(4)는 프리-프로세싱된 신호 프레임에서 각 샘플에 대한 코드 워드를 생성한다. 그 후 코드 위드는 본 예에서 80개 코드의 프레임으로 패킹된다. 선택된 코덱 모드에 의존하여, 결과로 나온 비트스트림은 가령 11.2, 12.8, 16, 19.2, 21.6, 24 또는 32kbit/s의 비트-레이트를 가진다.
P2CM 오디오 디코더(2)에서 ADPCM 디코더(5)의 입력은 코드 프레임의 비트스트림 및 코덱 모드에 의해 형성된다. 본 예에서, 코드 프레임은 80개의 코드로 이루어지고, 80개 샘플의 PCM 출력 프레임을 형성하기 위하여 ADPCM 디코더(5)에 의해 디코딩되며, 포스트-프로세서(6)에서 포스트-프로세싱 된다.
프리-프로세서(3)에서, 신호 특성은 결과로 나온 신호가 코딩을 위해 더 적합하도록 변경된다. 프리-프로세싱은 인코딩 이전에 신호 스펙트럼을 변경한다. 그러므로 비선형 변환, 가령 스퀘어 루트(square root) 변환은 스펙트럼의 진폭에 적용될 수 있다. 그 중요부를 ADPCM 인코더(4)에 도입된 상기 양자화기 노이즈로 유지하기 위하여 "스펙트럼의 진폭 와핑"으로 불리는 이러한 변환에 의해 상대적으로작은 스펙트럼의 진폭이 상대적으로 강한 스펙트럼의 진폭에 비해 증가된다. 신호 스펙트럼을 변경하기 위하여, 이러한 방법으로, 프리-프로세서(3)는 시간 도메인 오디오 신호의 샘플 프레임을 주파수 도메인 샘플 프레임으로 변환하기 위한 시간에서 주파수로의(time-to-frequency) 변환 유닛, 스펙트럼의 진폭 와핑 수단, 그리고 주파수-도메인으로부터 시간-도메인으로 와핑된 오디오 신호를 변환하기 위한 주파수에서 시간으로의(frequency-to-time) 변환 유닛을 구비하는 프로세싱 장치(7)를 포함한다. 이 변환은 전송되어야 하는 추가적인 비트에 대한 필요 없이 P2CM 오디오 디코더 측에서 역으로 할 수 있다. 그러므로, 포스트-프로세서(6)는 시간 도메인 오디오 신호 샘플 프레임을 주파수 도메인 오디오 신호 샘플 프레임으로 변환하기 위한 시간에서 주파수로의(time-to-frequncy) 변환 유닛과, 인코더측 프리-프로세서에서 수행된 스펙트럼의 진폭 와핑 효과를 취소하기 위한 수단 그리고 언와핑된 오디오 신호를 주파수-도메인으로부터 시간 도메인으로 변환하기 위한 주파수에서 시간으로의 변환 유닛을 포함한다.
도 2의 (a)에 도시된 바와 같이 ADPCM 인코더(4)는 양자화기 블록(9), 스텝-사이즈 적응 블록(10), 디코더 블록(11) 및 예측기(predictor) 블록(12)을 포함한다. ADPCM 인코더(4)를 위한 입력은 프리-프로세서(3)에 의해 제공된 샘플링된 오디오 신호이다. 샘플 n이 값 s(n)을 가질때, 매 입력 값 s(n)에 대하여 이 값과 추정된(예측된) 값 s(n-1) 사이의 차는, 그 후 양자화기 블록(9)에 의해 양자화되고 인코딩되는 에러 신호 e(n)으로 취해지고, 출력 코드 c(n)을 제공한다. 출력 코드c(n)은 P2CM 오디오 코더의 ADPCM 디코더(5)에 의해 송신 또는 전송되고 수신되는 비트스트림을 형성한다. 도 1에서, 이것이 점선(13)에 의해 표시된다. 양자화 에러 신호 e'(n)을 획득하기 위해 출력 코드 c(n)은, 블록(10)에 의해 그리고 디코더 블록(11)에 의해 양자화기 스텝-사이즈 ㅿn의 적응을 위해서도 사용된다. 양자화 에러 신호 e'(n)은 예측된 값 s(n-1)에 추가되어 양자화 입력 값 s'(n)으로 귀착한다. s'(n)은 그 예측 계수를 적응시키기 위하여 예측기 블록(12)에 의해 사용된다.
ADPCM 디코더(5)는 인코더(4)의 서브-세트일 뿐이다; 그것은 수신된 양자화 코드 c(n)을 비트스트림으로부터 읽고, 그 간격 변수를 업데이팅하기 위해 인코더(4)와 동일한 것을 사용한다. 그러므로 ADPCM 디코더(5)는 스텝-사이즈 적응 블록(14), 디코더 블록(15) 및 예측기 블록(16)을 포함한다. 디코더 블록(15)의 출력은 양자화 에러 신호 e'(n)인데, 이는 예측된 값 s(n-1)에 가산된 이후에 양자화 오디오 신호 s'(n)를 제공한다.
도 2의 (a) 및 (b)에 더 표시되지 않았지만, 코덱 모드 신호 CMS는 ADPCM 인코더(4)에서 디코더 블록(11)을 위해서 그리고 ADPCM 디코더(5)에서 디코더 블록(15)을 위해서도 입력 신호를 형성한다.
상기 ADPCM 인코더 및 디코더를 대신하여, 다른 인코더 및 디코더들도 적용될 수 있을 것이다.
상세한 설명의 개시부에서 이미 언급된 바와 같이, 더 먼 거리로부터의 레코딩에 비해 가까운 마이크 레코딩의 펄스 같은 특성을 재생하는 것에 관하여 문제가발생한다. 근접 마이크 레코딩에서의 펄스 같은 영역에서, 양자화기 블록(9)을 위한 입력 신호는 너무 높고 너무 빨라서 양자화기가 그 스텝-사이즈 ㅿn에 적응할 수 없다.
본 발명에 따르면, 이 문제에 대한 해결책은 P2CM 오디오 인코더(1)에서 위상-스미어링 필터를 사용하는 것이다. 이 필터는, 모든 주파수에 대한 신호 에너지가 변하지 않은 상태로 남는 것을 의미하는 올-패스(all-pass) 특성을 지닌다. P2CM 오디오 디코더(2)에서 동일한 필터의 시간 인버스된(time-inversed) 버전을 사용함으로써 다시 원래의 필터링되지 않은 형태로 바꾸는 것도 쉽다. 도 1은 위상-스미어링 필터(17)를 도시한다. 이것의 입력은 P2CM 오디오 인코더(1)의 PCM 입력 신호에 의해 형성되는 반면, 필터링된 출력 신호는 프로세싱 블록(7)으로 제공된다. 위상-스미어링 필터(17)에서 유한 임펄스 응답(FIR) 필터링 동작은 필터 임펄스 응답으로 p(m), 필터 길이 L, 입력 신호 s(n) 및 필터링된 출력 신호 sp(n)와 함께 다음의 관계식에 따라 수행된다.
다음의 관계식에 따라 역 위상-스미어링은 동일한 필터를 구비하는 P2CM 오디오 디코더(2) 내의 프로세싱 블록(8)의 출력에서의 역 위상-스미어링 필터(18)에 의해그러나 역전된 시간 순서로 수행된다:
여기서 sp'(n)는 입력 신호이고, s'(n)은 필터링된 출력 신호이다. 이 동작은 출력에서 길이 L의 총 지연을 가져온다. 코더가 통신, 가령 전화 서비스를 위하여 사용된다면 큰 프로세싱 지연은 바람직하지 않다. 그러므로 필터 길이 L은 가능한한 작게 유지되어야 한다.
시간-도메인에서 필터링이 상대적으로 큰 필터 길이를 요구하기 때문에, 주파수 도메인에서 필터링을 수행하는 것이 선호된다. 다음에, 필터가 주파수 도메인에서 구성되고, 각 주파수 성분에 대해 상수 진폭 및 변하는 위상을 사용하는 위상-스미어링의 예가 주어진다. 이 필터의 주파수 응답은 관계식
에 따른다. 실수-값의 데이터에 대해서 네거티브 주파수 축은 대칭이 되어야 한다:
여기서, R 및 I는 각각 스펙트럼의 실수부 및 허수부이다.
시간 도메인으로의 변환은 다음의 식에 따른다:
DFT(Discrete Fourier Transform) 길이 N 및 필터 길이 L은 둘 다 동일한 값으로 설정될 수 있다. 필터는 실제로 0과 나이키스트(nyquist) 주파수 fN사이에서 선형의 증가하는 주파수를 가지는 사인 곡선이다. 필터 특성은 도 3의 (a) 내지 (d)에 도시된다. 도 3의 (a)는 진폭-시간 의존도를, 도 3의 (b)는 진폭-주파수 의존도를, 도 3의 (c)는 주파수-시간 의존도를, 그리고 도 3의 (d)는 주파수에 대한 언와핑된 위상의 관계를 도시한다.
이 필터가 상당히 잘 작용할지라도, 이것이 최적은 아니다. 필터의 설계가 고려할 두 개의 판별조건이 있다: 하나는 일반적으로, 보이싱된(voiced) 스피치(1kHz 미만) 내의, 더 낮은 주파수는 음성 펄스 형태 때문에 시간에 걸쳐 이미 스미어링 된다는 것이다. 다른 하나는 고주파(3kHz 초과)에 대하여, 보이싱된 스피치의 에너지가 상대적으로 낮다는 것이다. 300과 3400kHz 사이의 전화 스피치에서와 같이, 많은 애플리케이션 영역에서 수행되는 밴드-패스 필터링은 1kHz에서 3kHz 사이에 더 많은 위상-스미어링을 적용함으로써 사용가능한 필터 길이를 더 효율적으로 사용할 것을 제안한다.
그러므로, 선호된 실시예에서, 다음 주파수 응답은 위상-스미어링 필터의 생성을 위하여 P2CM에서 사용된다:
상수 A는 원하는 스미어링에, 특히 필터 길이에, 그래서 사용된 윈도우잉에 의존할 것이다. 이러한 필터의 특성이 도 4의 (a) 내지 (d)에 도시되어 있다. 이 도면들은 도 3의 (a) 내지 (d)와 일치한다.
DFT 길이는 256으로 설정될 수 있다. 유효 필터 길이는 대략 96(12 밀리초)이다. 이 필터 길이에서, 상수 A의 바람직한 선택은 6.44이다. 프리-프로세서/포스트- 프로세서의 사용된 입력 윈도우 길이(256)와 출력 윈도우 길이(160) 사이의 차로부터 96의 값이 나온다. 이것은 다음에서 더 상세히 설명될 것처럼, 프로세싱 블록(7) 내에 위상-스미어링 필터를 포함하는 것과 프로세싱 블록(8)에 역 필터를 포함하는 것을 가능하게 한다.
도 5는 프리-프로세서(3)의 블록도를 도시한다. 프리-프로세서는 입력 윈도우 형성 유닛(19), FFT 유닛(20), 위상-스미어링 필터링 및 스펙트럼의 진폭 와핑 유닛(21), 역 FFT(IFFT) 유닛(22), 출력 윈도우 형성 유닛(23) 및 중첩-및-가산(overlap-and-add) 유닛(24)을 포함한다. 본 예에서, 입력 윈도우 형성 유닛(19)의 80개의 샘플 입력 프레임은 입력 윈도우 s(n)(도 6 참조)을 형성하기 위하여 256개 샘플의 버퍼에서 시프팅된다. 입력 윈도우 타입은 입력 윈도우와 동일한 길이를 갖는 사각형이어서 웨이팅(weighting)을 위해 어떤 연산도 필요하지 않다. 스펙트럼 S(k)는 256-포인트 FFT(20)를 사용하여 계산된다. 신호 S(k)에 위상-스미어링 및 스펙트럼의 진폭 와핑을 연속적으로 한 이후에, 획득된 신호 Sfw(k)는 IFFT(22)에서 변환되고, 이에 따라 이 신호의 시간-표현 sfw(n)을 획득한다. 두 개의 연속적인 프레임 사이에 부드러운 변환을 허용하기 위하여, 중첩 및 가산은 20ms의 해닝(Hanning) 출력 윈도우(160개의 샘플)와 함께 사용된다. 이 출력 윈도우는 256개의 샘플의 FFT 버퍼 내에서 중앙에 배치된다. 32개의 샘플의 엑스트라 지연은 이 프로세스의 총 지연 만큼 다수 프레임 길이(160개의 샘플)를 얻도록 추가된다. 프리-프로세서만 프리-프로세서와 포스트-프로세서 사이에서 동기적인 데이터 프레이밍을 보증하기 위해 이러한 조정(alignment) 지연을 필요로 한다. 포스트-프로세서의 구조는 스펙트럼의 진폭 와핑 효과가 취소되고 역 위상-스미어링 필터가 연속적으로 적용되는 유닛(21)과 일치하는 유닛이라는 차이만 제외하면 프리-프로세서와 동일하다. 스펙트럼의 진폭 와핑 및 언와핑 모두가 주파수 도메인에서 작용할 때, 위상-스미어링 및 대응하는 역 프로세싱도 주파수 도메인에서 수행될 수 있다. 필터 동작을 위한 시간 도메인으로부터 주파수 도메인으로의 정확한 변환은 분리된 프로세싱 블록을 수반해야 하나, 그것은 기존 와핑/언와핑 블록 내에 포함을 통해 접근될 수 있다. 이 방법으로, 필터의 프로세싱 시간이 감소될 뿐만 아니라 엑스트라 프로세싱 지연도 제거될 수 있다. 공식 (A) 및 (B)의 시간-도메인 필터링 연산은 프리-프로세서를 위한 공식(G) 및 포스트-프로세서를 위한 공식(H)의 주파수 도메인 필터링 동작에 의해 대체된다:
이고,
이며, 0≤k≤N/2 이다.
S(k), P(k) 및 Sp(k)는 공식 (A) 및 (B)에서 대응하는 함수 s(n), p(n) 및 sp(k) 각각의 푸리에 변환이고, R 및 I는 이 신호의 실수부 및 허수부이다.
필터링을 위해 분리된 프로세싱 블록으로의 이러한 접근은 불리하다는 것이 명백해야 한다: 프리-프로세서 내에서 스펙트럼의 진폭 와핑 동작은 프로세싱되지 않은 입력 윈도우로부터의 진폭 값을 사용하여 수행되는 반면, 포스트-프로세서 내에서 언와핑된 동작은 이 신호의 위상-스미어링된 버전으로부터의 진폭 값을 사용하여 수행된다. 연속적인 프레임간의 보정 수준이 낮다면, 이것은 아티팩트를 가져올 수 있다. 그러나, 실제로 이 보정 수준이 너무 높아서, 이 접근이 기인하는 품질 저하는 무시해도 좋게된다.
프리-프로세서의 출력에서 추가되는 엑스트라 지연을 떨어뜨림으로써 다른 간이화가 수행된다. 이 지연은 프리-프로세서 및 포스트-프로세서를 위한 입력을 동기화하기 위하여 도입되었다. 삽입된 위상-스미어링 때문에, 이 동기화는 각 주파수 성분이 서로 다른 지연을 가지기 때문에 더 가능하지 않다.
위에서 설명된 실시예는 P2CM 오디오 인코더 및 디코더에서 신호 프로세싱 수단에서 실행할 수 있는 컴퓨터 프로그램의 형태일 수 있는 알고리즘에 의해 실현된다. 도면의 부분들이 특정 프로그램 가능한 함수들을 수행하기 위한 유닛들을 도시하는데 있어서, 이 유닛들은 컴퓨터 프로그램의 서브파트(subpart)로 간주되어야한다.
설명된 본 발명은 성명된 실시예를 제한하지 않는다. 이것에 변경이 가능하다. 특히, 주파수 응답 함수 및 설명된 실시예에서 언급된 값은 예로서만 주어진 것이라는 것이 강조될 수 있다. 즉, 다른 주파수 응답 함수 및 값이 가능하다.

Claims (7)

  1. 스피치 인코더 및 상기 스피치 인코더와 협력하는 스피치 디코더를 구비하는 스피치 코딩 시스템에 있어서,
    상기 스피치 인코더는 프리-프로세서와,
    양자화기 및 스텝-사이즈 적응(adaptation) 수단을 구비하는 ADPCM(Adaptation differential pulse code modulation) 인코더를 포함하고,
    상기 스피치 디코더는 상기 ADPCM 인코더에서와 유사한 스텝-사이즈 적응 수단과 디코더 그리고 포스트-프로세서를 포함하며,
    양자화기의 입력에서 높은 그리고/또는 빠른 에너지 변화의 효과를 완화하기 위한 위상-스미어링 필터링 수단이 상기 프리-프로세서에 제공되고,
    상기 포스트-프로세서에 상기 위상-스미어링(smearing) 필터링 수단에 역인 필터링 수단이 제공되는 것을 특징으로 하는
    스피치 코딩 시스템.
  2. 제 1 항에 있어서,
    상기 프리-프로세서 및 포스트-프로세서가
    시간 도메인 오디오 신호 샘플의 프레임을 주파수 도메인 오디오 신호 샘플의 프레임으로 변환하기 위한 시간에서 주파수로의(time-to-frequency) 변환 유닛과,
    상기 주파수 도메인의 상기 샘플을 프로세싱 하기 위한 프로세싱 수단과
    프로세싱된 주파수 도메인의 샘플(latter processed samples)을 상기 시간-도메인으로 변환하기 위한 주파수에서 시간으로의 변환 유닛을 포함하되,
    상기 프리-프로세서 내의 상기 프로세싱 수단에는 위상-스미어링 필터링 및 와핑(warping) 수단이 제공되고, 상기 포스트-프로세서 내의 상기 프로세싱 수단에는 언와핑(unwarping) 수단 및 역 위상-스미어링 필터링 수단이 제공되는 것을 특징으로 하는
    스피치 코딩 시스템.
  3. 제 2 항에 있어서,
    상기 위상-스미어링 필터링 수단이 실질적으로 상수인 진폭 특성 및 변하는 위상 특성을 지니는 필터를 주파수 도메인에서 포함하는 것을 특징으로 하는
    스피치 코딩 시스템.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 프리-프로세서내의 상기 필터링 수단 및 상기 와핑 수단이 차례로 결합되는 것을 특징으로 하는
    스피치 코딩 시스템.
  5. 제 2 항, 제 3 항 또는 제 4 항에 있어서,
    상기 포스트-프로세서내의 상기 언와핑 수단 및 상기 역 필터링 수단이 차례로 결합되는 것을 특징으로 하는
    스피치 코딩 시스템.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 위상-스미어링 필터링 수단의 주파수 응답이 관계식
    -여기서 0≤k≤N/2-
    에 따르는 것을 특징으로 하는
    스피치 코딩 시스템.
  7. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    상기 위상-스미어링 필터링의 상기 주파수 응답이 관계식
    -여기서 0≤k≤N/2이며, A는 상수이며, 원하는 스미어링에 의존함-
    에 따르는 것을 특징으로 하는
    스피치 코딩 시스템.
KR1020027016633A 2001-04-09 2002-03-27 위상-스미어링 및 위상-디스미어링 필터를 구비하는adpcm 스피치 코딩 시스템 KR20030009517A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01201301 2001-04-09
EP01201301.7 2001-04-09

Publications (1)

Publication Number Publication Date
KR20030009517A true KR20030009517A (ko) 2003-01-29

Family

ID=8180123

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027016633A KR20030009517A (ko) 2001-04-09 2002-03-27 위상-스미어링 및 위상-디스미어링 필터를 구비하는adpcm 스피치 코딩 시스템

Country Status (9)

Country Link
US (1) US20020173949A1 (ko)
EP (1) EP1395982B1 (ko)
JP (1) JP2004519736A (ko)
KR (1) KR20030009517A (ko)
CN (1) CN1221941C (ko)
AT (1) ATE323935T1 (ko)
DE (1) DE60210766T2 (ko)
ES (1) ES2261637T3 (ko)
WO (1) WO2002082426A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI226035B (en) * 2003-10-16 2005-01-01 Elan Microelectronics Corp Method and system improving step adaptation of ADPCM voice coding
WO2006079348A1 (en) 2005-01-31 2006-08-03 Sonorit Aps Method for generating concealment frames in communication system
TWI285568B (en) * 2005-02-02 2007-08-21 Dowa Mining Co Powder of silver particles and process
JP2009501353A (ja) * 2005-07-14 2009-01-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号合成
CA2746524C (en) 2009-04-08 2015-03-03 Matthias Neusinger Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5558612A (en) * 1978-10-26 1980-05-01 Kokusai Denshin Denwa Co Ltd <Kdd> Delay circuit
JPS587935A (ja) * 1981-07-07 1983-01-17 Kokusai Denshin Denwa Co Ltd <Kdd> トランスバーサル形スミアデスミアフイルタ
NL8700075A (nl) * 1987-01-14 1988-08-01 Philips Nv Datatransmissiestelsel voorzien van versmeringsfilters.
US5231484A (en) * 1991-11-08 1993-07-27 International Business Machines Corporation Motion video compression system with adaptive bit allocation and quantization
US5511095A (en) * 1992-04-15 1996-04-23 Sanyo Electric Co., Ltd. Audio signal coding and decoding device
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
WO1999050828A1 (en) * 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment

Also Published As

Publication number Publication date
EP1395982A1 (en) 2004-03-10
ATE323935T1 (de) 2006-05-15
CN1461469A (zh) 2003-12-10
DE60210766D1 (de) 2006-05-24
DE60210766T2 (de) 2007-02-08
CN1221941C (zh) 2005-10-05
WO2002082426A1 (en) 2002-10-17
ES2261637T3 (es) 2006-11-16
US20020173949A1 (en) 2002-11-21
JP2004519736A (ja) 2004-07-02
EP1395982B1 (en) 2006-04-19

Similar Documents

Publication Publication Date Title
KR101168648B1 (ko) 감쇠 인자를 취득하기 위한 방법 및 장치
AU656787B2 (en) Auditory model for parametrization of speech
US6496795B1 (en) Modulated complex lapped transform for integrated signal enhancement and coding
KR101039343B1 (ko) 디코딩된 음성의 피치 증대를 위한 방법 및 장치
US7379866B2 (en) Simple noise suppression model
RU2419171C2 (ru) Способ переключения скорости передачи битов при аудиодекодировании с масштабированием скорости передачи битов и масштабированием полосы пропускания
RU2607418C2 (ru) Эффективное ослабление опережающих эхо-сигналов в цифровом звуковом сигнале
EP0993670B1 (en) Method and apparatus for speech enhancement in a speech communication system
US20080126081A1 (en) Method And Device For The Artificial Extension Of The Bandwidth Of Speech Signals
CN110832581A (zh) 用于使用瞬态位置检测后处理音频信号的装置
RU2756042C2 (ru) Передискретизация звукового сигнала для кодирования/декодирования с малой задержкой
US20110054889A1 (en) Enhancing Receiver Intelligibility in Voice Communication Devices
KR980006936A (ko) 낮은 비트 전송 속도 코딩을 위한 적응 필터 및 필터링 방법
EP1386313B1 (en) Speech enhancement device
KR102156846B1 (ko) 디지털 오디오 신호 내의 프리-에코의 효과적인 감쇠
JP7261173B2 (ja) 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法
EP1301018A1 (en) Apparatus and method for modifying a digital signal in the coded domain
JP2012503214A (ja) デジタルオーディオ信号におけるプリエコーの減衰
WO1998006090A1 (en) Speech/audio coding with non-linear spectral-amplitude transformation
KR20030009517A (ko) 위상-스미어링 및 위상-디스미어링 필터를 구비하는adpcm 스피치 코딩 시스템
GB2343822A (en) Using LSP to alter frequency characteristics of speech
EP1944761A1 (en) Disturbance reduction in digital signal processing
WO2005031709A1 (en) Speech coding method applying noise reduction by modifying the codebook gain

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee