KR20030046468A - 부호화 음향 신호를 지각적으로 개선 강화시키는 방법 및장치 - Google Patents

부호화 음향 신호를 지각적으로 개선 강화시키는 방법 및장치 Download PDF

Info

Publication number
KR20030046468A
KR20030046468A KR10-2003-7004249A KR20037004249A KR20030046468A KR 20030046468 A KR20030046468 A KR 20030046468A KR 20037004249 A KR20037004249 A KR 20037004249A KR 20030046468 A KR20030046468 A KR 20030046468A
Authority
KR
South Korea
Prior art keywords
coded signal
signal
frame
reproduction
signal frame
Prior art date
Application number
KR10-2003-7004249A
Other languages
English (en)
Other versions
KR100882771B1 (ko
Inventor
스테판 브룬
수산데 올벤스탐
Original Assignee
텔레폰악티에볼라겟엘엠에릭슨(펍)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텔레폰악티에볼라겟엘엠에릭슨(펍) filed Critical 텔레폰악티에볼라겟엘엠에릭슨(펍)
Publication of KR20030046468A publication Critical patent/KR20030046468A/ko
Application granted granted Critical
Publication of KR100882771B1 publication Critical patent/KR100882771B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Stereophonic System (AREA)
  • Audible-Bandwidth Dynamoelectric Transducers Other Than Pickups (AREA)
  • Circuit Arrangements For Discharge Lamps (AREA)
  • Ignition Installations For Internal Combustion Engines (AREA)

Abstract

본 발명은 기존의 해법에 비해 해당 재생 신호의 지각 음질이 개선되도록 광대역 및 협대역 음향소스 신호(x)를 부호화하는 것에 관한 것이다. 강화 추정 유닛(102)은 정규의 부호/복호 수단(101)과 직렬 혹은 병렬로 동작하고, 음향소스 신호의 기본적 부호화 표현을 실행하는 신호의 해당 프레임에서의 샘플값의 개수보다 더 많은 수의 스펙트럼 계수를 포함하는 강화 스펙트럼(C)를 사용함으로써, 재생 음향 신호를 지각적으로 강화시킨다. 따라서, 확장된 블록 길이의 강화 스펙트럼 프레임은 지각 음질의 바람직한 개선을 달성하기 위한 기초를 제공한다.

Description

부호화 음향 신호를 지각적으로 개선 강화시키는 방법 및 장치{Perceptually Improved Enhancement of Encoded Acoustic Signals}
음성 코덱(codec =coder anddecoder)은 다양하게 응용되고 있다. 예를 들어, 정지 및 이동통신 시스템과 화상회의 시스템에서 음향소스 신호의 효과적인 비트-속도 전송(bit-rate transmission)을 위해 부호화 및 복호화 방법이 사용된다. 또한, 음성 코덱은 보안 전화통신(secure telephony) 및 음성 저장(voice storage)에도 이용될 수 있다.
화상회의 뿐만 아니라, 정지 및 이동 전화통신에서도 재생되는 음향소스 신호의 품질을 개선하고자하는 경향이 나타나고 있다. 이러한 경향은 상기 시스템들이 적어도 오늘날의 정지 전화통신 네트워크만큼의 음질을 제공하기를 바라는 고객의 기대를 반영한 것이다. 이러한 기대를 만족시키는 한 가지 방법으로서 음향소스 신호의 주파수 대역을 넓혀서 소스 신호에 포함된 더 많은 정보를 수신기로 옮기는 것이 있다. 음성 신호의 에너지 대부분은 스펙트럼으로 0 kHz ~ 4 kHz 사이에 있다(즉, 현 기술수준의 코덱에서 전형적인 대역폭임). 그러나, 에너지의 실제적인 양은 주파수 대역 4 kHz ~ 8 kHz에 분포하고 있다. 이러한 대역에서의 주파수 성분은, "명쾌(clearness)"하고 화자(speaker)와 청취자(listener)가 가까이 있는 것처럼 청취가가 지각하게 하는 정보를 나타낸다.
사람의 청취력에 대한 주파수 분해능(resolution)은 주파수가 증가함에 따라 증가한다. 그러므로, 4 kHz ~ 8 kHz 사이의 주파수 성분에서는 충분한 정밀도의 모델링에 비교적 적은 비트가 요구된다.
상대적으로 양호한 지각 음질(perceived sound quality)을 갖는 수신기에 의해 재생될 수 있도록 음향소스 신호를 부호화하는 문제에 대한 한 가지 접근 방법으로서, 예를 들면, 제1 부호화 정보(primary encoded information)에 부가하여 부호화 신호를 발생시키는, 통상의 부호화 수단에 병렬 혹은 직렬로 동작하는 포스트 필터(post filter)를 포함시킬 수 있다. 포스트 필터링을 포함하는 부호화 해법은 협대역 음향소스 신호에 대해 존재한다(전형적으로 0 kHz ~ 3.5 kHz 또는 0 kHz ~ 4 kHz 대역). 그러나, 만일 이러한 협대역 해법이 음향 신호를 더 큰 대역으로 송신하는 데에 사용된다면, 상기 신호는 비교적 낮은 음질로 재생된다. 이것은 기본 부호기 해법(basic coder solution)과 강화 해법(enhancement solution) 모두가 협대역 특성을 유지하기 위해 최적화되어 있기 때문이다. 실제로, 강화 부호화(enhancement coding)는, 나쁜 환경에서는 지각 음질에 대한 상황이 더 나빠질 수도 있다.
더욱이, 전형적인 이동통신 영역인 16 kbps 이하의 속도로 동작하는 기존의 음성 코덱은 일반적으로 음악과 같은 비음성(non-speech sound)에 대해 상대적으로 낮은 성능을 나타낸다.
따라서, 오늘날의 코덱 또는 부호화 방법 중에 광대역 음향소스 신호가 지각 품질(perceived quality)을 만족하면서 부호화 또는 재생될 수 있도록 하는 해법은 없다. 또한, 특정 응용분야에 대해 지각적으로 개선된 협대역 부호화 해법이 요구되고 있다.
본 발명은 부호화된 정보를 근거로 재생된 해당 신호가 지각 음질(perceived sound quality)을 갖게 하는 음향소스 신호(acoustic source signal)의 부호화에 관한 것으로서, 기존의 부호화 해법(encoding solution)보다 더 양호한 것이다. 특히, 본 발명은 청구항 1 및 43의 전제부(preamble)에 따른, 전송 매체를 통해 전송하기 위한 부호화 정보를 생성하는 음향소스 신호의 부호화와, 청구항 30 및 52의 전제부에 따른, 전송 매체를 통해 수신된 부호화 정보의 복호화에 관한 것이다. 또한, 본 발명은 청구항 65의 전제부에 따른 통신 시스템에 관한 것이며, 청구항 28 및 41 각각에 따른 컴퓨터 프로그램에 청구항 29 및 42 각각에 따른 컴퓨터 판독 매체(computer readable media)를 부가한 것에 관한 것이다.
본 발명은 첨부한 도면을 참조하여, 일례로써 나타낸 바람직한 실시예에 의하여 더욱 상세하게 설명될 것이다.
도 1은 본 발명에 따른 일반적 송신기에 대한 블록도.
도 2는 본 발명에 따른 일반적 수신기에 대한 블록도.
도 3은 본 발명의 제1 실시예에 따른 송신기에 대한 블록도.
도 4는 본 발명의 제1 실시예에 따른 수신기에 대한 블록도.
도 5는 본 발명의 제2 실시예에 따른 송신기에 대한 블록도.
도 6는 본 발명의 제2 실시예에 따른 수신기에 대한 블록도.
도 7는 본 발명의 실시예에 따라 신호 프레임에 대칭적 윈도우 함수를 적용시키는 방법을 나타내는 도면.
도 8는 본 발명의 실시예에 따라 신호 프레임에 비대칭적 윈도우 함수를 적용시키는 방법을 나타내는 도면.
도 9는 본 발명에 따른 방법의 제1 양태를 나타내는 흐름도.
도 10은 본 발명에 따른 방법의 제2 양태를 나타내는 흐름도.
본 발명의 목적은 상기한 문제를 완화시키고, 기존의 해법과 비교하여 실제적으로 개선된 지각 품질을 갖는 광대역 및 협대역 음향소스 신호의 효율적인 부호화, 전송 및 재생을 할 수 있도록 하는 것이다.
본 발명의 한 양태에 따르면, 상기 목적은 앞에서 언급한 바와 같이 음향소스 신호를 부호화하는 방법에 의해 달성될 수 있다. 상기 방법은 제1 부호화 신호 프레임(primary coded signal frame) 각각의 표적 신호 프레임에서의 샘플값의 수보다 더 큰 스펙트럼 계수를 포함하는 강화 스펙트럼에 특징이 있다. 따라서, 다른신호에서의 샘플값의 수에 대하여 상기 강화 스펙트럼에서 증가된 수의 스펙트럼 계수는 지각 음질에 대한 개선 요구를 달성하기 위한 토대를 제공한다.
본 발명의 다른 양태에 따르면, 상기 목적은 컴퓨터의 내부 메모리로 직접 로딩될 수 있는 컴퓨터 프로그램에 의해 달성될 수 있는데, 이 컴퓨터 프로그램은 상기 프로그램이 컴퓨터 상에서 동작할 때 위의 단락에서 설명된 방법을 제어하는 소프트웨어로 이루어진다.
본 발명의 또 다른 양태에 따르면, 상기 목적은 컴퓨터 판독 매체에 의해 달성되는데, 상기 판독 매체에는 프로그램이 기록되어 있고, 상기 프로그램은 위로 두 번째의 단락에서 설명된 방법을 상기 컴퓨터가 제어하도록 한다.
본 발명의 또 다른 양태에 따르면, 상기 목적은 처음에 설명된 것처럼 전송 매체를 통해 송신된 부호화 정보를 복호화하는 방법에 의해 달성되는데, 이 방법은 강화 스펙트럼에서 있는 스펙트럼 계수만큼 많은 샘플값을 포함하도록 관련 재생 제1 부호화 신호 프레임(relevant reconstructed primary coded signal frame)을 확장시킴으로써 강화 부호화 신호 프레임을 재생하는 것을 특징으로 한다.
본 발명의 또 다른 양태에 따르면, 상기 목적은 컴퓨터의 내부 메모리에 직접 로딩될 수 있는 컴퓨터 프로그램에 의해 달성되는데, 이 컴퓨터 프로그램은 상기 프로그램이 컴퓨터에서 동작할 때에 위의 단락에서 설명한 방법을 제어하는 소프트웨어를 포함한다.
본 발명의 추가적인 양태에 따르면, 상기 목적은 컴퓨터 판독 매체에 의해 달성되는데, 상기 판독 매체에는 프로그램이 기록되어 있고, 상기 프로그램은 위로두 번째의 단락에서 설명된 방법을 상기 컴퓨터가 제어하도록 한다.
본 발명의 다른 양태에 따르면, 상기 목적은 앞서 설명한 것과 같은 전송 매체를 통해 송신하기 위한 부호화 정보를 생성하기 위해 음향소스 신호를 부호화하는 송신기에 의해 달성되는데, 이 송신기는 입력되는 표적 신호 프레임과 입력되는 제1 부호화 신호 프레임 각각에서의 샘플값보다 더 큰 개수의 스펙트럼 계수를 포함하는 것을 특징으로 한다. 송신기에 있는 강화 추정 유닛은 관련 표적 신호 프레임과 관련 제1 부호화 신호 프레임 각각을, 강화 스펙트럼에서의 스펙트럼 계수만큼 많은 샘플값을 포함하도록 확장시킨다.
본 발명의 다른 양태에 따르면, 상기 목적은 앞서 설명한 것과 같은 전송 매체로부터의 부호화 정보를 수신 및 복호화하는 수신기에 의해 달성되는데, 이 수신기에서 강화 유닛은 강화 스펙트럼에서의 스펙트럼 계수만큼 많은 샘플값을 포함하도록, 입력되는 재생 제1 부호화 신호 프레임을 확장시킨다.
본 발명의 다른 양태에 따르면, 상기 목적은 제1 노드와 제2 노드 사이에서 부호화 음향소스 신호를 교환하는 통신 시스템에 의해 달성되는데, 상기 시스템은 상기 제안된 송신기, 상기 제안된 수신기, 및 상기 송신기로에서 상기 수신기로 부호화 정보를 이송하는 전송 매체를 포함한다.
물론, 상기 강화 스펙트럼에서 상기 제안된 확장 개수의 스펙트럼 계수는 해당 신호에 대해 주파수 분해능(resolution)을 증가시킨다. 이것은 많은 장점의 기본이 되는데, 특히 지각 음질(perceived sound quality)에 대해 유용하다. 즉, 개선된 주파수 분해능은 소스 신호에 포함된 지각적으로 중요한 정보가 더 많이 부호화되어 수신기로 보내질 수 있다는 것을 의미한다.
또한, 계산적인 관점에서 보면, 고속 푸리에 변환(FFT)에 적합한 많은 샘플값을 포함하는 신호 프레임을 이용하는 것이 바람직한데, 예를 들어, 정수 2의 파워(power)와 같은 것이 바람직하다. 제안된 해법은 이에 대한 이상적인 프레임 크기의 선택에 완벽한 자유를 제공한다.
따라서, 본 발명은 음향소스 신호의 송신에 대해 개선된 지각 품질과 계산적으로 효과적인 해법 모두를 제공한다.
도 1은 음향소스 신호(x)를 부호화하여, 부호화 매체를 통해 송신하기 위한 부호화 정보(S, Cq)를 생성하는 일반적인 송신기에 대한 블록도이다. 도 9에서는 흐름도를 이용하여 송신기에 의해 실행되는 해당 방법의 단계를 나타내고 있다. 송신기는 음향소스 신호(x)를 수신하는 입력을 갖는 제1 부호기(primary coder)(101)를 포함한다. 제1 부호기(101)는 음향소스 신호(x)에 응답하여, 표적 신호(T)와 표적 신호(T)에 정합(match)시키기 위한 제1 부호화 신호(primary coded signal)(P1)을 생성한다. 표적 신호(T)와 제1 부호화 신호(P1)은 모두 프레임(frame)으로 분활되는데, 이들 각각은 제1 개수(n1)의 샘플값을 포함한다. 따라서, 표적 신호(T)는 표적 신호 프레임을 각각 구성하는 그룹들로서 처리되는 샘플값으로 표현된다. 마찬가지로, 부호화 신호(P1)의 샘플값은 부호화 신호 프레임으로 함께 그룹화된다. 또한, 제1 부호기(101)는 부호화 정보(S)를 발생하는데, 이것으로부터 수신기에 의해 제1 부호화 신호(P1)가 재생될 것이다. 따라서, 부호화 정보(S)는 음향소스 신호(x)의 중요한 특성을 표시하고 있다. 부호화 정보(S)에 포함될 수 있는 데이터의 일례가 도 3 및 5를 참조하여 주어질 것이다.
제1 부호기(101)에 의해 먼저 실행될 동작은 도 9의 흐름도에서 첫번째의 3단계 901, 902, 903에 해당하는데, 즉, 제1 개수(n1)의 샘플값/프레임을 갖는 표적 신호(T)를 생성하는 단계, 제1 개수(n1)의 샘플값/프레임을 갖는 부호화 신호(P1)를 생성하는 단계 및 부호화 정보(S)를 각각 생성하는 단계에 해당한다. 표적 신호(T), 제1 부호화 신호(P1), 및 부호화 정보(S)는 모두 입력되는 음향소스 신호(x)에 응답하여 생성된다.
강화 추정 유닛(enchancement estimatio unit)(102)은 표적 신호(T)와 제1 부호화 신호(P1)를 수신하고, 이러한 신호에 응답하여 강화 스펙트럼(C)를 생성하는데, 이것으로부터 수신기는 음향소스 신호(x)의 재생을 지각적으로 개선시킨다. 강화 스펙트럼(C)은 강화 스펙트럼(C)의 특정 프레임이 표적 신호(T)의 적어도 한 프레임과 제1 부호화 신호(P1)의 적어도 한 프레임에 근거하도록, 프레임-와이즐리(frame-wisely)로 생성된다. 강화 스펙트럼(C)의 한 프레임을 생성하기 위해, 샘플값은 입력 프레임에서 하나 이상을 취해야 하는데, 이것은 강화 스펙트럼(C)의 프레임이 표적 신호(T) 또는 제1 부호화 신호(P1)보다 더 많은 샘플값을 포함하기 때문이다. 본 발명의 바람직한 실시예에 따르면, 강화 스펙트럼(C) 프레임은 다수의 샘플을 포함하고 있으며, 이것은 정수 2의 파워(power), 즉 128이다. 전형적으로, 표적 신호 프레임 또는 제1 부호화 신호 프레임의 한 프레임은 80 샘플(한 프레임이 16 kHz 비율로 샘플된 5ms를 표시하는 경우)을 포함하므로, 이것은 강화 스펙트럼 프레임에서의 샘플값이 표적 신호 프레임 또는 제1 부호화 신호프레임보다 48(또는 60%) 더 크다는 것을 의미한다. 이러한 강화 신호(C)의 발생은 도 9에서 제2 개수(nc)의 샘플값/프레임을 갖는 강화 스펙트럼(C)의 생성을 포함하는 단계 904로서 표시되어 있다. 제2 개수(nc)는, 앞서 언급한 바와 같이, 제1 개수(n1)보다 크고, 정수 2의 파워인 것이 바람직하다.
강화 부호기(103)는 강화 스펙트럼(C)를 수신하고, 그것에 응답하여 강화 스펙트럼(C) dml 부호화 표현(encoded representation)을 구성하는 부호화 강화 스펙트럼(Cq)를 생성한다. 강화 스펙트럼(C)을 부호화 강화 스펙트럼(Cq)로 부호화시키는 것은 전송 매체를 통해 송신하기에 적합한 강화 스펙트럼(C)을 포맷으로 적응시키고자 하는 것이다. 전형적으로, 이러한 적응(adptation)은 강화 스펙트럼(C)의 양자화(quantising)를 포함하여, 이산 샘플값(discrete sample value)으로 표시된다.
부호화 강화 스펙트럼(Cq)의 형성은 도 9에서 단계 905로서 나타내었으며, 이어서 제1 부호기(101)에 의해 발생되는 부호화 정보(S)와, 부호화 강화 스펙트럼(Cq) 모두를 데이터(S 및 Cq)의 송신기와 수신기 사이에서 채널을 형성하는 전송 매체를 통해 송신하기 위해 출력하는 단계 906가 실행된다.
다음으로, 상기 과정은 루프 백(loop back) 되어 다음 음향소스 신호(x)의 프레임을 부호화한다.
상기에서 제안한 증가된 블록 길이를 갖는 강화 스펙트럼(즉, 표적 신호(T)또는 제1 부호화 신호(P1)보다 더 많은 스펙트럼 계수를 수용하는 스펙트럼)은 실제적으로는 실행하는 것은 사소한 문제가 아니다. 어떻게든, 강화 스펙트럼(C)의 기초가 되는 신호의 프레임은 강화 스펙트럼(C)에서의 스펙트럼 계수의 수와 같이 많은 개수의 샘플값을 포함하도록 확장되어야 한다.
본 발명의 바람직한 실시예에 따르면, 제1 부호화 신호와 표적 신호 각각의 기본적인 프레임은 관련 프레임(relevant frame)의 종단에서 충분한 수의 영값(zero-value) 샘플을 더하는, 이른바 영-삽입(zero-padding)에 의해 확장된다. 결과적으로, 표적 신호와 제1 부호화 신호의 프레임이 80 샘플값을 포함하고 강화 스펙트럼의 프레임이 256 스펙트럼 계수를 포함하면, 표적 신호 프레임과 제1 부호화 신호 프레임 각각에 포함되어 있는 원래 샘플값의 종단(또는 초단)에 176개의 영값 샘플이 부가된다.
본 발명의 바람직한 다른 실시예에 따르면, 표적 신호와 제1 부호화 신호 각각의 기본적인 프레임은, 적어도 하나의 이전 프레임으로부터 관련 프레임까지 충분한 수의 샘플값을 부가함으로써 확장된다. 그러므로, 표적 신호와 제1 부호화 신호의 프레임이 148 샘플값을 포함하고 강화 스펙트럼의 프레임이 256 샘플값을 포함하면, 이전 프레임으로부터의 108 샘플값이 표적 신호 프레임과 제1 부호화 신호 프레임에 각각 포함되어 있는 원래 샘플값 앞에 부가된다.
표적 신호(T)와 제1 부호화 신호(P1)가 확장되는 상기한 방법 중 어느 쪽을 따르든지, 강화 유닛(102)은 다음의 절차를 실행한다.
먼저, 샘플값을 갖는 표적 신호(T)의 관련 표적 신호 프레임을 샘플값의 총수가 강화 스펙트럼(C)의 각 프레임에 포함된 스펙트럼 계수의 수와 같게 될 때까지 확장시켜서, 확장 표적 신호 프레임(extended targer signal frame)을 생성한다. 이 때, 확장 표적 신호 프레임은 주파수 변환(frequency transform)되어 주파수 영역에서 스펙트럼을 표시한다.
이와 동시, 이후 또는 가능하면 이전에, 해당 동작이 제1 부호화 신호(P1)에 대해 실행된다. 따라서, 샘플값을 갖는 관련 제1 부호화 신호 프레임을 샘플값의 총수가 강화 스펙트럼(C)의 각 프레임에 포함된 프레임 수와 같게 될 때까지 확장시켜서, 확장 제1 부호화 신호를 생성한다. 이 때, 확장 제1 부호화 신호는 주파수 변환되어 주파수 영역에서의 스펙트럼을 표시한다.
마지막으로, 확장 표적 신호 프레임과 확장 제1 부호화 신호로부터 강화 스펙트럼(C)이 생성된다. 예를 들면, 이것은 확장 표적 신호의 스펙트럼을 확장 제1 부호화 신호의 스펙트럼으로 나눔으로써 실행될 수 있다.
본 발명의 바람직한 다른 실시예에 따르면, 표적 신호(T)와 제1 부호화 신호(P1) 각각은 윈도우 함수(window-function)(w1)로 곱해진다. 윈도우 함수(w1)는 강화 스펙트럼(C)에 포함된 스펙트럼 계수의 개수에 해당하는 전체 폭을 갖지며, 이것은 기본 신호, 즉 표적 신호(T) 또는 제1 부호화 신호(P1)의 관련 프레임에 대해 중심에 위치한다. 그러나, 윈도우 함수(w1)은 단지 제1 개수(n1)의 샘플값, 즉 관련 프레임에서의 샘플값의 수에 대해 최대 크기(magnitude)(전형적으로 1)를 가진다. 윈도우 함수(w1)은 이러한 범위 밖의 샘플값, 즉 인접 프레임에서 관련 프레임까지의 샘플값에 대해 점진적으로 감소하는 크기를 갖는다. 윈도우 함수의 적용은 일반적으로 강화 추정(enhancement estimation)에 유리하다.
도 7은 윈도우 함수의 일례를 나타내는 다이어그램이다. 여기서 윈도우 함수(w1)는 대칭적이고 제1 개수의 샘플값(x축을 따라 변수 N으로 표시)을 포함하는 관련 프레임(Fi)의 중심에 있다. 윈도우 함수(w1)은 Fext(i)를 커버하는데, 관련 프레임(Fi)의 모든 샘플값 뿐만 아니라 이전 프레임과 후속 프레임(Fi+1)의 샘플값도 커버한다. 이전 프레임의 샘플값은 그것들을 버퍼에 저장함으로써 간단히 관련 프레임용으로 재사용하는 것이 상대적으로 용이하다. 그러나, 후속 프레임(Fi+1)으로부터의 샘플값은 아직도 제1 부호기(101)에 의해 발생되지 않았다. 그러므로, 이른바 룩-어헤드 거리(look-ahead distance)(L) 대응하여 부호화 지연(delay)이 후속 프레임(Fi+1)에 도입된다. 부호화 지연은 원하는 것이 아니며, 최소로 유지되어야 하는데, 이것은 이러한 지연이 에코 효과(echo effect)를 일으킬 수 있을 뿐만 아니라, 지연이 과도하게 될 경우 청취자에게 다른 괴로움을 줄 수 있기 때문이다.
본 발명의 바람직한 다른 실시예에 따르면, 관련 프레임의 샘플값에 단지 과거(historic)의 샘플값만을 부가하여 강화 스펙트럼에 대한 기본을 형성하도록, 상기 윈도우 함수가 대치된다.
도 8은 그러한 윈도우 함수(W2)의 일례를 나타낸다. 이 윈도우 함수(W2)는 비대칭이며(바람직하지만 필수적인 것은 아님) 전체 관련 프레임(F)에 대해 위치하고 적어도 이전 프레임의 최소한의 일부에 대해 확장된다. 이 예에서, 관련 프레임(F)은 N=m 에서 N=m+79의 범위의 80 샘플값을 포함하는 것으로 가정한다. 한편, 강화 스펙트럼은 N=m-48 에서 N=m+79의 범위의 128 샘플값을 포함하는 것으로 가정한다. 도 8에 예시한 윈도우 함수(W2)는, 이른바 초기 m1 샘플값에 대한 해밍 윈도우(Hamming window)의 형태와 이어지는 m2 샘플값에 대한 코사인파의 제1 사분기(first quarter)에 해당하는 형태를 갖는 해밍-코사인(Hamming-Cosine) 윈도우이다. 당연하게, 대칭 혹은 비대칭 윈도우 함수들의 다른 형태, 즉 해밍, 해닝(Hanning), 블랙맨(Blackman), 카이저(Kaiser) 및 버틀렛(Bartlet)도 본 발명에 따라 적용될 수 있다.
비록 장점이 적지만, 비대칭 윈도우 함수가 적용될 때 룩-어헤드(look-ahead)를 포함시킬 수도 있다. 예를 들어, 해밍-코사인 윈도우는 m+79 이상의 샘플값, 즉 차후의 샘플값을 커버하도록 확장될 수 있다.
표적 신호(T)와 제1 부호화 신호(P1)의 필수적인 확장이 그 신호 프레임에 윈도우 함수를 곱함으로써 달성되는 경우, 강화 유닛(102)은 다음의 절차를 실행한다.
먼저, 표적 신호(T)의 관련 부분을 강화 스펙트럼에 있는 스펙트럼 계수만큼 많은 샘플을 포함하는 윈도우 함수로 곱한다. 결과적으로 확장된 표적 신호 프레임은 주파수 변환되어 주파수 영역에서 스펙트럼으로 표시된다.
이와 동시, 이후 또는 가능하다면 이전에, 해당 동작이 제1 부호화 신호(P1)에 대해 실행된다. 따라서, 강화 스펙트럼에 있는 스펙트럼 계수만큼 많은 샘플값을 포함하는 윈도우 함수를 제1 부호화 신호의 관련 부분과 곱함으로써 확장된 제1 부호화 신호가 생성된다. 결과적으로 확장 제1 부호화 신호 프레임은 주파수 변환되어 주파수 영역에서 스펙트럼으로 표시된다.
마지막으로, 확장 표적 신호 프레임과 확장 제1 부호화 신호로부터 강화 스펙트럼(C)이 생성된다. 예를 들면, 이것은 확장 표적 신호의 스펙트럼을 확장 제1 부호화 신호의 스펙트럼으로 나눔으로써 실행될 수 있다.
본 발명의 바람직한 다른 실시예에 따르면, 강화 유닛(102)는 표적 신호(T)와 제1 부호화 신호(P1) 각각에서의 샘플값으로부터 배타적으로 강화 스펙트럼(C)를 생성하는데, 이것은 특정 임계 주파수 이상 및 상측 통과대역 제한값(예를 들어, 샘플링 주파수가 16kHz일 경우 7 kHz) 이하의 주파수 성분을 표시한다. 즉, 임계 주파수의 적절한 선택은 강화 스펙트럼(C)를 근거로 생성되는 재생 음향소스 신호의 지각 음질을 더 향상시킨다.
일반적으로, 기본적인 부호화 방법은 표적 신호에 대한 거리가 특정 기준(예를 들어, 최소제곱 오차(MSE: minimum square error))에 따라 최소화되도록, 제1 부호화 신호의 주파수 스펙트럼의 크기를 수정하는 것에 맞추어 강화 스펙트럼(C)를 생성하도록 설계된다. 제1 부호화 신호의 위상 정보(phase information)는 일반적으로 강화 스펙트럼(C)에 의한 영향없이 유지된다. 이것은 이른바 프레임 경계에서의 블로킹 효과(blocking effect)를 초래할 수 있는데, 위상값이 수정된 스펙트럼 크기에 더 이상 따르지 않는 프레임 경계 영역에서 신호의 불연속 가능성이 있기 때문이다.
그러나, 강화 스펙트럼(C)이 표적 신호(T)와 제1 부호화 신호(P1)의 높은 주파수 성분을 배타적으로 기초로 하고 있는 경우, 이러한 효과는 심각하게 상승될 수 있다. 프레임 경계에서의 신호 불연속에 기인한 위상 오차는 비교적 낮은 파워 레벨을 갖는 높은 주파수 성분에서 주로 발생한다. 그러므로, 위상 오차는 재생된 음향소스 신호의 지각(perception)에 단지 한정적으로 영향을 줄 것이다. 음성 신호에서 유성음(voiced speech sound)은 저주파 성분에 대해 비교적 높은 파워 레벨을 가지며, 반면 고주파 성분에 대해서는 파워 레벨이 비교적 낮아서 표적 신호(T)와 제1 부호화 신호(P1)의 제안된 선택적 필터링에 의해 현저히 영향을 받지는 않는다. 그러나, 무성음(unvoiced speech sounds)은 상측 주파수 대역(upper frequency band)에서 비교적 높은 파워 레벨을 나타낸다. 이러한 형태의 음성의 잡음 특성 때문에, 블로킹 효과는 덜 중요한 역할을 하게 되어서, 결과적으로 더 큰 정도로 수용될 수 있다.
상기한 실시예에 따른 선택적 필터링의 결과는, 각각의 크기 사이의 거리와 표적 신호의 해당 파라메터가 최소화되도록, 선택된 주파수 범위에서의 주파수 성분만이 수정되었다는 것이다. 선택된 주파수 범위 밖의 주파수 성분은 전혀 수정되지 않는다. 이것은 표적 신호(T)의 파워 레벨과 제1 부호화 신호(P1)의 파워 레벨간의 차이가 상대적으로 클 경우에는 문제가 될 수 있다. 예를 들어, 만일 제1 부호기(101)가 여기신호(excitation signal)이고 표적 신호가 LPC(LPC = Linear Predictive Coding, 선형 예측 부호화) 잔여 신호(residual)인 CELP 부호기(CELP = Code Excited Linear Predictive, 부호 여기 선형 예측, 도 5 참조)라면, 입력되는 무성음은 부호기가 상대적으로 낮은 레벨을 갖는 제1 부호화 신호(P1)와 상대적으로 높은 파워 레벨을 갖는 표적 신호(T)를 발생하게 한다. 제1 부호화 신호(P1)와 표적 신호(T) 모두가 스펙트럼적으로 편평한 주파수 스펙트럼(flat frequency spectra)(예를 들어, 실질적으로는 백색 잡음을 표시)을 갖는다고 가정하면, 강화 스펙트럼(C)도 스펙트럼적으로 편평한 주파수 스펙트럼을 가져야 한다. 그러나, 선택적인 필터링은 기울어진 주파수 스펙트럼(즉, 편평하지 않은)을 갖는 강화 스펙트럼(C)이 되게 한다. 재생된 음향소스 신호는 불필요한 나쁜 음질을 갖게 될 것이다.
본 발명의 바람직한 다른 실시예에 따르면, 표적 신호(T)의 파워 레벨이 임계 주파수(예를 들어 상술한 2kHz 또는 3kHz 에서) 아래에서의 스펙트럼 성분에 대해 제1 부호화 신호(P1)의 파워와 실질적으로 동일한 값으로 감쇄되도록, 표적 신호(T)의 파워 레벨이 강화 스펙트럼(C)의 생성 중에 조정될 수 있다. 이것은 앞으로 두 번째 단락의 끝에서 언급한 문제를 완화시키는데, 이것은 입력되는 음향소스 신호가 무성음일 때 강화 스펙트럼(C)의 주파수 스펙트럼이 편평하게 유지되기 때문이다.
이와는 달리, 제1 부호화 신호의 파워 레벨은 제1 부호화 신호(P1)의 파워가 임계 주파수 아래에서의 스펙트럼 성분에 대해 표적 신호(T)의 파워와 실질적으로 동일한 값으로 증폭되도록, 강화 스펙트럼(C)의 생성 중에 조정될 수 있다.
본 발명의 바람직한 다른 실시예에 따르면, 강화 스펙트럼(C)은 하한 및 상한 사이에서 계수값을 갖도록 제한된다. 이러한 측정은 프레임 경계에서 신호 불연속에 의해 초래되는 문제에 대한 다른 해법을 나타낸다.
강화 스펙트럼(C)에서 계수값의 제한은, 재생 강화 스펙트럼에 의해 강화된 재생 제1 부호화 신호가 10dB 이상으로 증폭된 스펙트럼 성분이 없는 곳(즉, 팩터 3,16)이나 10dB 이상으로 감쇄된 스펙트럼 성분이 없는 곳(즉, 팩터 0,316)에 있다면, 개개의 주파수 성분도 특정 경계 영역 내에 유지될 것이라는 것을 의미한다. 그러므로, 프레임들 사이의 불연속 효과는 이들이 지각적으로 상관 없을 정도로 제한된다.
본 발명의 바람직한 다른 실시예에 따르면, 비균일 양자화 방법을 강화 스펙트럼(C)에 적용함으로써 강화 부호기(103)는 부호화 강화 스펙트럼(Cq)을 생성한다. 예를 들어, 부호화 강화 스펙트럼(Cq)의 발생은 강화 스펙트럼(C)을 선형 영역에서 로그 영역으로 변환하는 것을 포함한다. 이러한 양자화에 앞선 변환은 지각적인 관점에서 적합한데, 이것은 큰 음향에 대해 인간의 청각이 거의 로그적(logarithmic)이기 때문이다.
본 발명의 바람직한 다른 실시예에 따르면, 부호화 강화 스펙트럼(Cq)의 생성은 강화 스펙트럼(C)의 적어도 2개의 별개의 주파수 성분을 조인트(joint) 주파수 성분으로 결합하는 것을 포함한다. 즉, 인간의 청각은 높은 주파수 성분에 대한 신호 크기에서의 양자화 오차에 민감하지 않다. 그러므로 낮은 주파수 대역에서의 주파수 성분을 대해 사용되는 것보다 더 낮은 분해능(resolution)을 갖는 주파수 성분은 양자화하기에 충분하다. 인간의 음성 지각은 소위 임계 대역 필터(critical band filter)로 근사화 될 수 있는데, 그 대역폭은 반드시 로그 주파수 스케일(logarithmic frequency scale)에 비례한다. 바크 스케일(Bark scale) 및 멜 스케일(Mel scale)은 그와 같은 주파수 대역의 분할에 대한 두 가지 예를 구성한다. 각 대역에서의 계수에 대한 산술 평균(arithmetic average) 또는 메디안(median) 계수값은, 재생된 신호의 지각 음질의 현저한 감소없이 강화 스펙트럼(C)에서 정보량을 감소시키기 위해 각 대역에서의 개개의 계수값으로 대치될 수 있다.
그러므로, 강화 부호기(103)에 의해 실행되는 절차는 강화 스펙트럼(C)의 주파수 스펙트럼 중 적어도 일부를 하나 이상의 주파수 대역으로 분할하는 제1 단계와, 각 주파수 대역에 대한 조인트 주파수 성분을 구하는 제2 단계를 포함한다.
본 발명의 바람직한 다른 실시예에 따르면, 강화 스펙트럼(Cq)의 생성은 강화 스펙트럼(C)를 켑스트럼 변환(cepstral transform)된 강화 스펙트럼으로 변환하고, 특정 차수 이상의 켑스트럼 변환된 강화 신호에서의 켑스트럼 계수를 버리는 것(discarding)을 포함한다. 즉, 이러한 고차 켑스트럼 계수(high order cepstralcoefficients)는 강화 스펙트럼(C)의 지각적으로 무관한 미세 구조(fine structure)를 나타내므로, 재생된 음향소스 신호에서 지각 음질의 현저한 감소없이 버려질 수 있다.
본 발명의 바람직한 다른 실시예에 따르면, 강화 스펙트럼(Cq)의 생성은 표적 신호(T) 또는 제1 부호화 신호(P1)의 관련 신호 프레임이 유성음을 표현하도록 추정되는 것인지 무성음을 표현하도록 추정되는 것인지를 검출하는 것을 포함한다. 전자의 경우, 강화 스펙트럼(C)은 상대적으로 좁은 주파수 범위(말하자면, 2kHz ~ 4kHz)에 대해 유도되고 양자화되며, 후자의 경우, 강화 스펙트럼(C)는 상대적으로 넓은 주파수 범위(말하자면, 3kHz ~ 7kHz)에 대해 유도되고 양자화된다. 즉, 무성음은 상대적으로 편평한 주파수 스펙트럼을 가지고 있고(균일한 분해능이 필요), 반면 유성음은 고주파 대역에서 비교적 가파르게 기울어진 경사를 갖는 주파수 스펙트럼을 가진다(높은 주파수에 대해서 보다 낮은 주파수에 대해 더 좋은 분해능이 필요). 음성 코덱이 적응 코드북(adaptive code book)을 포함하는 경우에(예를 들어, CELP-부호기), 도 5에서 현재 이득값(g1)은 부호화 신호가 유성음을 나타내는지 무성음을 나타내는지를 검출하기 위해 사용될 수 있다. 예를 들어, 0.5 미만의 이득값(g1)은 무성음을 표시하고, 0.5 또는 그 보다 높은 이득값(g1)은 유성음을 표시한다.
상기 제안한 모든 측정은 물론 컴퓨터의 내부 메모리에 직접 로딩될 수 있는 컴퓨터 프로그램에 의해 실현될 수 있을 것이며, 여기에는 상기 프로그램이 컴퓨터상에서 동작할 때 필수적인 단계를 제어하는 적절한 소프트웨어가 포함된다. 또한, 상기 컴퓨터 프로그램은 컴퓨터가 판독 가능한 임의 종류의 매체에 기록될 수 있다.
본 발명에 따른 일반적인 수신기에 대한 블록도를 도 2에 나타내었다. 도 10은 상기 수신기에 의해 실행되는 방법에 대한 흐름도를 나타낸다. 전송 매체를 통해 송신된 부호화 정보(S; Cq)의 추정값은 수신기에 도달한다. 이것은 도 10에서 제1 단계(1001)로 표시되어 있다.
제1 복호기(primary decoder)(201)는 재생된 제1 부호화 신호(P1)를 발생시키는 부호화 정보()의 추정값을 수신한다. 재생 제1 부호화 신호()는 재생 제1 부호화 신호 프레임으로 분할되고, 이들 각각은 제1 개수(n1)의 샘플값을 포함한다. 이것은 도 10에서 제2 단계(1002)로 표시되어 있다.
결과적으로, 강화 복호기(202)는 부호화 강화 스펙트럼()의 추정값을 수신하고 재생 강화 스펙트럼()을 생성한다. 재생 강화 스펙트럼()은 제2 개수(nc)의 스펙트럼 계수를 포함한다. 이것은 재생 강화 신호 프레임(시간 영역에서)에 대응하고, 이들 각각은 제2 개수(nc)의 샘플값을 포함한다. 본 발명에 따르면, 제2 개수(nc)는 제1 개수(n1)보다 크다. 이것은 도 10에서 제3 단계(1003)으로 표시되어 있다.
재생 강화 스펙트럼()과 재생 제1 부호화 신호()는 이것에 응답하여강화된 재생 제1 부호화 신호()를 제공하는 강화 유닛(203)으로 진행한다. 또한, 강화 재생 제1 부호화 신호의 스펙트럼은 제2 개수(nc) 스펙트럼 계수를 포함한다. 강화 재생 제1 부호화 신호()를 생성하기 위해, 강화 유닛(203)은 입력되는 재생 제1 부호화 신호 프레임 각각을 앞서 설명한 방법에 따른 제2 개수(nc)의 샘플값을 포함하도록 확장한다. 강화 재생 제1 부호화 신호()는 재생 제1 부호화 신호()를 주파수 변환시켜서 해당 스펙트럼을 구하고, 이 스펙트럼에 재생 강화 스펙트럼()을 곱하고, 그 결과를 역 주파수 변환한다. 이러한 동작은 제2 개수(nc) 스펙트럼 계수를 가지는 강화 재생 제1 부호화 신호()를 생성한다.
정확한 개수의 프레임당 샘플값(예를 들어, 전형적으로는 제1 개수(n1))을 갖는 재생 음향소스 신호()를 발생시키기 위해, 다음의 합성기(204)가 요구될 경우, 강화 재생 제1 부호화 신호()에서의 스펙트럼 계수의 개수는 감소되어(예를 들어, 재샘플링) 제1 개수의 스펙트럼 계수 전체를 다시 얻는다.
그러므로, 요구 프로세스(requirements process)의 성능에 따라, 강화 재생 제1 부호화 신호()는 제1 개수(n1) 또는 제2 개수(nc) 스펙트럼 계수 중 하나를 갖는 합성 필터(synthesis filter)(204)로 진행한다. 제2 개수(nc)의 샘플값에서 제1 개수(n1)의 샘플값으로의 감소는, 관련 제1 부호화 신호 프레임에서 제1개수(n1)에 대해 부가된 샘플값에 해당하는 샘플값을 버림(discarding)으로써 달성된다. 이것은 도 10에서 제4 단계(1004)에 의해 표시된다. 합성 필터(204)는 이에 응답하는 재생 음향소스 신호()를 생성한다. 이것은 도 10에서 제5 단계(1005)로 표시되어 있다. 이러한 절차는 후속 신호 프레임을 복호화하기 위해 루프백 된다.
본 발명의 바람직한 실시예에 따르면, 제안된 부호화 방법과 마찬가지로, 재생 강화 스펙트럼으로부터의 샘플값과 적어도 하나의 재생 제1 부호화 신호 프레임으로부터의 샘플값을 사용하여, 강화 재생 제1 부호화 신호()가 생성된다.
재생 제1 부호화 신호 프레임의 확장은 적어도 하나의 이전의 재생 제1 부호화 신호 프레임으로부터의 샘플값을 관련 재생된 제1 부호화 신호 프레임에 부가하는 것을 포함할 수 있다. 이와는 달리, 재생 제1 부호화 신호 프레임은 빈 샘플값값(empty sample value)을 관련 재생 제1 부호화 신호 프레임에 부가하여 확장될 수 있다. 이러한 샘플값은 원래 프레임의 종단 또는 초단 중 하나에 부가될 수 있다(이른바 영-삽입).
본 발명의 바람직한 실시예에 따르면, 제2 개수(nc)의 샘플값을 포함하는 윈도우 함수를 재생 제1 부호화 신호()에 곱하고, 관련 표적 신호 프레임에 대해 중심에 위치시킴으로써, 재생 제1 부호화 신호()로부터의 제2 개수(nc)의 샘플값을 포함하는 확장된 프레임이 생성된다. 윈도우 함수는 대칭적이거나 비대칭적인 것 중 하나일 수 있다. 비대칭 윈도우 함수는 단지 현재(current) 및과거(historical) 샘플값만이 제1 부호화 신호()의 확장된 프레임에 포함되도록 적용하는 것이 바람직하다. 도 8은 비대칭 윈도우 함수(W2)의 적합한 일례를 나타낸다.
본 발명의 바람직한 다른 실시예에 따르면, 대칭 윈도우 함수가 사용된다. 이러한 윈도우 함수는 강화 스펙트럼(C)에 포함된 스펙트럼 계수의 개수(예를 들어, 제2 개수(nc))에 해당하는 전체 폭을 가지며, 제1 부호화 신호(P1)의 관련 프레임에서 중심에 위치한다. 윈도우 함수는 샘플값의 제1 개수(n1), 즉 제1 부호화 신호(P1)의 관련 프레임에서 샘플값의 개수에 대해서 최대 크기(전형적으로는 1)를 가지며, 이러한 범위 밖의 샘플값, 즉 인접하는 프레임에서 관련 프레임까지의 샘플값에 대해서는 점진적으로 쇠퇴하는 크기를 가진다.
따라서, 제2 개수(nc)의 스펙트럼 계수를 포함하는 스펙트럼을 가지고 있는 강화 재생 제1 부호화 신호()는, 재생 제1 부호화 신호()와 재생 강화 스펙트럼()의 확장된 프레임을 근거로 생성될 수 있다. 제2 개수는 정수 2의 파워인 것이 바람직한데, 이것은 예를 들어 고속 푸리에 변환(FFT: Fast Fourier Transform)에 의해 결과적으로 강화 재생 제1 부호화 신호()의 처리를 더욱 효과적으로 할 수 있기 때문이다.
재생 강화 스펙트럼()을 적용하기 전에 재생 제1 부호화 신호 프레임이 확장되는 것을 피하고, 합성 필터링 전에 강화 재생 제1 부호화 신호()의 프레임 크기가 감소되는 것을 피하기 위한 이론적인 다른 방법으로서, 강화 재생 제1 부호화 신호()가 단지 제1 개수(n1) 스펙트럼 계수로 생성될 수 있도록, 샘플 포인트의 제1 개수(n1)에서의 재생 강화 스펙트럼()을 재샘플할 수 있다. 그러나, 이것은 원하지 않는 방식에서 더 긴 블록 길이의 강화 스펙트럼()에 의해 획득된 지각 품질을 악화시킬 수 있다.
물론, 앞서 제안된 모든 부호화 측정은 컴퓨터의 내부 메모리에 직접 로딩될 수 있는 컴퓨터 프로그램에 의해 실현될 수 있을 것이며, 여기에는 상기 프로그램이 컴퓨터 상에서 동작할 때 필수적인 단계를 제어하는 적절한 소프트웨어가 포함된다. 또한, 상기 컴퓨터 프로그램은 컴퓨터가 판독 가능한 임의 종류의 매체에 기록될 수 있다.
도 3은 본 발명의 제1 실시예에 따른 송신기에 대한 블록도를 나타낸다. 상기 송신기는 이른바 LPAS-부호기(Linear Predictive Analysis-by-Synthersis encoder)로서, 여기서 제1 부호기(101)는 역합성 필터(inverse synthesis filter)(301)를 포함한다. 상기 필터(301)는 음향소스 신호(x)를 수신하고, 그에 응답하여 표적 신호(T)를 발생시킨다. 제1 부호기(101)는, 예를 들어, LPC-분석을 실행하기 위해 하나 이상의 유닛(도시하지 않음)을 더 포함하며, 여기 발생기(excitation generator)(311)을 포함한다. 여기 발생기(311)은 음향소스 신호(x)를 수신하고, 그에 응답하여, 제1 부호화 신호(P1)와 부호화 정보(S)를 생성한다. 부호화 정보(S)는 제1 부호화 신호(P1)의 재생을 위해 수신기로 송신된다.
강화 유닛(308)은, 수신기에서 발생된 강화 재생 제1 부호화 신호(PE)를 시뮬레이션(simulate)하기 위해, 강화 제1 부호화 신호(PE)(강화 여기 신호를 표시)를 발생하고, 이 신호를 여기 발생기(311)로 피드백(feed back) 시킨다. 따라서, 여기 발생기(311)는, 음향소스 신호(x)를 더 잘 나타내는 부호화 정보(S)와 제1 부호화 신호(P1)가 각각 생성되도록, 그 내부 상태를 수정할 수 있다.
송신기는 강화 추정 유닛(102)를 더 포함하는데, 이것은 표적 신호(T)와 제1 부호화 신호(P1)를 수신하고, 도 1 및 9를 참조로 앞서 설명한 방법에 따라, 이러한 신호에 응답하여 강화 스펙트럼(C)을 생성한다.
본 발명의 바람직한 실시예에 따르면, 강화 제1 부호화 신호(PE)는 제1 부호화 신호(P1)에 대한 대안으로서 강화 추정 유닛(102)으로 들어간다. 이것은 도 3에서 점선으로 표시하였다. 따라서, 이전의 강화 제1 부호화 신호 프레임(PE)으로부터의 샘플값은 현재의 강화 스펙트럼(C)의 발생에 기여한다.
강화 부호기(103)은 강화 스펙트럼을 수신하고, 그에 응답하여 강화 스펙트럼(C)의 부호화된 표현을 구성하는 부호화 강화 스펙트럼(Cq)을 생성한다. 부호화 강화 스펙트럼(Cq)는 강화 스펙트럼(C)의 포맷을 표시하는데, 이것은 전송 매체를통해 신호를 전송하기에 적합하다.
제1 부호화 신호(P1) 뿐만 아니라, 강화 유닛(308)은 강화 스펙트럼(C)도 수신한다. 강화 제1 부호화 신호(PE)(강화 여기 신호)는 제1 부호화 신호(P1)와 강화 스펙트럼(C) 둘 다를 근거로 생성된다.
본 발명의 대안적인 실시예에서, 강화 유닛(308)은 제1 부호기(101)로부터 배제된다. 이 때, 합성 필터(311)는, 상술한 것과는 반대로, 강화 제1 부호화 신호(PE)에 대해 적응적이지 않다.
도 4는 본 발명의 제1 실시예에 따른 수신기에 대한 블록도로서, 도 3에 나타낸 송신기에 의해 발생된 부호화 정보를 수신하도록 맞추어져 있다. 따라서, 상기 수신기는 LPAS-복호기이다. 이것의 제1 복호기(201)는 여기 발생기(412)를 포함하여, 부호화 정보()의 추정값을 수신하고, 그에 응답하여 재생된 제1 부호화 신호()를 발생시킨다. 수신기에서의 나머지 유닛(202, 203, 204)은 상기 도 2에서와 동일한 참조 번호를 갖는 유닛에 대해 설명한 것과 동일한 기능 및 특성을 갖는다.
본 발명의 제1 실시예의 한 양태에 따르면, 강화 재생 제1 부호화 신호()는, 이전의 강화 재생 제1 부호화 신호 프레임()로부터의 샘플값이 현재의 강화 재생 제1 부호화 프레임()의 발생에 기여하도록, 입력 신호로서 강화 유닛(203)에 피드백 된다. 이것은 도 4에서 점선으로 표시하였다.
도 5는 본 발명의 제2 실시예에 따른 송신기에 대한 블록도를 나타낸다. 송신기는 이른바 CELP-부호기이며, 이것은 대수 코드북(algebraic code book)(504)을 포함한다.
상기 송신기의 제1 부호기(101)는 음향소스 신호(x)가 들어가는 검색 유닛(search unit)(502)을 포함한다. 역합성 필터(501)도 음향소스 신호(x)를 수신한다. 역합성 필터(501)은 음향소스 신호(x)에 응답하여, 강화 추정 유닛(102)으로 진행하는 표적 신호(T)를 생성한다.
음향소스 신호(x) 이외에도, 검색 유닛(502)은 국부적으로 재생된 음향소스 신호(y)를 수신하는데, 이것은 제1 부호기(101)에 포함된 것과 같은 합성 필터(510)에 의해 발생된다. 합성 필터(510)는 송신기에 의해 발생된 부호화 정보를 수신하고 재생하기 위한 수신기에서의 해당 필터와 동일하다. 따라서, 합성 필터(510)는 수신기를 시뮬레이션하고, 국부적으로 재생된 음향소스 신호(y)가 음향소스 신호(x)를 가능한 많이 닮도록 검색 유닛(502)이 그 파라메터를 조절할 수 있도록 한다. 검색 유닛(502)은 적응 코드북(adaptive code book)(503)에서의 제1 벡터(v2)에 어드레스된 제1 포인터(s1)를 생성한다. 다음의 제1 적응 증폭기(505)는 벡터(v2)에 원하는 진폭을 주는데, 이것은 또한 제1 이득값(g1)를 통해 검색 유닛(502)에 의해 설정된다. 더구나, 검색 유닛(502)은 대수 코드북(503)에서 제2 벡터(v2)를 어드레스하는 제2 포인터(pointer)(s2)를 생성한다. 결과적으로, 제2 벡터(v2)는 제2 적응 증폭기(506)에 의해 원하는 진폭으로 주어지고, 이것은 제2 이득값(g2)를 통해 검색 유닛(502)에 의해 제어된다. 결합기(combiner)(507)는 증폭된 제1 및 제2 벡터(g1v1및 g2v2)를 더하고, 제1 부호화 신호(P1)를 형성한다. 상기 신호(P1)는 적응 코드북(503)으로 피드백 되고, 국부적으로 재생된 음향소스 신호(y)에 대한 근거로서 합성 필터(510)로 진행하고, 강화 추정 유닛(102)으로 진행한다.
강화 추정 유닛(102)는 역합성 필터(501)로부터 표적 신호(T)를 수신하고, 상기 도 1 및 9를 참조로 설명한 방법에 따라, 이 신호에 응답하여 강화 스펙트럼(C)을 생성한다. 강화 부호기(103)은 강화 스펙트럼(C)를 수신하고, 이에 응답하여, 강화 스펙트럼(C)의 부호화 표현을 구성하는 부호화 강화 스펙트럼(Cq)을 생성한다. 부호화 강화 스펙트럼(Cq)는 강화 스펙트럼(C)의 포맷으로 표시되는데. 이것은 전송매체를 통해 수신기로 상기 신호를 송신하기에 적합하다.
도 1에서 부호화 정보(S)를 구성하는, 검색 유닛(502)에 의해 발생되는 파라메터 s1, s2, v1, v2는 전송 매체를 통해 수신기로 송신된다. 부호화 정보(S)는 LPC 정보(도시하지 않음)와 같은 다른 부호화 정보를 부가적으로 포함할 수도 있다.
본 발명의 대안적인 실시예에 따르면, 강화 유닛(도 3의 308에 해당, 도시하지 않음)은 적응 코드북(503)과 합성 필터(510) 사이에 포함되는데, 이것은 제1 부호화 신호(P1)를 수신하고, 이에 응답하여 강화 제1 부호화 신호(PE)를 발생시킨다. 이러한 대안적인 실시예에서, 강화 제1 부호화 신호(PE)는 국부적으로 발생되고,제1 부호화 신호(P1)를 대신하여 적응 코드북(503)과 합성 필터(510)로 각각 피드백 된다.
도 6은, 도 5에 나타낸 송신기에 의해 발생된 부호화 정보를 수신하고 이 정보를 음향소스 신호의 추정값으로 재생하기 위한, 본 발명의 제2 실시예에 따른 수신기에 대한 블록도를 나타낸다.
수신기는 적응 코드북(603), 대수 코드북(604), 제1 적응 증폭기(605), 제2 적응 증폭기(606) 및 결합기(607)로 구성되는 제1 복호기(201)을 포함한다. 제1 포인터()의 추정값은 적응 코드북(603)에서 제1 벡터(v2)를 어드레스하고, 이것은 제1 적응 증폭기(605)를 통해, 제1 이득값의 추정값()에 의한 진폭이 주어진다. 결과적으로, 제2 포인터()의 추정값은 대수 코드북(604)에서 제2 벡터(v2)를 어드레싱하고, 이것은 제2 적응 증폭기(606)를 통해, 제2 이득값의 추정값()에 의한 진폭으로 주어진다. 결합기(607)는 증폭된 제1 및 제2 벡터()를 합하고 재생 제1 부호화 신호()를 형성한다. 상기 신호()는 적응 코드북(603)으로 피드백되고, 강화 유닛(203)으로 진행한다.
강화 복호기(202)는 부호화 강화 스펙트럼()의 추정값을 수신하고, 상기 도 2를 참조로 설명한 절차에 따라, 재생 강화 스펙트럼()을 생성한다. 마찬가지로, 강화 유닛(203)은 강화 재생 제1 부호화 신호()를 생성하고, 다음의 합성필터(204)는 재생된 음향소스 신호()를 발생시킨다.
물론, 제안된 송신기 및 수신기는 어느 것이나 제1 및 제2 노드(node) 사이에서 부호화 음향소스 신호를 교환하기 위한 통신 시스템을 형성하도록 결합될 수 있다. 이러한 시스템은, 송신기 및 수신기 이외에도, 송신기에서 수신기로 부호화 정보를 이송하는 전송 매체를 포함한다.
"포함하다/포함하는(comprises/comprising)"라는 용어가 본 명세서에서 사용될 때, 이 용어는 진술된 특징, 정수(interger), 단계 및 성분의 존재를 명시하는 것으로 이해된다. 그러나, 상기 용어는 하나 이상의 추가적인 특징, 정수, 단계 또는 성분 또는 그것들의 그룹의 존재 또는 부가를 배제하는 것은 아니다.
본 발명은 도면으로 설명된 실시예에 의해 한정되는 것이 아니라, 다음의 청구범위 내에서 자유롭게 변형될 수 있다.

Claims (65)

  1. 전송 매체를 통한 송신을 위한 부호화 정보를 생성하기 위하여 음향소스 신호(x)를 부호화하는 방법에 있어서,
    상기 음향소스 신호(x)에 응답하여, 제1 개수(n1)의 샘플값을 각각 포함하는 프레임들로 분할되는 표적 신호(T)를 생성하는 단계,
    상기 음향소스 신호(x)에 응답하여, 제1 개수(n1)의 샘플값을 각각 포함하는 프레임들로 분할되며, 상기 표적 신호(T)에 정합시키기 위한 제1 부호화 신호(P1)를 생성하는 단계,
    상기 음향소스 신호(x)에 응답하여, 상기 제1 부호화 신호(P1)로 재생될() 부호화 정보(S)를 생성하는 단계,
    상기 제1 부호화 신호(P1)와 상기 표적 신호(T)에 응답하여, 상기 제1 부호화 신호(P1)가 얼마나 양호하게 상기 표적 신호(T)에 정합하는가를 나타내는 강화 스펙트럼을 생성하는 단계, 및
    상기 강화 스펙트럼에 응답하여, 상기 강화 스펙트럼의 부호화 표현으로 구성되는 부호화 강화 스펙트럼(Cq)를 생성하는 단계를 포함하며,
    상기 강화 스펙트럼(C)의 강화 스펙트럼 프레임은 제1 개수(n1) 보다 큰 제2개수(nc)의 스펙트럼 계수를 포함하는 것을 특징으로 하는 부호화 방법.
  2. 제1항에 있어서, 상기 강화 스펙트럼(C)은
    하나의 강화 스펙트럼 프레임이 표적 신호(T)의 적어도 한 프레임(Fi, Fi+1; F, Fext)과 제1 부호화 신호(P1)의 적어도 한 프레임(Fi, Fi+1, F, Fext)으로부터의 샘플값에 근거하도록, 프레임-와이즐리(frame-wisely)로 생성되는 것을 특징으로 하는 부호화 방법.
  3. 제1항 또는 제2항에 있어서, 상기 제2 개수(nc)는 정수 2의 파워인 것을 특징으로 하는 부호화 방법.
  4. 이전의 청구항 중 어느 하나에 있어서, 샘플값의 전체 개수가 제2 개수(nc)와 동일하게 될 때까지 샘플값을 갖는 상기 표적 신호(T)의 관련 표적 신호 프레임을 확장함으로써 확장 표적 신호 프레임을 생성하고,
    상기 확장 표적 신호 프레임을 주파수 변환하고,
    샘플값의 전체 개수가 제2 개수(nc)와 동일하게 될 때까지 샘플값을 갖는 상기 관련 제1 부호화 신호 프레임을 확장함으로써 확장 제1 부호화 신호 프레임을 생성하고,
    상기 확장 제1 부호화 신호를 주파수 변환하고,
    상기 확장 표적 신호와 상기 확장 제1 부호화 신호로부터 강화 스펙트럼을 생성하는 것을 특징으로 하는 부호화 방법.
  5. 제4항에 있어서, 상기 샘플값의 확장은 상기 관련 신호 프레임에 이전의 신호 프레임으로부터의 샘플값을 부가하는 것을 포함하는 것을 특징으로 하는 부호화 방법.
  6. 제4항에 있어서, 상기 샘플값의 확장은 상기 강화 제1 부호화 신호의 관련 신호 프레임에 이전의 강화 제1 부호화 신호 프레임으로부터의 샘플값을 부가하는 것을 포함하는 것을 특징으로 하는 부호화 방법.
  7. 제4항에 있어서, 상기 샘플값의 확장은 상기 관련 신호 프레임에 빈 값(empty value)을 부가하는 것을 포함하는 것을 특징으로 하는 부호화 방법.
  8. 이전의 청구항 중 어느 하나에 있어서, 제2 개수(nc)의 샘플값을 포함하고 관련 표적 신호 프레임(Fi)에 대해 중심에 위치하는 윈도우 함수(W1, W2)를 표적 신호(T)에 곱하고,
    상기 표적 신호를 주파수 변환하고,
    제2 개수의 샘플값을 포함하고 관련 제1 부호화 신호 프레임(Fi)에 대해 중심에 위치하는 윈도우 함수(W1, W2)를 상기 제1 부호화 신호(P1)에 곱하고,
    상기 제1 부호화 신호(P1)를 주파수 변환하는 것을 특징으로 하는 부호화 방법.
  9. 제8항에 있어서, 상기 윈도우 함수(W1)는 대칭적인 것을 특징으로 하는 부호화 방법.
  10. 제8항에 있어서, 상기 윈도우 함수(W2)는 비대칭적인 것을 특징으로 하는 부호화 방법.
  11. 제10항에 있어서, 상기 윈도우 함수(W2)는 이전의 신호 프레임의 제3 개수(m-48 -> m+79)의 샘플값과 현재의 신호 프레임(F)의 모든 샘플값에 적용되는 해밍-코사인 윈도우인 것을 특징으로 하는 부호화 방법.
  12. 제11항에 있어서, 상기 해밍-코사인 윈도우(W2)는 이전의 신호 프레임과 현재의 신호 프레임(F)의 샘플값을 배타적으로 포함하는 것을 특징으로 하는 부호화 방법.
  13. 제8항에 있어서, 상기 윈도우 함수는
    상기 윈도우 함수가 일정한 크기를 갖는 제1 개수(n1)의 샘플값을 포함하며,상기 관련 제1 부호화 신호 프레임에 대응하는 제1 범위와,
    상기 윈도우 함수가 점진적으로 쇠퇴하는 크기를 갖는, 상기 제1 범위 밖에 있는 샘플값의 제2 범위를 포함하는 것을 특징으로 하는 부호화 방법.
  14. 이전의 청구항 중 어느 하나에 있어서, 임계 주파수 위의 주파수 성분을 나타내는 제1 부호화 신호(P1)와 표적 신호(T) 각각의 샘플값으로부터 배타적으로 강화 스펙트럼(C)을 생성하는 것을 특징으로 하는 부호화 방법.
  15. 제14항에 있어서, 상기 표적 신호(T)의 파워 레벨이 상기 임계 주파수 아래의 주파수 성분에 의해 표시되는 주파수 대역에 대해 제1 부호화 신호(P1)의 파워 레벨과 실질적으로 동일한 값으로 감쇄되도록, 상기 강화 스펙트럼(C)의 생성 중에 상기 표적 신호(T)의 파워 레벨을 조정하는 것을 특징으로 하는 부호화 방법.
  16. 제14항에 있어서, 상기 제1 부호화 신호(P1)의 파워 레벨이 상기 임계 주파수 아래의 주파수 성분에 의해 표시되는 주파수 대역에 대해 상기 표적 신호(T)의 파워 레벨과 실질적으로 동일한 값으로 증폭되도록, 상기 강화 스펙트럼(C)의 생성중에 상기 제1 부호화 신호(P1)의 파워 레벨을 조정하는 것을 특징으로 하는 부호화 방법.
  17. 제14~16항 중 어느 하나에 있어서, 상기 강화 스펙트럼(C)은 하한과 상한 사이에서 계수값을 갖도록 제한되는 것을 특징으로 하는 부호화 방법.
  18. 제17항에 있어서, 상기 하한은 10dB에 의한 감쇄를 나타내고, 상기 상한은 10dB에 의한 증폭을 나타내는 것을 특징으로 하는 부호화 방법.
  19. 이전의 청구항 중 어느 하나에 있어서, 상기 부호화 강화 스펙트럼(Cq)은 상기 강화 스펙트럼(C)의 비균일 양자화를 구성하는 것을 특징으로 하는 부호화 방법.
  20. 제19항에 있어서, 상기 부호화 강화 스펙트럼(Cq)의 생성은 상기 강화 스펙트럼(C)의 선형 영역에서 로그 영역으로의 변환을 포함하는 것을 특징으로 하는 부호화 방법.
  21. 제19항에 있어서, 상기 부호화 강화 스펙트럼(Cq)의 생성은 상기 강화 스펙트럼(C)의 적어도 2개의 분리된 주파수 성분을 조인트 주파수 성분으로 결합하는것을 포함하는 것을 특징으로 하는 부호화 방법.
  22. 제21항에 있어서, 상기 부호화 강화 스펙트럼(C)의 주파수 스펙트럼의 적어도 일부를 적어도 하나의 주파수 대역으로 분할하고,
    적어도 하나의 주파수 대역 각각에 대한 조인트 주파수 성분을 유도하는 것을 특징으로 하는 부호화 방법.
  23. 제21항 또는 제22항 중 하나에 있어서, 상기 조인트 주파수 성분은 적어도 2개의 분리된 주파수 성분의 산술 평균을 나타내는 것을 특징으로 하는 부호화 방법.
  24. 제21항 또는 제22항 중 하나에 있어서, 상기 조인트 주파수 성분은 적어도 2개의 분리된 주파수 성분의 메디안 값을 나타내는 것을 특징으로 하는 부호화 방법.
  25. 제19~24항 중 하나에 있어서, 상기 부호화 강화 스펙트럼(Cq)의 생성은
    상기 강화 스펙트럼(C)을 켑스트럼 변환된 강화 신호로 변환하는 단계와,
    특정 순서로 상기 켑스트럼 변환된 강화 신호의 켑스트럼 계수를 버리는 단계를 포함하는 것을 특징으로 하는 부호화 방법..
  26. 제19항에 있어서, 상기 부호화 강화 스펙트럼(Cq)의 생성은
    관련 신호 프레임이 유성음을 표시하기 위해 추정되는지 무성음을 표시하기 위해 추정되는지를 검출하는 단계,
    유성음이 검출된 경우, 상대적으로 좁은 주파수 범위에 대해 강화 스펙트럼(C)를 양자화 하는 단계, 및
    무성음이 검출된 경우, 상대적으로 넓은 주파수 범위에 대해 강화 스펙트럼(C)를 양자화 하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.
  27. 제26항에 있어서, 적응 코드북 이득이 0.5 미만의 이득값(g1)을 가질 경우 무성음이 검출되고,
    적응 코드북 이득이 0.5 이상의 이득값(g1)을 가질 경우 유성음이 검출되는 것을 특징으로 하는 부호화 방법.
  28. 컴퓨터의 내부 메모리에 직접 로딩될 수 있는 컴퓨터 프로그램에 있어서,
    상기 프로그램이 컴퓨터에서 동작할 경우, 상기 제1~27항 중 어느 것의 단계들을 제어하는 소프트웨어를 포함하는 것을 특징으로 하는 컴퓨터 프로그램.
  29. 프로그램이 기록되는 컴퓨터 판독 매체에 있어서, 상기 프로그램은 상기제1~27항 중 어느 것의 단계들을 컴퓨터가 제어하도록 하는 것을 특징으로 하는 컴퓨터 판독 매체.
  30. 전송 매체를 통해 전송되는 부호화 정보를 복호화하는 방법에 있어서,
    상기 전송 매체로부터 수신된 부호화 정보()의 추정값에 응답하여, 제1 개수의 샘플값(n1)을 각각 포함하는 재생 제1 부호화 신호 프레임으로 분할되는 재생 제1 부호화 신호()를 생성하는 단계,
    상기 전송 매체로부터 수신된 부호화 강화 스펙트럼()의 추정값에 응답하여, 제2 개수(nc)의 스펙트럼 계수를 각각 포함하는 재생 강화 스펙트럼 프레임으로 분할되는 재생 강화 스펙트럼()을 생성하는 단계,
    상기 재생 제1 부호화 신호()와 상기 재생 강화 스펙트럼()에 응답하여, 강화 재생 제1 부호화 신호()를 생성하는 단계, 및
    상기 강화 재생 제1 부호화 신호()에 응답하여 음향소스 신호(z)의 재생을 생성하는 단계를 포함하며,
    상기 제2 개수(엔수)는 상기 제1 개수(n1)보다 크고,
    상기 강화 재생 제1 부호화 신호()의 생성 단계는 상기 제2 개수(nc)의 샘플값을 포함하도록 관련 재생 제1 부호화 신호 프레임을 확장하는 것을 포함하는것을 특징으로 하는 복호화 방법.
  31. 제30항에 있어서, 강화 재생 제1 부호화 신호()의 재생 표적 신호 프레임은, 하나의 재생 강화 스펙트럼 프레임으로부터의 샘플값과 적어도 하나의 재생 제1 부호화 신호 프레임으로부터의 샘플값을 사용하여 생성되는 것을 특징으로 하는 복호화 방법.
  32. 제30항 또는 제31항에 있어서, 상기 제2 개수(nc)는 정수 2의 파워인 것을 특징으로 하는 복호화 방법.
  33. 제30~32항 중 어느 하나에 있어서, 상기 강화된 재생 제1 부호화 신호()는
    확장 재생 제1 부호화 신호 프레임을 형성하기 위해, 전체 개수의 샘플값이 제2 개수(nc)와 동일하게 될 때 까지, 샘플값을 갖는 관련 재생 제1 부호화 신호 프레임을 확장시키고,
    강화 재생 제1 부호화 신호()의 스펙트럼을 형성하기 위해, 주파수 변환된 상기 확장 재생 제1 부호화 신호 프레임을 관련 재생 강화 스펙트럼 프레임으로 곱하고,
    상기 강화 재생 제1 부호화 신호()의 스펙트럼을 역 주파수 변환함으로?써,
    생성되는 것을 특징으로 하는 복호화 방법.
  34. 제30~33항 중 어느 하나에 있어서, 상기 재생 제1 부호화 신호 프레임의 확장은, 상기 관련 재생 제1 부호화 신호 프레임에, 이전의 재생 제1 부호화 신호 프레임으로부터의 샘플값을 부가하는 것을 포함하는 특징으로 하는 복호화 방법.
  35. 제30~33항 중 어느 하나에 있어서, 상기 재생 제1 부호화 신호 프레임의 확장은, 상기 재생 강화 제1 부호화 신호의 상기 관련 신호 프레임에, 이전의 재생 강화 제1 부호화 신호 프레임으로부터의 샘플값을 부가하는 것을 포함하는 것을 특징으로 하는 복호화 방법.
  36. 제30~33항 중 어느 하나에 있어서, 상기 재생 제1 부호화 신호 프레임의 확장은, 상기 관련 재생 제1 부호화 신호 프레임에 빈 샘플값을 부가하는 것을 포함하는 것을 특징으로 하는 복호화 방법.
  37. 제33~36항 중 어느 하나에 있어서, 강화 부호화 신호는
    제2 개수(nc)의 샘플값을 포함하고 관련 표적 신호 프레임(Fi)에 대해 중심에위치하는 윈도우 함수(W1; W2)를, 상기 확장 제1 부호화 신호 프레임에 곱하는 것을 포함하는 동작에 의해 발생되는 것을 특징으로 하는 복호화 방법.
  38. 제37항에 있어서, 상기 윈도우 함수(W1)는 대칭적인 것을 특징으로 하는 복호화 방법.
  39. 제37항에 있어서, 상기 윈도우 함수(W2)는 비대칭적인 것을 특징으로 하는 복호화 방법.
  40. 제37항에 있어서, 상기 윈도우 함수는
    상기 윈도우 함수가 일정한 크기를 갖는 제1 개수(n1)의 샘플값을 포함하며,상기 관련 재생 제1 부호화 신호 프레임에 대응하는 제1 범위와,
    상기 윈도우 함수가 점진적으로 쇠퇴하는 크기를 갖는, 상기 제1 범위 밖에 있는 샘플값의 제2 범위를 포함하는 것을 특징으로 하는 복호화 방법.
  41. 컴퓨터의 내부 메모리에 직접 로딩될 수 있는 컴퓨터 프로그램에 있어서,
    상기 프로그램에 컴퓨터에서 동작할 경우, 상기 제30~40항 중 어느 것의 단계를 제어하는 소프트웨어를 포함하는 것을 특징으로 하는 컴퓨터 프로그램.
  42. 프로그램이 기록되는 컴퓨터 판독 매체에 있어서,
    상기 프로그램은 상기 제30~40항 중 어느 것의 단계들을 컴퓨터가 제어하도록 하는 것을 특징으로 하는 컴퓨터 판독 매체.
  43. 전송 매체를 통해 송신을 하는 부호화 정보를 생성하기 위해, 음향소스 신호(x)를 부호화 하는 송신기에 있어서, 상기 송신기는
    제1 부호기(101), 강화 추정 유닛(102) 및 강화 부호기(103)을 포함하고,
    상기 제1 부호기(101)는
    상기 음향소스 신호(x)를 수신하는 입력,
    제1 개수(n1)의 샘플값을 각각 포함하고 있는 표적 신호 프레임으로 분할되는 표적 신호를 제공하는 제1 출력,
    제1 개수(n1)의 샘플값을 각각 포함하고 있는 표적 신호 프레임으로 분할되고, 표적 신호(T)에 정합시키기 위한 제1 부호화 신호(P1)를 제공하는 제2 출력,
    수신기에 의해 제1 부호화 신호(P1)로 재생될 부호화 정보(S)를 제공하는 제3 출력을 가지며,
    상기 강화 추정 유닛(102)은
    표적 신호를 수신하는 제1 입력,
    제1 부호화 신호(P1)를 수신하는 제2 입력, 및
    수신기에 의해 음향소스 신호(x)의 재생()을 지각적으로 개선시키는 강화 스펙트럼을 제공하는 출력을 가지며,
    상기 강화 부호기(103)는
    상기 강화 스펙트럼(C)를 수신하는 입력, 및
    상기 강화 스펙트럼(C)의 양자화된 표현으로 구성된 부호화 강화 스펙트럼을 제공하는 출력을 가지며,
    강화 스펙트럼(C)의 강화 스펙트럼 프레임은 제1 개수(n1) 보다 큰 제2 개수(nc)의 스펙트럼 계수를 포함하고,
    상기 강화 추정 유닛(102)은, 제2 개수(nc)의 샘플값을 포함하도록 입력되는 표적 신호 프레임을 확장하는 것과, 제2 개수(nc)의 샘플값을 포함하도록 입력되는 제1 부호화 신호 프레임을 확장하는 것을 특징으로 하는 송신기.
  44. 제43항에 있어서, 상기 강화 추정 유닛(102)은
    적어도 하나의 제1 부호화 신호 프레임으로부터의 샘플값과, 적어도 하나의 표적 신호 프레임으로부터의 샘플값을 사용하여, 강화 스펙트럼 프레임을 생성하는 것을 특징으로 하는 송신기.
  45. 제43항 또는 제44항에 있어서,
    상기 제2 개수(nc)는 정수 2의 파워인 것을 특징으로 하는 송신기.
  46. 제43~45항 중 어느 하나에 있어서, 상기 강화 추정 유닛(102)은
    이전의 신호 프레임으로부터의 샘플값을 입력되는 신호 프레임에 부가함으로써, 입력되는 신호 프레임을 확장하는 것을 특징으로 하는 송신기.
  47. 제43항에 있어서, 상기 강화 추정 유닛(102)은
    적어도 하나의 이전의 강화 제1 부호화 신호 프레임으로부터의 샘플값을 사용하여 강화 스펙트럼 프레임을 생성하는 것을 특징으로 하는 송신기.
  48. 제43~45항 중 어느 하나에 있어서, 상기 강화 추정 유닛(102)은
    입력되는 신호 프레임에 빈 샘플값을 부가함으로써, 상기 입력되는 신호 프레임을 확장하는 것을 특징으로 하는 송신기.
  49. 제43~48항 중 어느 하나에 있어서, 상기 제1 부호기(101)는
    음향소스 신호(x)를 수신하는 입력과 표적 신호(T)를 제공하는 출력을 갖는 역 합성 필터(301; 501)를 포함하는 것을 특징으로 하는 송신기.
  50. 제43~49항 중 어느 하나에 있어서, 상기 제1 부호기(101)는
    음향소스 신호(x)를 수신하는 입력과, 제1 부호화 신호(P1)를 제공하는 제1 출력과, 부호화 정보(S)를 제공하는 제2 출력을 갖는 여기 발생기(311)를 포함하는 것을 특징으로 하는 송신기.
  51. 제43~49항 중 어느 하나에 있어서, 상기 제1 부호기(101)는
    검색 유닛(502)에 의해 제어되는 피드백 및 연속적인 적응을 통해 제1 부호화 신호(P1)를 제공하는 적어도 하나의 코드북(503; 504)을 포함하는 것을 특징으로 하는 송신기.
  52. 전송 매체로부터 부호화정보(S; Cq)를 수신하고 복호화 하는 수신기에 있어서, 상기 수신기는
    상기 전송 매체로부터 수신된 부호화 정보()의 추정값을 수신하는 입력, 및 제1 개수(n1)의 샘플값을 각각 포함하며 재생 제1 부호화 신호 프레임으로 분할되는 재생 제1 부호화 신호()를 제공하는 출력을 갖는 제1 복호기(201),
    부호화 강화 스펙트럼()를 수신하는 입력과, 제2 개수(nc)의 스펙트럼 계수를 각각 포함하며 재생 강화 스펙트럼 프레임으로 분할되는 재생 강화 스펙트럼을 제공하는 출력을 갖는 강화 복호기(202),
    재생 강화 스펙트럼을 수신하는 제1 입력과, 재생 제1 부호화 신호()를수신하는 제2 입력과, 강화 재생 제1 부호화 신호()를 제공하는 출력을 갖는 강화 유닛(203), 및
    강화 재생 제1 부호화 신호()를 수신하는 입력과, 음향소스 신호(x)의 재생()을 제공하는 출력을 갖는 합성 필터(204)를 포함하고,
    상기 제2 개수(nc)는 상기 제1 개수(n1)보다 크고,
    상기 강화 유닛(203)은 제2 개수(nc)의 샘플값을 포함하도록 입력되는 제1 부호화 신호 프레임()을 확장시키는 것을 특징으로 하는 수신기.
  53. 제52항에 있어서, 상기 강화 유닛(203)은
    하나의 재생 강화 스펙트럼 프레임으로부터의 스펙트럼 계수와, 적어도 하나의 재생 제1 부호화 신호 프레임으로부터의 샘플값을 사용하여 강화 재생 제1 부호화 신호 프레임()를 생성하는 것을 특징으로 하는 수신기.
  54. 제52항 또는 제53항에 있어서, 상기 제2 개수(nc)는 정수 2의 파워인 것을 특징으로 하는 수신기.
  55. 제52~54항 중 어느 하나에 있어서, 상기 강화 유닛(203)은
    샘플값을 갖는 관련 재생 제1 부호화 신호 프레임을 샘플값의 전체 개수가제2 개수(nc)와 동일하게 될 때까지 확장시킴으로써 재생 확장 제1 부호화 신호 프레임을 생성하고,
    확장 재생 제1 부호화 신호 프레임의 스펙트럼을 관련 재생 강화 스펙트럼 프레임으로 곱함으로써, 강화 재생 제1 부호화 신호()를 생성하는 것을 특징으로 하는 수신기.
  56. 제52~55항 중 어느 하나에 있어서, 상기 강화 유닛(203)은
    이전의 재생 제1 부호화 신호 프레임으로부터의 샘플값을 관련 재생 제1 부호화 신호 프레임에 부가시킴으로써 입력되는 재생 제1 부호화 신호 프레임을 확장시키는 것을 특징으로 하는 수신기.
  57. 제52~55항 중 어느 하나에 있어서, 상기 강화 유닛(203)은
    이전의 재생 제1 부호화 신호 프레임으로부터의 샘플값을 재생 강화 제1 부호화 신호의 관련 신호 프레임에 부가시킴으로써, 입력되는 재생 제1 부호화 신호 프레임을 확장시키는 것을 특징으로 하는 수신기.
  58. 제52~55항 중 어느 하나에 있어서, 상기 강화 유닛(203)은
    관련 재생 제1 부호화 신호 프레임에 빈 샘플값을 부가함으로써, 입력되는 재생 제1 부호화 신호 프레임을 확장시키는 것을 특징으로 하는 수신기.
  59. 제52~55항 중 어느 하나에 있어서, 상기 강화 유닛(203)은
    제2 개수(nc)의 샘플값을 포함하고 관련 표적 신호 프레임에 대해 중심에 위치하는 윈도우 함수(W1; W2)를, 확장 재생 제1 부호화 신호 프레임에 곱함으로써, 재생 표적 신호 프레임을 생성하는 것을 특징으로 하는 수신기.
  60. 제59항에 있어서, 상기 윈도우 함수(W1)는 대칭적인 것을 특징으로 하는 수신기.
  61. 제59항에 있어서, 상기 윈도우 함수(W2)는 비대칭적인 것을 특징으로 하는 수신기.
  62. 제59항에 있어서, 상기 윈도우 함수는
    상기 윈도우 함수가 일정한 크기를 갖는 제1 개수(n1)의 샘플값을 포함하며,상기 관련 재생 제1 부호화 신호 프레임에 대응하는 제1 범위와,
    상기 윈도우 함수가 점진적으로 쇠퇴하는 크기를 갖는, 상기 제1 범위 밖에 있는 샘플값의 제2 범위를 포함하는 것을 특징으로 하는 수신기.
  63. 제52~62항 중 어느 하나에 있어서, 상기 제1 복호기(201)는
    부호화 정보()의 추정값을 수신하는 입력과 재생 제1 부호화 신호()를 제공하는 출력을 갖는 여기 발생기(412)를 포함하는 것을 특징으로 하는 수신기.
  64. 제52~62항 중 어느 하나에 있어서, 상기 제1 복호기(201)는
    부호화 정보(,,,)의 추정값을 수신하는 적어도 하나의 입력,
    상기 부호화 정보(,,,)의 추정값을 근거로 재생 제1 부호화 신호()를 제공하는 적어도 하나의 코드북(603; 604)를 포함하는 것을 특징으로 하는 수신기.
  65. 제1 노드와 제2 노드 사이에서 부호화 음향소스 신호를 교환하는 통신 시스템에 있어서, 상기 시스템은
    제43~51항 중 어느 하나에 따른 송신기,
    제52~64항 중 어느 하나에 따른 수신기, 및
    상기 송신기로부터 상기 수신기로 부호화 정보를 이송하는 전송 매체를 포함하는 것을 특징으로 하는 통신 시스템.
KR1020037004249A 2000-10-20 2001-09-07 부호화 음향 신호를 지각적으로 개선 강화시키는 방법 및장치 KR100882771B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP00850169A EP1199711A1 (en) 2000-10-20 2000-10-20 Encoding of audio signal using bandwidth expansion
EP00850169.4 2000-10-20
PCT/SE2001/001920 WO2002033693A1 (en) 2000-10-20 2001-09-07 Perceptually improved enhancement of encoded acoustic signals

Publications (2)

Publication Number Publication Date
KR20030046468A true KR20030046468A (ko) 2003-06-12
KR100882771B1 KR100882771B1 (ko) 2009-02-09

Family

ID=8175678

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037004249A KR100882771B1 (ko) 2000-10-20 2001-09-07 부호화 음향 신호를 지각적으로 개선 강화시키는 방법 및장치

Country Status (11)

Country Link
US (1) US6654716B2 (ko)
EP (2) EP1199711A1 (ko)
JP (1) JP5192630B2 (ko)
KR (1) KR100882771B1 (ko)
CN (1) CN1271597C (ko)
AT (1) ATE360870T1 (ko)
AU (2) AU8460701A (ko)
CA (1) CA2424375C (ko)
DE (1) DE60128121T2 (ko)
ES (1) ES2284676T3 (ko)
WO (1) WO2002033693A1 (ko)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7308406B2 (en) * 2001-08-17 2007-12-11 Broadcom Corporation Method and system for a waveform attenuation technique for predictive speech coding based on extrapolation of speech waveform
KR100711989B1 (ko) * 2002-03-12 2007-05-02 노키아 코포레이션 효율적으로 개선된 스케일러블 오디오 부호화
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
JP4296752B2 (ja) * 2002-05-07 2009-07-15 ソニー株式会社 符号化方法及び装置、復号方法及び装置、並びにプログラム
US6965859B2 (en) * 2003-02-28 2005-11-15 Xvd Corporation Method and apparatus for audio compression
KR20050049103A (ko) * 2003-11-21 2005-05-25 삼성전자주식회사 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
DE102004009949B4 (de) * 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
CA2566368A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
WO2006062202A1 (ja) * 2004-12-10 2006-06-15 Matsushita Electric Industrial Co., Ltd. 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
USRE50009E1 (en) * 2006-10-25 2024-06-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples
US7885810B1 (en) * 2007-05-10 2011-02-08 Mediatek Inc. Acoustic signal enhancement method and apparatus
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
JP2010540990A (ja) * 2007-09-28 2010-12-24 ヴォイスエイジ・コーポレーション 埋め込み話声およびオーディオコーデックにおける変換情報の効率的量子化のための方法および装置
CN101771417B (zh) 2008-12-30 2012-04-18 华为技术有限公司 信号编码、解码方法及装置、系统
BR122019023704B1 (pt) 2009-01-16 2020-05-05 Dolby Int Ab sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta
TWI453694B (zh) * 2010-12-02 2014-09-21 Univ Nat Taiwan Science Tech 一種避免像素擴張之影像加密方法
JP5799707B2 (ja) * 2011-09-26 2015-10-28 ソニー株式会社 オーディオ符号化装置およびオーディオ符号化方法、オーディオ復号装置およびオーディオ復号方法、並びにプログラム
EP2761616A4 (en) * 2011-10-18 2015-06-24 Ericsson Telefon Ab L M IMPROVED METHOD AND DEVICE FOR AN ADAPTIVE MULTIRATE CODEC
CN104021796B (zh) * 2013-02-28 2017-06-20 华为技术有限公司 语音增强处理方法和装置
CN106409304B (zh) * 2014-06-12 2020-08-25 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
ES2727462T3 (es) * 2016-01-22 2019-10-16 Fraunhofer Ges Forschung Aparatos y procedimientos para la codificación o decodificación de una señal multicanal de audio mediante el uso de repetición de muestreo de dominio espectral
EP3537432A4 (en) * 2016-11-07 2020-06-03 Yamaha Corporation LANGUAGE SYNTHESIS PROCEDURE
CN108269579B (zh) * 2018-01-18 2020-11-10 厦门美图之家科技有限公司 语音数据处理方法、装置、电子设备及可读存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1184023B (it) * 1985-12-17 1987-10-22 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante analisi a sottobande e quantizzazione vettorariale con allocazione dinamica dei bit di codifica
US5040217A (en) * 1989-10-18 1991-08-13 At&T Bell Laboratories Perceptual coding of audio signals
JP3475446B2 (ja) 1993-07-27 2003-12-08 ソニー株式会社 符号化方法
JP2776300B2 (ja) 1995-05-31 1998-07-16 日本電気株式会社 音声信号処理回路
DE19549621B4 (de) * 1995-10-06 2004-07-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Codieren von Audiosignalen
US5754534A (en) 1996-05-06 1998-05-19 Nahumi; Dror Delay synchronization in compressed audio systems
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
US6092041A (en) * 1996-08-22 2000-07-18 Motorola, Inc. System and method of encoding and decoding a layered bitstream by re-applying psychoacoustic analysis in the decoder
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
JPH11219199A (ja) * 1998-01-30 1999-08-10 Sony Corp 位相検出装置及び方法、並びに音声符号化装置及び方法
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6182030B1 (en) * 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals
US6496795B1 (en) * 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec

Also Published As

Publication number Publication date
US20020049583A1 (en) 2002-04-25
ATE360870T1 (de) 2007-05-15
EP1327241B1 (en) 2007-04-25
ES2284676T3 (es) 2007-11-16
JP5192630B2 (ja) 2013-05-08
DE60128121D1 (de) 2007-06-06
WO2002033693A1 (en) 2002-04-25
DE60128121T2 (de) 2007-12-27
CA2424375C (en) 2010-08-24
JP2004512560A (ja) 2004-04-22
CN1470050A (zh) 2004-01-21
KR100882771B1 (ko) 2009-02-09
EP1327241A1 (en) 2003-07-16
CA2424375A1 (en) 2002-04-25
CN1271597C (zh) 2006-08-23
AU8460701A (en) 2002-04-29
US6654716B2 (en) 2003-11-25
EP1199711A1 (en) 2002-04-24
AU2001284607B2 (en) 2007-03-01

Similar Documents

Publication Publication Date Title
KR100882771B1 (ko) 부호화 음향 신호를 지각적으로 개선 강화시키는 방법 및장치
KR101278546B1 (ko) 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법
RU2226032C2 (ru) Улучшение перцепционной характеристики дублирования полосы спектра и связанных способов кодирования высокочастотного восстановления путем адаптивного добавления минимального уровня шума и ограничения подстановки шумов
US8078458B2 (en) Packet loss concealment for sub-band predictive coding based on extrapolation of sub-band audio waveforms
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
KR100388388B1 (ko) 재생위상정보를사용하는음성합성방법및장치
JP4777918B2 (ja) 音声処理装置及び音声を処理する方法
KR101375582B1 (ko) 대역폭 확장 부호화 및 복호화 방법 및 장치
JPH09152900A (ja) 予測符号化における人間聴覚モデルを使用した音声信号量子化法
JPH09152895A (ja) 合成フィルタの周波数応答に基づく知覚ノイズマスキング測定法
AU2001284607A1 (en) Perceptually improved enhancement of encoded acoustic signals
US20180068674A1 (en) Apparatus, medium and method to encode and decode high frequency signal
US6611798B2 (en) Perceptually improved encoding of acoustic signals
JPH09152898A (ja) 符号化されたパラメータのない音声信号の合成法
AU2001284606A1 (en) Perceptually improved encoding of acoustic signals
JP2003504669A (ja) 符号化領域雑音制御
JPH04264599A (ja) 音声分析合成装置
JPH0527799A (ja) ベクトル量子化方法及びその装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130124

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140124

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150126

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160122

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170125

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180125

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190123

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20200123

Year of fee payment: 12