KR20070112848A

KR20070112848A - 음성 품질 및 명료성을 개선하기 위한 시스템

Info

Publication number: KR20070112848A
Application number: KR1020077023430A
Authority: KR
Inventors: 필립 헤더링톤; 수에망 리
Original assignee: 큐엔엑스 소프트웨어 시스템즈 (웨이브마커스) 인코포레이티드
Priority date: 2005-04-20
Filing date: 2006-03-23
Publication date: 2007-11-27
Also published as: CA2604859A1; CA2604859C; CN101164104A; EP1872365B1; US20060247922A1; CN100557687C; US7813931B2; EP1872365A4; JP4707739B2; EP1872365A1; WO2006110990A1; JP2008537174A

Abstract

음성 신호의 명료성과 품질을 개선하는 시스템 및 방법이 제공된다. 상기 시스템 및 방법은 음성 신호의 더 낮은 주파수 성분은 실질적으로 변하지 않은 채 남겨 두면서 음성 신호의 더 높은 주파수 성분에 주파수 압축을 적용한다. 이는 통상 필터링 및 대역통과 제한에서 소실되는 자음과 관련된 더 높은 주파수 정보를 보존한다. 이 정보는 음성 신호의 기본적인 피치(fundamental pitch)를 현저하게 변경하는 일이 없이 보존되어, 음성 신호가 재생될 때 그 전체 음색 품질이 보존된다. 상기 시스템 및 방법은 주파수 확장을 음성 신호에 추가로 적용한다. 압축처럼, 수신된 음성 신호의 상위 주파수만이 확장된다. 상기 주파수 확장이 본 발명에 따라 압축된 음성 신호에 적용되면, 그 음성 신호는 실질상 그 압축되지 않은 상태로 복귀된다. 그러나, 본 발명에 따른 주파수 압축은 상기 음성 신호가 실질상 재-확장되지 않는 경우에도 명료성을 개선한다. 마찬가지로, 음성 ls호는 최초의 신호가 압축되지 않았더라도, 음성 신호 품질을 현저하게 열화시키는 일이 없이 확장될 수 있다. 따라서, 전송기는 수신기가 신호를 재-확장할 수 있는지에 상과 없이 고주파수 성분을 적용하는 시스템을 포함할 수 있다. 마찬가지로, 수신기는 신호가 이전에 압축되었는지에 상관 없이 수신된 음성 신호를 확장할 수 있다.

Description

음성 품질 및 명료성을 개선하기 위한 시스템 {SYSTEM FOR IMPROVING SPEECH QUALITY AND INTELLIGIBILITY}

본 발명은 통신 시스템에서 음성 신호의 품질(quality) 및 명료성(intelligibility)을 개선하기 위한 방법 및 시스템에 관한 것이다. 모든 통신 시스템, 특히 무선 통신 시스템은 대역폭 제한의 단점이 있다. 이러한 시스템에 전달되는 음성 신호의 품질 및 명료성은 상기 시스템에서 이용가능한 제한된 대역폭에 대하여 밸러스되어야 한다(balanced). 예를 들면 무선 전화 네트워크에서, 대역폭은 통상적으로 성공적인 통신을 위하여 필요한 최소 대역폭에 따라서 설정된다. 모음을 이해하는데 중요한 최저 주파수는 약 200Hz이고, 최고 주파수 모음 포먼트(formant)는 3000Hz이다. 하지만, 대부분의 자음은 일반적으로 약 3400Hz 미만의 주파수에서 에너지를 갖는 광대역이다. 따라서, 대부분의 무선 음성 통신 시스템은 300 Hz 및 3400 Hz 사이를 통과하도록 최적화된다.

음성 통신 시스템을 위한 통상적인 통과 대역(10)이 도 1에 도시되어 있다. 일반적으로, 통과 대역(10)은, 명료하고 사람이 말하는 목소리의 합리적인 모사물인 음성 신호를 전달하기에 적절하다. 그럼에도 불구하고, 주로 자음의 소리와 관련된, 통과 대역(10)을 벗어난 더 높은 주파수(higher frequencies)에 포함된 많은 음성 정보가 대역통과 필터링으로 인하여 소실된다. 이것은 상당한 양의 노이즈가 존재하는 환경에서 명료성에 해로운 영향을 줄 수 있다.

도 1에 도시된 통상적인 통과 대역(10)을 발생시키는 통과 대역 표준은 화자의 목소리를 포착하는 마이크로폰이 화자의 입으로부터 10cm 안에 위치하는 근접장 측정(near field measurements)에 기초한다. 이러한 경우에, 신호-대-잡음비는 높고, 충분한 고 주파수 정보가 보유되어 대부분의 자음을 명료하게 한다. 핸즈-프리 전화기 시스템과 같은 원거리장 구조(far field arrangements)에서, 마이크로폰은 화자의 입에서 20cm 이상 떨어져서 위치한다. 이러한 조건에서, 신호-대-잡음 비는 통상적인 핸드셋(handset)을 이용하는 경우보다 훨씬 낮다. 핸즈-프리 전화기가 이동하는 자동차에서 사용되는 경우에, 노이즈 문제는 도로, 바람 및 엔진 노이즈에 의하여 악화된다. 사실, 핸즈-프리 전화기가 장착된 차량에서 노이즈 레벨은 많은 광대역 저 에너지 자음이 완전히 감춰질 정도로 아주 높을 수가 있다.

한 예로서, 도 2는 말해진 단어 "seven"의 두 개의 스펙트로그래프(spectrograph)를 보여준다. 제1 스펙트로그래프(12)는 상당한 근접장 조건에서 취해진다. 두 번째 것은 이동하는 차량 내의 핸즈-프리 전화기에서 통상적인, 시끄러운 원거리장 조건에서 취해진다. 우선 "조용한" seven(12)을 참조하면, 말해진 단어 seven을 구성하는 사운드 각각의 증거를 볼 수 있다 우선, "S"(16)의 사운드를 볼 수 있다. 이것은 대부분의 에너지가 더 높은 주파수(higher frequencies)에 있는 갖는 광대역 사운드이다. 첫번째 및 두번째 E와 모든 고조파(harmonics)(18, 22) 및 그들 사이에 끼워진 "V(20)"의 광대역 사운드를 볼 수 있다. 단어의 마지막에 있는 "N"의 사운드는 혀가 입 천정으로부터 떨어질 때까지 두번째 E(22)와 합체되어, 단어의 마지막에서 짧은 광대역 에너지(24)를 발생시킨다.

자음을 청취하는 능력은 음성 신호의 명료성을 지배하는 단일의 가장 중요한 인자이다. "조용한" seven(12)과 "시끄러운" seven(14)을 비교하면, "S" 사운드(16)가 제2 스펙트로그래프(14)에서 완전히 감춰진 것을 볼 수 있다. "시끄러운" seven의 분광 사진(14)에서 어떤 명료성을 갖는다고 보여질 수 있는 유일한 사운드는 제 1 및 제 2 E(18, 22)이다. 따라서, 시끄러운 조건 하에서, 말해진 단어 "seven" 의 명료성은 크게 줄어든다. 만약, 소음 에너지가 자음의 에너지(예를 들면 3dB)보다 현저히 더 크다면, 통과 대역 내에서의 어떠한 양의 소음 제거 또는 필터링도 명료성을 개선하지 않는다.

차량 소음은 주파수에 따라 떨어지는 경향이 있다. 반면, 많은 자음(예를 들면, F, T, S)들은 훨씬 더 높은 주파수에서 상당한 에너지를 갖는 경향이 있다. 예를 들면, 종종 10kHz보다 큰 음성 신호의 정보만이 자음과 관련된다. 도 3은 시끄러운 환경에서 기록되었지만 너 넓은 주파수 범위에 걸쳐 확장된 단어 "seven"의 스펙트로그래프를 다시 보여준다. "S"(16)의 사운드는 상당한 양의 노이즈가 존재 하는 경우에도 명확하게 보이지만, 약 6000Hz를 넘는 주파수에서만 명확하게 보인다. 휴대 전화 통과 대역은 3400Hz보다 큰 주파수를 제외하기 때문에, 상기 고 주파수 정보는 통상적인 휴대 전화 통신에서 소실된다. 대역폭 용량에 대한 높은 요구조건으로 인하여, 이러한 고 주파수 정보를 유지하도록 통과 대역을 확장시키는 것은 음성 통신의 명료성을 향상시키기 위한 실용적인 해법이 되지 못한다.

전체 스펙트럼(또는 보통 소실되는 고 주파수 콘텐트의 적어도 상당 부분)이 통과 대역 내에 놓여 지도록 음성 신호를 압축하는 시도가 있어 왔다. 도 4는 이러한 방식으로 압축될 5500Hz 음성 신호(26)를 보여준다. 도 5에서 신호(28)는 도 4의 5500Hz 신호(26)를 더 좁은 3000Hz 범위로 선형 압축한 것이다. 압축된 신호(28)는 3000Hz로 확장만 하였음에도 불구하고, 3000에서 5500 Hz까지의 주파수 범위에 포함된 최초 신호(26)의 고 주파수 콘텐트 모두가 압축된 신호(28)에 보존되지만 최초 신호의 기본 피치(fundamental pitch) 및 음색 품질(tonal qualities)을 상당히 변화시킨다. 피치를 제어하는 모음과 관련된 하위 주파수를 포함하는 최초 신호(26)의 모든 주파수는 더 낮은 주파수 범위(lower frequency range)로 압축된다. 만약, 압축된 신호(28)가 후속의 재-확장(re-expansion)없이 재생된다면, 상기 음성은 음성 통신용으로 수용할 수 없는 부자연스러운 낮은 피치를 가질 것이다. 수신기에서 상기 압축된 신호를 확장시키면 이러한 문제가 해결될 것이지만, 수신기가 송신기에 의하여 적용된 압축을 알아야 한다. 음성 신호와 함께 코딩(coding) 정보를 전송하기 위한 준비책이 없는 대부분의 전화기 애플리케이션에 대하여 이러한 해법은 비실용적이다.

더 높은 주파수 음성 정보를 보존하기 위하여, 음성 신호 송신기 및 수신기가 그 반대측의 성능을 알지 못하는 전화기 또는 다른 오픈 네트워크 애플리케이션용 압축 기법 또는 인코딩 시스템은, 압축 신호가 수신기에서 재확장되는지 여부 또는 압축되지 않은 신호가 후속하여 확장되는지에 관계없이, 수신기에서 재생된 음성 신호의 품질이 수용가능하도록, 충분히 융통성이 있어야 한다. 개선된 인코딩 시스템 또는 기법에 따르면, 송신기는 통신의 반대쪽의 수신기가 신호를 디코딩할 수 있는 능력을 갖는지 여부에 관계없이 음성 신호를 암호화할 수 있다. 유사하게, 수신기는 수신된 신호가 송신기에서 먼저 인코딩되었는지에 관계없이, 수신된 신호를 복호화할 수 있다. 다시 말하면, 소정의 개선된 암호화 시스템 또는 압축 기법은, 신호가 수신기에서의 재-확장없이 재생되는 경우에도, 재생된 음성 신호의 품질이 만족스럽도록, 음성 신호를 압축해야 한다. 상기 음성 품질은, 수신된 신호가 송신기에 의하여 1차로 인코딩되지 않았더라도 수신기가 음성 신호를 확장시키는 경우에도 만족스러울 것이다. 또한, 이러한 개선된 시스템은, 전송된 음성 신호가 송신기에서 상기 개선된 기법에 따라 압축될 때, 전송된 음성 신호의 명료성을 뚜렷하게 개선하여야 한다.

본 발명은 전송된 음성 신호에서 음성 명료성(speech intelligibility)을 개선하는 시스템 및 방법에 관한 것이다. 본 발명은 대부분의 종래 통신 시스템에서 통상적으로 폐기 또는 그렇지 않으면 소실되는 고주파수 정보를 보존함으로써 음성이 정확하게 인식되고 해석되는 가능성을 증대시킨다. 본 발명은 기본적으로, 영향받은 음성 신호의 피치 및 다른 음색 사운드 품질(tonal sound qualities)을 변경하는 일이 없이 그와 같은 것을 수행한다.

본 발명은 주파수 압축 형태를 이용하여, 더 높은 주파수(higher frequency) 정보를 통신 시스템의 통과 대역(passband) 내에 있는 더 낮은 주파수(lower frequency)로 이동시킨다. 그 결과, 발음된 자음과 통상적으로 관련되어 있는 더 높은 주파수는 필터링에서 또는 시스템의 대역폭을 제한하는 다른 인자들에서 소실되지 않는다.

본 발명은 2단계 접근법을 채용한다. 모음과 관련된 주파수 성분처럼, 음성 신호의 더 낮은 주파수 성분은 변하지 않은 채 남아 있다. 이는 최초 음성 신호의 전체 색조 품질와 피치를 실질적으로 보존한다. 압축된 음성 신호가 후속의 재-확장 없이 재생된다면, 그 신호는 압축 없이 재생된 음성 신호와 꽤 유사한 사운드일 것이다. 그러나, 통과대역의 일부는 압축된 더 높은 주파수 정보를 위해 보유된다. 보통 자음과 관련되어 있고, 통상 대부분의 종래의 통신 시스템에서 필터링에서 제거되는, 상기 음성 신호의 더 높은 주파수 성분은 상기 더 높은 주파수 정보를 상기 통과대역의 보유된 부분에 압축함으로써 보존된다. 이러한 방식으로 압축된 전송된 음성 신호는 자음 정보를 보존하고, 이는 수신된 신호의 명료성을 크게 향상시킨다. 본 발명은 기본적으로 상기 전송된 신호의 피치를 변화시키는 일이 없이 그와 같은 것을 수행한다. 상기 압축된 주파수를 담고 있는 통과대역의 보유된 부분은 수신기에서 재-확장되어, 수신된 음성 신호의 품질을 더욱 향상시킬 수 있다.

본 발명은 특히, 자동차 내의 핸즈-프리 셀룰러 폰과 같이, 핸즈-프리 통신 시스템에 사용하는 데에 잘 적응된다. 배경 기술 부분에서 설명한 바와 같이, 차량 노이즈는, 특히 마이크로폰이 화자의 입으로부터 상당히 떨어져 있는 핸드-프리 시스템에서, 음성 신호에 매우 해로운 영향을 미칠 수 있다. 고주파수 성분을 더 많이 보존함으로써, 명료성에 있어서 중요한 인자인 자음은 보다 쉽게 구별되고, 차량 노이즈에 의해 덜 마스킹될 것이다.

본 발명의 다른 시스템, 방법, 특성 및 장점들은 이후의 도면 및 상세한 설명의 검토에 의해 당업자에게는 분명하거나 분명하게 될 것이다. 모든 이러한 부가적인 시스템, 방법, 특성 및 장점들은 본 발명의 설명 내에 포함되고, 발명의 범위 내에 있으며, 이후의 특허청구범위에 의해 보호되도록 의도된 것이다.

본 발명은 하기의 도면 및 발명의 상세한 설명을 참고하여 더욱 잘 이해될 수 있다. 도면의 구성요소는 반드시 크기에 따른 것은 아니며, 대신 발명의 원리를 설명하기 위해 강조를 하였다. 더욱이, 도면에서, 유사한 도면 부호는 대응되는 부분을 표시한다.

도 1은 셀룰러 통신 시스템의 통상적인 통과대역을 보여준다.

도 2는 조용한 조건 및 잡음 조건에서 발성된 단어 "seven"의 스펙트로그래프를 보여준다.

도 3은 도 2의 스펙트로그래프보다 더 넓은 주파수 범위를 보여주는, 잡음 조건에서의 발성된 단어 "seven"의 스펙트로그래프를 보여준다.

도 4는 압축되지 않은 5,500 Hz 음성 신호의 스펙트럼이다.

도 5는 전체 스펙트럼 선형 압축된 후에, 도 4의 음성 신호의 스펙트럼이다.

도 6은 본 발명에 따라서, 음성 신호 상에서 주파수 압축을 수행하기 위한 방법의 흐름도이다.

도 7은 본 발명에 따라서, 음성 신호를 압축하기 위한 수 많은 여러 가지 압축 함수의 그래프이다.

도 8은 압축되지 않은 음성 신호의 스펙트럼이다.

도 9는 본 발명에 따라서, 압축된 후의 도 8의 음성 신호의 스펙트럼이다.

도 10은 압축된 음성 신호의 순간적인 피크 파워를 감소시키도록 정규화된, 압축된 음성 신호의 스펙트럼이다.

도 11은 본 발명에 따라서, 음성 신호 상에서 주파수 확장을 수행하는 방법의 흐름도이다.

도 12는 본 발명에 따라서 확장되기 전의 압축된 음성 신호의 스펙트럼이다.

도 13은 본 발명에 따라서 확장된 음성 신호의 스펙트럼이다.

도 14는 확장으로 인한, 확장된 신호의 피크 파워의 감소를 보상하도록 정규화된 도 12의 확장된 음성 신호의 스펙트럼이다.

도 15는 본 발명을 채용하는 통신 시스템의 하이 레벨 블록도이다.

도 16은 도 15의 고주파수 인코더의 블록도이다.

도 17은 도 16의 고주파수 압축기의 블록도이다.

도 18은 도 17의 압축기의 블록도이다.

도 19는 도 15의 대역폭 확장기의 블록도이다.

도 20은 도 19의 스펙트럼 엔빌로프 확장기의 블록도이다.

도 6은 본 발명에 따라서, 음성 신호를 인코딩하는 방법의 흐름도를 보여준다. 제1 단계(S1)는 통과대역을 규정하는 것이다. 상기 통과대역은 통신 시스템에 의해 실제 전송될 음성 신호의 주파수 상한 및 하한을 규정한다. 상기 통과대역은 일반적으로, 본 발명이 채용되는 시스템의 요구 조건에 따라서 설정된다. 예컨대, 본 발명이 셀룰러 통신 시스템에 채용된다면, 상기 통과대역은 통상적으로, 300 Hz에서 3400 Hz로 확장될 것이다. 본 발명이 동등하게 잘 적응되는 다른 시스템은 상이한 통과대역을 규정할 수 있다.

제2 단계(S2)는 상기 통과대역 내의 문턱값 주파수(threshold frequency)를 규정하는 것이다. 상기 문턱값 주파수 미만의 주파수를 갖는 음성 신호의 성분은 압축되지 않을 것이다. 상기 문턱값 주파수보다 큰 주파수를 갖는 음성 신호의 성 분은 압축될 것이다. 모음이 주로 피치를 결정하는 데에 책임이 있고, 모음의 가장 큰 주파수 포먼트(formant)는 약 3,000 Hz이므로, 상기 문턱값 주파수를 약 3,000 Hz로 설정하는 것이 바람직하다. 이는 수신된 음성 신호의 전체적인 음색 품질 및 피치를 보존할 것이다. 단계(S3)에서 음성 신호가 수신된다. 이는 압축되어 원거리의 수신기로 전송될 음성 신호이다. 다음 단계(S4)는 수신된 음성 신호의 보존될 가장 큰 주파수를 식별하는 것이다. 이 한계보다 큰 주파수에 포함된 모든 정보는 소실되는 반면에, 이 주파수 한계 미만의 정보는 보존될 것이다. 본 발명에 따라 음성 신호를 인코딩하는 최종 단계(S5)는 상기 수신된 음성 신호를 선택적으로 압축하는 것이다. 문턱값 주파수로부터 수신된 신호의 보존될 가장 큰 주파수까지의 주파수 범위 내의 수신 음성 신호의 주파수 성분은 상기 문턱값 주파수로부터 통과대역의 주파수 상한까지 연장되는 주파수 범위 내로 압축된다. 문턱값 주파수 미만의 주파수는 변하지 않은 채 남아 있다.

도 7은 상기 과정에 따라 선택적인 압축을 수행하기 위한 수 많은 여러 가지 압축 함수를 보여준다. 각 압축 함수의 목적은 최초 신호의 전체적인 음색 품질 및 피치를 보존하기 위하여 더 낮은 주파수(즉, 문턱값 주파수 미만의 주파수)는 실질상 압축되지 않은 채 남겨두고, 문턱값 주파수보다 큰 주파수에 대하여 적극적인 압축을 적용하는 것이다. 더 높은 주파수를 압축하면, 보통 소실되는 많은 고주파수 정보가 보존되고, 음성 신호의 명료성이 개선된다. 도 7의 그래프는 3개의 서로 다른 압축 함수를 보여준다. 그래프의 수평축은 압축되지 않은 음성 신호의 주파수를 나타내고, 수직축은 수평축을 따른 주파수가 매핑되는 압축 주파수를 나타낸다. 점선(30)으로 나타낸 제1 함수는 문턱값 이상에서의 선형 압축을 나타내고, 문턱값 미만에서는 압축이 없다. 실선(32)으로 나타낸 제2 압축 함수는 문턱값 주파수 이상에서 비선형 압축을 채용하며, 그 미만에서는 아무것도 채용하지 않는다. 문턱값 주파수보다 큰 주파수에서, 주파수가 증가함에 따라, 점점 더 적극적인 압축이 적용된다. 따라서, 문턱값 주파수보다 훨씬 더 큰 주파수는 문턱값 부근의 주파수보다 더 크게 압축된다. 마지막으로, 제3 압축 함수는 점선(34)으로 나타내었다. 이 함수는 수신된 음성 신호의 전체 스펙트럼에 걸쳐 비선형 압축을 적용한다. 그러나, 문턱값 주파수 미만의 더 작은 주파수에서 압축이 거의 또는 전혀 발생하지 않도록, 그리고 더 높은 고주파수에서는 점점 더 적극적인 압축이 적용되도록 압축 함수가 선택된다.

도 8은 압축되지 않은 5500 Hz 음성 신호(36)의 스펙트럼을 보여준다. 도 9는 도 7에 도시한 문턱값 압축 함수(30)로 선형 압축을 이용하여 신호를 압축한 후의 도 8의 음성 신호(36)의 스펙트럼(38)을 보여준다. 문턱값 주파수(약 3000 Hz) 미만의 주파수는 변하지 않은 채 남아 있는 반면에, 문턱값 주파수보다 큰 주파수는 선형적으로 압축된다. 도 8 및 도 9에 도시한 두 개의 신호는 0~3,000 Hz의 주파수 범위에서 동일하다. 그러나, 3,000 Hz 내지 5,000 Hz의 주파수 범위에서의 최초 신호(36) 부분은 도 9의 신호(38)에서 3,000 Hz 및 3,500 Hz 사이의 주파수 범위로 압착되어 있다. 따라서, 도 8에 도시한 최초 음성 신호(36)의 더 높은 고 주파수 범위에 포함된 정보는 도 9에 도시한 압축 신호(38)에 보유되지만, 더 낮은 저주파수로 전치되었다(transposed). 이는 고주파수 성분의 피치를 변화시키지만, 템포(tempo)는 변화시키지 않는다. 그러나, 압축 신호(38)의 기본적인 피치 특성은 최초 신호(36)와 동일한 채 남아 있는데, 왜냐하면 상기 더 낮은 주파수 범위는 변하지 않은 채 남아 있기 때문이다.

압축된 신호(38)의 3,000~3,400 Hz 범위로 압축된 더 높은 주파수 정보는, 최초 음성 신호(36)가 300~3,400 Hz의 통과대역을 갖는 전형적인 통신 시스템에서 전송된다면, 대부분 필터링에서 제거되는 정보이다. 더 높은 주파수 콘텐트는 일반적으로 발음된 자음과 관련 있기 때문에, 재생될 때 상기 압축 신호는 그렇지 않은 경우보다도 더 명료할 것이다. 또한, 최초 음성 신호의 기본적인 피치 특성을 과도하게 변경하는 일이 없이 명료성이 개선된다.

이러한 이로운 효과는 상기 압축 신호가 후속의 재-확장 없이 재생되는 경우에도 달성된다. 상기 압축 신호를 수신하는 통신 터미널은, 어떤 임의의 압축 과정에 놓이지 않은 경우보다 더 명료한 음성 신호를 재생하기 위하여, 역 확장(inverse expansion)을 수행할 수 있어야 할 필요가 없고, 수신 신호가 압축되었는지를 알 필요도 없다. 그러나, 상기 결과는 사실 보충적 재-확장이 수신기에 의해 수행되는 경우 훨씬 더 만족스럽다는 것에 유의하여야 한다.

상기 방식으로 압축된 전송된 음성 신호의 명료성은 최초 음성 신호의 기본적 피치 및 음색 품질을 현저하게 변경하지 않으면서 개선되지만, 이는 압축된 신호의 사운드 또는 품질의 변화가 전혀 없다라고 언급하는 것은 아니다. 음성 신호가 압축되면, 최초 신호의 총 파워는 보존된다. 즉, 상기 압축된 신호의 압축된 부분의 총 파워는 최초 음성 신호의 압축될 부분의 총 파워와 동일한 채 남아 있다. 그러나, 순간적 피크 파워는 보존되지 않는다. 총 파워는 도 8 및 도 9에 도시한 곡선 아래의 면적으로 나타내어진다. 도 8의 최초 음성 신호의 주파수(영역의 수평 성분)는 훨씬 더 좁은 주파수 범위 내로 압축되기 때문에, 곡선(피크 신호 파워)의 수직 성분(또는 진폭)은 상기 곡선 아래의 면적이 동일하게 남아 있다면 증가될 필요가 있다. 상기 압축된 음성 신호의 더 높은 주파수의 피크 파워의 증가는 상기 음성 신호의 기본적인 피치에는 영향을 미치지 않지만, 음성 신호의 전체 사운드 품질에는 해로운 영향을 미칠 수 있다. 자음 및 고주파수 모음 포먼트는, 상기 압축된 신호가 후속의 재-확장 없이 재생되는 경우 치찰음(sibilant)을 낼 수 있고 또는 부자연스럽게 강한 소리를 낼 수 있다. 이러한 효과는 상기 압축된 신호의 피크 파워를 정규화(normalzing)함으로써 최소화될 수 있다. 정규화(normalization)는 압축량에 비례하는 양만큼 피크 파워를 감소시킴으로써 구현될 수 있다. 예컨대, 주파수 범위가 2:1의 비율로 압축된다면, 상기 압축된 신호의 피크 파워는 대략 두 배로 된다. 따라서, 출력 파워를 정규화하는 적절한 단계는 1/2 또는 -3dB 만큼 압축 신호의 피크 파워를 감소시킨다. 도 10은 이러한 방식으로 정규화된 도 9의 압축된 음성 신호(40)를 보여준다.

상기 방식으로 음성 신호를 압축하는 것은 명료성을 개선하는 데에 충분하다. 그러나, 후속의 재-확장이 압축 신호 상에서 수행되고 신호가 그 원래의 압축되지 않은 상태로 복귀된다면, 상기 개선 효과는 훨씬 더 커진다. 명료성이 개선될 뿐만 아니라, 최초 신호의 고주파수 특성 역시 그 원래의 압축 전 상태로 실질적으로 복귀된다.

압축 신호를 확장시키는 것은 단순히 상기 압축 과정의 역의 과정이다. 본 발명에 따라 음성 신호를 확장시키는 방법이 도 11에 도시되어 있다. 제1 단계(S10)는 대역통과 제한 신호(bandpass limited signal)를 수신하는 것이다. 제2 단계(S11)는 통과대역 내의 문턱값 주파수를 규정하는 것이다. 바람직하게는, 이는 압축 알고리즘에서 규정된 문턱값 주파수와 동일하다. 그러나, 확장은 수신된 신호에 압축이 적용되었지 여부를 모르는 수신기에서 수행되고 있으므로, 그리고 문턱값 주파수가 최초에 설정되었다면, 확장을 위해 선택된 문턱값 주파수는 이러한 문턱값이 조금이라도 존재하고 있다면 상기 신호를 압축하기 위해 선택된 문턱값 주파수와 매치될 필요는 없다. 다음 단계(S12)는 디코딩된 음성 신호의 주파수 상한을 규정하는 것이다. 이 상한은 상기 확장된 신호의 주파수 상한을 나타낸다. 최종 단계(S13)는 문턱값 주파수로부터 통과대역의 상한까지 연장되는 주파수 범위 내에 존재하는 상기 수신된 신호 부분을 확장시켜, 상기 문턱값 주파수로부터 상기 확장된 음성 신호에 대해 규정된 주파수 상한까지 연장되는 주파수 범위를 채우는 것이다.

도 12는 확장 전의 수신된 대역 통과 제한 음성 신호의 스펙트럼(42)을 보여준다. 도 13은 본 발명에 따라 확장된 후의 상기 동일 신호의 스펙트럼(44)을 보여준다. 0~3,000 Hz의 주파수 범위의 신호 부분은 실질상 변하지 않은 채 남아 있다. 그러나, 3,000~3,400 Hz의 주파수 범위의 신호 부분은 수평으로 펼쳐져, 3,400~5,500 Hz의 주파수 범위 전체를 채운다.

상기한 스펙트럼 압축 과정처럼, 수신된 신호의 확장 단계는 확장된 신호의 피크 파워와 유사하지만 반대의 영향을 미친다. 확장 중에, 수신된 신호의 스펙트럼은 펼쳐져서, 확장된 주파수 범위를 채운다. 다시, 수신된 신호의 총 파워는 보존되지만, 그 피크 파워는 보존되지 않는다. 따라서, 자음 및 고주파수 모음 포먼트는 그렇지 않은 것보다 더 적은 에너지를 가질 것이다. 이는 음성 신호를 재생할 때 음성 품질에 해로울 수 있다. 인코딩 과정에서처럼, 이러한 문제는 상기 확장된 신호를 정규화함으로써 치유될 수 있다. 도 14는 정규화된 후의 확장된 음성 신호의 스펙트럼(46)을 보여준다. 다시, 정규화의 양은 확장 정도에 의해 정해질 것이다.

확장되는 음성 신호가 상기한 바와 같이 압축되고 정규화되면, 수신기에서의 신호 확장 및 정규화에 의해, 총 파워 및 피크 파워는 최초 신호에서의 총 파워 및 피크 파워와 대략 동일하게 된다. 그러나, 상기 확장 기법은, 신호를 디코딩하는 수신기가 상기 수신 신호가 인코딩되었는지 또 정규화되었는지를 알지 못하고, 확장된 신호를 정규화하면 최초 신호에는 없었던 주파수에 파워가 추가될 수 있는 시스템에서 채용될 것이라는 점을 유의하여야 한다. 이는 사실 압축되고 정규화되었던 확장 신호를 정규화하는 것에 실패하는 것보다 더 큰 부정적인 영향을 신호 품질에 미칠 수 있다. 따라서, 디코더에 의해 수신된 신호가 이전에 인코딩되었는지 또 정규화되었는지 여부를 알지 못하는 시스템에서는, 상기 확장되고 디코딩된 신호의 정규화를 포기 또는 제한하는 것이 더 바람직할 수 있다.

어느 경우이든지, 본 발명의 압축 및 확장 기법은 음성 신호의 명료성을 개선하는 효과적인 메커니즘을 제공한다. 상기 기법은 상기 압축과 확장이 전송된 음성 신호의 전체 사운드 품질에 현저한 악영향을 미치는 일이 없이 서로 독립적으로 적용될 수 있는 중요한 이점을 갖고 있다. 본 명세서에 개시된 압축 기법은 후속의 재-확장 없이도 명료성을 현저히 개선한다. 본 발명에 따라 음성 신호를 인코딩 및 디코딩하는 방법은 음성 신호를 포착하는 마이크로폰이 화자의 입으로부터 상당히 떨어져 있을 수 있는 핸즈-프리 시스템 및 잡음 환경에서 음성 신호 명료성을 현저히 개선한다.

도 15는 본 발명의 신호 압축 및 확장 기술을 실행하는 통신 시스템(100)의 하이 레벨 블록도를 보여준다. 통신 시스템(100)은 전송기(102), 수신기(104), 및 그 사이에서 연장되는 통신 채널(106)을 포함한다. 전송기(102)는 전송기에서 기원하는 음성 신호를 통신 채널(106)을 통하여 수신기(104)로 보낸다. 수신기(104)는 통신 채널(106)로부터 음성 신호를 수신하며 수신기(104) 근처의 사용자를 위하여 신호를 재생한다. 시스템(100)에서, 전송기(102)는 고주파수 인코더(108)를 포함하며 수신기(104)는 대역폭 확장기(110)를 포함한다. 하지만, 본 발명은 또한 전송기(102)가 고주파수 인코더를 포함하지만 수신기는 대역폭 확장기를 포함하지 않는 통신 시스템, 또는 전송기(102)가 고주파수 인코더를 포함하지 않지만 수신기가 대역폭 확장기(110)를 포함하는 시스템에서 이용될 수도 있다.

도 16은 도 15의 고주파수 인코더(108)의 보다 세부적인 사항을 보여주는 도면이다. 고주파수 인코더는 A/D 컨버터(ADC)(122), 시간-도메인-대-주파수-도메인 변환기(124), 고주파수 압축기(126), 주파수 도메인-대-시간 도메인 변환기(128), 다운 샘플러(dpwn sampler)(30), 및 D/A 컨버터(132)를 포함한다.

ADC(122)는 통신 채널(106)을 통해 전송될 입력 음성 신호를 수신한다. ADC(122)는 상기 아날로그 음성 신호를 디지털 음성 신호로 전환하고 그 디지털화된 신호를 시간 도메인-대-주파수 도메인 변환기로 출력한다. 시간 도메인-대-주파수 도메인 변환기(124)는 상기 디지털화된 음성 신호를 시간 도메인으로부터 주파수 도메인으로 변환한다. 시간 도메인으로부터 주파수 도메인으로의 변환은 수 많은 상이한 알고리즘에 의해 이루어질 수 있다. 예를 들어, 시간 도메인-대-주파 수 도메인 변환기(124)는 패스트 푸리에 변환(Fast Fourier Transform)(FFT), 디지털 푸리에 변환(Digital Fourier Transform)(DFT), 디지털 코사인 변환(Digital Cosine Transform)(DCT); 디지털 필터 뱅크(digital filter bank); 웨이브렛 변환(wavelet transform); 또는 몇몇 기타 시간-도메인-대-주파수-도메인 변환을 채용할 수 있다.

일단 음성 신호가 주파수 도메인으로 변환되면, 고주파수 압축기(126)에서 스펙트럼 트랜스포지션(spectral transposition)을 통해 압축될 수 있다. 고주파수 압축기(126)는 상기 디지털화된 음성 신호의 더 높은 주파수 성분을 통신 채널(106)의 통과대역의 상부 주파수 내의 협대역으로 압축한다.

도 17과 도 18은 고주파수 압축기를 보다 상세히 보여준다. 도 6의 플로우차트를 참고하면, 최초 수신된 음성 신호는 단지 부분적으로 압축된다. 미리 규정된 문턱값 주파수 미만의 주파수는 변하지 않은 채 남아 있는 반면, 문턱값 주파수를 초과하는 주파수는 문턱값 주파수로부터 통신 채널(106) 통과대역의 주파수 상한까지 연장되는 주파수 대역 내로 압축된다. 고주파수 압축기(126)는 시간 도메인-대-주파수-도메인 변환기(124)로부터 주파수 도메인 음성 신호를 수신한다. 고주파수 압축기(126)는 상기 신호를 두 개의 경로(paths)로 분할한다. 첫 번째는 하이 패스 필터(high pass filter)(HPF)(134)로 입력되며, 두 번째는 로우 패스 필터(low pass filter)(LPF)(136)에 적용된다. HPF(134)와 LPF(136)는 본질적으로 음성 신호를 두 성분, 즉 고주파수 성분과 저주파수 성분으로 분리한다. 상기 두 성분은 도 17에 나타낸 두 개의 별도의 신호 경로(signal paths)에 따라 별도로 처리된다. HPF(134)와 LPF(136)은 어느 주파수가 압축되고 어느 주파수가 압축되지 않을 것인지를 결정하기 위해 설정된 문턱값 주파수와 대략 동등한 컷오프 주파수(cutoff frequencies)를 갖고 있다. 상부 신호 경로에서, HPF(134)는 압축될 음성 신호의 더 높은 주파수 성분을 출력한다. 하부 신호 경로 LPF(136)는 변하지 않은 채 남게 될 음성 신호의 더 낮은 주파수 성분을 출력한다. 따라서, HPF(134)로부터의 출력은 주파수 압축기(138)에 입력된다. 주파수 압축기(138)의 출력은 신호 결합기(signal combiner)(140)에 입력된다. 하부 신호 경로에서, LPF(136)로부터의 출력은 압축 없이 직접 결합기(140)에 적용된다. 따라서, HPF(134)에 의해 통과된 더 높은 주파수는 압축되며 LPF(136)에 의해 통과된 더 낮은 주파수는 변하지 않은 채 남아 있다. 상기 압축된 더 높은 주파수와 압축되지 않은 더 낮은 주파수는 결합기(140)에서 결합된다. 상기 결합된 신호는 실질적으로 변하지 않은, 최초 음성 신호의 더 낮은 주파수 성분(문턱값 주파수 미만의 것들), 및 통신 채널(106)의 통과대역 내에 있는 좁은 주파수 범위로 압축된 최초 음성 신호의 상부 주파수 성분(문턱값 주파수를 초과하는 것들)을 포함하는 바람직한 특성을 갖는다.

도 18은 압축기(138) 자체를 보여준다. HPF(134)로부터 출력된 음성 신호의 더 높은 주파수 성분은 이들이 압축기(138)에 도달할 때 다시 두 개의 신호 경로로 분할된다. 첫 번째 신호 경로는 주파수 매핑 매트릭스(frequency mapping matrix)(142)에 적용된다. 두 번째 신호 경로는 직접 게인 컨트롤러(gain controller)(144)에 적용된다. 주파수 매핑 매트릭스는 압축되지 않은 신호 도메인 내의 주파수 빈(bin)을 압축된 신호 범위 내의 주파수 빈에 매핑한다. 주파수 매핑 매트릭스(142)로부터의 출력은 또한 게인 컨트롤러(144)에 적용된다. 게인 컨트롤러(144)는 두 번째 신호 경로에 의해 공급되는 최초 신호의 스펙트럼 형태에 기초하여 주파수 매핑 매트릭스(142)의 출력을 성형하는 적응형 컨트롤러이다. 게인 컨트롤러는 최초 신호가 압축된 후 최초 신호의 스펙트럼 형태 또는 "기울기(tilt)"를 유지하는 것을 돕는다. 게인 컨트롤러(144)의 출력은 도 17의 결합기(140)에 입력된다. 결합기(140)의 출력은 고주파수 압축기(126)(도 16)의 실제 출력을 포함하며 도 16에 나타난 주파수 도메인 대 시간 도메인 변환기(128)에 입력된다.

주파수-도메인-대-시간-도메인 변환기(128)는 압축된 음성 신호를 시간 -도메인으로 다시 변환한다. 주파수-도메인으로부터 시간-도메인으로의 역 변환은 시간-도메인-대-주파수-도메인 변환기(124)에 의해 실행된 시간-도메인-대-주파수 도메인 변환의 역 변환일 수 있으나, 반드시 그럴 필요는 없다. 실질적으로 주파수-도메인에서 시간-도메인으로의 임의의 변환이면 충분할 것이다.

다음으로, 다운 샘플러(130)는 주파수-도메인-대-시간-도메인 변환기(128)로부터의 시간 도메인 디지털 음성 신호 출력을 샘플링한다. 다운 샘플러(130)는 압 축된 신호의 최고 주파수 성분과 일치하는 샘플링 속도로 신호를 샘플링한다. 예를 들어, 압축된 신호의 최고 주파수가 4000 Hz이면, 다운 샘플러는 적어도 8000 Hz의 속도로 압축된 신호를 샘플링할 것이다. 다운 샘플링된 신호는 이어서 압축된 아날로그 음성 신호를 출력하는 디지털-대-아날로그 컨버터(DAC)(132)에 적용된다. DAC(132) 출력은 통신 채널(106)을 통해 전송될 수 있다. 음성 신호에 적용된 압축 때문에, 최초 음성 신호의 더 높은 주파수는 통신 채널(106)의 제한된 대역폭으로 인해 소실되지 않을 것이다. 별법으로서, 디지털 대 아날로그 전환은 생략될 수 있으며, 압축된 디지털 음성 신호는 자동 음성 인식 시스템과 같은 다른 시스템에 직접 입력될 수 있다.

도 19는 도 15의 대역폭 확장기(110)의 보다 세부적인 사항을 보여주는 도면이다. 도 11의 플로우 차트를 참고하면, 대역폭 확장기의 목적은 통신 채널(106)을 통해 수신된, 대역 제한된 음성 신호를 부분적으로 확장하는 것이다. 대역폭 확장기는 미리 규정된 주파수 문턱값보다 큰, 수신된 음성 신호의 주파수 성분만을 확장하는 것이다. 대역폭 확장기(110)는 아날로그 대 디지털 컨버터(ADC)(146); 업 샘플러(148); 시간-도메인-대-주파수-도메인 변환기(150), 스펙트럼 엔빌로프(envelope) 확장기(152); 여기 신호 생성기(excitation signal generator)(154); 결합기(156); 주파수-도메인-대-시간-도메인 변환기(158); 및 디지털 대 아날로그 컨버터(DAC)(160)를 포함한다.

ADC(146)는 통신 채널(106)로부터 대역 제한 아날로그 음성 신호를 수신하며 이를 디지털 신호로 전환한다. 업 샘플러(148)는 이어서 확장된 신호의 의도된 최고 주파수의 최고 속도에 상응하는 샘플링 속도로, 디지털화된 음성 신호를 샘플링한다. 업 샘플된 신호는 이어서 시간-도메인-대-주파수-도메인 변환기(150)에 의해 시간 도메인에서 주파수 도메인으로 변환된다. 고주파수 인코더(108)에 있어서와 같이, 이 변환은 패스트 푸리에 변환(FFT), 디지털 푸리에 변환(DFT), 디지털 코사인 변환, 디지털 필터 뱅크, 웨이브렛 변환 등일 수 있다. 이어서 주파수 도메인 신호는 두 개의 별도의 경로로 분할된다. 첫 번째는 스펙트럼 엔빌로프 확장기(152)로 입력되며 두 번째는 여기 신호 생성기(154)에 적용된다.

스펙트럼 엔빌로프 확장기는 도 20에 보다 상세하게 도시되어 있다. 엔빌로프 확장기(142)로의 입력은 주파수 디매핑(demapping) 매트릭스(162)와 게인 컨트롤러(164) 모두에 적용된다. 주파수 디매핑 매트릭스(162)는, 수신되고 압축된 음성 신호의 더 낮은 주파수 빈을 압축되지 않은 신호의 확장된 주파수의 더 높은 주파수 빈에 매핑한다. 주파수 디매핑 매트릭스(162)의 출력은 대역폭 확장기(110)의 바람직한 최고 주파수 출력에 상응하는 최고 주파수 성분을 갖는 음성 신호의 확장된 스펙트럼이다. 주파수 디매핑 매트릭스로부터의 신호 출력의 스펙트럼은 이어서, 상기한 바와 같이 게인 컨트롤러(164)에 입력되는 최초의 확장되지 않은 신호의 스펙트럼의 스펙트럼 형태에 기초하여 게인 컨트롤러(164)에 의해 성형된다. 게인 컨트롤러(164)의 출력은 스펙트럼 엔빌로프 확장기(162)의 출력을 형성 한다.

앞서 설명한 방식으로 음성 신호의 스펙트럼을 확장할 때 발생하는 문제점은 고조파 및 위상 정보(harmonic and phase information)가 소실되는 것이다. 여기 신호 생성기는 최초의 확장되지 않은 신호에 기초하여 고조파 정보를 생성한다. 결합기(156)는 스펙트럼 엔빌로프 확장기(152)로부터 출력된 스펙트럼 확장된 음성 신호 출력을 여기 신호 생성기(154)의 출력과 결합한다. 상기 결합기는 상기 여기 신호 발생기의 출력을 이용하여 상기 확장된 신호를 성형하여, 적절한 고조파를 추가하고 그들의 상 관계를 정정한다. 이어서 결합기(156)의 출력은 주파수-도메인-대-시간-도메인 변환기(158)에 의해 시간 도메인으로 다시 변환된다. 주파수-도메인-대-시간-도메인 변환은 시간-도메인-대-주파수-도메인 변환기(150)의 역을 이용하거나, 또는 몇몇 다른 변환을 이용할 수 있다. 일단 시간 도메인으로 돌아가면, 상기 확장된 음성 신호는 DAC(160)에 의해 다시 아날로그 신호로 전환된다. 아날로그 신호는 이어서 수신기 사용자를 위하여 라우드스피커에 의해 재생될 수 있다.

도 6과 도 11의 플로우 차트에 개시된 음성 신호 압축 및 확장 기술을 이용함으로써, 통신 시스템(100)은 종래의 대역 제한 시스템에서 전송되는 것들보다 더 명료하고 더 나은 품질을 갖는 음성 신호를 전송한다. 통신 시스템(100)은 통신 채널의 통과대역 제한으로 인해 대개 소실되는 고주파수 음성 정보를 보존한다. 또한, 통신 시스템(100)은 압축된 신호가 수신될 때 재확장되든 되지 않든 명료성 이 개선되는 방식으로 고주파수 정보를 보존한다. 신호는 또한 전송 전에 압축되었든 되지 않았든 사운드 품질에 상당한 해로움을 미치는 일이 없이 확장될 수 있다. 따라서, 고주파수 인코더를 포함하는 전송기(102)는, 수신기(104)와는 달리 대역폭 확장기를 포함하지 않는 수신기에 압축된 신호를 전송할 수 있다. 유사하게, 수신기(104)는, 전송기(102)와는 달리 고주파수 인코더를 포함하지 않는 전송기로부터 수신된 신호를 수신하고 확장할 수 있다. 모든 경우에, 전송된 음성 신호의 명료성은 개선된다.

첨부된 청구항에 보다 구체적으로 개시된 본 발명의 범위를 벗어나지 않으면서 당업자에 의해 본 발명이 다양하게 변화되고 수정될 수 있다는 것에 유의하여야 한다.

또한, 당업자는 전술한 설명이 단지 예시일 뿐이며, 첨부된 청구항에 개시된 본 발명을 제한하는 것이 아님을 이해할 것이다.

본 발명의 다양한 실시예가 개시되었지만, 더 많은 실시예와 구현예가 본 발명의 범위 내에서 가능함이 당업자에게 명백할 것이다. 따라서, 본 발명은 첨부된 청구항과 그 균등물의 관점을 제외하고는 제한되지 않는다.

Claims

통과 대역 주파수 하한과 통과 대역 주파수 하한을 갖는 주파수 통과 대역을 식별하고;

상기 통과 대역 내의 문턱값 주파수를 규정하며;

가장 높은 주파수 성분이 상기 통과 대역 주파수 상한보다 큰 주파수 스펙트럼을 갖는 음성 신호를 수신하고;

상기 문턱값 주파수와 상기 음성 신호의 가장 높은 주파수 성분 사이의 제1 주파수 범위 내의 상기 음성 신호 스펙트럼의 일부를 상기 문턱값 주파수와 상기 통과 대역 주파수 상한 사이의 주파수 범위 내로 압축하는 것

를 포함하는 음성 신호의 명료성을 개선하는 방법.
제 1항에 있어서,

상기 압축된 음성 신호를 전송하고;

상기 압축된 음성 신호를 수신하며;

상기 압축된 음성 신호를 청취가능하게 재생하는 것

을 더 포함하는 음성 신호의 명료성을 개선하는 방법.
제 1항에 있어서,

상기 압축된 음성 신호를 전송하고;

상기 압축된 음성 신호를 수신하며;

상기 수신되고 압축된 음성 신호를 확장하는 것

를 더 포함하는 음성 신호의 명료성을 개선하는 방법.
제 1항에 있어서,

상기 압축된 음성 신호의 피크 파워를 정규화하는 것을 더 포함하는 음성 신호의 명료성을 개선하는 방법.
제 4항에 있어서,

상기 압축되고 정규화된 음성 신호를 전송하고;

상기 압축되고 정규화된 음성 신호를 수신하며;

상기 압축되고 정규화된 음성 신호를 확장하는 것

을 더 포함하는 음성 신호의 명료성을 개선하는 방법.
제 5항에 있어서, 상기 확장되고 수신된 음성 신호를 재-정규화하고, 상기 재-정규화된 확장된 음성 신호를 청취가능하게 재생하는 것을 더 포함하는 음성 신호의 명료성을 개선하는 방법.
제 5항에 있어서, 상기 확장되고 수신된 음성 신호를 청취 가능하게 재생하는 것을 더 포함하는 음성 신호의 명료성을 개선하는 방법.
제 1항에 있어서, 상기 음성 신호 스펙트럼의 일부를 압축하는 것은 상기 문턱값 주파수 위에서 선형 주파수 압축을 적용하는 것을 포함하는 것인 음성 신호의 명료성을 개선하는 방법.
제 1항에 있어서, 상기 음성 신호 스펙트럼의 일부를 압축하는 것은 상기 문턱값 주파수 위에서 비선형 주파수 압축을 적용하는 것을 포함하는 것인 음성 신호의 명료성을 개선하는 방법.
제 1항에 있어서, 상기 음성 신호 스펙트럼의 일부를 압축하는 것은 상기 음성 신호의 스펙트럼의 전체에 걸쳐 비선형 주파수 압축을 적용하는 것을 포함하고, 상기 압축을 수행하는데 채용되는 압축 함수는, 최소의 압축이 더 낮은 주파수에서 적용되고, 증가하는 압축이 더 높은 주파수에서 적용되도록 선택되는 것인 음성 신호의 명료성을 개선하는 방법.
주파수 하한과 주파수 상한을 갖는 통과대역 제한 신호를 수신하고;

상기 수신된 음성 신호의 상기 통과 대역 내에 문턱값 주파수를 규정하며;

확장된 신호 주파수 상한을 규정하고;

상기 문턱값 주파수와 상기 통과대역의 주파수 상한 사이의 주파수 범위 내의 상기 수신된 음성 신호의 주파수 성분을 확장시켜, 상기 문턱값 주파수와 상기 확장된 신호 주파수 상한 사이의 주파수 범위를 채우도록, 상기 수신된 음성 신호의 일부에서 주파수 확장을 수행하며;

상기 확장된 음성 신호를 청취 가능하게 재생하는 것

을 포함하는 음성 신호의 명료성을 개선하는 방법.
제 11항에 있어서, 상기 확장된 신호의 피크 파워를 정규화하는 것을 더 포함하는 음성 신호의 명료성을 개선하는 방법.
제 11항에 있어서, 상기 주파수 확장은 상기 문턱값 주파수에서 시작하는 선형 확장을 포함하는 것인 음성 신호의 명료성을 개선하는 방법.
제 11항에 있어서, 상기 주파수 확장은 상기 문턱값 주파수에서 시작하는 비선형 확장을 포함하는 것인 음성 신호의 명료성을 개선하는 방법.
제 11항에 있어서, 상기 주파수 확장은 상기 수신된 신호의 전체 스펙트럼에 걸친 비선형 확장을 포함하고, 상기 확장을 실시하는 데 채용되는 확장 함수는 상기 수신된 신호의 더 낮은 주파수 부분에는 확장을 거의 또는 전혀 적용하지 않고, 상기 수신된 신호의 더 높은 주파수 부분에는 증가하는 확장을 적용하는 것인 음성 신호의 명료성을 개선하는 방법.
전송된 음성 신호의 명료성을 개선하는 시스템으로서,

음성 신호의 더 낮은 주파수 성분은 실질상 변하지 않은 채 남겨 두면서, 통신 채널의 통과대역 외부에 있는 음성 신호의 고주파수 성분을 상기 통신 채널의 통과대역 내의 주파수 범위 내로 압축하도록 되어 있는 고주파수 인코더; 및

상기 고주파수 인코더에 의하여 압축된 음성 신호를 상기 통신 채널을 통해 전송하는 전송기

를 포함하는 시스템.
제 16항에 있어서, 상기 고주파수 인코더는:

시간 도메인 음성 신호를 주파수 도메인 신호로 변환하는 시간 도메인-대-주파수 도메인 변환기;

상기 주파수 도메인 신호의 상기 고 주파수 성분을 압축하는 고 주파수 압축기; 및

상기 고주파수 압축기로부터 출력된 상기 압축된 음성 신호를 시간 도메인 신호로 변환하는 주파수 도메인-대-시간 도메인 변환기

를 포함하는 시스템.
제 16항에 있어서, 상기 고주파수 압축기는:

상기 음성 신호의 상기 저주파수 성분으로부터 상기 음성 신호의 상기 고주파수 성분을 분리하는 하이 패스 필터 및 로우 패스 필터;

상기 압축되지 않은 주파수 도메인 내의 주파수 빈(bin)으로부터 상기 압축된 주파수 범위 내의 주파수 빈에 상기 음성 신호의 상기 고주파수 성분을 매핑하는 주파수 매핑 매트릭스; 및

상기 음성 신호의 상기 압축된 고주파수 성분을 상기 음성 신호의 상기 저주파수 성분과 결합하는 결합기

를 포함하는 시스템.
제 16항에 있어서,

상기 통신 채널을 통해 음성 신호를 수신하는 수신기; 및

상기 통과대역의 하위 부분 내의 상기 수신된 신호의 주파수 성분은 실질상 변하지 않은 채 남겨 두면서, 상기 통신 채널 통과대역의 상위 부분에의 수신된 신호의 주파수 성분을 상기 통과대역의 상한을 넘어 연장되는 주파수 범위 내로 확장시키도록 되어 있는 대역폭 확장기

를 더 포함하는 시스템.
제 19항에 있어서, 상기 대역폭 확장기는,

수신된 신호의 샘플링 속도를 증가시키는 업샘플러(upsampler);

상기 업샘플된 신호의 주파수 성분을 상기 주파수 도메인으로 변환하는 시간-도메인-대-주파수-도메인 변환기;

상기 확장되지 않은 주파수 범위 내의 주파수 빈으로부터 상기 확장된 주파 수 범위 내의 더 큰 주파수 빈으로 상기 업샘플된 주파수 도메인 신호의 주파수 성분을 매핑하기 위한 주파수 디매핑 매트릭스를 포함하는 스펙트럼 엔빌로프 확장기;

상기 업샘플된 주파수 도메인 신호로부터 고조파 및 위상 정보를 생성하는 여기 신호 생성기;

상기 스펙트럼 엔빌로프 확장기와 상기 여기 신호 발생기의 출력을 결합하는 결합기; 및

상기 결합된 신호를 상기 시간 도메인으로 변환하는 시간 도메인-대-주파수 도메인 변환기

를 포함하는 시스템.
아날로그 음성 신호를 디지털 시간-도메인 음성 신호로 전환하는 A/D 컨버터;

상기 시간-도메인 음성 신호를 주파수-도메인 음성 신호로 전환하는 시간-도메인-대-주파수-도메인 변환기;

상기 주파수-도메인 음성 신호의 고 주파수 성분을 압축된 주파수-도메인 음성 신호를 위한 더 낮은 주파수로 스펙트럼식으로 트랜스포즈하기 위한 고주파수 압축기;

상기 압축된 주파수 도메인 음성 신호를 압축된 시간-도메인 음성 신호로 변환하는 주파수-도메인-대-시간-도메인 변환기; 및

상기 압축된 시간-도메인 음성 신호의 최고 주파수에 적합한 샘플링 속도로 상기 압축된 시간-도메인 신호를 샘플링하는 다운 샘플러(down sampler)

를 포함하는 고주파수 인코더.
제 21항에 있어서, 상기 고주파수 압축기는 상기 주파수 도메인 음성 신호의 고주파수 성분을 추출하는 하이 패스 필터와, 상기 주파수 도메인 음성 신호의 고주파수 성분을 더 낮은 주파수로 매핑하는 주파수 매핑 매트릭스를 포함하고, 상기 고 주파수 성분은 스펙트럼식으로 상기 더 낮은 주파수에 트랜스포즈되는 것인 고주파수 인코더.
제 21항에 있어서, 상기 고주파수 압축기는 상기 주파수 도메인 음성 신호의 저주파수 성분을 추출하는 로우 패스 필터와, 상기 주파수 도메인 음성 신호의 상기 추출된 저주파수 성분과 더 낮은 주파수에 스펙트럼식으로 트랜스포즈된, 상기 주파수-도메인 음성 신호의 상기 고주파수 성분을 결합하는 결합기를 포함하는 고주파수 인코더.
주파수 통과대역을 식별하고;

최고 주파수 성분이 상기 통과대역의 주파수 상한보다 큰 주파수 스펙트럼을 갖는 음성 신호를 수신하며;

주파수 압축 함수를 적용함으로써, 상기 음성 신호의 주파수 스펙트럼 전체 에 걸쳐 비선형 주파수 압축을 적용하는 것

을 포함하고, 상기 주파수 압축 함수에서, 압축된 음성 신호 스펙트럼이 상기 통과 대역 내에 있도록 최초의 압축이 상기 음성 신호 스펙트럼의 하위 주파수 범위에 적용되고, 현저히 더 큰 압축이 상기 음성 신호 스펙트럼의 상위 주파수 범위에 적용되는 것인

음성 신호의 명료성을 개선하는 방법.