KR101378696B1

KR101378696B1 - 협대역 신호로부터의 상위대역 신호의 결정

Info

Publication number: KR101378696B1
Application number: KR1020127012181A
Authority: KR
Inventors: 벤카테쉬 크리쉬난; 다니엘 제이 신더; 아난타파드마나반 아라사니팔라이 칸다다이
Original assignee: 퀄컴 인코포레이티드
Priority date: 2009-10-23
Filing date: 2010-10-23
Publication date: 2014-03-27
Also published as: KR20120090086A; WO2011050347A1; CN102576542A; JP5551258B2; JP2013508783A; US8484020B2; EP2491558B1; US20110099004A1; TW201140563A; CN102576542B; EP2491558A1

Abstract

협대역 스피치 신호로부터 상위대역 스피치 신호를 결정하기 위한 방법이 개시되어 있다. 협대역 스피치 신호로부터 협대역 선 스펙트럼 주파수 (LSF) 들의 리스트가 결정된다. 리스트 내의 모든 다른 인접 협대역 LSF들 쌍보다 LSF들 간의 차가 더 낮은 제 1 인접 협대역 LSF들 쌍이 결정된다. 제 1 인접 협대역 LSF들 쌍의 평균인 제 1 피처가 결정된다. 상위대역 LSF들이 적어도 제 1 피처에 기초하여 코드북 맵핑을 이용하여 결정된다.

Description

협대역 신호로부터의 상위대역 신호의 결정{DETERMINING AN UPPERBAND SIGNAL FROM A NARROWBAND SIGNAL}

관련 출원들

본 출원은 2009년 10월 23일자로 출원된, 발명의 명칭이 "Determining an Upperband Signal from a Narrowband Signal" 인 미국 가특허출원번호 제61/254,623호와 관련되며, 그로부터 우선권을 주장한다.

기술 분야

본 개시물은 일반적으로 통신 시스템들에 관한 것이다. 더 상세하게는, 본 개시물은 협대역 신호로부터 상위대역 신호를 결정하는 것에 관한 것이다.

무선 통신 시스템들은, 많은 전세계 사람들이 통신하게 하는 중요한 수단이 되었다. 무선 통신 시스템은, 각각이 기지국에 의해 서비스될 수도 있는 다수의 무선 통신 디바이스들을 위한 통신을 제공할 수 있다. 무선 통신 디바이스는 다중 프로토콜들을 이용하는 것이 가능하고, 다중 무선 통신 시스템들에서 통신하도록 다중 주파수들에서 동작하는 것이 가능하다.

많은 사용자들을 수용하기 위하여, 상이한 기법들이 무선 통신 시스템 내의 효율을 최대화하는데 이용된다. 예를 들어, 스피치는 종종 송신을 위해 좁은 대역폭으로 압축된다. 이것은 더 많은 사용자들이 네트워크에 액세스하는 것을 허용하지만, 수신기에서의 스피치 품질을 열악하게 만들기도 한다. 따라서, 협대역 신호로부터 상위대역 신호를 결정하기 위한 개선된 시스템들 및 방법들에 의해 이점들이 실현될 수도 있다.

협대역 스피치 신호로부터 상위대역 스피치 신호를 결정하기 위한 방법이 개시되어 있다. 협대역 스피치 신호로부터 협대역 선 스펙트럼 주파수 (line spectral frequency; LSF) 들의 리스트가 결정된다. 그 리스트 내의 모든 다른 인접 협대역 LSF들 쌍보다 LSF들 간의 차가 더 낮은 제 1 인접 협대역 LSF들 쌍이 결정된다. 제 1 인접 협대역 LSF들 쌍의 평균 (mean) 인 제 1 피처 (feature) 가 결정된다. 적어도 제 1 피처에 기초하여 코드북 맵핑을 이용하여 상위대역 LSF들이 결정된다.

일 구성 (configuration) 에서, 협대역 스피치 신호에 기초하여 협대역 여기 신호 (excitation signal) 가 결정될 수도 있다. 협대역 여기 신호에 기초하여 상위대역 여기 신호가 결정될 수도 있다. 상위대역 선형 예측 (linear prediction; LP) 필터 계수들이 상위대역 선 스펙트럼 주파수 (LSF) 들에 기초하여 결정될 수도 있다. 상위대역 여기 신호는 상위대역 LP 필터 계수들을 이용하여 필터링되어 합성된 상위대역 스피치 신호를 생성할 수도 있다. 합성된 상위대역 스피치 신호에 대한 이득이 결정될 수도 있다. 그 이득은 합성된 상위대역 스피치 신호에 적용될 수도 있다.

현재 스피치 프레임이 유성음 (voiced) 프레임이라면, 협대역 여기 신호에는 윈도우가 적용될 수도 있다. 협대역 여기 신호의 협대역 에너지가 윈도우 내에서 계산될 수도 있다. 협대역 에너지는 로그 도메인 (logarithmic domain) 으로 컨버팅될 수도 있다. 로그 협대역 에너지는 로그 상위대역 에너지에 선형 맵핑될 수도 있다. 로그 상위대역 에너지는 비-로그 (non-logarithmic) 도메인으로 컨버팅될 수도 있다.

현재 스피치 프레임이 무성음 (unvoiced) 프레임이라면, 협대역 여기 신호의 협대역 푸리에 변환이 결정될 수도 있다. 협대역 푸리에 변환의 서브대역 에너지들이 계산될 수도 있다. 서브대역 에너지들은 로그 도메인으로 컨버팅될 수도 있다. 서브대역 에너지들이 서로 관련되는 방법, 및 협대역 선형 예측 계수들로부터 계산된 스펙트럼 기울기 (spectral tilt) 파라미터에 기초하여 로그 서브대역 에너지들로부터 로그 상위대역 에너지가 결정될 수도 있다. 로그 상위대역 에너지는 비-로그 도메인으로 컨버팅될 수도 있다. 현재 스피치 프레임이 묵음 (silent) 프레임이라면, 협대역 여기 신호의 에너지보다 20dB 낮은 상위대역 에너지가 결정될 수도 있다.

다른 구성에서, N 개의 고유한 인접 협대역 LSF 쌍들은, 그 쌍들의 엘리먼트들 간의 절대차가 증가하는 순서로 존재하도록 결정될 수도 있다. N 은 미리 결정된 수일 수도 있다. 연속하여 LSF 쌍들의 평균들인 N 개의 피처들이 결정될 수도 있다. N 개의 피처들에 기초하여 코드북 맵핑을 이용하여 상위대역 LSF들이 결정될 수도 있다.

상위대역 선 스펙트럼 주파수 (LSF) 들을 결정하기 위하여, 제 1 피처에 가장 밀접하게 매칭하는 협대역 코드북 내의 엔트리 (entry) 가 결정될 수도 있으며, 협대역 코드북은, 현재 스피치 프레임이 유성음으로 분류되는지, 무성음으로 분류되는지, 또는 묵음으로 분류되는지 여부에 기초하여 선택될 수도 있다. 협대역 코드북 내의 엔트리의 인덱스가 또한 상위대역 코드북에서의 인덱스에 맵핑될 수도 있으며, 상위대역 코드북은, 현재 스피치 프레임이 유성음으로 분류되는지, 무성음으로 분류되는지, 또는 묵음으로 분류되는지 여부에 기초하여 선택될 수도 있다. 상위대역 코드북에서의 인덱스에 있는 상위대역 LSF들이 또한 상위대역 코드북으로부터 추출될 수도 있다. 협대역 코드북은 협대역 스피치로부터 유도된 프로토타입 피처들을 포함할 수도 있고, 상위대역 코드북은 프로토타입 상위대역 선 스펙트럼 주파수 (LSF) 들을 포함할 수도 있다. 협대역 선 스펙트럼 주파수 (LSF) 들의 리스트는 오름차순으로 소팅 (sorting) 될 수도 있다.

상위대역 스피치가 협대역 스피치보다 더 높은 범위의 주파수들에 걸쳐 있는, 협대역 스피치 신호로부터 상위대역 스피치 신호를 결정하기 위한 장치가 또한 개시되어 있다. 이 장치는 프로세서, 및 그 프로세서와 전자 통신하고 있는 메모리를 포함한다. 메모리에는 실행가능한 명령들이 저장된다. 명령들은 협대역 스피치 신호에 기초한 선형 예측 코딩 (Linear Predictive Coding; LPC) 분석을 이용하여 협대역 선 스펙트럼 주파수 (LSF) 들의 리스트를 결정하도록 실행가능하다. 명령들은 또한, 리스트 내의 모든 다른 인접 협대역 LSF들 쌍보다 LSF들 간의 차가 더 낮은 제 1 인접 협대역 LSF들 쌍을 결정하도록 실행가능하다. 명령들은 또한, 제 1 인접 협대역 LSF들 쌍의 평균인 제 1 피처를 결정하도록 실행가능하다. 명령들은 또한 적어도 제 1 피처에 기초하여 코드북 맵핑을 이용하여 상위대역 LSF들을 결정하도록 실행가능하다.

상위대역 스피치가 협대역 스피치보다 더 높은 범위의 주파수들에 걸쳐 있는, 협대역 스피치 신호로부터 상위대역 스피치 신호를 결정하기 위한 장치가 또한 개시되어 있다. 이 장치는 협대역 스피치 신호에 기초한 선형 예측 코딩 (LPC) 분석을 이용하여 협대역 선 스펙트럼 주파수 (LSF) 들의 리스트를 결정하는 수단을 포함한다. 이 장치는 또한 리스트 내의 모든 다른 인접 협대역 LSF들 쌍보다 LSF들 간의 차가 더 낮은 제 1 인접 협대역 LSF들 쌍을 결정하는 수단을 포함한다. 이 장치는 또한 제 1 인접 협대역 LSF들 쌍의 평균인 제 1 피처를 결정하는 수단을 포함한다. 이 장치는 또한 적어도 제 1 피처에 기초하여 코드북 맵핑을 이용하여 상위대역 LSF들을 결정하는 수단을 포함한다.

상위대역 스피치가 협대역 스피치보다 더 높은 범위의 주파수들에 걸쳐 있는, 협대역 스피치 신호로부터 상위대역 스피치 신호를 결정하기 위한 컴퓨터 프로그램 제품이 또한 개시되어 있다. 컴퓨터 프로그램 제품은 명령들을 갖고 있는 컴퓨터 판독가능 매체를 포함한다. 명령들은 협대역 스피치 신호에 기초한 선형 예측 코딩 (LPC) 분석을 이용하여 협대역 선 스펙트럼 주파수 (LSF) 들의 리스트를 결정하기 위한 코드를 포함한다. 명령들은 또한, 리스트 내의 모든 다른 인접 협대역 LSF들 쌍보다 LSF들 간의 차가 더 낮은 제 1 인접 협대역 LSF들 쌍을 결정하기 위한 코드를 포함한다. 명령들은 또한, 제 1 인접 협대역 LSF들 쌍의 평균인 제 1 피처를 결정하기 위한 코드를 포함한다. 명령들은 또한 적어도 제 1 피처에 기초하여 코드북 맵핑을 이용하여 상위대역 LSF들을 결정하기 위한 코드를 포함한다.

도 1 은 블라인드 대역폭 확장을 이용하는 무선 통신 시스템을 예시한 블록도이다.
도 2 는 주파수의 함수로서 스피치 신호들의 상대 대역폭들을 예시한 블록도이다.
도 3 은 블라인드 대역폭 확장을 예시한 블록도이다.
도 4 는 블라인드 대역폭 확장을 위한 방법을 예시한 흐름도이다.
도 5 는 상위대역 스펙트럼 엔벌로프 (envelope) 를 추정하는 상위대역 선형 예측 코딩 (LPC) 추정 모듈을 예시한 블록도이다.
도 6 은 협대역 선 스펙트럼 주파수 (LSF) 들의 리스트로부터 피처들을 추출하기 위한 방법을 예시한 흐름도이다.
도 7 은 상위대역 이득 추정 모듈을 예시한 블록도이다.
도 8 은 상위대역 이득 추정 모듈을 예시한 다른 블록도이다.
도 9 는 비선형 프로세싱 모듈을 예시한 블록도이다.
도 10 은 협대역 여기 신호로부터 고조파 확장된 신호를 생성하는 스펙트럼 확장기를 예시한 블록도이다.
도 11 은 무선 디바이스 내에 포함될 수도 있는 소정의 컴포넌트들을 예시한 도면이다.

광대역 스피치 (50Hz 내지 8000Hz) 는 보다 고품질이고 일반적으로 보다 나은 소리를 내기 때문에 (협대역 스피치와 비교하여) 광대역 스피치가 청취하기에 바람직하다. 그러나, 많은 경우들에서는, 종래의 일반전화 및 무선 전화 시스템들을 통한 스피치 통신이 종종 300Hz 내지 4000Hz 의 협대역 주파수 범위에 제한되기 때문에 단지 협대역 스피치만이 이용가능하다. 광대역 스피치 송신 및 수신 시스템들이 점차 인기를 얻고 있지만, 기존의 인프라스트럭처에 상당한 변화들을 필요로 할 것이며, 이러한 변화들에는 상당한 양의 시간이 걸릴 것이다. 그 동안에, 인코더로부터 임의의 보조 정보 (side information) 를 요구하지 않고 수신된 협대역 스피치의 대역폭을 광대역 주파수 범위로 확장하기 위해 그 수신된 협대역 스피치에 대한 포스트 프로세싱 모듈의 역할을 하는 블라인드 대역폭 확장 기법들이 채용되고 있다. 블라인드 추정 알고리즘들은 협대역 신호로부터 상위대역 (3500Hz 내지 8000Hz 대역) 및 베이스 (bass) (50Hz 내지 300Hz) 의 컨텐츠들을 전부 추정한다. 용어 "블라인드" 는, 인코더로부터 어떠한 보조 정보도 수신되지 않는다는 사실을 나타낸다.

즉, 가장 이상적인 광대역 스피치 품질 솔루션은 송신기에서 광대역 신호를 인코딩하고, 그 광대역 신호를 송신하며, 그 광대역 신호를 수신기, 즉 무선 통신 디바이스에서 디코딩하는 것이다. 그러나, 현재는, 인프라스트럭처 및 모바일 디바이스들은 단지 협대역 신호들을 이용하여 통신한다. 따라서, 전체 무선 통신 시스템의 변화는 기존의 인프라스트럭처 및 모바일 디바이스들에 비용이 많이 드는 변화들을 요구할 것이다. 그러나, 본 시스템들 및 방법들은 기존의 인프라스트럭처 및 통신 프로토콜들을 이용하여 동작한다. 즉, 여기에 개시된 구성들은 단지 보다 적은 변화들만을 가진 기존의 디바이스들에 포함될 수 있고, 기존의 인프라스트럭처에 어떠한 변화들도 요구하지 않으며, 따라서 최소 비용으로 수신기에서의 스피치 품질을 증가시킨다.

상세하게는, 본 시스템들 및 방법들은 협대역 신호로부터 상위대역 신호의 시간적 에너지 컨투어 (contour) 및 상위대역 스펙트럼 엔벌로프 (envelope) 를 추정한다. 더욱이, 여기 추정 및 상위대역 합성 기법들이 또한 상위대역 신호를 생성하는데 이용된다.

도 1 은 블라인드 대역폭 확장을 이용하는 무선 통신 시스템 (100) 을 예시한 블록도이다. 무선 통신 디바이스 (102) 는 기지국 (104) 과 통신한다. 무선 통신 디바이스 (102) 의 예로는, 셀룰러폰들, 개인 휴대 정보 단말기들 (PDA들), 핸드헬드 디바이스들, 무선 모뎀들, 랩탑 컴퓨터들, 개인용 컴퓨터들 등을 들 수 있다. 무선 통신 디바이스 (102) 는 대안으로는 액세스 단말기, 모바일 단말기, 이동국, 원격국, 사용자 단말기, 단말기, 가입자 유닛, 모바일 디바이스, 무선 디바이스, 가입자국, 사용자 장비, 또는 일부 다른 유사한 전문 용어로 지칭될 수도 있다. 기지국 (104) 은 대안으로는 액세스 포인트, 노드 B, 진화된 (evolved) 노드 B, 또는 일부 다른 유사한 전문 용어로 지칭될 수도 있다.

기지국 (104) 은 라디오 네트워크 제어기 (106) (기지국 제어기 또는 패킷 제어 기능부 (packet control function) 로도 지칭) 와 통신한다. 라디오 네트워크 제어기 (106) 는 모바일 스위칭 센터 (mobile switching center; MSC) (110), 패킷 데이터 서빙 노드 (packet data serving node; PDSN) (108) 또는 인터네트워킹 기능부 (internetworking function; IWF), 공중 스위칭 전화 네트워크 (public switched telephone network; PSTN) (114) (통상적으로 전화 회사), 및 인터넷 프로토콜 (Internet Protocol; IP) 네트워크 (112) (통상적으로 인터넷) 와 통신한다. 모바일 스위칭 센터 (110) 는 무선 통신 디바이스 (102) 와 공중 스위칭 전화 네트워크 (114) 간의 통신을 관리할 책임이 있는 한편, 패킷 데이터 서빙 노드 (108) 는 무선 통신 디바이스 (102) 와 IP 네트워크 (112) 간에 패킷들을 라우팅할 책임이 있다.

무선 통신 디바이스 (102) 는 송신된 신호를 수신하고 협대역 신호 (122) 를 생성하는 협대역 스피치 디코더 (116) 를 포함한다. 그러나, 협대역 스피치는 종종 청취자가 듣기에 인위적인 소리를 낸다. 따라서, 협대역 신호 (122) 는 포스트 프로세싱 모듈 (118) 에 의해 프로세싱된다. 포스트 프로세싱 모듈 (118) 은 블라인드 대역폭 확장기 (120) 를 이용하여 협대역 신호 (122) 로부터 상위대역 신호를 추정하고, 그 상위대역 신호를 협대역 신호 (122) 와 결합하여 광대역 신호 (124) 를 생성한다. 상위대역 신호를 추정하기 위해, 블라인드 대역폭 확장기 (120) 는 협대역 신호 (122) 로부터의 피처들을 이용하여 상위대역 스펙트럼 엔벌로프를 추정하고, 상위대역 시간적 에너지 (상위대역 이득) 를 추정한다. 무선 통신 디바이스 (102) 는 또한 미도시된 다른 신호 프로세싱 모듈들, 즉 복조기, 디인터리버 등을 포함할 수도 있다.

도 2 는 주파수의 함수로서 스피치 신호들의 상대 대역폭들을 예시한 블록도이다. 여기에 사용한 바와 같이, 용어 "광대역" 은 50Hz 내지 8000Hz 의 주파수 범위를 가진 신호를 나타내고, 용어 "베이스 (bass)" 는 50Hz 내지 300Hz 의 주파수 범위를 가진 신호를 나타내고, 용어 "협대역" 은 300Hz 내지 4000Hz 의 주파수 범위를 가진 신호를 나타내며, 용어 "상위대역" 또는 "고대역" 은 3500Hz 내지 8000Hz 의 주파수 범위를 가진 신호를 나타낸다. 따라서, 광대역 신호 (224) 는 베이스 신호 (226), 협대역 신호 (222) 및 상위대역 신호 (228) 의 조합이다.

예시된 상위대역 신호 (228) 와 협대역 신호 (222) 는, 3.5kHz 내지 4kHz 의 영역이 양자의 신호들에 의해 형성되도록, 감지할 수 있는 (appreciable) 오버랩을 갖는다. 협대역 신호 (222) 와 상위대역 신호 (228) 사이에 오버랩을 제공하는 것은 오버랩된 영역에 걸쳐 스무스한 롤오프를 갖는 저역통과 및/또는 고역통과 필터의 이용을 허용한다. 이러한 필터들은 보다 샤프하거나 또는 "브릭-월 (brick-wall)" 응답들을 가진 필터들보다 설계하기 보다 용이하고, 계산적으로 덜 복잡하며/하거나 보다 적은 지연을 도입한다. 샤프한 천이 영역들을 갖는 필터들은 스무스한 롤오프들을 갖는 유사한 차수 (order) 의 필터들보다 더 높은 사이드로브들 (에일리어싱을 야기할 수도 있다) 을 갖는 경향이 있다. 샤프한 천이 영역들을 갖는 필터들은 또한 긴 임펄스 응답들을 가질 수도 있으며, 이는 링잉 아티팩트들 (ringing artifacts) 을 야기할 수도 있다.

통상의 무선 통신 디바이스 (102) 에서는, 7kHz 내지 8kHz 의 주파수 범위에 걸쳐 트랜스듀서들 (즉, 마이크로폰 및 이어폰 또는 스피커) 중 하나 이상이 감지할 수 있는 응답이 없을 수도 있다. 따라서, 8000Hz 까지의 주파수 범위를 갖는 것으로 도시되었지만, 상위대역 신호 (228) 및 광대역 신호 (224) 는 실제로는 7000Hz 또는 7500Hz 의 최대 주파수들을 가질 수도 있다.

도 3 은 블라인드 대역폭 확장을 예시한 블록도이다. 송신된 신호 (330) 가 협대역 스피치 디코더 (316) 에 의해 수신 및 디코딩된다. 송신된 신호 (330) 는 물리적 채널을 통한 송신을 위해 협대역 주파수 범위로 압축되어 있을 수도 있다. 협대역 스피치 디코더 (316) 는 협대역 스피치 신호 (322) 를 생성한다. 협대역 스피치 신호 (322) 는 협대역 스피치 신호 (322) 로부터 상위대역 스피치 신호 (328) 를 추정하는 블라인드 대역폭 확장기 (320) 에 의한 입력으로서 수신된다.

협대역 선형 예측 코딩 (LPC) 분석 모듈 (332) 은 협대역 스피치 신호 (322) 의 스펙트럼 엔벌로프를, 일 세트의 선형 예측 (LP) 계수들 (333), 예를 들어, 전극 필터 (all-pole filter) 의 계수들 1/A(z) 로서 유도, 또는 획득한다. 협대역 LPC 분석 모듈 (332) 은 협대역 스피치 신호 (322) 를 일련의 비-오버랩핑 프레임들로서 프로세싱하고, 새로운 세트의 LP 계수들 (333) 이 각 프레임마다 계산된다. 프레임 주기는, 협대역 스피치 신호 (322) 가 로컬로 고정된 것으로 예상될 수도 있는 주기, 예를 들어, 20밀리초 (8kHz 의 샘플링 레이트에서의 160 샘플들과 등가) 일 수도 있다. 일 구성에서, 협대역 LPC 분석 모듈 (332) 은 일 세트의 10 개의 LP 필터 계수들 (333) 을 계산하여 각 20밀리초 프레임의 포먼트 (formant) 구조를 특성화한다. 대안의 구성에서는, 협대역 LPC 분석 모듈 (332) 은 협대역 스피치 신호 (322) 를 일련의 오버랩핑 프레임들로서 프로세싱한다.

협대역 LPC 분석 모듈 (332) 은 각 프레임의 샘플들을 직접 분석하도록 구성될 수도 있고, 또는 그 샘플들은 먼저 윈도잉 함수, 예를 들어 해밍 윈도우 (Hamming window) 에 따라 가중화될 수도 있다. 그 분석은 또한 프레임보다 더 큰 윈도우, 이를 테면 30밀리초 윈도우에 걸쳐 수행될 수도 있다. 이 윈도우는 대칭일 수도 있고 (예를 들어, 20밀리초 프레임 직전 및 직후에 5 밀리초를 포함하도록, 5-20-5), 또는 비대칭일 수도 있다 (예를 들어, 선행 프레임의 마지막 10밀리초를 포함하도록, 10-20). 협대역 LPC 분석 모듈 (332) 은 Levinson-Durbin 재귀순환 (recursion) 또는 Leroux-Gueguen 알고리즘을 이용하여 LP 필터 계수들 (333) 을 계산할 수도 있다.

협대역 LPC-LSF 컨버전 모듈 (337) 이 일 세트의 LP 필터 계수들 (333) 을 대응하는 세트의 협대역 선 스펙트럼 주파수 (LSF) 들 (334) 로 변환한다. 일 세트의 LP 필터 계수들 (333) 과 대응하는 세트의 LSF들 (334) 사이의 변환은 가역적일 수도 있고, 또는 그렇지 않을 수도 있다.

협대역 LP 계수들 (333) 을 생성하는 것 이외에도, 협대역 LPC 분석 모듈 (332) 은 또한 협대역 잔여 신호 (340) 를 생성한다. 피치 래그 및 피치 이득 추정기 (339) 가 협대역 잔여 신호 (340) 로부터 피치 래그 (336) 및 피치 이득 (338) 을 생성한다. 피치 래그 (336) 는 소정의 제약들을 받기 쉬운, 단기 (short-term) 예측 잔여 신호 (340) 의 자기상관 함수를 최대화하는 지연이다. 이 계산은 2 개의 추정 윈도우들에 걸쳐 독립적으로 수행된다. 이들 윈도우들 중 제 1 윈도우는 협대역 잔여 신호 (340) 중 80 번째 샘플 내지 240 번째 샘플을 포함하고; 제 2 윈도우는 160 번째 샘플 내지 320 번째 샘플을 포함한다. 그 후 2 개의 추정 윈도우들에 대한 이득들과 지연 추정치들을 결합하기 위해 룰들이 적용된다.

음성 활동 검출기/모드 결정 모듈 (341) 이 협대역 스피치 신호 (322), 협대역 잔여 신호 (340), 또는 양자 모두에 기초하여 모드 결정 (382) 을 생성한다. 이것은 스피치의 모든 프레임에 대해 3 개의 레이트들 (레이트 1, 레이트 1/2 또는 레이트 1/8) 중 하나의 레이트를 선택하는 레이트 결정 알고리즘 (RDA) 을 이용하여 배경 잡음으로부터 활성 스피치를 분리하는 것을 포함한다. 이 레이트 정보를 이용하여, 스피치 프레임들은 3 개의 타입들, 즉 유성음 (voiced), 무성음 (unvoiced) 또는 묵음 (silence) (배경 잡음) 중 하나로 분류된다. 스피치를 대략적으로 스피치 및 배경 잡음으로 대략적으로 분류한 후에, 음성 활동 검출기/모드 결정 모듈 (341) 은 스피치의 현재 프레임을 유성음 프레임이나 무성음 프레임 중 어느 하나로 추가 분류한다. RDA 에 의해 레이트 1/8 로 분류되는 프레임들은 묵음 또는 배경 잡음 프레임으로서 지정된다. 모드 결정 (382) 은 그 후 상위대역 LPC 추정 모듈 (342) 에 의해, 상위대역 LSF들 (344) 을 추정할 때 유성음 코드북 또는 무성음 코드북을 선정하는데 이용된다. 모드 결정 (382) 은 또한 상위대역 이득 추정 모듈 (346) 에 의해 이용된다.

협대역 LSF들 (334) 은 상위대역 LPC 추정 모듈 (342) 에 의해 상위대역 LSF들 (344) 을 생성하는데 이용된다. 이것은 협대역 LSF들 (334) 로부터 하나 이상의 피처들을 추출하는 것, 적절한 협대역 코드북을 결정하는 것, 그리고 그 후 협대역 코드북에서의 인덱스를 상위대역 코드북에 맵핑시켜 상위대역 LSF들 (344) 을 생성하는 것을 포함한다. 즉, 협대역 스펙트럼 엔벌로프를 상위대역 스펙트럼 엔벌로프에 맵핑시키는 대신에, 상위대역 LPC 추정 모듈 (342) 은 (추출된 피처들에 의해 나타내지는) 협대역 스피치 신호 (322) 에서의 스펙트럼 피크들을 상위대역 스펙트럼 엔벌로프에 맵핑시킨다.

비선형 프로세싱 모듈 (348) 이 협대역 잔여 신호 (340) 를 상위대역 여기 신호 (350) 로 컨버팅한다. 이것은 협대역 잔여 신호 (340) 를 고조파 확장하여, 그것을 변조된 잡음 신호와 결합하는 것을 포함한다. 상위대역 LPC 합성 모듈 (352) 이 상위대역 LSF들 (344) 을 이용하여 상위대역 여기 신호 (350) 를 필터링하는데 이용되는 상위대역 LP 필터 계수들을 결정하여 상위대역 합성된 신호 (354) 를 생성한다.

추가적으로, 상위대역 이득 추정 모듈 (346) 이 시간적 이득 모듈 (358) 에 의해, 상위대역 합성된 신호 (354) 의 에너지를 스케일 업하는데 이용되는 상위대역 이득 (356) 을 생성하여, 이득-조정된 상위대역 신호 (328), 즉 상위대역 스피치 신호의 추정치를 생성한다.

상위대역 이득 컨투어는 매 4 밀리초마다 상위대역 신호의 이득을 제어하는 파라미터이다. 이 파라미터 벡터 (20밀리초 프레임의 경우 5 개의 이득 엔벌로프 파라미터들의 세트) 는 유성음 프레임 다음에 오는 제 1 무성음 프레임 동안, 그리고 무성음 프레임 다음에 오는 제 1 유성음 프레임 동안 상이한 값들로 설정된다. 일 구성에서, 상위대역 이득 컨투어는 0.2 로 설정된다. 상위대역 이득 컨투어는 상위대역 프레임의 4밀리초 세그먼트들 (서브프레임들) 간의 상대 이득을 제어할 수도 있다. 상위대역 이득 컨투어는 상위대역 에너지에 영향을 미치지 않을 수도 있으며, 이는 상위대역 이득 (356) 파라미터에 의해 독립적으로 제어된다.

합성 필터뱅크 (360) 가 이득-조정된 상위대역 신호 (328) 및 협대역 스피치 신호 (322) 를 수신한다. 합성 필터뱅크 (360) 는 각각의 신호를 업샘플링하여 신호들의 샘플링 레이트를, 예를 들어 제로-스터핑 (zero-stuffing) 에 의해 및/또는 샘플들을 복사 (duplicate) 함으로써 증가시킬 수도 있다. 추가적으로, 합성 필터뱅크 (360) 는 업샘플링된 협대역 스피치 신호 (322) 및 업샘플링된 이득-조정된 상위대역 신호 (328) 를 각각 저역통과 필터링 및 고역통과 필터링할 수도 있다. 2 개의 필터링된 신호들은 그 후 합산되어 광대역 스피치 신호 (324) 를 형성할 수도 있다.

도 4 는 블라인드 대역폭 확장을 위한 방법 (400) 을 예시한 흐름도이다. 즉, 이 방법 (400) 은 협대역 스피치 신호 (322) 로부터 상위대역 스피치 신호 (328) 를 추정한다. 이 방법 (400) 은 블라인드 대역폭 확장기 (320) 에 의해 수행된다. 블라인드 대역폭 확장기 (320) 는 협대역 스피치 신호 (322) 를 수신한다 (462). 협대역 스피치 신호 (322) 는 물리적 매체를 통한 송신을 위해 광대역 스피치 신호로부터 압축되어 있을 수도 있다. 블라인드 대역폭 확장기 (320) 는 또한 협대역 스피치 신호 (322) 에 기초하여 상위대역 여기 신호 (350) 를 결정한다 (464). 이것은 비선형 프로세싱을 이용하는 것을 포함한다.

블라인드 대역폭 확장기 (320) 는 또한 협대역 스피치 신호 (322) 에 기초하여 협대역 선 스펙트럼 주파수 (LSF) 들 (334) 의 리스트를 결정한다 (466). 이것은 협대역 스피치 신호 (322) 로부터 협대역 선형 예측 (LP) 필터 계수들을 결정하여, 그 LP 필터 계수들을 협대역 LSF들 (334) 에 맵핑시키는 것을 포함한다. 블라인드 대역폭 확장기 (320) 는 또한 리스트 내의 모든 다른 인접 협대역 LSF들 쌍보다 LSF들 간의 차가 더 낮은 제 1 인접 협대역 LSF들 쌍을 결정한다 (468). 상세하게는, 상위대역 LPC 추정 모듈 (342) 은 (오름차순으로 배열된) 10 개의 협대역 LSF들 (334) 의 리스트에서 LSF들 간의 차가 가장 작은 2 개의 인접 협대역 LSF들 (334) 을 발견한다. 블라인드 대역폭 확장기 (320) 는 또한 제 1 인접 협대역 LSF들 (334) 쌍의 평균인 제 1 피처를 결정한다 (470). 다른 구성에서, 블라인드 대역폭 확장기 (320) 는 또한 제 1 피처와 유사한 제 2 피처 및 제 3 피처를 결정하며, 즉, 제 2 피처는 제 1 쌍이 리스트로부터 제거된 후 다음으로 가장 근접한 협대역 LSF들 (334) 쌍의 평균이고, 제 3 피처는 제 1 쌍 및 제 2 쌍이 리스트로부터 제거된 후 다음으로 가장 근접한 협대역 LSF들 쌍의 평균이다. 블라인드 대역폭 확장기 (320) 는 또한 적어도 제 1 피처에 기초하여 코드북 맵핑을 이용하여, 즉 협대역 코드북에서의 인덱스를 결정하기 위해 제 1 피처 (및 결정된다면 제 2 피처 및 제 3 피처) 를 이용하고, 협대역 코드북의 인덱스를 상위대역 코드북에서의 인덱스에 맵핑시켜, 상위대역 LSF들 (344) 을 결정한다 (472).

블라인드 대역폭 확장기 (320) 는 또한 상위대역 LSF들 (344) 에 기초하여 상위대역 LP 필터 계수들을 결정한다 (474). 블라인드 대역폭 확장기 (320) 는 또한 상위대역 LP 필터 계수들을 이용하여 상위대역 여기 신호 (350) 를 필터링하여 합성된 상위대역 스피치 신호 (354) 를 생성한다 (476). 블라인드 대역폭 확장기 (320) 는 또한 합성된 상위대역 스피치 신호 (354) 의 이득을 조정하여 (478) 이득-조정된 상위대역 신호 (328) 를 생성한다. 이것은 상위대역 이득 추정 모듈 (346) 로부터의 상위대역 이득 (356) 을 적용하는 것을 포함한다.

도 5 는 상위대역 스펙트럼 엔벌로프를 추정하는 상위대역 선형 예측 코딩 (LPC) 추정 모듈 (542) 을 예시한 블록도이다. 상위대역 스펙트럼 엔벌로프는, 상위대역 선 스펙트럼 주파수 (LSF) 들 (596, 597) 에 의해 파라미터화한 바와 같이, 협대역 LSF들 (534) 로부터 추정된다.

협대역 LSF들 (534) 은 협대역 스피치 신호 (322) 에 대해 선형 예측 코딩 (LPC) 분석을 수행하여 선형 예측 (LP) 필터 계수들을 선 스펙트럼 주파수들로 컨버팅함으로써 협대역 스피치 신호 (322) 로부터 추정된다. 피처 추출 모듈 (580) 은 협대역 LSF들 (534) 로부터 3 개의 피처 파라미터들 (584) 을 추정한다. 제 1 피처 (584) 를 추출하기 위해, 연속되는 협대역 LSF들 (534) 간의 거리가 계산된다. 그 후, 협대역 LSF들 간의 거리가 최소인 협대역 LSF들 (534) 쌍이 선택되고, 협대역 LSF들 간의 중간 (mid point) 이 제 1 피처 (584) 로서 선택된다. 일 구성에서는, 2 개 이상의 피처 (584) 가 추출된다. 이것이 사실이라면, 선택된 협대역 LSF (534) 쌍이 그 후 다른 피처들 (584) 에 대한 탐색으로부터 제거되고, 절차는 추가적인 피처들 (584), 즉 벡터들을 추정하기 위해 나머지 협대역 LSF들 (534) 에 반복된다.

현재의 프레임이 유성음인지, 무성음인지, 또는 묵음인지 여부를 나타내는 협대역 스피치 신호 (322) 에서의 수신된 프레임으로부터 추출된 정보에 기초하여 모드 결정 (582) 이 결정될 수도 있다. 모드 결정 (582) 은 유성음 코드북을 이용할지 또는 무성음 코드북을 이용할지 여부를 결정하기 위해 코드북 선택 모듈 (586) 에 의해 수신될 수도 있다. 유성음 프레임 및 무성음 프레임에 대한 상위대역 LSF들 (596, 597) 을 추정하기 위해 이용되는 코드북들은 서로 상이할 수도 있다. 대안으로, 코드북들은 피처들 (584) 에 기초하여 선정될 수도 있다.

모드 결정 (582) 이 유성음 프레임을 나타낸다면, 협대역 유성음 코드북 매처 (588) 가 피처들 (584) 을 프로토타입 피처들의 협대역 유성음 코드북 (590) 으로 프로젝팅할 수도 있으며, 즉 협대역 유성음 코드북 매처 (588) 는 피처들 (584) 에 최적으로 매칭하는 협대역 유성음 코드북 (590) 내의 엔트리를 발견할 수도 있다. 유성음 인덱스 맵퍼 (592) 가 최적의 매치의 인덱스를 상위대역 유성음 코드북 (594) 에 맵핑시킬 수도 있다. 즉, 피처들 (584) 에 대한 최적의 매치인 협대역 유성음 코드북 (590) 내의 엔트리의 인덱스는 프로토타입 LSF 벡터들을 포함하는 상위대역 유성음 코드북 (594) 에서 적절한 상위대역 LSF (596) 벡터를 룩업하는데 이용될 수도 있다. 협대역 유성음 코드북 (590) 은 협대역 스피치로부터 유도된 프로토타입 피처들로 트레이닝될 수도 있는 한편, 상위대역 유성음 코드북 (594) 은 프로토타입 상위대역 LSF 벡터들을 포함할 수도 있으며, 즉 유성음 인덱스 맵퍼 (592) 는 피처들 (584) 로부터 상위대역 유성음 LSF들 (596) 까지 맵핑시키는 것일 수도 있다.

유사하게, 모드 결정 (582) 이 무성음 프레임을 나타낸다면, 협대역 무성음 코드북 매처 (589) 가 피처들 (584) 을 프로토타입 피처들의 협대역 무성음 코드북 (591) 으로 프로젝팅할 수도 있으며, 즉 협대역 무성음 코드북 매처 (589) 는 피처들 (584) 에 최적으로 매칭하는 협대역 무성음 코드북 (591) 내의 엔트리를 발견할 수도 있다. 무성음 인덱스 맵퍼 (593) 가 최적의 매치의 인덱스를 상위대역 무성음 코드북 (595) 에 맵핑시킬 수도 있다. 즉, 피처들 (584) 에 대한 최적의 매치인 협대역 무성음 코드북 (591) 내의 엔트리의 인덱스는 프로토타입 LSF 벡터들을 포함하는 상위대역 무성음 코드북 (595) 에서 적절한 상위대역 무성음 LSF (597) 벡터를 룩업하는데 이용될 수도 있다. 협대역 무성음 코드북 (591) 은 프로토타입 피처들로 트레이닝될 수도 있는 한편, 상위대역 무성음 코드북 (595) 은 프로토타입 상위대역 LSF 벡터들을 포함할 수도 있으며, 즉 무성음 인덱스 맵퍼 (593) 는 피처들 (584) 로부터 상위대역 무성음 LSF들 (597) 까지 맵핑시키는 것일 수도 있다.

도 6 은 협대역 선 스펙트럼 주파수 (LSF) 들 (534) 의 리스트로부터 피처들을 추출하기 위한 방법 (600) 을 예시한 흐름도이다. 이 방법 (600) 은 피처 추출 모듈 (580) 에 의해 수행된다. 피처 추출 모듈 (580) 은 인접 협대역 LSF (534) 쌍들 간의 차들을 계산한다 (602). 협대역 LSF들 (534) 은 오름차순으로 조직화된 10 개의 값들의 리스트로서 협대역 LPC 분석 모듈 (332) 로부터 수신된다. 따라서, 9 개의 차들, 즉 제 1 과 제 2 협대역 LSF (534) 간의 차, 제 2 와 제 3 협대역 LSF (534) 간의 차, 제 3 과 제 4 협대역 LSF (534) 간의 차 등의 차들이 존재한다. 피처 추출 모듈 (580) 은 또한 협대역 LSF들 (534) 간의 거리가 최소인 협대역 LSF (534) 쌍을 선택한다 (604). 피처 추출 모듈 (580) 은 또한 선택된 협대역 LSF (534) 쌍의 평균인 피처 (584) 를 결정한다 (606). 일 구성에서는, 3 개의 피처들 (584) 이 결정된다. 이 구성에서, 피처 추출 모듈 (580) 은, 3 개의 피처들 (584) 이 식별되었는지 여부를 결정한다 (608). 만약 3 개의 피처들 (584) 이 식별되지 않았다면, 피처 추출 모듈 (580) 은 또한 선택된 협대역 LSF 쌍을 나머지 협대역 LSF들로부터 제거하고 (612), 그 차들을 다시 계산하여 (602) 적어도 하나 더의 피처 (584) 를 발견한다. 3 개의 피처들 (584) 이 식별되었다면, 피처 추출 모듈 (580) 은 피처들 (584) 을 오름차순으로 소팅한다 (610). 대안의 구성에서는, 3 개보다 많거나 또는 적은 피처들 (584) 이 식별되며, 이 방법 (600) 은 그에 따라 적응된다.

도 7 은 상위대역 이득 추정 모듈 (746) 을 예시한 블록도이다. 상위대역 이득 추정 모듈 (746) 은, 스피치의 프레임이 유성음으로 분류되는지 또는 무성음으로 분류되는지 여부에 의존하여 협대역 신호 에너지로부터 상위대역 에너지 (756) 를 추정한다. 도 7 은 유성음 상위대역 에너지 (756), 즉 유성음 상위대역 이득을 추정하는 것을 예시한다. 트레이닝 데이터베이스에 대해 1 차 회귀 분석을 이용하여 결정된 선형 변환 함수가 유성음 프레임들에 대해 이용된다.

윈도잉 모듈 (714) 이 협대역 여기 신호 (740) 에 윈도우를 적용할 수도 있다. 대안으로, 상위대역 이득 추정 모듈 (746) 은 입력으로서 협대역 스피치 신호 (322) 를 수신할 수도 있다. 에너지 계산기 (716) 가 윈도잉된 협대역 여기 신호 (715) 의 에너지를 계산할 수도 있다. 로그 변환 모듈 (718) 이 협대역 에너지 (717) 를, 예를 들어 함수 10log₁₀() 를 이용하여 로그 도메인으로 컨버팅할 수도 있다. 로그 협대역 에너지 (719) 는 그 후 선형 맵퍼 (720) 를 이용하여 로그 상위대역 에너지 (721) 에 맵핑될 수도 있다. 일 구성에서, 선형 맵핑은 수학식 1 에 따라 수행될 수도 있으며 :

여기서,

는 로그 상위대역 에너지 (721) 이고,

은 로그 협대역 에너지 (719) 이고,

이며,

이다. 로그 상위대역 에너지 (721) 는 그 후 비-로그 변환 모듈 (722) 을 이용하여 비-로그 도메인으로 컨버팅되어 예를 들어 함수 10^(g/10) 를 이용하여 유성음 상위대역 에너지 (756) 를 생성할 수도 있다.

협대역 스피치 신호는, 인코더에서 LPC 분석 필터를 통하여 필터링할 때, 인코더에서 협대역 잔여 신호를 산출할 수도 있다. 디코더에서, 협대역 잔여 신호는 협대역 여기 신호로서 재생될 수도 있다. 디코더에서, 협대역 여기 신호는 LPC 합성 필터를 통하여 필터링된다. 이 필터링의 결과는 디코딩된 합성된 협대역 스피치 신호이다.

도 8 은 상위대역 이득 추정 모듈 (846) 을 예시한 다른 블록도이다. 상세하게는, 도 8 은 무성음 상위대역 에너지 (856), 즉 무성음 상위대역 이득을 추정하는 것을 예시한다. 무성음 프레임들의 경우, 무성음 상위대역 에너지 (856) 는 서브대역 이득들 및 스펙트럼 기울기를 수반하는 경험적 (heuristic) 메트릭들을 이용하여 유도된다.

고속 푸리에 변환 (FFT) 모듈 (824) 이 협대역 여기 신호 (840) 의 협대역 푸리에 변환 (825) 을 컴퓨팅할 수도 있다. 대안으로, 상위대역 이득 추정 모듈 (846) 은 입력으로서 협대역 스피치 신호 (322) 를 수신할 수도 있다. 서브대역 에너지 계산기 (826) 가 협대역 푸리에 변환 (825) 을 3 개의 상이한 서브대역들로 스플리팅하고 이들 서브대역들 각각의 에너지를 계산할 수도 있다. 예를 들어, 그 대역들은 280Hz 내지 875Hz, 875Hz 내지 1780Hz 및 1780Hz 내지 3600Hz 일 수도 있다. 로그 변환 모듈들 (818a 내지 818c) 이 서브대역 에너지들 (827) 을, 예를 들어, 함수 10log₁₀() 를 이용하여 로그 서브대역 에너지들 (829) 로 컨버팅할 수도 있다.

서브대역 이득 관계 모듈 (828) 이 그 후 스펙트럼 기울기와 함께, 로그 서브대역 에너지들 (829) 이 관련되는 방법에 기초하여 로그 상위대역 에너지 (831) 를 결정할 수도 있다. 스펙트럼 기울기는 협대역 선형 예측 계수 (LPC) 들 (833) 에 기초하여 스펙트럼 기울기 계산기 (835) 에 의해 결정될 수도 있다. 일 구성에서, 스펙트럼 기울기 파라미터는 협대역 LPC 파라미터들 (833) 을 일 세트의 반사 계수들로 컨버팅하고 제 1 반사 계수를 스펙트럼 기울기인 것으로 선택함으로써 계산된다. 예를 들어, 로그 상위대역 에너지 (831) 를 결정하기 위해, 서브대역 이득 관계 모듈 (828) 은 다음의 의사 코드를 이용할 수도 있으며 :

여기서 spectral_tilt 는 협대역 LPC들 (833) 로부터 결정된 스펙트럼 기울기이고, g_H 는 로그 상위대역 에너지 (831) 이고, g₁ 은 제 1 서브대역의 로그 에너지이고, g₂ 는 제 2 서브대역의 로그 에너지이고, g₃ 은 제 3 서브대역의 로그 에너지이며, enhfact 는 g_H 의 결정에 이용되는 중간 변수이다.

로그 상위대역 에너지 (831) 는 그 후 비-로그 변환 모듈 (822) 을 이용하여 비-로그 도메인으로 컨버팅되어, 예를 들어, 함수 10^(g/10) 를 이용하여, 무성음 상위대역 에너지 (856) 를 생성할 수도 있다. 더욱이, 묵음 프레임들의 경우에는, 상위대역 에너지는 협대역 에너지보다 20dB 낮게 설정될 수도 있다.

도 9 는 비선형 프로세싱 모듈 (948) 을 예시한 블록도이다. 비선형 프로세싱 모듈 (948) 은 협대역 여기 신호 (940) 의 스펙트럼을 상위대역 주파수 범위로 확장함으로써 상위대역 여기 신호 (950) 를 생성한다. 스펙트럼 확장기 (952) 가 협대역 여기 신호 (940) 에 기초하여 고조파 확장된 신호 (954) 를 생성할 수도 있다. 제 1 결합기 (958) 가 잡음 발생기 (960) 에 의해 발생된 랜덤 잡음 신호 (961) 와 엔벌로프 계산기 (956) 에 의해 계산된 시간 도메인 엔벌로프 (957) 를 결합하여 변조된 잡음 신호 (962) 를 생성할 수도 있다. 일 구성에서, 엔벌로프 계산기 (956) 는 고조파 확장된 신호 (954) 의 엔벌로프를 계산한다. 대안의 구성에서, 엔벌로프 계산기 (956) 는 다른 신호들의 시간 도메인 엔벌로프 (957) 를 계산하고, 예를 들어, 엔벌로프 계산기 (956) 는 협대역 스피치 신호 (322), 또는 협대역 여기 신호 (940) 의 시간에 걸친 에너지 분포를 근사화한다. 그 후 제 2 결합기 (964) 가 고조파 확장된 신호 (954) 와 변조된 잡음 신호 (962) 를 혼합하여 상위대역 여기 신호 (950) 를 생성할 수도 있다.

일 구성에서, 스펙트럼 확장기 (952) 는 협대역 여기 신호 (940) 에 대해 스펙트럼 폴딩 동작 (미러링이라고도 불림) 을 수행하여 고조파 확장된 신호 (954) 를 생성한다. 스펙트럼 폴딩은 협대역 여기 신호 (940) 를 제로-스터핑한 후, 고역통과 필터를 적용하여 에일리어스를 유지함으로써 수행될 수도 있다. 다른 구성에서, 스펙트럼 확장기 (952) 는 예를 들어, 업샘플링에 이어 일정한 주파수 코사인 신호와의 곱셈을 통해 협대역 여기 신호 (940) 를 상위대역으로 스펙트럼 트랜슬레이팅함으로써 고조파 확장된 신호 (954) 를 생성한다.

스펙트럼 폴딩 및 트랜슬레이션 방법들은, 고조파 구조가 협대역 여기 신호 (940) 의 원래의 고조파 구조와 위상 및/또는 주파수에 있어서 불연속적인 스펙트럼 확장된 신호들을 생성할 수도 있다. 예를 들어, 이러한 방법들은 기본 주파수의 배수가 되는 주파수에 일반적으로 위치하지 않는 피크들을 갖는 신호들을 생성할 수도 있으며, 이는 복원된 스피치 신호에 있어서 듣기 거북한 소리를 내는 아티팩트들을 야기할 수도 있다. 이들 방법들은 또한 비정상적으로 강한 음색의 특성들을 갖는 고주파수 고조파들을 생성할 수도 있다. 더욱이, 공중 스위칭 전화 네트워크 (PSTN) 로부터의 신호가 8kHz 에서 샘플링될 수도 있지만 3400Hz 정도에서 대역 제한되기 때문에, 협대역 여기 신호 (940) 의 상위 스펙트럼은 에너지가 적거나 없을 수도 있어, 스펙트럼 폴딩 또는 스펙트럼 트랜슬레이션 동작에 따라 생성되는 확장된 신호는 3400Hz 를 넘어 스펙트럼 홀을 가질 수도 있다.

고조파 확장된 신호 (954) 를 생성하는 다른 방법들은 협대역 여기 신호 (940) 의 하나 이상의 기본 주파수들을 식별하고 그 정보에 따라 고조파 톤들을 생성하는 것을 포함한다. 예를 들어, 여기 신호의 고조파 구조는 진폭 및 위상 정보와 함께 기본 주파수를 특징으로 할 수도 있다. 다른 구성에서, 비선형 프로세싱 모듈 (948) 은 (예를 들어, 피치 래그 (336) 및 피치 이득 (338) 에 의해 나타낸 바와 같이) 기본 주파수 및 진폭에 기초하여 고조파 확장된 신호 (954) 를 생성한다. 그러나, 고조파 확장된 신호 (954) 가 협대역 여기 신호 (940) 와 위상-코히런트 (phase-coherent) 가 아니라면, 결과의 디코딩된 스피치의 품질은 허용가능하지 않을 수도 있다.

비선형 함수가 협대역 여기 신호 (940) 와 위상-코히런트이고 위상 불연속성 없이 고조파 구조를 보존하는 상위대역 여기 신호 (950) 를 생성하는데 이용될 수도 있다. 비선형 함수는 또한 고주파수 고조파들 사이에 증가된 잡음 레벨을 제공할 수도 있으며, 이는 스펙트럼 폴딩 및 스펙트럼 트랜슬레이션과 같은 방법들에 의해 생성된 음색의 고주파수 고조파들보다 더 자연적인 소리를 내는 경향이 있다. 다양한 구현들의 스펙트럼 확장기 (952) 에 의해 적용될 수도 있는 통상의 메모리가 없는 (memoryless) 비선형 함수들은 절대값 함수 (전파 정류 (fullwave rectification) 라고도 불림), 반파 (halfwave) 정류, 적산 (squaring), 큐빙 (cubing), 및 클리핑 (clipping) 을 포함한다. 스펙트럼 확장기 (952) 는 또한 메모리를 갖는 비선형 함수를 적용하도록 구성될 수도 있다.

잡음 발생기 (960) 는 랜덤 잡음 신호 (961) 를 생성할 수도 있다. 일 구성에서, 잡음 발생기 (960) 는 단위-분산 (unit-variance) 백색 의사랜덤 잡음 신호 (961) 를 생성하지만, 다른 구성들에서는, 잡음 신호 (961) 는 백색일 필요가 없고, 주파수에 따라 변하는 전력 밀도를 가질 수도 있다. 제 1 결합기 (958) 는 엔벌로프 계산기 (956) 에 의해 계산된 시간 도메인 엔벌로프 (957) 에 따라 잡음 발생기 (960) 에 의해 생성된 잡음 신호 (961) 를 진폭-변조할 수도 있다. 예를 들어, 제 1 결합기 (958) 는 엔벌로프 계산기 (956) 에 의해 계산된 시간 도메인 엔벌로프 (957) 에 따라 잡음 발생기 (960) 의 출력을 스케일링하여 변조된 잡음 신호 (962) 를 생성하도록 배열된 곱셈기로서 구현될 수도 있다.

도 10 은 협대역 여기 신호 (1040) 로부터 고조파 확장된 신호 (1072) 를 생성하는 스펙트럼 확장기 (1052) 를 예시한 블록도이다. 이것은 비선형 함수를 적용하여 협대역 여기 신호 (1040) 의 스펙트럼을 확장시키는 것을 포함한다.

업샘플러 (1066) 가 협대역 여기 신호 (1040) 를 업샘플링할 수도 있다. 신호를 충분히 업샘플링하여 비선형 함수의 적용 시 에일리어싱을 최소화하는 것이 바람직할 수도 있다. 일 특정 예에서, 업샘플러 (1066) 는 신호를 8 의 팩터만큼 업샘플링할 수도 있다. 업샘플러 (1066) 는 입력 신호를 제로-스터핑하고 그 결과를 저역통과 필터링함으로써 업샘플링 동작을 수행할 수도 있다. 비선형 함수 계산기 (1068) 가 업샘플링된 신호 (1067) 에 비선형 함수를 적용할 수도 있다. 적산과 같은 스펙트럼 확장을 위한 다른 비선형 함수들에 대한 절대값 함수의 한가지 잠재적인 이점은, 에너지 표준화를 필요로 하지 않는다는 것이다. 일부 구현들에서, 절대값 함수는 각 샘플의 부호 비트 (sign bit) 를 없애거나 또는 제거함으로써 효율적으로 적용될 수도 있다. 비선형 함수 계산기 (1068) 는 또한 업샘플링된 신호 (1067) 또는 스펙트럼 확장된 신호 (1069) 의 진폭 와핑 (amplitude warping) 을 수행할 수도 있다.

다운샘플러 (1070) 가 비선형 함수 계산기 (1068) 로부터 출력된 스펙트럼 확장된 신호 (1069) 를 다운샘플링하여 다운샘플링된 신호 (1071) 를 생성할 수도 있다. 다운샘플러 (1070) 는 또한 샘플링 레이터를 저감시키기 전에 (예를 들어, 원하지 않는 이미지에 의한 손상 또는 에일리어싱을 저감 또는 회피하기 위해) 대역통과 필터링을 수행하여 스펙트럼 확장된 신호 (1069) 의 원하는 주파수 대역을 선택할 수도 있다. 또한, 다운샘플러 (1070) 는 2 개 이상의 스테이지에서 샘플링 레이트를 저감시키는 것이 바람직할 수도 있다.

비선형 함수 계산기 (1068) 에 의해 생성된 스펙트럼 확장된 신호 (1069) 는, 주파수가 증가함에 따라 진폭의 현저한 감소를 가질 수도 있다. 따라서, 스펙트럼 확장기 (1052) 는 다운샘플링된 신호 (1071) 를 화이트닝하기 위해 스펙트럼 평탄화기 (1072) 를 포함할 수도 있다. 스펙트럼 평탄화기 (1072) 는 고정 화이트닝 동작을 수행할 수도 있고, 또는 적응 화이트닝 동작을 수행할 수도 있다. 적응 화이트닝을 이용하는 구성에서, 스펙트럼 평탄화기 (1072) 는 다운샘플링된 신호 (1071) 로부터 일 세트의 4 개의 LP 필터 계수들을 계산하도록 구성된 LPC 분석 모듈 및 그 계수들에 따라 다운샘플링된 신호 (1071) 를 화이트닝하도록 구성된 4 차 분석 필터를 포함한다. 대안으로, 스펙트럼 평탄화기 (1072) 는 다운샘플러 (1070) 이전의 스펙트럼 확장된 신호 (1069) 에 대해 동작할 수도 있다.

도 11 은 무선 디바이스 (1101) 내에 포함될 수도 있는 소정의 컴포넌트들을 예시한다. 무선 디바이스 (1101) 는 무선 통신 디바이스 (102) 일 수도 있고, 또는 기지국 (104) 일 수도 있다.

무선 디바이스 (1101) 는 프로세서 (1103) 를 포함한다. 프로세서 (1103) 는 범용 단일-칩 또는 다중-칩 마이크로프로세서 (예를 들어, ARM), 특수 목적 마이크로프로세서 (예를 들어, 디지털 신호 프로세서 (DSP)), 마이크로제어기, 프로그램가능한 게이트 어레이 등일 수도 있다. 프로세서 (1103) 는 중앙 프로세싱 유닛 (CPU) 으로 지칭될 수도 있다. 도 11 의 무선 디바이스 (1101) 에는 단지 단일의 프로세서 (1103) 만이 도시되어 있지만, 대안의 구성에서는, 프로세서들 (예를 들어, ARM 과 DSP) 의 조합이 이용될 수 있을 것이다.

무선 디바이스 (1101) 는 또한 메모리 (1105) 를 포함한다. 메모리 (1105) 는 전자 정보를 저장하는 것이 가능한 임의의 전자 컴포넌트일 수도 있다. 메모리 (1105) 는 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 자기 디스크 저장 매체, 광학 저장 매체, RAM 내의 플래시 메모리 디바이스들, 프로세서와 함께 포함된 온-보드 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들 등 (이들의 조합을 포함) 으로서 구현될 수도 있다.

메모리 (1105) 에는 데이터 (1107) 및 명령들 (1109) 이 저장될 수도 있다. 명령들 (1109) 은 프로세서 (1103) 에 의해 여기에 개시된 방법들을 구현하도록 실행가능할 수도 있다. 명령들 (1109) 을 실행하는 것은 메모리 (1105) 에 저장되는 데이터 (1107) 의 이용을 수반할 수도 있다. 프로세서 (1103) 가 명령들 (1109) 을 실행할 때, 여러 부분들의 명령들 (1109a) 이 프로세서 (1103) 에 로드될 수도 있고, 여러 피스들의 데이터 (1107a) 가 프로세서 (1103) 에 로드될 수도 있다.

무선 디바이스 (1101) 는 또한 무선 디바이스 (1101) 와 원격지 간의 신호들의 송신 및 수신을 허용하기 위해 송신기 (1111) 및 수신기 (1113) 를 포함할 수도 있다. 송신기 (1111) 및 수신기 (1113) 는 일괄하여 트랜시버 (1115) 로 지칭될 수도 있다. 트랜시버 (1115) 에는 안테나 (1117) 가 전기적으로 커플링될 수도 있다. 무선 디바이스 (1101) 는 또한 다중 송신기들, 다중 수신기들, 다중 트랜시버들 및/또는 다중 안테나를 포함할 수도 있다 (미도시).

무선 디바이스 (1101) 의 여러 컴포넌트들은, 전력 버스, 제어 신호 버스, 상태 신호 버스, 데이터 버스 등을 포함할 수도 있는 하나 이상의 버스들에 의해 함께 커플링될 수도 있다. 명료함을 위해, 도 11 에는 여러 버스들이 버스 시스템 (1119) 으로서 예시된다.

여기에 설명된 기법들은 직교 다중화 스킴에 기초하는 통신 시스템들을 포함하는, 여러 통신 시스템들용으로 이용될 수도 있다. 이러한 통신 시스템들의 예로는 직교 주파수 분할 다중 액세스 (OFDMA) 시스템들, 단일-캐리어 주파수 분할 다중 액세스 (SC-FDMA) 시스템들 등을 들 수 있다. OFDMA 시스템은 전체 시스템 대역폭을 다중 직교 서브-캐리어들로 파티셔닝하는 변조 기법인 직교 주파수 분할 다중화 (OFDM) 를 이용한다. 이들 서브-캐리어들은 또한 톤들, 빈들 등이라 불릴 수도 있다. OFDM 의 경우, 각각의 서브-캐리어는 독립적으로 데이터로 변조될 수도 있다. SC-FDMA 시스템은 시스템 대역폭에 걸쳐 분포되는 서브-캐리어들 상에서 송신하기 위해 인터리빙된 FDMA (IFDMA) 를 이용하거나, 인접 서브-캐리어들의 블록 상에서 송신하기 위해 로컬화된 FDMA (LFDMA) 를 이용하거나, 또는 인접 서브-캐리어들의 다중 블록들 상에서 송신하기 위해 강화된 FDMA (EFDMA) 를 이용할 수도 있다. 일반적으로, 변조 심볼들은 주파수 도메인에서 OFDM 로 전송되고, 시간 도메인에서 SC-FDMA 로 전송된다.

상기 설명에서, 참조 부호들은 때때로 다양한 용어들과 관련하여 사용되었다. 용어가 참조 부호와 관련하여 사용되는 경우, 이것은 도면들 중 하나 이상의 도면에 도시되는 특정 엘리먼트를 나타내는 것으로 의도된다. 용어가 참조 부호 없이 사용된다면, 이것은 임의의 특정 도면에 대한 제한 없이 그 용어를 일반적으로 나타내는 것으로 의도된다.

용어 "결정하는 것" 은 광범위한 액션들을 포함하며, 따라서 "결정하는 것" 은 계산하는 것, 컴퓨팅하는 것, 프로세싱하는 것, 유도하는 것, 조사하는 것, 룩업하는 것 (예를 들어, 테이블, 데이터베이스 또는 다른 데이터 구조에서 룩업하는 것), 확인하는 것 등을 포함할 수 있다. 또한, "결정하는 것" 은 수신하는 것 (예를 들어, 정보를 수신하는 것), 액세스하는 것 (예를 들어, 메모리 내의 데이터에 액세스하는 것) 등을 포함할 수 있다. 또한, "결정하는 것" 은 해결하는 것, 선택하는 것, 선정하는 것, 확립하는 것 등을 포함할 수 있다.

어구 "~ 에 기초하는" 은 다르게 명확히 특정하지 않았다면 "~ 에만 기초하는" 을 의미하지 않는다. 즉, 어구 "~ 에 기초하는" 은 "~ 에만 기초하는" 과 "적어도 ~ 에 기초하는" 모두를 설명한다.

용어 "프로세서" 는 범용 프로세서, 중앙 프로세싱 유닛 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신 등을 광범위하게 포함하는 것으로 해석되어야 한다. 일부 환경 하에서, "프로세서" 는 주문형 집적 회로 (ASIC), 프로그램가능한 로직 디바이스 (PLD), 필드 프로그램가능한 게이트 어레이 (FPGA) 등을 나타낼 수도 있다. 용어 "프로세서" 는 프로세싱 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 결합된 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성의 조합을 나타낼 수도 있다.

용어 "메모리" 는 전자 정보를 저장하는 것이 가능한 임의의 전자 컴포넌트를 광범위하게 포함하는 것으로 해석되어야 한다. 용어 메모리는 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 비휘발성 랜덤 액세스 메모리 (NVRAM), 프로그램가능한 판독 전용 메모리 (PROM), 소거가능한 프로그램가능한 판독 전용 메모리 (EPROM), 전기적으로 소거가능한 PROM (EEPROM), 플래시 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들 등과 같은 다양한 타입의 프로세서-판독가능 매체를 나타낼 수도 있다. 메모리는, 프로세서가 그 메모리로부터 정보를 판독하고/하거나 그 메모리에 정보를 기입할 수 있다면 프로세서와 전자 통신하고 있다고 한다. 프로세서와 일체형인 메모리는 프로세서와 전자 통신하고 있다.

용어들 "명령들" 및 "코드" 는 임의의 타입의 컴퓨터 판독가능 스테이트먼트(들)를 광범위하게 포함하는 것으로 해석되어야 한다. 예를 들어, 용어들 "명령들" 및 "코드" 는 하나 이상의 프로그램들, 루틴들, 서브-루틴들, 함수들, 프로시저들 등을 나타낼 수도 있다. "명령들" 및 "코드" 는 단일의 컴퓨터 판독가능 스테이트먼트 또는 다수의 컴퓨터 판독가능 스테이트먼트들을 포함할 수도 있다.

여기에 설명된 기능들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합에 구현될 수도 있다. 소프트웨어에 구현된다면, 그 기능들은 컴퓨터 판독가능 매체 상에 하나 이상의 명령들로서 저장될 수도 있다. 용어 "컴퓨터 판독가능 매체" 는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체를 나타낸다. 제한이 아닌 일 예를 들면, 컴퓨터 판독가능 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 저장, 자기 디스크 저장 또는 다른 자기 저장 디바이스들, 또는 명령들 또는 데이터 구조들의 형태로 원하는 프로그램 코드를 운반 또는 저장하는데 이용될 수도 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수도 있다. 디스크 (disk) 및 디스크 (disc) 는 여기에 사용한 바와 같이, 콤팩트 디스크 (compact disc; CD), 레이저 디스크 (laser disc), 광학 디스크 (optical disc), 디지털 다기능 디스크 (digital versatile disc; DVD), 플로피 디스크 (floppy disk) 및 블루-레이 (Blu-ray)^® 디스크 (disc) 를 포함하며, 여기서 디스크 (disk) 는 보통 데이터를 자기적으로 재생시키는 한편, 디스크 (disc) 는 레이저를 이용하여 데이터를 광학적으로 재생시킨다.

소프트웨어 또는 명령들은 또한 송신 매체를 통해 송신될 수도 있다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스티드 페어 (twisted pair), 디지털 가입자 회선 (DSL), 또는 적외선, 라디오 및 마이크로파와 같은 무선 기술들을 이용하여 웹사이트, 서버 또는 다른 원격 소스로부터 송신된다면, 그 송신 매체의 정의에는, 동축 케이블, 광섬유 케이블, 트위스티드 페어, DSL, 또는 적외선, 라디오 및 마이크로파와 같은 무선 기술들이 포함된다.

여기에 개시된 방법들은 상기 설명된 방법을 달성하기 위해 하나 이상의 단계들 또는 액션들을 포함한다. 이 방법 단계들 및/또는 액션들은 특허청구의 범위로부터 벗어남 없이 서로 상호교환될 수도 있다. 즉, 단계들 또는 액션들의 특정 순서가 설명되고 있는 방법의 적절한 동작을 위해 요구되지 않는다면, 특정 단계들 및/또는 액션들의 순서 및/또는 이용은 특허청구의 범위로부터 벗어남 없이 변경될 수도 있다.

또한, 도 4 및 도 6 에 의해 예시한 바와 같이, 여기에 설명된 방법들 및 기법들을 수행하기 위한 모듈들 및/또는 다른 적절한 수단이 다운로드되고/되거나 다르게는 디바이스에 의해 획득될 수도 있다는 것을 알아야 한다. 예를 들어, 여기에 설명된 방법들을 수행하기 위한 수단의 전달을 용이하게 하기 위해 디바이스가 서버에 커플링될 수도 있다. 대안으로, 여기에 설명된 다양한 방법들은 저장 수단 (예를 들어, 랜덤 액세스 메모리 (RAM), 판독 전용 메모리 (ROM), 콤팩트 디스크 (CD) 또는 플로피 디스크와 같은 물리적 저장 매체 등) 을 통해 제공될 수 있어, 저장 수단을 디바이스에 커플링 또는 제공 시 디바이스는 여러 방법들을 획득할 수도 있다. 더욱이, 여기에 설명된 방법들 및 기법들을 디바이스에 제공하기 위한 임의의 다른 적절한 기법이 이용될 수 있다.

청구항들은 상기 예시된 정확한 구성 및 컴포넌트들에 제한되지 않는다는 것이 이해될 것이다. 특허청구의 범위로부터 벗어남 없이 여기에 설명된 시스템들, 방법들 및 장치들의 배열, 동작 및 상세에 있어서 여러 변경들, 변화들 및 변동들이 행해질 수도 있다.

Claims

상위대역 스피치가 협대역 스피치보다 더 높은 범위의 주파수들에 걸쳐 있는, 협대역 스피치 신호로부터 상위대역 스피치 신호를 결정하기 위한 방법으로서,
상기 협대역 스피치 신호에 기초한 선형 예측 코딩 (Linear Predictive Coding; LPC) 분석을 이용하여 협대역 선 스펙트럼 주파수 (line spectral frequency; LSF) 들의 리스트를 결정하는 단계;
상기 리스트 내의 모든 다른 인접 협대역 LSF들 쌍보다 LSF들 간의 차가 더 낮은 제 1 인접 협대역 LSF들 쌍을 결정하는 단계;
상기 제 1 인접 협대역 LSF들 쌍의 평균인 제 1 피처 (feature) 를 결정하는 단계; 및
적어도 상기 제 1 피처에 기초하여 코드북 맵핑을 이용하여 상위대역 LSF들을 결정하는 단계를 포함하는, 상위대역 스피치 신호를 결정하기 위한 방법.
제 1 항에 있어서,
상기 협대역 스피치 신호에 기초하여 협대역 여기 신호를 결정하는 단계; 및
상기 협대역 여기 신호에 기초하여 상위대역 여기 신호를 결정하는 단계를 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 방법.
제 2 항에 있어서,
상기 상위대역 선 스펙트럼 주파수 (LSF) 들에 기초하여 상위대역 선형 예측 (linear prediction; LP) 필터 계수들을 결정하는 단계;
상기 상위대역 LP 필터 계수들을 이용하여 상기 상위대역 여기 신호를 필터링하여 합성된 상위대역 스피치 신호를 생성하는 단계;
상기 합성된 상위대역 스피치 신호에 대한 이득을 결정하는 단계; 및
상기 합성된 상위대역 스피치 신호에 상기 이득을 적용하는 단계를 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 방법.
제 3 항에 있어서,
상기 이득을 결정하는 단계는,
현재 스피치 프레임이 유성음 (voiced) 프레임이라면,
상기 협대역 여기 신호에 윈도우를 적용하는 단계;
상기 윈도우 내에서 상기 협대역 여기 신호의 협대역 에너지를 계산하는 단계;
상기 협대역 에너지를 로그 (logarithmic) 도메인으로 컨버팅하는 단계;
상기 로그 도메인으로 컨버팅된 협대역 에너지를 로그 상위대역 에너지에 선형 맵핑시키는 단계; 및
상기 로그 상위대역 에너지를 비-로그 도메인으로 컨버팅하는 단계를 포함하는, 상위대역 스피치 신호를 결정하기 위한 방법.
제 3 항에 있어서,
상기 이득을 결정하는 단계는,
현재 스피치 프레임이 무성음 (unvoiced) 프레임이라면,
상기 협대역 여기 신호의 협대역 푸리에 변환을 결정하는 단계;
상기 협대역 푸리에 변환의 서브대역 에너지들을 계산하는 단계;
상기 서브대역 에너지들을 로그 도메인으로 컨버팅하는 단계;
상기 서브대역 에너지들이 서로 관련되는 방법, 및 협대역 선형 예측 계수들로부터 계산된 스펙트럼 기울기 파라미터에 기초하여 상기 로그 도메인으로 컨버팅된 서브대역 에너지들로부터 로그 상위대역 에너지를 결정하는 단계; 및
상기 로그 상위대역 에너지를 비-로그 도메인으로 컨버팅하는 단계를 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 방법.
제 3 항에 있어서,
상기 이득을 결정하는 단계는,
현재 스피치 프레임이 묵음 (silent) 프레임이라면,
상기 협대역 여기 신호의 에너지보다 20dB 낮은 상위대역 에너지를 결정하는 단계를 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 방법.
제 1 항에 있어서,
N (여기서 N 은 미리 결정된 수이다) 개의 고유한 인접 협대역 LSF 쌍들을, 상기 LSF 쌍들의 엘리먼트들 간의 절대차가 증가하는 순서로 존재하도록 결정하는 단계;
연속하여 상기 LSF 쌍들의 평균들인 N 개의 피처들을 결정하는 단계; 및
상기 N 개의 피처들에 기초하여 코드북 맵핑을 이용하여 상위대역 LSF들을 결정하는 단계를 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 방법.
제 1 항에 있어서,
상기 상위대역 선 스펙트럼 주파수 (LSF) 들을 결정하는 단계는,
상기 제 1 피처에 가장 밀접하게 매칭하는 협대역 코드북 내의 엔트리를 결정하는 단계로서, 상기 협대역 코드북은, 현재 스피치 프레임이 유성음으로 분류되는지, 무성음으로 분류되는지, 또는 묵음으로 분류되는지 여부에 기초하여 선택되는, 상기 엔트리를 결정하는 단계;
상기 협대역 코드북 내의 상기 엔트리의 인덱스를 상위대역 코드북에서의 인덱스에 맵핑시키는 단계로서, 상기 상위대역 코드북은, 상기 현재 스피치 프레임이 유성음으로 분류되는지, 무성음으로 분류되는지, 또는 묵음으로 분류되는지 여부에 기초하여 선택되는, 상기 맵핑시키는 단계; 및
상기 상위대역 코드북으로부터 상기 상위대역 코드북에서의 상기 인덱스에 있는 상위대역 LSF들을 추출하는 단계를 포함하는, 상위대역 스피치 신호를 결정하기 위한 방법.
제 8 항에 있어서,
상기 협대역 코드북은 협대역 스피치로부터 유도된 프로토타입 피처들을 포함하고, 상기 상위대역 코드북은 프로토타입 상위대역 선 스펙트럼 주파수 (LSF) 들을 포함하는, 상위대역 스피치 신호를 결정하기 위한 방법.
제 1 항에 있어서,
상기 협대역 선 스펙트럼 주파수 (LSF) 들의 리스트를 오름차순으로 소팅하는 단계를 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 방법.
상위대역 스피치가 협대역 스피치보다 더 높은 범위의 주파수들에 걸쳐 있는, 협대역 스피치 신호로부터 상위대역 스피치 신호를 결정하기 위한 장치로서,
프로세서;
상기 프로세서와 전자 통신하고 있는 메모리; 및
상기 메모리에 저장된 명령들을 포함하며,
상기 명령들은, 상기 프로세서에 의해,
상기 협대역 스피치 신호에 기초한 선형 예측 코딩 (Linear Predictive Coding; LPC) 분석을 이용하여 협대역 선 스펙트럼 주파수 (line spectral frequency; LSF) 들의 리스트를 결정하고;
상기 리스트 내의 모든 다른 인접 협대역 LSF들 쌍보다 LSF들 간의 차가 더 낮은 제 1 인접 협대역 LSF들 쌍을 결정하고;
상기 제 1 인접 협대역 LSF들 쌍의 평균인 제 1 피처 (feature) 를 결정하며;
적어도 상기 제 1 피처에 기초하여 코드북 맵핑을 이용하여 상위대역 LSF들을 결정하도록 실행가능한, 상위대역 스피치 신호를 결정하기 위한 장치.
제 11 항에 있어서,
상기 협대역 스피치 신호에 기초하여 협대역 여기 신호를 결정하고;
상기 협대역 여기 신호에 기초하여 상위대역 여기 신호를 결정하도록 실행가능한 명령들을 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 12 항에 있어서,
상기 상위대역 선 스펙트럼 주파수 (LSF) 들에 기초하여 상위대역 선형 예측 (linear prediction; LP) 필터 계수들을 결정하고;
상기 상위대역 LP 필터 계수들을 이용하여 상기 상위대역 여기 신호를 필터링하여 합성된 상위대역 스피치 신호를 생성하고;
상기 합성된 상위대역 스피치 신호에 대한 이득을 결정하며;
상기 합성된 상위대역 스피치 신호에 상기 이득을 적용하도록 실행가능한 명령들을 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 13 항에 있어서,
상기 이득을 결정하도록 실행가능한 명령들은,
현재 스피치 프레임이 유성음 (voiced) 프레임이라면,
상기 협대역 여기 신호에 윈도우를 적용하고;
상기 윈도우 내에서 상기 협대역 여기 신호의 협대역 에너지를 계산하고;
상기 협대역 에너지를 로그 (logarithmic) 도메인으로 컨버팅하고;
상기 로그 도메인으로 컨버팅된 협대역 에너지를 로그 상위대역 에너지에 선형 맵핑시키며;
상기 로그 상위대역 에너지를 비-로그 도메인으로 컨버팅하도록 실행가능한 명령들을 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 13 항에 있어서,
상기 이득을 결정하도록 실행가능한 명령들은,
현재 스피치 프레임이 무성음 (unvoiced) 프레임이라면,
상기 협대역 여기 신호의 협대역 푸리에 변환을 결정하고;
상기 협대역 푸리에 변환의 서브대역 에너지들을 계산하고;
상기 서브대역 에너지들을 로그 도메인으로 컨버팅하고;
상기 서브대역 에너지들이 서로 관련되는 방법, 및 협대역 선형 예측 계수들로부터 계산된 스펙트럼 기울기 파라미터에 기초하여 상기 로그 도메인으로 컨버팅된 서브대역 에너지들로부터 로그 상위대역 에너지를 결정하며;
상기 로그 상위대역 에너지를 비-로그 도메인으로 컨버팅하도록 실행가능한 명령들을 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 13 항에 있어서,
상기 이득을 결정하도록 실행가능한 명령들은,
현재 스피치 프레임이 묵음 (silent) 프레임이라면,
상기 협대역 여기 신호의 에너지보다 20dB 낮은 상위대역 에너지를 결정하도록 실행가능한 명령들을 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 11 항에 있어서,
N (여기서 N 은 미리 결정된 수이다) 개의 고유한 인접 협대역 LSF 쌍들을, 상기 LSF 쌍들의 엘리먼트들 간의 절대차가 증가하는 순서로 존재하도록 결정하고;
연속하여 상기 LSF 쌍들의 평균들인 N 개의 피처들을 결정하며;
상기 N 개의 피처들에 기초하여 코드북 맵핑을 이용하여 상위대역 LSF들을 결정하도록 실행가능한 명령들을 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 11 항에 있어서,
상기 상위대역 선 스펙트럼 주파수 (LSF) 들을 결정하도록 실행가능한 명령들은,
상기 제 1 피처에 가장 밀접하게 매칭하는 협대역 코드북 내의 엔트리를 결정하는 것으로서, 상기 협대역 코드북은, 현재 스피치 프레임이 유성음으로 분류되는지, 무성음으로 분류되는지, 또는 묵음으로 분류되는지 여부에 기초하여 선택되는, 상기 엔트리를 결정하고;
상기 협대역 코드북 내의 상기 엔트리의 인덱스를 상위대역 코드북에서의 인덱스에 맵핑시키는 것으로서, 상기 상위대역 코드북은, 현재 스피치 프레임이 유성음으로 분류되는지, 무성음으로 분류되는지, 또는 묵음으로 분류되는지 여부에 기초하여 선택되는, 상기 맵핑시키며;
상기 상위대역 코드북으로부터 상기 상위대역 코드북에서의 상기 인덱스에 있는 상위대역 LSF들을 추출하도록 실행가능한 명령들을 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 18 항에 있어서,
상기 협대역 코드북은 협대역 스피치로부터 유도된 프로토타입 피처들을 포함하고, 상기 상위대역 코드북은 프로토타입 상위대역 선 스펙트럼 주파수 (LSF) 들을 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 11 항에 있어서,
상기 협대역 선 스펙트럼 주파수 (LSF) 들의 리스트를 오름차순으로 소팅하도록 실행가능한 명령들을 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
상위대역 스피치가 협대역 스피치보다 더 높은 범위의 주파수들에 걸쳐 있는, 협대역 스피치 신호로부터 상위대역 스피치 신호를 결정하기 위한 장치로서,
상기 협대역 스피치 신호에 기초한 선형 예측 코딩 (Linear Predictive Coding; LPC) 분석을 이용하여 협대역 선 스펙트럼 주파수 (line spectral frequency; LSF) 들의 리스트를 결정하는 수단;
상기 리스트 내의 모든 다른 인접 협대역 LSF들 쌍보다 LSF들 간의 차가 더 낮은 제 1 인접 협대역 LSF들 쌍을 결정하는 수단;
상기 제 1 인접 협대역 LSF들 쌍의 평균인 제 1 피처 (feature) 를 결정하는 수단; 및
적어도 상기 제 1 피처에 기초하여 코드북 맵핑을 이용하여 상위대역 LSF들을 결정하는 수단을 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 21 항에 있어서,
상기 협대역 스피치 신호에 기초하여 협대역 여기 신호를 결정하는 수단; 및
상기 협대역 여기 신호에 기초하여 상위대역 여기 신호를 결정하는 수단을 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 22 항에 있어서,
상기 상위대역 선 스펙트럼 주파수 (LSF) 들에 기초하여 상위대역 선형 예측 (linear prediction; LP) 필터 계수들을 결정하는 수단;
상기 상위대역 LP 필터 계수들을 이용하여 상기 상위대역 여기 신호를 필터링하여 합성된 상위대역 스피치 신호를 생성하는 수단;
상기 합성된 상위대역 스피치 신호에 대한 이득을 결정하는 수단; 및
상기 합성된 상위대역 스피치 신호에 상기 이득을 적용하는 수단을 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 23 항에 있어서,
상기 이득을 결정하는 수단은,
현재 스피치 프레임이 유성음 (voiced) 프레임이라면,
상기 협대역 여기 신호에 윈도우를 적용하는 수단;
상기 윈도우 내에서 상기 협대역 여기 신호의 협대역 에너지를 계산하는 수단;
상기 협대역 에너지를 로그 (logarithmic) 도메인으로 컨버팅하는 수단;
상기 로그 도메인으로 컨버팅된 협대역 에너지를 로그 상위대역 에너지에 선형 맵핑시키는 수단; 및
상기 로그 상위대역 에너지를 비-로그 도메인으로 컨버팅하는 수단을 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 23 항에 있어서,
상기 이득을 결정하는 수단은,
현재 스피치 프레임이 무성음 (unvoiced) 프레임이라면,
상기 협대역 여기 신호의 협대역 푸리에 변환을 결정하는 수단;
상기 협대역 푸리에 변환의 서브대역 에너지들을 계산하는 수단;
상기 서브대역 에너지들을 로그 도메인으로 컨버팅하는 수단;
상기 서브대역 에너지들이 서로 관련되는 방법, 및 협대역 선형 예측 계수들로부터 계산된 스펙트럼 기울기 파라미터에 기초하여 상기 로그 도메인으로 컨버팅된 서브대역 에너지들로부터 로그 상위대역 에너지를 결정하는 수단; 및
상기 로그 상위대역 에너지를 비-로그 도메인으로 컨버팅하는 수단을 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
제 23 항에 있어서,
상기 이득을 결정하는 수단은,
현재 스피치 프레임이 묵음 (silent) 프레임이라면,
상기 협대역 여기 신호의 에너지보다 20dB 낮은 상위대역 에너지를 결정하는 수단을 더 포함하는, 상위대역 스피치 신호를 결정하기 위한 장치.
상위대역 스피치가 협대역 스피치보다 더 높은 범위의 주파수들에 걸쳐 있는, 협대역 스피치 신호로부터 상위대역 스피치 신호를 결정하기 위한, 명령들을 갖고 있는 컴퓨터 판독가능 저장 매체로서,
상기 명령들은,
상기 협대역 스피치 신호에 기초한 선형 예측 코딩 (Linear Predictive Coding; LPC) 분석을 이용하여 협대역 선 스펙트럼 주파수 (line spectral frequency; LSF) 들의 리스트를 결정하기 위한 코드;
상기 리스트 내의 모든 다른 인접 협대역 LSF들 쌍보다 LSF들 간의 차가 더 낮은 제 1 인접 협대역 LSF들 쌍을 결정하기 위한 코드;
상기 제 1 인접 협대역 LSF들 쌍의 평균인 제 1 피처 (feature) 를 결정하기 위한 코드; 및
적어도 상기 제 1 피처에 기초하여 코드북 맵핑을 이용하여 상위대역 LSF들을 결정하기 위한 코드를 포함하는, 컴퓨터 판독가능 저장 매체.
제 27 항에 있어서,
상기 협대역 스피치 신호에 기초하여 협대역 여기 신호를 결정하기 위한 코드; 및
상기 협대역 여기 신호에 기초하여 상위대역 여기 신호를 결정하기 위한 코드를 더 포함하는, 컴퓨터 판독가능 저장 매체.
제 28 항에 있어서,
상기 상위대역 선 스펙트럼 주파수 (LSF) 들에 기초하여 상위대역 선형 예측 (linear prediction; LP) 필터 계수들을 결정하기 위한 코드;
상기 상위대역 LP 필터 계수들을 이용하여 상기 상위대역 여기 신호를 필터링하여 합성된 상위대역 스피치 신호를 생성하기 위한 코드;
상기 합성된 상위대역 스피치 신호에 대한 이득을 결정하기 위한 코드; 및
상기 합성된 상위대역 스피치 신호에 상기 이득을 적용하기 위한 코드를 더 포함하는, 컴퓨터 판독가능 저장 매체.
제 29 항에 있어서,
상기 이득을 결정하기 위한 코드는,
현재 스피치 프레임이 유성음 (voiced) 프레임이라면,
상기 협대역 여기 신호에 윈도우를 적용하기 위한 코드;
상기 윈도우 내에서 상기 협대역 여기 신호의 협대역 에너지를 계산하기 위한 코드;
상기 협대역 에너지를 로그 (logarithmic) 도메인으로 컨버팅하기 위한 코드;
상기 로그 도메인으로 컨버팅된 협대역 에너지를 로그 상위대역 에너지에 선형 맵핑시키기 위한 코드; 및
상기 로그 상위대역 에너지를 비-로그 도메인으로 컨버팅하기 위한 코드를 포함하는, 컴퓨터 판독가능 저장 매체.
제 29 항에 있어서,
상기 이득을 결정하기 위한 코드는,
현재 스피치 프레임이 무성음 (unvoiced) 프레임이라면,
상기 협대역 여기 신호의 협대역 푸리에 변환을 결정하기 위한 코드;
상기 협대역 푸리에 변환의 서브대역 에너지들을 계산하기 위한 코드;
상기 서브대역 에너지들을 로그 도메인으로 컨버팅하기 위한 코드;
상기 서브대역 에너지들이 서로 관련되는 방법, 및 협대역 선형 예측 계수들로부터 계산된 스펙트럼 기울기 파라미터에 기초하여 상기 로그 도메인으로 컨버팅된 서브대역 에너지들로부터 로그 상위대역 에너지를 결정하기 위한 코드; 및
상기 로그 상위대역 에너지를 비-로그 도메인으로 컨버팅하기 위한 코드를 더 포함하는, 컴퓨터 판독가능 저장 매체.
제 29 항에 있어서,
상기 이득을 결정하기 위한 코드는,
현재 스피치 프레임이 묵음 (silent) 프레임이라면,
상기 협대역 여기 신호의 에너지보다 20dB 낮은 상위대역 에너지를 결정하기 위한 코드를 더 포함하는, 컴퓨터 판독가능 저장 매체.