KR20100113144A

KR20100113144A - 컨텍스트 디스크립터 송신을 위한 시스템들, 방법들 및 장치

Info

Publication number: KR20100113144A
Application number: KR1020107019225A
Authority: KR
Inventors: 칼레드 헬미 엘-말레; 나젠드라 나가라자; 에디 엘.티. 초이
Original assignee: 콸콤 인코포레이티드
Priority date: 2008-01-28
Filing date: 2008-09-30
Publication date: 2010-10-20
Also published as: US8560307B2; TW200933610A; TW200933608A; US20090192790A1; JP2011512550A; US20090190780A1; JP2011512549A; US20090192802A1; TW200947422A; KR20100129283A; WO2009097023A1; JP2011516901A; CN101896964A; JP2011511961A; KR20100125272A; US20090192791A1; CN101896971A; TW200947423A; WO2009097022A1; KR20100113145A

Abstract

여기에서 기재되는 구성들은 기존의 컨텍스트를 제거, 향상 및/또는 대체하기 위해서 음성 통신 및/또는 저장 애플리케이션에 적용될 수 있는 시스템들, 방법들 및 장치를 포함한다.

Description

컨텍스트 디스크립터 송신을 위한 시스템들, 방법들 및 장치{SYSTEMS, METHODS, AND APPARATUS FOR CONTEXT DESCRIPTOR TRANSMISSION}

본 발명은 스피치(speech) 신호들의 프로세싱에 관한 것이다.

본 출원은 미국 출원 번호가 제61/024,104호이고, 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR CONTEXT PROCESSING"이며, 출원일이 2008년 1월 28일이고, 본 발명의 양수인에게 양도되는 미국 가출원의 우선권을 주장한다.

음성 신호의 통신 및/또는 저장을 위한 애플리케이션들은 전형적으로 주(primary) 발화자의 음성의 사운드를 포함하는 오디오 신호를 캡쳐하기 위해서 마이크로폰을 사용한다. 음성을 나타내는 오디오 신호의 일부분은 스피치 또는 스피치 컴포넌트로 지칭된다. 캡쳐된 음성 신호는 통상적으로 배경 사운드들과 같은 마이크로폰의 주위 음향 환경으로부터의 다른 사운드를 포함할 것이다. 이러한 오디오 신호의 일부분은 컨텍스트 또는 컨텍스트 컴포넌트로 지칭된다.

디지털 기법들에 의한 스피치 및 음악과 같은 오디오 정보의 송신은 특히, 장거리 텔레포니, VoIP(Voice over IP(Internet Protocol))와 같은 패킷-교환 텔레포니 및 셀룰러 텔레포니와 같은 디지털 라디오 텔레포니에서 널리 보급되었다. 이러한 급증은 송신 채널 상에서 음성 통신을 전달하는데 사용되는 정보의 양을 감소시키는 반면 재구성된 스피치의 인지되는 품질을 유지하는 것에 대한 관심을 생성하였다. 예를 들어, 가용 무선 시스템 대역폭을 최선으로 사용하는 것이 바람직할 수 있다. 시스템 대역폭을 효율적으로 사용하기 위한 하나의 방식은 신호 압축 기법들을 사용하는 것이다. 스피치 신호들을 전달하는 무선 시스템들에 대하여, 스피치 압축 (또는 "스피치 코딩") 기법들이 이러한 목적을 위해서 공통으로 사용된다.

인간의 스피치 생성의 모델과 관련된 파라미터들을 추출함으로써 스피치를 압축하도록 구성되는 디바이스들은 종종 음성 코더들, 코덱들, 보코더들, "오디오 코더들" 또는 "스피치 코더들"로 지칭되고, 다음의 설명은 이러한 용어들을 상호교환가능하게 사용한다. 스피치 코더는 일반적으로 스피치 인코더 및 스피치 디코더를 포함한다. 인코더는 전형적으로 "프레임들"로 지칭되는 샘플들의 블록들의 시리즈로서 디지털 오디오 신호를 수신하고, 특정 관련된 파라미터들을 추출하기 위해서 각각의 프레임을 분석하며, 상기 파라미터들을 인코딩된 프레임으로 양자화한다. 인코딩된 프레임들은 디코더를 포함하는 수신기로 송신 채널(즉, 유선 또는 무선 네트워크 접속) 상에서 송신된다. 대안적으로, 인코딩된 오디오 신호는 추후에 리트리브(retrieval) 및 디코딩을 위해서 저장될 수 있다. 디코더는 인코딩된 프레임들을 수신 및 프로세싱하고, 파라미터들을 생성하기 위해서 그들을 역양자화(dequantize)하며, 역양자화된 파라미터들을 사용하여 스피치를 재생성한다.

전형적인 대화에서, 각각의 발화자는 시간의 약 60% 동안 침묵(silent)한다. 스피치 인코더들은 통상적으로 단지 컨텍스트 또는 사일런스(silence)("비활성 프레임들")를 포함하는 오디오 신호의 프레임들과 스피치("활성 프레임들")를 포함하는 오디오 신호의 프레임들을 구별하도록 구성된다. 이러한 인코더는 활성 및 비활성 프레임들을 인코딩하기 위해서 상이한 코딩 모드들 및/또는 레이트들을 사용하도록 구성될 수 있다. 예를 들어, 비활성 프레임들은 전형적으로 정보를 거의 전달하지 않거나 정보를 전혀 전달하지 않는 것으로 인지되고, 스피치 인코더들은 통상적으로 활성 프레임을 인코딩하기 보다는 비활성 프레임을 인코딩하기 위해서 보다 적은 비트들(즉, 보다 낮은 비트 레이트)을 사용하도록 구성된다.

활성 프레임들을 인코딩하는데 사용되는 비트 레이트들의 예들은 프레임당 171 비트들, 프레임당 80 비트들 및 프레임당 40 비트들을 포함한다. 비활성 프레임들을 인코딩하는데 사용되는 비트 레이트들의 예들은 프레임당 16 비트들을 포함한다. 셀룰러 텔레포니 시스템들(특히, Telecommunications Industry Association, Arlington, VA 또는 유사한 산업 표준에 의해 공표되는 바와 같은 IS(Interim Standard)-95에 순응하는 시스템들)의 상황에서, 이러한 4개의 비트 레이트들은 또한 "풀 레이트(full rate)", "1/2 레이트(half rate)", "1/4 레이트(quarter rate)" 및 "1/8 레이트"로 각각 지칭된다.

본 발명은 제 1 오디오 컨텍스트를 포함하는 디지털 오디오 신호를 프로세싱하는 방법을 설명한다. 이러한 방법은 컨텍스트-억제된(context-suppressed) 신호를 획득하기 위해서, 제 1 마이크로폰에 의해 생성되는 제 1 오디오 신호에 기초하여, 상기 디지털 오디오 신호로부터 상기 제 1 오디오 컨텍스트를 억제하는 단계를 포함한다. 또한, 이러한 방법은 컨텍스트-향상된 신호를 획득하기 위해서 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱(mix)하는 단계를 포함한다. 이러한 단계에서, 상기 디지털 오디오 신호는 상기 제 1 마이크로폰과 상이한 제 2 마이크로폰에 의해 생성되는 제 2 오디오 신호에 기초한다. 또한, 본 발명은 이러한 방법과 관련된 장치, 수단의 조합 및 컴퓨터-판독가능 매체를 설명한다.

또한, 본 발명은 제 1 트랜스듀서로부터 수신되는 신호에 기초하는 디지털 오디오 신호를 프로세싱하는 방법을 설명한다. 이러한 방법은 컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하는 단계; 컨텍스트-향상된 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱하는 단계; (A) 상기 제 2 오디오 컨텍스트와 (B) 상기 컨텍스트-향상된 신호 중 적어도 하나에 기초하는 신호를 아날로그 신호로 변환하는 단계; 및 상기 아날로그 신호에 기초하는 오디오 신호를 생성하기 위해서 제 2 트랜스듀서를 사용하는 단계를 포함한다. 이러한 방법에서, 상기 제 1 및 제 2 트랜스듀서들 모두는 공통 하우징(housing) 내에 위치한다. 또한, 본 발명은 이러한 방법과 관련된 장치, 수단의 조합 및 컴퓨터-판독가능 매체를 설명한다.

또한, 본 발명은 인코딩된 오디오 신호를 프로세싱하는 방법을 설명한다. 이러한 방법은 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 제 1 디코딩된 오디오 신호를 획득하기 위해서 제 1 코딩 방식에 따라 상기 인코딩된 오디오 신호의 제 1 복수의 인코딩된 프레임들을 디코딩하는 단계; 제 2 디코딩된 오디오 신호를 획득하기 위해서 제 2 코딩 방식에 따라 상기 인코딩된 오디오 신호의 제 2 복수의 인코딩된 프레임들을 디코딩하는 단계; 및 컨텍스트-억제된 신호를 획득하기 위해서 상기 제 2 디코딩된 오디오 신호로부터의 정보에 기초하여 상기 제 1 디코딩된 오디오 신호에 기초하는 제 3 신호로부터 상기 컨텍스트 컴포넌트를 억제하는 단계를 포함한다. 또한, 본 발명은 이러한 방법과 관련된 장치, 수단의 조합 및 컴퓨터-판독가능 매체를 설명한다.

또한, 본 발명은 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하는 방법을 설명한다. 이러한 방법은 컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하는 단계; 인코딩된 오디오 신호를 획득하기 위해서 컨텍스트-억제된 신호에 기초하는 신호를 인코딩하는 단계; 복수의 오디오 컨텍스트들 중 하나를 선택하는 단계; 및 상기 선택된 오디오 컨텍스트와 관련된 정보를 상기 인코딩된 오디오 신호에 기초하는 신호에 삽입하는 단계를 포함한다. 또한, 본 발명은 이러한 방법과 관련된 장치, 수단의 조합 및 컴퓨터-판독가능 매체를 설명한다.

또한, 본 발명은 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하는 방법을 설명한다. 이러한 방법은 컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하는 단계; 인코딩된 오디오 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호를 인코딩하는 단계; 제 1 논리 채널 상에서, 상기 인코딩된 오디오 신호를 제 1 엔티티로 전송하는 단계; 및 상기 제 1 논리 채널과는 상이한 제 2 논리 채널 상에서, (A) 오디오 컨텍스트 선택 정보 및 (B) 상기 제 1 엔티티를 식별하는 정보를 제 2 엔티티로 전송하는 단계를 포함한다. 또한, 본 발명은 이러한 방법과 관련된 장치, 수단의 조합 및 컴퓨터-판독가능 매체를 설명한다.

또한, 본 발명은 인코딩된 오디오 신호를 프로세싱하는 방법을 설명한다. 이러한 방법은 모바일 사용자 단말 내에서, 디코딩된 오디오 신호를 획득하기 위해서 상기 인코딩된 오디오 신호를 디코딩하는 단계; 상기 모바일 사용자 단말 내에서, 오디오 컨텍스트 신호를 생성하는 단계; 및 상기 모바일 사용자 단말 내에서, 상기 디코딩된 오디오 신호에 기초하는 신호와 상기 오디오 컨텍스트 신호에 기초하는 신호를 믹싱하는 단계를 포함한다. 또한, 본 발명은 이러한 방법과 관련된 장치, 수단의 조합 및 컴퓨터-판독가능 매체를 설명한다.

또한, 본 발명은 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하는 방법을 설명한다. 이러한 방법은 컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하는 단계; 제 1 필터 및 제 1 복수의 시퀀스들에 기초하는 오디오 컨텍스트 신호를 생성하는 단계 ― 상기 제 1 복수의 시퀀스들 각각은 상이한 시분해능(time resolution)을 가짐 ― ; 및 컨텍스트-향상된 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 제 2 신호와 상기 생성된 오디오 컨텍스트에 기초하는 제 1 신호를 믹싱하는 단계를 포함한다. 이러한 방법에서, 오디오 컨텍스트 신호를 생성하는 단계는 상기 제 1 복수의 시퀀스들 각각에 상기 제 1 필터를 적용시키는 단계를 포함한다. 또한, 본 발명은 이러한 방법과 관련된 장치, 수단의 조합 및 컴퓨터-판독가능 매체를 설명한다.

또한, 본 발명은 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하는 방법을 설명한다. 이러한 방법은 컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하는 단계; 오디오 컨텍스트 신호를 생성하는 단계; 컨텍스트-향상된 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 제 2 신호와 상기 생성된 오디오 컨텍스트에 기초하는 제 1 신호를 믹싱하는 단계; 및 상기 디지털 오디오 신호에 기초하는 제 3 신호의 레벨을 계산하는 단계를 포함한다. 이러한 방법에서, 상기 생성하는 단계 및 상기 믹싱하는 단계 중 적어도 하나의 단계는 상기 제 3 신호의 계산된 레벨에 기초하여 상기 제 1 신호의 레벨을 제어하는 단계를 포함한다. 또한, 본 발명은 이러한 방법과 관련된 장치, 수단의 조합 및 컴퓨터-판독가능 매체를 설명한다.

또한, 본 발명은 프로세스 제어 신호의 상태에 따라 디지털 오디오 신호를 프로세싱하는 방법을 설명하는데, 여기서 상기 디지털 오디오 신호는 스피치 컴포넌트 및 컨텍스트 컴포넌트를 가진다. 이러한 방법은 상기 프로세스 제어 신호가 제 1 상태를 가질 시에 제 1 비트 레이트로 상기 스피치 컴포넌트가 결여된 상기 디지털 오디오 신호의 일부분의 프레임들을 인코딩하는 단계를 포함한다. 이러한 방법은 컨텍스트-억제된 신호를 획득하기 위해서 상기 프로세스 제어 신호가 상기 제 1 상태와는 상이한 제 2 상태를 가지는 경우 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하는 단계를 포함한다. 이러한 방법은 컨텍스트-억제된 신호를 획득하기 위해서 상기 프로세스 제어 신호가 상기 제 2 상태를 가지는 경우, 상기 컨텍스트-억제된 신호에 기초하는 신호와 오디오 컨텍스트 신호를 믹싱하는 단계를 포함한다. 이러한 방법은 상기 프로세스 제어 신호가 상기 제 2 상태를 가지는 경우 제 2 비트 레이트로 상기 스피치 컴포넌트가 결여된 상기 컨텍스트-향상된 신호의 일부분의 프레임들을 인코딩하는 단계를 포함하고, 여기서 상기 제 2 비트 레이트는 상기 제 1 비트 레이트보다 더 높다. 또한, 본 발명은 이러한 방법과 관련된 장치, 수단의 조합 및 컴퓨터-판독가능 매체를 설명한다.

도 1A는 스피치 인코더(X10)의 블록 다이어그램을 도시한다.
도 1B는 스피치 인코더(X10)의 구현(X20)의 블록 다이어그램을 도시한다.
도 2는 결정 트리의 일 예를 도시한다.
도 3A는 일반적인 구성에 따른 장치(X100)의 블록 다이어그램을 도시한다.
도 3B는 컨텍스트 프로세서(100)의 구현(102)의 블록 다이어그램을 도시한다.
도 3C-3F는 휴대용 또는 핸즈-프리 디바이스 내의 2개의 마이크로폰들(K10 및 K20)에 대한 다양한 장착 구성들을 도시하고, 도 3G는 컨텍스트 프로세서(102)의 구현(102A)의 블록 다이어그램을 도시한다.
도 4A는 장치(X100)의 구현(X102)의 블록 다이어그램을 도시한다.
도 4B는 컨텍스트 프로세서(104)의 구현(106)의 블록 다이어그램을 도시한다.
도 5A는 오디오 신호들과 인코더 선택 동작 사이의 다양한 가능한 종속성들을 예시한다.
도 5B는 오디오 신호들과 인코더 선택 동작 사이의 다양한 가능한 종속성들을 예시한다.
도 6은 장치(X100)의 구현(X110)의 블록 다이어그램을 도시한다.
도 7은 장치(X100)의 구현(X120)의 블록 다이어그램을 도시한다.
도 8은 장치(X100)의 구현(X130)의 블록 다이어그램을 도시한다.
도 9A는 컨텍스트 생성기(120)의 구현(122)의 블록 다이어그램을 도시한다.
도 9B는 컨텍스트 생성기(122)의 구현(124)의 블록 다이어그램을 도시한다.
도 9C는 컨텍스트 생성기(122)의 다른 구현(126)의 블록 다이어그램을 도시한다.
도 9D는 생성된 컨텍스트 신호(S50)를 생성하기 위한 방법(M100)의 흐름도를 도시한다.
도 10은 다중분해능(multresolution) 컨텍스트 합성의 프로세스의 다이어그램을 도시한다.
도 11A는 컨텍스트 프로세서(102)의 구현(108)의 블록 다이어그램을 도시한다.
도 11B는 컨텍스트 프로세서(102)의 구현(109)의 블록 다이어그램을 도시한다.
도 12A는 스피치 디코더(R10)의 블록 다이어그램을 도시한다.
도 12B는 스피치 디코더(R10)의 구현(R20)의 블록 다이어그램을 도시한다.
도 13A는 컨텍스트 믹서(190)의 구현(192)의 블록 다이어그램을 도시한다.
도 13B는 구성에 따른 장치(R100)의 블록 다이어그램을 도시한다.
도 14A는 컨텍스트 프로세서(200)의 구현의 블록 다이어그램을 도시한다.
도 14B는 장치(R100)의 구현(R110)의 블록 다이어그램을 도시한다.
도 15는 구성에 따른 장치(R200)의 블록 다이어그램을 도시한다.
도 16은 장치(X100)의 구현(X200)의 블록 다이어그램을 도시한다.
도 17은 장치(X100)의 구현(X210)의 블록 다이어그램을 도시한다.
도 18은 장치(X100)의 구현(X220)의 블록 다이어그램을 도시한다.
도 19는 기재되는 구성에 따른 장치(X300)의 블록 다이어그램을 도시한다.
도 20은 장치(X300)의 구현(X310)의 블록 다이어그램을 도시한다.
도 21A는 서버로부터 컨텍스트 정보를 다운로딩하는 일 예를 도시한다.
도 21B는 디코더로 컨텍스트 정보를 다운로딩하는 일 예를 도시한다.
도 22는 기재되는 구성에 따른 장치(R300)의 블록 다이어그램을 도시한다.
도 23은 장치(R300)의 구현(R310)의 블록 다이어그램을 도시한다.
도 24는 장치(R300)의 구현(R320)의 블록 다이어그램을 도시한다.
도 25A는 기재되는 구성에 따른 방법(A100)의 흐름도를 도시한다.
도 25B는 기재되는 구성에 따른 장치(AM100)의 블록 다이어그램을 도시한다.
도 26A는 기재되는 구성에 따른 방법(B100)의 흐름도를 도시한다.
도 26B는 기재되는 구성에 따른 장치(BM100)의 블록 다이어그램을 도시한다.
도 27A는 기재되는 구성에 따른 방법(C100)의 흐름도를 도시한다.
도 27B는 기재되는 구성에 따른 장치(CM100)의 블록 다이어그램을 도시한다.
도 28A는 기재되는 구성에 따른 방법(D100)의 흐름도를 도시한다.
도 28B는 기재되는 구성에 따른 장치(DM100)의 블록 다이어그램을 도시한다.
도 29A는 기재되는 구성에 따른 방법(E100)의 흐름도를 도시한다.
도 29B는 기재되는 구성에 따른 장치(EM100)의 블록 다이어그램을 도시한다.
도 30A는 기재되는 구성에 따른 방법(E200)의 흐름도를 도시한다.
도 30B는 기재되는 구성에 따른 장치(EM200)의 블록 다이어그램을 도시한다.
도 31A는 기재되는 구성에 따른 방법(F100)의 흐름도를 도시한다.
도 31B는 기재되는 구성에 따른 장치(FM100)의 블록 다이어그램을 도시한다.
도 32A는 기재되는 구성에 따른 방법(G100)의 흐름도를 도시한다.
도 32B는 기재되는 구성에 따른 장치(GM100)의 블록 다이어그램을 도시한다.
도 33A는 기재되는 구성에 따른 방법(H100)의 흐름도를 도시한다.
도 33B는 기재되는 구성에 따른 장치(HM100)의 블록 다이어그램을 도시한다.

이러한 특징들에서, 동일한 참조 라벨들은 동일하거나 유사한 엘리먼트들을 지칭한다.

오디오 신호의 스피치 컴포넌트는 전형적으로 주 정보를 전달하지만, 컨텍스트 컴포넌트는 또한 텔레포니와 같은 음성 통신 애플리케이션들에서 중요한 역할을 서빙한다. 컨텍스트 컴포넌트는 활성 및 비활성 프레임들 모두 동안 존재하므로, 비활성 프레임들 동안 그것의 지속되는 재생은 수신기에서 지속감(continuity) 및 연결감(connectedness)의 감지를 제공하기 위해서 중요하다. 또한, 컨텍스트 컴포넌트의 재생 품질은 자연스러움(naturalness) 및 전체 인지되는 품질에 대하여, 특히 잡음 환경들에서 사용되는 핸즈-프리 단말들에 대하여 중요할 수 있다.

셀룰러 전화들과 같은 모바일 사용자 단말들은 음성 통신 애플리케이션들이 이전보다 더 많은 위치들로 확장되도록 한다. 그 결과로, 당면될 수 있는 상이한 오디오 컨텍스트들의 수가 증가한다. 기존의 음성 통신 애플리케이션들은 전형적으로 잡음과 같은 컨텍스트 컴포넌트를 처리하지만, 일부 컨텍스트들은 다른 것들보다 더 많이 구조화되어 있고 인식가능하게 인코딩하는 것이 보다 어려울 수 있다.

일부 경우들에서, 오디오 신호의 컨텍스트 컴포넌트를 억제 및/또는 마스킹하는 것이 바람직할 수 있다. 보안의 이유들로 인하여, 예를 들어, 송신 또는 저장 전에 오디오 신호로부터 컨텍스트 컴포넌트를 제거하는 것이 바람직할 수 있다. 대안적으로, 오디오 신호에 상이한 컨텍스트를 추가하는 것이 바람직할 수 있다. 예를 들어, 발화자가 상이한 위치에 있고 그리고/또는 상이한 환경에 있다는 착각을 만들어 내는 것이 바람직할 수 있다. 여기에서 기재되는 구성들은 기존의 오디오 컨텍스트를 제거, 향상 및/또는 대체하기 위해서 음성 통신 및/또는 저장 애플리케이션에 적용될 수 있는 시스템들, 방법들 및 장치를 포함한다. 여기에서 기재되는 구성들은 패킷-교환되는 네트워크들(예를 들어, VoIP와 같은 프로토콜들에 따른 음성 송신들을 전달하도록 배열되는 무선 및/또는 유선 네트워크들) 및/또는 회선-교환되는 네트워크들에서의 사용을 위해서 적응될 수 있다. 또한, 여기에서 기재되는 구성들은 협대역 코딩 시스템들(예를 들어, 약 4 또는 5 킬로헤르츠의 오디오 주파수 범위를 인코딩하는 시스템들)에서의 사용을 위해서 그리고 전-대역(whole-band) 코딩 시스템들 및 대역-분할(split- band) 코딩 시스템들을 포함하는 광대역 코딩 시스템들(예를 들어, 5 킬로헤르츠보다 더 큰 오디오 주파수들을 인코딩하는 시스템들)에서의 사용을 위해서 적응될 수 있다는 점이 명백하게 고려되고, 이에 의해 기재된다.

그것의 컨텍스트에 의해 명백하게 제한되지 않는 한, 용어 "신호"는 유선, 버스 또는 다른 송신 매체 상에서 나타내는 바와 같이 메모리 위치 (또는 메모리 위치들의 세트)의 상태를 포함하는 그것의 통상적인 의미들 중 임의의 것을 표시하기 위해서 여기에서 사용된다. 그것의 컨텍스트에 의해 명백하게 제한되지 않는 한, 용어 "생성하는"은 컴퓨팅 또는 생성과 같은 그것의 통상적인 의미들 중 임의의 것을 표시하기 위해서 여기에서 사용된다. 그것의 컨텍스트에 의해 명백하게 제한되지 않는 한, 용어 "계산하는"은 컴퓨팅, 평가 및/또는 값들의 세트로부터의 선택과 같은 그것의 통상적인 의미들 중 임의의 것을 표시하기 위해서 여기에서 사용된다. 그것의 컨텍스트에 의해 명백하게 제한되지 않는 한, 용어 "획득하는"은 (예를 들어, 외부 디바이스로부터의) 수신, 유도, 계산 및/또는 (예를 들어, 저장 엘리먼트들의 어레이로부터의) 리트리브와 같은 그것의 통상적인 의미들 중 임의의 것을 표시하기 위해서 사용된다. 용어 "포함하는"이 본 발명의 상세한 설명 및 청구항들에서 사용되는 경우, 그것은 다른 엘리먼트들 또는 동작들을 배제하지 않는다. ("A는 B에 기초한다"와 같은) 용어 "기초하는" 은 경우들 (i) "적어도 기초하는"(예를 들어, "A는 적어도 B에 기초한다"), 그리고 특정 컨텍스트에 적절한 경우, (ii) "동일한"(예를 들어, "A는 B와 동일하다")을 포함하는, 그것의 통상적인 의미들 중 임의의 것을 표시하기 위해서 사용된다.

별도로 표시되지 않는 한, 특정한 특징을 가지는 장치의 동작의 임의의 설명은 또한 유사한 특징을 가지는 방법을 기재하는 것으로 명백하게 의도되고 (그 반대의 경우도), 특정 구성에 따른 장치의 특정 구성에 따른 장치의 동작의 임의의 설명 또한 유사한 구성에 따른 방법을 기재하도록 명백하게 의도된다(그 반대의 경우도). 별도로 표시되지 않는 한, 용어 "컨텍스트" (또한 "오디오 컨텍스트")는 스피치 컴포넌트와는 상이하며 발화자의 주위 환경으로부터의 오디오 정보를 전달하는 오디오 신호의 컴포넌트를 표시하기 위해서 사용되고, 용어 "잡음"은 스피치 컴포넌트의 일부분이 아니며 발화자의 주위 환경으로부터의 정보를 전달하지 않는 오디오 신호 내의 임의의 다른 아티팩트(artifact)를 표시하기 위해서 사용된다.

스피치 코딩을 위해서, 스피치 신호는 전형적으로 샘플들의 스트림을 획득하도록 디지털화(또는 양자화)된다. 디지털화 프로세스는 예를 들어, 펄스 코드 변조(PCM), 컴팬딩된(companded) mu-law PCM 및 컴팬딩된 A-law PCM을 포함하는 당해 기술에서 알려져 있는 다양한 방법들 중 임의의 방법에 따라 수행될 수 있다. 협대역 스피치 인코더들은 전형적으로 8kHz의 샘플링 레이트를 사용하는 반면, 광대역 스피치 인코더들은 전형적으로 보다 높은 샘플링 레이트(예를 들어, 12 또는 16 kHz)를 사용한다.

디지털화된 스피치 신호는 프레임들의 시리즈들로서 프로세싱된다. 이러한 시리즈들은 통상적으로 넌오버래핑(nonoverlapping) 시리즈들로서 구현되지만, 프레임 또는 프레임(서브프레임으로도 지칭됨)의 세그먼트를 프로세싱하는 동작은 또한 그것의 입력에서 하나 이상의 이웃 프레임들의 세그먼트들을 포함할 수 있다. 스피치 신호의 프레임들은 전형적으로 신호의 스펙트럼 포락선이 프레임 상에서 상대적으로 고정되도록 예상될 수 있을 만큼 충분히 짧다. 프레임은 전형적으로 공통 프레임 사이즈들인 10, 20 및 30 밀리초들을 가지는, 스피치 신호의 5 및 35 밀리초들 (또는 약 40 내지 200개의 샘플들) 사이에 대응한다. 전형적으로 모든 프레임들은 동일한 길이를 가지며, 여기서 설명되는 특정 예들에서는 균일한 프레임 길이가 가정된다. 그러나, 균일하지 않은 프레임 길이들이 사용될 수 있다는 점이 명백하게 고려되고, 이에 의해 기재된다.

20 밀리초들의 프레임 길이는 7 킬로헤르츠(kHz)의 샘플링 레이트에서 140개의 샘플들에 대응하고 8 kHz의 샘플링 레이트에서 160개의 샘플들에 대응하며, 16 kHz의 샘플링 레이트에서 320개의 샘플들에 대응하지만, 특정 애플리케이션에 적합한 것으로 간주되는 임의의 샘플링 레이트가 사용될 수 있다. 스피치 코딩에 사용될 수 있는 샘플링 레이트의 다른 예는 12.8 kHz이고, 다른 예들은 12.8 kHz로부터 38.4 kHz의 범위 내의 다른 레이트들을 포함한다.

도 1A는 오디오 신호(S10)를 (예를 들어, 프레임들의 시리즈로서) 수신하고 대응하는 인코딩된 오디오 신호(S20)를 (예를 들어, 인코딩된 프레임들의 시리즈로서) 생성하도록 구성되는 스피치 인코더(X10)의 블록 다이어그램을 도시한다. 스피치 인코더(X10)는 코딩 방식 선택기(20), 활성 프레임 인코더(30) 및 비활성 프레임 인코더(40)를 포함한다. 오디오 신호(S10)는 스피치 컴포넌트(즉, 주 발화자의 음성의 사운드) 및 컨텍스트 컴포넌트(즉, 주위 환경들 또는 배경 사운드들)를 포함하는 디지털 오디오 신호이다. 오디오 신호(S10)는 전형적으로 마이크로폰에 의해 캡쳐되는 바와 같은 아날로그 신호의 디지털화된 버전이다.

코딩 방식 선택기(20)는 비활성 프레임들과 오디오 신호(S10)의 활성 프레임들을 구별하도록 구성된다. 이러한 동작은 "음성 활성도 검출" 또는 "스피치 활성도 검출"이라 지칭되고, 코딩 방식 선택기(20)는 음성 활성도 검출기 또는 스피치 활성도 검출기를 포함하도록 구현될 수 있다. 예를 들어, 코딩 방식 선택기(20)는 활성 프레임들에 대해서는 높고 비활성 프레임들에 대해서는 낮은 바이너리-값 코딩 방식 선택 신호를 출력하도록 구성될 수 있다. 도 1A는 코딩 방식 선택기(20)에 의해 생성되는 코딩 방식 선택 신호가 스피치 인코더(X10)의 선택기들(50a 및 50b)의 쌍을 제어하는데 사용되는 예를 도시한다.

코딩 방식 선택기(20)는 프레임 에너지, 신호-대-잡음비(SNR), 주기성(periodicity), 스펙트럼 분포(예를 들어, 스펙트럼 틸트(spectral tilt)), 및/또는 제로-크로싱 레이트와 같은 프레임의 에너지 및/또는 스펙트럼 컨텐츠의 하나 이상의 특징들에 기초하여 프레임을 활성 또는 비활성으로 분류하도록 구성될 수 있다. 이러한 분류는 이러한 특징 값 또는 크기를 임계 값과 비교하는 것 그리고/또는 (예를 들어, 프리코딩 프레임과 관련된) 이러한 특징 변화의 크기를 임계 값과 비교하는 것을 포함할 수 있다. 예를 들어, 코딩 방식 선택기(20)는 현재 프레임의 에너지를 평가하고 에너지 값이 임계 값보다 더 적은 (대안적으로, 임계 값보다 더 크지 않은) 경우 프레임을 비활성으로 분류하도록 구성될 수 있다. 이러한 선택기는 프레임 에너지를 프레임 샘플들의 제곱들의 합으로서 계산하도록 구성될 수 있다.

코딩 방식 선택기(20)의 다른 구현은 낮은-주파수 대역(예를 들어, 300 Hz 내지 2 kHz) 및 높은-주파수 대역(예를 들어, 2 kHz 내지 4 kHz) 각각에서 현재 프레임의 에너지를 평가하고 각각의 대역에 대한 에너지 값이 각각의 임계 값보다 더 적은 (대안적으로, 임계 값보다 더 크지 않은) 경우 프레임이 비활성이라고 표시하도록 구성된다. 이러한 선택기는 프레임에 대역통과 필터를 적용시키고 필터링된 프레임의 샘플들의 제곱들의 합을 계산함으로써 대역 내의 프레임 에너지를 계산하도록 구성될 수 있다. 이러한 음성 활성도 검출 동작의 일 예는 온라인 www-dot-3gpp2-dot-org에서 이용가능한, 3세대 파트너쉽 프로젝트 2(3GPP2) 표준 문헌 C.S0014-C, vl.O(2007년 1월)의 섹션 4.7에서 설명된다.

추가적으로 또는 대안적으로, 이러한 분류는 하나 이상의 이전 프레임들 및/또는 하나 이상의 후속적인 프레임들로부터의 정보에 기초할 수 있다. 예를 들어, 2개 이상의 프레임들 상에서 평균화되는 프레임 특징 값에 기초하여 프레임을 분류하는 것이 바람직할 수 있다. 이전 프레임으로부터의 정보(예를 들어, 배경 잡음 레벨, SNR)에 기초하는 임계 값을 사용하여 프레임을 분류하는 것이 바람직할 수 있다. 또한, 활성 프레임들로부터 비활성 프레임들로의 오디오 신호(S10)에서의 트랜지션(transition)을 따르는 제 1 프레임들 중 하나 이상을 활성으로 분류하도록 코딩 방식 선택기(20)를 구성하는 것이 바람직할 수 있다. 또한, 트랜지션 이후 이러한 방식으로 이전의 분류 상태를 지속하는 동작은 "행오버(hang over)"라 지칭된다.

활성 프레임 인코더(30)는 오디오 신호의 활성 프레임들을 인코딩하도록 구성된다. 인코더(30)는 풀 레이트, 1/2 레이트 또는 1/4 레이트와 같은 비트 레이트에 따라 활성 프레임들을 인코딩하도록 구성될 수 있다. 인코더(30)는 코드-여기 선형 예측(CELP), 프로토타입 파형 보간(PWI) 또는 프로토타입 피치 기간(PPP)과 같은 코딩 모드에 따라 활성 프레임들을 인코딩하도록 구성될 수 있다.

활성 프레임 인코더(30)의 전형적인 구현은 스펙트럼 정보의 디스크립션(description) 및 시간 정보의 디스크립션을 포함하는 인코딩된 프레임을 생성하도록 구성된다. 스펙트럼 정보의 디스크립션은 인코딩된 스피치("포맷들"로도 지칭됨)의 공진들을 표시하는 선형 예측 코딩(LPC) 계수 값들의 하나 이상의 벡터들을 포함할 수 있다. 스펙트럼 정보의 디스크립션은 전형적으로 LPC 벡터 또는 벡터들이 통상적으로 선 스펙트럼 주파수(LSF)들, 선 스펙트럼 페어(LSP)들, 이미턴스 스펙트럼 주파수(ISF)들, 이미턴스 스펙트럼 페어(ISP)들, 켑스트럼 계수(cepstral coefficient)들 또는 로그 영역 비들과 같이, 효율적으로 양자화될 수 있는 형태로 변환되도록 양자화된다. 시간 정보의 디스크립션은 전형적으로 양자화되는 여기 신호의 디스크립션을 포함할 수 있다.

비활성 프레임 인코더(40)는 비활성 프레임들을 인코딩하도록 구성된다. 비활성 프레임 인코더(40)는 전형적으로 활성 프레임 인코더(30)에 의해 사용되는 비트 레이트보다 더 낮은 비트 레이트로 비활성 프레임들을 인코딩하도록 구성된다. 일 예에서, 비활성 프레임 인코더(40)는 잡음-여기 선형 예측(NELP) 코딩 방식을 사용하여 1/8 레이트로 비활성 프레임들을 인코딩하도록 구성된다. 비활성 프레임 인코더(40)는 인코딩된 프레임들("사일런스 디스크립션" 또는 SID 프레임들로도 지칭됨)이 오디오 신호(S10)의 비활성 프레임들 모두보다 더 적게 송신되도록, 불연속 송신(DTX)을 수행하도록 구성될 수도 있다.

비활성 프레임 인코더(40)의 전형적인 구현은 스펙트럼 정보의 디스크립션 및 시간 정보의 디스크립션을 포함하는 인코딩된 프레임을 생성하도록 구성된다. 스펙트럼 정보의 디스크립션은 선형 예측 코딩(LPC) 계수 값들의 하나 이상의 벡터들을 포함할 수 있다. 스펙트럼 정보의 디스크립션은 전형적으로 LPC 벡터 또는 벡터들이 통상적으로 상기 예들에서와 같이 효율적으로 양자화될 수 있는 형태로 변환되도록 양자화된다. 비활성 프레임 인코더(40)는 활성 프레임 인코더(30)에 의해 수행되는 LPC 분석의 순서보다 더 낮은 순서를 가지는 LPC 분석을 수행하도록 구성될 수 있고, 그리고/또는 비활성 프레임 인코더(40)는 스펙트럼 정보의 디스크립션을 활성 프레임 인코더(30)에 의해 생성되는 스펙트럼 정보의 양자화된 디스크립션보다 더 적은 비트들로 양자화하도록 구성될 수 있다. 시간 정보의 디스크립션은 전형적으로 양자화되는, (예를 들어, 프레임에 대한 이득 값 및/또는 프레임의 서브 프레임들의 시리즈 각각에 대한 이득 값을 포함하는) 시간 포락선의 디스크립션을 포함할 수 있다.

인코더들(30 및 40)이 공통 구조를 공유할 수 있다는 점에 유의하여야 한다. 예를 들어, 인코더들(30 및 40)은 (가능하게는 비활성 프레임들과는 상이한 활성 프레임들의 순서를 가지는 결과를 생성하도록 구성되는) LPC 계수 값들의 계산기를 공유하지만 상이한 시간 디스크립션 계산기들을 각각 가질 수 있다. 또한, 스피치 인코더(X10)의 소프트웨어 또는 펌웨어 구현이 프레임 인코더들 중 하나 또는 다른 인코더로 실행의 흐름을 지시하기 위해서 코딩 방식 선택기(20)의 출력을 사용할 수 있다는 점과, 이러한 구현이 선택기(50a)에 대한 그리고/또는 선택기(50b)에 대한 아날로그를 포함하지 않을 수 있다는 점에 유의하여야 한다.

오디오 신호(S10)의 각각의 활성 프레임을 몇몇 상이한 타입들 중 하나로 분류하기 위해서 코딩 방식 선택기(20)를 구성하는 것이 바람직할 수 있다. 이러한 상이한 타입들은 유성 스피치(예를 들어, 모음을 나타내는 스피치)의 프레임들, 트랜지션 프레임들(예를 들어, 단어의 시작 또는 끝을 나타내는 프레임들), 및 무성 스피치(예를 들어, 마찰음을 나타내는 스피치)를 포함할 수 있다. 프레임 분류는 프레임 에너지, 2개 이상의 상이한 주파수 대역들, SNR, 주기성, 스펙트럼 틸트 및/또는 제로-크로싱 레이트 각각에서의 프레임 에너지와 같은 현재 프레임 및/또는 하나 이상의 이전 프레임들 중 하나 이상의 특징들에 기초할 수 있다. 이러한 분류는 이러한 인자의 값 또는 크기를 임계 값과 비교하는 것 그리고/또는 이러한 인자의 변화의 크기를 임계 값과 비교하는 것을 포함할 수 있다.

상이한 코딩 비트 레이트들을 사용하여 상이한 타입들의 활성 프레임들을 인코딩하기 위해서(예를 들어, 네트워크 요구 및 용량을 밸런싱(balance)하기 위해서) 스피치 인코더(X10)를 구성하는 것이 바람직할 수 있다. 이러한 동작은 "가변-레이트 코딩"이라 지칭된다. 예를 들어, 보다 높은 비트 레이트(예를 들어, 풀 레이트)로 트랜지션 프레임을 인코딩하기 위해서, 보다 낮은 비트 레이트(예를 들어, 1/4 레이트)로 무성 프레임을 인코딩하기 위해서, 그리고 중간 비트 레이트(예를 들어, 1/2 레이트)로 또는 보다 높은 비트 레이트(예를 들어, 풀 레이트)로 유성 프레임을 인코딩하기 위해서 스피치 인코더(X10)를 구성하는 것이 바람직할 수 있다.

도 2는 코딩 방식 선택기(20)의 구현(22)이 프레임이 포함하는 스피치 타입에 따라 특정 프레임을 인코딩하는 비트 레이트를 선택하는데 사용할 수 있는 결정 트리의 일 예를 도시한다. 다른 경우들에서, 특정 프레임에 대하여 선택되는 비트 레이트는 원하는 평균 비트 레이트, (원하는 평균 비트 레이트를 지원하는데 사용될 수 있는) 프레임들의 시리즈 상에서의 비트 레이트들의 원하는 패턴, 및/또는 이전 프레임에 대하여 선택되는 비트 레이트로서 이러한 기준을 따를 수도 있다.

추가적으로 또는 대안적으로, 상이한 코딩 모드들을 사용하여 상이한 타입들의 스피치 프레임들을 인코딩하기 위해서 스피치 인코더(X10)를 구성하는 것이 바람직할 수 있다. 이러한 동작은 "다중-모드 코딩"이라 지칭된다. 예를 들어, 유성 스피치의 프레임들은 롱-텀이고(즉, 2개 이상의 프레임 주기 동안 지속되는) 피치(pitch)와 관련된 주기적 구조를 가지는 경향이 있고, 전형적으로 이러한 롱-텀 스펙트럼 특징의 디스크립션을 인코딩하는 코딩 모드를 사용하여 유성 프레임 (또는 유성 프레임들의 시퀀스)을 인코딩하는 것이 보다 효율적이다. 이러한 코딩 모드들의 예들은 CELP, PWI 및 PPP를 포함한다. 한편, 무성 프레임들 및 비활성 프레임들은 통상적으로 임의의 중요한 롱-텀 스펙트럼 특징이 결여되고, 스피치 인코더는 NELP와 같은 이러한 특징을 설명하려고 하지 않는 코딩 모드를 사용하여 이러한 프레임들을 인코딩하도록 구성될 수 있다.

프레임들이 예를 들어, 주기성 또는 발성(voicing)에 기초하여 분류에 따른 상이한 모드들을 사용하여 인코딩되도록 스피치 인코더(X10)를 다중-모드 코딩을 사용하도록 구현하는 것이 바람직할 수 있다. 상이한 타입의 활성 프레임들에 대하여 비트 레이트들 및 코딩 모드들("코딩 방식들"로도 지칭됨)의 상이한 결합들을 사용하도록 스피치 인코더(X10)를 구현하는 것이 바람직할 수 있다. 이러한 스피치 인코더(X10)의 구현의 일 예는 유성 스피치를 포함하는 프레임들 및 트랜지션 프레임들에 대해서는 풀-레이트 CELP 방식, 무성 스피치를 포함하는 프레임들에 대해서는 1/2-레이트 NELP 방식 및 비활성 프레임들에 대해서는 1/8-레이트 NELP 방식을 사용한다. 이러한 스피치 인코더(X10)의 구현들의 다른 예들은 풀-레이트 및 1/2-레이트 CELP 방식들 및/또는 풀-레이트 및 1/4-레이트 PPP 방식들과 같은 하나 이상의 코딩 방식들에 대한 다중 코딩 레이트들을 지원한다. 다중-방식 인코더들, 디코더들 및 코딩 기법들의 예들은 예를 들어, 미국 출원 번호가 제6,330,532호이고 발명의 명칭이 "METHODS AND APPARATUS FOR MAINTAINING A TARGET BIT RATE IN A SPEECH CODER"이며, 미국 출원 번호가 제6,691,084호이고 발명의 명칭이 "VARIABLE RATE SPEECH CODING"인 미국 특허 출원 및 미국 출원 번호가 제09/191,643호이고 발명의 명칭이 "CLOSED-LOOP VARIABLE-RATE MULTIMODE PREDICTIVE SPEECH CODER"이며, 미국 출원 번호가 제11/625,788호이고 발명의 명칭이 "ARBITRARY AVERAGE DATA RATES FOR VARIABLE RATE CODERS"인 미국 특허 출원에서 설명된다.

도 1B는 활성 프레임 인코더(30)의 다수의 구현들(30a, 30b)을 포함하는 스피치 인코더(X10)의 구현(X20)의 블록 다이어그램을 도시한다. 인코더(30a)는 제 1 코딩 방식(예를 들어, 풀-레이트 CELP)을 사용하여 활성 프레임들(예를 들어, 음성 프레임들)의 제 1 클래스를 인코딩하도록 구성되고, 인코더(30b)는 제 1 코딩 방식(예를 들어, 1/2-레이트 NELP)과는 상이한 비트 레이트 및/또는 코딩 모드를 가지는 제 2 코딩 방식을 사용하여 활성 프레임들(예를 들어, 무성 프레임들)의 제 2 클래스를 인코딩하도록 구성된다. 이러한 경우, 선택기들(52a 및 52b)은 3개 이상의 가능한 상태들을 가지는 코딩 방식 선택기(22)에 의해 생성되는 코딩 방식 선택 신호의 상태에 따라 다양한 프레임 인코더들 중에서 선택하도록 구성된다. 스피치 인코더(X20)가 3개 이상의 상이한 활성 프레임 인코더(30)의 구현들로부터의 선택을 지원하기 위해서 스피치 인코더(X20)가 이러한 방식으로 확장될 수 있다는 점이 명백하게 기재된다.

스피치 인코더(X20)의 프레임 인코더들 중 하나 이상은 공통 구조를 공유할 수 있다. 예를 들어, 이러한 인코더들은 (가능하게는 프레임들의 상이한 클래스들에 대한 상이한 순서들을 가지는 결과들을 생성하도록 구성되는) LPC 계수 값들의 계산기를 공유하지만, 상이한 시간 디스크립션 계산기들을 각각 가질 수 있다. 예를 들어, 인코더들(30a 및 30b)은 상이한 여기 신호 계산기들을 가질 수 있다.

도 1B에 도시되는 바와 같이, 스피치 인코더(X10)는 잡음 억제기(10)를 포함하도록 구현될 수도 있다. 잡음 억제기(10)는 오디오 신호(S10)에 대하여 잡음 억제 동작을 수행하도록 구성 및 배열된다. 이러한 동작은 코딩 방식 선택기(20)에 의한 활성 및 비활성 프레임들 사이의 향상된 구별 및/또는 활성 프레임 인코더(30) 및/또는 비활성 프레임 인코더(40)에 의한 보다 양호한 인코딩 결과들을 지원할 수 있다. 잡음 억제기(10)는 오디오 신호의 2개 이상의 상이한 주파수 채널들 각각에 각각의 상이한 이득 인자를 적용시키도록 구성될 수 있고, 여기서 각각의 채널에 대한 이득 인자는 채널의 잡음 에너지 또는 SNR의 추정에 기초할 수 있다. 시간 도메인에 반해 주파수 도메인에서 이러한 이득 제어를 수행하는 것이 바람직할 수 있고, 이러한 구성의 일 예는 상기에서 참조되는 3GPP2 표준 문헌 C.S0014-C의 섹션 4.4.3에서 설명된다. 대안적으로, 잡음 억제기(10)는 가능하게는 주파수 도메인에서, 오디오 신호에 적응적 필터를 적용시키도록 구성될 수 있다. ETSI(European Telecommunications Standards Institute) 문헌 ES 202 0505 vl.1.5(2007년 1월, www-dot-etsi-dot-org에서 이용가능함)의 섹션 5.1은 비활성 프레임들로부터 잡음 스펙트럼을 추정하고 오디오 신호에 대하여, 계산된 잡음 스펙트럼에 기초하여, mel-warped Wiener 필터링의 2개의 스테이지들을 수행하는 이러한 구성의 예를 설명한다.

도 3A는 일반적인 구성(인코더, 인코딩 장치 또는 인코딩을 위한 장치로도 지칭됨)에 따른 장치(X100)의 블록 다이어그램을 도시한다. 장치(X100)는 오디오 신호(S10)로부터 기존의 컨텍스트를 제거하고, 그것을 기존의 컨텍스트와 유사하거나 상이할 수 있는 생성된 컨텍스트로 대체하도록 구성된다. 장치(X100)는 컨텍스트-향상된 오디오 신호(S15)를 생성하기 위해서 오디오 신호(S10)를 프로세싱하도록 구성 및 배열되는 컨텍스트 프로세서(100)를 포함한다. 또한, 장치(X100)는 인코딩된 오디오 신호(S20)를 생성하기 위해서 컨텍스트-향상된 오디오 신호(S15)를 인코딩하도록 배열되는 스피치 인코더(X10)(예를 들어, 스피치 인코더(X20))의 구현을 포함한다. 셀룰러 전화와 같은 장치(X100)를 포함하는 통신 디바이스는 그것을 (예를 들어, 하나 이상의 캐리어들의 무선-주파수 변조에 의한) 유선, 무선 또는 광 송신 채널로 송신하기 전에, 에러-정정, 리던던시 및/또는 프로토콜(예를 들어, Ethernet, TCP/IP, CDMA2000) 코딩과 같은 인코딩된 오디오 신호(S20)에 대하여 프로세싱 동작들을 추가적으로 수행하도록 구성될 수 있다.

도 3B는 컨텍스트 프로세서(100)의 구현(102)의 블록 다이어그램을 도시한다. 컨텍스트 프로세서(102)는 컨텍스트-억제된 오디오 신호(S13)를 생성하기 위해서 오디오 신호(S10)의 컨텍스트 컴포넌트를 억제하도록 구성 및 배열되는 컨텍스트 억제기(110)를 포함한다. 또한, 컨텍스트 프로세서(102)는 컨텍스트 선택 신호(S40)의 상태에 따라 생성된 컨텍스트 신호(S50)를 생성하도록 구성되는 컨텍스트 생성기(120)를 포함한다. 또한, 컨텍스트 프로세서(102)는 컨텍스트-향상된 오디오 신호(S15)를 생성하기 위해서 생성된 컨텍스트 신호(S50)와 컨텍스트-억제된 오디오 신호(S13)를 믹싱하도록 구성 및 배열되는 컨텍스트 믹서(190)를 포함한다.

도 3B에 도시되는 바와 같이, 컨텍스트 억제기(110)는 인코딩 전에 오디오 신호로부터 기존의 컨텍스트를 억제하도록 배열된다. 컨텍스트 억제기(110)는 (예를 들어, 하나 이상의 상이한 임계 값들을 사용함으로써) 전술된 바와 같이 잡음 억제기(10)의 보다 공격적인 버전(aggressive version)으로서 구현될 수 있다. 대안적으로 또는 추가적으로, 컨텍스트 억제기(110)는 오디오 신호(S10)의 컨텍스트 컴포넌트를 억제하기 위해서 2개 이상의 마이크로폰들로부터의 오디오 신호들을 사용하도록 구현될 수 있다. 도 3G는 컨텍스트 억제기(110)의 이러한 구현(11OA)을 포함하는 컨텍스트 프로세서(102)의 구현(102A)의 블록 다이어그램을 도시한다. 컨텍스트 억제기(110A)는 예를 들어 제 1 마이크로폰에 의해 생성되는 오디오 신호에 기초하는 오디오 신호(S10)의 컨텍스트 컴포넌트를 억제하도록 구성된다. 컨텍스트 억제기(110A)는 제 2 마이크로폰에 의해 생성되는 오디오 신호에 기초하는 오디오 신호(SA1)(예를 들어, 다른 디지털 오디오 신호)를 사용함으로써 이러한 동작을 수행하도록 구성된다. 다중-마이크로폰 컨텍스트 억제의 적합한 예들은 예를 들어, 미국 출원 번호가 제11/864,906호이고, 변리사 명부 번호가 061521이며, 발명의 명칭이 "APPARATUS AND METHOD OF NOISE AND ECHO REDUCTION"(Choy et al.)인 미국 특허 출원 및 미국 출원 번호가 제12/037,928호이고, 변리사 명부 번호가 080551이며, 발명의 명칭이 "SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION" (Visser et al.)인 미국 특허 출원에 기재된다. 컨텍스트 억제기(110)의 다중-마이크로폰 구현은 예를 들어, 미국 출원 번호가 제11/864,897호이고, 변리사 명부 번호가 061497이며, 발명의 명칭이 "MULTIPLE MICROPHONE VOICE ACTIVITY DETECTOR" (Choy et al.)인 미국 특허 출원에 기재되는 바와 같은 기법에 따라, 스피치 활성도 검출 성능을 향상시키기 위한 코딩 방식 선택기(20)의 대응하는 구현에 대한 정보를 제공하도록 구성될 수도 있다.

도 3C-3F는 (셀룰러 전화 또는 다른 모바일 사용자 단말과 같은) 장치(X100)의 이러한 구현을 포함하는 휴대용 디바이스에서의 또는 이러한 휴대용 디바이스로의 유선 또는 무선(예를 들어, Bluetooth) 접속을 통해 통신하도록 구성되는 이어폰 또는 헤드셋과 같은 핸즈-프리 디바이스에서의 2개의 마이크로폰들(K10 및 K20)에 대한 다양한 장착 구성들을 도시한다. 이러한 예들에서, 마이크로폰(K10)은 주로 스피치 컴포넌트(예를 들어, 오디오 신호(S10)의 아날로그 프리커서(analog precursor)를 포함하는 오디오 신호를 생성하도록 배열되고, 마이크로폰(K20)은 컨텍스트 컴포넌트(예를 들어, 오디오 신호(SA1)의 아날로그 프리커서)를 주로 포함하는 오디오 신호를 생성하도록 배열된다. 도 3C는 마이크로폰(K10)이 디바이스의 전면(front face) 뒤에 장착되고, 마이크로폰(K20)이 디바이스의 상면(top face) 뒤에 장착되는 배열의 일 예를 도시한다. 도 3D는 마이크로폰(K10)이 디바이스의 전면 뒤에 장착되고, 마이크로폰(K20)이 디바이스의 측면(side face) 뒤에 장착되는 배열의 일 예를 도시한다. 도 3E는 마이크로폰(K10)이 디바이스의 전면 뒤에 장착되고, 마이크로폰(K20)이 디바이스의 하면(bottom face) 뒤에 장착되는 배열의 일 예를 도시한다. 도 3F는 마이크로폰(K10)이 디바이스의 전면 (또는 내면(inner face)) 뒤에 장착되고, 마이크로폰(K20)이 디바이스의 후면(rear face) (또는 외면(outer face)) 뒤에 장착되는 배열의 일 예를 도시한다.

컨텍스트 억제기(110)는 오디오 신호에 대하여 스펙트럼 차감 동작을 수행하도록 구성될 수 있다. 스펙트럼 차감은 고정적인 통계들을 가지는 컨텍스트 컴포넌트를 억제하도록 예상될 수 있지만, 비고정적인 컨텍스트들을 억제하는데에는 효과적이지 않을 수 있다. 스펙트럼 차감은 하나의 마이크로폰을 가지고 있는 애플리케이션들 뿐만 아니라 다수의 마이크로폰들로부터의 신호들이 이용가능한 애플리케이션들에서 사용될 수 있다. 전형적인 예에서, 이러한 컨텍스트 억제기(110)의 구현은 다수의 주파수 서브대역들("주파수 빈들"로도 지칭됨) 각각에서의 컨텍스트 컴포넌트의 에너지 레벨과 같은 기존의 컨텍스트의 통계적인 디스크립션을 유도하기 위해서 오디오 신호의 비활성 프레임들을 분석하고, 오디오 신호에 대응하는 주파수-선택적 이득을 적용시키도록(예를 들어, 대응하는 컨텍스트 에너지 레벨에 기초하여 주파수 서브대역들 각각 상에서 오디오 신호를 감쇠(attenuate)시키도록) 구성된다. 스펙트럼 차감 동작들의 다른 예들은 S.F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Trans. Acoustics, Speech and Signal Processing, 27(2): 112-120, April 1979; R. Mukai, S. Araki, H. Sawada and S. Makino, "Removal of residual crosstalk components in blind source separation using LMS filters," Proc. of 12th IEEE Workshop on Neural Networks for Signal Processing, pp. 435-444, Martigny, Switzerland, Sept. 2002; 및 R. Mukai, S. Araki, H. Sawada and S. Makino, "Removal of residual cross-talk components in blind source separation using time-delayed spectral subtraction," Proc. of ICASSP 2002, pp. 1789-1792, May 2002에 설명된다.

추가적으로 또는 대안적인 구현에서, 컨텍스트 억제기(110)는 오디오 신호에 대하여 블라인드 소스 분리(BSS, 독립적인 컴포넌트 분석으로도 지칭됨) 동작을 수행하도록 구성될 수 있다. 블라인드 소스 분리는 (오디오 신호(S10)를 캡쳐하는데 사용되는 마이크로폰에 추가로) 하나 이상의 마이크로폰들로부터의 신호들이 이용가능한 애플리케이션들에 사용될 수 있다. 블라인드 소스 분리는 고정적인 컨텍스트들 뿐만 아니라 비고정적인 통계들을 가지는 컨텍스트들을 억제하도록 예상될 수 있다. 미국 특허 출원 제6,167,417호(Parra et al.)에 기재되는 바와 같은 BSS 동작의 일 예는 소스 신호들을 분리하는데 사용되는 필터의 계수들을 계산하기 위해서 기울기 강하 방법(gradient descent method)을 사용한다. BSS 동작들의 다른 예들은 S. Amari, A. Cichocki, and H. H. Yang, "A new learning algorithm for blind signal separation," Advances in Neural Information Processing Systems 8, MIT Press, 1996; L. Molgedey and H. G. Schuster, "Separation of a mixture of independent signals using time delayed correlations," Phys. Rev. Lett., 72(23): 3634-3637, 1994; 및 L. Parra and C. Spence, "Convolutive blind source separation of non-stationary sources", IEEE Trans, on Speech and Audio Processing, 8(3): 320-327, May 2000에 기재된다. 전술된 구현들에 추가적으로 또는 대안적으로, 컨텍스트 억제기(100)는 빔형성 동작을 수행하도록 구성될 수 있다. 빔형성 동작들의 예들은 예를 들어, 상기에서 참조되는 (변리사 명부 번호 061497인) 미국 특허 출원 제11/864,897호 및 H. Saruwatari et al., "Blind Source Separation Combining Independent Component Analysis and Beamforming," EURASIP Journal on Applied Signal Processing, 2003:11, 1135-1146 (2003)에 기재된다.

셀룰러 전화 또는 핸즈-프리 디바이스의 캐이싱(casing)과 같은 공통 하우징 내에 장착되는 마이크로폰들과 같이 서로 근접하게 위치하는 마이크로폰들은 높은 순간 상관을 가지는 신호들을 생성할 수 있다. 또한, 당업자는 공통 하우징(즉, 전체 디바이스의 캐이싱) 내의 마이크로폰 하우징에 배치될 수 있음을 인식할 것이다. 이러한 상관은 BSS 동작의 성능을 저하시킬 수 있고, 이러한 경우 BSS 동작 전에 오디오 신호들을 상관제거(decorrelate)시키는 것이 바람직할 수 있다. 또한, 상관제거는 에코 제거에 효과적이다. 상관제거기는 5 또는 이보다 적은 탭들 또는 심지어 3 또는 이보다 적은 탭들을 가지는 필터(가능하게는 적응형 필터)로 구현될 수 있다. 이러한 필터의 탭 가중치들은 고정될 수 있거나 입력 오디오 신호의 상관 속성들에 따라 선택될 수 있고, 격자 필터 구조를 사용하여 상관제거 필터를 구현하는 것이 바람직할 수 있다. 이러한 컨텍스트 억제기(110)의 구현은 오디오 신호의 2개 이상의 상이한 주파수 서브대역들 각각에 대하여 개별적인 상관제거 동작을 수행하도록 구성될 수 있다.

컨텍스트 억제기(110)의 구현은 BSS 동작 이후 적어도 분리된 스피치 컴포넌트에 대하여 하나 이상의 추가적인 프로세싱 동작들을 수행하도록 구성될 수 있다. 예를 들어, 컨텍스트 억제기(110)가 적어도 분리된 스피치 컴포넌트에 대하여 상관제거 동작을 수행하는 것이 바람직할 수 있다. 이러한 동작은 분리된 스피치 컴포넌트의 2개 이상의 상이한 주파수 서브대역들 각각에 대하여 개별적으로 수행될 수 있다.

추가적으로 또는 대안적으로, 컨텍스트 억제기(110)의 구현은 분리된 컨텍스트 컴포넌트에 기초하여, 스펙트럼 차감과 같은 분리된 스피치 컴포넌트에 대하여 비선형 프로세싱 동작을 수행하도록 구성될 수 있다. 스피치 컴포넌트로부터 기존의 컨텍스트를 추가적으로 억제할 수 있는 스펙트럼 차감은 분리된 컨텍스트 컴포넌트의 대응하는 주파수 서브대역의 레벨에 따라 시간이 경과함에 따라 변경되는 주파수-선택적 이득으로 구현될 수 있다.

추가적으로 또는 대안적으로, 컨텍스트 억제기(110)의 구현은 분리된 스피치 컴포넌트에 대하여 센터 클리핑 동작을 수행하도록 구성될 수 있다. 이러한 동작은 전형적으로 신호 레벨 및/또는 스피치 활성도 레벨에 비례하여 시간이 경과함에 따라 변경되는 신호에 이득을 적용시킨다. 센터 클리핑 동작의 일 예는 y[n] = {0 for |x[n]| < C; x[n] otherwise}으로 나타낼 수 있고, 여기서 x[n]은 입력 샘플이고, y[n]은 출력 샘플이며, C는 클리핑 임계 값이다. 센터 클리핑 동작의 다른 예는 y[n] = {0 for |x[n]| < C, sgn(x[n])(|x[n]| - C) otherwise}로 나타낼 수 있고, 여기서 sgn(x[n])은 x[n]의 부호를 표시한다.

오디오 신호로부터 기존의 컨텍스트 컴포넌트를 실질적으로 완전히 제거하기 위해서 컨텍스트 억제기(110)를 구성하는 것이 바람직할 수 있다. 예를 들어, 장치(X100)가 기존의 컨텍스트 컴포넌트를 기존의 컨텍스트 컴포넌트와 유사하지 않은 생성된 컨텍스트 신호(S50)로 대체하는 것이 바람직할 수 있다. 이러한 경우, 기존의 컴포넌트의 실질적으로 완전한 제거는 기존 컨텍스트 컴포넌트와 대체 컨텍스트 신호 사이의 디코딩된 오디오 신호에서의 청취가능한 간섭을 감소시키는 것을 보조할 수 있다. 다른 예에서, 생성된 컨텍스트 신호(S50)가 오디오 신호에 추가되는지의 여부에 관계없이, 장치(X100)가 기존의 컨텍스트 컴포넌트를 숨기도록 구성되는 것이 바람직할 수 있다.

2개 이상의 상이한 동작의 모드들 사이에서 구성가능하도록 컨텍스트 프로세서(100)를 구현하는 것이 바람직할 수 있다. 예를 들어, (A) 컨텍스트 프로세서(100)가 실질적으로 변화되지 않은 것으로 유지되는 기존의 컨텍스트 컴포넌트를 가지는 오디오 신호를 전달하도록 구성되는 동작의 제 1 모드 및 (B) 기존의 컨텍스트 컴포넌트를 실질적으로 완전히 제거하도록 (가능하게는 그것을 생성된 컨텍스트 신호(S50)로 대체하도록) 구성되는 동작의 제 2 모드를 제공하는 것이 바람직할 수 있다. (디폴트 모드로서 구성될 수 있는) 이러한 동작의 제 1 모드에 대한 지원은 장치(X100)를 포함하는 디바이스의 백워드 호환성을 허용하는데 유용할 수 있다. 동작의 제 1 모드에서, 컨텍스트 프로세서(100)는 잡음-억제된 오디오 신호를 생성하기 위해서 (예를 들어, 잡음 억제기(10)를 참조하여 전술된 바와 같이) 오디오 신호에 대하여 잡음 억제 동작을 수행하도록 구성될 수 있다.

컨텍스트 프로세서(100)의 다른 구현들은 동작의 3개 이상의 모드들을 지원하도록 유사하게 구성될 수 있다. 예를 들어, 이러한 다른 구현은 적어도 실질적으로 컨텍스트 억제가 없는 것(예를 들어, 잡음 억제만)으로부터 부분 컨텍스트 억제로, 적어도 실질적으로 완전한 컨텍스트 억제로의 범위에서 3개 이상의 모드들 중 선택가능한 모드에 따라 기존의 컨텍스트 컴포넌트가 억제되는 정도를 변경하도록 구성가능할 수 있다.

도 4A는 컨텍스트 프로세서(100)의 구현(104)을 포함하는 장치(X100)의 구현(X102)의 블록 다이어그램을 도시한다. 컨텍스트 프로세서(104)는 전술된 바와 같은 2개 이상의 모드들 중 하나에서, 프로세스 제어 신호(S30)의 상태에 따라 동작하도록 구성된다. 프로세스 제어 신호(S30)의 상태는 (예를 들어, 그래픽 사용자 인터페이스, 스위치 또는 다른 제어 인터페이스를 통해) 사용자에 의해 제어될 수 있고, 또는 프로세스 제어 신호(S30)는 프로세스 제어 신호(S30)의 상이한 상태들과 상이한 하나 이상의 변수들의 값들(예를 들어, 물리적 위치, 동작 모드)을 연관시키는 테이블과 같은 인덱싱된 데이터 구조를 포함하는 (도 16에 예시되는 바와 같은) 프로세스 제어 생성기(340)에 의해 생성될 수 있다. 일 예에서, 프로세스 제어 신호(S30)는 그 상태가 기존의 컨텍스트 컴포넌트가 전달 또는 억제될 것인지의 여부를 표시하는 바이너리-값 신호(즉, 플래그)로 구현된다. 이러한 경우, 컨텍스트 프로세서(104)는 그것의 엘리먼트들 중 하나 이상을 디스에이블링하고 그리고/또는 신호 경로로부터 이러한 엘리먼트들을 제거(예를 들어, 오디오 신호가 그들을 바이패싱하도록 허용)함으로써 오디오 신호(S10)를 전달하도록 제 1 모드에서 구성될 수 있고, 이러한 엘리먼트들을 인에이블링하고 그리고/또는 그들을 신호 경로로 삽입함으로써 컨텍스트-향상된 오디오 신호(S15)를 생성하도록 제 2 모드에서 구성될 수 있다. 대안적으로, 컨텍스트 프로세서(104)는 (예를 들어, 잡음 억제기(10)를 참조하여 전술된 바와 같이) 오디오 신호(S10)에 대하여 잡음 억제 동작을 수행하도록 제 1 모드에서 구성될 수 있고, 오디오 신호(S10)에 대하여 컨텍스트 대체 동작을 수행하도록 제 2 모드에서 구성될 수 있다. 다른 예에서, 프로세스 제어 신호(S30)는 3개 이상의 상태들을 가지는데, 각각의 상태는 적어도 실질적으로 컨텍스트 억제가 없는 것(예를 들어, 잡음 억제만)으로부터, 부분 컨텍스트 억제로, 적어도 실질적으로 완전한 컨텍스트 억제로의 범위에서 컨텍스트 프로세서의 동작의 3개 이상의 모드들 중 상이한 모드에 대응한다.

도 4B는 컨텍스트 프로세서(104)의 구현(106)의 블록 다이어그램을 도시한다. 컨텍스트 프로세서(106)는 적어도 2개의 동작 모드들: 컨텍스트 억제기(112)가 실질적으로 변화되지 않은 것으로 유지되는 기존의 컨텍스트 컴포넌트를 가지는 오디오 신호(S10)를 전달하도록 구성되는 동작의 제 1 모드 및 컨텍스트 억제기(112)가 오디오 신호(S10)로부터 기존의 컨텍스트 컴포넌트를 실질적으로 완전히 제거하도록(즉, 컨텍스트-억제된 오디오 신호(S13)를 생성하도록) 구성되는 동작의 제 2 모드를 가지는 것으로 구성되는 컨텍스트 억제기(110)의 구현(112)을 포함한다. 동작의 제 1 모드가 디폴트 모드이도록 컨텍스트 억제기(112)를 구현하는 것이 바람직할 수 있다. 잡음-억제된 오디오 신호를 생성하기 위해서 (예를 들어, 잡음 억제기(10)를 참조하여 전술된 바와 같이) 동작의 제 1 모드에서 오디오 신호의 잡음 억제 동작을 수행하도록 컨텍스트 억제기(112)를 구현하는 것이 바람직할 수 있다.

컨텍스트 억제기(112)는 동작의 제 1 모드에서 오디오 신호에 대하여 컨텍스트 억제 동작을 수행하도록 구성되는 하나 이상의 엘리먼트들(예를 들어, 하나 이상의 소프트웨어 및/또는 펌웨어 루틴들)이 바이패싱되도록 구현될 수 있다. 대안적으로 또는 추가적으로, 컨텍스트 억제기(112)는 컨텍스트 억제 동작(예를 들어, 스펙트럼 차감 및/또는 BSS 동작)의 하나 이상의 임계 값들을 변화시킴으로써 상이한 모드들에서 동작하도록 구현될 수 있다. 예를 들어, 컨텍스트 억제기(112)는 잡음 억제 동작을 수행하기 위해서 제 1 모드에서 임계 값들의 제 1 세트를 적용시키도록 구성될 수 있고, 컨텍스트 억제 동작을 수행하기 위해서 제 2 모드에서 임계 값들의 제 2 세트를 적용시키도록 구성될 수 있다.

프로세스 제어 신호(S30)는 컨텍스트 프로세서(104)의 하나 이상의 다른 엘리먼트들을 제어하는데 사용될 수 있다. 도 4B는 컨텍스트 생성기(120)의 구현(122)이 프로세스 제어 신호(S30)의 상태에 따라 동작하도록 구성되는 예를 도시한다. 예를 들어, 프로세스 제어 신호(S30)의 대응하는 상태에 따라, 디스에이블링되도록(예를 들어, 전력 소비를 감소시키도록), 또는 컨텍스트 생성기(122)가 생성된 컨텍스트 신호(S50)를 생성하지 못하도록 컨텍스트 생성기(122)를 구현하는 것이 바람직할 수 있다. 추가적으로 또는 대안적으로, 프로세스 제어 신호(S30)의 대응하는 상태에 따라, 디스에이블링 또는 바이패싱되도록, 또는 컨텍스트 믹서(190)가 생성된 컨텍스트 신호(S50)와 그것의 입력 오디오 신호를 믹싱하지 못하도록 컨텍스트 믹서(190)를 구현하는 것이 바람직할 수 있다.

전술된 바와 같이, 스피치 인코더(X10)는 오디오 신호(S10)의 하나 이상의 특징들에 따라 2개 이상의 프레임 인코더들 중에서 선택하도록 구성될 수 있다. 이와 유사하게, 장치(X100)의 구현에서, 코딩 방식 선택기(20)는 오디오 신호(S10), 컨텍스트-억제된 오디오 신호(S13) 및/또는 컨텍스트-향상된 오디오 신호(S15)의 하나 이상의 특징들에 따라 인코더 선택 신호를 생성하도록 다양하게 구현될 수 있다. 도 5A는 이러한 신호들과 스피치 인코더(X10)의 인코더 선택 동작 사이의 다양한 가능한 종속성들을 예시한다. 도 6은 코딩 방식 선택기(20)가 프레임 에너지, 2개 이상의 상이한 주파수 대역들 각각에서의 프레임 에너지, SNR, 주기성, 스펙트럼 틸트 및/또는 제로-크로싱 레이트와 같은 (도 5A에 포인트 B로 표시되는) 컨텍스트-억제된 오디오 신호(S13)의 하나 이상의 특징들에 기초하여 인코더 선택 신호를 생성하도록 구성되는 장치(X100)의 특정 구현(X110)의 블록 다이어그램을 도시한다. 도 5A 및 6에 제시되는 장치(X100)의 다양한 구현들 중 임의의 구현이 (예를 들어, 도 4A, 4B를 참조하여 설명된 바와 같이) 프로세스 제어 신호(S30)의 상태에 따라 컨텍스트 억제기(110)의 제어 및 (예를 들어, 도 1B를 참조하여 설명된 바와 같이) 3개 이상의 프레임 인코더들 중 하나의 선택을 포함하도록 구성될 수도 있다는 점이 명백하게 고려되고, 이에 의해 기재된다.

개별적인 동작들과 같이 잡음 억제 및 컨텍스트 억제를 수행하도록 장치(X100)를 구현하는 것이 바람직할 수 있다. 예를 들어, 잡음 억제기(10)를 제거, 디스에이블링 또는 바이패싱하지 않고, 스피치 인코더(X20)의 기존의 구현에 컨텍스트 프로세서의 구현(100)을 추가하는 것이 바람직할 수 있다. 도 5B는 잡음 억제기(10)를 포함하는 장치(X100)의 구현에서, 오디오 신호(S10)에 기초하는 신호들과 스피치 인코더(X20)의 인코더 선택 동작 사이의 다양한 가능한 종속성들을 예시한다. 도 7은 코딩 방식 선택기(20)가 프레임 에너지, 2개 이상의 상이한 주파수 대역들 각각에서의 프레임 에너지, SNR, 주기성, 스펙트럼 틸트 및/또는 제로-크로싱 레이트와 같은 (도 5B에서 포인트 A로 표시되는) 잡음-억제된 오디오 신호(S12)의 하나 이상의 특징들에 기초하여 인코더 선택 신호를 생성하도록 구성되는 장치(X100)의 특정한 구현(X120)의 블록 다이어그램을 도시한다. 도 5B 및 7에서 제시되는 장치(X100)의 다양한 구현들 중 임의의 구현이 (예를 들어, 도 4A, 4B를 참조하여 설명된 바와 같이) 프로세스 제어 신호(S30)의 상태에 따라 컨텍스트 억제기(110)의 제어 및 (예를 들어, 도 1B를 참조하여 설명된 바와 같이) 3개 이상의 프레임 인코더들 중 하나의 선택을 포함하도록 구성될 수도 있다는 점이 명백하게 고려되고, 이에 의해 기재된다.

또한, 컨텍스트 억제기(110)는 잡음 억제기(10)를 포함하도록 구성될 수 있거나, 오디오 신호(S10)에 대하여 잡음 억제를 수행하도록 선택가능하게 구성될 수 있다. 예를 들어, 장치(X100)가 프로세스 제어 신호(S30)의 상태에 따라, (기존의 컨텍스트가 오디오 신호(S10)로부터 실질적으로 완전히 제거되는) 컨텍스트 억제 또는 (기존의 컨텍스트가 실질적으로 변화되지 않은 것으로 유지되는) 잡음 억제를 수행하도록 하는 것이 바람직할 수 있다. 일반적으로, 컨텍스트 억제기(110)는 컨텍스트 억제 이전에 오디오 신호(S10)에 대하여 (필터링 동작과 같은) 그리고/또는 컨텍스트 억제 이후에 결과적인 오디오 신호에 대하여 하나 이상의 다른 프로세싱 동작들을 수행하도록 구성될 수도 있다.

전술된 바와 같이, 기존의 스피치 인코더들은 전형적으로 비활성 프레임들을 인코딩하기 위해서 낮은 비트 레이트들 및/또는 DTX를 사용한다. 그 결과, 인코딩된 비활성 프레임들은 전형적으로 컨텍스트 정보(contextual information)를 거의 포함하지 않는다. 컨텍스트 선택 신호(S40)에 의해 표시되는 특정 컨텍스트 및/또는 컨텍스트 생성기(120)의 특정 구현에 따라, 생성된 컨텍스트 신호(S50)의 사운드 품질 및 정보 컨텐츠는 원래의 컨텍스트의 사운드 품질 및 정보 컨텐츠보다 더 클 수 있다. 이러한 경우들에서, 생성된 컨텍스트 신호(S50)를 포함하는 비활성 프레임들을 인코딩하기 위해서 원래의 컨텍스트만을 포함하는 비활성 프레임들을 인코딩하기 위해서 사용되는 비트 레이트보다 더 높은 비트 레이트를 사용하는 것이 바람직할 수 있다. 도 8은 적어도 2개의 활성 프레임 인코더들(30a, 30b)을 포함하는 장치(X100)의 구현(X130) 및 코딩 방식 선택기(20) 및 선택기들(50a, 50b)의 대응하는 구현들의 블록 다이어그램을 도시한다. 이러한 예에서, 장치(X130)는 컨텍스트-향상된 신호에 기초하여 코딩 방식 선택을 수행하도록 구성된다(즉, 생성된 컨텍스트 이후에 컨텍스트-억제된 오디오 신호에 추가된다). 이러한 배열이 음성 활성도의 검출들의 실패를 초래할 수 있는 반면, 시스템에서는 컨텍스트-향상된 사일런스 프레임들을 인코딩하는데 보다 높은 비트 레이트를 사용하는 것이 바람직할 수도 있다.

2개 이상의 활성 프레임 인코더들의 특징들 및 도 8을 참조하여 설명되는 바와 같은 코딩 방식 선택기(20) 및 선택기들(50a, 50b)의 대응하는 구현들이 여기에서 기재되는 바와 같이 장치(X100)의 다른 구현들에 포함될 수도 있다는 점에 명백하게 유의하여야 한다.

컨텍스트 생성기(120)는 컨텍스트 선택 신호(S40)의 상태에 따라 생성된 컨텍스트 신호(S50)를 생성하도록 구성된다. 컨텍스트 믹서(190)는 컨텍스트-향상된 오디오 신호(S15)를 생성하기 위해서 생성된 컨텍스트 신호(S50)와 컨텍스트-억제된 오디오 신호(S13)를 믹싱하도록 구성 및 배열된다. 일 예에서, 컨텍스트 믹서(190)는 컨텍스트-억제된 오디오 신호(S13)에 생성된 컨텍스트 신호(S50)를 추가하도록 배열되는 추가기로서 구현된다. 컨텍스트 생성기(120)가 컨텍스트-억제된 오디오 신호와 호환가능한 형태로 생성된 컨텍스트 신호(S50)를 생성하는 것이 바람직할 수 있다. 장치(X100)의 전형적인 구현에서, 예를 들어, 생성된 컨텍스트 신호(S50) 및 컨텍스트 억제기(110)에 의해 생성된 오디오 신호 모두 PCM 샘플들의 시퀀스들이다. 이러한 경우, 컨텍스트 믹서(190)는 생성된 컨텍스트 신호(S50) 및 컨텍스트-억제된 오디오 신호(S13)의 대응하는 샘플들의 쌍들을 (가능하게 프레임-기반 동작으로써) 추가하도록 구성될 수 있지만, 상이한 샘플링 분해능(sampling resolution)들을 가지는 신호들을 추가하도록 구현하는 것이 가능할 수도 있다. 또한, 오디오 신호(S10)는 일반적으로 PCM 샘플들의 시퀀스로서 구현된다. 일부 경우들에서, 컨텍스트 믹서(190)는 컨텍스트-향상된 신호에 대하여 (필터링 동작과 같은) 하나 이상의 다른 프로세싱 동작들을 수행하도록 구성된다.

컨텍스트 선택 신호(S40)는 2개 이상의 컨텍스트들 중 적어도 하나의 선택을 표시한다. 일 예에서, 컨텍스트 선택 신호(S40)는 기존의 컨텍스트의 하나 이상의 특징들에 기초하는 컨텍스트 선택을 표시한다. 예를 들어, 컨텍스트 선택 신호(S40)는 오디오 신호(S10)의 하나 이상의 비활성 프레임들의 하나 이상의 시간 및/또는 주파수 특징들에 관련된 정보에 기초할 수 있다. 코딩 모드 선택기(20)는 컨텍스트 선택 신호(S40)를 이러한 방식으로 생성하도록 구성될 수 있다. 대안적으로, 장치(X100)는 컨텍스트 선택 신호(S40)를 이러한 방식으로 생성하도록 구성되는 (예를 들어, 도 7에 도시되는 바와 같은) 컨텍스트 분류기(320)를 포함하도록 구현될 수 있다. 예를 들어, 컨텍스트 분류기는 El-Maleh et al., "Frame-level Noise Classification in Mobile Environments," Proc. IEEE Int'l Conf. ASSP, 1999, vol. I, pp. 237-240; 미국 출원 번호 제6,782,361호(El-Maleh et al.)인 미국 특허 출원; 및 Qian et al., "Classified Comfort Noise Generation for Efficient Voice Transmission," Interspeech 2006, Pittsburgh, PA, pp. 225-228에서 기재되는 동작들과 같은 기존의 컨텍스트의 선 스펙트럼 주파수(LSF)들에 기초하는 컨텍스트 분류 동작을 수행하도록 구성될 수 있다.

다른 예에서, 컨텍스트 선택 신호(S40)는 (예를 들어, GPS(Global Positioning Satellite) 시스템으로부터 획득되고, 삼각 측량 또는 다른 레인징 동작을 통해 계산되며 그리고/또는 기지국 트랜시버 또는 다른 서버로부터 수신되는 정보에 기초하는) 장치(X100)를 포함하는 디바이스의 물리적 위치와 관련된 정보와 같이 하나 이상의 다른 기준들에 기초하는 컨텍스트 선택, 대응하는 컨텍스트들과 상이한 시간들 또는 시간 기간들을 연관시키는 스케줄 및 (비지니스 모드, 수딩 모드(soothing mode), 파티 모드와 같은) 사용자-선택된 컨텍스트 모드를 표시한다. 이러한 경우들에서, 장치(X100)는 (예를 들어, 도 8에 도시되는 바와 같이) 컨텍스트 선택기(330)를 포함하도록 구현될 수 있다. 컨텍스트 선택기(330)는 전술된 기준과 같이 하나 이상의 변수들의 대응 값들과 상이한 컨텍스트들을 연관시키는 하나 이상의 인덱싱된 데이터 구조들(예를 들어, 테이블들)을 포함하도록 구현될 수 있다. 다른 예에서, 컨텍스트 선택 신호(S40)는 2개 이상의 컨텍스트들의 리스트 중 하나의 리스트의 (예를 들어, 메뉴와 같은 그래픽 사용자 인터페이스로부터의) 사용자 선택을 표시한다. 컨텍스트 선택 신호(S40)의 다른 예들은 상기 예들의 임의의 조합에 기초하는 신호들을 포함한다.

도 9A는 컨텍스트 데이터베이스(130) 및 컨텍스트 생성 엔진(140)을 포함하는 컨텍스스 생성기(120)의 구현(122)의 블록 다이어그램을 도시한다. 컨텍스트 데이터베이스(120)는 상이한 컨텍스트들을 설명하는 파라미터 값들의 세트들을 저장하도록 구성된다. 컨텍스트 생성 엔진(140)은 컨텍스트 선택 신호(S40)의 상태에 따라 선택되는 저장된 파라미터 값들의 세트에 따라 컨텍스트를 생성하도록 구성된다.

도 9B는 컨텍스트 생성기(122)의 구현(124)의 블록 다이어그램을 도시한다. 이러한 예에서, 컨텍스트 생성 엔진(140)의 구현(144)은 컨텍스트 선택 신호(S40)를 수신하고 컨텍스트 데이터베이스(130)의 구현으로부터 파라미터 값들의 대응하는 세트를 리트리브하도록 구현된다. 도 9C는 컨텍스트 생성기(122)의 다른 구현(126)의 블록 다이어그램을 도시한다. 이러한 예에서, 컨텍스트 데이터베이스(130)의 구현(136)은 컨텍스트 선택 신호(S40)를 수신하고 컨텍스트 생성 엔진(140)의 구현(146)에 대응하는 파라미터 값들의 세트를 제공하도록 구성된다.

컨텍스트 데이터베이스(130)는 대응하는 컨텍스트들을 설명하는 2개 이상의 파라미터 값들의 세트를 저장하도록 구성된다. 컨텍스트 생성기(120)의 다른 구현들은 (예를 들어, www-dot-ietf- dot-org에서 이용가능하고, RFC 3261에서 현재 설명되는 바와 같이, 세션 개시 프로토콜(SIP)의 버전을 사용하여) 서버 또는 다른 비-로컬 데이터베이스와 같은 컨텐츠 공급자로부터 또는 (예를 들어, Cheng et al., "A Collaborative Privacy-Enhanced Alibi Phone," Proc. Int'l Conf. Grid and Pervasive Computing, pp. 405-414, Taichung, TW, May 2006에 설명되는 바와 같이) 피어-투-피어 네트워크로부터 선택되는 컨텍스트에 대응하는 파라미터 값들의 세트를 다운로딩하도록 구성되는 컨텍스트 생성 엔진(140)의 구현을 포함할 수 있다.

컨텍스트 생성기(120)는 (예를 들어, PCM 샘플들의 시퀀스와 같은) 샘플링된 디지털 신호의 형태로 컨텍스트를 리트리브 또는 다운로딩하도록 구성될 수 있다. 그러나, 저장 및/또는 비트 레이트 제한들로 인하여, 이러한 컨텍스트는 전형적인 통신 세션(예를 들어, 전화 호출)보다 훨씬 더 짧을 가능성이 있을 수 있어, 호출 중에 동일한 컨텍스트가 여러 번 반복되도록 요구하고 청취자에 대하여 수용불가능하게 전환하는 결과(distracting result)를 도출한다. 대안적으로, 많은 양의 저장 및/또는 높은-비트-레이트 다운로드 접속은 지나치게 반복적인 결과를 회피하는 것을 필요로 할 가능성이 있을 것이다.

대안적으로, 컨텍스트 생성 엔진(140)은 스펙트럼 및/또는 에너지 파라미터 값들의 세트와 같이 리트리브되거나 다운로딩된 파라메트릭 표현으로부터 컨텍스트를 생성하도록 구성될 수 있다. 예를 들어, 컨텍스트 생성 엔진(140)은 SID 프레임에 포함될 수 있는 바와 같이, 스펙트럼 포락선(예를 들어, LSF 값들의 벡터)의 디스크립션 및 여기 신호의 디스크립션에 기초하여 컨텍스트 신호(S50)의 다수의 프레임들을 생성하도록 구성될 수 있다. 컨텍스트 생성 엔진(140)의 이러한 구현은 생성된 컨텍스트의 반복의 인식을 감소시키기 위해서 파라미터 값들의 세트를 랜덤화하도록 구성될 수 있다.

컨텍스트 생성 엔진(140)이 사운드 텍스쳐를 설명하는 템플릿에 기초하여 생성된 컨텍스트 신호(S50)를 생성하는 것이 바람직할 수 있다. 이러한 일 예에서, 컨텍스트 생성 엔진(140)은 상이한 길이들의 복수의 자연적인 그레인(natural grain)들을 포함하는 템플릿에 기초하여 과립형 합성(granular synthesis)을 수행하도록 구성된다. 다른 예에서, 컨텍스트 생성 엔진(140)은 시간-주파수 선형 예측(CTFLP) 분석의 시간-도메인 및 주파수-도메인 계수들을 포함하는 템플릿에 기초하여 CTFLP 합성을 수행하도록 구성된다(CTFLP 분석에서, 원래의 신호는 주파수 도메인에서 선형 예측을 사용하여 리모델링되고, 이후 이러한 분석의 나머지는 주파수 도메인에서 선형 예측을 사용하여 모델링된다). 다른 예에서, 컨텍스트 생성 엔진(140)은 상이한 시간 및 주파수 스케일들에서 적어도 하나의 기본 함수의 계수들(예를 들어, Daubechies 스케일링 함수와 같은 스케일링 함수의 계수들 및 Daubechies 웨이브렛 함수와 같은 웨이브렛 함수의 계수들)을 설명하는 다중분해능 분석(MRA) 트리를 포함하는 템플릿에 기초하여 다중분해능 합성을 수행하도록 구성된다. 도 10은 평균 계수들 및 상세 계수들의 시퀀스들에 기초하여 생성된 컨텍스트 신호(S50)의 다중분해능 합성의 일 예를 도시한다.

컨텍스트 생성 엔진(140)이 음성 통신 세션의 예상되는 길이에 따라 생성된 컨텍스트 신호(S50)를 생성하는 것이 바람직할 수 있다. 이러한 일 예에서, 컨텍스트 생성 엔진(140)은 평균 전화 호출 길이에 따라 생성된 컨텍스트 신호(S50)를 생성하도록 구성된다. 평균 호출 길이에 대한 전형적인 값들은 1분 내지 4분의 범위에 있고, 컨텍스트 생성 엔진(140)은 사용자 선택 시에 변경될 수 있는 디폴트 값(예를 들어, 2분)을 사용하도록 구현될 수 있다.

컨텍스트 생성 엔진(140)이 동일한 템플릿에 기초하는 몇몇 또는 다양한 상이한 컨텍스트 신호 클립들을 포함하기 위해서 생성된 컨텍스트 신호(S50)를 생성하는 것이 바람직할 수 있다. 원하는 수의 상이한 클립들은 디폴트 값으로 세팅되고 장치(X100)의 사용자에 의해 선택될 수 있으며, 이러한 수의 통상적인 범위는 5부터 20까지이다. 이러한 일 예에서, 컨텍스트 생성 엔진(140)은 평균 호출 길이 및 원하는 수의 상이한 클립들에 기초하는 클립 길이에 따라 상이한 클립들 각각을 계산하도록 구성된다. 전형적으로 클립 길이는 프레임 길이보다 1, 2, 또는 3 자릿수가 더 크다. 일 예에서, 평균 호출 길이 값은 2분이고, 원하는 수의 상이한 클립들은 10이며, 클립 길이는 2분을 10으로 나눔으로써 12초로 계산된다.

이러한 경우들에서, 컨텍스트 생성 엔진(140)은 원하는 수의 상이한 클립들 ― 각각은 동일한 템플릿에 기초하고 계산된 클립 길이를 가짐 ― 을 생성하고 생성된 컨텍스트 신호(S50)를 생성하기 위해서 이러한 클립들을 연접(concatenate)시키거나 결합시키도록 구성될 수 있다. 컨텍스트 생성 엔진(140)은 필요한 경우(예를 들어, 통신의 길이가 평균 호출 길이를 초과하여야 하는 경우) 생성된 컨텍스트 신호(S50)를 반복하도록 구성될 수 있다. 유성으로부터 무성 프레임들로의 오디오 신호(S10)에서의 트랜지션에 따라 새로운 클립을 생성하기 위해서 컨텍스트 생성 엔진(140)을 구성하는 것이 바람직할 수 있다.

도 9D는 컨텍스트 생성 엔진(140)의 구현에 의해 수행될 수 있는 바와 같이 생성된 컨텍스트 신호(S50)를 생성하기 위한 방법(M100)의 흐름도를 도시한다. 태스크(T100)는 평균 호출 길이 값 및 원하는 수의 상이한 클립들에 기초하여 클립 길이를 계산한다. 태스크(T200)는 템플릿에 기초하여 원하는 수의 상이한 클립들을 생성한다. 태스크(T300)는 생성된 컨텍스트 신호(S50)를 생성하기 위해서 클립들을 결합시킨다.

태스크(T200)는 MRA 트리를 포함하는 템플릿으로부터 컨텍스트 신호 클립들을 생성하도록 구성될 수 있다. 예를 들어, 태스크(T200)는 템플릿 트리와 통계적으로 유사한 새로운 MRA 트리를 생성하고 상기 새로운 트리로부터 컨텍스트 신호 클립을 합성함으로써 각각의 클립을 생성하도록 구성될 수 있다. 이러한 경우, 태스크(T200)는 시퀀스들 중 하나 이상(가능하게는 모두)의 계수들 중 하나 이상(가능하게는 모두)이 유사한 조상(ancestor)들(즉, 보다 낮은 분해능에서의 시퀀스들에서) 및/또는 선행자들(즉, 동일한 시퀀스에서)을 가지는 템플릿 트리의 다른 계수들로 대체되는 템플릿 트리의 카피(copy)로서 새로운 MRA 트리를 생성하도록 구성될 수 있다. 다른 예에서, 태스크(T200)는 계수 값들의 템플릿 세트의 카피의 각각의 값에 작은 랜덤 값을 추가함으로써 계산되는 계수 값들의 새로운 세트로부터 각각의 클립을 생성하도록 구성된다.

태스크(T200)는 오디오 신호(S10) 및/또는 이에 기초하는 신호(예를 들어, 신호(S12 및/또는 S13) 중 하나 이상의 특징들에 따라 컨텍스트 신호 클립들 중 하나 이상(가능하게는 모두)을 스케일링하도록 구성될 수 있다. 이러한 특징들은 신호 레벨, 프레임 에너지, SNR, 하나 이상의 멜 주파수 켑스트럼 계수(Mel Frequency Cepstral Coefficient: MFCC)들 및/또는 신호 또는 신호들에 대한 음성 활성도 검출 동작의 하나 이상의 결과들을 포함할 수 있다. 태스크(T200)가 생성된 MRA 트리들로부터 클립들을 합성시키도록 구성되는 경우, 태스크(T200)는 생성된 MRA 트리들의 계수들에 대하여 이러한 스케일링을 수행하도록 구성될 수 있다. 컨텍스트 생성기(120)의 구현은 태스크(T200)의 이러한 구현을 수행하도록 구성될 수 있다. 추가적으로 또는 대안적으로, 태스크(T300)는 결합된 생성된 컨텍스트 신호에 대하여 이러한 스케일링을 수행하도록 구성될 수 있다. 컨텍스트 믹서(190)의 구현은 태스크(T300)의 이러한 구현을 수행하도록 구성될 수 있다.

태스크(T300)는 유사성의 측정에 따라 컨텍스트 신호 클립들을 결합시키도록 구성될 수 있다. 태스크(T300)는 (예를 들어, 후보 클립들의 세트에 대한 MFCC 벡터들의 상대적인 유사성들에 따른 클립들을 연접시키기 위해서) 유사한 MFCC 벡터들을 가지는 클립들을 연접시키도록 구성될 수 있다. 예를 들어, 태스크(T200)는 인접한 클립들의 MFCC 벡터들 사이에서, 결합된 클립들의 스트링 상에서 계산되는 총 거리를 최소화시키도록 구성될 수 있다. 태스크(T200)가 CTFLP 합성을 수행하도록 구성되는 경우, 태스크(T300)는 유사한 계수들로부터 생성된 클립들을 연접시키거나 결합시키도록 구성될 수 있다. 예를 들어, 태스크(T200)는 인접한 클립들의 LPC 계수들 사이에서, 결합된 클립들의 스트링 상에서 계산되는 총 거리를 최소화시키도록 구성될 수 있다. 태스크(T300)는 (예를 들어, 하나의 클립으로부터 다음 클립으로의 청취가능한 불연속성을 회피하기 위해서) 유사한 경계 천이들을 가지는 클립들을 연접시키도록 구성될 수도 있다. 예를 들어, 태스크(T200)는 인접한 클립들의 경계 영역들 상의 에너지들 사이에서, 결합된 클립들의 스트링 상에서 계산되는 총 거리를 최소화시키도록 구성될 수 있다. 이러한 예들 중 어떤 예에서도, 태스크(T300)는 연접이라기 보다는 오버랩-및-추가(overlap-and-add) 또는 크로스-페이드(cross-fade) 동작을 사용하여 인접한 클립들을 결합시키도록 구성될 수 있다.

전술된 바와 같이, 컨텍스트 생성 엔진(140)은 낮은 저장 비용 및 연장된 비-반복적인 생성을 허용하는 컴팩트한 표현 형태로 다운로딩 또는 리트리브될 수 있는 사운드 텍스쳐의 디스크립션에 기초하여 생성된 컨텍스트 신호(S50)를 생성하도록 구성될 수 있다. 이러한 기법들은 비디오 또는 시청각적인 애플리케이션들에 적용될 수도 있다. 예를 들어, 장치(X100)의 비디오-가능 구현은 대체 배경을 설명하는 파라미터 값들의 세트에 기초하여, 시청각적인 통신의 시각 컨텍스트(예를 들어, 배경 및/또는 조명 특징들)를 향상시키거나 대체하기 위해서 다중분해능 합성 동작을 수행하도록 구성될 수 있다.

컨텍스트 생성 엔진(140)은 통신 세션(예를 들어, 전화 호출) 전반에 걸쳐 랜덤 MRA 트리들을 반복적으로 생성하도록 구성될 수 있다. 보다 큰 트리가 생성하는데 더 오래 걸리는 것으로 예상될 수 있으므로, MRA 트리의 깊이는 지연에 대한 허용(tolerance)에 기초하여 선택될 수 있다. 다른 예에서, 컨텍스트 생성 엔진(140)은 상이한 템플릿들을 사용하여 다수의 짧은 MRA 트리들을 생성하고, 그리고/또는 다수의 랜덤 MRA 트리들을 선택하고, 그리고 보다 긴 샘플들의 시퀀스를 획득하기 위해서 이러한 트리들 중 2개 이상을 믹싱하고 그리고/또는 연접시키도록 구성될 수 있다.

이득 제어 신호(S90)의 상태에 따라 생성된 컨텍스트 신호(S50)의 레벨을 제어하도록 장치(X100)를 구성하는 것이 바람직할 수 있다. 예를 들어, 컨텍스트 생성기(120) (또는 컨텍스트 생성 엔진(140)과 같은 이것의 엘리먼트)는 가능하게는 생성된 컨텍스트 신호(S50)에 대하여 또는 신호(S50)의 프리커서에 대하여(예를 들어, 템플릿 트리로부터 생성되는 템플릿 트리 또는 MRA 트리의 계수들에 대하여) 스케일링 동작을 수행함으로써, 이득 제어 신호(S90)의 상태에 따라 특정 레벨에서 생성된 컨텍스트 신호(S50)를 생성하도록 구성될 수 있다. 다른 예에서, 도 13A는 이득 제어 신호(S90)의 상태에 따라 생성된 컨텍스트 신호(S50)에 대하여 스케일링 동작을 수행하도록 배열되는 실러(sealer)(예를 들어, 곱셈기)를 포함하는 컨텍스트 믹서(190)의 구현의 블록 다이어그램을 도시한다. 또한, 컨텍스트 믹서(192)는 컨텍스트-억제된 오디오 신호(S13)에 스케일링된 컨텍스트 신호를 추가하도록 구성되는 추가기를 포함한다.

장치(X100)를 포함하는 디바이스는 사용자 선택에 따라 이득 제어 신호(S90)의 상태를 세팅하도록 구성될 수 있다. 예를 들어, 이러한 디바이스에는 디바이스의 사용자가 생성된 컨텍스트 신호(S50)의 원하는 레벨을 선택할 수 있는 볼륨 제어(예를 들어, 스위치 또는 손잡이, 또는 이러한 기능성을 제공하는 그래픽 사용자 인터페이스)가 장착될 수 있다. 이러한 경우, 디바이스는 선택된 레벨에 따라 이득 제어 신호(S90)의 상태를 세팅하도록 구성될 수 있다. 다른 예에서, 이러한 볼륨 제어는 사용자로 하여금 (예를 들어, 컨텍스트-억제된 오디오 신호(S13)의) 스피치 컴포넌트의 레벨과 관련된 생성된 컨텍스트 신호(S50)의 원하는 레벨을 선택하게 하도록 구성될 수 있다.

도 11A는 이득 제어 신호 계산기(195)를 포함하는 컨텍스트 프로세서(102)의 구현(108)의 블록 다이어그램을 도시한다. 이득 제어 신호 계산기(195)는 시간이 경과함에 따라 변화할 수 있는 신호(S13)의 레벨에 따라 이득 제어 신호(S90)를 계산하도록 구성된다. 예를 들어, 신호(S13)의 활성 프레임의 평균 에너지에 기초하여 이득 제어 신호(S90)의 상태를 세팅하도록 구성될 수 있다. 이러한 경우에 추가적으로 또는 대안적으로, 장치(X100)를 포함하는 디바이스에는 사용자로 하여금 (예를 들어, 프리커서 신호의 레벨을 제어함으로써) 스피치 컴포넌트(예를 들어, 신호(S13))의 또는 컨텍스트-향상된 오디오 신호(S15)의 레벨을 직접 제어하거나, 이러한 레벨을 간접적으로 제어하게 하도록 구성되는 볼륨 제어가 장착될 수 있다.

장치(X100)는 시간이 경과함에 따라 변화할 수 있는 오디오 신호들(S10, S12 및 S13) 중 하나 이상의 레벨과 관련된 생성된 컨텍스트 신호(S50)의 레벨을 제어하도록 구성될 수 있다. 일 예에서, 장치(X100)는 오디오 신호(S10)의 원래의 컨텍스트의 레벨에 따라 생성된 컨텍스트 신호(S50)의 레벨을 제어하도록 구성된다. 장치(X100)의 이러한 구현은 활성 프레임들 동안의 컨텍스트 억제기(110)의 입력 및 출력 레벨들 사이의 관계(예를 들어, 차이)에 따라 이득 제어 신호(S90)를 계산하도록 구성되는 이득 제어 신호 계산기(195)의 구현을 포함할 수 있다. 예를 들어, 이러한 이득 제어 계산기는 오디오 신호(S10)의 레벨 및 컨텍스트-억제된 오디오 신호(S13)의 레벨 사이의 관계(예를 들어, 차이)에 따라 이득 제어 신호(S90)를 계산하도록 구성될 수 있다. 이러한 이득 제어 계산기는 신호들(S10 및 S13)의 활성 프레임들의 레벨들로부터 계산될 수 있는 오디오 신호(S10)의 SNR에 따라 이득 제어 신호(S90)를 계산하도록 구성될 수 있다. 이러한 이득 제어 신호 계산기는 스무딩(smooth)(예를 들어, 평균화)되는 입력 레벨에 기초하여 이득 제어 신호(S90)를 계산하도록 구성될 수 있고 그리고/또는 시간이 경과함에 따라 스무딩(예를 들어, 평균화)되는 이득 제어 신호(S90)를 출력하도록 구성될 수 있다.

다른 예에서, 장치(X100)는 원하는 SNR에 따라 생성된 컨텍스트 신호(S50)의 레벨을 제어하도록 구성된다. 컨텍스트-향상된 오디오 신호(S15)의 활성 프레임들에서 스피치 컴포넌트(예를 들어, 컨텍스트-억제된 오디오 신호(S13))의 레벨 및 생성된 컨텍스트 신호(S50)의 레벨 사이의 비로서 특징화될 수 있는 SNR은 "신호-대-컨텍스트 비"의 활성 프레임들로 지칭될 수도 있다. 원하는 SNR 값은 사용자-선택될 수 있고 그리고/또는 하나의 생성된 컨텍스트로부터 다른 컨텍스트로 변경될 수 있다. 예를 들어, 상이한 생성된 컨텍스트 신호들(S50)은 상이한 대응하는 원하는 SNR 값들과 연관될 수 있다. 원하는 SNR 값들의 전형적인 범위는 20 내지 25dB이다. 다른 예에서, 장치(X100)는 컨텍스트-억제된 오디오 신호(S13)(예를 들어, 전경 신호)의 레벨보다 더 적도록 생성된 컨텍스트 신호(S50)(예를 들어, 배경 신호)의 레벨을 제어하도록 구성된다.

도 11B는 이득 제어 신호 계산기(195)의 구현(197)을 포함하는 컨텍스트 프로세서(102)의 구현(109)의 블록 다이어그램을 도시한다. 이득 제어 계산기(197)는 (A) 원하는 SNR 값 및 (B) 신호들(S13 및 S50)의 레벨들 사이의 비 사이의 관계에 따라 이득 제어 신호(S90)를 계산하도록 구성 및 배열된다. 일 예에서, 상기 비가 원하는 SNR 값보다 더 적은 경우, 이득 제어 신호(S90)의 대응하는 상태는 (예를 들어, 컨텍스트-억제된 신호(S13)에 그것을 추가하기 전에 생성된 컨텍스트 신호(S50)의 레벨을 증가시키기 위해서) 컨텍스트 믹서(192)로 하여금 보다 높은 레벨에서 생성된 컨텍스트 신호(S50)를 믹싱하게 하고, 상기 비가 원하는 SNR 값보다 더 큰 경우, 이득 제어 신호(S90)의 대응하는 상태는 (예를 들어, 신호(S13)에 그것을 추가하기 전에 신호(S50)의 레벨을 감소시키기 위해서) 컨텍스트 믹서(192)로 하여금 보다 낮은 레벨에서 생성된 컨텍스트 신호(S50)를 믹싱하게 한다.

전술된 바와 같이, 이득 제어 신호 계산기(195)는 하나 이상의 입력 신호들(예를 들어, S10, S13, S50) 각각의 레벨에 따라 이득 제어 신호(S90)의 상태를 계산하도록 구성된다. 이득 제어 신호 계산기(195)는 하나 이상의 활성 프레임들 상에서 평균화된 신호의 진폭으로써 입력 신호의 레벨을 계산하도록 구성될 수 있다. 대안적으로, 이득 제어 신호 계산기(195)는 하나 이상의 활성 프레임들 상에서 평균화된 신호의 에너지로써 입력 신호의 레벨을 계산하도록 구성될 수 있다. 전형적으로, 프레임의 에너지는 프레임의 제곱된 샘플들의 합계로써 계산된다. 계산된 레벨들 및/또는 이득 제어 신호(S90) 중 하나 이상을 필터링(예를 들어, 평균화 또는 스무딩)하도록 이득 제어 신호 계산기(195)를 구성하는 것이 바람직할 수 있다. 예를 들어, (예를 들어, 신호의 계산된 프레임에 제 1 차 또는 보다 높은 차수의 유한-임펄스-응답 또는 무한-임펄스-응답 필터를 적용시킴으로써) S10 또는 S13과 같은 입력 신호의 프레임 에너지의 이동 평균(running average)을 계산하고, 이득 제어 신호(S90)를 계산하는데 평균 에너지를 사용하도록 이득 제어 신호 계산기(195)를 구성하는 것이 바람직할 수 있다. 이와 유사하게, 컨텍스트 타이머(192)에 그리고 컨텍스트 생성기(120)에 그것을 출력하기 전에 이득 제어 신호(S90)에 이러한 필터를 적용시키도록 이득 제어 신호 계산기(195)를 구성하는 것이 바람직할 수 있다.

오디오 신호(S10)의 컨테스트 컴포넌트의 레벨이 스피치 컴포넌트 레벨과는 독립적으로 변경되는 것이 가능하고, 이러한 경우, 이에 따라 생성된 컨텍스트 신호(S50)의 레벨을 변경하는 것이 바람직할 수 있다. 예를 들어, 컨텍스트 생성기(120)는 오디오 신호(S10)의 SNR에 따라 생성된 컨텍스트 신호(S50)의 레벨을 변경하도록 구성될 수 있다. 이러한 방식으로, 컨텍스트 생성기(120)는 오디오 신호(S10)에서의 원래의 컨텍스트의 레벨을 근사화하기 위해서 생성된 컨텍스트 신호(S50)의 레벨을 제어하도록 구성될 수 있다.

스피치 컴포넌트와는 독립적인 컨텍스트 컴포넌트의 착각(illusion)을 유지하기 위해서, 신호 레벨이 변화하는 경우에도 일정한 컨텍스트 레벨을 유지하는 것이 바람직할 수 있다. 신호 레벨의 변화들은 예를 들어, 마이크로폰으로의 발화자의 입(mouth)의 지향의 변화들로 인하여 또는 볼륨 변조 또는 다른 표현적 효과와 같은 발화자의 음성의 변화들로 인하여 발생할 수 있다. 이러한 경우들에서, 생성된 컨텍스트 신호(S50)의 레벨이 통신 세션(예를 들어, 통신 호출)의 듀레이션 동안 일정하게 유지되는 것이 바람직할 수 있다.

여기에서 설명되는 바와 같은 장치(X100)의 구현이 음성 통신 또는 저장을 위해서 구성되는 임의의 타입의 디바이스에 포함될 수 있다. 이러한 디바이스의 예들은 다음의 것들: 전화, 셀룰러 전화, 헤드셋(예를 들어, Bluetooth™ 무선 프로토콜의 버전을 통해 모바일 사용자 단말과 풀 듀플렉스 방식으로 통신하도록 구성되는 이어폰), 개인용 디지털 보조기(PDA), 랩톱 컴퓨터, 음성 레코더, 게임 플레이어, 음악 플레이어, 디지털 카메라를 포함할 수 있지만 이것들에 제한되지 않는다. 또한, 디바이스는 여기에서 설명되는 바와 같은 장치(X100)의 구현이 디바이스의 송신기 또는 트랜시버 부분 내에 포함될 수 있거나 인코딩된 오디오 신호(S20)를 공급하도록 구성될 수 있도록, 무선 통신을 위한 모바일 사용자 단말로서 구성될 수 있다.

유선 및/또는 무선 텔레포니에 대한 시스템과 같이 음성 통신을 위한 시스템은 전형적으로 다수의 송신기들 및 수신기들을 포함한다. 송신기 및 수신기는 트랜시버로서 공통 하우징 내에 함께 통합되거나 구현될 수 있다. 충분한 이용가능한 프로세싱, 저장 및 업그레이드가능성(upgradeability)을 가지는 송신기 또는 트랜시버에 대한 업그레이드물로써 장치(X100)를 구현하는 것이 바람직할 수 있다. 예를 들어, 장치(X100)의 구현은 스피치 인코더(X10)의 구현을 이미 포함하는 디바이스에 (예를 들어, 펌웨어 업데이트에서) 컨텍스트 프로세서(100)의 엘리먼트들을 추가함으로써 구현될 수 있다. 일부 경우들에서, 이러한 업그레이드는 통신 시스템의 임의의 다른 부분을 변경하지 않고도 수행될 수 있다. 예를 들어, 수신기들로의 어떠한 대응하는 변화들이 이루어지지 않고도 장치(X100)의 구현을 포함하도록 통신 시스템 내의 송신기들(예를 들어, 무선 셀룰러 텔레포니를 위한 시스템 내의 하나 이상의 모바일 단말들 각각의 송신기 부분) 중 하나 이상을 업그레이드하는 것이 바람직할 수 있다. 결과적인 디바이스가 역호환가능하게(backward-compatible) 유지되는(예를 들어, 디바이스가 컨텍스트 프로세서(100)의 사용을 포함하지 않는 그것의 이전 동작들의 모두 또는 거의 모두를 수행할 수 있게 유지되는) 방식으로 업그레이드를 수행하는 것이 바람직할 수 있다.

장치(X100)의 구현이 인코딩된 오디오 신호(S20)에 생성된 컨텍스트 신호(S50)를 삽입하는데 사용되는 경우, 발화자(즉, 장치(X100)의 구현을 포함하는 디바이스의 사용자)가 송신을 모니터링할 수 있는 것이 바람직할 수 있다. 예를 들어, 발화자가 생성된 컨텍스트 신호(S50) 및/또는 컨텍스트-향상된 오디오 신호(S15)를 청취할 수 있는 것이 바람직할 수 있다. 이러한 능력은 생성된 컨텍스트 신호(S50)가 기존의 컨텍스트와 유사하지 않은 경우에 특히 바람직할 수 있다.

따라서, 장치(X100)의 구현을 포함하는 디바이스는 생성된 컨텍스트 신호(S50) 및 컨텍스트-향상된 오디오 신호(S15) 중 적어도 하나를 이어폰, 스피커 또는 디바이스의 하우징 내에 위치하는 다른 오디오 트랜스듀서로; 디바이스의 하우징 내에 위치하는 오디오 출력 잭으로; 그리고/또는 디바이스의 하우징 내에 위치하는 단거리 무선 송신기(예를 들어, Bluetooth Special Interest Group, Bellevue, WA 및/또는 다른 개인-영역 네트워크 프로토콜에 의해 공표되는 바와 같이, Bluetooth 프로토콜의 버전을 따르는 송신기)로 피드백하도록 구성될 수 있다. 이러한 디바이스는 생성된 컨텍스트 신호(S50) 또는 컨텍스트-향상된 오디오 신호(S15)로부터 아날로그 신호를 생성하도록 구성 및 배열되는 디지털-아날로그 변환기(DAC)를 포함할 수 있다. 또한, 이러한 디바이스는 그것이 잭 및/또는 트랜스듀서에 적용되기 전에 아날로그 신호에 대하여 하나 이상의 아날로그 프로세싱 동작들(예를 들어, 필터링, 등화 및/또는 증폭)을 수행하도록 구성될 수 있다. 장치(X100)가 이러한 DAC 및/또는 아날로그 프로세싱 경로를 포함하도록 구성되는 것이 가능하지만 반드시 그럴 필요는 없다.

음성 통신의 디코더 종단에서(예를 들어, 수신기에서 또는 리트리브 시에) 전술된 인코더-측(encoder-side) 기법들과 유사한 방식으로 기존의 컨텍스트를 대체하거나 향상시키는 것이 바람직할 수 있다. 또한, 대응하는 송신기 또는 인코딩 장치로의 변경을 요구하지 않고 이러한 기법들을 구현하는 것이 바람직할 수 있다.

도 12A는 인코딩 오디오 신호(S20)를 수신하고 대응하는 디코딩된 오디오 신호(S110)를 생성하도록 구성되는 스피치 디코더(R10)의 블록 다이어그램을 도시한다. 스피치 디코더(R10)는 코딩 방식 디코더(60), 활성 프레임 디코더(70) 및 비활성 프레임 디코더(80)를 포함한다. 인코딩된 오디오 신호(S20)는 스피치 인코더(X10)에 의해 생성될 수 있는 바와 같은 디지털 신호이다. 디코더들(70 및 80)은 활성 프레임 디코더(70)가 활성 프레임 인코더(30)에 의해 인코딩된 프레임들을 디코딩하도록 구성되고, 비활성 프레임 디코더(80)가 비활성 프레임 인코더(40)에 의해 인코딩된 프레임들을 디코딩하도록 구성되도록, 전술된 바와 같이 스피치 인코더(X10)의 인코더들에 대응하도록 구성될 수 있다. 스피치 디코더(R10)는 전형적으로 (예를 들어, 포먼트 주파수들을 강조하고 그리고/또는 스펙트럼 최소치들을 감쇠시킴으로써) 양자화 잡음을 감소시키기 위해서 디코딩된 오디오 신호(S110)를 프로세싱하도록 구성되는 포스트필터(postfilter)를 포함하며, 적응형 이득 제어를 포함할 수도 있다. 디코더(R10)를 포함하는 디바이스는 이어폰, 스피커 또는 다른 오디오 트랜스듀서로의 출력을 위한 디코딩된 오디오 신호(S110)로부터 아날로그 신호를 생성하도록 구성되는 디지털-아날로그 변환기(DAC) 및/또는 디바이스의 하우징 내에 위치하는 오디오 출력 잭을 포함할 수 있다. 또한, 이러한 디바이스는 그것이 잭 및/또는 트랜스듀서에 적용되기 전에 아날로그 신호에 대하여 하나 이상의 아날로그 프로세싱 동작들(예를 들어, 필터링, 등화 및/또는 증폭)을 수행하도록 구성될 수 있다.

코딩 방식 검출기(60)는 인코딩된 오디오 신호(S20)의 현재 프레임에 대응하는 코딩 방식을 표시하도록 구성된다. 적절한 코딩 비트 레이트 및/또는 코딩 모드는 프레임의 포맷에 의해 표시될 수 있다. 코딩 방식 검출기(60)는 레이트 검출을 수행하거나, 멀티플렉스 서브계층(sublayer)과 같이 스피치 디코더(R10)가 내장되는 장치의 다른 부분으로부터의 레이트 표시를 수신하도록 구성될 수 있다. 예를 들어, 코딩 방식 검출기(60)는 비트 레이트를 표시하는 패킷 타입 표시자를 멀티플렉스 서브계층으로부터 수신하도록 구성될 수 있다. 대안적으로, 코딩 방식 검출기(60)는 프레임 에너지와 같은 하나 이상의 파라미터들로부터 인코딩된 프레임의 비트 레이트를 결정하도록 구성될 수 있다. 일부 애플리케이션들에서, 코딩 시스템은 인코딩된 프레임의 비트 레이트 또한 코딩 모드를 표시하도록, 특정 비트 레이트에 대하여 단지 하나의 코딩 모드만을 사용하도록 구성된다. 다른 경우들에서, 인코딩된 프레임은 프레임이 인코딩됨에 따라 코딩 모드를 식별하는 하나 이상의 비트들의 세트와 같은 정보를 포함할 수 있다. 이러한 정보("코딩 인덱스"로도 지칭됨)는 (예를 들어, 다른 가능한 코딩 모드들에 대하여 무효한 값을 표시함으로써) 코딩 모드를 명백하게 또는 내포적으로 표시할 수 있다.

도 12A는 코딩 방식 디코더(60)에 의해 생성된 코딩 방식 표시가 활성 프레임 디코더(70) 및 비활성 프레임 디코더(80) 중 하나를 선택하기 위해서 스피치 디코더(R10)의 선택기들(90a 및 90b) 쌍을 제어하는데 사용되는 예를 도시한다. 스피치 디코더(R10)의 소프트웨어 또는 펌웨어 구현이 프레임 디코더들 중 하나 또는 다른 것으로의 여기의 흐름을 지시하기 위해서 코딩 방식 표시를 사용할 수 있다는 점과, 이러한 구현이 선택기(90a)에 대한 그리고/또는 선택기(90b)에 대한 아날로그를 포함하지 않는다는 점에 유의하여야 한다. 도 12B는 특징이 여기에서 설명되는 다른 스피치 디코더 구현들 중 임의의 것에 포함될 수 있는 다수의 코딩 방식들로 인코딩되는 활성 프레임들의 디코딩을 지원하는 스피치 디코더(R10)의 구현(R20)의 예를 도시한다. 스피치 디코더(R20)는 코딩 방식 검출기(60)의 구현(62); 선택기들(90a, 90b)의 구현들(92a, 92b); 및 상이한 코딩 방식들(예를 들어, 풀-레이트 CELP 및 1/2-레이트 NELP)을 사용하여 인코딩된 프레임들을 디코딩하도록 구성되는 활성 프레임 디코더(70)의 구현들(70a, 70b)을 포함한다.

활성 프레임 디코더(70) 또는 비활성 프레임 디코더(80)의 전형적인 구현은 (예를 들어, LPC 계수 값 형태로의 역양자화된 벡터 또는 벡터들의 변환에 선행하는 역양자화를 통해) 인코딩된 프레임으로부터 LPC 계수 값들을 추출하고, 합성 필터를 구성하기 위해서 상기 값들을 사용하도록 구성된다. 인코딩된 프레임으로부터 다른 값들에 따라 그리고/또는 의사랜덤 잡음 신호에 기초하여 계산되거나 생성되는 여기 신호는 대응하는 디코딩된 프레임을 재생성하기 위해서 합성 필터를 여기하는데 사용된다.

프레임 디코더들 중 2개 이상이 공통 구조를 공유할 수 있다는 점에 유의하여야 한다. 예를 들어, 디코더들(70 및 80)(또는 디코더들(70a, 70b 및 80)은 가능하게는 비활성 프레임들과는 상이한 활성 프레임들에 대한 순서를 가지는 결과를 생성하도록 구성되는, LPC 계수 값들의 계산기를 공유할 수 있지만, 상이한 시간적 디스크립션 계산기들을 각각 가질 수 있다. 또한, 스피치 디코더(R10)의 소프트웨어 또는 펌웨어 구현이 프레임 디코더들의 하나 또는 다른 것으로의 여기의 흐름을 지시하기 위해서 코딩 방식 검출기(60)의 출력을 사용할 수 있다는 점과, 이러한 구현이 선택기(90a) 및/또는 선택기(90b)에 대한 아날로그를 포함하지 않을 수 있다는 점에 유의하여야 한다.

도 13B는 일반적인 구성에 따른 장치(R100)(디코더, 디코딩 장치 또는 디코딩을 위한 장치로도 지칭됨)의 블록 다이어그램을 도시한다. 장치(R100)는 디코딩된 오디오 신호(S100)로부터 기존의 컨텍스트를 제거하고, 그것을 기존의 컨텍스트와 유사하거나 이와 상이할 수 있는 생성된 컨텍스트로 대체하도록 구성된다. 스피치 디코더(R10)의 엘리먼트들에 추가로, 장치(R100)는 컨텍스트-향상된 오디오 신호(S115)를 생성하기 위해서 오디오 신호(S110)를 프로세싱하도록 구성 및 배열되는 컨텍스트 프로세서(100)의 구현(200)을 포함한다. 셀룰러 전화와 같은 장치(R100)를 포함하는 통신 디바이스는 인코딩된 오디오 신호(S20)를 획득하기 위해서, 에러-보정, 리던던시 및/또는 프로토콜(예를 들어, Ethernet, TCP/IP, CDMA2000) 코딩과 같은 유선, 무선 또는 광 송신 채널로부터(예를 들어, 하나 이상의 캐리어들의 무선-주파수 복조를 통해) 수신되는 신호에 대하여 프로세싱 동작들을 수행하도록 구성될 수 있다.

도 14A에 도시되는 바와 같이, 컨텍스트 프로세서(200)는 컨텍스트 억제기(110)의 인스턴스(210), 컨텍스트 생성기(120)의 인스턴스(220) 및 컨텍스트 믹서(190)의 인스턴스(290)를 포함하도록 구성될 수 있고, 여기서 이러한 인스턴스들은 (전술된 바와 같은 다수의 마이크로폰들로부터의 신호들을 사용하는 컨텍스트 억제기(110)의 구현들이 장치(R100)에서의 사용에 적합하지 않을 수 있다는 점을 제외하고는) 도 3B 및 4B를 참조하여 전술된 다양한 구현들 중 임의의 구현에 따라 구성된다. 예를 들어, 컨텍스트 프로세서(200)는 컨텍스트-억제된 오디오 신호(S113)를 획득하기 위해서 오디오 신호(S110)에 대하여, Wiener 필터링 동작과 같은, 잡음 억제기(10)를 참조하여 전술된 바와 같은 잡음 억제 동작의 공격적인 구현을 수행하도록 구성되는 컨텍스트 억제기(110)의 구현을 포함할 수 있다. 다른 예에서, 컨텍스트 프로세서(200)는 컨텍스트-억제된 오디오 신호(S113)를 획득하기 위해서, 전술된 바와 같이 (예를 들어, 오디오 신호(S110)의 하나 이상의 비활성 프레임들의) 기존의 컨텍스트의 통계적인 디스크립션에 따라, 오디오 신호(S110)에 대하여 스펙트럼 차감 동작을 수행하도록 구성되는 컨텍스트 억제기(110)의 구현을 포함한다. 이러한 경우에 추가적으로 또는 대안적으로, 컨텍스트 프로세서(200)는 오디오 신호(S110)에 대하여 전술된 바와 같은 센터 클리핑 동작을 수행하도록 구성될 수 있다.

컨텍스트 억제기(100)를 참조하여 전술된 바와 같이, (예를 들어, 컨텍스트 억제가 없는 것으로부터 실질적으로 완전한 컨텍스트 억제로의 범위인) 2개 이상의 상이한 동작 모드들 중 구성가능하도록 컨텍스트 억제기(200)를 구현하는 것이 바람직할 수 있다. 도 14B는 프로세스 제어 신호(S30)의 인스턴스(S130)의 상태에 따라 동작하도록 구성되는, 컨텍스트 억제기(112) 및 컨텍스트 생성기(122)의 인스턴스들(212 및 222)을 각각 포함하는 장치(R100)의 구현(R110)의 블록 다이어그램을 도시한다.

컨텍스트 생성기(220)는 컨텍스트 선택 신호(S40)의 인스턴스(S140)의 상태에 따라 생성된 컨텍스트 신호(S50)의 인스턴스(S150)를 생성하도록 구성된다. 2개 이상의 컨텍스트들 중 적어도 하나의 선택을 제어하는 컨텍스트 선택 신호(S140)의 상태는 (예를 들어, 전술된 바와 같은 GPS 및/또는 다른 정보에 기초하는) 장치(R100), 대응하는 컨텍스트들과 상이한 시간들 또는 시간 기간들을 연관시키는 스케줄, (예를 들어, "자동 번호 식별"(ANI) 또는 호출자 ID 시그널링으로도 지칭되는 호출 번호 식별(CNID)을 통해 결정되는 바와 같은) 호출자의 신원, (비지니스 모드, 수딩 모드, 파티 모드와 같은) 사용자-선택된 세팅 또는 모드 및/또는 2개 이상의 컨텍스트들 중 하나에 대한 (예를 들어, 메뉴와 같은 그래픽 사용자 인터페이스를 통한) 사용자 선택을 포함하는 디바이스의 물리적 위치와 관련된 정보와 같은 하나 이상의 기준에 기초할 수 있다. 예를 들어, 장치(R100)는 상이한 컨텍스트들과 이러한 기준의 값들을 연관시키는 전술된 바와 같은 컨텍스트 선택기(330)의 인스턴스를 포함하도록 구현될 수 있다. 다른 예에서, 장치(R100)는 오디오 신호(S110)의 기존의 컨텍스트의 하나 이상의 특징들(예를 들어, 오디오 신호(S110)의 하나 이상의 비활성 프레임들의 하나 이상의 시간적 그리고/또는 주파수 특징들과 관련된 정보)에 기초하여 컨텍스트 선택 신호(S140)를 생성하도록 구성되는 전술된 바와 같은 컨텍스트 분류기(320)의 인스턴스를 포함하도록 구현된다. 컨텍스트 생성기(220)는 전술된 바와 같이 컨텍스트 생성기(120)의 다양한 구현들 중 임의의 구현에 따라 구성될 수 있다. 예를 들어, 컨텍스트 생성기(220)는 로컬 저장으로부터 선택된 컨텍스트를 설명하는 파라미터 값들을 리트리브하거나 (예를 들어, SIP를 통해) 서버와 같은 외부 디바이스로부터 이러한 파라미터 값들을 다운로딩하도록 구성될 수 있다. 통신 세션(예를 들어, 전화 호출)의 시작 및 끝 각각과 컨텍스트 선택 신호(S50)를 생성하는 개시 및 종료를 동기화하도록 컨텍스트 생성기(220)를 구성하는 것이 바람직할 수 있다.

프로세스 제어 신호(S130)는 (즉, 오디오 신호(S110)의 기존의 컨텍스트 또는 대체 컨텍스트를 가지는 오디오 신호를 출력하기 위하여) 컨텍스트 억제를 인에이블링 또는 디스에이블링하기 위해서 컨텍스트 억제기(212)의 동작을 제어한다. 도 14B에 도시되는 바와 같이, 프로세스 제어 신호(S130)는 컨텍스트 생성기(222)를 인에이블링 또는 디스에이블링하도록 배열될 수도 있다. 대안적으로, 컨텍스트 선택 신호(S140)는 컨텍스트 생성기(220)에 의한 널(null) 출력을 선택하는 상태를 포함하도록 구성될 수 있고, 또는 컨텍스트 믹서(290)는 상기 컨텍스트 믹서(190)를 참조하여 설명되는 바와 같은 인에이블링/디스에이블링 제어 입력으로서 프로세스 제어 신호(S130)를 수신하도록 구성될 수 있다. 프로세서 제어 신호(S130)는 그것이 컨텍스트 억제기(212)에 의해 수행되는 억제의 레벨을 변경하는데 사용될 수 있도록, 2개 이상의 상태를 가지도록 구현될 수 있다. 장치(R100)의 다른 구현들은 수신기에서의 주위 사운드의 레벨에 따라, 컨텍스트 억제의 레벨 및/또는 생성된 컨텍스트 신호(S150)의 레벨을 제어하도록 구성될 수 있다. 예를 들어, 이러한 구현은 (예를 들어, 장치(R100)를 포함하는 디바이스의 마이크로폰으로부터의 신호를 사용하여 센싱되는 바와 같이) 주위 사운드의 레벨과 역으로 관련하여 오디오 신호(S115)의 SNR을 제어하도록 구성될 수 있다. 또한, 비활성 프레임 디코더(80)가 인공 컨텍스트(artificial context)의 사용이 선택될 시에 파워 다운(power down)될 수 있다는 점에 명백하게 유의하여야 한다.

일반적으로, 장치(R100)는 적절한 코딩 방식에 따라 각각의 프레임을 디코딩하고, (가능하게는 가변도(variable degree)만큼) 기존의 컨텍스트를 억제하며, 일부 레벨에 따라 생성된 텍스트 신호(S150)를 추가함으로써 활성 프레임들을 프로세싱하도록 구성될 수 있다. 비활성 프레임들에 대하여, 장치(R100)는 각각의 프레임 (또는 각각의 SID 프레임)을 디코딩하고 생성된 컨텍스트 신호(S150)를 추가하도록 구현될 수 있다. 대안적으로, 장치(R100)는 비활성 프레임들을 무시 또는 폐기하고 그들을 생성된 컨텍스트 신호(S150)로 대체하도록 구성될 수 있다. 예를 들어, 도 15는 컨텍스트 억제가 선택될 시에 비활성 프레임 디코더(80)의 출력을 폐기하도록 구성되는 장치(R200)의 구현을 도시한다. 이러한 예는 생성된 컨텍스트 신호(S150) 프로세스 제어 신호(S130)의 상태에 따라 비활성 프레임 디코더(80)의 출력 중 하나를 선택하도록 구성되는 선택기(250)를 포함한다.

장치(R100)의 다른 구현들은 활성 프레임들에서 컨텍스트 억제를 위한 컨텍스트 억제기(210)에 의해 적용되는 잡음 모델을 향상시키기 위해서 디코딩된 오디오 신호의 하나 이상의 비활성 프레임들로부터의 정보를 사용하도록 구성될 수 있다. 추가적으로 또는 대안적으로, 이러한 장치(R100)의 다른 구현들은 생성된 컨텍스트 신호(S150)의 레벨을 제어하기 위해서(예를 들어, 컨텍스트-향상된 오디오 신호(S115))의 SNR을 제어하기 위해서) 디코딩된 오디오 신호의 하나 이상의 비활성 프레임들로부터의 정보를 사용하도록 구성될 수 있다. 또한, 장치(R100)는 디코딩된 오디오 신호의 하나 이상의 활성 프레임들 및/또는 디코딩된 오디오 신호의 하나 이상의 다른 비활성 프레임들 내에 기존의 컨텍스트를 보충하기 위해서 디코딩된 오디오 신호의 비활성 프레임들로부터의 컨텍스트 정보를 사용하도록 구현될 수 있다. 예를 들어, 이러한 구현은 송신기 및/또는 불충분한 코딩 레이트 또는 SID 송신 레이트에서의 과도한 공격적인 잡음 억제와 같은 이러한 요인들로 인하여 손실된 기존의 컨텍스트를 대체하는데 사용될 수 있다.

전술된 바와 같이, 장치(R100)는 인코딩된 오디오 신호(S20)를 생성하는 인코더에 의한 동작 없이 컨텍스트 향상 또는 대체를 그리고/또는 인코딩된 오디오 신호(S20)를 생성하는 인코더의 변경을 수행하도록 구성될 수 있다. 장치(R100)의 이러한 구현은 신호(S20)가 수신되는 대응하는 송신기에 의한 동작 없이 컨텍스트 향상 또는 대체를 그리고/또는 신호(S20)가 수신되는 대응하는 송신기의 변경을 수행하도록 구성되는 수신기 내에 포함될 수 있다. 대안적으로, 장치(R100)는 독립적으로 또는 인코더 제어에 따라 (예를 들어, SIP 서버로부터) 컨텍스트 파라미터 값들을 다운로딩하도록 구성될 수 있고, 그리고/또는 이러한 수신기는 독립적으로 또는 송신기 제어에 따라 (예를 들어, SIP 서버로부터) 컨텍스트 파라미터 값들을 다운로딩하도록 구성될 수 있다. 이러한 경우들에서, SIP 서버 또는 다른 파라미터 값 소스는 인코더 또는 송신기에 의한 컨텍스트 선택이 디코더 또는 수신기에 의한 컨텍스트 선택을 오버라이딩(override)하도록 구성될 수 있다.

컨텍스트 향상 및/또는 대체의 동작들에서 협동하는, 여기에서 설명되는 원리들에 따라(예를 들어, 장치(X100 및 R100)의 구현들에 따라), 스피치 인코더들 및 디코더들을 구현하는 것이 바람직할 수 있다. 이러한 시스템 내에서, 원하는 컨텍스트를 표시하는 정보가 몇몇 상이한 형태들 중 임의의 형태로 디코더로 전송될 수 있다. 예들의 제 1 클래스에서, 컨텍스트 정보는 LSF 값들의 벡터 및 에너지 값들의 대응하는 시퀀스(예를 들어, 사일런스 디스크립터 또는 SID)와 같은, 또는 (도 10의 MRA 트리 예에서 도시되는 바와 같은) 평균 시퀀스 및 상세 시퀀스들의 대응하는 세트와 같은, 파라미터 값들의 세트를 포함하는 디스크립션으로서 전송된다. 파라미터 값들의 세트(예를 들어, 벡터)는 하나 이상의 코드북 인덱스들로서의 송신을 위해서 양자화될 수 있다.

예들의 제 2 클래스에서, 컨텍스트 정보는 하나 이상의 컨텍스트 식별자들("컨텍스트 선택 정보"로도 지칭됨)로서 디코더로 전송된다. 컨텍스트 식별자는 2개 이상의 상이한 오디오 컨텍스트들의 리스트 내의 특정 엔트리에 대응하는 인덱스로서 구현될 수 있다. 이러한 경우들에서, (디코더에 로컬로 또는 외부적으로 저장될 수 있는) 인덱싱되는 리스트 엔트리는 파라미터 값들을 포함하는 대응하는 컨텍스트의 디스크립션을 포함할 수 있다. 하나 이상의 컨텍스트 식별자들에 추가적으로 또는 대안적으로, 오디오 컨텍스트 선택 정보는 인코더의 물리적 위치 및/또는 컨텍스트 모드를 표시하는 정보를 포함할 수 있다.

이러한 클래스들 중 어느 클래스에서든, 컨텍스트 정보는 인코더로부터 디코더로 직접 그리고/또는 간접적으로 전송될 수 있다. 직접 송신에서, 인코더는 인코딩된 오디오 신호(S20) 내에서(즉, 동일한 논리 채널 상에서 그리고 스피치 컴포넌트와 동일한 프로토콜 스택을 통해) 그리고 개별적인 송신 채널(예를 들어, 상이한 프로토콜을 사용할 수 있는 데이터 채널 또는 다른 개별적인 논리 채널)상에서 컨텍스트 정보를 디코더로 전송한다. 도 16은 선택된 오디오 컨텍스트에 대한 스피치 컴포넌트 및 인코딩된(예를 들어, 양자화된) 파라미터 값들을 상이한 논리 채널들 상에서(예를 들어, 동일한 무선 신호 내에서 또는 상이한 신호들 내에서) 송신하도록 구성되는 장치(X100)의 구현(X200)의 블록 다이어그램을 도시한다. 이러한 특정 예에서, 장치(X200)는 전술된 바와 같이 프로세스 제어 신호 생성기(340)의 인스턴스를 포함한다.

도 16에 도시되는 장치(X200)의 구현은 컨텍스트 인코더(150)를 포함한다. 이러한 예에서, 컨텍스트 인코더(150)는 컨텍스트 디스크립션(예를 들어, 컨텍스트 파라미터 값들(S70)의 세트)에 기초하는 인코딩된 컨텍스트 신호(S80)를 생성하도록 구성된다. 컨텍스트 인코더(150)는 특정 애플리케이션에 적합한 것으로 간주되는 임의의 코딩 방식에 따라 인코딩된 컨텍스트 신호(S80)를 생성하도록 구성될 수 있다. 이러한 코딩 방식은 Huffman 코딩, 산술 코딩, 레인지 인코딩 및 런-길이-인코딩(run-length-encoding)과 같은 하나 이상의 압축 동작들을 포함할 수 있다. 이러한 코딩 방식은 손실이 많고 그리고/또는 손실이 없을 수 있다. 이러한 코딩 방식은 고정된 길이를 가지는 결과 및/또는 가변 길이를 가지는 결과를 생성하도록 구성될 수 있다. 이러한 코딩 방식은 컨텍스트 디스크립션의 적어도 일부분을 양자화하는 것을 포함할 수 있다.

또한, 컨텍스트 인코더(150)는 (예를 들어, 전송 및/또는 애플리케이션 계층에서) 컨텍스트 정보의 프로토콜 인코딩을 수행하도록 구성될 수 있다. 이러한 경우, 컨텍스트 인코더(150)는 패킷 형성 및/또는 핸드쉐이킹(handshaking)과 같은 하나 이상의 관련된 동작들을 수행하도록 구성될 수 있다. 임의의 다른 인코딩 동작을 수행하지 않고도 컨텍스트 정보를 전송하도록 컨텍스트 인코더(150)의 이러한 구현을 구성하는 것이 바람직할 수 있다.

도 17은 오디오 신호(S10)의 비활성 프레임들에 대응하는 인코딩된 오디오 신호(S20)의 프레임 기간들로 선택된 컨텍스트를 식별하거나 설명하는 정보를 인코딩하도록 구성되는 장치(X100)의 다른 구현(X210)의 블록 다이어그램을 도시한다. 이러한 프레임 기간들은 여기에서 "인코딩된 오디오 신호(S20)의 비활성 프레임들"로도 지칭된다. 일부 경우들에서, 선택된 컨텍스트의 충분한 양의 디스크립션이 컨텍스트 생성을 위해서 수신되는 때까지 디코더에서 지연이 발생할 수 있다.

관련된 예에서, 장치(X210)는 디코더에서 로컬로 저장되는 컨텍스트 디스크립션에 대응하는 초기 컨텍스트 식별자를 전송하도록 구성되고 그리고/또는 (예를 들어, 호출 셋업 동안) 서버와 같은 다른 디바이스로부터 다운로딩되며, 또한 (예를 들어, 인코딩된 오디오 신호(S20)의 비활성 프레임들 상에서) 상기 컨텍스트 디스크립션으로 후속적인 업데이트들을 전송하도록 구성된다. 도 18은 인코딩된 오디오 신호(S20)의 비활성 프레임들로 오디오 컨텍스트 선택 정보(예를 들어, 선택된 컨텍스트의 식별자)를 인코딩하도록 구성되는 장치(X100)의 관련된 구현(X220)의 블록 다이어그램을 도시한다. 이러한 경우, 장치(X220)는 심지어 하나의 프레임으로부터 다음 프레임으로, 통신 세션의 코스 동안 컨텍스트 식별자를 업데이트하도록 구성될 수 있다.

도 18에 도시되는 장치(X220)의 구현은 컨텍스트 인코더(150)의 구현(152)을 포함한다. 컨텍스트 인코더(152)는 물리적 위치 및/또는 컨텍스트 모드의 표시와 같은 하나 이상의 컨텍스트 식별자들 및/또는 다른 정보를 포함할 수 있는 오디오 컨텍스트 선택 정보(예를 들어, 컨텍스트 선택 신호(S40))에 기초하는 인코딩된 컨텍스트 신호(S80)의 인스턴스(S82)를 생성하도록 구성된다. 컨텍스트 인코더(150)를 참조하여 전술된 바와 같이, 컨텍스트 인코더(152)는 특정 애플리케이션에 적합한 것으로 간주되는 임의의 코딩 방식에 따라 인코딩된 컨텍스트 신호(S82)를 생성하도록 구성되고 그리고/또는 컨텍스트 선택 정보의 프로토콜 인코딩을 수행하도록 구성될 수 있다.

인코딩된 오디오 신호(S20)의 비활성 프레임들로 컨텍스트 정보를 인코딩하도록 구성되는 장치(X100)의 구현들은 각각의 비활성 프레임 내에서 또는 불연속적으로 이러한 컨텍스트 정보를 인코딩하도록 구성될 수 있다. 불연속 송신(DTX)의 일 예에서, 이러한 장치(X100)의 구현은 예를 들어, 매 5 또는 10초마다 또는 매 128 또는 256 프레임들마다 일정한 간격에 따라 인코딩된 오디오 신호(S20)의 하나 이상의 비활성 프레임들의 시퀀스로 선택된 컨텍스트를 식별 또는 설명하는 정보를 인코딩하도록 구성된다. 불연속 송신(DTX)의 다른 예에서, 장치(X100)의 이러한 구현은 상이한 컨텍스트의 선택과 같이, 일부 이벤트에 따라 인코딩된 오디오 신호(S20)의 하나 이상의 비활성 프레임들의 시퀀스로 이러한 정보를 인코딩하도록 구성된다.

장치(X210 및 X220)는 프로세스 제어 신호(S30)의 상태에 따라 기존의 컨텍스트 (즉, 레거시 동작) 또는 컨텍스트 대체 중 하나의 인코딩을 수행하도록 구성된다. 이러한 경우들에서, 인코딩된 오디오 신호(S20)는 대체 컨텍스트와 관련된 기존의 컨텍스트 또는 정보를 포함하는지의 여부를 표시하는 플래그(예를 들어, 가능하게는 각각의 비활성 프레임에 포함되는, 하나 이상의 비트들)를 포함할 수 있다. 도 19 및 20은 비활성 프레임들 동안 기존의 컨텍스트의 송신에 대한 지원 없이 구성되는 대응하는 장치(장치(X300) 및 장치(X300)의 구현(X310) 각각)의 블록 다이어그램들을 도시한다. 도 19의 예에서, 활성 프레임 인코더(30)는 제 1 인코딩된 오디오 신호(S20a)를 생성하도록 구성되고, 코딩 방식 선택기(20)는 제 2 인코딩된 오디오 신호(S20b)를 생성하기 위해서 제 1 인코딩된 오디오 신호(S20a)의 비활성 프레임들에 인코딩된 컨텍스트 신호(S80)를 삽입하도록 선택기(50b)를 제어하도록 구성된다. 도 20의 예에서, 활성 프레임 인코더(30)는 제 1 인코딩된 오디오 신호(S20a)를 생성하도록 구성되고, 코딩 방식 선택기(20)는 제 2 인코딩된 오디오 신호(S20b)를 생성하기 위해서 제 1 인코딩된 오디오 신호(S20a)의 비활성 프레임들에 인코딩된 컨텍스트 신호(S82)를 삽입하도록 선택기(50b)를 제어하도록 구성된다. 이러한 예들에서, (예를 들어, 인코딩된 프레임들의 시리즈와 같이) 패킷화된 형태로 제 1 인코딩된 오디오 신호(20a)를 생성하도록 활성 프레임 인코더(30)를 구성하는 것이 바람직할 수 있다. 이러한 경우들에서, 선택기(50b)는 코딩 방식 선택기(20)에 의해 표시되는 바와 같이, 컨텍스트-억제된 신호의 비활성 프레임들에 대응하는 제 1 인코딩된 오디오 신호(S20a)의 패킷들(예를 들어, 인코딩된 프레임들) 내의 적절한 위치들에서 인코딩된 컨텍스트 신호를 삽입하도록 구성될 수 있거나, 선택기(50b)는 코딩 방식 선택기(20)에 의해 표시되는 바와 같이, 제 1 인코딩된 오디오 신호(S20a) 내의 적절한 위치들에서 컨텍스트 인코더(150 또는 152)에 의해 생성되는 패킷들(예를 들어, 인코딩된 프레임들)을 삽입하도록 구성될 수 있다. 전술된 바와 같이, 인코딩된 컨텍스트 신호(S80)는 선택된 오디오 컨텍스트를 설명하는 파라미터 값들의 세트와 같이 인코딩된 컨텍스트 신호(S80)와 관련된 정보를 포함할 수 있고, 인코딩된 컨텍스트 신호(S82)는 오디오 컨텍스트들의 세트 중 선택되는 하나를 식별하는 컨텍스트 식별자와 같은 인코딩된 컨텍스트 신호(S80)와 관련된 정보를 포함할 수 있다.

간접 송신에서, 디코더는 인코딩된 오디오 신호(S20)와는 상이한 논리 채널 상에서 뿐만 아니라 서버와 같은 상이한 엔티티로부터 컨텍스트 정보를 수신한다. 예를 들어, 디코더는 인코더의 식별자(예를 들어, www-dot-ietf-dot-org에서 이용가능한, RFC 3986에 설명되는 바와 같은, URI(Uniform Resource Identifier) 또는 URL(Uniform Resource Locator)), 디코더의 식별자(예를 들어, URL) 및/또는 특정 통신 세션의 식별자를 사용하여 서버로부터 컨텍스트 정보를 요청하도록 구성될 수 있다. 도 21A는 디코더가 프로토콜 스택(P20)을 통해 그리고 제 1 논리 채널 상에서 인코더로부터 수신되는 정보에 따라, 프로토콜 스택(P10)을 통해(예를 들어, 컨텍스트 생성기(220) 및/또는 컨텍스트 디코더(252) 내에서) 그리고 제 2 논리 채널 상에서 서버로부터 컨텍스트 정보를 다운로드하는 예를 도시한다. 스택들(P10 및 P20)은 분리될 수 있거나, 하나 이상의 계층들(예를 들어, 물리 계층, 매체 액세스 제어 계층 및 논리 링크 계층)을 공유할 수 있다. 링톤 또는 음악 파일 또는 스트림의 다운로딩과 유사한 방식으로 수행될 수 있는 서버로부터 디코더로 컨텍스트 정보를 다운로딩하는 것은 SIP와 같은 프로토콜을 사용하여 수행될 수 있다.

다른 예들에서, 컨텍스트 정보는 직접 및 간접 송신의 소정의 결합에 의해 인코더로부터 디코더로 전송될 수 있다. 일반적인 일 예에서, 인코더는 서버와 같이 시스템 내의 다른 디바이스로 (예를 들어, 오디오 컨텍스트 선택 정보와 같은) 하나의 형태로 컨텍스트 정보를 전송하고, 다른 디바이스는 디코더로 (예를 들어, 컨텍스트 디스크립션과 같은) 다른 형태로 대응하는 컨텍스트 정보를 전송한다. 이러한 전송의 특정 예에서, 서버는 ("푸시(push)"로도 지칭되는) 디코더로부터의 정보에 대한 요청을 수신하지 않고 디코더로 컨텍스트 정보를 전달하도록 구성된다. 예를 들어, 서버는 호출 셋업 동안 디코더로 컨텍스트 정보를 푸시하도록 구성될 수 있다. 도 21B는 서버가 프로토콜 스택(P30)을 통해 (예를 들어, 컨텍스트 인코더(152) 내에서) 그리고 제 3 논리 채널 상에서 인코더에 의해 전송되는, 디코더의 URL 또는 다른 식별자를 포함할 수 있는 정보에 따라 제 2 논리 채널 상에서 디코더로 컨텍스트 정보를 다운로딩하는 예를 도시한다. 이러한 경우, 인코더로부터 서버로의 전송 및/또는 서버로부터 디코더로의 전송은 SIP와 같은 프로토콜을 사용하여 수행될 수 있다. 또한, 이러한 예는 프로토콜 스택(P40)을 통해 그리고 제 1 논리 채널 상에서 인코더로부터 디코더로 인코딩된 오디오 신호(S20)의 송신을 예시한다. 스택들(P30 및 P40)은 분리될 수 있거나, 하나 이상의 계층들(예를 들어, 물리 계층, 매체 액세스 제어 계층 및 논리 링크 계층 중 하나 이상)을 공유할 수 있다.

도 21B에 도시되는 바와 같은 인코더는 호출 셋업 동안 서버로 비활성 메시지를 전송함으로써 SIP 세션을 개시하도록 구성될 수 있다. 이러한 일 예에서, 인코더는 서버로 (예를 들어, GPS 좌표들의 세트와 같은) 컨텍스트 식별자 또는 물리적 위치와 같은 오디오 컨텍스트 선택 정보를 전송한다. 또한, 인코더는 서버로 디코더의 URI 및/또는 인코더의 URI와 같은 엔티티 식별 정보를 전송할 수 있다. 서버가 선택된 오디오 컨텍스트를 지원하는 경우, 그것은 인코더로 ACK 메시지를 전송하고 SIP 세션은 종료된다.

인코더-디코더 시스템은 인코더에서 기존의 컨텍스트를 억제함으로써 또는 디코더에서 기존의 컨텍스트를 억제함으로써 활성 프레임들을 프로세싱하도록 구성될 수 있다. 하나 이상의 잠재적인 이점들은 디코더에서보다는 인코더에서 컨텍스트 억제를 수행함으로써 실현될 수 있다. 예를 들어, 활성 프레임 인코더(30)는 기존의 컨텍스트가 억제되지 않는 오디오 신호보다 더 양호한 컨텍스트-억제된 오디오 신호에 대한 코딩 결과를 달성하도록 예상될 수 있다. 또한, 다수의 마이크로폰들로부터의 오디오 신호들을 사용하는 기법들과 같은 (예를 들어, 블라인드 소스 분리) 보다 양호한 억제 기법들이 인코더에서 이용가능할 수 있다. 발화자가 청취자가 청취할 동일한 컨텍스트-억제된 스피치 컴포넌트를 청취할 수 있는 것이 바람직할 수 있고, 인코더에서 컨텍스트 억제를 수행하는 것은 이러한 특징을 지원하기 위해서 사용될 수 있다. 물론, 인코더 및 디코더 모두에서 컨텍스트 억제를 구현하는 것이 가능하다.

인코더-디코더 시스템 내에서 생성된 컨텍스트 신호(S150)가 인코더 및 디코더 모두에서 이용가능한 것이 바람직할 수 있다. 예를 들어, 발화자가 청취자가 청취할 동일한 컨텍스트-향상된 오디오 신호를 청취할 수 있는 것이 바람직할 수 있다. 이러한 경우, 선택된 컨텍스트의 디스크립션은 인코더 및 디코더 모두에서 저장되고 그리고/또는 인코더 및 디코더 모두로 다운로딩될 수 있다. 또한, 디코더에서 수행될 컨텍스트 생성 동작이 인코더에서 중복될 수 있도록, 생성된 컨텍스트 신호(S150)를 결정론적으로 생성하도록 컨텍스트 생성기(220)를 구성하는 것이 바람직할 수 있다. 예를 들어, 컨텍스트 생성기(220)는 CTFLP 합성에 사용되는 랜덤 여기 신호와 같은 생성 동작에서 사용될 수 있는 임의의 랜덤 값 또는 신호를 계산하기 위해서 인코더 및 디코더 모두에 공지되어 있는 하나 이상의 값들(예를 들어, 인코딩된 오디오 신호(S20)의 하나 이상의 값들)을 사용하도록 구성될 수 있다.

인코더-디코더 시스템은 몇몇 상이한 방식들 중 임의의 방식으로 비활성 프레임들을 프로세싱하도록 구성될 수 있다. 예를 들어, 인코더는 인코딩된 오디오 신호(S20) 내에 기존의 컨텍스트를 포함하도록 구성될 수 있다. 기존의 컨텍스트의 포함은 레거시 동작을 지원하기 위해서 바람직할 수 있다. 또한, 전술된 바와 같이, 디코더는 컨텍스트 억제 동작을 지원하기 위해서 기존의 컨텍스트를 사용하도록 구성될 수 있다.

대안적으로, 인코더는 하나 이상의 컨텍스트 식별자들 및/또는 디스크립션들과 같은 선택된 컨텍스트와 관련된 정보를 전달하기 위해서 인코딩된 오디오 신호(S20)의 비활성 프레임들 중 하나 이상을 사용하도록 구성될 수 있다. 도 19에 도시되는 바와 같은 장치(X300)는 기존의 컨텍스트를 송신하지 않는 인코더의 일 예이다. 전술된 바와 같이, 비활성 프레임들에서의 컨텍스트 식별자들의 인코딩은 전화 호출과 같은 통신 세션 동안 생성된 컨텍스트 신호(S150)를 업데이트하는 것을 지원하도록 사용될 수 있다. 대응하는 디코더는 신속하게 그리고 가능하게는 프레임 단위로 이러한 업데이트를 수행하도록 구성될 수 있다.

대안적으로, 인코더는 비활성 프레임들 동안 비트들을 거의 송신하지 않거나 비트들을 전혀 송신하지 않도록 구성될 수 있는데, 이는 인코더로 하여금 평균 비트 레이트를 증가시키지 않고도 활성 프레임들에 대한 보다 높은 코딩 레이트를 사용하게 할 수 있다. 시스템에 따라, 인코더가 접속을 유지하기 위해서 각각의 비활성 프레임 동안 소정의 최소 수의 비트들을 포함하는 것이 필요할 수 있다.

장치(X100)(예를 들어, 장치(X200, X210 또는 X220) 또는 X300)의 구현과 같은 인코더가 시간이 경과함에 따라 선택된 오디오 컨텍스트의 레벨의 변화들의 표시를 전송하는 것이 바람직할 수 있다. 이러한 인코더는 인코딩된 컨텍스트 신호(S80) 내에서 그리고/또는 상이한 논리 채널 상에서 파라미터 값들(예를 들어, 이득 파라미터 값들)로서 이러한 정보를 전송하도록 구성될 수 있다. 일 예에서, 선택된 컨텍스트의 디스크립션은 컨텍스트의 스펙트럼 분포를 설명하는 정보를 포함하고, 인코더는 스펙트럼 디스크립션과 상이한 레이트로 업데이트될 수 있는 개별적인 시간 디스크립션으로서 시간이 경과함에 따른 컨텍스트의 오디오 레벨의 변화들과 관련된 정보를 전송하도록 구성된다. 다른 예에서, 선택된 컨텍스트의 디스크립션은 제 1 시간 스케일 상에서(예를 들어, 유사한 길이의 프레임 또는 다른 구간 상에서) 컨텍스트의 스펙트럼 및 시간 특징들 모두를 설명하고, 인코더는 개별적인 시간 디스크립션으로서 제 2 시간 스케일(예를 들어, 프레임으로부터 프레임으로와 같은 보다 긴 시간 스케일) 상에서 컨텍스트의 오디오 레벨의 변화들과 관련된 정보를 전송하도록 구성된다. 이러한 예는 각각의 프레임에 대한 컨텍스트 이득 값을 포함하는 개별적인 시간 디스크립션을 사용하여 구현될 수 있다.

상기 2개의 예들 중 하나에 적용될 수 있는 다른 예에서, 선택된 컨텍스트의 디스크립션으로의 업데이트들은 (인코딩된 오디오 신호(S20)의 비활성 프레임들 내에서 또는 제 2 논리 채널 상에서) 불연속 송신을 사용하여 전송되고, 개별적인 시간 디스크립션으로의 업데이트들은 또한 (인코딩된 오디오 신호(S20)의 비활성 프레임들 내에서, 제 2 논리 채널 상에서, 또는 다른 논리 채널 상에서) 불연속 송신을 사용하여 전송되며, 2개의 디스크립션들은 상이한 구간들에서 그리고/또는 상이한 이벤트들에 따라 업데이트된다. 예를 들어, 이러한 인코더는 개별적인 시간 디스크립션보다 덜 빈번하게(예를 들어, 매 512, 1024 또는 2048 프레임들마다 대 매 4, 8 또는 16 프레임들마다) 선택된 컨텍스트의 디스크립션을 업데이트하도록 구성될 수 있다. 이러한 인코더의 다른 예는 기존의 컨텍스트의 하나 이상의 주파수 특징들의 변화에 따라 (그리고/또는 사용자 선택에 따라) 선택된 컨텍스트의 디스크립션을 업데이트하도록 구성되고, 기존의 컨텍스트의 레벨의 변화에 따라 개별적인 시간 디스크립션을 업데이트하도록 구성된다.

도 22, 23 및 24는 컨텍스트 대체를 수행하도록 구성되는 디코딩을 위한 장치의 예들을 예시한다. 도 22는 컨텍스트 선택 신호(S140)의 상태에 따라 생성된 컨텍스트 신호(S150)를 생성하도록 구성되는 컨텍스트 생성기(220)의 인스턴스를 포함하는 장치(R300)의 블록 다이어그램을 도시한다. 도 23은 컨텍스트 억제기(210)의 구현(218)을 포함하는 장치(R300)의 구현(R310)의 블록 다이어그램을 도시한다. 컨텍스트 억제기(218)는 컨텍스트 억제 동작(예를 들어, 스펙트럼 차감)을 지원하기 위해서 비활성 프레임들로부터의 기존의 컨텍스트 정보(예를 들어, 기존의 컨텍스트의 스펙트럼 분포)를 사용하도록 구성된다.

또한, 도 22 및 23에 도시되는 장치(R300 및 R310)의 구현들은 컨텍스트 디코더(252)를 포함한다. 컨텍스트 디코더(252)는 컨텍스트 선택 신호(S140)를 생성하기 위해서 (예를 들어, 컨텍스트 인코더(152)를 참조하여 전술된 인코딩 동작들과 상보적인) 인코딩된 컨텍스트 신호(S80)의 데이터 및/또는 프로토콜 디코딩을 수행하도록 구성된다. 대안적으로 또는 추가적으로, 장치(R300 및 R310)는 인코딩된 컨텍스트 신호(S80)의 대응하는 인스턴스에 기초하여 컨텍스트 디스크립션(예를 들어, 컨텍스트 파라미터 값들의 세트)을 생성하도록 구성되는, 전술된 바와 같은 컨텍스트 인코더(150)와 상보적인, 컨텍스트 디코더(250)를 포함하도록 구현될 수 있다.

도 24는 컨텍스트 생성기(220)의 구현(228)을 포함하는 스피치 디코더(R300)의 구현(R320)의 블록 다이어그램을 도시한다. 컨텍스트 생성기(228)는 컨텍스트 생성 동작을 지원하기 위해서 비활성 프레임들로부터 기존의 컨텍스트 정보(예를 들어, 시간 및/또는 주파수 도메인들에서의 기존의 컨텍스트의 에너지의 분포와 관련된 정보)를 사용하도록 구성된다.

여기에서 설명되는 바와 같은 인코딩을 위한 장치(예를 들어, 장치(X100 및 X300)) 및 디코딩을 위한 장치(예를 들어, 장치(R100, R200 및 R300))의 구현들의 다양한 엘리먼트들은 예를 들어, 칩셋 내의 동일한 칩 상에 또는 2개 이상의 칩들 사이에 상주하는 전자 및/또는 광 디바이스들로서 구현될 수 있지만, 이러한 제한이 없는 다른 배열들이 고려된다. 이러한 장치의 하나 이상의 엘리먼트들은 마이크로프로세서들, 내장된 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA(field-programmable gate array)들, ASSP(application-specific standard products), 및 ASIC(application-specific integrated circuit)들과 같은 논리 엘리먼트들(예를 들어, 트랜지스터들, 게이트들)의 하나 이상의 고정된 또는 프로그램가능한 어레이들 상에서 실행되도록 배열되는 명령들의 하나 이상의 세트들 전체 또는 일부분에서 구현될 수 있다.

사용될 이러한 장치의 구현의 하나 이상의 엘리먼트들이 태스크들을 수행하고 장치가 내장되는 디바이스 또는 시스템의 다른 동작과 관련된 태스크와 같은 장치의 동작과 직접 관련되지 않는 명령들의 다른 세트들을 실행하는 것이 가능하다. 또한, 이러한 장치의 구현의 하나 이상의 엘리먼트들이 공통적인 구조(예를 들어, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 코드의 부분들을 실행하는데 사용되는 프로세서, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 태스크들을 수행하도록 실행되는 명령들의 세트 또는 상이한 시간들에서 상이한 엘리먼트들에 대한 전자 및/또는 광 디바이스들의 배열)를 가지는 것이 가능하다. 일 예에서, 컨텍스트 억제기(110), 컨텍스트 생성기(120) 및 컨텍스트 믹서(190)는 동일한 프로세서 상에서 실행하도록 배열되는 명령들의 세트들로서 구현된다. 다른 예에서, 컨텍스트 프로세서(100) 및 스피치 인코더(X10)는 동일한 프로세서 상에서 실행하도록 배열되는 명령들의 세트로서 구현된다. 다른 예에서, 컨텍스트 프로세서(200) 및 스피치 디코더(R10)는 동일한 프로세서 상에서 실행하도록 배열되는 명령들의 세트들로서 구현된다. 다른 예에서, 컨텍스트 프로세서(100), 스피치 인코더(X10) 및 스피치 디코더(R10)는 동일한 프로세서 상에서 실행하도록 배열되는 명령들의 세트들로서 구현된다. 다른 예에서, 활성 프레임 인코더(30) 및 비활성 프레임 인코더(40)는 상이한 시간들에서 실행되는 명령들의 동일한 세트를 포함하도록 구현된다. 다른 예에서, 활성 프레임 디코더(70) 및 비활성 프레임 디코더(80)는 상이한 시간들에서 실행되는 명령들의 동일한 세트를 포함하도록 구현된다.

셀룰러 전화 또는 이러한 통신 능력을 가지는 다른 디바이스와 같은 무선 통신을 위한 디바이스는 인코더(예를 들어, 장치(X100 또는 X300)의 구현) 및 디코더(예를 들어, 장치(R100, R200 또는 R300)의 구현) 모두를 포함하도록 구성될 수 있다. 이러한 경우, 인코더 및 디코더가 공통적인 구조를 가지는 것이 가능하다. 이러한 일 예에서, 인코더 및 디코더는 동일한 프로세서 상에서 실행하도록 배열되는 명령들의 세트들을 포함하도록 구현된다.

여기에서 설명되는 다양한 인코더들 및 디코더들의 동작들은 신호 프로세싱의 방법들의 특정 예들로서 보여질 수도 있다. 이러한 방법은 태스크들의 세트로서 구현될 수 있고, 이들 중 하나 이상(가능하게는 모두)은 논리 엘리먼트들(예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기들 또는 다른 유한 상태 머신들)의 하나 이상의 어레이들에 의해 수행될 수 있다. 또한, 태스크들의 하나 이상(가능하게는 모두)은 코드가 데이터 저장 매체에 실체적으로(tangibly) 내장될 수 있는 논리 엘리먼트들의 하나 이상의 어레이들에 의해 실행가능한 코드(예를 들어, 명령들의 하나 이상의 세트들)로서 구현될 수 있다.

도 25A는 기재되는 구성에 따른 제 1 오디오 컨텍스트를 포함하는 디지털 오디오 신호를 프로세싱하는 방법(A100)의 흐름도를 도시한다. 방법(A100)은 태스크들(A110 및 A120)을 포함한다. 제 1 마이크로폰에 의해 생성되는 제 1 오디오 신호에 기초하여, 태스크(A110)는 컨텍스트-억제된 신호를 획득하기 위해서 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제한다. 태스크(A120)는 컨텍스트-향상된 신호를 획득하기 위해서 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱한다. 이러한 방법에서, 디지털 오디오 신호는 제 1 마이크로폰과 상이한 제 2 마이크로폰에 의해 생성되는 제 2 오디오 신호에 기초한다. 방법(A100)은 예를 들어, 여기에서 기재되는 바와 같은 장치(X100 또는 X300)의 구현에 의해 수행될 수 있다.

도 25B는 기재되는 구성에 따른 제 1 오디오 컨텍스트를 포함하는 디지털 오디오 신호를 프로세싱하기 위한 장치(AM100)의 블록 다이어그램을 도시한다. 장치(AM100)는 방법(A100)의 다양한 태스크들을 수행하기 위한 수단을 포함한다. 장치(AM100)는 컨텍스트-억제된 신호를 획득하기 위해서 제 1 마이크로폰에 의해 생성되는 제 1 오디오 신호에 기초하여 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하기 위한 수단(AM10)을 포함한다. 장치(AM100)는 컨텍스트-향상된 신호를 획득하기 위해서 컨텍스트-억제된 신호에 기초하여 신호와 제 2 오디오 컨텍스트를 믹싱하기 위한 수단(AM20)을 포함한다. 이러한 장치에서, 디지털 오디오 신호는 제 1 마이크로폰과 상이한 제 2 마이크로폰에 의해 생성되는 제 2 오디오 신호에 기초한다. 장치(AM100)의 다양한 엘리먼트들은 (예를 들어, 명령들의 하나 이상의 세트들, 논리 엘리먼트들의 하나 이상의 어레이들 등과 같은) 여기에서 기재되는 이러한 태스크들을 수행하기 위한 구조들 중 임의의 구조를 포함하는, 이러한 태스크들을 수행할 수 있는 임의의 구조들을 사용하여 구현될 수 있다. 장치(AM100)의 다양한 엘리먼트들의 예들은 장치(X100 및 X300)의 디스크립션들에서 여기에 기재된다.

도 26A는 기재되는 구성에 따라 프로세스 제어 신호의 상태에 따라 디지털 오디오 신호를 프로세싱하는 방법(B100)의 흐름도를 도시하고, 상기 디지털 오디오 신호는 스피치 컴포넌트 및 컨텍스트 컴포넌트를 가진다. 방법(B100)은 태스크들(B110, B120, B130 및 B140)을 포함한다. 태스크(B110)는 프로세스 제어 신호가 제 1 상태를 가질 시에 제 1 비트 레이트로 스피치 컴포넌트가 결여된 디지털 오디오 신호의 일부분의 프레임들을 인코딩한다. 태스크(B120)는 컨텍스트-억제된 신호를 획득하기 위해서, 프로세스 제어 신호가 제 1 상태와는 상이한 제 2 상태를 가질 시에, 디지털 오디오 신호로부터 컨텍스트 컴포넌트를 억제한다. 태스크(B130)는 컨텍스트-향상된 신호를 획득하기 위해서, 프로세스 제어 신호가 제 2 상태를 가질 시에, 컨텍스트-억제된 신호에 기초하는 신호와 오디오 컨텍스트 신호를 믹싱한다. 태스크(B140)는 프로세스 제어 신호가 제 2 상태를 가질 시에 제 2 비트 레이트로 스피치 컴포넌트가 결여된 컨텍스트-향상된 신호의 일부분의 프레임들을 인코딩하고, 상기 제 2 비트 레이트는 제 1 비트 레이트보다 더 높다. 방법(B100)은 예를 들어, 여기에서 설명되는 바와 같이 장치(X100)의 구현에 의해 수행될 수 있다.

도 26B는 기재되는 구성에 따른 프로세스 제어 신호의 상태에 따라 디지털 오디오 신호를 프로세싱하기 위한 장치(BM100)의 블록 다이어그램을 도시하고, 상기 디지털 오디오 신호는 스피치 컴포넌트 및 컨텍스트 컴포넌트를 가진다. 장치(BM100)는 프로세스 제어 신호가 제 1 상태를 가질 시에 제 1 비트에서 스피치 컴포넌트가 결여된 디지털 오디오 신호의 일부분의 프레임들을 인코딩하기 위한 수단(BM10)을 포함한다. 장치(BM100)는 컨텍스트-억제된 신호를 획득하기 위해서, 프로세스 제어 신호가 제 1 상태와는 상이한 제 2 상태를 가질 시에, 디지털 오디오 신호로부터 컨텍스트 컴포넌트를 억제하기 위한 수단(BM20)을 포함한다. 장치(BM100)는 컨텍스트-향상된 신호를 획득하기 위해서, 프로세스 제어 신호가 제 2 상태를 가질 시에 컨텍스트-억제된 신호에 기초하는 신호와 오디오 컨텍스트 신호를 믹싱하기 위한 수단(BM30)을 포함한다. 장치(BM100)는 프로세스 제어 신호가 제 2 상태를 가질 시에 제 2 비트 레이트로 스피치 컴포넌트가 결여된 컨텍스트-향상된 신호의 일부분의 프레임들을 인코딩하기 위한 수단(BM40)을 포함하고, 상기 제 2 비트 레이트는 제 1 비트 레이트보다 더 높다. 장치(BM100)의 다양한 엘리먼트들은 (예를 들어, 명령들의 하나 이상의 세트들, 논리 엘리먼트들의 하나 이상의 어레이들 등과 같은) 여기에서 기재되는 이러한 태스크들을 수행하기 위한 구조들 중 임의의 구조를 포함하는, 이러한 태스크들을 수행할 수 있는 임의의 구조들을 사용하여 구현될 수 있다. 장치(BM100)의 다양한 엘리먼트들의 예들은 장치(X100)의 디스크립션에서 여기에 기재된다.

도 27A는 기재되는 구성에 따라 제 1 트랜스듀서로부터 수신되는 신호에 기초하는 디지털 오디오 신호를 프로세싱하는 방법(C100)의 흐름도를 도시한다. 방법(C100)은 태스크들(C110, C120, C130 및 C140)을 포함한다. 태스크(C110)는 컨텍스트-억제된 신호를 획득하기 위해서 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제한다. 태스크(C120)는 컨텍스트-향상된 신호를 획득하기 위해서 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱한다. 태스크(C130)는 (A) 제 2 오디오 컨텍스트 및 (B) 컨텍스트-향상된 신호 중 적어도 하나에 기초하는 신호를 아날로그 신호로 변환한다. 태크스(C140)는 제 2 트랜스듀서로부터 아날로그 신호에 기초하는 청취가능한 신호를 생성한다. 이러한 방법에서, 제 1 및 제 2 트랜스듀서들 모두는 공통 하우징 내에 위치한다. 방법(C100)은 예를 들어, 여기에서 설명되는 바와 같은 장치(X100 또는 X300)의 구현에 의해 수행될 수 있다.

도 27B는 기재되는 구성에 따른 제 1 트랜스듀서로부터 수신되는 신호에 기초하는 디지털 오디오 신호를 프로세싱하기 위한 장치(CM100)의 블록 다이어그램을 도시한다. 장치(CM100)는 방법(C100)의 다양한 태스크들을 수행하기 위한 수단을 포함한다. 장치(CM100)는 컨텍스트-억제된 신호를 획득하기 위해서 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하기 위한 수단(CM110)을 포함한다. 장치(CM100)는 컨텍스트-향상된 신호를 획득하기 위해서 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱하기 위한 수단(CM120)을 포함한다. 장치(CM100)는 (A) 제 2 오디오 컨텍스트 및 (B) 컨텍스트-향상된 신호 중 적어도 하나에 기초하는 신호를 아날로그 신호로 변환하기 위한 수단(CM130)을 포함한다. 장치(CM100)는 제 2 트랜스듀서로부터 아날로그 신호에 기초하는 청취가능한 신호를 생성하기 위한 수단(CM140)을 포함한다. 이러한 장치에서, 제 1 및 제 2 트랜스듀서 모두는 공통 하우징 내에 위치한다. 장치(CM100)의 다양한 엘리먼트들은 (예를 들어, 명령들의 하나 이상의 세트들, 논리 엘리먼트들의 하나 이상의 어레이들 등과 같은) 여기에서 기재되는 이러한 태스크들을 수행하기 위한 구조들 중 임의의 구조를 포함하는, 이러한 태스크들을 수행할 수 있는 임의의 구조들을 사용하여 구현될 수 있다. 장치(CM100)의 다양한 엘리먼트들의 예들은 장치(X100 및 X300)의 디스크립션에서 여기에 기재된다.

도 28A는 기재되는 구성에 따라 인코딩된 오디오 신호를 프로세싱하는 방법(D100)의 흐름도를 도시한다. 방법(D100)은 태스크들(D110, D120 및 D130)을 포함한다. 태스크(D110)는 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 제 1 디코딩된 오디오 신호를 획득하기 위해서 제 1 코딩 방식에 따라 인코딩된 오디오 신호의 제 1 복수의 인코딩된 프레임들을 디코딩한다. 태스크(D120)는 제 2 디코딩된 오디오 신호를 획득하기 위해서 제 2 코딩 방식에 따라 인코딩된 오디오 신호의 제 2 복수의 인코딩된 프레임들을 디코딩한다. 제 2 디코딩된 오디오 신호로부터의 정보에 기초하여, 태스크(D130)는 컨텍스트-억제된 신호를 획득하기 위해서 제 1 디코딩된 오디오 신호에 기초하는 제 3 신호로부터 컨텍스트 컴포넌트를 억제한다. 방법(D100)은 예를 들어, 여기에서 설명되는 바와 같은 장치(R100, R200 또는 R300)의 구현에 의해 수행될 수 있다.

도 28B는 기재되는 구성에 따른 인코딩된 오디오 신호를 프로세싱하기 위한 장치(DM100)의 블록 다이어그램을 도시한다. 장치(DM100)는 방법(D100)의 다양한 태스크들을 수행하기 위한 수단을 포함한다. 장치(DM100)는 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 제 1 디코딩된 오디오 신호를 획득하기 위해서 제 1 코딩 방식에 따라 인코딩된 오디오 신호의 제 1 복수의 인코딩된 프레임들을 디코딩하기 위한 수단(DM10)을 포함한다. 장치(DM100)는 제 2 디코딩된 오디오 신호를 획득하기 위해서 제 2 코딩 방식에 따라 인코딩된 오디오 신호의 제 2 복수의 인코딩된 프레임들을 디코딩하기 위한 수단(DM20)을 포함한다. 장치(DM100)는 컨텍스트-억제된 신호를 획득하기 위해서 제 2 디코딩된 오디오 신호로부터의 정보에 기초하여 제 1 디코딩된 오디오 신호에 기초하는 제 3 신호로부터 컨텍스트 컴포넌트를 억제하기 위한 수단(DM30)을 포함한다. 장치(DM100)의 다양한 엘리먼트들은 (예를 들어, 명령들의 하나 이상의 세트들, 논리 엘리먼트들의 하나 이상의 어레이들 등과 같은) 여기에서 기재되는 이러한 태스크들을 수행하기 위한 구조들 중 임의의 구조를 포함하는, 이러한 태스크들을 수행할 수 있는 임의의 구조들을 사용하여 구현될 수 있다. 장치(DM100)의 다양한 엘리먼트들의 예들은 장치(R100, R200 및 R300)의 디스크립션들에서 여기에 기재된다.

도 29A는 기재되는 구성에 따라 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하는 방법(E100)을 도시한다. 방법(E100)은 태스크들(E110, E120, E130 및 E140)을 포함한다. 태스크(E110)는 컨텍스트-억제된 신호를 획득하기 위해서 디지털 오디오 신호로부터 컨텍스트 컴포넌트를 억제한다. 태스크(E120)는 인코딩된 오디오 신호를 획득하기 위해서 컨텍스트-억제된 신호에 기초하는 신호를 인코딩한다. 태스크(E130)는 복수의 오디오 컨텍스트들 중 하나를 선택한다. 태스크(E140)는 인코딩된 오디오 신호에 기초하는 신호에 선택되는 오디오 컨텍스트와 관련된 정보를 삽입한다. 방법(E100)은 예를 들어, 여기에서 설명되는 바와 같은 장치(X100 또는 X300)의 구현에 의해 수행될 수 있다.

도 29B는 기재되는 구성에 따른 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하기 위한 장치(EM100)의 블록 다이어그램을 도시한다. 장치(EM100)는 방법(E100)의 다양한 태스크들을 수행하기 위한 수단을 포함한다. 장치(EM100)는 컨텍스트-억제된 신호를 획득하기 위해서 디지털 오디오 신호로부터 컨텍스트 컴포넌트를 억제하기 위한 수단(EM10)을 포함한다. 장치(EM100)는 인코딩된 오디오 신호를 획득하기 위해서 컨텍스트-억제된 신호에 기초하는 신호를 인코딩하기 위한 수단(EM20)을 포함한다. 장치(EM100)는 복수의 오디오 컨텍스트들 중 하나를 선택하기 위한 수단(EM30)을 포함한다. 장치(EM100)는 인코딩된 오디오 신호에 기초하는 신호에 선택되는 오디오 컨텍스트와 관련된 정보를 삽입하기 위한 수단(EM40)을 포함한다. 장치(EM100)의 다양한 엘리먼트들은 (예를 들어, 명령들의 하나 이상의 세트들, 논리 엘리먼트들의 하나 이상의 어레이들 등과 같은) 여기에서 기재되는 이러한 태스크들을 수행하기 위한 구조들 중 임의의 구조를 포함하는, 이러한 태스크들을 수행할 수 있는 임의의 구조들을 사용하여 구현될 수 있다. 장치(EM100)의 다양한 엘리먼트들의 예들은 장치(X100 및 X300)의 디스크립션들에서 여기에 기재된다.

도 30A는 기재되는 구성에 따라 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하는 방법(E200)의 흐름도를 도시한다. 방법(E200)은 태스크들(E110, E120, E150 및 E160)을 포함한다. 태스크(E150)는 제 1 논리 채널 상에서 제 1 엔티티로 인코딩된 오디오 신호를 전송한다. 태스크(E160)는 제 2 엔티티로 그리고 제 1 논리 채널과는 상이한 제 2 논리 채널 상에서 (A) 오디오 컨텍스트 선택 정보 및 (B) 제 1 엔티티를 식별하는 정보를 전송한다. 방법(E200)은 예를 들어, 여기에서 기재되는 바와 같은 장치(X100 또는 X300)의 구현에 의해 수행될 수 있다.

도 30B는 기재되는 구성에 따른 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하기 위한 장치(EM200)의 블록 다이어그램을 도시한다. 장치(EM200)는 방법(E200)의 다양한 태스크들을 수행하기 위한 수단을 포함한다. 장치(EM200)는 전술된 바와 같은 수단(EM10 및 EM20)을 포함한다. 장치(EM100)는 제 1 논리 채널 상에서 제 1 엔티티로 인코딩된 오디오 신호를 전송하기 위한 수단(EM50)을 포함한다. 장치(EM100)는 제 2 엔티티로 그리고 제 1 논리 채널과는 상이한 제 2 논리 채널 상에서 (A) 오디오 컨텍스트 선택 정보 및 (B) 제 1 엔티티를 식별하는 정보를 전송하기 위한 수단(EM60)을 포함한다. 장치(EM200)의 다양한 엘리먼트들은 (예를 들어, 명령들의 하나 이상의 세트들, 논리 엘리먼트들의 하나 이상의 어레이들 등과 같은) 여기에서 기재되는 이러한 태스크들을 수행하기 위한 구조들 중 임의의 구조를 포함하는, 이러한 태스크들을 수행할 수 있는 임의의 구조들을 사용하여 구현될 수 있다. 장치(EM200)의 다양한 엘리먼트들의 예들은 장치(X100 및 X300)의 디스크립션들에서 여기에 기재된다.

도 31A는 기재되는 구성에 따라 인코딩된 오디오 신호를 프로세싱하는 방법(F100)의 흐름도를 도시한다. 방법(F100)은 태스크들(F110, F120 및 F130)을 포함한다. 모바일 사용자 단말 내에서, 태스크(F110)는 디코딩된 오디오 신호를 획득하기 위해서 인코딩된 오디오 신호를 디코딩한다. 모바일 사용자 단말 내에서, 태스크(F120)는 오디오 컨텍스트 신호를 생성한다. 모바일 사용자 단말 내에서, 태스크(F130)는 디코딩된 오디오 신호에 기초하는 신호와 오디오 컨텐츠 신호에 기초하는 신호를 믹싱한다. 방법(F100)은 예를 들어 여기에서 기재되는 바와 같은 장치(R100, R200 또는 R300)의 구현에 의해 수행될 수 있다.

도 3은 기재되는 구성에 따른 모바일 사용자 단말 내에 위치하고 인코딩된 오디오 신호를 프로세싱하기 위한 장치(FM100)의 블록 다이어그램을 도시한다. 장치(FM100)는 방법(F100)의 다양한 태스크들을 수행하기 위한 수단을 포함한다. 장치(FM100)는 디코딩된 오디오 신호를 획득하기 위해서 인코딩된 오디오 신호를 디코딩하기 위한 수단(FM10)을 포함한다. 장치(FM100)는 오디오 컨텍스트 신호를 생성하기 위한 수단(FM20)을 포함한다. 장치(F100)는 디코딩된 오디오 신호에 기초하는 신호와 오디오 컨텍스트 신호에 기초하는 신호를 믹싱하기 위한 수단(FM30)을 포함한다. 장치(FM100)의 다양한 엘리먼트들은 (예를 들어, 명령들의 하나 이상의 세트들, 논리 엘리먼트들의 하나 이상의 어레이들 등과 같은) 여기에서 기재되는 이러한 태스크들을 수행하기 위한 구조들 중 임의의 구조를 포함하는 이러한 태스크들을 수행할 수 있는 임의의 구조들을 사용하여 구현될 수 있다. 장치(FM100)의 다양한 엘리먼트들의 예들은 장치(R100, R200 및 R300)의 디스크립션들에서 여기에 기재된다.

도 32A는 기재되는 구성에 따라 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하기 위한 방법(G100)의 흐름도를 도시한다. 방법(G100)은 태스크들(G110, G120 및 G130)을 포함한다. 태스크(G100)는 컨텍스트-억제된 신호를 획득하기 위한 디지털 오디오 신호로부터 컨텍스트 컴포넌트를 억제한다. 태스크(G120)는 제 1 필터 및 제 1 복수의 시퀀스들에 기초하는 오디오 컨텍스트 신호를 생성하고, 제 1 복수의 시퀀스들 각각은 상이한 시분해능을 가진다. 태스크(G120)는 제 1 복수의 시퀀스들 각각에 제 1 필터를 적용시키는 것을 포함한다. 태스크(G130)는 컨텍스트-향상된 신호를 획득하기 위해서 컨텍스트-억제된 신호에 기초하는 제 2 신호와 생성된 오디오 컨텍스트 신호에 기초하는 제 1 신호를 믹싱한다. 방법(G100)은 예를 들어, 여기에 기재되는 바와 같은 장치(X100, X300, R100, R200 및 R300)의 구현에 의해 수행될 수 있다.

도 32B는 기재되는 구성에 따른 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하기 위한 장치(GM100)의 블록 다이어그램을 도시한다. 장치(GM100)는 방법(G100)의 다양한 태스크들을 수행하기 위한 수단을 포함한다. 장치(GM100)는 컨텍스트-억제된 신호를 획득하기 위해서 디지털 오디오 신호로부터 컨텍스트 컴포넌트를 억제하기 위한 수단(GM10)을 포함한다. 장치(GM100)는 제 1 필터 및 제 1 복수의 시퀀스들에 기초하는 오디오 컨텍스트 신호를 생성하기 위한 수단(GM20)을 포함하고, 제 1 복수의 시퀀스들 각각은 상이한 시분해능을 가진다. 수단(GM20)은 제 1 복수의 시퀀스들 각각에 제 1 필터를 적용시키기 위한 수단을 포함한다. 장치(GM100)는 컨텍스트-향상된 신호를 획득하기 위해서 컨텍스트-억제된 신호에 기초하는 제 2 신호와 생성된 오디오 컨텍스트 신호에 기초하는 제 1 신호를 믹싱하기 위한 수단을 포함한다. 장치(GM100)의 다양한 엘리먼트들은 (예를 들어, 명령들의 하나 이상의 세트들, 논리 엘리먼트들의 하나 이상의 어레이들 등과 같은) 여기에서 기재되는 이러한 태스크들을 수행하기 위한 구조들 중 임의의 구조를 포함하는, 이러한 태스크들을 수행할 수 있는 임의의 구조들을 사용하여 구현될 수 있다. 장치(GM100)의 다양한 엘리먼트들의 예들은 장치(X100, X300, R100, R200 및 R300)의 디스크립션들에서 여기에 기재된다.

도 33A는 기재되는 구성에 따라 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하는 방법(H100)의 흐름도를 도시한다. 방법(H100)은 태스크들(H110, H120, H130, H140 및 H150)을 포함한다. 태스크(H110)는 컨텍스트-억제된 신호를 획득하기 위해서 디지털 오디오 신호로부터 컨텍스트 컴포넌트를 억제한다. 태스크(H120)는 오디오 컨텍스트 신호를 생성한다. 태스크(H130)는 컨텍스트-향상된 신호를 획득하기 위해서 컨텍스트-억제된 신호에 기초하는 제 2 신호와 생성된 오디오 컨텍스트 신호에 기초하는 제 1 신호를 믹싱한다. 태스크(H140)는 디지털 오디오 신호에 기초하는 제 3 신호의 레벨을 계산한다. 태스크들(H120 및 H130) 중 적어도 하나는 제 3 신호의 계산된 레벨에 기초하여 제 1 신호의 레벨을 제어하는 것을 포함한다. 방법(H100)은 예를 들어, 여기에서 기재되는 바와 같은 장치(X100, X300, R100, R200 또는 R300)의 구현에 의해 수행될 수 있다.

도 33B는 기재되는 구성에 따른 스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하기 위한 장치(HM100)의 블록 다이어그램을 도시한다. 장치(HM100)는 방법(H100)의 다양한 태스크들을 수행하기 위한 수단을 포함한다. 장치(HM100)는 컨텍스트-억제된 신호를 획득하기 위해서 디지털 오디오 신호로부터 컨텍스트 컴포넌트를 억제하기 위한 수단(HM10)을 포함한다. 장치(HM100)는 오디오 컨텍스트 신호를 생성하기 위한 수단(HM20)을 포함한다. 장치(HM100)는 컨텍스트-향상된 신호를 획득하기 위해서 컨텍스트-억제된 신호에 기초하는 제 2 신호와 생성된 오디오 컨텍스트 신호에 기초하는 제 1 신호를 믹싱하기 위한 수단(HM30)을 포함한다. 장치(HM100)는 디지털 오디오 신호에 기초하는 제 3 신호의 레벨을 계산하기 위한 수단(HM40)을 포함한다. 수단(HM20 및 HM30) 중 적어도 하나는 제 3 신호의 계산된 레벨에 기초하여 제 1 신호의 레벨을 제어하기 위한 수단을 포함한다. 장치(HM100)의 다양한 엘리먼트들은 (예를 들어, 명령들의 하나 이상의 세트들, 논리 엘리먼트들의 하나 이상의 어레이들 등과 같은) 여기에서 기재되는 이러한 태스크들을 수행하기 위한 장치들 중 임의의 장치를 포함하는, 이러한 태스크들을 수행할 수 있는 임의의 구조를 사용하여 구현될 수 있다. 장치(HM100)의 다양한 엘리먼트들의 예들은 장치(X100, X300, R100, R200 및 R300)의 디스크립션들에서 여기에 기재된다.

기재되는 구성들의 상기 설명은 당업자로 하여금 여기에서 기재되는 방법들 및 다른 구조들을 제작 또는 사용할 수 있게 하기 위해서 제공된다. 또한, 도시되고 여기에서 설명되는 흐름도들, 블록 다이어그램들 및 다른 구조들은 본 발명의 범위 내에 있다. 이러한 구성들에 대한 다양한 수정들이 가능하고, 여기에서 제시되는 일반적인 원리들은 다른 구성들에도 적용될 수 있다. 예를 들어, 본 발명의 범위는 예시되는 구성들에 제한되지 않는다는 점이 강조된다. 오히려, 여기에서 설명되는 바와 같이 상이한 특정 구성들의 특징들이 이러한 특징들이 서로 모순되지 않는 어떤 경우에도 이러한 발명의 범위 내에 포함되는 다른 구성들을 생성하도록 결합될 수 있다는 점이 명백하게 고려되고, 이에 의해 기재된다. 예를 들어, 컨텍스트 억제, 컨텍스트 생성 및 컨텍스트 믹싱의 다양한 구성들 중 임의의 구성은 이들의 결합이 여기에서의 그러한 엘리먼트들의 설명들과 모순되지 않는 한 결합될 수 있다. 또한, 접속이 장치의 2개 이상의 엘리먼트들 사이에서 설명되는 경우, 하나 이상의 중계(intervening) 엘리먼트들(예를 들어, 필터)이 존재할 수 있고, 접속이 방법의 2개 이상의 태스크들 사이에서 설명되는 경우 하나 이상의 중계 태스크들 또는 동작들(예를 들어, 필터링 동작)이 존재할 수 있다.

여기에서 기재되는 바와 같은 인코더들 및 디코더들과 함께 사용될 수 있거나, 이들과의 사용을 위해서 적응될 수 있는 코덱들의 예들은 상기에서 언급된 3GPP2 문헌 C.S0014-C에 설명되는 바와 같은 EVRC(Enhanced Variable Rate Codec); ETSI 문헌 TS 126 092 V6.0.0, ch. 6, December 2004에 설명되는 바와 같은 AMR(Adaptive Multi Rate) 스피치 코덱; 및 ETSI 문헌 TS 126 192 V6.0.0., ch. 6, December 2004에 설명되는 바와 같은 AMR Wideband 스피치 코덱을 포함한다. 여기에서 기재되는 바와 같은 인코더들 및 디코더들과 사용될 수 있는 무선 프로토콜들의 예들은 TIA(Telecommunications Industry Association), Arlington, VA에 의해 공포된 규격들에서 설명되는 바와 같은) IS-95(Interim Standard-95) 및 CDMA2000, (ETSI 문헌 TS 26.101에 설명되는 바와 같은) AMR, (ETSI에 의해 공포된 규격들에서 설명되는 바와 같은) GSM(Global System for Mobile communications), (ETSI에 의해 공포된 규격들에 설명되는 바와 같은) UMTS(Universal Mobile Telecommunications System) 및 (국제 전기통신 연합에 의해 공포된 규격들에 설명되는 바와 같은) W-CDMA(Wideband Code Division Multiple Access)를 포함한다.

여기에서 기재되는 구성들은 하드-와이어드 회로(hard-wired circuit)로서, 주문형 집적 회로로 제작되는 회로 구성으로서, 또는 비-휘발성 저장소로 로딩되는 펌웨어 프로그램 또는 기계-판독가능 코드로서 컴퓨터-판독가능 매체로부터 또는 이로 로딩되는 소프트웨어 프로그램 ― 이러한 코드는 마이크로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 논리 엘리먼트들의 어레이에 의해 실행가능한 명령들임 ― 으로서 일부 또는 전부 구현될 수 있다. 컴퓨터-판독가능 매체는 (동적 또는 정적 RAM(random-access memory), ROM (read-only memory) 및/또는 플래시 RAM을 포함할 수 있지만 이들로 제한되지 않는) 반도체 메모리 또는 강유전의(ferroelectric), 자기저항의(magnetoresistive), 오보닉(ovonic), 중합의(polymeric) 또는 위상-변화 메모리와 같은 저장 엘리먼트들의 어레이일 수 있다. 용어 "소프트웨어"는 소스 코드, 어셈블리 언어 코드, 기계 코드, 바이너리 코드, 펌웨어, 애크로코드, 마이크로코드, 논리 엘리먼트들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들 및 이러한 예들의 임의의 조합을 포함하는 것으로 이해되어야 한다.

여기에서 기재되는 방법들 각각은 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기 또는 다른 유한 상태 머신과 같은) 논리 엘리먼트들의 어레이를 포함하는 기계에 의해 판독가능하고 그리고/또는 실행가능한 명령들의 하나 이상의 세트들로서 (예를 들어, 상기에서 열거되는 바와 같은 하나 이상의 컴퓨터-판독가능 매체에서) 실체적으로 구현될 수도 있다. 따라서, 본 발명은 상기 도시되는 구성들에 제한되는 것으로 의도되지 않으며, 원 발명의 일부분을 형성하는, 출원되는 바와 같은 첨부된 클레임들에 포함되는, 여기에서의 임의의 방식으로 기재되는 원리들 및 신규한 특징들과 일관되는 최광의 범위에 따른다.

Claims

스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 마이크로폰으로부터 수신되는 신호에 기초하는 디지털 오디오 신호를 프로세싱하는 방법으로서,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하는 단계;
인코딩된 오디오 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호를 인코딩하는 단계;
복수의 오디오 컨텍스트들 중 하나를 선택하는 단계; 및
상기 인코딩된 오디오 신호에 기초하는 신호로 상기 선택된 오디오 컨텍스트와 관련된 정보를 삽입하는 단계를 포함하는,
디지털 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 선택된 오디오 컨텍스트와 관련된 정보는 상기 선택된 오디오 컨텍스트를 식별하는 컨텍스트 식별자를 포함하는,
디지털 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 선택된 오디오 컨텍스트와 관련된 정보는 파라미터 값들의 세트를 포함하는 상기 선택된 오디오 컨텍스트의 디스크립션(description)을 포함하는,
디지털 오디오 신호 프로세싱 방법.
제 3 항에 있어서,
상기 파라미터 값들의 세트는 제 1 복수의 시퀀스들을 포함하고,
상기 제 1 복수의 시퀀스들 각각은 상이한 시분해능(time resolution)을 가지는,
디지털 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 컨텍스트 컴포넌트를 억제하는 단계는 상기 디지털 오디오 신호에 대하여 스펙트럼 차감 동작을 수행하는 단계를 포함하는,
디지털 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 컨텍스트 컴포넌트를 억제하는 단계는,
상기 디지털 오디오 신호의 복수의 비활성 프레임들에 기초하여 복수의 이득 인자 값들을 계산하는 단계; 및
상기 디지털 오디오 신호에 기초하는 신호의 활성 프레임의 대응하는 주파수 서브대역에 상기 복수의 상이한 이득 인자들 각각을 적용시키는 단계를 포함하는,
디지털 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 컨텍스트 컴포넌트를 억제하는 단계는 공통 하우징(housing) 내에 위치하는 2개의 상이한 마이크로폰들로부터의 정보에 기초하는,
디지털 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 복수의 오디오 컨텍스트들 중 하나를 선택하는 단계는 상기 방법이 수행되는 물리적 위치와 관련된 정보에 기초하는,
디지털 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 인코딩하는 단계는 상기 컨텍스트-억제된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하는 단계를 포함하는,
디지털 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 인코딩된 오디오 신호는 복수의 인코딩된 프레임들을 포함하고,
상기 복수의 인코딩된 프레임들 각각은 여기 신호의 디스크립션을 포함하는,
디지털 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 인코딩된 오디오 신호에 기초하는 신호로 상기 선택된 오디오 컨텍스트와 관련된 정보를 삽입하는 단계는 상기 디지털 오디오 신호의 비활성 프레임들에 대응하는 상기 인코딩된 오디오 신호의 복수의 프레임 기간들 중 적어도 하나로 상기 정보를 삽입하는 단계를 포함하는,
디지털 오디오 신호 프로세싱 방법.
제 11 항에 있어서,
상기 디지털 오디오 신호의 비활성 프레임들에 대응하는 상기 인코딩된 오디오 신호의 복수의 프레임 기간들 중 적어도 하나로 상기 정보를 삽입하는 단계는 상기 디지털 오디오 신호의 100개부터 2000개 프레임들까지의 범위 내의 구간에서 불연속적으로 수행되는,
디지털 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
상기 선택된 오디오 컨텍스트와 관련된 정보는 시간이 경과함에 따라 상기 오디오 컨텍스트의 레벨의 원하는 변화를 설명하는 정보를 포함하는,
디지털 오디오 신호 프로세싱 방법.
제 1 항에 있어서,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하는 단계;
컨텍스트-향상된 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱하는 단계;
(A) 상기 제 2 오디오 컨텍스트 및 (B) 상기 컨텍스트-향상된 신호 중 적어도 하나에 기초하는 신호를 아날로그 신호로 변환하는 단계; 및
상기 아날로그 신호에 기초하는 청취가능한 신호를 생성하기 위해서 스피커를 사용하는 단계를 더 포함하고,
상기 마이크로폰 및 상기 스피커 모두는 공통 하우징 내에 위치하는,
디지털 오디오 신호 프로세싱 방법.
제 14 항에 있어서,
상기 방법은 상기 컨텍스트-향상된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하는 단계를 포함하는,
디지털 오디오 신호 프로세싱 방법.
제 15 항에 있어서,
상기 방법은 상기 공통 하우징 내에 위치하는 송신기를 사용하여, 상기 선형 예측 코딩 분석의 수행 결과에 기초하는 신호를 송신하는 단계를 포함하는,
디지털 오디오 신호 프로세싱 방법.
제 14 항에 있어서,
상기 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하는 단계는 제 2 마이크로폰에 의해 생성되는 오디오 신호에 기초하는,
디지털 오디오 신호 프로세싱 방법.
스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 마이크로폰으로부터 수신되는 신호에 기초하는 디지털 오디오 신호를 프로세싱하기 위한 장치로서,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하도록 구성되는 컨텍스트 억제기;
인코딩된 오디오 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호를 인코딩하도록 구성되는 인코더;
복수의 오디오 컨텍스트들 중 하나를 선택하도록 구성되는 컨텍스트 선택기; 및
상기 인코딩된 오디오 신호에 기초하는 신호로 상기 선택된 오디오 컨텍스트와 관련된 정보를 삽입하도록 구성되는 컨텍스트 인코더를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 선택된 오디오 컨텍스트와 관련된 정보는 상기 선택된 오디오 컨텍스트를 식별하는 컨텍스트 식별자를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 선택된 오디오 컨텍스트와 관련된 정보는 파라미터 값들의 세트를 포함하는 상기 선택된 오디오 컨텍스트의 디스크립션을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 20 항에 있어서,
상기 파라미터 값들의 세트는 제 1 복수의 시퀀스들을 포함하고,
상기 제 1 복수의 시퀀스들 각각은 상이한 시분해능을 가지는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 컨텍스트 억제기는 상기 디지털 오디오 신호에 대하여 스펙트럼 차감 동작을 수행하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 컨텍스트 억제기는,
상기 디지털 오디오 신호의 복수의 비활성 프레임들에 기초하여 복수의 이득 인자 값들을 계산하고; 그리고
상기 디지털 오디오 신호에 기초하는 신호의 활성 프레임의 대응하는 주파수 서브대역에 상기 복수의 상이한 이득 인자들 각각을 적용시키도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 컨텍스트 억제기는 공통 하우징 내에 위치하는 2개의 상이한 마이크로폰들로부터의 정보에 기초하여 상기 컨텍스트 컴포넌트를 억제하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 컨텍스트 선택기는 상기 장치의 물리적 위치와 관련된 정보에 기초하여 복수의 오디오 컨텍스트들 중 하나를 선택하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 인코더는 상기 컨텍스트-억제된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 인코딩된 오디오 신호는 복수의 인코딩된 프레임들을 포함하고,
상기 복수의 인코딩된 오디오 프레임들 각각은 여기 신호의 디스크립션을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 컨텍스트 인코더는 상기 디지털 오디오 신호의 비활성 프레임들에 대응하는 상기 인코딩된 오디오 신호의 복수의 프레임 기간들 중 적어도 하나로 상기 정보를 삽입하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 28 항에 있어서,
상기 컨텍스트 인코더는 상기 디지털 오디오 신호의 100개부터 2000개 프레임들까지의 범위 내의 구간에서 불연속적으로 상기 디지털 오디오 신호의 비활성 프레임들에 대응하는 상기 인코딩된 오디오 신호의 복수의 프레임 기간들 중 적어도 하나로 상기 정보를 삽입하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
상기 선택된 오디오 컨텍스트와 관련된 정보는 시간이 경과함에 따라 상기 오디오 컨텍스트의 레벨의 원하는 변화를 설명하는 정보를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 18 항에 있어서,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하도록 구성되는 컨텍스트 억제기;
컨텍스트-향상된 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱하도록 구성되는 컨텍스트 믹서;
(A) 상기 제 2 오디오 컨텍스트 및 (B) 상기 컨텍스트-향상된 신호 중 적어도 하나에 기초하는 신호를 아날로그 신호로 변환하도록 구성되는 변환기; 및
상기 아날로그 신호에 기초하는 청취가능한 신호를 생성하도록 구성되는 스피커를 더 포함하고,
상기 마이크로폰 및 상기 스피커 모두는 공통 하우징 내에 위치하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 31 항에 있어서,
상기 장치는 상기 컨텍스트-향상된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하도록 구성되는 인코더를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 32 항에 있어서,
상기 장치는 상기 공통 하우징 내에 위치하고 상기 선형 예측 코딩 분석의 결과에 기초하는 신호를 송신하도록 구성되는 송신기를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 31 항에 있어서,
상기 컨텍스트 억제기는 제 2 마이크로폰에 의해 생성되는 오디오 신호에 기초하여 상기 디지털 오디오 신호로부터 상기 제 1 오디오 컨텍스트를 억제하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 마이크로폰으로부터 수신되는 신호에 기초하는 디지털 오디오 신호를 프로세싱하기 위한 장치로서,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하기 위한 수단;
인코딩된 오디오 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호를 인코딩하기 위한 수단;
복수의 오디오 컨텍스트들 중 하나를 선택하기 위한 수단; 및
상기 인코딩된 오디오 신호에 기초하는 신호로 상기 선택된 오디오 컨텍스트와 관련된 정보를 삽입하기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 35 항에 있어서,
상기 선택된 오디오 컨텍스트와 관련된 정보는 상기 선택된 오디오 컨텍스트를 식별하는 컨텍스트 식별자를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 35 항에 있어서,
상기 선택된 오디오 컨텍스트와 관련된 정보는 파라미터 값들의 세트를 포함하는 상기 선택된 오디오 컨텍스트의 디스크립션을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 37 항에 있어서,
상기 파라미터 값들의 세트는 제 1 복수의 시퀀스들을 포함하고,
상기 제 1 복수의 시퀀스들 각각은 상이한 시분해능을 가지는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 35 항에 있어서,
상기 컨텍스트 컴포넌트를 억제하기 위한 수단은 상기 디지털 오디오 신호에 대하여 스펙트럼 차감 동작을 수행하기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 35 항에 있어서,
상기 컨텍스트 컴포넌트를 억제하기 위한 수단은,
상기 디지털 오디오 신호의 복수의 비활성 프레임들에 기초하여 복수의 이득 인자 값들을 계산하기 위한 수단; 및
상기 디지털 오디오 신호에 기초하는 신호의 활성 프레임의 대응하는 주파수 서브-대역에 상기 복수의 상이한 이득 인자들 각각을 적용시키기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 35 항에 있어서,
상기 컨텍스트 컴포넌트를 억제하기 위한 수단은 공통 하우징 내에 위치하는 2개의 상이한 마이크로폰들로부터의 정보에 기초하여 상기 컨텍스트 컴포넌트를 억제하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 35 항에 있어서,
상기 복수의 오디오 컨텍스트들 중 하나를 선택하기 위한 수단은 상기 장치의 물리적 위치와 관련된 정보에 기초하여 상기 오디오 컨텍스트를 선택하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 35 항에 있어서,
상기 인코딩하기 위한 수단은 상기 컨텍스트-억제된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 35 항에 있어서,
상기 인코딩된 오디오 신호는 복수의 인코딩된 프레임들을 포함하고,
상기 복수의 인코딩된 프레임들 각각은 여기 신호의 디스크립션을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 35 항에 있어서,
상기 인코딩된 오디오 신호에 기초하는 상기 신호로 상기 선택된 오디오 컨텍스트와 관련된 정보를 삽입하기 위한 수단은 상기 디지털 오디오 신호의 비활성 프레임들에 대응하는 상기 인코딩된 오디오 신호의 복수의 프레임 기간들 중 적어도 하나로 상기 정보를 삽입하기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 45 항에 있어서,
상기 디지털 오디오 신호의 비활성 프레임들에 대응하는 상기 인코딩된 오디오 신호의 복수의 프레임 기간들 중 적어도 하나로 상기 정보를 삽입하기 위한 수단은 상기 디지털 오디오 신호의 100개부터 2000개 프레임들까지의 범위 내의 구간에서 불연속적으로 상기 삽입을 수행하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 35 항에 있어서,
상기 선택된 오디오 컨텍스트와 관련된 정보는 시간이 경과함에 따라 상기 오디오 컨텍스트의 레벨의 원하는 변화를 설명하는 정보를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 35 항에 있어서,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하기 위한 수단;
컨텍스트-향상된 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱하기 위한 수단;
(A) 상기 제 2 오디오 컨텍스트 및 (B) 상기 컨텍스트-향상된 신호 중 적어도 하나에 기초하는 신호를 아날로그 신호로 변환하기 위한 수단; 및
상기 아날로그 신호에 기초하는 청취가능한 신호를 생성하도록 구성되는 스피커를 더 포함하고,
상기 마이크로폰 및 상기 스피커 모두는 공통 하우징 내에 위치하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 48 항에 있어서,
상기 장치는 상기 컨텍스트-향상된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 49 항에 있어서,
상기 장치는 상기 공통 하우징 내에 위치하고 상기 선형 예측 코딩 분석의 결과에 기초하는 신호를 송신하도록 구성되는 송신하기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 48 항에 있어서,
상기 억제하기 위한 수단은 제 2 마이크로폰에 의해 생성되는 오디오 신호에 기초하여 상기 디지털 오디오 신호로부터 상기 제 1 오디오 컨텍스트를 억제하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 마이크로폰으로부터 수신되는 신호에 기초하는 디지털 오디오 신호를 프로세싱하기 위한 명령들을 포함하는 컴퓨터-판독가능 매체로서,
상기 명령들은 프로세서에 의해 실행될 시에 상기 프로세서로 하여금,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하고;
인코딩된 오디오 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호를 인코딩하고;
복수의 오디오 컨텍스트들 중 하나를 선택하고; 그리고
상기 인코딩된 오디오 신호에 기초하는 신호로 상기 선택된 오디오 컨텍스트와 관련된 정보를 삽입하게 하는,
컴퓨터-판독가능 매체.
제 52 항에 있어서,
상기 선택된 오디오 컨텍스트와 관련된 정보는 상기 선택된 오디오 컨텍스트를 식별하는 컨텍스트 식별자를 포함하는,
컴퓨터-판독가능 매체.
제 52 항에 있어서,
상기 선택된 오디오 컨텍스트와 관련된 정보는 파라미터 값들의 세트를 포함하는 상기 선택된 오디오 컨텍스트의 디스크립션을 포함하는,
컴퓨터-판독가능 매체.
제 54 항에 있어서,
상기 파라미터 값들의 세트는 제 1 복수의 시퀀스들을 포함하고,
상기 제 1 복수의 시퀀스들 각각은 상이한 시분해능을 가지는,
컴퓨터-판독가능 매체.
제 52 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 컨텍스트 컴포넌트를 억제하게 하는 상기 명령들은 상기 프로세서로 하여금 상기 디지털 오디오 신호에 대하여 스펙트럼 차감 동작을 수행하게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 52 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 컨텍스트 컴포넌트를 억제하게 하는 상기 명령들은 상기 프로세서로 하여금,
상기 디지털 오디오 신호의 복수의 비활성 프레임들에 기초하여 복수의 이득 인자 값들을 계산하고; 그리고
상기 디지털 오디오 신호에 기초하는 신호의 활성 프레임의 대응하는 주파수 서브-대역에 상기 복수의 상이한 이득 인자들 각각을 적용시키게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 52 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 컨텍스트 컴포넌트를 억제하게 하는 상기 명령들은 상기 프로세서로 하여금 공통 하우징 내에 위치하는 2개의 상이한 마이크로폰들로부터의 정보에 기초하여 상기 컨텍스트 컴포넌트를 억제하게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 52 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 복수의 오디오 컨텍스트들 중 하나를 선택하게 하는 상기 명령들은 상기 프로세서로 하여금 상기 프로세서의 물리적 위치와 관련된 정보에 기초하여 상기 오디오 컨텍스트를 선택하게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 52 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 인코딩하게 하는 상기 명령들은 상기 프로세서로 하여금 상기 컨텍스트-억제된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 52 항에 있어서,
상기 인코딩된 오디오 신호는 복수의 인코딩된 프레임들을 포함하고,
상기 복수의 인코딩된 프레임들 각각은 여기 신호의 디스크립션을 포함하는,
컴퓨터-판독가능 매체.
제 52 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 인코딩된 오디오 신호에 기초하는 신호로 상기 선택된 오디오 컨텍스트에 관련된 정보를 삽입하게 하는 상기 명령들은 상기 프로세서로 하여금 상기 디지털 오디오 신호의 비활성 프레임들에 대응하는 상기 인코딩된 오디오 신호의 복수의 프레임 기간들 중 적어도 하나로 상기 정보를 삽입하게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 62 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 디지털 오디오 신호의 비활성 프레임들에 대응하는 상기 인코딩된 오디오 신호의 복수의 프레임 기간들 중 적어도 하나로 상기 정보를 삽입하게 하는 상기 명령들은 상기 프로세서로 하여금 상기 디지털 오디오 신호의 100개부터 2000개 프레임들까지의 범위 내의 구간에서 불연속적으로 상기 삽입을 수행하게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 52 항에 있어서,
상기 선택된 오디오 컨텍스트와 관련된 정보는 시간이 경과함에 따라 상기 오디오 컨텍스트의 레벨의 원하는 변화를 설명하는 정보를 포함하는,
컴퓨터-판독가능 매체.
제 52 항에 있어서,
상기 명령들은 프로세서에 의해 실행될 시에 상기 프로세서로 하여금,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하고;
컨텍스트-향상된 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱하고;
(A) 상기 제 2 오디오 컨텍스트 및 (B) 상기 컨텍스트-향상된 신호 중 적어도 하나에 기초하는 신호를 아날로그 신호로 변환하고; 그리고
상기 아날로그 신호에 기초하는 청취가능한 신호를 생성하기 위해서 스피커를 사용하게 하고,
상기 마이크로폰 및 상기 스피커 모두는 공통 하우징 내에 위치하는,
컴퓨터-판독가능 매체.
제 65 항에 있어서,
상기 매체는 프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 컨텍스트-향상된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하게 하는 명령들을 포함하는,
컴퓨터-판독가능 매체.
제 66 항에 있어서,
상기 매체는 프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 선형 예측 코딩 분석의 수행 결과에 기초하는 신호를 송신하기 위해서 상기 공통 하우징 내에 위치하는 송신기를 사용하게 하는 명령들을 포함하는,
컴퓨터-판독가능 매체.
제 65 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 제 1 오디오 컨텍스트를 억제하게 하는 상기 명령들은 상기 프로세서로 하여금 제 2 마이크로폰에 의해 생성되는 오디오 신호에 기초하여 상기 디지털 오디오 신호로부터 상기 제 1 오디오 컨텍스트를 억제하게 하도록 구성되는,
컴퓨터-판독가능 매체.
스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 마이크로폰으로부터 수신되는 신호에 기초하는 디지털 오디오 신호를 프로세싱하기 위한 방법으로서,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하는 단계;
인코딩된 오디오 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호를 인코딩하는 단계;
제 1 논리 채널 상에서, 제 1 엔티티로 상기 인코딩된 오디오 신호를 전송하는 단계; 및
상기 제 1 논리 채널과는 상이한 제 2 논리 채널 상에서 (A) 오디오 컨텍스트 선택 정보 및 (B) 상기 제 1 엔티티를 식별하는 정보를 제 2 엔티티로 전송하는 단계를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 69 항에 있어서,
상기 제 2 엔티티로 전송하는 단계는 세션 개시 프로토콜의 버전을 따르는 메시지에서, (A) 상기 오디오 컨텍스트 선택 정보 및 (B) 상기 제 1 엔티티를 식별하는 정보 중 적어도 하나를 상기 제 2 엔티티로 전송하는 단계를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 69 항에 있어서,
상기 제 1 엔티티를 식별하는 정보는 단일 자원 식별자(Uniform Resource Identifier)인,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 69 항에 있어서,
상기 오디오 컨텍스트 선택 정보는 상기 방법이 수행되는 물리적 위치와 관련된 정보를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 69 항에 있어서,
상기 방법은 복수의 오디오 컨텍스트들 중 하나를 선택하는 단계를 포함하고,
상기 오디오 컨텍스트 선택 정보는 상기 선택된 오디오 컨텍스트를 식별하는 컨텍스트 식별자를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 73 항에 있어서,
상기 복수의 오디오 컨텍스트들 중 하나를 선택하는 단계는 상기 방법이 수행되는 물리적 위치와 관련된 정보에 기초하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 69 항에 있어서,
상기 컨텍스트 컴포넌트를 억제하는 단계는 상기 디지털 오디오 신호에 기초하는 신호에 대하여 스펙트럼 차감 동작을 수행하는 단계를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 69 항에 있어서,
상기 컨텍스트 컴포넌트를 억제하는 단계는,
상기 디지털 오디오 신호의 복수의 비활성 프레임들에 기초하여 복수의 이득 인자 값들을 계산하는 단계; 및
상기 디지털 오디오 신호에 기초하는 신호의 활성 프레임의 대응하는 주파수 서브대역에 상기 복수의 상이한 이득 인자들 각각을 적용시키는 단계를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 69 항에 있어서,
상기 컨텍스트 컴포넌트를 억제하는 단계는 공통 하우징 내에 위치하는 2개의 상이한 마이크로폰들로부터의 정보에 기초하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 69 항에 있어서,
상기 인코딩하는 단계는 상기 컨텍스트-억제된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하는 단계를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 69 항에 있어서,
상기 인코딩된 오디오 신호는 복수의 인코딩된 프레임들을 포함하고,
상기 복수의 인코딩된 프레임들 각각은 여기 신호의 디스크립션을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 69 항에 있어서,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하는 단계;
컨텍스트-향상된 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱하는 단계;
(A) 상기 제 2 오디오 컨텍스트 및 (B) 상기 컨텍스트-향상된 신호 중 적어도 하나에 기초하는 신호를 아날로그 신호로 변환하는 단계; 및
상기 아날로그 신호에 기초하는 청취가능한 신호를 생성하기 위해서 스피커를 사용하는 단계를 더 포함하고,
상기 마이크로폰 및 상기 스피커 모두는 공통 하우징 내에 위치하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 80 항에 있어서,
상기 방법은 상기 컨텍스트-향상된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하는 단계를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 81 항에 있어서,
상기 방법은 상기 공통 하우징 내에 위치하는 송신기를 사용하여 상기 선형 예측 코딩 분석의 수행 결과에 기초하는 신호를 송신하는 단계를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
제 80 항에 있어서,
상기 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하는 단계는 제 2 마이크로폰에 의해 생성되는 오디오 신호에 기초하는,
디지털 오디오 신호를 프로세싱하기 위한 방법.
스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 마이크로폰으로부터 수신되는 신호에 기초하는 디지털 오디오 신호를 프로세싱하기 위한 장치로서,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하도록 구성되는 컨텍스트 억제기;
인코딩된 오디오 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호를 인코딩하도록 구성되는 인코더;
상기 인코딩된 오디오 신호에 기초하는 신호로 상기 선택된 오디오 컨텍스트와 관련된 정보를 삽입하도록 구성되는 컨텍스트 인코더;
제 1 논리 채널 상에서 제 1 엔티티로 상기 인코딩된 오디오 신호를 전송하도록 구성되는 제 1 프로토콜 스택; 및
제 2 엔티티로 그리고 상기 제 1 논리 채널과는 상이한 제 2 논리 채널 상에서 (A) 오디오 컨텍스트 선택 정보 및 (B) 상기 제 1 엔티티를 식별하는 정보를 전송하도록 구성되는 제 1 프로토콜 스택과는 상이한 제 2 프로토콜 스택을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 84 항에 있어서,
상기 제 2 프로토콜 스택은 세션 개시 프로토콜의 버전을 따르는 메시지에서, (A) 상기 오디오 컨텍스트 선택 정보 및 (B) 상기 제 1 엔티티를 식별하는 정보 중 적어도 하나를 상기 제 2 엔티티로 전송하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 84 항에 있어서,
상기 제 1 엔티티를 식별하는 정보는 단일 자원 식별자인,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 84 항에 있어서,
상기 오디오 컨텍스트 선택 정보는 상기 장치의 물리적 위치와 관련된 정보를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 84 항에 있어서,
상기 장치는 복수의 오디오 컨텍스트들 중 하나를 선택하도록 구성되는 컨텍스트 선택기를 포함하고,
상기 오디오 컨텍스트 선택 정보는 상기 선택된 오디오 컨텍스트를 식별하는 컨텍스트 식별자를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 88 항에 있어서,
상기 컨텍스트 선택기는 상기 장치의 물리적 위치와 관련된 정보에 기초하여 복수의 오디오 컨텍스트들 중 하나를 선택하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 84 항에 있어서,
상기 컨텍스트 억제기는 상기 디지털 오디오 신호에 기초하는 신호에 대하여 스펙트럼 차감 동작을 수행하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 84 항에 있어서,
상기 컨텍스트 억제기는,
상기 디지털 오디오 신호의 복수의 비활성 프레임들에 기초하여 복수의 이득 인자 값들을 계산하고; 그리고
상기 디지털 오디오 신호에 기초하는 신호의 활성 프레임의 대응하는 주파수 서브대역에 상기 복수의 상이한 이득 인자들 각각을 적용시키도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 84 항에 있어서,
상기 컨텍스트 억제기는 공통 하우징 내에 위치하는 2개의 상이한 마이크로폰들로부터의 정보에 기초하여 상기 컨텍스트 컴포넌트를 억제하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 84 항에 있어서,
상기 인코더는 상기 컨텍스트-억제된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 84 항에 있어서,
상기 인코딩된 오디오 신호는 복수의 인코딩된 프레임들을 포함하고,
상기 복수의 인코딩된 프레임들 각각은 여기 신호의 디스크립션을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 84 항에 있어서,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하도록 구성되는 컨텍스트 억제기;
컨텍스트-향상된 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱하도록 구성되는 컨텍스트 믹서;
(A) 상기 제 2 오디오 컨텍스트 및 (B) 상기 컨텍스트-향상된 신호 중 적어도 하나에 기초하는 신호를 아날로그 신호로 변환하도록 구성되는 변환기; 및
상기 아날로그 신호에 기초하는 청취가능한 신호를 생성하도록 구성되는 스피커를 더 포함하고,
상기 마이크로폰 및 상기 스피커 모두는 공통 하우징 내에 위치하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 95 항에 있어서,
상기 장치는 상기 컨텍스트-향상된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하도록 구성되는 인코더를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 96 항에 있어서,
상기 장치는 상기 공통 하우징 내에 위치하고 상기 선형 예측 코딩 분석의 결과에 기초하는 신호를 송신하도록 구성되는 송신기를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 95 항에 있어서,
상기 컨텍스트 억제기는 제 2 마이크로폰에 의해 생성되는 오디오 신호에 기초하여 상기 디지털 오디오 신호로부터 상기 제 1 오디오 컨텍스트를 억제하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 마이크로폰으로부터 수신되는 신호에 기초하는 디지털 오디오 신호를 프로세싱하기 위한 장치로서,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하기 위한 수단;
인코딩된 오디오 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호를 인코딩하기 위한 수단;
제 1 논리 채널 상에서 제 1 엔티티로 상기 인코딩된 오디오 신호를 전송하기 위한 수단; 및
상기 제 1 논리 채널과는 상이한 제 2 논리 채널 상에서 (A) 오디오 컨텍스트 선택 정보 및 (B) 상기 제 1 엔티티를 식별하는 정보를 제 2 엔티티로 전송하기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 99 항에 있어서,
상기 제 2 엔티티로 전송하기 위한 수단은 세션 개시 프로토콜의 버전을 따르는 메시지에서, (A) 상기 오디오 컨텍스트 선택 정보 및 (B) 상기 제 1 엔티티를 식별하는 정보 중 적어도 하나를 상기 제 2 엔티티로 전송하기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 99 항에 있어서,
상기 제 1 엔티티를 식별하는 정보는 단일 자원 식별자인,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 99 항에 있어서,
상기 오디오 컨텍스트 선택 정보는 상기 장치의 물리적 위치와 관련된 정보를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 99 항에 있어서,
상기 장치는 복수의 오디오 컨텍스트들 중 하나를 선택하기 위한 수단을 포함하고,
상기 오디오 컨텍스트 선택 정보는 상기 선택된 오디오 컨텍스트를 식별하는 컨텍스트 식별자를 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 103 항에 있어서,
상기 선택하기 위한 수단은 상기 장치의 물리적 위치와 관련된 정보에 기초하여 복수의 오디오 컨텍스트들 중 하나를 선택하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 99 항에 있어서,
상기 컨텍스트 컴포넌트를 억제하기 위한 수단은 상기 디지털 오디오 신호에 기초하는 신호에 대하여 스펙트럼 차감 동작을 수행하기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 99 항에 있어서,
상기 컨텍스트 컴포넌트를 억제하기 위한 수단은,
상기 디지털 오디오 신호의 복수의 비활성 프레임들에 기초하여 복수의 이득 인자 값들을 계산하기 위한 수단; 및
상기 디지털 오디오 신호에 기초하는 신호의 활성 프레임의 대응하는 주파수 서브대역에 상기 복수의 상이한 이득 인자들 각각을 적용시키기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 99 항에 있어서,
상기 컨텍스트 컴포넌트를 억제하기 위한 수단은 공통 하우징 내에 위치하는 2개의 상이한 마이크로폰들로부터의 정보에 기초하여 상기 컨텍스트 컴포넌트를 억제하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 99 항에 있어서,
상기 인코딩하기 위한 수단은 상기 컨텍스트-억제된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 99 항에 있어서,
상기 인코딩된 오디오 신호는 복수의 인코딩된 프레임들을 포함하고,
상기 복수의 인코딩된 프레임들 각각은 여기 신호의 디스크립션을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 99 항에 있어서,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하기 위한 수단;
컨텍스트-향상된 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱하기 위한 수단;
(A) 상기 제 2 오디오 컨텍스트 및 (B) 상기 컨텍스트-향상된 신호 중 적어도 하나에 기초하는 신호를 아날로그 신호로 변환하기 위한 수단; 및
상기 아날로그 신호에 기초하는 청취가능한 신호를 생성하도록 구성되는 스피커를 더 포함하고,
상기 마이크로폰 및 상기 스피커 모두는 공통 하우징 내에 위치하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 110 항에 있어서,
상기 장치는 상기 컨텍스트-향상된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 111 항에 있어서,
상기 장치는 상기 공통 하우징 내에 위치하고 상기 선형 예측 코딩 분석의 결과에 기초하는 신호를 송신하도록 구성되는 송신하기 위한 수단을 포함하는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
제 110 항에 있어서,
상기 억제하기 위한 수단은 제 2 마이크로폰에 의해 생성되는 오디오 신호에 기초하여 상기 디지털 오디오 신호로부터 상기 제 1 오디오 컨텍스트를 억제하도록 구성되는,
디지털 오디오 신호를 프로세싱하기 위한 장치.
스피치 컴포넌트 및 컨텍스트 컴포넌트를 포함하는 디지털 오디오 신호를 프로세싱하기 위한 명령들을 포함하는 컴퓨터-판독가능 매체로서,
상기 명령들은 프로세서에 의해 실행될 시에 상기 프로세서로 하여금,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 상기 컨텍스트 컴포넌트를 억제하고;
인코딩된 오디오 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호를 인코딩하고;
제 1 논리 채널 상에서 제 1 엔티티로 상기 인코딩된 오디오 신호를 전송하고; 그리고
상기 제 1 논리 채널과는 상이한 제 2 논리 채널 상에서 (A) 오디오 컨텍스트 선택 정보 및 (B) 상기 제 1 엔티티를 식별하는 정보를 제 2 엔티티로 전송하게 하는,
컴퓨터-판독가능 매체.
제 114 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 제 2 엔티티로 전송하게 하는 상기 명령들은 상기 프로세서로 하여금 세션 개시 프로토콜의 버전을 따르는 메시지에서, (A) 상기 오디오 컨텍스트 선택 정보 및 (B) 상기 제 1 엔티티를 식별하는 정보 중 적어도 하나를 상기 제 2 엔티티로 전송하게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 114 항에 있어서,
상기 제 1 엔티티를 식별하는 정보는 단일 자원 식별자인,
컴퓨터-판독가능 매체.
제 114 항에 있어서,
상기 오디오 컨텍스트 선택 정보는 상기 프로세서의 물리적 위치와 관련된 정보를 포함하는,
컴퓨터-판독가능 매체.
제 114 항에 있어서,
상기 매체는 프로세서에 의해 실행될 시에 상기 프로세서로 하여금 복수의 오디오 컨텍스트들 중 하나를 선택하게 하는 명령들을 포함하고,
상기 오디오 컨텍스트 선택 정보는 상기 선택된 오디오 컨텍스트를 식별하는 컨텍스트 식별자를 포함하는,
컴퓨터-판독가능 매체.
제 118 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 복수의 오디오 컨텍스트들 중 하나를 선택하게 하는 상기 명령들은 상기 프로세서로 하여금 상기 프로세서의 물리적 위치와 관련된 정보에 기초하여 복수의 오디오 컨텍스트들 중 하나를 선택하게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 114 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 컨텍스트 컴포넌트를 억제하게 하는 상기 명령들은 상기 프로세서로 하여금 상기 디지털 오디오 신호에 기초하는 신호에 대하여 스펙트럼 차감 동작을 수행하게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 114 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 컨텍스트 컴포넌트를 억제하게 하는 상기 명령들은 상기 프로세서로 하여금,
상기 디지털 오디오 신호의 복수의 비활성 프레임들에 기초하여 복수의 이득 인자 값들을 계산하게 하고; 그리고
상기 디지털 오디오 신호에 기초하는 신호의 활성 프레임의 대응하는 주파수 서브-대역에 상기 복수의 상이한 이득 인자들 각각을 적용시키게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 114 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 컨텍스트 컴포넌트를 억제하게 하는 상기 명령들은 상기 프로세서로 하여금 공통 하우징 내에 위치하는 2개의 상이한 마이크로폰들로부터의 정보에 기초하여 상기 컨텍스트 컴포넌트를 억제하게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 114 항에 있어서,
프로세서에 의해 실행될 시에 상기 프로세서로 하여금 인코딩하게 하는 상기 명령들은 상기 프로세서로 하여금 상기 컨텍스트-억제된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하게 하도록 구성되는,
컴퓨터-판독가능 매체.
제 114 항에 있어서,
상기 인코딩된 오디오 신호는 복수의 인코딩된 프레임들을 포함하고,
상기 복수의 인코딩된 프레임들 각각은 여기 신호의 디스크립션을 포함하는,
컴퓨터-판독가능 매체.
제 114 항에 있어서,
상기 명령들은 프로세서에 의해 실행될 시에 상기 프로세서로 하여금,
컨텍스트-억제된 신호를 획득하기 위해서 상기 디지털 오디오 신호로부터 제 1 오디오 컨텍스트를 억제하고;
컨텍스트-향상된 신호를 획득하기 위해서 상기 컨텍스트-억제된 신호에 기초하는 신호와 제 2 오디오 컨텍스트를 믹싱하고;
(A) 상기 제 2 오디오 컨텍스트 및 (B) 상기 컨텍스트-향상된 신호 중 적어도 하나에 기초하는 신호를 아날로그 신호로 변환하고; 그리고
상기 아날로그 신호에 기초하는 청취가능한 신호를 생성하기 위해서 스피커를 사용하게 하고,
상기 마이크로폰 및 상기 스피커 모두는 공통 하우징 내에 위치하는,
컴퓨터-판독가능 매체.
제 125 항에 있어서,
상기 매체는 프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 컨텍스트-향상된 신호에 기초하는 신호에 대하여 선형 예측 코딩 분석을 수행하게 하는 명령들을 포함하는,
컴퓨터-판독가능 매체.
제 126 항에 있어서,
상기 매체는 프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 공통 하우징 내에 위치하는 송신기를 사용하여 상기 선형 예측 코딩 분석의 수행 결과에 기초하는 신호를 송신하게 하는 명령들을 포함하는,
컴퓨터-판독가능 매체.
제 125 항에 있어서,
상기 매체는 프로세서에 의해 실행될 시에 상기 프로세서로 하여금 상기 제 1 오디오 컨텍스트를 억제하게 하는 상기 명령들은 상기 프로세서로 하여금 제 2 마이크로폰에 의해 생성되는 오디오 신호에 기초하여 상기 디지털 오디오 신호로부터 상기 제 1 오디오 컨텍스트를 억제하게 하도록 구성되는,
컴퓨터-판독가능 매체.