KR20100017468A

KR20100017468A - 음성 인식을 위한 오디오 처리 경로들의 구성을 위한 방법 및 시스템

Info

Publication number: KR20100017468A
Application number: KR1020097024872A
Authority: KR
Inventors: 지안밍 제이. 송; 준 티안; 프레더릭 제이. 짐브릭
Original assignee: 모토로라 인코포레이티드
Priority date: 2007-05-31
Filing date: 2008-05-27
Publication date: 2010-02-16
Also published as: CN101689367A; WO2008150756A1; US20080300025A1

Abstract

음성 인식을 위한 오디오 처리 경로들 및 후속 데이터 송신 방법 및 링크를 구성하기 위한 시스템(100) 및 방법(400)이 제공된다. 시스템은 음성 신호의 음성 요청 타입을 판정하고, 음성 요청 타입에 따라 음성 신호의 오디오 처리 경로를 구성하는 헤드셋(110), 및 핸드-프리 모드에서 블루투스 헤드셋을 이용할 때 고 인식 정확성을 얻기 위해 음성 요청 타입을 수신하고 음성 요청 타입에 따라 오디오 처리 경로 및 음성의 데이터 송신을 구성하는 모바일 디바이스(160)를 포함한다.

음성 인식, 헤드셋, 블루투스, 모바일 디바이스, 핸드-프리

Description

음성 인식을 위한 오디오 처리 경로들의 구성을 위한 방법 및 시스템{METHOD AND SYSTEM TO CONFIGURE AUDIO PROCESSING PATHS FOR VOICE RECOGNITION}

본 발명은 모바일 디바이스에 관한 것이며, 특히, 오디오 경로 구성을 위한 방법 및 시스템에 관한 것이다.

음성 인식(VR;voice recognition)은 모바일 디바이스에서 통상적인 기능이 되었고, 블루투스(BT) 헤드셋은 모바일 디바이스에 대한 액세서리가 되었으며, 모바일 통신에 대한 진정한 핸즈-프리/아이-프리(hands-free/eye-free) 디바이스 상호 작용은 음성 사용자 인터페이스(UI)를 통해 실현되고 있다. BT 헤드셋 및 VR 모바일 디바이스를 전형적으로 사용하는 경우는 사용자가 그의 귀에 헤드셋을 착용하고 있는 동안, 헤드셋상의 음성 버튼을 눌러서 다음에 BT 헤드셋에 의해 캡쳐되고 그 다음 VR 모바일 디바이스로 송신되는 음성 호출 커맨드를 발행할 수 있는 것이다. VR 모바일 디바이스는 음성 호출 커맨드를 수신하고 인식할 수 있으며, 전화 통화를 신청하도록 진행할 수 있다. 이러한 경우에, BT 헤드셋 및 VR 모바일 디바이스 조합은 차량내에서 모바일 폰을 이용하기 위한 안전하고 편리한 방법을 제공하고, 이것은 정부 정책과도 부합할 수 있다.

그러나, 음성 인식 성능은 사용자가 VR 모바일 디바이스로 직접 말할 때 보 다, BT 헤드셋으로 말할 때 상당히 감소된다. 따라서, 음성 인식 성능을 향상시키기 위해 BT 헤드셋과 VR 모바일 디바이스간에 오디오 처리 경로들을 구성하는 시스템 및 방법이 필요하게 된다.

본 발명에 따른 일 실시예는 통신 링크를 통해 모바일 디바이스에 통신가능하게 연결된 헤드셋이다. 헤드셋은, 음성 요청 타입의 결정에 응답하여, 음성 인식을 위해 헤드셋내의 음성 신호의 제1 오디오 처리 경로를 구성하고, 음성 통신을 위해 헤드셋내의 음성 신호의 제2 오디오 처리 경로를 구성하는 오디오 모듈을 포함할 수 있다. 음성 요청 타입이 음성 인식 요청에 대응하면, 오디오 모듈은 고 품질 스피치(speech)를 생성하기 위해 제1 오디오 처리 경로내의 음성 신호의 인코딩 레이트를 조정할 수 있고, 모바일 디바이스상에서 높은 음성 인식 정확도를 얻기 위해 헤드셋내의 음성 신호의 인코딩 레이트에 대응하도록 통신 링크의 데이터 레이트를 선택할 수 있다.

음성 요청 타입이 음성 통신에 대한 것이면, 오디오 모듈은 사람의 음성 통신에 충분한 비교적 낮은 비트 레이트로 음성 신호를 인코딩할 수 있고, 예컨대, 이것은 전형적으로 CVSD(continuously variable slope delta) 변조, 혹은 CVSD 스킴으로 수행되어, 더 낮은 품질의 기저 대역 인코딩된 음성 신호를 생성한다. 음성 요청 타입이 음성 인식에 대한 것이면, 더 높은 수준의 음성 품질 유지가 요구된다. 이러한 목적을 위해, 제어기는 기저 대역 음성 신호 인코딩을 바이패스할 수 있고, A2DP(Advanced Audio Distribution Profile)에 의해 지원되는 서브 대역 코덱과 같은 더 높은 품질의 광대역 스피치 코덱을 이용하거나, 또는 단순히 PCM 포맷으로 캡쳐된 음성 신호의 음성 품질을 보존할 수 있다. 또한, 이는, 더 높은 샘플링 주파수(예컨대, 16KHz)를 음성 인식 세션에서 캡쳐된 음성에 적용할 수 있고, 음성 통신 애플리케이션에 대한 표준 8KHz 샘플링 주파수를 유지할 수 있다. 오디오 모듈은, 음성 요청 타입이 음성 통신 요청에 대응하면 인코딩된 음성 신호를 변조하거나, 또는 음성 요청 타입이 음성 인식 요청에 대응하면 음성 신호를 변조하여 변조된 신호를 생성하는 변조기, 및 변조된 신호 및 음성 요청 타입을 송신하기 위한 송신기를 포함할 수 있다. 컨택스트(context) 전환 및 신호 처리 스킴은 캡쳐된 음성 신호의 품질 및 인테그리티(integrity)를 보존할 수 있다. 음성 인식 동작에서의 우수한 인식 정확도는 음성 통신 세션에 대한 최소의 임팩트(impact)를 가지고 유지될 수 있다.

하나의 구성에서, 송신기는 블루투스 통신 링크를 이용하여 모바일 디바이스에 무선으로 연결될 수 있다. 오디오 모듈은, 음성 요청 타입이 음성 인식에 대응할 때 더 높은 품질의 음성 신호를 더 높은 데이터 레이트로 모바일 디바이스에 송신할 수 있고, 음성 요청 타입이 음성 통신에 대응할 때 음성 신호를 더 낮은 데이터 레이트로 인식하기에 충분한 품질로 모바일 디바이스에 송신한다. 일례로서, 송신기는, 음성 인식 작업을 위한 ACL(asynchronous connectionless) 논리 전송, 및 음성 통신 작업을 위한 SCO(synchronous connection-oriented) 논리 전송을 통해 64Kbit/s 보다 높은 데이터 레이트로 음성 신호를 송신하여서, 음성의 단일 채널에 대해 64Kbps/s에서 동작할 수 있다.

본 발명에 따른 다른 실시예는 통신 링크를 통해 헤드셋에 통신가능하게 연결된 모바일 디바이스이다. 모바일 디바이스는 헤드셋으로부터 음성 신호 및 대응하는 음성 요청 타입을 수신하고, 음성 신호 타입에 따라, 음성 인식을 위한, 모바일 디바이스내의 음성 신호의 제1 오디오 처리 경로, 및 음성 통신을 위한, 모바일 디바이스내의 음성 신호의 제2 오디오 처리 경로를 구성하는 오디오 모듈을 포함할 수 있다. 음성 요청 타입이 음성 인식 요청에 대응하면, 오디오 모듈은 모바일 디바이스상에서 높은 음성 인식 정확도를 얻기 위해 통신 링크의 데이터 레이트에 대응하도록 제1 오디오 경로내의 음성 신호의 디코딩 레이트를 조정할 수 있다.

음성 인식 시스템은, 음성 요청 타입이 음성 인식에 대한 것이면 제1 오디오 처리 경로를 따라 음성 신호를 수신하는 복조기에 동작가능하게 연결된다. 오디오 모듈은 음성 인식 이전에 신호 처리 및 송신동안 발생하는 왜곡을 보상하기 위해 음성 인식 시스템에 동작가능하게 연결된 이퀄라이저(equalizer), 및 음성 인식 이전에 신호의 이득을 조정하기 위해 음성 인식 시스템에 동작가능하게 연결된 AGS(automatic gain system)를 포함할 수 있다.

다른 실시예는 헤드셋과 모바일 디바이스를 포함하는 시스템이다. 헤드셋은 음성 신호의 음성 요청 타입을 결정할 수 있고, 음성 요청 타입에 따라 음성 신호의 오디오 처리 경로를 구성할 수 있으며, 또한, 음성 요청 타입이 음성 인식에 대응하면 고 데이터 레이트 연결을 통해 음성 신호를 송신하거나, 또는 음성 요청 타입이 음성 통신에 대응하면 더 낮은 데이터 레이트 연결을 통해 음성 신호를 송신할 수 있다. 모바일 디바이스는 음성 요청 타입을 수신하고 음성 요청 타입에 따라 음성 신호의 오디오 처리 경로를 구성할 수 있다. 고 데이터 레이트 연결은 ACL 논리 전송이 될 수 있고, 저 데이터 레이트 연결은 SCO 논리 전송이 될 수 있다.

다른 실시예는 수신된 음성 데이터 인테그리티를 개선하고, 블루투스 데이터 송신에서 발생하는 채널 간섭을 완화시키는 채널 보호 방법을 포함하는 시스템이다. 채널 보호 방법은 간단한 체크섬(checksum) 방법, CRC(cyclic redundancy check), 및 다른 더 정교한 에러 검출 및 정정 방법 중에서, 통상적으로 채택되는 방법들 중 하나가 될 수 있다. 데이터 레이트 제한 및 실시간 요구가 막강한 에러 검출/정정 메커니즘의 이용을 제한하는 사람의 음성 통신 세션과는 달리, 음성 인식 애플리케이션에 있어서는, 발생된 비트 에러들이 음성 데이터와 함께 리던던시 비트들을 송신하거나, 또는 에러가 검출되면 소스로부터 음성 데이터의 동일한 부분을 재송신함으로써 감소될 수 있다.

또 다른 실시예는 가변 레이트 통신 링크를 통해 모바일 디바이스에 통신가능하게 연결된 헤드셋간의 음성 처리를 위한 방법이다. 이 방법은 음성 신호의 음성 요청 타입을 결정하는 단계, 음성 요청 타입이 음성 인식에 대응하면 음성 신호의 제1 오디오 처리 경로를 구성하는 단계, 및 음성 요청 타입이 음성 통신에 대응하면 음성 통신을 위해 음성 신호의 제2 오디오 처리 경로를 구성하는 단계를 포함할 수 있다. 이 방법은 음성 요청 타입이 음성 인식에 대응하면, 고 품질 스피치를 생성하기 위해 음성 인식 경로의 음성 신호의 인코딩 레이트를 조정하고, 모바링 디바이스상에서 높은 음성 인식 정확도를 얻기 위해 헤드셋의 음성 신호의 인코딩 레이트에 대응하는 통신 링크의 데이터 레이트를 선택하여, 헤드셋의 음성 신호의 제1 음성 인식 경로를 구성하는 단계를 포함할 수 있다. 이 방법은 음성 요청 타입이 음성 인식에 대응하면 통신 링크의 데이터 레이트에 대응하는 제2 음성 인식 경로내의 음성 신호의 디코딩 레이트를 조정하고, 고 성능 인식을 위해 음성 신호를 음성 인식 시스템에 제공하여, 음성 통신을 위한 모바일 디바이스내의 음성 신호의 제2 음성 인식 경로를 구성하는 단계를 포함할 수 있다.

제1 오디오 처리 경로는 광대역 신호로서 음성을 처리할 수 있고, 코딩된 스피치를 고 데이터 레이트로 송신할 수 있다. 제2 오디오 처리 경로는 기저대역 신호로서 음성을 처리하고, 저 데이터 레이트로 데이터를 송신한다. 일 양태에서, 블루투스 무선 통신 링크가 음성 신호를 송신 및 수신하는데 이용될 수 있다. 이 방법은, 음성 인식에 대한 사용자 요청을 식별하는 단계, 음성 인식을 위한 음성 신호를 조절(condition)하기 위해 제1 오디오 처리 경로로 전환하는 단계, 음성 인식 확인을 수신하는 단계, 및 음성 통신 확인의 수신에 응답하여 음성 통신을 위한 음성 신호를 조절하기 위해 제2 오디오 처리 경로로 전환하는 단계를 포함할 수 있다.

음성 인식을 위한 제1 오디오 처리 경로를 구성하는 단계는 헤드셋상에서 수행될 수 있고, 어쿠스틱(acoustic) 신호를 디지털화(digitizing)하여 디지털화된 신호를 생성하는 단계, 디지털화된 신호를 변조하여 변조된 신호를 생성하는 단계, 및 변조된 신호 및 음성 요청 타입을 송신하는 단계를 포함한다. 이 방법은 한 범위의 광대역 스피치 코덱(예컨대, 고 데이터 레이트 SBC), 또는 코덱을 거치지 않은 원시(raw) PCM 데이터를 적용하는 단계를 포함할 수 있다. 이 방법은 또한 음성 인식을 위해 의도된 음성 신호에 더 높은 샘플링 주파수(예컨대, 16KHz)를 적용하고, 제2 오디오 처리 경로의 음성 통신을 위해 표준 8KHz 샘플링 주파수를 유지한다.

음성 인식을 위한 제1 오디오 처리 경로의 구성은 또한 모바일 디바이스상에서 수행될 수 있고, 광대역 인코딩되거나 또는 PCM 변조된 신호 및 음성 신호 타입을 수신하는 것을 포함한다. 수신된 스피치 데이터는, 소스 데이터가 PCM 포맷이면 다음에 디코딩되거나 직접 이용된다. 재구성된 스피치 데이터는 다음에 인식되기 위해 음성 인식기 엔진으로 송신된다. 이 방법은 광대역 디코딩되거나 또는 복조된 신호를 음성 인식 시스템으로 송신하는 단계 이전에 음성 신호를 이퀄라이징하는 단계, 및 복조된 신호를 음성 인식 시스템으로 송신하는 단계 이전에 음성 신호를 자동으로 이득 조정하는 단계를 포함할 수 있다.

음성 통신을 위한 제2 오디오 처리 경로의 구성은 헤드셋상에서 수행될 수 있고, 어쿠스틱 신호를 디지털화하여 디지털화된 신호를 생성하고, 디지털화된 신호를 인코딩하여 인코딩된 신호를 생성하고, 인코딩된 신호를 변조하여 변조된 신호를 생성하고, 변조된 신호 및 음성 신호 타입을 송신하는 것을 포함하며, 이들 모두는 전화 대역폭(즉, 기저대역)에서 수행된다.

음성 통신을 위한 제2 오디오 처리 경로의 구성은 또한 모바일 디바이스상에서 수행될 수 있고, 변조된 신호 및 음성 신호 타입을 수신하고, 변조된 신호를 복조하여 복조 신호를 생성하고, 복조 신호를 디코딩하여 음성 통신을 제공하기 위한 디코딩된 신호를 생성하는 것을 포함한다.

신규한 것으로 간주되는 시스템의 특징들은 특히 부가된 특허청구범위에서 개시된다. 여기서의 실시예들은 첨부 도면과 함께 다음의 상세한 설명을 참조하면 잘 이해할 수 있으며, 몇몇 도면들에서 동일한 참조 번호는 동일한 엘리먼트를 나타낸다.

도 1은 본 발명의 일 실시예에 따른 예시적인 모바일 디바이스 통신 시스템을 도시하는 도면.

도 2는 본 발명의 일 실시예에 따른 예시적인 헤드셋의 오디오 모듈을 도시하는 도면.

도 3은 본 발명의 일 실시예에 따른 예시적인 모바일 디바이스의 오디오 모듈을 도시하는 도면.

도 4는 본 발명의 일 실시예에 따른 음성 인식 및 음성 통신을 위한 오디오 처리 경로를 구성하기 위한 예시적인 방법을 도시하는 도면.

본 명세서는 신규한 것으로 간주되는 본 발명의 실시예의 특징을 정의하는 특허청구범위를 포함하지만, 방법, 시스템, 및 다른 실시예들은 도면과 결부된 다음의 상세한 설명을 통해 더 잘 이해될 수 있으며, 여기서 동일한 참조 번호가 이용된다.

요구되는 바와 같이, 본 방법 및 시스템의 상세한 실시예들이 여기 개시된 다. 그러나, 개시된 실시예들은 단지 예시적인 것이며 이들은 다양한 형태로 구현될 수 있음을 알 수 있다. 따라서, 여기 개시된 특정 구조 및 기능적 상세는 제한 적으로 해석되어서는 안되며, 특허청구범위에 대한 기초로서, 그리고, 당업자가 실제로 적절하게 상세한 구조로 본 발명의 실시예를 다양하게 이용하기 위한 교시의 전형적인 기초로서 해석되어야 한다. 또한, 여기서 이용된 용어 및 문맥은 제한적이 아니라 여기서의 실시예에 대한 이해가능한 설명을 제공하도록 의도된다.

여기서 이용된 용어 "a" 또는 "an"는 하나 또는 하나 이상으로 정의된다. 여기서 이용된 용어 "복수"는 2 또는 2 이상으로 정의된다. 여기서 이용된 용어 "다른(another)"은 적어도 제2 또는 그 이상으로 정의된다. 여기서 이용된 용어 "v포함하는" 및/또는 "갖는"은 포함하는(오픈 랭귀지)으로 정의된다. 여기서 이용된 용어 "연결된"은 반드시 직접 그리고, 반드시 기계적으로는 아닐지라도, 연결된 것으로 정의된다. 여기서 이용된 용어 "프로세서"는 미리-프로그램된 또는 프로그램된 명령의 세트를 수행하는 다수의 적절한 프로세서들, 제어기들, 및 유닛들등으로서 정의될 수 있다. 여기서 이용된 용어 "프로그램", "소프트웨어 애플리케이션"등은 컴퓨터 시스템상에서의 실행을 위해 설계된 명령의 시퀀스로서 정의된다. 용어 "헤드셋(head set)"은 귀에 걸쳐 이어폰들을 지지하고 때때로 부착된 마우스피스로 지지하기 위한 헤드밴드를 구비한 하나 또는 2개의 이어폰을 포함하는 장치로서 정의될 수 있다. 용어 "모바일 디바이스"는 셀 폰과 같은 휴대용 전자 통신 디바이스로서 정의될 수 있다. 용어 "음성 인식"은 음성 신호의 부분을 인식하는 것으로서 정의될 수 있다. 용어 "음성 통신"은 통신 네트워크를 통해 음성 신호를 통신하는 것으로서 정의될 수 있다. 용어 "오디오 모듈"은 헤드셋 또는 모바일 디바이스내에서, 또는 데이터 통신 링크를 통해 오디오 경로들을 구성하는 프로세서 또는 소프트웨어 콤포넌트로서 정의될 수 있다.

대체적으로, 본 발명의 실시예들은 음성 인식 성능을 개선하기 위한 헤드셋 및 모바일 디바이스에 대한 오디오 처리 경로들을 구성하는 시스템 및 방법에 관한 것이다. 이 방법은, 헤드셋에서, 오디오 처리 경로들내에서 인코딩 레이트들을 조정하는 단계, 및 인코딩 레이트들에 대응하는 데이터 레이트들을 갖는 통신 링크들을 선택하는 단계를 포함할 수 있다. 이 방법은, 모바일 디바이스에서, 통신 링크의 데이터 레이트에 대응하는 디코딩 레이트를 선택하여, 음성 신호를 고 음성 품질 신호로 디코딩하는 단계, 및 다음에 고 음성 품질 신호를 고 정확성 인식을 위한 음성 인식 시스템에 제공하는 단계를 포함할 수 있다. 시스템은, 수정된 데이터 링크 설정 및 서비스를 통해, 헤드셋과 모바일 디바이스간에 고 품질 광대역 스피치(speech)(예컨대, 16KHz PCM)를 제공하여 음성 열화 및 음성 인식 미스매치(mismatch)를 억제할 수 있다. 시스템은, 음성 인식 작업이 요청될 때 음성 신호의 품질을 보존하기 위해 통상적인 인코딩 및 디코딩 동작을 바이패스(bypass)할 수 있다. 대안적으로, 시스템은, 고 음성 품질 인코딩을 얻기 위해 인코딩 레이트를 증가시키고, 증가된 인코딩 레이트를 지원하는 통신 링크를 선택하고, 고 품질 음성 신호를 통신 링크를 통해 송신하고, 통신 링크의 데이터 레이트로 음성 신호를 디코딩하여, 고 품질 스피치를 음성 인식 시스템에 제공하여 인식 성능을 개선시킬 수 있다. 일례로서, 시스템은 음성 인식 작업을 위해 헤드셋으로부터 모바일 디바이스로 고 품질 음성을 전송하기 위한 복수의 데이터 레이트를 지원하는 고 데이터 레이트 ACL(asynchronous connectionless link)을 요청할 수 있다. 이득 제어 및 이퀄라이제이션은 또한 인식을 향상시키기 위해 음성 품질을 개선하도록 적용될 수 있다.

도 1을 참조하면, 예시적인 모바일 디바이스 통신 시스템(100)이 도시된다. 모바일 디바이스 통신 시스템(100)은 모바일 디바이스(160)에 통신 가능하게 연결된 헤드셋(110)을 포함할 수 있다. 헤드셋(110)은 외부 이어피스(earpiece), 고막형(in-the-canal) 이어피스, 이어피스 부착물, 이어 버드(ear bud), 헤드셋, 또는 귀에 부착될 수 있는 임의의 다른 액세서리 장치가 될 수 있다. 헤드셋(110)은 사용자 입력을 수신하기 위한 하나 이상의 소프트 버튼들(111)을 포함할 수 있다. 모바일 디바이스(160)는 셀 폰, PDA(personal digital assistant), 랩탑, 카 오디오, PMP(portable music player), 또는 임의의 다른 적절한 통신 장치가 될 수 있다.

간단히 말해, 헤드셋(110) 및 모바일 디바이스(160)는 복수의 데이터 레이트를 지원하는 다양한 레이트의 데이터 통신 링크를 통해 통신할 수 있다. 헤드셋(110) 및 모바일 디바이스(160)는 음성 처리 작업에 따라 통신 링크들 중 하나를 상호동작하여 선택할 수 있다. 음성 처리 작업은 음성 인식 작업 또는 음성 통신 작업에 대응할 수 있다. 도시된 바와 같이, 헤드셋(110) 및 모바일 디바이스(160)는 음성 인식 작업을 위해 고 데이터 레이트 통신 링크(120)를 통해 음성 신호를 송신 및 수신할 수 있고, 또는 음성 통신 작업을 위해 저 데이터 레이트 통신 링 크(130)를 통해 음성 신호를 송신 및 수신할 수 있다. 고 데이터 레이트 링크(120)는 음성 인식을 위한 고 데이터 레이트 음성 신호의 송신을 허용하고, 저 데이터 레이트 링크(130)는 통상적인 음성 통신 관련 작업을 위한 더 낮은 데이터 레이트 음성 신호의 송신을 허용한다. 데이터 링크는 블루투스(Bluetooth) 연결, 지그비(ZigBee) 연결, 또는 복수의 데이터 레이트를 지원하는 임의의 다른 무선 액세스 기술이 될 수 있다. 복수의 데이터 레이트는 다양한 음성 처리 작업을 위해 헤드셋(110)과 모바일 디바이스(160)사이에서 데이터 및 음성이 효율적으로 송신될 수 있도록 한다. 제어 신호는 또한 무선 액세스 기술을 이용하여 장치들간에 송신될 수 있다. 데이터 링크 연결은 단거리(short-range) 무선 기술에 한정되지 않는다.

불루투스는 고 레벨 보안을 유지하면서 휴대용 및/또는 고정 장치를 연결하는 케이블을 대체할 수 있는 단거리 통신 기술이다. 블루투스 기술의 중요한 특징은 견고함, 최소 하드웨어 부피, 저 전력, 및 저 비용이다. 블루투스 기술은, 1600 홉/초(hops/sec)의 공칭 레이트에서 확산 스펙트럼, 주파수 호핑, 풀-듀플렉스(full-duplex) 신호를 이용하여, 2.4 내지 2.485 GHz에서의 비승인 ISM(industrial, scientific and medical) 대역에서 동작한다. 이것은 헨드헬드 장치에 적합하게 해주는 대부분의 통상적으로 이용되는 무선 클래스 2에 대해 대략 2.5mW의 저 전력 레이트를 갖는다. 블루투스 버전 1.2는 1Mbps 데이터 레이트를 지원하고, 버전 2.0 + EDR(Enhanced Data Rate)은 3Mbps 까지 지원한다.

블루투스 버전 1.2는 마스터(예컨대, 모바일 디바이스(160))와 슬레이브 장 치(예컨대, 헤드셋(110))간에 양방향 통신을 지원한다. 연결을 설정하는데 이용될 수 있는 2가지 타입의 논리 전송(logical transport), 즉, SCO(synchronous connection-oriented) 논리 전송 및 ACL(asynchronous connectionless) 논리 전송이 존재한다. SCO는 포인트-투-포인트(point-to-point) 양방향이고, 대칭적이며, 고정 및 주기적인 슬롯들의 할당에 기초하여 일정한 비트-레이트를 갖는다. SCO 링크들은 링크에 대해 선택된 SCO 패킷에 따라 매 2, 4 또는 6 슬롯들마다 한번씩 한 쌍의 슬롯을 요구한다. 비트-레이트는 64Kb/s로 고정된다. SCO 논리 전송은 데이터 스트림의 멀티플렉싱을 지원하지 않는다. ACL 논리 전송은 양방향이고, 비연결이며, 비동기 또는 등시성(isochronous)이며, 1, 3 또는 5 슬롯들에 걸쳐 있다. ACL에 대해서, 블루투스는 확실한 데이터 전송을 보장하기 위해 고속 확인(fast acknowledgment) 및 재전송 스킴을 이용한다.

SCO 링크 및 ACL 링크 양자 모두는 음성 데이터를 전송할 수 있다. SCO는 64Kb/s의 고정 데이터 레이트를 갖는다. ACL은 패킷 타입에 따라 108.8Kb/s 내지 433.9Kb/s의 데이터 레이트를 지원할 수 있다. 스피치 신호의 더 높은 스펙트럼 분해능 및 더 넓은 스펙트럼 콘텐츠의 이점을 얻을 수 있는 16KHz VR 기술을 이용하기 위해, 예컨대, 16(KHz)×16(bit) 또는 16KHz×8(bit)인 256Kbits/s 또는 128Kbits/s의 데이터 레이트가 요구된다. 몇몇 종류의 ACL 패킷 타입들은 이러한 데이터 레이트 요구를 충족시킬 수 있다. 불루투스는 상당히 제어된 채널 액세스를 갖는다. 피코넷(piconet)내의 각각의 노드에는 마스터에 의한 송신 기회가 주어지고, 슬레이브들 중에서 피코넷 대역폭을 분할하기 위한 폴링(polling) 메커니 즘이 존재함으로써 어떤 ACL 링크도 스타브(starved)되지 않도록 보장한다. 이러한 액세스 메커니즘하에서, ACL 링크들은 고 품질 음성을 전송하기에 충분하다. 블루투스 사양은 3개의 DM(data-medium rate) 패킷들, 3개의 DH(data-high rate) 패킷 및 1개의 AUX1 패킷의 7 종류의 ACL 패킷들을 정의한다.

아래 표 1에 도시된 바와 같이, DM3, DM5, DH3, 및 DH5는 256Kbits/s를 초과하는 데이터 레이트를 지원할 수 있고, 타입 DH1, DM3, DM5, DH3 및 DH5는 128Kbits/s를 초과하는 데이터 레이트를 지원할 수 있다. DH 및 DM 패킷 양자 모두는 CRC(cyclic redundancy check)를 갖는다. DM 패킷들은 FEC(Forward error correction)을 갖지만, DH 패킷들은 갖지 않는다. FEC는 소스(송신기)가 여분의 데이터를 송신하고, 목적지(수신기)가 명백한 에러를 포함하지 않는 데이터의 부분만을 인식하는 데이터 송신에서 에러 제어를 획득하는 방법이다. DM 패킷들은 DH 패킷들보다 더 낮은 데이터 레이트를 갖지만, 더 양호한 에러 제어 메커니즘을 제공할 수 있다. DM3 및 DM5는 256Kbits/s의 최대 데이터 레이트를 요구하는 음성 인식(VR) 애플리케이션에 대한 음성 데이터를 전송하기 위한 수용가능한 선택이다.

타입	페이로드헤더 (bytes)	사용자 페이로드 (bytes)	FEC	CRC	대칭 최대.레이트 (Kbits/s)
DM1	1	0-17	2/3	예	108.8
DH1	1	0-27	아니오	예	172.8
DM3	2	0-121	2/3	예	258.1
DH3	2	0-183	아니오	예	390.4
DM5	2	0-224	2/3	예	286.7
DH5	2	0-339	아니오	예	433.9

헤드셋(110) 및 모바일 디바이스(160)는 선택된 통신 링크(예컨대, 고 데이터 레이트 링크(120) 또는 저 데이터 레이트 링크(130))와 관련된 데이터 레이트 처리 요구를 만족시키기 위해 각각의 장치내에서 각각 오디오 처리 경로를 구성할 수 있다. 특히, 헤드셋(110) 및 모바일 디바이스(160)는 연결 데이터 레이트에 따라 음성 신호를 처리하기 위한 그들 각각의 오디오 처리 경로에서 콤포넌트의 실행 순서를 상호 협력하여 구성할 수 있다. 제1 구성에서, 헤드셋(110) 및 모바일 디바이스(160)는 표 1로부터의 하나의 패킷 타입으로 음성 인식 작업을 위해 구성된다. 제2 구성에서, 헤드셋(110) 및 모바일 디바이스는 64kb/s SCO 패킷 타입으로 음성 통신 작업을 위해 구성된다.

일 실시예에 따르면, BT 장치(110)는 모바일 디바이스(160)에 대해 광대역 스피치 콘텐츠를 스트리밍한다. 이렇게 하기 위해, 장치는 스트리밍 연결을 셋업한다. 스트리밍 연결을 구성하기 위한 셋업 절차 동안, BT 장치(110)는, 샘플링 주파수, 코덱 타입, 데이터 레이트, 스피치 이퀄라이제이션 파라미터, 어쿠스틱 이득 팩터(acoustic gain factor), 및 에러 보호 방법 및 파라미터와 같은 선택가능한 파라미터들을 나타내는 적절한 오디오 스트림을 선택한다. 셋업동안, 2가지 종류의 서비스가 구성될 수 있으며, 하나는 고 정확성 음성 인식을 위한 오디오 처리 서비스 능력이고, 다른 하나는 대화식의 음성 통신을 제공하기 위한 전송 서비스 능력이다. 싱크 포인트(Sink point)(즉, 수신기)에서 블루투스 채널로부터 스피치 데이터 스트림이 수신되고 언팩(unpack)되면, 제어기는 음성 요청 타입이 음성 통신에 대한 것이면 데이터를 기저대역(base band) 디코더로 송신할 수 있고, 음성 요청 타입이 음성 인식에 대한 것이면 더 높은 데이터 레이트의 스피치 콘텐츠를 광대역 디코더로 또는 직접 음성 인식 엔진으로 송신할 수 있다.

도 2를 참조하면, 예시적인 헤드셋(110)의 오디오 모듈이 도시된다. 오디오 모듈은 어쿠스틱 신호를 캡처하고 음성 신호를 생성하기 위한 A/D(analog to digital) 컨버터(202), 및 음성 요청 타입을 결정하고 음성 요청 타입에 따라 음성 신호를 선택적으로 인코딩 및 변조하기 위한 제어기(204)를 포함할 수 있다. 제어기(204)는 인코더(208)의 가변 인코딩 레이트, 및 코더(229)의 가변 레이트를 선택할 수 있고, 이것은 가변 레이트를 지원하는 음성 인코더, 뮤직 인코더, 오디오 인코더, 또는 미디어 인코더가 될 수 있다. 또한, 인코더(208)는 코더(229)의 기능을 수행할 수 있고, 음성 신호를 언코딩된(uncoded)(예컨대, PCM) 또는 코딩된 포맷으로 전달할 수 있음을 알 수 있다. 제어기(204)는 음성 인식 경로(121) 또는 음성 통신 경로(131)의 2개의 오디오 처리 경로를 선택할 수 있다. 음성 통신 경로(131)를 따라, 오디오 모듈은 음성 신호의 샘플링 레이트를 조정하여 인코딩 이전에 보간된 신호를 생성하는 보간기(interpolator)(206), 및 음성 요청 타입이 음성 통신 요청에 대응하면 보간된 신호를 인코딩하여 인코딩된 음성 신호를 생성하는 인코더(208)를 포함할 수 있다. 음성 인식 경로(121)를 따라, 오디오 모듈은 가변 레이트 코더(229) 및 음성 신호의 특징을 향상시키기 위해 음성 신호의 다이내믹 레인지(dynamic range)를 조정하는 콤프레서(230)를 포함할 수 있다. 실제로 콤프레서(230)는 존재하거나 존재하지 않을 수 있다. 일례로서, 콤프레서(230)는 로 인코딩(law encoding), 에이-로 인코딩(A-law encoding)을 구현할 수 있고, 코더(229)는 광대역 오디오(뮤직)을 지원하도록 구성되고, 어드밴스드 오디오 분배 프로파일(advanced audio Distribution Profile)(A2DP)에 의해 지원되는 서브 밴드 코덱(Sub Band Codec) 또는 임의의 다른 적절한 고 품질 광대역 스피치 코덱과 같은, 고 어쿠스틱 분해능 및 데이터 레이트에서 동작하는 광대역 스피치 코덱이 될 수 있다. 오디오 모듈은 음성 요청 타입이 음성 통신 요청에 대응하면 인코딩된 음성 신호를 변조하고, 음성 요청 타입이 음성 인식 요청에 대응하면 음성 신호를 변조하여, 변조된 신호를 생성하는 변조기(210)를 포함할 수 있다. 오디오 모듈은 음성 신호의 코딩 이득 정확도를 증가시키는 순방향 에러 보호 모듈(forward error protection module)(211)을 포함할 수 있고, 이것은 체크 섬 메트릭(check sum metric), 순환 리던던시 체크(cyclic redundancy check), 또는 콘볼루션 코딩 기술을 구현할 수 있다. 오디오 모듈은 순방향 에러 정정 변조 신호 및 음성 요청 타입을 송신하기 위한 송신기(212)를 포함할 수 있다. 주목할 만한 것은, 제어기(204)는 고 인식 정확도를 나타내는 음성 인코딩 레이트를 선택하여 음성 인식을 위한 제1 오디오 처리 경로(121)를 구성하고, 음성 신호의 음성 요청 타입의 결정에 응답하여 음성 통신을 위한 제2 오디오 처리 경로(131)를 구성할 수 있다는 것이다.

도 3을 참조하면, 예시적인 모바일 디바이스(160)의 오디오 모듈이 도시된다. 오디오 모듈은 음성 신호 및 헤드셋으로부터의 대응하는 음성 요청 타입을 수신하는 수신기(302), 통신 링크(120 또는 130)를 통한 음성 신호의 송신과 연관된 임의의 비트 에러를 정정하기 위한 에러 보호 모듈(303), 음성 신호를 복조하는 복조기(304), 및 음성 요청 타입을 결정하고, 음성 요청 타입에 기초하여 음성 신호에 대한 오디오 처리 경로를 구성하는 제어기(306)를 포함할 수 있다. 도시되지는 않았지만, 밴드-패스 필터, 선형 판별기(linear discriminator), 적분기(integrator), 및 수신된 음성 신호를 전-처리(pre-process)하기 위한 임계값 검출기와 같은 수신 경로내의 다른 콤포넌트들도 또한 존재할 수 있다. 제어기(306)는 음성 타입 요청에 기초하여 음성 인식 경로(122) 또는 음성 통신 경로(132)의 2개의 오디오 처리 경로를 선택할 수 있다. 음성 통신 경로(132)는 음성 신호를 디코딩하기 위한 디코더(314), 디코딩된 신호의 샘플링 레이트를 조정하기 위한 데시메이터(decimator)(316), 및 음성 신호를 복구하기 위한 로우 패스 필터(318)를 포함할 수 있다. 음성 인식 경로(122)는 헤드셋(110)에 의해 도입되는 주파수 왜곡을 되돌리기(undo)위한 이퀄라이저(320), 및 이퀄라이제이션의 양에 기초하여 음성 신호의 이득을 조정하기 위한 이득 조정기(324)를 포함한다. 이득 조정기(324)는 또한 음성 인식에 적합한 다이내믹 레인지로 이득을 조정할 수 있다. 음성 요청 타입이 음성 통신이면, 제어기(306)는 음성 통신 경로(132)를 따라 음성 신호를 송신할 수 있다. 음성 요청 타입이 음성 인식이면, 제어기(306)는 음성 인식 경로(122)를 따라 음성 신호를 송신한다.

오디오 모듈은 음성 통신 경로(132) 또는 음성 인식 경로(122) 중 하나로부터 음성 신호를 수신할 수 있는 음성 인식 시스템(330)을 포함할 수 있다. 실제로, VR 시스템(330)은 일반적으로 음성 인식 경로(122)로부터 수신된 신호를 처리한다. 일례로서, VR 시스템(330)은 음성 커맨드(예컨대, "잭 호출")를 인식할 수 있고, 음성 커맨드(예컨대, 잭의 번호 다이얼링)를 인식하는 것에 응답하여 작업을 수행할 수 있다. VR 시스템의 음성 인식 성능은 수신된 음성 신호의 품질에 의존하고, 이것은 음성 인코딩의 레벨과 데이터 레이트의 함수이다. 일반적으로, 음성 인식 성능은 음성 신호에 대해 인코딩 및 디코딩 동작이 최소로 또는 전혀 수행되지 않을 때 더 높아진다. 인코딩 및 디코딩 동작은 인식 성능에 불리한 영향을 미치는 방식으로 음성 신호를 열화시킨다. 따라서, 제어기(306)는 음성 인식 또는 음성 통신 중 하나인, 수신된 음성 타입 요청의 타입에 따라 음성 신호의 오디오 처리 경로를 구성한다.

도 4를 참조하면, 음성 인식을 위한 모바일 디바이스 통신 시스템에서 오디오 처리 경로를 구성하는 방법(400)이 도시된다. 방법(400)은 도시된 단계의 수 보다 많거나 또는 적게 수행될 수 있고, 도시된 단계들의 순서에 한정되는 것은 아니다. 방법(400)이 여러 적절한 콤포넌트들을 이용하여 임의의 다른 방식으로 구현될 수 있음을 알 수 있지만, 방법(400)을 설명하기 위해, 도 2 및 도 3이 참조된다. 예시적인 방법(400)은 헤드셋(110) 및 모바일 디바이스(160)가 대기 모드에 있는 상태에서 시작할 수 있다. 대기 모드에서, 장치들은 저 데이터 레이트 링크(130)(예컨대, 128Kbps, 표 1 참조)를 이용하여 저 데이터 레이트 블루투스 연결을 통해 음성 및 데이터를 교환한다.

대기 모드에서 블루투스 콤포넌트들은 다른 블루투스 인에이블드(Bluetooth-enabled) 장치들에 대한 주변 환경을 스캐닝하는 동안 주기적으로 웨이크업(wakeup) 프로세스를 수행하여 다른 블루투스 인에이블드 장치들을 검색한다. 블루투스 장치가 스캐닝 프로세스 동안 다른 블루투스 인에이블드 장치들을 만나게 되고 연결이 필요하다고 결정하면, 블루투스 장치는 음성 인식을 위한 고 데이터 레이트 ACL 연결 또는 전화기와 헤드셋간의 음성 통신을 위한 저 데이터 레이트 SCO 연결 중 하나를 설립하기 위한 특정 구성 및 프로세스들을 수행할 수 있다. 그렇지 않으면, 스캐닝 작업은 다음 웨이크업 프로세스까지 튠 오프(tuned off)된다. 웨이크-업, 스캐닝 및 튜닝-오프의 대기 사이클은 전형적으로 대기 주기의 지속 기간에 대해 매 1.28초 마다 한번, 두번, 또는 4번 반복한다. 대기 모드는 헤드셋(110) 및 모바일 디바이스(160)의 배터리 전력을 보존한다. 주목할 만한 것은, 방법(400)은 다른 모드에서도 또한 시작할 수 있고, 대기 모드에서 시작하는 것으로 한정되는 것은 아니며, 이것은 단지 예시를 위한 목적으로 제시된 것이다.

단계(401)에서, 헤드셋(110)은 음성 인식(VR) 세션을 개시하기 위해 사용자 입력을 수신한다. 예컨대, 헤드셋(110)의 사용자는 음성 인식 커맨드를 이용하여 호출(call)을 배치하길 원할 수 있다. 사용자는 헤드셋(110)상의 소프트 버튼(111)을 눌러서 음성 커맨드 요청을 개시할 수 있다. 헤드셋(110)이 사용자 입력을 수신하면, 헤드셋(110)은 단계(401)에서 음성 인식을 위한 음성 요청 타입에 따라 오디오 모듈의 오디오 처리 경로를 구성한다. 예컨대, 도 2를 다시 참조하면, 제어기(204)는 음성 요청 타입을 식별하면 보간기(206) 및 인코더(208)로 바이패스하기 위한 오디오 처리 경로(121)를 구성한다.

단계(402)에서, 헤드셋(110)은 모바일 디바이스(160)와의 고 데이터 레이트 블루투스 연결을 위한 ACL(Asynchronous Communication Link)를 요청한다. ACL(예컨대, 고 데이터 레이트 링크(120))는 헤드셋(110)으로부터 모바일 디바이스(160)로 음성 신호를 전송하기 위해 표 1에 도시된 바와 같이 128Kbps 및 256Kbps의 데이터 레이트를 지원할 수 있다. 헤드셋(110)은 더 낮은 데이터 레이트(예컨대, 64Kbps)로 인코딩된 음성 신호와 동일한 양의 시간내에 더 높은 데이터 레이트로 음성 신호를 송신할 수 있다. 원시(raw) PCM 음성 신호가 더 많은 대역폭을 차지하긴 하지만(즉, 인코딩되지 않음), 더 많은 데이터가 ACL(120)의 더 노은 데이터 레이트에 기인하여 송신될 수 있고, 이에 따라 단위 시간당 동일한 양의 데이터가 송신될 수 있도록 한다. 블루투스 통신을 위한 고 데이터 레이트 ACL 링크(120)가 이용가능하다는 것의 확인 수신되면, 헤드셋(110)은 단계(406)에서 음성 요청 타입을 ACL을 통해 모바일 디바이스(160)로 송신한다.

단계(408)에서, 모바일 디바이스(160)는 음성 요청 타입을 수신하고, 이에 응답하여, 단계(410)에서, 모바일 디바이스(160)의 음성 인식을 위한 오디오 모듈의 오디오 처리 경로를 구성한다. 예컨대, 도 3의 모바일 디바이스(160)의 오디오 모듈을 다시 참조하면, 제어기(306)는 디코더(314), 데시메이터(316), 및 로우 패스 필터(318)로 바이패스하기 위한 오디오 처리 경로(122)를 구성한다.

단계(412)에서, 헤드셋(110)은 음성 신호를 더 높은 데이터 레이트(예컨대, 265 Kbps)로 ACL(120)을 통해 모바일 디바이스(160)로 송신한다. 다시 도 2를 참조하면, 제어기(204)는 A/D(202)에 의해 캡쳐된 원시 PCM(Pulse Code Modulated) 데이터 샘플들을 변조기(21O)로 직접 송신하고, 이에 따라 보간기(206) 및 인코더(208)를 바이패스한다. 음성 인식 경로(121)는 A/D 컨버터(202)의 원래의 샘플링 레이트(예컨대, 16KHz)를 유지한다. 대조적으로, 음성 통신 경로(131)는 보간 및 인코딩으로 인해 더 낮은 샘플 레이트(예컨대, 8KHz) 및 더 낮은 품질의 음성 신호를 제공한다. 음성 인식 구성에서, 음성 인식 경로(121)는 음성 신호에 그렇지 않은 경우 음성 신호의 음성 품질을 낮추는 손실 압축이 수행되지 않도록 한다. 음성 인식 경로(121)는 개선된 인식 성능을 나타내는 원래의 음성 품질을 유지한다. 변조기(210)는 다음에 더 높은 샘플 레이트의 음성 신호(예컨대, 16KHz)를 변조하고, 고 데이터 레이트(예컨대, 256Kbps)로 송신기(212)에 의해 송신될 수 있는 변조 신호를 생성할 수 있다.

단계(414)에서, 모바일 디바이스(160)는 헤드셋(110)으로부터 음성 신호를 수신하고, 단계(416)에서, 음성 신호로부터 음성 커맨드를 인식하기 위해 음성 신호를 음성 인식 시스템(330)으로 송신한다. 더 구체적으로, 도 3을 다시 참조하면, 제어기(306)는 복조된 음성 신호로부터의 원시 PCM 데이터 샘플들을 직접 VR 시스템(330)으로 송신하고, 이에 따라 디코더(314), 데시메이터(316), 및 로우 패스 필터(318)를 바이패스한다. 이퀄라이저(320) 및 이득 조정기(324)는 부가적으로 음성 인식 성능을 향상시키기 위해 음성 인식 이전에 음성 신호를 개선시킨다. 이퀄라이저는 통신 프로세스의 결과 발생하는 임의의 채널 효과, 또는 음성 신호의 편차(anomaly)를 보상할 수 있다.

인식 시스템(330)에 의해 수신된 음성 신호는 음성 신호가 결합된 인코딩 및 디코딩 동작을 거치지 않았기 때문에 고 품질 신호이다. 또한, 음성 신호는 헤드셋(110)에 의해 유입되는 임의의 왜곡에 대한 보상을 위해 이퀄라이저(320) 및 이득 조정기(324)에 후-처리된다. 또한, 음성 신호를 인코딩 및 디코딩하는 것과 관련된 임의의 레이턴시(latency)도 제거된다. 주목할 만한 것은, 헤드셋(110)은 음성 요청 타입에 따라 케어기(204)에 의해 설정되는 오디오 처리 경로(121)의 구성으로 인해 음성 신호에 대해 인코딩 동작을 수행하지 않았다는 것이다. 따라서, 모바일 디바이스(160)는 음성 요청 타입에 따라 제어기(306)에 설정되는 오디오 처리 경로(122)의 구성으로 인해 디코딩 동작을 수행하지 않았다.

또한, VR 시스템(330)은 인식 성능을 증가시키기 위해 더 낮은 샘플 레이트(예컨대, 8KHz)로 인코딩된 음성 신호 대신에 더 높은 샘플 레이트(예컨대, PCM 16KHz)의 음성 신호상에서 트레이닝됨을 유의한다. 게다가, 인식 성능을 더 증가시키기 위해 트레이닝 세트는 테스팅 세트와 매칭된다. 특히, 테스팅 및 트레이닝에 이용되는 음성 신호는 동일한 프로세싱 단계들을 거치게 된다. 더 구체적으로, 테스팅 및 트레이닝에 이용되는 음성 신호는 결합된 인코딩(예컨대, 인코더(208) 도 2 참조) 및 디코딩(예컨대, 인코더(314) 도 3 참조) 동작을 거치지 않게 된다. 이하의 표 2는, 트레이닝 세트와 테스팅 세트가 매칭될 때와 매칭되지 않을 때의 음성 인식 성능의 실험 결과를 제시한다. 주목할 만한 것은, 실험 에러 레이트는 트레이닝 세트(PCM 16KHz)가 테스팅 세트(PCM 16KHz)와 매칭되지 않을 때 보다 이들이 매칭될 때 상당히 더 낮게 된다.

트레이닝 세트	테스팅 세트	비트 레이트	숫자 열(digit string) 에러 레이트
PCM	PCM	256Kbits/s	5.2
PCM	인코딩됨(ENCODED)	16Kbits/s	28.6

다시 도 4를 참조하면, 단계(418)에서, VR 시스템(330)이 음성 신호에서 음성 커맨드를 인식하지 못하면, 모바일 디바이스(160)는 헤드셋(110)을 다른 음성 신호에 대해 프롬프팅(prompt)할 수 있고, 다음에 헤드셋(110)은 사용자를 다른 발언(spoken utterance)에 대해 프롬프팅할 수 있다. VR 시스템(330)이 음성 커맨드를 인식했다면, 단계(420)에서 모바일 디바이스(160)는 VR 확인을 헤드셋(110)으로 송신할 수 있다.

VR 확인을 수신하면, 단계(422)에 도시된 바와 같이 헤드셋(110)은 음성 통신을 위한 오디오 처리 경로를 구성한다. 이것은 예컨대, 호출이 연결되고 당사자들이 통상적인 음성의 대화로 통신할 때, 음성 통신을 위한 음성 신호를 송신 및 수신하는 것에 대비하여 수행된다. 다시 도 2를 참조하면, 제어기(204)는 오디오 처리 경로를 음성 인식 경로(121)로부터 음성 통신 경로(131)로 전환한다. 음성 통신 경로(131)는 음성 신호의 데이터 레이트를 감소시키는 인코더(208)를 포함한다. 특히, 보간기는 음성 신호를 인코더(208)에 의해 지원되는 레이트로 다운 샘플링한다. 예컨대, A/D(202)가 16KHz의 샘플링 레이트로 마이크로폰에 의해 캡쳐된 어쿠스틱 음성 신호를 샘플링하면, 인코더(208)는 음성 신호를 8KHz로 인코딩하고, 보간기는 신호를 8KHz로 다운 샘플링한다. 단계(424)에서, 헤드셋(110)은 다음에 SCO(synchronous connection-oriented) 논리 전송을 요청하여 더 낮은 데이터 레이트의 음성 신호를 모바일 디바이스(160)로 송신한다. SCO 링크(130)는 더 높은 데이터 레이트(예컨대, 256Kbps)의 ACL 링크(120)보다 더 낮은 데이터 레이트 연결(예컨대, 64Kbps)을 제공한다는 것을 유의한다. 이러한 측면에서, 시스템은 음성 인식 및 음성 통신에 대한 컨텍스트 인식(context awareness)에 대하여 헤드셋 및 모바일 디바이스 양자 모두를 자동으로 구성한다. 즉, 헤드셋(110)은 컨텍스트(링크 데이터 레이트(예컨대, SCO, ACL)을 선택할 때, 예컨대, 데이터 레이트 채널 또는 링크 능력, 지원 모바일 디바이스 디코더 레이트, 음성 요청 타입)를 결정한다.

모바일 디바이스(160)가 SCO 링크(130)를 수용하였다는 확인을 수신하면, 단계(426)에서 헤드셋(110)은 음성 통신을 위한 음성 요청 타입을 모바일 디바이스(160)로 송신한다. 이에 응답하여, 단계(428)에 도시된 바와 같이 모바일 디바이스(160)는 음성 요청 타입에 따라 음성 통신을 위한 오디오 처리 경로를 구성한다. 예컨대, 다시 도 3을 참조하면, 제어기(306)는 정규의 음성 통신 데이터를 수신하기 위해 오디오 처리 경로를 음성 인식 경로(122)로부터 음성 통신 경로(132)로 전환한다. 음성 통신 경로(132)는 디코더(315), 데시메이터(316), 및 로우 패스 필터(318)를 포함한다. 단계(430)에서, 헤드셋(110)은 음성 신호를 저 데이터 레이트로 SCO 링크(130)를 통해 송신하고, 이것은 단계(432)에서 모바일 디바이스(160)에 의해 수신된다. 이러한 구성에서, 헤드셋(110) 및 모바일 디바이스(160)는 통상적인 동작에 따라 데이터를 송신할 수 있다. 즉, 헤드셋(110)은 음성 신호를 인코딩하고, 인코딩된 음성 신호를 모바일 디바이스로 송신하며, 모바일 디바이스(160)는 인코딩된 음성 신호를 디코딩하고, 디코딩된 음성 신호를 사용자에게 들을 수 있도록 제공한다.

전술한 실시예를 살펴보면, 당업자는 상기 실시예들이 이하 개시되는 특허청구범위의 범주 및 사상을 벗어남이 없이 수정, 축소 및 또는 개선될 수 있음을 명확하게 알 수 있다. 이하 정의되는 특허청구범위의 사상을 벗어나지 않고 본 명세서에 적용될 수 있는 미디어 네트워크내에서 미디어 자원을 구성하도록 고안될 수 있는 다른 미디어 서비스에 대한 다수의 구성들이 존재한다. 특히, 헤드셋(110)과 모바일 디바이스(160)간의 핸드쉐이킹(handshaking)의 다양한 배치가 여기서 고려될 수 있다. 예컨대, 단계(404)에 도시된 바와 같이, ACL 연결 요청은 본래 음성 인식 요청을 식별할 수 있고, 이에 따라 음성 타입 요청을 수신 및 처리하기 위한 단계(406 및 408)를 바이패스할 수 있다. 모바일 디바이스(160)는 ACL 요청을 수신하면 즉시 음성 인식을 위한 오디오 경로를 구성할 수 있다. 유사하게, 단계(424)에 도시된 바와 같이, SCO 연결 요청은 본래 음성 통신 요청을 식별할 수 있고, 이에 따라 음성 타입 요청을 송신 및 처리하기 위한 단계(426 및 428)를 바이패스할 수 있다. 헤드셋(110)은 VR 확인을 수신하면 즉시 음성 통신을 위한 오디오 경로를 구성할 수 있다. 또한, 모바일 디바이스(160)는 VR 확인을 송신하는 것에 응답하여 즉시 음성 통신을 위한 오디오 경로를 구성할 수 있다. 이들은 이하 개시되는 특허청구범위의 범주를 벗어나지 않고 본 명세서에 적용될 수 있는 단지 약간의 수정례들이다. 따라서, 본 명세서의 범위 및 범주를 완전히 이해하기 위해서는 특허청구범위 부분을 참조해야 한다.

또 다른 구성에서, 1) 음성 신호의 음성 요청 타입을 결정하고, 고품질 스피치를 생성하기 위해 오디오 처리 경로내에서 음성 신호의 인코딩 레이트를 조정하고, 모바일 디바이스상에서 높은 음성 인식 정확도를 얻기 위해 헤드셋내의 음성 신호의 인코딩 레이트에 대응하여 통신 링크의 데이터 레이트를 선택하여 음성 요청 타입에 따라 음성 신호의 제1 오디오 처리 경로를 구성하고, 음성 신호를 통신 링크를 통해 선택된 데이터 레이트로 송신하는 헤드셋, 및 2) 음성 요청 타입 및 음성 신호를 통신 링크를 통해 선택된 데이터 레이트로 수신하고, 통신 링크의 데이터 레이트에 대응하는 제2 오디오 처리 경로내의 음성 신호의 디코딩 레이트를 조정하고, 고성능 인식을 위해 음성 신호를 음성 인식 시스템에 제공하여, 음성 요청 타입에 따른 음성 신호의 제2 오디오 처리 경로를 구성하는 모바일 디바이스를 포함하는 시스템이 제공된다. 고 데이터 레이트 연결은 ACL(asynchronous connectionless) 논리 전송이 될 수 있고, 저 데이터 레이트 연결은 SCO(synchronous connection-oriented) 논리 전송이 될 수 있다. 채널 보호 모듈은 수신된 음성 데이터 인테그리티(integrity)를 개선시킬 수 있고, 통신 링크에서 발생하는 채널 간섭을 완화시킬 수 있다. 채널 보호 모듈은 체크섬(checksum) 방법, CRC(cyclic redundancy check), 또는 콘볼루션 코딩 체크를 포함할 수 있다. 시스템은 음성 인식 및 음성 통신을 위한 컨텍스트 인식에 대하여 헤드셋 및 모바일 디바이스 양자 모두를 자동으로 구성할 수 있다.

적용가능한 곳에서, 본 발명의 실시예들은 하드웨어, 소프트웨어 또는 하드웨어 및 소프트웨어의 조합으로 구현될 수 있다. 여기 개시된 방법을 수행하도록 적응된 임의의 종류의 컴퓨터 시스템 또는 다른 장치들도 적합하다. 하드웨어 및 소프트웨어의 전형적인 조합은, 로딩되고 실행될 때, 여기 개시된 방법들을 수행하도록 모바일 통신 디바이스를 제어할 수 있는 컴퓨터 프로그램을 구비한 모바일 통신 디바이스가 될 수 있다. 본 방법 및 시스템의 부분들은 또한 컴퓨터 프로그램 제품에 임베디드될 수 있고, 이것은 기술된 방법이 구현가능하도록 하는 모든 특징을 포함하며, 컴퓨터 시스템에 로딩될 때, 이러한 방법들을 수행할 수 있다.

본 발명의 양호한 실시예가 도시되고 기술되었지만, 본 발명의 실시예는 이들에 제한되지 않음이 명백하다. 다수의 수정, 변경, 변형, 대체 및 균등물이 부가된 특허청구범위에 의해 정의된 본 발명의 실시예들의 사상 및 범주를 벗어남이 없이 당업자에 의해 구현될 수 있다.

Claims

통신 링크를 통해 모바일 디바이스에 통신 가능하게 연결된 헤드셋으로서,

음성 요청 타입의 결정에 응답하여, 음성 인식을 위한, 상기 헤드셋내의 음성 신호의 제1 오디오 처리 경로, 및 음성 통신을 위한, 상기 헤드셋내의 음성 신호의 제2 오디오 처리 경로를 구성하기 위한 오디오 모듈을 포함하고,

상기 음성 요청 타입이 음성 인식 요청에 대응하면, 상기 오디오 모듈은 고 품질 스피치(speech)를 생성하기 위해 상기 제1 오디오 처리 경로내의 음성 신호의 인코딩 레이트를 조정하고, 상기 모바일 디바이스상에서 높은 음성 인식 정확도를 얻기 위해 상기 헤드셋내의 음성 신호의 상기 인코딩 레이트에 대응하도록 상기 통신 링크의 데이터 레이트를 선택하는 헤드셋.
제1항에 있어서,

상기 오디오 모듈은,

어쿠스틱(acoustic) 신호를 캡쳐하고, 상기 음성 신호를 생성하기 위한 A/D(analog to digital) 컨버터;

상기 음성 요청 타입을 결정하고, 상기 음성 요청 타입에 따라 상기 음성 신호를 선택적으로 인코딩 및 변조하는 제어기;

상기 음성 요청 타입이 음성 통신 요청에 대응하면, 상기 음성 신호를 인코딩하여 인코딩된 음성 신호를 생성하는 인코더;

상기 음성 요청 타입이 음성 통신 요청에 대응하면 상기 인코딩된 음성 신호를 변조하고, 또는 상기 음성 요청 타입이 음성 인식 요청에 대응하면 상기 음성 신호를 변조하여 변조된 신호를 생성하는 변조기; 및

상기 변조된 신호 및 상기 음성 요청 타입을 송신하는 송신기

를 포함하는 헤드셋.
제1항에 있어서,

상기 제어기는 사용자 입력에 응답하여 음성 인식 요청을 생성하는 헤드셋.
제1항에 있어서,

상기 오디오 모듈은, 상기 음성 요청 타입이 음성 인식에 대응할 때 더 높은 데이터 레이트로 상기 음성 신호를 송신하고, 상기 음성 요청 타입이 음성 통신에 대응할 때 더 낮은 데이터 레이트로 상기 음성 신호를 송신하는 헤드셋.
제4항에 있어서,

상기 송신기는 음성 인식을 위해 ACL(asynchronous connectionless) 논리 전송을 통해 상기 음성 신호를 송신하고, 음성 통신을 위해 SCO(synchronous connection-oriented) 논리 전송을 통해 음성 신호를 송신하는 헤드셋.
가변 레이트 통신 링크를 통해 모바일 디바이스에 통신가능하게 연결된 헤드 셋간에 음성 처리를 위한 방법으로서,

음성 요청 타입이 음성 인식에 대응하면, 상기 헤드셋내의 음성 신호의 제1 음성 인식 경로를 구성하는 단계 - 상기 제1 음성 인식 경로를 구성하는 것은, 고 품질 스피치를 생성하기 위해 상기 음성 인식 경로의 음성 신호의 인코딩 레이트를 조정하고, 상기 모바일 디바이스상에서 높은 음성 인식 정확도를 얻기 위해 상기 헤드셋내의 음성 신호의 인코딩 레이트에 대응하도록 상기 통신 링크의 데이터 레이트를 선택함으로써 행해짐 -; 및

상기 음성 요청 타입이 음성 인식에 대응하면, 음성 통신을 위해 상기 모바일 디바이스내의 음성 신호의 제2 음성 인식 경로를 구성하는 단계 - 상기 제2 음성 인식 경로를 구성하는 것은, 상기 통신 링크의 데이터 레이트에 대응하도록 상기 제2 음성 인식 경로내의 음성 신호의 디코딩 레이트를 조정하고, 고 성능 인식을 위해 상기 음성 신호를 음성 인식 시스템에 제공함으로써 행해짐 -

를 포함하는 음성 처리 방법.
제6항에 있어서,

음성 인식을 위한 사용자 요청을 식별하는 단계;

음성 인식을 위해 상기 음성 신호를 조절(condition)하기 위해 상기 제1 오디오 처리 경로로 전환하는 단계;

음성 인식 확인을 수신하는 단계; 및

상기 음성 인식 확인의 수신에 응답하여 음성 통신을 위해 상기 음성 신호를 조절하기 위해 상기 제2 오디오 처리 경로로 전환하는 단계

를 포함하는 음성 처리 방법.
제6항에 있어서,

상기 제1 오디오 처리 경로는 헤드셋상에 있고, 상기 구성 단계는,

어쿠스틱 신호를 디지털화(digitizing)하여 디지털화된 신호를 생성하는 단계;

상기 디지털화된 신호를 변조하여 변조된 신호를 생성하는 단계; 및

상기 변조된 신호 및 상기 음성 신호 타입을 송신하는 단계

를 포함하는 음성 처리 방법.
제6항에 있어서,

상기 제2 오디오 처리 경로는 헤드셋상에 있고, 상기 구성 단계는,

어쿠스틱 신호를 디지털화하여 디지털화된 신호를 생성하는 단계;

상기 디지털화된 신호를 인코딩하여 인코딩된 신호를 생성하는 단계;

상기 인코딩된 신호를 변조하여 변조된 신호를 생성하는 단계; 및

상기 변조된 신호 및 상기 음성 신호 타입을 송신하는 단계

를 포함하는 음성 처리 방법.
제6항에 있어서,

상기 제1 오디오 처리 경로는 모바일 디바이스상에 있고, 상기 구성 단계는,

상기 변조된 신호 및 상기 음성 신호 타입을 수신하는 단계;

상기 변조된 신호를 복조하여 복조된 신호를 생성하는 단계;

상기 복조된 신호를 음성 인식 시스템으로 송신하는 단계; 및

음성 인식을 제공하기 위해 음성 인식 확인(voice recognition confirmation)으로 응답하는 단계

를 포함하는 음성 처리 방법.