KR20040084759A

KR20040084759A - 이동 통신 장치를 위한 분산 음성 인식

Info

Publication number: KR20040084759A
Application number: KR1020040019928A
Authority: KR
Inventors: 황수에동
Original assignee: 마이크로소프트 코포레이션
Priority date: 2003-03-24
Filing date: 2004-03-24
Publication date: 2004-10-06
Also published as: JP2004287447A; US20030182113A1; CN1538383A; EP1463032A1

Abstract

음성 인식을 수행하는 방법, 및 그 방법을 구현하는 이동 컴퓨팅 장치가 개시된다. 본 방법은 이동 컴퓨팅 장치의 마이크로폰에서 가청 음성을 수신하는 단계를 포함한다. 가청 음성은 이동 컴퓨팅 장치에서 음성 신호로 변환된다. 또한, 이동 컴퓨팅 장치에서, 모듈로부터 결과에 대한 요청을 획득하기 위하여 예비 및 2차 음성 인식 기능이 음성 신호에 대하여 수행된다. 그 후, 결과에 대한 요청은, 결과를 얻기 위하여 이동 컴퓨팅 장치로부터, 이동 컴퓨팅 장치로부터 떨어져 위치한 제2 컴퓨팅 장치로 송신되고, 그 후 결과는 음성 인식 처리를 완료하기 위하여 이동 컴퓨팅 장치로 되돌아서 송신된다.

Description

이동 통신 장치를 위한 분산 음성 인식{DISTRIBUTED SPEECH RECOGNITION FOR MOBILE COMMUNICATION DEVICES}

본 발명은, 통상적으로 휴대용 컴퓨터(handheld portable computers)로 알려진 개인용 이동 컴퓨팅 장치(personal mobile computing devices)에 관한 것이다. 보다 구체적으로는, 본 발명은 이동 컴퓨팅 장치를 사용하여 수행되는 음성 인식을 향상시키기 위한 시스템 및 방법에 관한 것이다.

이동 장치들(mobile devices)은 때로는 개인용 휴대 정보 단말기(PDA)라고 하는 소형 전자 컴퓨팅 장치이다. 수많은 이러한 이동 장치는 손안에 편안하게 들어가는 휴대용(handheld) 장치, 또는 손바닥 크기의 장치이다. 상업적으로 입수 가능한 이동 장치의 하나는, 워싱턴의 레드몬드의 마이크로소프트사가 제공하는 소프트웨어를 구비하여 HandHeld PC(또는 H/PC)라는 상표로 판매된다.

일반적으로 이동 장치는 프로세서, 랜덤 액세스 메모리(RAM), 키보드와 디스플레이와 같은 입력 장치를 포함하고, 여기서 키보드는 터치 감지형 디스플레이(touch sensitive display)와 같이 디스플레이에 통합될 수 있다. 통신 인터페이스는 선택적으로 제공되며, 일반적으로 데스크탑과 통신하기 위하여 사용된다. 탈착 가능한, 또는 재충전 가능한 배터리가 이동 장치에 전력을 공급한다. 선택적으로, 이동 장치는 적절한 AC 또는 DC 어댑터 또는 전력 결합 받침대(powered docking cradle)와 같이, 내장된 배터리에 우선하거나(override) 내장된 배터리를 재충전하는 외부 전력원으로부터 전력을 수신할 수 있다.

일반적인 애플리케이션에 있어서, 이동 장치는 데스크탑과 연관되어 사용된다. 예를 들어, 이동 장치의 사용자는 직장이나 가정에서 데스크탑 컴퓨터에 액세스하거나 그것을 사용할 수 있다. 사용자는 전형적으로 데스크탑 컴퓨터와 이동 장치에서 동일한 유형의 애플리케이션을 실행한다. 따라서, 이동 장치는, 데스크탑 컴퓨터가 이동 장치와 정보를 교환하거나 정보를 공유할 수 있도록 데스크탑 컴퓨터와 연결되도록 설계되는 것이 유용하다.

이동 컴퓨팅 장치 시장이 계속해서 성장함에 따라 새로운 개발이 예상될 수 있다. 예를 들어, 이동 장치가 셀룰러 또는 디지털 무선 통신 기술에 통합되어 이동 전화로서도 기능하는 이동 컴퓨팅 장치가 제공될 수 있다. 따라서, 셀룰러 또는 디지털 무선 통신 기술은 이동 장치와 데스크탑(또는 기타) 컴퓨터간의 통신 연결을 제공할 수 있다. 또한, 사용자가 이동 장치의 마이크로폰으로 말하고, 마이크로폰으로부터 검출된 음성에 기초하여 데스크탑 컴퓨터로 신호를 전송하는 것을 통해 데이터를 기록하거나, 이동 컴퓨팅 장치 및 데스크탑 컴퓨터 중 어느 하나 또는 양자의 기능을 제어하기 위하여 음성 인식이 사용될 수 있다.

이동 장치에 설치된 마이크로폰과 같은 원격 마이크로폰에 말해진 단어를, 데스크탑 컴퓨터에서 음성 인식을 수행하고자 하는 경우 여러 가지 문제점들이 발생한다. 우선, 상기 마이크로폰과 사용자의 입 사이의 거리가 멀어짐에 따라 마이크로폰에 의하여 제공되는 음성 신호의 신호대 잡음비가 떨어진다. 사용자 입에서부터 일 피트(foot) 떨어진 사용자의 손에 있는 전형적인 이동 장치의 경우, 결과적인 신호대 잡음비의 저하는 상당한 음성 인식의 방해요소일 수 있다. 또한, 전형적으로 이동 장치의 본체(housing)에 위치하는 마이크로폰과 내부 노이즈와는 상당히 근접해 있기 때문에, 이동 장치 내의 내부 잡음은 음성 신호의 신호대 잡음비를 저하시킨다. 둘째, 무선 통신 네트워크와 같은 디지털 또는 기타 통신 네트워크에서는 대역폭이 제한되기 때문에, 데스크탑 컴퓨터에서 수신되는 음성 신호는, 데스크탑 마이크로폰으로부터의 음성 신호에 비하여 낮은 품질일 수 있다. 따라서, 음성 인식 결과는 데스크탑 마이크로폰 대신에 이동 컴퓨팅 장치의 마이크로폰을 사용할 경우, 서로 다른 데스크탑 및 전화(telephony) 대역폭에 의해 변동될 수 있다.

음성 인식을 수행하는 방법, 및 이를 구현한 이동 컴퓨팅 장치가 개시된다. 본 방법은 이동 컴퓨팅 장치의 마이크로폰에서 가청(audible) 음성을 수신하는 것을 포함한다. 가청 음성은 이동 컴퓨팅 장치에서 음성 신호로 변환된다. 또한, 이동 컴퓨팅 장치에서는, 음성 인식의 중간 결과를 얻기 위하여예비적인(preliminary) 음성 인식 기능이 음성 신호에 대하여 수행된다. 그 후, 2차 음성 인식 기능이 수행되어 제2 컴퓨팅 장치로부터의 결과 요청을 획득한다. 이러한 결과 요청은 이동 컴퓨팅 장치로부터, 이동 컴퓨팅 장치와 떨어져서 위치하는 제2 컴퓨팅 장치로 전송된다. 제2 컴퓨팅 장치는 결과를 획득하고, 음성 인식 처리를 완료하기 위하여 이러한 결과를 이동 장치로 전송한다.

본 발명의 몇몇 실시예에 있어서, 이동 컴퓨팅 장치는, 음성 신호에 대하여 제2 컴퓨팅 장치에서 수행되는 것과 동일한 예비적인 음성 인식 기능을 수행한다. 음성 인식의 중간 결과는 음성 신호로부터 추출된 음성 인식의 특성(speech recognition features)일 수 있다. 이 특성은, 예컨대 멜-프리퀀시 켑스트럼 계수들(Mel-Frequency Cepstrum Coefficients), 양자화된 벡터(Vector Quantized; VQ) 인덱스들, 히든 마르코브 모델링(Hidden Markov Modeling; HMM) 스코어들, 켑스트럴 계수들(Cepstral coefficients), 또는 음성 신호로부터 추출될 수 있는 기타 유형의 음성 인식의 특성을 포함한다.

제2 컴퓨팅 장치에서의 음성 인식을 위하여 음성 신호 자체를 전송하는 대신에, 이동 컴퓨팅 장치로부터 제2 컴퓨팅 장치로, 결과 요청을 전송하는 것은 통신 네트워크가 광대역인지 협대역인지 여부를 불문하고 일정한 음성 인식의 모델이 사용될 수 있게 한다. 또한, 통신 네트워크가 이동 컴퓨팅 장치의 마이크로폰보다 좁은 대역폭을 갖는 경우에도, 더 좁은 대역폭의 통신 네트워크를 통해 음성 인식의 특성들을 전송한다면 더 넓은 대역폭의 음성 정보가 손실되지 않는다.

도 1은 본 발명에 따른 이동 장치(mobile device)의 일 실시예를 도시하는 단순화된 블록도.

도 2는 도 1에 도시한 이동 장치의 일 실시예의 보다 상세한 블록도.

도 3은 본 발명에 따른 이동 장치의 일 실시예를 단순화된 그림으로 도시한 도면.

도 4는 본 발명에 따른 이동 장치의 다른 실시예를 단순화된 그림으로 도시한 도면.

도 5는 본 발명의 음성 인식 처리의 일부가 구현될 수 있는 데스크탑 컴퓨터의 예시적인 실시예를 도시한 블록도.

도 6은 본 발명의 방법을 도시한 흐름도.

도 7a-7d는 본 발명의 실시예에 따른 음성 인식 시스템을 도시한 블록도.

<도면의 주요부분에 대한 부호의 설명>

10 이동 장치

12 데스크탑 컴퓨터

14 데이터 전송부

17 마이크로폰

27 송수신기

101 A/D 변환기

103 특성 추출 프로세싱

105 음성 인식 검색 엔진

107 음향 모델

109 언어 모델

도 1은 예시적인 휴대용 컴퓨팅 장치, 여기서는 본 발명에 따른 이동 장치(10)의 블록도이다. 도 1은, 일 실시예에 있어서, 이동 장치(10)가 데스크탑 컴퓨터(12), 데이터 전송부(14), 또는 양자로 접속되고, 이들로부터 정보를 수신하기에 적당하다는 것을 보여준다. 데이터 전송부(14)는 페이징 네트워크(paging network), 셀룰러 디지털 패킷 데이터(CDPD), FM-사이드밴드(FM-sideband), 또는 기타 적절한 무선 통신과 같은 무선 전송부일 수 있다. 그러나, 이동 장치(10)는 데스크탑 컴퓨터(12)로 접속되기 위한 설비를 갖추지 않을 수 있고, 본 발명은 이동 장치(10)가 이 성능을 구비하는지 여부와 관계없이 적용될 수 있다는 것을 유의하여야 한다. 이동 장치(10)는 셀룰러 또는 디지털 무선 전화 성능을 구비하고 종래의 PDA 기능을 수행하고, 무선 전화로 동작하기에 적합한 개인용 휴대 정보 단말기(PDA) 또는 휴대용 컴퓨터(hand held portable computer)일 수 있다. 다른 실시예에 있어서는, 데이터 전송부(14)는 케이블 네트워크, 전화 네트워크, 또는 기타 유선 통신 네트워크이다.

예시적인 실시예에 있어서, 이동 장치(10)는 마이크로폰(17), 아날로그-디지털(A/D) 변환기(15), 및 음성 인식 프로그램(19)을 포함한다. 장치(10)의 사용자로부터의 구두 명령(verbal commands), 명령어(instructions), 또는 정보에 응답하여, 마이크로폰(17)은 A/D 변환기(15)에 의하여 디지털화된 음성 신호를 제공한다. 음성 인식 프로그램(19)은 디지털화된 음성 신호에 대하여 특성 추출 기능을 수행하여 음성 인식의 중간 결과를 획득한다. 안테나(11)를 사용하여, 장치(10)는 전송부(14)를 통하여 데스크탑 컴퓨터(12)로 음성 인식의 중간 결과를 전송하고, 데스크탑 컴퓨터(12)에서는 추가적인 음성 인식 프로그램을 사용하여 음성 인식 처리를 완성한다. 본 발명의 음성 인식 특성 추출 형태에 대해서는 이하에서 더 상세히 설명한다.

몇몇 실시예에 있어서, 이동 장치(10)는 하나 이상의 다른 애플리케이션 프로그램(16) 및 객체 저장부(object store; 18)를 포함한다. 애플리케이션 프로그램(16)은, 예를 들어 사용자의 전자 메일, 스케줄 및 달력 정보와 관련된 객체를 저장하는 개인 정보 관리기(PIM; 16A)일 수 있다. 애플리케이션 프로그램(16)은 또한 인터넷과 같은 광대역 네트워크로부터 획득한 정보를 보여주기 위하여 사용되는 컨텐츠 뷰어(content viewer; 16B)를 포함할 수 있다. 일 실시예에 있어서, 컨텐츠 뷰어(16B)는 정보가 보여지기 전에 우선 저장되는 "오프라인" 뷰어이며, 이 경우 사용자는 실시간으로 정보의 소스와 상호 작용하지 않는다. 다른 실시예에 있어서, 이동 장치(10)는 실시간 환경에서 동작하며, 이 경우 전송부(14)는 양방향 통신을 제공한다. PIM(16A), 컨텐츠 뷰어(16B), 및 객체 저장부(18)는 본 발명의 모든 실시예에 있어서 요구되는 것은 아니다.

PIM(16A), 컨텐츠 뷰어(16B), 및 객체 저장부(18)를 포함하는 실시예에 있어서, 무선 전송부(14)는 객체 저장부(18)에 저장되도록, 그리고 애플리케이션 프로그램(16)에 의하여 사용되도록 이동 장치(10)로 정보를 전송하는데 사용될 수 있다. 전송부(14)는 정보 소스 제공자(13)로부터 전송될 정보를 수신하는데, 이러한 정보 소스 제공자(13)는 예컨대, 뉴스, 기상, 스포츠, 교통, 또는 지역 행사 정보의 소스일 수 있다. 이와 유사하게, 정보 소스 제공자(13)는 전송부(14)를 통하여이동 장치(10)로 전송될 이메일 및/또는 스케줄 정보를 데스크탑 컴퓨터(12)로부터 수신할 수 있다. 데스크탑 컴퓨터(12)로부터의 정보는 직접 모뎀 접속과 같은 임의의 적절한 통신 연결을 통하여 정보 소스 제공자(13)로 공급될 수 있다. 다른 실시예에 있어서, 데스크탑 컴퓨터(12) 및 정보 소스 제공자(13)는 서로 접속되어 근거리 통신망(LAN) 또는 원거리 통신망(WAN)을 이룰 수 있다. 이러한 네트워킹 환경은 사무실, 기업 규모 컴퓨터 네트워크 인트라넷 및 인터넷에서는 일반적인 것이다. 필요하다면, 데스크탑 컴퓨터(12)가 전송부(14)로 직접 연결될 수도 있다.

일 실시예에 있어서, 이동 장치(10)는 임의의 적절한, 그리고 상업적으로 사용 가능한 통신 연결을 사용하여, 그리고 적절한 통신 프로토콜을 사용하여 데스크탑 컴퓨터(12)로 연결될 수 있다는 것도 유의할 만하다. 예를 들어, 일 실시예에 있어서, 이동 장치(10)는 직렬 통신 프로토콜을 사용하는 물리적 케이블을 사용하여 데스크탑 컴퓨터(12)와 통신할 수 있다. 기타의 통신 메커니즘은 적외선(IR) 통신 및 직접 모뎀 통신을 포함한다.

일 실시예에 있어서, 이동 장치(10)는 데스크탑 컴퓨터(12)와 동기화될 수 있다는 것도 알아둘 만하다. 이 경우, 객체 저장부(18)에 저장된 객체의 특성(properties)은 데스크탑 컴퓨터(12) 또는 이동 장치(14)의 객체 저장부에 저장된 동일한 객체의 다른 인스턴스(instance)의 특성과 유사하다. 따라서, 예를 들어 데스크탑 컴퓨터(12)의 객체 저장부에 객체의 하나의 인스턴스가 저장될 때, 이동 장치(10)의 객체 저장부(18)의 그 객체의 제2 인스턴스가 갱신되고, 이동 장치(10)가 데스크탑 컴퓨터(12)로 접속되는 다음 번에는, 동일한 객체의 양 인스턴스가 가장 최근의 데이터를 포함하도록 된다. 이를 일반적으로 동기화라고 한다. 동기화를 달성하기 위하여, 동기화 컴포넌트들이 이동 장치(10) 및 데스크탑 컴퓨터(12) 양쪽에서 실행된다. 동기화 컴포넌트들은 통신 및 동기화를 관리하기 위하여 잘 정의된 인터페이스를 통해 서로 통신한다.

도 2는 이동 장치(10)의 더 상세한 블록도이다. 도시한 바와 같이, 이동 장치(10)는 프로세서(20), 메모리(22), 입출력(I/O) 컴포넌트(24), 데스크탑 컴퓨터 통신 인터페이스(26), 송수신기(27), 및 안테나(11)를 포함한다. 일 실시예에 있어서, 이동 장치(10)의 이러한 컴포넌트들은 적절한 버스(28)를 통하여 서로 통신하도록 결합되어 있다. 도 2에는 도시하지 않았지만, 이동 장치(10)는 도 1에 도시된 바와 같이, 그리고 이하에서 도 3 내지 도 7을 참조하여 설명하는 바와 같이 마이크로폰(17)을 포함한다.

메모리(22)는 배터리 백업 모듈(도시하지 않음)을 구비한 랜덤 액세스 메모리(RAM)와 같은 비휘발성 전자 메모리로 구현되어, 이동 장치(10)로의 전체 전원이 차단되더라도 메모리(22)에 저장된 정보가 손실되지 않는다. 메모리(22)의 일부는 프로그램 실행을 위하여 어드레싱할 수 있는(addressable) 메모리로서 할당되고, 메모리(22)의 나머지 부분은 디스크 드라이브의 스토리지(storage)를 시뮬레이션하는 것과 같이 스토리지를 위하여 사용될 수 있다.

메모리(22)는 운영 체제(operating system; 30), (도 1과 관련하여 설명한 PIM(16A) 및 음성 인식 프로그램(19) 등의) 애플리케이션 프로그램(16), 및 객체 저장부(18)를 포함한다. 동작 동안에, 운영 체제(30)는 메모리(22)로부터 프로세서(20)로 로딩되고, 프로세서(20)에 의하여 실행된다. 운영 체제(30)는, 일 실시예에 있어서, 마이크로소프트사로부터 상업적으로 입수 가능한 윈도우 CE 상표 운영 체제이다. 운영 체제(30)는 이동 장치용으로 설계될 수 있고, PIM(16A), 컨텐츠 뷰어(16B), 및 음성 인식 기능(19)에 의하여, 일련의 공개된 애플리케이션 프로그래밍 인터페이스 및 방법을 통해서 이용될 수 있는 특성들을 구현한다. 객체 저장부(18)의 객체는, 공개된 애플리케이션 프로그래밍 인터페이스 및 방법의 호출에 적어도 부분적으로 응답하여, PIM(16A), 컨텐츠 뷰어(16B), 및 운영 체제에 의하여 유지될 수 있다.

일 실시예에 있어서, 입출력 컴포넌트(24)는 이동 장치(10)의 사용자로부터의 입출력 동작을 용이하게 하기 위하여 제공된다. 데스크탑 컴퓨터 통신 인터페이스(26)는 임의의 적당한, 상업적으로 사용 가능한 통신 인터페이스 형태로 선택적으로 제공된다. 인터페이스(26)는, 무선 송수신기(27)가 그 목적에 따라 사용되지 않는 경우 데스크탑 컴퓨터(12)와 통신하기 위하여 사용된다.

송수신기(27)는, 전송부(14)를 통하여 음성 신호 또는 음성 인식의 중간 결과를 전송하기에 적합한 무선 또는 기타 유형의 송수신기이다. 송수신기(27)가 무선 송수신기인 일 실시예에 있어서, 음성 인식의 중간 결과는 안테나(11)를 사용하여 전송될 수 있다. 송수신기(27)는 전송부(14)를 통하여 다른 데이터를 전송할 수도 있다. 어떤 실시예에 있어서는, 송수신기(27)는 데스크탑 컴퓨터(12), 정보 소스 제공자(13), 기타의 이동 또는 비이동(non-mobile) 장치, 또는 전화로부터 정보를 수신한다. 송수신기(27)는, 전송부(14)로부터 수신된 정보를 저장하기 위해프로세서(20)와 객체 저장부(18)와 통신할 수 있도록 버스(28)에 결합된다.

전력 공급부(35)는 이동 장치(10)에 전력을 공급하기 위한 배터리(37)를 포함한다. 선택적으로, 이동 장치(10)는 내장된 배터리(37)에 우선하거나(override), 내장된 배터리(37)를 재충전하는 외부 전력원(41)으로부터 전력을 수신할 수 있다. 예를 들어, 외부 전력원(41)은 적절한 AC 또는 DC 어댑터나, 이동 장치(10)를 위한 전력 결합 받침대를 포함할 수 있다.

도 3은 본 발명에 따라 사용될 수 있는 이동 장치(10)의 일 실시예를 간단하게 예시하여 도시한 것이다. 이 실시예에서는, 안테나(11) 및 마이크로폰(17)에 추가하여, 이동 장치(10)는 소형 키보드(32), 디스플레이(34), 스타일러스(stylus; 36), 제2 마이크로폰(85), 및 스피커(86)를 포함한다. 도 3에 도시한 실시예에 있어서, 디스플레이(34)는 스타일러스(36)와 연계하여 터치 감지형 디스플레이 스크린을 사용하는 액정 디스플레이(LCD)이다. 스타일러스(36)는 어떤 사용자 입력 기능을 수행하기 위하여 디스플레이(34)의 지정된 좌표를 누르거나 접촉하기 위하여 사용된다. 소형 키보드(32)는, 어떤 사용자 입력 기능을 수행하기 위하여 제공되는 임의의 적절한, 그리고 필요한 기능키들(function keys)을 구비한, 소형화된 알파벳-숫자(alpha-numeric) 키보드로서 구현될 수 있다.

마이크로폰(17)은 안테나(11)의 말단에 위치한다. 안테나(11)는, 반대쪽에서는(in turn), 사용자의 입 쪽으로 회전하도록 되어 있어서, 이동 장치(10)가 사용자의 손 안에 있더라도 사용자의 입과 마이크로폰(17) 사이의 거리를 감소시킬 수 있다. 상술한 바와 같이, 이 거리를 줄이면 마이크로폰에 의하여 제공되는 음성 신호의 신호대 잡음비를 증가시키는데 도움이 된다. 또한, 마이크로폰(17)이 안테나(11)의 끝에 위치하면 마이크로폰을 이동 장치(10)의 본체로부터 떨어뜨릴 수 있다. 이는 신호대 잡음비에 미치는 장치의 내부 잡음 효과를 감소시킨다. 본 발명의 몇몇 실시예에 있어서, 마이크로폰(17)이 안테나(11)의 말단에 위치하였지만, 다른 실시예에 있어서, 마이크로폰(17)은 안테나(11)의 다른 위치에 배치될 수도 있다.

몇몇 실시예에 있어서, 이동 장치(10)는 제2 마이크로폰(85)도 포함하는데, 이는 이동 장치(10)의 본체상에 위치할 수 있다. 제1 마이크로폰으로부터 떨어져 있는 제2 마이크로폰을 제공하는 것은, 2개의 마이크로폰이 같이 사용되는 경우에, 결과적인 마이크로폰 배열의 성능을 향상시킨다. 몇몇 실시예에 있어서는 이동 장치(10)가 이동 전화로서 사용될 수 있도록 스피커(86)가 포함한다.

도 4는 본 발명의 또 다른 실시예에 따른 이동 장치(10)를 간단하게 예시하여 도시한 것이다. 도 4에 도시된 바와 같이, 이동 장치(10)는 도 3과 관련하여 설명한 것과 유사한 몇몇 구성들을 포함하고, 이들에 대하여 유사한 번호가 붙여졌다. 예를 들어, 도 4에 도시된 바와 같이, 이동 장치(10)는 안테나(11) 상에 위치한 마이크로폰(17), 및 장치의 본체 상에 위치한 스피커(86)를 포함한다. 또한, 이동 장치(10)는 어떤 사용자 입력 기능을 달성하기 위하여, 스타일러스(36)와 연관하여 사용될 수 있는 터치 감지형 감지 디스플레이(touch sensitive display; 34)를 포함한다. 도 3 및 4에 도시된 이동 장치를 위한 디스플레이(34)는 동일한 크기이거나 다른 크기일 수 있지만, 전형적으로는 데스크탑 컴퓨터에서 사용되는종래의 디스플레이보다는 작다는 것을 유의하여야 한다. 예를 들어, 도 3 및 4에 도시된 디스플레이(34)는 겨우 240x320 좌표, 또는 160x160 좌표 또는 임의의 적절한 크기의 행렬로 정의될 수 있다.

도 4에 도시한 이동 장치(10)는, 사용자로 하여금 디스플레이(34)에 접촉하지 않고도 데이터를 입력하거나, 디스플레이(34)에 표시된 메뉴 옵션이나 기타 디스플레이 옵션을 스크롤할 수 있게 하는 다수의 사용자 입력 키 또는 버튼(스크롤 버튼(38) 및/또는 키보드(32))을 포함한다. 또한, 도 4에 도시된 이동 장치(10)는 전원 버튼(40)을 포함하고, 이 버튼은 이동 장치(10)로의 전체 전원(general power)을 켜고 끄기 위하여 사용될 수 있다.

도 4에 도시된 실시예에 있어서, 이동 장치(10)는 필기 영역(hand writing area; 42)을 포함한다는 것을 알아야 한다. 필기 영역(42)은, 이동 장치(10)에 의해 나중에 사용하기 위하여 메모리(22)에 저장되는 메시지를 사용자가 기록할 수 있도록 스타일러스(36)와 연계되어 사용될 수 있다. 일 실시예에 있어서, 필기된 메시지는 단순히 필기된 형태로 저장되고, 사용자가 이동 장치(10)로 입력된 필기 메시지를 검토할 수 있도록 사용자에 의하여 다시 호출되어 디스플레이(34)에 표시될 수 있다. 다른 실시예에 있어서, 이동 장치(10)가 문자 인식 모듈을 구비하여, 사용자는 스타일러스(36)를 사용하여 영역(42)에 알파벳-숫자 정보를 씀으로써, 알파벳-숫자 정보를 이동 장치(10)에 입력할 수 있다. 이 경우, 이동 장치(10)의 문자 인식 모듈은 알파벳-숫자 문자를 인식하고, 그 문자를, 이동 장치(10) 내의 애플리케이션 프로그램(16)에 의하여 사용될 수 있는, 컴퓨터가 인식 가능한 알파벳-숫자 문자로 변환한다.

도 5 및 이와 관련된 설명은, 본 발명의 일부가 구현될 수 있는 적절한 데스크탑 컴퓨터(12)에 대한 간략하고 개괄적인 설명을 제공하기 위한 것이다. 반드시 요구되는 것은 아니지만, 본 발명은 적어도 부분적으로는, 프로그램 모듈과 같이 개인 컴퓨터(12) 또는 이동 장치(10)에 의하여 실행되는, 컴퓨터 실행 가능한 명령어의 일반적인 콘텍스(context)로 설명된다. 일반적으로 프로그램 모듈은, 특정 작업을 수행하거나, 추상적 데이터의 특정 유형을 구현하는 루틴 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 데스크탑 컴퓨터라고 언급되었지만, 도 5에 도시된 컴퓨팅 환경은 기타 데스크탑이 아닌 컴퓨터에서 구현될 수 있다. 또한, 당업자라면, 데스크탑 컴퓨터(12)는 멀티프로세서 시스템, 마이크로프로세서 기반 또는 프로그램 가능한 가전 제품, 네트워크 PC, 미니 컴퓨터, 메인프레임 컴퓨터 등을 포함하는 기타의 다른 컴퓨터 시스템 구성으로 구현될 수 있다는 것을 이해할 것이다. 본 발명은, 통신 네트워크를 통하여 연결된 원격 프로세싱 장치들에 의하여 작업이 수행되는 분산 컴퓨팅 환경에서 실행될 수도 있다. 분산 컴퓨팅 환경에 있어서, 프로그램 모듈들은 로컬(local), 및 원격 메모리 저장 장치 양쪽에 위치할 수 있다.

도 5를 참조하면, 데스크탑 컴퓨터(12)를 구현하기 위한 예시적인 시스템은, 프로세싱 유닛(48)과 시스템 메모리(50), 그리고 시스템 메모리(50)를 포함하는 여러 시스템 컴포넌트들을 프로세싱 유닛(48)에 결합시키는 시스템 버스(52)를 포함하는, 종래의 개인 컴퓨터 형태의 범용 컴퓨팅 장치를 포함한다. 시스템 버스(52)는, 메모리 버스 또는 메모리 제어기, 주변 버스, 및 임의의 다양한 버스 아키텍처를 사용하는 로컬 버스를 포함하는 여러 유형의 버스 구조 중 임의의 것일 수 있다. 시스템 메모리(50)는 판독 전용 메모리(ROM, 54), 및 랜덤 액세스 메모리(RAM; 55)를 포함한다. 기동시키는 동안처럼, 데스크탑 컴퓨터(12) 내의 소자간의 정보 전송을 도와주는 기본적인 루틴을 포함하는 기본 입출력 시스템(BIOS; 56)은 ROM(54)에 저장된다. 데스크탑 컴퓨터(12)는, 또한 하드디스크(도시하지 않음)로부터 판독하고 그곳에 기록하기 위한 하드디스크 드라이브(57), 이동식 자기 디스크(59)로부터 판독하거나 여기에 기록하기 위한 자기 디스크 드라이브(58), 및 CD ROM 또는 기타 광 매체와 같은 이동식 광 디스크(61)로부터 판독하거나 여기에 기록하기 위한 광 디스크 드라이브(60)를 포함한다. 하드디스크 드라이브(57), 자기 디스크 드라이브(58), 및 광 디스크 드라이브(60)는 디스크 드라이브 인터페이스(62), 자기 디스크 드라이브 인터페이스(63), 및 광 드라이브 인터페이스(64)를 통해 각각 시스템 버스(54)에 접속된다. 드라이브들 및 그와 관련된 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능한 명령어, 데이터 구조, 프로그램 모듈, 기타 데이터에 대한 비휘발성 저장을 데스크탑 컴퓨터(12)에 제공한다.

여기서 설명한 예시적인 환경은 하드디스크, 이동식 자기 디스크(59) 및 이동식 광 디스크(61)를 사용하지만, 자기 카세트, 플래시 메모리 카드, 디지털 비디오 디스크(DVD), 베르누이(Bernoulli) 카트리지, 랜덤 액세스 메모리(RAMs), 판독 전용 메모리(ROM) 등, 컴퓨터에 의하여 액세스 가능한 데이터를 저장할 수 있는 다른 유형의 컴퓨터 판독 가능한 매체가 예시적인 운영 환경에서 사용될 수 있다는것을 당업자라면 이해할 것이다.

운영 체제(65), 하나 이상의 애플리케이션 프로그램(66)(PIM들을 포함할 수 있음), 기타 프로그램 모듈(67)(동기화 컴포넌트(26)를 포함할 수 있음), 및 프로그램 데이터(68)를 포함하는 다수의 프로그램 모듈은, 하드디스크, 자기 디스크(59), 광 디스크(61), ROM(54), 또는 RAM(55)에 저장될 수 있다. 사용자는 키보드(70), 포인팅 장치(72), 및 마이크로폰(92)과 같은 입력 장치를 통하여 명령 및 정보를 데스크탑 컴퓨터(12)에 입력할 수 있다. (도시하지 않은) 다른 입력 장치는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치와 상기 다른 입력 장치는, 종종 시스템 버스(52)로 결합된 직렬 포트 인터페이스(76)를 통하여 프로세싱 유닛(48)에 연결되고, 사운드 카드, 병렬 포트, 게임 포트 또는 범용 직렬 버스(USB)와 같은 다른 인터페이스에 의하여 연결될 수도 있다. 모니터(77) 또는 다른 유형의 디스플레이 장치도 비디오 어댑터(78)와 같은 인터페이스를 통하여 시스템 버스(52)로 연결된다. 모니터(77)에 추가하여, 데스크탑 컴퓨터는 전형적으로 스피커(71) 및 프린터와 같은 다른 출력 주변 장치를 포함할 수 있다.

데스크탑 컴퓨터(12)는, (이동 장치(10)와는 다른) 원격 컴퓨터(79)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하는 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(79)는 다른 개인 컴퓨터, 서버, 라우터, 네트워크 PC, 피어 디바이스(peer device) 또는 기타 네트워크 노드일 수 있고, 도 5에는 메모리 저장 장치(80)만이 도시되었지만, 전형적으로는 데스크탑 컴퓨터(12)와 관련하여 상술한소자의 전부 또는 많은 부분을 포함한다. 도 5에 도시된 논리적 접속은 근거리 통신망(LAN; 81), 및 원거리 통신망(WAN; 82)을 포함한다. 이러한 네트워킹 환경은 사무실, 기업 규모의 컴퓨터 네트워크 인트라넷 및 인터넷에서는 일반적인 것이다.

LAN 네트워킹 환경에서 사용될 때, 데스크탑 컴퓨터(12)는 네트워크 인터페이스 또는 어댑터(83)를 통하여 근거리 통신망(81)으로 연결된다. 원거리 통신 환경에서 사용될 때, 데스크탑 컴퓨터(12)는 전형적으로 인터넷과 같은 원거리 통신망(82)을 통한 통신을 설정하기 위하여 모뎀(84) 또는 다른 수단을 포함한다. 모뎀(84)은 내장용이거나 외장용일 수 있는데, 이는 직렬 포트 인터페이스(76)를 통하여 시스템 버스(52)로 연결된다. 네트워크 환경에 있어서, 데스크탑 컴퓨터(12)와 관련하여 설명한 프로그램 모듈, 또는 그 일부분들은 원격 메모리 저장 장치에 저장될 수 있다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터간의 통신 연결을 설정하기 위한 다른 수단이 사용될 수 있다는 것을 알 수 있을 것이다.

데스크탑 컴퓨터(12)는, 대부분 비휘발성 시스템(65)에 저장되고 프로세서(48)에 의해 실행되는 운영 체제(65)를 실행한다. 적절한 운영 체제 중 하나는, 마이크로소프트사가 판매하는 윈도우 95 또는 윈도우 NT 운영 체제, 윈도우 상표의 운영 체제의 다른 파생 버전, 또는 다른 적절한 운영 체제 등의 윈도우 상표의 운영 체제이다. 다른 적절한 운영 체제는 뉴욕의 암몽크의 IBM사가 판매하는 OS/2 프리젠테이션 매니저(Presentation Manager) 및 애플사가 판매하는 매킨토시와 같은 체제를 포함한다. 애플리케이션 프로그램은 프로그램 모듈(67), 휘발성 메모리 또는 비휘발성 메모리에 저장될 수 있고, 플로피 디스켓(59), CDROM 드라이브(61)로부터 도 5에 도시한 임의의 컴포넌트로 로딩될 수 있고, 네트워크 어댑터(83)를 통하여 네트워크로부터 다운로드될 수 있으며, 다른 적절한 메커니즘을 사용하여 로딩될 수 있다.

본 발명의 방법을 나타내는 흐름도가 도 6에 도시되어 있다. 도 6의 방법에 대하여, 도 7a 내지 도 7d에 제공된 이동 컴퓨팅 장치 및 데스크탑 컴퓨터의 예시적인 실시예를 참조하여 설명한다. 도 7a-7d는 컴퓨터(12)에서 수행되는 다른 음성 인식 기능들로부터, 이동 장치(10)에서 수행되는 음성 인식 특성 추출 처리를 분리하여 나타낸 것이다. 도시한 실시예에 있어서, 음성을 인식하는 동안, 음성은 사용자에 의하여 가청 음성 신호(audible voice signal) 형태로 이동 장치(10)의 마이크로폰의 입력으로서 제공된다. 이 단계는 도 6의 블록(205)으로 도시하였다. 마이크로폰(17)은 가청 음성 신호를 아날로그 신호로 변환하고, 변환된 신호는 A/D 변환기(101)로 제공된다. A/D 변환기(101)는 이러한 아날로그 음성 신호를 일련의 디지털 신호로 변환하는데, 이 변환된 디지털 신호가 특성 추출 모듈(103)로 제공된다. 이 단계는 도 6의 블록(210)으로 도시하였다.

특성 추출 모듈(103)은 일련의 음성 인식 처리 중 전단(front-end)으로서 고려될 수 있는데, 이 모듈은 음성 인식 검색 엔진(105)으로 제공되는 음성 인식의 중간 결과 출력을 제공한다. 특성 추출 모듈(103)에 의하여 제공된 결과는, 특성 인식 검색 엔진(105)에서 이용하기에 적합한 특성의 유형과 관련되어 있다. 예를 들어, 특성 추출 모듈(103)에 의하여 제공되는 음성 인식의 중간 결과는 멜 프리퀀시 켑스트럼 계수들(MFCC Coefficients) 또는 양자화된 벡터(Vector Quantized;VQ) 인덱스들일 수 있다. 또한, 중간 결과는 히든 마코프 모델링(HMM) 스코어들, HMM 상태 출력의 확률 밀도 함수들(HMM state output probability density functions), 켑스트럼 계수들(Cepstral coefficients), 또는 음성 신호로부터 추출될 수 있는 다른 유형의 음성 인식 특성들일 수 있다.

일 실시예에 있어서, 특성 추출 모듈(103)은 디지털 신호에 대하여 스펙트럼 분석을 수행하고, 주파수 스펙트럼의 각 주파수 대역에 있어서의 크기(magnitude value)를 계산하는 통상적인 배열 프로세서(array processor)이다. 다른 실시예에 있어서, 특성 추출 모듈(103)은 벡터 양자화 기술 및 훈련 데이터(training data)로부터 유도된 코드북(codebook)을 사용하여 특성 벡터를 하나 이상의 코드 워드들(code words)로 인코딩할 수도 있다. 따라서, 특성 추출 모듈(103)은 각각 말해진 발성(spoken utterance)에 대한 특성 벡터(또는 코드 워드들)를 출력에 제공한다. 몇몇 실시예에 있어서, 중간 결과는 분석되는 특정 프레임의 특성 벡터(또는 코드 단어들)를 사용하여 히든 마코프 모델에 비추어 계산된 출력의 확률 분포를 특성 추출 모듈(103)에 의해 결정함으로써 계산된다. 이러한 확률 분포는 데스크탑 컴퓨터(12)에서 비터비(Viterbi) 또는 유사한 유형의 처리 기법을 실행함에 있어서 사용될 수 있다. 특성 추출 모듈(103)에 의하여 구현되는 특성 추출 기능은 도 6에 도시한 흐름도의 블록(215)에 개괄적으로 설명되어 있다.

마이크로폰(17)에 의하여 제공되는 대역폭은, 통상적으로 데이터 전송부(14)에 의하여 제공되는 대역폭보다 넓기 때문에, 특성 추출 모듈(103)에 의하여 제공되는 중간 결과 또는 내부적인 표시(internal representations)는, 음성 신호가 컴퓨터(12) 내에서 특성을 추출하기 위하여 전송부(14)를 통해 전송되는 경우보다 더 정확할 것이다. 음성 인식 검색 엔진(105)에 의하여 제공되는 음성 인식 결과는, 마이크로폰(17)이 데스크탑 컴퓨터(12)로 직접 접속된 경우에 획득된 결과와 동일할 것이다. 따라서, 데스크탑 및 전화 대역폭이 서로 다른 표준을 가짐으로써 나타나는 문제가 해결된다.

결과 요청을 획득하기 위하여, 이동 장치(10)를 사용하여 음성 인식 중간 결과에 대해 2차 음성 인식 기능을 수행하는 단계가 도 6에 블록(217)으로 도시되어 있다.

이동 장치(10)로부터 제2 컴퓨팅 장치로의 결과 요청의 전송은 도 6의 블록(220)에 도시되어 있다. 제2 컴퓨팅 장치(12)에 의한 결과 요청의 수신은 블록(225)에 도시되어 있다. 가청 음성을 나타내는 출력 텍스트를 이동 장치(10)에 제공하기 위하여, 이동 장치(10)에 의해 제2 컴퓨팅 장치(12)로부터 결과를 수신하는 것이 블록(230)에 도시되어 있다. 이러한 구체적인 단계의 상세한 내용은 이하에서 도 7a-7d와 관련하여 설명된다. 이동 장치(10)의 배열에 따라, 결과 요청의 전부가 전송될 수도 있고, 이러한 요청의 일부가 전송될 수도 있다.

도 7a 내지 도 7d를 참조하면, 음성 인식 검색 엔진(105)은 이동 장치(10) 내의 애플리케이션 프로그램으로서 구현되고, 이 엔진은 음성 인식의 중간 결과의 함수로서 음성 인식 결과에 대한 요청을 획득하기 위하여 "2차" 음성 인식 기능("secondary" speech recognition function)을 구현한다. 도 7a의 실시예에서, 음향 모델(acoustic model; 107) 및 언어 모델(language model; 109)은 데스크탑 컴퓨터(12)의 메모리 내에 저장된다. 특성 추출 모듈(103)로부터 음성 인식의 중간 결과를 수신하면, 음성 인식 검색 엔진(105)은, 데스크탑 컴퓨터(12) 상의 음향 모델(107)에 저장된 정보를 액세스하기 위하여 결과에 대한 요청(requests for results)을 생성하고, 송수신기(27) 및 데이터 전송부(14)를 사용하여 그 요청을 컴퓨터(12)에 전달한다.

음향 모델(107)은 컴퓨터(12)에 의하여 검출될 음성 단위들을 나타내는, 히든 마르코브 모델(Hidden Markov Model)과 같은 음향 모델을 저장한다. 이 정보(요청된 결과)는 데이터 전송부(14)의 복귀 채널 통신 링크(back channel communications link; 110)를 통하여 음성 인식 검색 엔진(105)으로 송신된다. 일 실시예에서, 음향 모델(107)은, 히든 마르코브 모델에서의 마르코브 상태 각각과 연관된 센원 트리(senone tree)를 포함한다. 하나의 예시적인 실시예에서, 히든 마르코브 모델은 음소(phoneme)를 나타낸다. 음향 모델(107)에서의 센원에 기초하여, 검색 엔진(105)은 특성 추출 모듈(103)로부터 수신된 특성 벡터(feature vector)(또는 코드 워드)에 의하여 나타내어진 가장 가능성이 큰 음소, 따라서 시스템의 사용자로부터 수신된 말(utterance)을 나타내는 음소를 결정한다. 그 후, 상기 실시예에서는, 음향 모델이 히든 마르코브 모델 및 센원 트리에 기초한 음소를 결과로서 반환한다. 그러나, 그 결과는 다른 모델에 기초할 수 있다. 몇몇 실시예에서, 음향 모듈(107)은 (이동 장치(10)로부터) 떨어져 컴퓨터(12)내에 위치하지만, 대안적인 실시예에서 음향 모듈(107)은 도 7b에 도시된 바와 같이 이동 장치 상에 위치될 수 있다. 이러한 실시예에서, 결과에 대한 다른 요청은 음성 인식의중간 결과에 대한 함수로서 생성되고, 원격 컴퓨터(12)로 송신된다. 도 7b에 도시된 예에서, 원격 컴퓨터(12)는 언어 모듈(109)을 호스트하는(host) 웹 서버일 수 있다. 이 예에서, 이동 장치에 의하여 수행되는 음성 인식은, 필요한 언어 모델 또는 컨텍스트 정보(context information)를 공급하는 웹 서버에 의존한다.

또한, 음성 인식 검색 엔진(105)은 송수신기(27) 및 데이터 전송부(14)를 사용하여, 데스크탑 컴퓨터(12) 상의 언어 모델(109)에 저장된 정보를 액세스한다. 검색 엔진(105)의 음향 모델(107)에 대한 액세스와 요청된 결과의 수신에 기초하여, 데이터 전송부(14)를 통해 검색 엔진(105)에 의하여 수신된 정보는, 모듈(103)로부터 수신된 음성 인식의 중간 결과를 나타낼 가능성이 가장 큰 워드를 결정하기 위하여 언어 모델(109)을 검색하는데 사용될 수 있다. 이 워드는 데이터 전송부(14)의 복귀 채널 통신 링크(110)를 통하여 이동 장치(10) 및 음성 인식 검색 엔진(105)으로 되돌려 송신된다. 당해 기술 분야에서 알려진 유형의 다른 음성 인식 모델 또는 데이터베이스뿐만 아니라, 음향 모델(107) 및 언어 모델(109)을 사용하면, 음성 인식 검색 엔진(105)은 이동 장치(10)의 마이크로폰(17)에 의하여 수신된 본래의 발음 신호(original vocal signal)에 대응하는 출력 텍스트를 제공한다. 음성 인식의 중간 결과의 내부 표현에 대한 함수로서 출력 텍스트를 생성하기 위하여, 음성 인식 엔진(105)에 의해 구현되는 특정 방법은 상술한 예시적인 실시예에 따라 상이할 수 있다.

다른 실시예에서는, 도 7c 및 도 7d에 도시된 바와 같이, 이동 장치(10)가 로컬 언어 모델(111)을 포함할 수도 있다. 로컬 언어 모델(111)이 이동 장치 상에포함되면, 음성 인식 검색 엔진(105)은 결과에 대한 요청을 원격 컴퓨터(12) 상의 언어 모듈(109) 및 로컬 언어 모델(111) 양쪽에 제공한다. 로컬 언어 모델(111)은 특성 추출 모듈(103)로부터 수신된 음성 인식의 중간 결과를 나타낼 가능성이 가장 큰 워드를 결정하기 위하여 검색될 수 있다는 점에서 상술한 언어 모델(109)과 유사하다. 음성 인식 검색 엔진(105)은, 두 개의 언어 모델로부터 수신된 결과 중 어느 것이 요청에 최적으로 부합하는지를 결정하도록 구성된다. 최적의 결과가, 인식된 출력 텍스트로서 사용자에게 출력되도록 선택된다. 몇몇 실시예에서, 원격 언어 모델(109)은 갱신 절차(update procedure)를 통하여 로컬 언어 모델(111)을 갱신한다. 이러한 갱신은 웹 기반의 갱신 절차, 갱신 디스크, 또는 파일의 갱신이 가능한 임의의 다른 장치를 통할 수 있다. 또 다른 실시예에서, 언어 모델(109)은 추가적인 언어 모델 용량을 제공함으로써 로컬 언어 모델(111)을 보충하게 됨으로써, 보다 작은 크기의 로컬 언어 모듈이 이동 장치(10)에 포함될 수 있도록 한다.

도 7d에 도시된 실시예에서, 이동 장치(10)는 로컬 음향 모델(113)도 포함한다. 이 실시예에서, 원격 컴퓨터(12) 또한 음향 모델(107)을 포함한다. 로컬 음향 모델(113)은, 이동 장치(10)에 의하여 검출될 음성 단위를 나타내는 음향 모델을 저장한다는 점에서 상술한 음향 모델(107)과 유사하다. 로컬 음향 모델(113)이 이동 장치(104) 상에 포함되면, 음성 인식 검색 엔진(105)은 결과에 대한 요청을 원격 컴퓨터(12) 상의 음향 모델(107) 및 로컬 음향 모델(113) 양쪽에 제공한다. 일 실시예에서, 음향 모델은 히든 마르코브 모델 및 센원 트리에 기초하여 음소를 결과로서 반환한다. 그러나, 이러한 결과는 다른 모델에 기초할 수 있다. 음성인식 검색 엔진(105)은 두 개의 음향 모델로부터 수신된 결과 중 어느 것이 요청에 최적으로 부합하는지를 결정하도록 구성된다. 그 후, 요청에 대하여 최적으로 부합되는 것이, 사용자에 의하여 말해진 워드를 결정하기 위하여 언어 모델(109 및 111)에 의하여 사용된다.

상술한 바와 같이, 본 발명은 특성 추출 모듈(103)로부터의 음성 인식의 중간 결과와 음성 인식 검색 엔진(105)으로부터의 결과에 대한 요청을 송신하기 위하여, 패키지 프로토콜을 사용하는 디지털 무선 네트워크(digital wireless networks)를 이용할 수 있다. 이동 장치(10)를 사용하여 마이크로폰(17)으로부터의 광 대역폭의 음성 신호(wide bandwidth speech signals)를 음성 인식의 중간 결과로 변환(transformation)하면, 신호를 전송부(14)를 통해 송신할 때 발생할 수 있는 데이터의 손실을 방지한다. 이것은 이동 통신 장치에게, 데스크탑 품질의 통합된 오디오 음성 인식(unified desktop-quality audio speech recognition)을 제공한다. 몇몇 실시예에서, 본 발명의 이동 장치는 두 개의 모드에서 동작하도록 프로그램된 "스마트" 폰("smart" phone)이다. 이동 장치(10)의 사용자가 다른 사람에게 이야기하면, 오디오 신호는 전송부(14)를 통하여 송신된다. 이동 장치(10)의 사용자가 컴퓨터(12) 또는 다른 기계에 말을 하면, 특성 추출 모듈(103)에 의하여 제공된 중간 결과 또는 특성과, 음성 인식 검색 엔진(105)으로부터의 결과에 대한 요청이 송신된다. 그 다음에, 데스크탑 컴퓨터(12) 또는 해당하는 다른 기계가 송신된 특성을 이용하여 음성 인식을 수행할 것이다.

요약하면, 결과에 대한 요청은 음향 모듈 데이터에 대한 요청 및/또는 언어모듈 데이터에 대한 요청을 포함할 수 있다. 결과에 대한 요청은 이동 장치(10) 상에 위치한 음성 인식 검색 엔진(105)에 의하여 생성된다. 음향 및 언어 모듈의 위치에 상관없이, 이러한 결과에 대한 요청의 적어도 일부는 제2 컴퓨팅 장치(12)로 송신되어야 한다. 일 실시예에서, 언어 모듈 및 음향 모듈 모두는 제2 컴퓨팅 장치(12) 상에 상주하고, 결과에 대한 요청은 언어 모듈 데이터 및 음향 모듈 데이터에 대한 요청을 포함한다. 다른 실시예에서, 음향 모듈은 컴퓨팅 장치(10) 상에 상주하고, 언어 모듈은 원격 컴퓨팅 장치(12) 상에 상주한다. 이 실시예에서는, 음성 인식 검색 엔진(105)으로부터의 결과에 대한 요청의 일부가 로컬 음향 모듈에 송신된다. 일단 그 결과가 음성 인식 검색 엔진으로 되돌려 송신되면, 언어 모듈 데이터 결과에 대한 요청이 음성 인식 검색 엔진(105)으로부터, 제2 컴퓨팅 장치(12) 상에 위치한 언어 모듈로 송신된다. 또 다른 실시예에서, 음성 인식 검색 엔진은 음향 모듈 결과에 대한 요청을 이동 컴퓨팅 장치(10) 상의 음향 모듈 및 제2 컴퓨팅 장치(12) 상에 위치한 음향 모듈 양쪽에 송신한다. 일단, 두 개의 음향 모듈로부터 이들 결과를 수신하면, 음성 인식 검색 엔진(105)은 언어 모듈 결과에 대한 요청을 원격 컴퓨팅 장치(12) 상에 위치한 언어 모듈로 송신한다. 또 다른 실시예에서, 음성 인식 검색 엔진(105)은 음향 모듈 데이터 결과에 대한 요청 및 언어 모듈 데이터 결과에 대한 요청 모두를 로컬 음향 또는 언어 모듈과, 제2 컴퓨팅 장치(12) 상에 위치한 원격 음향 또는 언어 모듈로 송신한다.

본 발명이 다양한 실시예를 참조하여 설명되었지만, 당업자는 본 발명의 취지 및 범위를 벗어나지 않으면서 형태 및 상세한 사항에 변경이 가해질 수 있다는것을 이해할 것이다.

제2 컴퓨팅 장치에서 음성 인식을 위하여 음성 신호 자체를 이동 컴퓨팅 장치로부터 제2 컴퓨팅 장치로, 전송하는 대신에, 결과 요청을 전송하는 것은 통신 네트워크가 광대역인지 협대역인지 여부를 불문하고 동일한 음성 인식 모델이 사용될 수 있게 한다. 또한, 통신 네트워크가 이동 컴퓨팅 장치 마이크로폰보다 좁은 대역폭을 갖는 경우에도, 더 좁은 대역폭의 통신 네트워크를 통해 음성 인식 특성을 전송하면 더 넓은 대역폭의 음성 정보가 손실되지 않는다.

Claims

음성 인식(speech recognition)을 수행하는 방법에 있어서,

이동 컴퓨팅 장치(mobile computing device)의 마이크로폰에서 가청 음성(audible speech)을 수신하는 단계;

상기 이동 컴퓨팅 장치를 사용하여 상기 가청 음성을 음성 신호들로 변환하는 단계;

음성 인식의 중간 결과들을 획득하기 위해서, 상기 이동 컴퓨팅 장치를 사용하여 상기 음성 신호들에 대하여 예비적인 음성 인식 기능들을 수행하는 단계 - 상기 음성 인식의 중간 결과들을 획득하기 위해서, 상기 음성 신호들에 대하여 상기 예비적인 음성 인식 기능들을 수행하는 단계는 상기 음성 신호들의 특성들(features)을 표시하는 상기 음성 인식의 중간 결과들을 획득하기 위하여 상기 음성 신호들에 대하여 특성 추출 기능들(feature extraction functions)을 수행하는 단계를 더 포함함 - ;

인식된 가청 음성을 표시하는 음성 인식 결과들에 대한 요청들(requests)을 획득하기 위해서, 상기 이동 컴퓨팅 장치를 사용하여 상기 음성 신호들 상에 2차 음성 인식 기능들(secondary speech recognition functions)을 수행하는 단계;

상기 요청된 음성 인식 결과들을 획득하기 위하여, 제2 컴퓨팅 장치 상에 위치한 적어도 하나의 모듈을 액세스하기 위하여, 음성 인식 결과들에 대한 상기 요청들의 적어도 일부를 상기 이동 장치로부터 떨어져 위치한 상기 제2 컴퓨팅 장치로 송신하는 단계; 및

상기 가청 음성을 나타내는 출력 텍스트를 제공하기 위하여 상기 이동 컴퓨팅 장치에서, 상기 제2 컴퓨팅 장치로부터, 상기 요청된 음성 인식 결과들을 수신하는 단계

를 포함하는 방법.
제1항에 있어서,

상기 제2 컴퓨팅 장치에서 결과들에 대한 상기 요청들의 상기 적어도 일부를 수신하는 단계;

상기 요청된 결과들을 얻기 위하여 상기 제2 컴퓨팅 장치 상의 상기 적어도 하나의 모듈을 액세스하는 단계; 및

상기 요청된 결과들을 상기 이동 장치로 송신하는 단계

를 더 포함하는 방법.
제2항에 있어서,

결과들에 대한 상기 요청들의 일부를 상기 이동 컴퓨팅 장치 상에 위치한 음향 모델(acoustic model)로 송신하는 단계

를 더 포함하는 방법.
제3항에 있어서, 결과들에 대한 상기 요청들의 상기 적어도 일부를 상기 제2컴퓨팅 장치로 송신하는 단계는, 결과들에 대한 상기 요청들의 상기 적어도 일부를 상기 원격 컴퓨터 상에 위치한 언어 모델(language model)로 송신하는 단계를 더 포함하고, 상기 제 3항의 방법은

결과들에 대한 상기 요청들의 일부를 상기 이동 컴퓨팅 장치 상에 위치한 언어 모델로 송신하는 단계

를 더 포함하는 방법.
제4항에 있어서,

상기 제2 컴퓨팅 장치 상의 상기 언어 모델에 포함된 정보를 이용하여 상기 이동 컴퓨팅 장치 상의 상기 언어 모델을 갱신하는 단계

를 더 포함하는 방법.
제2항에 있어서, 상기 제2 컴퓨팅 장치 상의 상기 적어도 하나의 모듈을 액세스하는 단계는, 상기 이동 컴퓨팅 장치 상에 상기 음성 인식의 중간 결과들 및 음향 모델 정보의 함수로서, 상기 가청 음성을 나타내는 상기 출력 텍스트를 제공하기 위하여, 상기 제2 컴퓨팅 장치의 메모리에 저장된 상기 음향 모델 정보를 액세스하는 단계를 더 포함하는 방법.
제2항에 있어서, 상기 제2 컴퓨팅 장치 상의 상기 적어도 하나의 모듈을 액세스하는 단계는, 상기 이동 컴퓨팅 장치 상에 상기 음성 인식의 중간 결과들 및언어 모델 정보의 함수로서, 상기 가청 음성을 나타내는 상기 출력 텍스트를 제공하기 위하여, 상기 제2 컴퓨팅 장치의 메모리에 저장된 상기 언어 모델 정보를 액세스하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 이동 컴퓨팅 장치에서 상기 가청 음성을 음성 신호들로 변환하는 단계는

상기 가청 음성 신호들을 아날로그 신호들로 변환하는 단계; 및

상기 음성 신호들을 획득하기 위하여 상기 아날로그 신호들을 디지털화하는(digitizing) 단계

를 더 포함하는 방법.
제 1항에 있어서, 상기 음성 신호들에 대해 예비적인 음성 인식 기능들을 수행하는 단계는 상기 음성 신호들로부터 멜-프리퀀시 켑스트럼 계수들(Mel-Frequency Cepstrum Coefficients)을 결정하는 단계를 더 포함하고, 2차 음성 인식 기능들을 수행하는 단계는 상기 멜-프리퀀시 켑스트럼 계수들에 기초하여 결과들에 대한 상기 요청들을 결정하는 단계를 더 포함하며, 결과들에 대한 상기 요청들의 적어도 일부를 송신하는 단계는 상기 멜-프리퀀시 켑스트럼 계수들에 기초한, 결과들에 대한 상기 요청들의 상기 적어도 일부를 상기 이동 컴퓨팅 장치로부터 상기 제2 컴퓨팅 장치로 송신하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 음성 신호들에 대해 예비적인 음성 인식 기능들을 수행하는 단계는 상기 음성 신호들로부터 벡터 양자화된 인덱스들(vector quantized indices)을 결정하는 단계를 더 포함하고, 2차 음성 인식 기능들을 수행하는 단계는 상기 벡터 양자화된 인덱스들에 기초하여 결과들에 대한 상기 요청들을 결정하는 단계를 더 포함하며, 요청들을 송신하는 단계는 상기 벡터 양자화된 인덱스들에 기초한 요청들을 상기 이동 컴퓨팅 장치로부터 상기 제2 컴퓨팅 장치로 송신하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 음성 신호들에 대해 예비적인 음성 인식 기능들을 수행하는 단계는 상기 음성 신호들로부터 히든 마르코브 모델링(Hidden Markov Modeling; HMM) 스코어들(scores)을 결정하는 단계를 더 포함하고, 2차 음성 인식 기능들을 수행하는 단계는 상기 HMM 스코어들에 기초하여 결과들에 대한 상기 요청들을 결정하는 단계를 더 포함하며, 요청들을 송신하는 단계는 상기 HMM 스코어들에 기초하여 요청들을 상기 이동 컴퓨팅 장치로부터 상기 제2 컴퓨팅 장치로 송신하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 음성 신호들에 대해 예비적인 음성 인식 기능들을 수행하는 단계는 상기 음성 신호들로부터 히든 마르코브 모델링(HMM) 상태 출력의 확률 밀도 함수들을 결정하는 단계를 더 포함하고, 2차 음성 인식 기능들을 수행하는 단계는 상기 HMM 상태 출력의 확률에 기초하여 결과들에 대한 상기 요청들을 결정하는 단계를 더 포함하며, 요청들을 송신하는 단계는 상기 HMM 상태 출력의 확률 밀도 함수들에 기초한 요청들을 상기 이동 컴퓨팅 장치로부터 상기 제2 컴퓨팅 장치로 송신하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 음성 인식 신호들에 대해 예비적인 음성 인식 기능들을 수행하는 단계는 상기 음성 신호들로부터 켑스트럴 계수들(Cepstral coefficients)을 결정하는 단계를 더 포함하고, 2차 음성 인식 기능들을 수행하는 단계는 상기 켑스트럴 계수들에 기초하여 결과들에 대한 상기 요청들을 결정하는 단계를 더 포함하며, 요청들을 송신하는 단계는 상기 켑스트럴 계수들에 기초한 요청들을 상기 이동 컴퓨팅 장치로부터 상기 제2 컴퓨팅 장치에 송신하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 음성 신호들에 대해 예비적인 음성 인식 기능들을 수행하는 단계는 상기 음성 신호들로부터 특성 벡터들(feature vectors)을 결정하는 단계를 더 포함하고, 2차 음성 인식 기능들을 수행하는 단계는 상기 특성 벡터들에 기초하여 결과들에 대한 상기 요청들을 결정하는 단계를 더 포함하며, 상기 음성 인식의 중간 결과들을 상기 이동 장치로부터 상기 제2 컴퓨팅 장치로 송신하는 단계는 상기 특성 벡터들을 상기 이동 컴퓨팅 장치로부터 상기 제2 컴퓨팅 장치로 송신하는 단계를 더 포함하는 방법.
제1항에 있어서, 결과들에 대한 상기 요청들의 상기 적어도 일부를 송신하는 단계는, 결과들에 대한 상기 요청들의 상기 적어도 일부를 무선 통신 네트워크를 통해 상기 이동 컴퓨터 장치로부터 상기 제2 컴퓨팅 장치로 송신하는 단계를 더 포함하는 방법.
제1항에 있어서, 결과들에 대한 상기 요청들의 상기 적어도 일부를 송신하는 단계는, 결과들에 대한 상기 요청들의 상기 적어도 일부를, 상기 이동 컴퓨팅 장치의 상기 마이크로폰의 대역폭(bandwidth)보다 적은 대역폭을 갖는 통신 네트워크를 통해 상기 이동 컴퓨팅 장치로부터 상기 제2 컴퓨팅 장치로 송신하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 수신된, 요청된 결과들의 함수로서 상기 출력 텍스트를 상기 이동 컴퓨팅 장치에서 제공하는 단계를 더 포함하는 방법.
이동 컴퓨터 실행 가능한 명령어들(mobile computer-executable instructions)을 포함하는 컴퓨터 판독 가능한 매체에 있어서,

상기 명령어들은

결과들에 대한 요청들을 획득하기 위하여, 마이크로폰을 구비한 이동 컴퓨터의 사용자로부터의 가청 음성에 대응하는 음성 신호들에 대한 예비 그리고 2차 음성 인식 기능들을 구현하는 단계;

결과들에 대한 상기 요청들의 적어도 일부를 상기 이동 컴퓨터로부터, 상기 이동 컴퓨터로부터 떨어져 위치한 제2 컴퓨터로 송신하기 위하여, 결과들에 대한 상기 요청들의 상기 적어도 일부를 상기 이동 컴퓨터의 송신기에 보내는 단계; 및

상기 이동 장치 상에서 상기 음성 인식 기능들을 완료하기 위하여 상기 제2 컴퓨터로부터 상기 결과들을 수신하는 단계

를 수행하는 컴퓨터 판독 가능한 매체.
제18항에 있어서, 상기 음성 신호들에 대해 상기 예비 및 2차 음성 인식 기능들을 구현하는 단계들을 수행하기 위한 상기 컴퓨터 실행 가능한 명령어들은, 상기 음성 신호들의 특성들을 표시하는 음성 인식의 중간 결과들을 획득하기 위하여 상기 음성 신호들에 대해 특성 추출 기능들을 수행하기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하고, 상기 컴퓨터 실행 가능한 명령어들은 상기 특성 추출 기능들에 기초한, 결과들에 대한 상기 요청들을 획득하기 위하여 상기 음성 인식의 중간 결과들을 사용하는 명령을 더 포함하는 컴퓨터 판독 가능한 매체.
제19항에 있어서, 상기 음성 신호들에 대해 상기 특성 추출 기능들을 수행하기 위한 상기 컴퓨터 실행 가능한 명령어들은, 상기 음성 신호들로부터 멜-프리퀀시 켑스트럼 계수들을 결정하기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하고, 결과들에 대한 상기 요청들의 상기 적어도 일부를 상기 이동 컴퓨터의 상기 송신기로 보내기 위한 상기 컴퓨터 실행 가능한 명령어들은, 상기 멜-프리퀀시 켑스트럼계수들에 기초한, 결과들에 대한 상기 요청들의 상기 적어도 일부를 보내기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하는 컴퓨터 판독 가능한 매체.
제19항에 있어서, 상기 음성 신호들에 대해 상기 특성 추출 기능들을 수행하기 위한 상기 컴퓨터 실행 가능한 명령어들은, 상기 음성 신호들로부터 벡터 양자화된 인덱스들을 결정하기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하고, 결과들에 대한 상기 요청들의 상기 적어도 일부를 상기 이동 컴퓨터의 상기 송신기로 보내기 위한 상기 컴퓨터 실행 가능한 명령어들은, 상기 벡터 양자화된 인덱스들에 기초한, 결과들에 대한 상기 요청들의 상기 적어도 일부를 보내기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하는 컴퓨터 판독 가능한 매체.
제19항에 있어서, 상기 음성 신호들에 대해 상기 특성 추출 기능들을 수행하기 위한 상기 컴퓨터 실행 가능한 명령어들은, 상기 음성 신호들로부터 히든 마르코브 모델링(HMM) 스코어들을 결정하기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하고, 결과들에 대한 상기 요청들의 상기 적어도 일부를 상기 이동 컴퓨터의 상기 송신기로 보내기 위한 상기 컴퓨터 실행 가능한 명령어들은 상기 HMM 스코어들에 기초한, 결과들에 대한 상기 요청들의 상기 적어도 일부를 보내기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하는 컴퓨터 판독 가능한 매체.
제19항에 있어서, 상기 음성 신호들에 대해 상기 특성 추출 기능들을 수행하기 위한 상기 컴퓨터 실행 가능한 명령어들은, 상기 음성 신호들로부터 히든 마르코브 모델링(HMM) 상태 출력의 확률 밀도 함수들을 결정하기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하고, 결과들에 대한 상기 요청들의 상기 적어도 일부를 상기 이동 컴퓨터의 상기 송신기로 보내기 위한 상기 컴퓨터 실행 가능한 명령어들은, 상기 HMM 상태 출력의 확률 밀도 함수들에 기초한, 결과들에 대한 상기 요청들의 상기 적어도 일부를 보내기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하는 컴퓨터 판독 가능한 매체.
제19항에 있어서, 상기 음성 신호들에 대해 상기 특성 추출 기능들을 수행하기 위한 상기 컴퓨터 실행 가능한 명령어들은, 상기 음성 신호들로부터 켑스트럴 계수들을 결정하기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하고, 결과들에 대한 상기 요청들의 상기 적어도 일부를 상기 이동 컴퓨터의 상기 송신기로 보내기 위한 상기 컴퓨터 실행 가능한 명령어들은, 상기 켑스트럴 계수들에 기초한, 결과들에 대한 상기 요청들의 상기 적어도 일부를 보내기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하는 컴퓨터 판독 가능한 매체.
제19항에 있어서, 상기 음성 신호들에 대해 상기 특성 추출 기능들을 수행하기 위한 상기 컴퓨터 실행 가능한 명령어들은, 상기 음성 신호들로부터 특성 벡터들을 결정하기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하고, 결과들에 대한 상기 요청들의 상기 적어도 일부를 상기 이동 컴퓨터의 상기 송신기로 보내기 위한상기 컴퓨터 실행 가능한 명령어들은 상기 특성 벡터들에 기초한, 결과들에 대한 상기 요청들의 상기 적어도 일부를 보내기 위한 컴퓨터 실행 가능한 명령어들을 더 포함하는 컴퓨터 판독 가능한 매체.
이동 컴퓨터에 있어서,

가청 음성을 아날로그 신호들로 변환하도록 조정된(adapted) 마이크로폰;

상기 마이크로폰에 연결되고, 상기 가청 음성을 디지털화하여 음성 신호들을 제공하도록 조정된 아날로그-디지털 변환기;

상기 음성 신호들의 특성을 표시하는 음성 인식의 중간 결과들을 획득하기 위해서, 상기 음성 신호들에 대해 예비적인 음성 인식 기능들을 수행하도록 조정된 특성 추출 모듈;

인식된 가청 음성을 표시하는 음성 인식 결과들에 대한 요청들을 획득하기 위하여, 2차 음성 인식 기능들을 수행하도록 구성된 음성 인식 모듈; 및

상기 음성 인식 모듈에 연결되고, 음성 인식 결과들에 대한 상기 요청들의 적어도 일부를 상기 이동 컴퓨터로부터, 상기 이동 컴퓨터로부터 떨어져 위치한 제2 컴퓨터로 송신하고, 상기 제2 컴퓨터로부터 상기 요청된 음성 인식 결과들을 수신하도록 조정된 송수신기

를 포함하는 이동 컴퓨터.
제26항에 있어서, 상기 특성 추출 모듈은 상기 음성 신호들로부터 멜-프리퀀시 켑스트럼 계수들을 결정하고 상기 멜-프리퀀시 켑스트럼 계수들을 상기 음성 인식의 중간 결과들로서 제공하도록 조정되는 이동 컴퓨터.
제26항에 있어서, 상기 특성 추출 모듈은 상기 음성 신호들로부터 벡터 양자화된 인덱스들을 결정하고 상기 벡터 양자화된 인덱스들을 상기 음성 인식의 중간 결과들로서 제공하도록 조정되는 이동 컴퓨터.
제26항에 있어서, 상기 특성 추출 모듈은 상기 음성 신호들로부터 히든 마르코브 모델링(HMM) 스코어들을 결정하고, 상기 HMM 스코어들을 상기 음성 인식의 중간 결과들로서 제공하도록 조정되는 이동 컴퓨터.
제26항에 있어서, 상기 특성 추출 모듈은 상기 음성 신호들로부터 히든 마르코브 모델링(HMM) 상태 출력의 확률 밀도 함수들을 결정하고 상기 HMM 상태 출력의 확률 밀도 함수들을 상기 음성 인식의 중간 결과들로서 제공하도록 조정되는 이동 컴퓨터.
제26항에 있어서, 상기 특성 추출 모듈은 상기 음성 신호들로부터 켑스트럴 계수들을 결정하고 상기 켑스트럴 계수들을 상기 음성 인식의 중간 결과들로서 제공하도록 조정되는 이동 컴퓨터.
제26항에 있어서, 상기 특성 추출 모듈은 상기 음성 신호들로부터 특성 벡터들을 결정하고 상기 특성 벡터들을 상기 음성 인식의 중간 결과들로서 제공하도록 조정되는 이동 컴퓨터.
제26항에 있어서,

결과들에 대한 상기 요청들에 응답하여, 음향 모델 결과들을 상기 음성 인식 모듈에 제공하도록 구성된 음향 모델

을 더 포함하는 이동 컴퓨터.
제26항에 있어서,

결과들에 대한 상기 요청들에 응답하여, 결과들을 상기 음성 인식 모듈에 제공하도록 구성된 언어 모델

을 더 포함하는 이동 컴퓨터.
제32항 내지 제33항 중 어느 한 항에 있어서,

결과들에 대한 상기 요청들에 응답하여, 결과들을 상기 음성 인식 모듈에 제공하도록 구성된 언어 모델을 더 포함하고,

상기 언어 모델은 원격 언어 모델로부터 갱신되도록 구성되는 이동 컴퓨터.
제33항에 있어서,

결과들에 대한 상기 요청들에 응답하여, 결과들을 상기 음성 인식 모듈에 제공하도록 구성된 언어 모델을 더 포함하고, 상기 언어 모델은 원격 언어 모델로부터 갱신되도록 구성되는 이동 컴퓨터.