KR20060050139A

KR20060050139A - 컴퓨팅 장치에 입력을 제공하기 위한 효율적인 멀티모달방법

Info

Publication number: KR20060050139A
Application number: KR1020050063343A
Authority: KR
Inventors: 에릭 아이차오 창
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-07-13
Filing date: 2005-07-13
Publication date: 2006-05-19
Also published as: DE602005027522D1; EP1617409A1; KR101183340B1; EP1617409B1; ATE506674T1; JP2006053906A; CN1758211A; US20060036438A1

Abstract

컴퓨터에 입력을 제공하기 위한 방법 및 시스템은 사용자로부터 입력 음성을 수신하고 입력 음성에 대응하는 데이터를 제공하는 것을 포함한다. 데이터를 사용하여 구절들의 모음(a collection of phrases)을 탐색하고 데이터와 관련이 있는 모음으로부터 하나 이상의 구절을 식별한다. 하나 이상의 구절이 사용자에게 시각적으로 렌더링 된다. 사용자로부터 구절들 중 하나에 대한 선택 지시를 수신하고, 선택된 구절은 컴퓨팅 장치상에서 동작하고 있는 애플리케이션에 제공된다.

음성, 렌더링, 구절, 인식

Description

컴퓨팅 장치에 입력을 제공하기 위한 효율적인 멀티모달 방법 {EFFICIENT MULTIMODAL METHOD TO PROVIDE INPUT TO A COMPUTING DEVICE}

도 1은 컴퓨팅 장치 운영 환경의 제1 실시예의 도면.

도 2는 도 1의 컴퓨팅 장치의 블록도.

도 3은 범용 컴퓨터의 블록도.

도 4는 데이터 엔트리 시스템의 블록도.

도 5는 격자의 표현을 나타내는 도면.

도 6은 컴퓨터 시스템에 입력을 제공하기 위한 방법의 흐름도.

<도면의 주요 부분에 대한 부호의 설명>

29: 마이크로폰

204: 모디오 캡처 모듈

34: 디스플레이

206: 음성 탐색 서버

240: 격자 생성기

208: 로컬 음성 인식기

220: 인덱스

240: 원격 음성 인식기

222: 이동 장치상의 콘텐츠

224: 수동 입력된 텍스트

본 발명은 컴퓨팅 장치에 입력을 제공하는 것에 관한 것이다. 특히, 본 발명은 효율성을 증가시키기 위한 대안의 집합으로부터 원하는 입력의 식별 및 음성 인식을 포함하는 입력을 제공하는 멀티모달(multimodal) 방법에 관한 것이다.

소형 컴퓨팅 장치에는 개인 정보 관리자(personal information manager; PIM), 장치 및 휴대전화가 있으며, 일상 활동에서의 이들의 사용 빈도는 점점 증가하고 있다. 이러한 장치 구동에 사용되는 마이크로프로세서에 대해 사용가능한 처리 능력 증가로 인하여, 이러한 장치들의 기능은 증가하고 있으며, 일부는 통합되고 있다. 즉, 현재 많은 휴대 전화들이 주소나 전화번호 등과 같은 개인정보 저장을 위해 사용될 뿐 아니라, 인터넷 접속과 검색을 위해 사용될 수도 있다.

이러한 컴퓨팅 장치가 보다 많은 작업을 위해 사용되고 있다는 측면에서, 더욱 쉽고 효과적으로 컴퓨팅 장치에 정보를 입력하는 것이 필요하다. 그러나 부득이하게도, 손쉽게 휴대 될 수 있도록 가능한 소형을 유지해야 하는 이러한 장치에 대한 요구로 인하여, 모든 알파벳문자들이 독립적인 버튼을 갖는 종래의 키보드는 컴퓨팅 장치의 하우징(housing) 상에 사용 가능한 면적이 제한되어서 가능하지 않다. 동일하게, 수기입력 인식은 글자 입력의 편리를 위한 공간을 갖는 패드 또는 디스플레이가 필요하며, 이는 컴퓨터 장치의 크기를 가중시킬 수 있다. 또한, 수기입력 인식은 일반적으로 저속의 입력 방식이다.

따라서, 데이터, 명령어 등이 컴퓨팅 장치에 입력되는 방식을 개선하려는 필요성이 대두 되고 있다. 그러한 개선으로 인해 PIM, 전화기 등과 같은 소형 컴퓨팅 장치에 편리하게 데이터를 입력할 수 있게 되며, 개인용 컴퓨터나 텔레비전과 같은 다른 컴퓨팅 장치에서도 유용할 수 있다.

컴퓨터에 입력을 제공하기 위한 방법 및 시스템은 입력 음성을 사용자로부터 수신하는 단계 및 입력 음성에 대응하는 데이터를 제공하는 단계를 포함한다. 데이터는 구절의 모음(a collection of phrases)을 검색하고 데이터와 관련성을 갖는 모음으로부터 하나 이상의 구절을 식별하는데 사용된다. 하나 이상의 단어가 사용자에게 시각적으로 제공된다. 사용자로부터 구절 중 하나의 선택에 대한 지시가 수신되고, 선택된 구절은 컴퓨팅 장치상에서 동작하는 애플리케이션에 제공된다.

음성 입력과 시각적으로 제공된 가능한 구절 선택을 조합해서 사용하는 것은 사용자들이 정보에 접근하기 위한 효과적인 방법을 제공하며, 특히 손으로 조작되는 입력 장치에서는 구현하기 어려운 이동 컴퓨팅 장치에 대하여 효과적이다. 사용자에게 청취할 수 있는 검색 입력을 받음으로써, 사용자는 신속하게 검색 조건을 제공할 수 있고, 이는 사용자가 입력하고자 하는 가능한 구절의 포괄적인 모음을 검색하는 데에 사용될 수 있다. 또한, 사용자가 가능한 구절의 시각적으로 제공된 목록을 쉽게 훑어볼 수 있기 때문에, 사용자는 원하는 구절을 신속하게 찾아낼 수 있고, 예컨대 포인팅 장치를 사용하여, 컴퓨팅 장치상에서 실행되는 애플리케이션을 위한 입력으로서 사용되는 단어를 선택할 수 있다.

본 발명의 형태를 기술하기 전에, 이러한 특성을 결합하여 사용할 수 있는 컴퓨팅 장치들을 일반적으로 설명하는 것이 유용할 수 있다. 도 1을 이하 참조하면, 데이터 관리 장치(PIM, PDA 등)의 예시적인 형태가 장치(30)에서 도시되어 있다. 그러나 본 발명은 또한 이하 검토되는 다른 컴퓨팅 장치를 사용하여 실시될 수도 있으며, 특히, 입력 버튼 등을 위한 제한된 면적 영역을 갖는 그러한 컴퓨팅 장치를 포함한다고 해석된다. 예컨대, 전화기 및/또는 데이터 관리 장치는 또한 본 발명을 이용할 것이다. 그러한 장치는 현존하는 휴대용 개인 정보 관리 장치 및 기타 휴대용 전자 장치와 대비하여 향상된 유용성을 가지며, 그러한 장치의 기능 및 작은 크기로 인하여 사용자는 항상 장치를 휴대할 수 있게 되었다. 따라서, 본 명세서에 설명된 본 발명의 형태가 본 명세서에 설명된 예시적인 데이터 관리 장치 또는 PIM 장치, 전화기 또는 컴퓨터에 국한되기 위한 것은 아니다.

데이터 관리 이동 장치(30)의 예시적인 형태가 도 1에 도시되어 있다. 이동 장치(30)는 하우징(32)을 포함하고, 스타일러스(stylus; 33)와 함께 접촉에 민감한(contact sensitive) 표시 스크린을 사용하는 디스플레이(34)를 포함하는 사용자 인터페이스를 포함한다. 스타일러스(33)는 지정된 좌표에서 디스플레이(34)를 누르거나 접촉하는데 사용되어서 필드를 선택하고, 커서의 시작 지점을 선택적으로 이동시키거나 예컨대 제스처(gesture) 또는 수기(handwriting)를 통하여 명령어 정 보를 제공한다. 대안적으로, 또는 추가적으로, 하나 이상의 버튼(35)이 내비게이션을 위한 장치(30)에 포함될 수 있다. 또한, 회전형 휠(rotatable wheels), 롤러(roller) 등과 같은 다른 입력 메커니즘이 또한 제공될 수 있다. 그러나 본 발명이 이러한 형태의 입력 메커니즘에 의해 제한되기 위한 것은 아니라는 점에 주목해야 한다. 예컨대, 다른 형태의 입력은 컴퓨터 비전(computer vision)을 통해서와 같은 가시적인 입력을 포함할 수 있다.

이하 도 2를 참조하면, 블록도는 이동 장치(30)를 포함하는 기능적인 컴포넌트를 도시한다. 중앙 처리 장치(CPU; 50)는 소프트웨어 제어 기능(software control function)을 구현한다. CPU(50)는 디스플레이(34)와 연결되어서 제어 소프트웨어에 따라 생성된 문자 및 그래픽 아이콘이 디스플레이(34) 상에 나타난다. 스피커(43)는 전형적으로 CPU(50)와 디지털-아날로그 컨버터(59)로 연결되어서 음성 출력을 제공한다. 다운로드 되거나 사용자에 의해 이동 장치(30)로 입력되는 데이터는 CPU(50)에 양방향적으로(bi-directionally) 연결된 비휘발성 판독/기입(read/write) RAM 메모리(54)에 저장된다. RAM(54)은 CPU(50)에 의해서 실행된 레지스터 값과 같은 명령어에 대한 휘발성 저장소를 제공한다. 구성 옵션(configuration option) 및 기타 변수에 대한 디폴트값은 ROM(58)에 저장된다. 또한, ROM(58)은 이동 장치(30)의 기본 기능을 제어하는 장치에 대한 운영 시스템 소프트웨어 및 기타 운영 시스템 커널 기능(예컨대, RAM(54)으로의 소프트웨어 컴포넌트의 로딩)을 저장하기 위해 사용될 수 있다.

또한, RAM(54)은, 애플리케이션 프로그램을 저장하기 위해 사용되는 PC 상의 하드 드라이브의 기능과 유사한 방식으로 코드에 대한 저장소로서 작용한다. 비휘발성 메모리가 코드를 저장하기 위해서 사용되지만, 코드의 실행에 사용되지 않는 휘발성 메모리에도 저장될 수 있음이 주목되어야 한다.

무선 신호는 무선 트랜시버(52)를 통하여 이동 장치에 의해 송/수신될 수 있으며, 무선 트랜시버(52)는 CPU(50)와 연결되어 있다. 또한, 선택적인 통신 인터페이스(60)가 컴퓨터(예컨대, 데스크톱 컴퓨터)로부터 또는 바람직한 경우 우선 네트워크로부터 직접 데이터를 다운로딩하기 위해 제공된다. 따라서, 인터페이스(60)는 예컨대 적외선 링크, 모뎀, 네트워크 카드 등인 다양한 형태의 통신 장치를 포함할 수 있다.

이동 장치(30)는 마이크로폰(29) 및 아날로그-디지털(A/D) 컨버터(37) 및 메모리(54)에 저장되어 있는 선택적인 인식 프로그램(음성, DTMF, 수기, 제스처 또는 컴퓨터 비전)을 포함한다. 예로써, 사용자 장치(30)로부터 음성 정보 또는 명령어(instructions or commands)에 응답하여, 마이크로폰(29)은 음성 신호를 제공하며, A/D 컨버터(37)에 의해서 계수화된다. 음성 인식 프로그램은 계수화된 음성 신호에 대하여 정규화(normalization) 및/또는 특징 추출 기능(feature extraction function)을 수행하여 중간 음성 인식 결과를 획득할 수 있다. 음성 인식은 이동 장치(30) 상에서 및/또는 무선 트랜시버(52) 또는 통신 인터페이스(60)를 사용하여 수행될 수 있으며, 도 4에 도시된 바와 같이 인터넷을 포함하는 근거리 또는 원거리 통신망을 통해서 음성 데이터는 원격 인식 서버(200)로 송신될 수 있다.

전술된 휴대용 또는 이동 컴퓨팅 장치에 추가로, 본 발명은 일반적인 데스크 톱 컴퓨터와 같은 다양한 기타 컴퓨팅 장치에 사용될 수 있다는 점이 이해되어야 한다. 예컨대, 본 발명으로 인하여, 제한된 물리적인 능력을 가진 사용자가, 전체 알파-뉴머릭 키보드(alpha-numeric keyboard)와 같은 다른 종래의 입력 장치가 동작하기에 너무 어려운 경우, 컴퓨터 또는 기타 컴퓨팅 장치로 문자를 입력 또는 기입할 수 있게 된다.

또한, 본 발명은 다양한 기타 범용 또는 특수 목적의 컴퓨팅 시스템, 환경 또는 구성에 대하여 동작한다. 본 발명에 사용하기에 적합한 공지의 컴퓨팅 시스템, 환경 및/또는 구성은 일반 전화기(스크린 없는), 개인용 컴퓨터, 서버 컴퓨터, 핸드-헬드(hand-held) 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그래밍 가능한 소비 가전, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터(mainframe computer), 임의의 전술한 시스템 또는 장치를 포함하는 분산 컴퓨팅 환경 등을 포함하지만, 이에 제한되지 않는다.

다음은 도 3에 도시된 범용 컴퓨터(120)의 간단한 기술이다. 그러나 컴퓨터(120)는 오직 적절한 컴퓨팅 환경의 한 예시일뿐이지 본 발명의 사용 또는 기능의 범위에 어떠한 제한도 부가할 의도가 아니다. 컴퓨터(120)는 본 명세서에 도시된 컴포넌트의 임의의 하나 또는 조합과 관계된 어떤 종속관계나 요구를 가지고 해석해서는 안 된다.

본 발명은 프로그램 모듈과 같이, 컴퓨터 시스템에 의해 시행될 수 있는 컴퓨터 실행가능 명령어들을 포함하는 일반적인 콘텍스트(context)로 기술될 수 있다. 일반적으로, 프로그램 모듈은 루틴, 프로그램, 프로그래밍, 객체, 컴포넌트, 데이터 및/또는 특정 태스크를 수행하거나 특정 추상적 데이터형을 구현하는 데이터 구조를 포함한다. 본 발명은 태스크가 통신 네트워크로 연결된 원격 프로세싱 장치를 통해 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경 내에서, 프로그램 모듈은 메모리 저장 장치를 포함해 제한 없이, 지역과 원격 컴퓨터 저장 매체 양쪽에 있을 수 있다. 프로그램 및 모듈에 의해 수행된 태스크들은 아래에서 도면에 의해 기술된다. 당업자는 본 명세서에 제공된 기술 및 도면을 컴퓨터가 판독할 수 있는 매체의 임의의 형태로 기록될 수 있는 프로세서 실행가능 명령어들로 구현할 수 있다.

도 3을 참조하여, 컴퓨터(120)의 컴포넌트는 프로세싱 유닛(140), 시스템 메모리(150)와 시스템 메모리를 포함하는 여러 가지 시스템 컴포넌트를 프로세싱 유닛(140)에 연결하는 시스템 버스(141)를 포함하는 데, 이에 한정되는 것은 아니다. 시스템 버스(141)는 여러 버스 아키텍처 중 임의의 것을 사용하는 메모리 버스 또는 메모리 컨트롤러, 주변 버스와 지역 버스를 포함하는 버스 구조의 여러 종류 중 임의의 것일 수 있다. 예로서, 구조는 ISA(Industry Standard Architecture) 버스, USB(Universal Serial Bus), MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standard Association) 지역 버스와 메자닌(Mezzanine) 버스라 알려진 PCI(Peripheral Component Interconnect) 버스를 포함하는데 이에 한정되는 것은 아니다. 컴퓨터(120)는 전형적으로 다양한 컴퓨터 판독 가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(120)에 의해 접속될 수 있는 임의의 이용가능 매체일 수 있고, 휘발성과 비휘발성, 착탈식과 비 착탈식 매체 모두를 포함한다. 예를 들어, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체와 통신 매체를 포함할 수 있는데 이에 한정되는 것은 아니다. 컴퓨터 저장 매체는 판독 가능 명령어, 데이터 구조, 프로그램 모듈이나 다른 데이터 같은 정보의 저장에 있어서 임의의 방법이나 기술에서 구현되는 휘발성과 비휘발성, 착탈식과 비착탈식 매체 모두를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD)이나 다른 광 디스크 저장, 자기 카세트, 자기 테이프, 자기 디스크 저장이나 다른 자기 저장 장치 또는 원하는 정보를 저장하는데 사용할 수 있고 컴퓨터(120)에 의해 접속될 수 있는 임의의 다른 매체를 포함하는데 이에 한정되는 것은 아니다.

통신 매체는 전형적으로 컴퓨터 판독 가능 명령, 데이터 구조, 프로그램 모듈 또는 반송파나 다른 전송 메커니즘과 같은 변조된 데이터 신호 안의 다른 데이터를 유형화하고 임의 정보 전달 매체를 포함한다. “변조된 데이터 신호”라는 용어는 신호형태로 정보를 인코딩하기 위해 그런 방법으로 설정되거나 변화된 하나 이상의 자신의 특징을 가진 신호를 의미한다. 예를 들어, 통신매체는 유선 네트워크나 직접 유선 연결과 같은 유선 매체와 음파, RF, 적외선 및 다른 무선 PAN, 무선 LAN, 무선 WAN과 같은 다른 무선 매체를 포함하는데, 이에 한정되는 것은 아니다. 상기 임의 조합도 컴퓨터 판독가능 매체의 범위 내에 포함된다.

시스템 메모리(150)는 판독 전용 메모리(read only memory; ROM)(151)와 임의 액세스 메모리(random access memory; RAM)(152)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 기본 입출력체계(basic input/output system; BIOS)(153)는 시동(start-up) 중에, 컴퓨터(120) 내의 요소들 간의 정보 전달을 돕는 기본 루틴을 포함하고 전형적으로 ROM(151)에 저장된다. RAM(152)은 전형적으로 데이터 및/또는 프로세싱 유닛(140)에 의해, 즉시 접속할 수 있고/있거나 현재 운영되어 지고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서 도 3은 운영 체제(154), 응용 프로그램(155), 다른 프로그램 모듈(156)과 프로그램 데이터(157)를 예시하는데 이에 한정되는 것은 아니다.

컴퓨터(120)는 다른 착탈식/비착탈식, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 예로서, 도 3은 비착탈식/비휘발성 자기 매체에 대해 판독하거나 기록하기 위한 하드 디스크 드라이브(161), 착탈식/비휘발성 자기 디스크(172)에 대해 판독하거나 기록하기 위한 자기 디스크 드라이브(171)와 CD ROM이나 다른 광학 매체와 같은 착탈식/비휘발성 광학 디스크(176)에서 판독하거나 기록하기 위한 광학 디스크 드라이브(175)를 예시한다. 상기 예시적인 운영 환경에서 사용될 수 있는 다른 착탈식/비착탈식, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프, 플래시 메모리 카드, 디지털 다기능 디스크, 디지털 비디오 테이프, 고체 RAM, 고체 ROM 등을 포함하는데, 이에 한정되는 것은 아니다. 하드 디스크 드라이브(161)는 전형적으로 인터페이스(160)와 같은 비착탈식 메모리 인터페이스를 통해 시스템 버스(141)에 연결되고, 자기 디스크 드라이브(171)와 광학 디스크 드라이브(175)는 전형적으로 인터페이스(170)와 같은 착탈식 메모리 인터페이스에 의해 시스템 버스(141)에 연결된다.

도 3에서 상술하고 도시된 드라이브 및 연관된 컴퓨터 저장 매체는 컴퓨터(120)를 위해 컴퓨터 판독 가능 명령, 데이터 구조, 프로그램 모듈 및 다른 데이터의 저장을 제공한다. 도 3에서, 예를 들어, 하드 디스크 드라이브(161)는 운영 체제(164), 응용 프로그램(165), 다른 프로그램 모듈(166)과 프로그램 데이터(167)를 저장하는 것으로 예시되어 있다. 이런 컴포넌트들은 운영체제(154), 응용 프로그램(155), 다른 프로그램 모듈(156)과 프로그램 데이터(157)와 동일하거나 다를 수 있다. 운영체제(164), 응용 프로그램(165), 다른 프로그램 모듈(166)과 프로그램 데이터(167)는 최소한 그것들이 다른 것임을 도시하기 위해 다른 참조번호가 주어졌다.

사용자는 명령어와 정보를 컴퓨터(120)에 키보드(182)와 마이크로폰(183) 및 보통 마우스, 조이스틱, 게임 패드라 언급되는 위치 지정 장치(181)와 같은 입력 장치들을 통해 입력한다. (도시되지는 않은) 다른 입력 장치는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이러한 입력 장치 및 다른 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(180)를 통해 프로세싱 유닛(140)에 자주 연결되나, 병렬 포트, 게임 포트나 범용 직렬 버스(USB)와 같은 다른 인터페이스와 버스 구조에 대해 연결될 수 있다. 모니터(184)나 다른 종류의 디스플레이 장치도 비디오 인터페이스(185)와 같은 인터페이스를 통해 시스템 버스(141)에 연결된다. 모니터에 추가해, 컴퓨터는 다른 스피커(187)와 프린터(186)와 같은 다른 출력 장치도 포함할 수 있고, 이들은 출력 주변 인터페이스(188)를 통해 연결될 수 있다.

컴퓨터 시스템(120)은 원격 컴퓨터(194)와 같은 하나 이상의 원격 컴퓨터로 의 로직 연결을 사용해 네트워크화된 환경 내에서 동작할 수 있다. 원격 컴퓨터(194)는 개인용 컴퓨터, 핸드 헬드 컴퓨터, 서버 컴퓨터, 라우터, 네트워크 PC, 피어 장치나 다른 공통 네트워크 노드일 수 있고 전형적으로 상기 컴퓨터(120)와 관련된 상술한 많은 요소들의 다수 또는 전부를 포함한다. 도 3에서 묘사된 로직 연결은 근거리 통신망(local area network; LAN)(191)과 광역 통신망(wide area network; WAN)(193)을 포함하나 다른 네트워크도 포함할 수 있다. 그런 네트워킹 환경은 사무실이나 기업 광역 컴퓨터 네트워크, 인트라넷 및 인터넷에 흔한 것이다.

LAN 네트워크 환경에서 사용되는 때에, 컴퓨터(120)가 LAN(191)에 네트워크 인터페이스나 어댑터(190)를 통해 접속된다. WAN 네트워크 환경에서 사용되는 때에, 컴퓨터(120)는 전형적으로 모뎀(192)이나 인터넷과 같은 상기 WAN(193)을 통한 통신을 설정하기 위한 다른 수단을 포함한다. 내장형이거나 외장형일 수 있는 모뎀(192)은 사용자 입력 인터페이스(180)이나 다른 적절한 메커니즘을 통해 시스템 버스(141)에 접속될 수 있다. 네트워크화된 환경에서, 컴퓨터(120)에 관하여 묘사된 프로그램 모듈 또는 그것의 일부가 원격 메모리 저장 장치에 저장될 수도 있다. 예를 들어, 도 3은 원격 애플리케이션 프로그램(195)이 원격 컴퓨터(194)에 있는 것으로 예시하는데 이에 한정되는 것은 아니다. 도시된 네트워크 접속은 예시적이고 컴퓨터 간에 통신 링크를 설정하기 위한 다른 수단들이 사용될 수 있음을 알 수 있다.

도 4는 본 발명의 실시예를 구현하기에 적절한 컴포넌트나 모듈을 도식적으 로 도시한다. 예로서, 이동 장치(30) 상에서 마이크로폰(29)에 의해 캡처 되고 오디오 캡처 모듈(204)에 의해 적절하게 처리된 음성 입력이 음성 탐색 서버(voice search server, 206)에 제공된다. 예컨대, 데이터는 음성 탐색 서버(206)에 PCM 포맷으로 전송될 수 있다. 음성 탐색 서버(206)는 수신된 음성 샘플을 로컬 음성 인식 모듈(208) 및/또는 원격 음성 인식 서버(200)로 통과시킨다. 큰 단어 음성 인식 및/또는 애플리케이션 특정 음성 인식이 채택될 수 있다. 동등하게, 언어음 레벨(phone level), 단어 단편 레벨(word fragment level) 또는 단어 레벨(word level)의 음성 인식(phonetic recognition)을 채택할 수 있다. 인식된 결과는 컴퓨팅 장치상에 존재하는 것으로 알려진 정보를 기반으로 음성 탐색 서버(206)에 반환된다. 인식된 결과는 그 후 음성 탐색 서버(206)에 의해 차례로 관련 아이템이 순위화된 리스트(예컨대, 인스턴스 문서 구절)를 제공하는 정보 탐색 기술을 위한 데이터 쿼리(query)(예컨대, 패턴)를 공식화하는데 사용된다.

많은 주지의 정보 검색 기법이 이용될 수 있다. 일 실시예에서는, 검색 프로세스를 가속화하기 위하여, 탐색할 정보(그리고 어쩌면 검색될 정보)의 인덱스(220)가 생성된다. 예컨대, 인덱스(220)는 컴퓨팅 장치에서 이용 가능한 콘텐츠(222)(예컨대, 어드레스, 지정치(appointments), 이메일 메시지 등)나 아니면 컴퓨팅 장치(본 명세서에서는 이동 장치(30))에 수동 입력된 입력(224)에 기초할 수 있다. 인덱스(220)는 콘텐츠(222) 및 입력(224) 양자 모두를 위하여 기능하는 것으로 도시되어 있지만, 필요하다면 개별 인덱스가 제공될 수 있다는 점을 알아야 한다. 카테고리에 기초하여 참조 정보에 적합화된 개별 인덱스들이나 인덱스(220)를 사용하여 사용자는 요청될 수 있는 소정의 카테고리들에서만 탐색을 지정할 수 있게 된다.

인덱스(220)는 많은 형태를 가질 수 있다. 바람직한 일 실시예에서, 인덱스(220)는 콘텐츠(222) 및/또는 입력(224) 내의 단어들에 관한 미리 계산된 음성 격자들(phonetic lattices)로 이루어진다. 성분 음소들(component phonemes)과 음성 단편들(phonetic fragments)을 식별하기 위하여 사전을 참조함으로써 콘텐츠(222) 및 입력(224) 내의 단어들을 음성 격자로 변환하는 것이 비교적 확실하게 이루어진다. 대응 격자에는 단어들의 선택적인 음성들이 포함될 수 있어서, 예컨대 단어 "either"의 경우 처음 음성 "ei"가 ("like"에서와 같이) "i"로 시작하는 하나의 격자 노드와 처음 음성 "ei"가 ("queen"에서와 같이) "ee"로 시작하는 또 다른 격자 노드(양자 모두 "ther"로 이어진다)가 있다. 또 다른 예로 "primer"를 들면, "primer"는 "him"과 비슷하게 음성되는 "prim"을 포함하는 "primer", 또는 "high"와 비슷하게 음성되는 "pri"를 포함하는 "primer"와 같은 선택적인 음성들을 포함한다.

음성 탐색 서버(206)는 음성 인식기(200 및/또는 208)로부터의 결과를 수신하여 사전에 따라 음소들과 음성 단편들을 식별해내는 격자 생성 모듈(240)을 포함한다. 음성 인식기(204)로부터의 출력을 이용하여, 격자 생성 모듈(240)은 음성 가설(phonetic hypothesis)(각각의 가설은 관련 시간 한계와 정확도 스코어를 포함한다)의 격자를 구성한다.

필요한 경우, 더 정확하고 효율적인 탐색을 위하여 격자를 변경하는 방법이 이용될 수 있다. 예컨대, 음성 단편들 간 크로스오버가 가능해지도록 격자가 변경될 수 있다. 또한, 격자 내에 잘못 매칭되는 경로가 있는 경우 가설들 간에 전이가 가능해지도록 페널티 백오프 경로(penalized back-off paths)가 추가될 수 있다. 그러므로 출력 스코어에는 모순된 가설들이 포함될 수 있다. 격자 사이즈를 줄이기 위해서, 가설들이 병합되어 음소의 연결성을 증가시키고 따라서 격자에 저장된 청각 데이터의 양을 줄일 수 있다.

음성 인식기(200, 208)는 음성 단어 단편들로 이루어진 사전에 기초하여 동작한다. 일 실시예에서, 단편들은 인접 유닛 v와 w(이들은 음소일 수도 있고 음소 조합일 수도 있다)의 공통-정보(mutual-information) 산출에 기초하여 판정된다. 공통 정보 MI는 다음과 같이 정의될 수 있다.

특정 임계치 이상의 MI를 갖는 임의의 (v, w) 쌍들이 사전을 위하여 선택될 단편의 후보들로 이용될 수 있다. 한 쌍의 유닛을 구성하는 각 유닛 중 하나 또는 양 유닛이 더 높은 MI를 갖는 쌍의 일부인 경우 그 유닛 쌍은 후보 리스트에서 제거될 수 있다. 단어 경계에 걸쳐져 있는 쌍들이 또한 리스트에서 제거된다. 나머지 후보 쌍들 v w는 트레이닝 코퍼스(training corpus)에서 하나의 유닛 v-w에 의하여 교체된다. 후보 쌍들을 결정하는 프로세스는 원하는 수의 단편들이 얻어질 때까지 반복된다. 전술된 공통 정보 프로세스에 의하여 생성된 단편들의 예로는 /-k-ih-ng/(음절 "-king"), /ih-n-t-ax-r/(음절 "inter-"), /ih-z/(단어 "is") 및 /ae-k-ch-uw-ax-l-iy/(단어 "actually")가 있다.

음성 탐색 엔진(206)은 음성 입력이 콘텐츠(222 및/또는 224) 내에서 매칭 대상(match)을 갖는지 여부를 판정하기 위하여 인덱스(220)에 액세스한다. 음성 입력에 기초하여 음성 탐색 엔진(206)에 의해서 생성된 격자는 음성 시퀀스이거나 선택적 시퀀스들의 문법일 수 있다. 매칭 동안, 음성 입력에 매칭되거나 밀접하게 대응하는 격자 경로들이 식별되고 관련 격자에서의 인식 스코어들에 기초하여 확률이 계산된다. 그런 다음 그 식별된 가설들이 음성 탐색 엔진(206)에 의하여 잠재적 매칭 대상으로서 출력된다.

언급한 바와 같이, 음성 입력은 다수의 음성 가능성들을 정의하는 선택적 사항들에 대응하는 문법일 수 있다. 일 실시예에서, 문법 질의는 가중형 유한-상태 네트워크로서 표현될 수 있다. 문법은 또한 문맥 자유 문법, 통합 언어 모델, N-그램 모델 및/또는 프리픽스 트리로써 표현될 수도 있다.

이러한 상황들 각각에 있어서, 노드들이 음성 단어 단편들 사이에서 가능한 전이들을 나타낼 수 있고 노드들 간의 경로들이 음성 단어 단편들을 나타낼 수 있다. 이와 달리, 노드들이 음성 단어 단편들 자체를 나타낼 수 있다. 또한, 전화 번호와 날짜 등과 같은 복잡한 표현은 이러한 표현을 정의하는 입력 문법에 기초하여 탐색될 수 있다. 기타 다른 선택 사항들이 또한 문법을 이용하여 질의로서, 예컨대 괄호 안에 선택 사항들이 존재하는 "폴의 (주소 | 전화 번호)"에서, "폴의 주소"라는 음성 입력으로서 탐색될 수 있다.

또 다른 실시예에서는, 탐색이 수행되기 이전에 음성 입력에 대해 필터링이 적용되어 명령 정보를 제거한다. 예컨대, "폴의 주소를 찾아라", "폴의 주소를 보이라." 또는 "폴의 주소를 탐색하라."를 포함하는 음성 입력은 각각 동일한 질의 결과 "폴의 주소"를 보여줄 것이고, 여기서 "찾아라", "보여달라, " 탐색하라."라는 패턴 매칭에서 이용되지 않을 것이다. 그러한 필터링은 음성 인식기(200, 208)로부터 수신된 결과와 함께 포함된 의미 정보에 기초할 수 있다.

하이브리드 탐색 방법도 이용될 수 있다는 것도 주목할 가치가 있다. 하이브리드 방법에서, 음성 단편 탐색은 많은 수의 언어음(phone), 예컨대 일곱 개 이상의 언어음들을 포함하는 질의를 위하여 이용될 수 있다. 짧은 언어음의 경우, 단어 기반 탐색이 이용될 수 있다.

도 5는 노드 p-u 및 노드들 간의 경로들로 구성된 예시적 격자(250)를 도시한 도면이다. 각 노드는 관련된 시간값이나 시간선(260)에 대한 상대적 범위를 갖는다. 하나의 노드에서 인접한 노드로의 각 경로는 음성 단어 단편(p_n으로 표시됨)을 나타내고 대응하는 청각 세그먼트(audio segment)가 주어진 경우 그 경로 가설의 가능성을 나타내는 연관 스코어(s_n으로 표시됨)를 포함한다. 음소 가설들의 모음이 음성 단어 단편들을 형성하고 격자 내에서 하나의 단편에서의 음성 가설로부터 다른 단편에서의 음성 가설로의 경로들이 제공되며 하나의 단편으로부터 다른 단편으로의 전이를 형성한다.

예컨대, 노드 p로부터 노드 q로의 경로의 스코어는 s₁로 표시된다. 질의가 노드 r에 부합하는 경우, 스코어 s₇ 및 s₈과 연관된 경로들이 노드 t로 전개되어 어 떠한 경로가 부합하는지를 판단할 것이다. 그런 다음, 스코어 s₁₀ 및 s₁₁에 연관된 경로는 노드 u로 전개될 것이다. 경로가 질의의 끝에 도달할 경우, 매칭 대상이 결정된다. 그 경로를 따라 관련된 스코어들이 합산되어 가설 스코어를 산출해낸다. 검색 프로세스를 가속화하기 위하여, 매칭 대상들이 동일하거나 거의 동일한 시간 경계를 공유하는 경우의 경로들은 전개될 필요가 없다.

탐색 동작의 결과는 t_s부터 t_e까지의 시간 범위에 속한 질의 스트링 W에 매칭되는 가설 리스트(W, t_s, t_e, P(W t_s t_e|O))이다. "사후 확률(posterior probabilityy)"이라고 알려져 있는 P(W t_s t_e|O) 확률이 그 매칭 대상의 근접도 측정치가 된다. W는 음소 시퀀스로 표시되고 O는 특징 벡터 ot의 시퀀스로 표현된 음향 관측치를 나타낸다. t_s부터 t_e까지의 질의 스트링 W를 포함하는 전체 경로의 확률의 합산은 다음과 같은 식을 가져온다.

여기서, W_- 및 W₊는 t_s 이전과 t_s 이후 임의의 단어 시퀀스를 각각 나타내고, W'은 임의의 단어 시퀀스이다. 또한, 값 p(Ot_st_e|W_-WW₊)는 다음과 같이 표시된다.

음성 입력을 이용하여 선택 사항들의 시각적 렌더링(rendering)과 그로부터의 선택을 포함하는 질의를 형성하는 것은 배경 기술 부분에서 언급한 이유로 인하여 임의의 컴퓨팅 장치, 특히 이동 장치를 위하여 필요한 데이터를 입력하는 매우 용이하기 효율적인 방법을 제공한다. 도 6은 본 발명의 또 다른 태양을 형성하는 컴퓨터로 입력을 제공하는 방법(400)을 도시한 도면이다. 방법(400)은 사용자로부터의 입력 음성 수신 및 그 입력 음성에 대응하는 패턴 제공을 포함하는 단계(402)를 포함한다. 단계(404)에서는, 패턴을 이용해서 텍스트 구절(각 구절은 하나 이상의 문자들임) 모음을 탐색하여 그 패턴에 관련된 모음으로부터 하나 이상의 텍스트 구절을 식별해낸다.

단계(406)에서, 그 하나 이상의 텍스트 구절들이 사용자에게 시각적으로 렌더링된다. 도 1은 선택 사항 리스트(452)를 포함하는 사용자에게 렌더링되는 예시적 사용자 인터페이스(450)를 도시하고 있다. (예시적 실시예에서, 사용자는 컨퍼런스 스케줄링을 위하여 사람 이름에 대응하는 음성 입력을 제공받는다. 탐색은 이동 장치(30)에 저장된 "연락처(contacts)" 데이터베이스를 통하여 이루어진다.) 단계(408)에서는, 렌더링 된 텍스트 구절 중 하나에 관한 표시가 사용자로부터 수신된다. 그와 같은 표시는 임의의 형태의 입력 장치, 일반적으로는 스틸러스, 마우스, 조이스틱 등의 포인팅 장치로부터 제공될 수 있다. 그러나 단계(406)는 또한 필요한 텍스트 구절의 가청 지시(audible indication)도 포함한다는 점을 알아야 한다. 예컨대, 렌더링 된 텍스트 구절의 리스트는 각 텍스트 구절의 식별자를 포함할 수 있다. 그 식별자를 가청 지시로 표시함으로써, 요청되는 텍스트 구절이 식별될 수 있다.

단계(408)에서 어느 텍스트 구절을 원하는지 지시받고, 단계(410)에서 원하는 텍스트 구절이 이후의 프로세싱을 위하여 애플리케이션에 삽입되어 제공될 수 있다. 전형적으로, 이는 컴퓨팅 장치상에서 시각적으로 렌더링 된 형태의 필드 내에 선택된 구를 삽입하는 것을 포함한다. 도 1의 예에서, 선택된 이름은 "Attendees" 필드 내에 삽입될 것이다.

음성 입력과 시각적으로 렌더링 된 대안들에 대한 선택의 결합적 사용은 사용자가 정보에 액세스하는 효율적인 방법을 제공하는데, 이는 사용자가 구절의 문법적으로 정확한 어순에 대한 걱정 없이 단일 문장 또는 구절에 있어서 의미론적으로 풍부한 질의를 들을 수 있게 제공할 수 있기 때문이다. 음성 입력은 단지 텍스트로 변환되어 이동 장치상에서 실행되고 있는 애플리케이션에 의해 사용되는 것뿐만 아니라, 그러한 또는 유사한 단어들을 갖는 이동 장치상의 공지의 콘텐츠를 탐색하는 질의를 형성하는데 사용된다. 탐색되는 콘텐츠의 양은, 그것이 모두 사용자에게 렌더링 될 필요가 없기 때문에, 이제 더욱 포괄적일 수 있다. 오히려, 음성 입력과 관련된 확인된 콘텐츠는 시각적 매체를 통하여 대안들의 목록 내에서 렌더링 된다. 사용자는 대안들의 목록을 쉽게 스캔하고 가장 적합한 대안을 선택할 수 있다.

본 발명은 적합한 실시예들을 참조하여 설명되었지만, 본 기술분야의 당업자는 본 발명의 본질 및 영역으로부터 벗어나지 않은 채 형태 및 세부 사항에 변경들이 가해질 수 있음을 인식할 것이다.

컴퓨터에 입력을 제공하기 위한 방법 및 시스템은 사용자로부터 입력 음성을 수신하고 입력 음성에 대응하는 데이터를 제공하여 하나 이상의 구절이 사용자에게 시각적으로 렌더링 되어 사용자로부터 선택된 구절은 컴퓨팅 장치상에서 동작하고 있는 애플리케이션에 제공된다.

Claims

컴퓨터에 입력 데이터를 제공하기 위한 컴퓨터 실행가능 명령어들을 가지는 컴퓨터 판독가능 매체로서, 상기 명령어들은,

입력 음성(input speech)을 표시하는 데이터를 제공하도록 적응된 오디오 캡처 모듈;

상기 오디오 캡처 모듈로부터 상기 데이터를 수신하도록 적응된 음성 탐색 서버(voice search server) - 상기 음성 탐색 서버는 상기 데이터를 사용하여 구절들의 모음(a collection of phrases)을 탐색하고 상기 데이터와 관련이 있는 상기 모음으로부터 하나 이상의 구절을 식별함 -; 및

상기 컴퓨터상에 상기 하나 이상의 구절을 시각적으로 렌더링하고 상기 사용자로부터 선택된 구절의 지시를 수신하기 위한 모듈

을 포함하는 컴퓨터 판독가능 매체.
제1항에 있어서,

상기 음성 탐색 서버는 상기 모음에서 탐색이 되지 않은 적어도 하나의 단어를 제거하기 위하여 상기 데이터를 필터링하도록 적응된 컴퓨터 판독가능 매체.
제2항에 있어서,

상기 음성 탐색 서버는 명령을 표시하는 적어도 하나의 단어를 제거하도록 적응된 컴퓨터 판독가능 매체.
제1항에 있어서,

상기 음성 탐색 서버는 상기 데이터 내의 적어도 하나의 단어에 대한 대안들을 추가하도록 적응된 컴퓨터 판독가능 매체.
제1항에 있어서,

상기 음성 탐색 서버는, 상기 입력 음성에 대한 음성 격자(phonetic lattice)를 형성하도록 적응된 격자 생성기를 포함하며, 상기 모음에 대한 음성 격자들과 상기 입력 음성에 대한 상기 음성 격자를 비교함으로써 상기 데이터를 사용하여 상기 모음을 탐색하도록 적응된 컴퓨터 판독가능 매체.
컴퓨터에 입력을 제공하기 위한 방법으로서,

사용자로부터 입력 음성을 수신하고 상기 입력 음성에 대응하는 데이터를 제공하는 단계;

상기 데이터를 사용하여 구절들의 모음을 탐색하고, 상기 데이터와 관련이 있는 상기 모음으로부터 하나 이상의 구절을 식별하는 단계;

상기 사용자에게 상기 하나 이상의 구절을 시각적으로 렌더링하는 단계;

상기 사용자로부터 상기 구절들 중 하나에 대한 선택의 지시를 수신하는 단계; 및

상기 선택된 구절을 애플리케이션에 제공하는 단계

를 포함하는 방법.
제6항에 있어서,

상기 지시를 수신하는 단계는 포인팅 장치를 동작하는 단계를 포함하는 방법.
제6항에 있어서,

상기 지시를 수신하는 단계는 가청 지시(audible indication)를 수신하는 단계를 포함하는 방법.
제6항에 있어서,

상기 선택된 구절을 제공하는 단계는 상기 컴퓨터상에서 렌더링 된 형태의 필드 내에 상기 선택된 구절을 삽입하는 단계를 포함하는 방법.
제6항에 있어서,

상기 모음에서 탐색이 되지 않은 적어도 하나의 단어를 제거하기 위하여 상기 데이터를 필터링하는 단계를 더 포함하는 방법.
제10항에 있어서,

상기 필터링하는 단계는 명령을 표시하는 적어도 하나의 단어를 제거하는 단계를 포함하는 방법.
제6항에 있어서,

상기 데이터 내의 적어도 하나의 단어에 대한 대안들을 추가하는 단계를 더 포함하는 방법.
제6항에 있어서,

상기 데이터를 제공하는 단계는 상기 입력 음성에 대한 음성 격자를 형성하는 단계를 포함하고,

상기 데이터를 사용하여 상기 모음을 검색하는 단계는 상기 모음에 대한 음성 격자들과 상기 입력 음성에 대한 상기 음성 격자를 비교하는 단계를 포함하는 방법.
구절들의 모음을 저장하기 위한 저장 장치;

입력 음성을 표시하는 데이터를 제공하도록 적응된 오디오 캡처 모듈;

상기 오디오 캡처 모듈로부터 상기 데이터를 수신하도록 적응된 음성 탐색 서버 - 상기 음성 탐색 서버는 상기 데이터를 사용하여 상기 구절들의 모음을 탐색하고, 상기 데이터와 관련이 있는 상기 모음으로부터 하나 이상의 구절을 식별함 -; 및

상기 컴퓨터상에 상기 하나 이상의 구절을 시각적으로 렌더링하고 상기 사용자로부터 선택된 구절에 대한 지시를 수신하기 위한 디스플레이/입력 모듈

을 포함하는 이동 컴퓨팅 장치(mobile computing device).
제14항에 있어서,

상기 음성 탐색 서버는 상기 모음에서 탐색되지 않은 적어도 하나의 단어를 제거하기 위하여 상기 데이터를 필터링하도록 적응된 이동 컴퓨팅 장치.
제15항에 있어서,

상기 음성 탐색 서버는 명령을 표시하는 적어도 하나의 단어를 제거하도록 적응된 이동 컴퓨팅 장치.
제14항에 있어서,

상기 음성 탐색 서버는 상기 데이터 내의 적어도 하나의 단어에 대한 대안들을 추가하도록 적응된 이동 컴퓨팅 장치.
제14항에 있어서,

상기 음성 탐색 서버는, 상기 입력 음성에 대한 음성 격자를 형성하도록 적응된 격자 생성기를 포함하며, 상기 모음에 대한 음성 격자들과 상기 입력 음성에 대한 상기 음성 격자를 비교함으로써 상기 데이터를 사용하여 상기 모음을 탐색하 도록 적응된 이동 컴퓨팅 장치.