KR100861861B1

KR100861861B1 - 음성 입력 방법 편집기용 아키텍처, 음성 입력 방법편집기, 음성 입력 편집 방법 및 머신 판독 가능 저장 장치

Info

Publication number: KR100861861B1
Application number: KR1020057021129A
Authority: KR
Inventors: 패트릭 콤마포드; 아르마스 마리오 드; 번 루이스; 제임스 루이스
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2003-06-02
Filing date: 2004-05-18
Publication date: 2008-10-06
Also published as: WO2004107315A2; KR20060004689A; WO2004107315A3; JP2007528037A; CA2524185A1; CN1717717A; EP1634274A2; US20040243415A1

Abstract

음성 입력 방법 편집기는 적어도 하나의 마이크 상태/토글 버튼(104)을 구비한 음성 툴바(102)를 포함할 수 있다. 음성 입력 방법 편집기는 구술 텍스트가 타겟 애플리케이션에 전송될 때까지 임시 구술 타겟으로 사용되는 선택가능한 구술 윈도우 영역(112) 및 구술된 말을 수정하는 대안 리스트(120), 알파벳(114), 스페이스바(116), 철자 모드 표시부(118:spell mode reminder) 및 가상 키보드(122)를 포함하는 선택가능한 특징부들 중 적어도 하나를 포함하는 선택 가능 수정 윈도우 영역도 포함할 수 있다. 음성 입력 방법 편집기는 선택 가능 수정 윈도우를 사용하는 동안 그리고 타겟 애플리케이션에 구술 텍스트를 전송하는 동안 동작 상태로 유지될 수 있다. 음성 입력 편집기는 음성 입력 방법 편집기를 사용하면서, 선택 가능한 구술 윈도우 중 적어도 하나 또는 타겟 애플리케이션으로의 비 음성 편집을 가능하게 하는 데 사용되는 대안 입력 방법 편집기 윈도우(112b)를 더 포함할 수 있다.

Description

음성 입력 방법 편집기용 아키텍처, 음성 입력 방법 편집기, 음성 입력 편집 방법 및 머신 판독 가능 저장 장치{ARCHITECTURE FOR A SPEECH INPUT METHOD EDITOR FOR HANDHELD PORTABLE DEVICES}

본 발명은 음성 인식 분야에 관한 것이고, 더 상세하게는 음성 인식 입력 방법 및 다른 입력 방법과의 인터렉션 및 휴대형 핸드헬드 장치에서의 편집 기능에 관한 것이다.

최근 수년간 핸드헬드 장치가 급증함에 따라서, 이러한 작은 휴대형 장치를 보지 않고 인터렉트하는 새로운 방식이 많이 등장했다. 음성 인식 기술은 이러한 종류의 장치에 이상적이다. 작은 폼 팩터 및 데이터 중심 사용으로 인해서 어떤 기업도 데이터 입력, 데이터 액세스 및 사용자의 휴대가능한 애플리케이션의 완전한 제어를 용이하게 할 수 있는 기회를 갖게 되었다.

많은 다양한 데이터 입력 방법이 오늘날 판매되는 대부분의 PDA 핸드헬드에 포함되어 있다. 그러나, 이는 모두 스타일러스를 사용해서 가상 미니 키보드를 두드리거나, 필기체로 직접 쓰거나, 블록 인식자(그래피티와 같은)를 이용하는 것에 의존하고 있다. PDA에서 사용할 수 있는 대부분의 핸드-인식 기술은 정확하지 않고, 특정 사용자의 필체에 적응하지 못할 수 있다. 미니 키보드 방식이 더 양호한 정확성을 제공하고는 있지만, 긴 내장된 노트 및 쏘우트(thought)를 읽어들이는데 사용하기에는 불편하다.

이러한 핸드헬드 장치에 이상적으로 적합한 음성 인식 기술에 현재 나와있지만, 현재의 시스템은 주로 텍스트를 애플리케이션으로 전달하도록 설계되어서, 입력 관리기 및 입력 방법 편집기용 인터페이스를 통해서 목표 필드 또는 애플리케이션으로부터 상태 정보를 전달하는 것은 불가능하다. 또한, 음성 입력 방법 편집기 및 대안 입력 방법 편집기는 이러한 편집자 내의 텍스트의 융통성을 관리하도록은 설계되지 않았다. 따라서, 위에 설명한 문제를 극복한, PDA와 같은 핸드헬드 휴대형 장치에 사용되는 음성 입력 방법의 아키텍처 및 방법이 요구된다.

본 발명에 따른 실시예는 음성 인식 기술을 사용해서 사용자가 대안 입력 방법 편집기(IME)를 사용해서 데이터를 입력할 수 있는 어디서든 텍스트를 입력할 수 있게 한다. 이 실시예는 바람직하게는 다른 입력 방법으로서의 대안 (이미 시판중인)IME가 음성 IME에 대한 작용(leverage)을 가능하게 한, IME의 하이 레벨 설계, 사용자 모델 및 인터렉티브 로직에 초점을 맞추고 있다.

본 발명의 제 1 실시예에서, 핸드헬드 휴대형 장치의 음성 입력 방법 편집기의 아키텍처는 구술 영역 윈도우(a dictation area window)를 포함한 그래픽 유저 인터페이스, 구술 영역 윈도우의 구술 텍스트를 추가하고 편집하는 음성 입력 방법 편집기, 구술 텍스트를 선택적으로 수신하는 사용자용 타겟 애플리케이션 및 음성 입력 방법 편집기가 동작 상태인 채로 구술 텍스트를 편집할 수 있는 적어도 하나의 대안 입력 방법 편집기를 포함할 수 있다. 음성 입력 방법 편집기는 음성 입력 방법 편집기가 동작 상태인 채로 편집된 구술 텍스트를 음성 입력 방법 편집기 또는 대안 입력 방법 편집기 중 적어도 하나로부터 타겟 애플리케이션으로 전송할 수 있다. 음성 입력 방법 편집기를 사용한 텍스트 입력과 대안 입력 방법 편집기를 사용한 텍스트 입력이 동시에 수행될 수 있다.

본 발명의 제 2 실시예에 있어서, 음성 입력 방법 편집기는 마이크 상태/토글 버튼, 확장된 특징부 액세스 버튼 및 볼륨 레벨 정보 표시기 중 적어도 하나를 가진 음성 툴바를 포함할 수 있다. 음성 입력 방법 편집기는 구술 텍스트가 타겟 애플리케이션에 전송될 때까지 임시 구술 타겟으로 사용되는 선택가능한 구술 윈도우 영역 및 구술된 말을 수정하는 대안 리스트, 알파벳, 스페이스바, 철자 모드 표시부(spell mode reminder) 및 가상 키보드를 포함하는 선택가능한 특징부들 중 적어도 하나를 포함하는 선택 가능 수정 윈도우 영역도 포함할 수 있다. 음성 입력 방법 편집기는 선택 가능 수정 윈도우를 사용하는 동안 그리고 타겟 애플리케이션에 구술 텍스트를 전송하는 동안 동작 상태로 유지될 수 있다. 음성 입력 편집기는 음성 입력 방법 편집기를 사용하면서, 선택 가능한 구술 윈도우 중 적어도 하나 또는 타겟 애플리케이션으로의 비 음성 편집을 가능하게 하는 데 사용되는 대안 입력 방법 편집기 윈도우를 더 포함할 수 있다.

본 발명의 제 3 실시예에서, 핸드헬드 휴대용 장치용 음성 입력 편집 방법은 인식된 텍스트를 수신하는 단계와, 구술 윈도우를 볼 수 있다면 인식된 텍스트를 구술 윈도우에 입력하는 단계와, 구술 윈도우가 감추어져 있다면 타겟 애플리케이션으로 인식된 텍스트를 입력하는 단계를 포함한다. 제 3 실시예는 음성 입력 방법 편집기의 동작을 정지시키지 않으면서, 음성 입력 방법 편집기 및 적어도 하나의 대안 입력 방법 편집기를 사용해서 구술 윈도우의 인식된 텍스트를 편집하는 단계를 더 포함할 수 있다.

본 발명의 또 다른 측면에서, 머신 판독가능 저장 장치는 머신으로 하여금 인식된 텍스트를 수신하는 단계와, 구술 윈도우를 볼 수 있다면 인식된 텍스트를 구술 윈도우에 입력하는 단계와, 구술 윈도우가 감추어져 있다면 타겟 애플리케이션으로 인식된 텍스트를 입력하는 단계를 수행하게 하는, 머신에 의해 수행가능한 복수의 코드 섹션을 구비한 컴퓨터 프로그램을 포함할 수 있다. 이 컴퓨터 프로그램은 대안 입력 방법 편집기에 의한 편집이 음성 입력 방법 편집기의 동작을 정지시키지 않도록 음성 입력 방법 편집기 및 적어도 하나의 대안 입력 방법 편집기를 사용해서 구술 윈도우의 인식된 텍스트를 편집할 수 있게 한다.

도면에는 바람직한 실시예가 도시되어 있지만, 본 발명이 도시된 정확한 장치 및 수단에 한정되는 것은 아니다.

도 1은 여기 개시된 새로운 장치에 따른 핸드헬드 장치에서 다른 구성 요소 에 대한 음성 입력 방법의 관계를 나타내는 계층도,

도 2는 입력 방법 관리기 객체 사이의 흐름 및 본 발명에 따른 입력 관리기를 구비한 객체를 도시하는 객체도,

도 3은 본 발명에 따른 입력 방법의 동작 방법을 도시하는 흐름도,

도 4는 음성 입력 방법 편집기를 구비하고 있는 본 발명에 따른 PDA로, 구술 윈도우가 가려진 상태의 화면을 도시하는 도면,

도 5는 도 4의 PDA에서 구술 윈도우가 나타난 화면을 도시하는 도면,

도 6은 도 4의 PDA에서 편집 필드 및 보정 윈도우 영역을 가진 구술 윈도우가 보이는 화면을 도시하는 도면,

도 7은 도 4의 PDA에서 편집 필드가 선택되지 않은 구술 윈도우가 보이며, 보정 윈도우 영역을 가진 화면을 도시하는 도면,

도 8은 도 4의 PDA에서 구술 윈도우가 가려져 있고, 가상 키보드를 가진 보정 윈도우가 나타난 화면을 도시하는 도면,

도 9는 도 4의 PDA에서 편집 필드를 가진 구술 윈도우가 나타나 있고, 보정 윈도우 영역 및 추가 또는 다른 IME가 나타난 화면을 도시하는 도면,

도 10은 도 4의 PDA에서, 편집 필드는 갖고 있지 않고 철자 어휘를 표시하는 철자 모드의 보정 윈도우 영역을 나타내는 구술 윈도우가 나타난 화면을 도시하는 도면,

도 11은 도 4의 PDA에서, 구술 윈도우가 나타나 있으며, 대안 리스트 및 가상 키보드를 가진 보정 윈도우 영역을 가진 보정 윈도우 영역을 나타낸 화면을 도 시하는 도면.

본 발명에 따른 실시예는 PDA와 같은 휴대형 핸드헬드 장치에 사용되는 임의의 수의 운영 체제용 다른 음성 입력 방법(IM)을 구현할 수 있다. 특정 실시예에서, 휴대형 장치의 운영체제는 Microsoft의 PocketPC(WinCE 3.0 및 그 위의 버전)가 될 수 있다. 여기 설명된 실시예는 음성 인식을 PDA와 같은 핸드헬드 장치에 통합시키는 구현 솔루션을 제공한다. 음성 인식을 핸드헬드 장치에 통합시키는 솔루션은 많은 다양한 레벨로 해석될 수 있다. 우선, 음성 인식(구술)을 사용해서 데이터 입력을 수행하기 위해서 사용자에 의해 선택될 수 있는 IME 모듈로서 실시될 수 있다. 사용자가 음성 IME를 선택하는 방식은 많은 플랫폼마다 다를 수 있지만, 일반적으로 시판 중인 장치의 일련의 IME로부터 하나의 아이템(예컨대, "음성 구술")을 선택하는 것을 설명한다. 도 1을 참조하면, 본 발명에 따른 시스템 또는 아키텍처 상의 구성 요소들 사이의 예시적인 부모-자식 관계를 나타내는 계층도(10)가 도시되어 있다. 그래픽 유저 인터페이스 또는 데스크탑(12)이 부모의 역할을 하거나 혹은 타겟 애플리케이션(14)(워드 프로그램 또는 음성 인식 프로그램) 및 음성 입력 방법 편집기 컨테이너(16) 형태의 자식을 가질 수 있다. 음성 입력 방법 편집기 컨테이너(16)가 부모의 역할을 하거나 혹은 편집 제어부(24), 툴바 제어부(26) 및 다른 자식 윈도우의 형태로 자식을 가질 수 있다. 더 중요한 점은, 음성 입력 방법 편집기 컨테이너(16)가 부모의 역할을 하거나 혹은 복수의 입력 방 법 편집기(22)용 전체 IME 컨테이너(20)를 포함할 수 있는 음성 입력 편집기(18)의 형태로 자식을 가질 수 있다.

IME 모듈은 관리를 받으며, 실제로 IME와 IM 관리기 사이의 통신에 인터페이스를 노출시키는 입력 방법(IM) 에이전트 또는 관리기와 실제로 인터렉트한다. 도 2를 참조하면, 입력 관리기(34)와 입력 방법 편집기 사이의 참조 및 통합(aggregation) 관계를 나타내는 COM 객체 도면(30)이 도시되어 있다. 특히, 입력 관리기(32)는 IM 관리기 객체(32)와 인터렉트할 수 있다. 음성 IME의 경우에, IM 관리기 객체는 일반적으로 음성 IME 객체(36)와 인터페이스해서 다른 IME 객체(38)와 인터페이스할 수 있다. IM 관리기(34)는 일부 OS 메커니즘(포스팅 문자 메시지와 같은)을 사용해서 타겟 애플리케이션 및 데이터 필드와 직접 인터페이스할 수 있다. (본 발명 이전의) IME 및 IM 인터페이스가 주로 텍스트를 애플리케이션으로 넣도록 설계되었지만, 타겟 필드 또는 애플리케이션으로부터의 상태 정보(선택 범위, 선택 텍스트, 캐럿(caret) 위치, 마우스 이벤트, 클립보드 이벤트 등)를 전송할 수는 없었다는 점을 기억해야 한다. 본 발명에 따른 실시예는 효율적인 음성 인식 구술 솔루션 구현시에 인터페이스와 애플리케이션 사이에서 상태 정보를 이상적으로 전송할 수 있어서, 구술 클라이언트가 사용자로 하여금 구술 텍스트를 편집/갱신(수정)하여 후속하는 구술 이벤트를 위해 사용자의 개인 음성 모델을 개선하고, 적응시킬 수 있게 한다. 새로운 단어를 추가하고 수정하는 이러한 성능은 90% 이상의 인식 정확성을 달성하기 위한 음성 인식 기술의 성능에 도움을 준다. 이러한 성능이 없다면, 사용자는 PocketPC PDA의 블록 인식기와 전사기 IME에서 시간이 지날수록 같은 오류를 반복해서 수정해야 한다.

음성 IME를 사용해서 구술 텍스트를 수정할 수 있는 것이 여기 아키텍처 설계에서의 주요한 설계 요구 조건으로 고려되었다. 또한, 수정 처리 속도를 높이기 위해서, IME는 처음에 단어가 정확하지 않았다면 음성 인식이 "최고의 대안"으로서 리턴할 수 있는 짧은 대안들의 리스트(4개의 아이템 혹은 바람직하게는 그 이하의)로부터 사용자가 선택할 수 있게 하도록 설계될 수 있다. 이와 같이 고려함으로써 더 많은 기회를 제공했으며, 그 이유는 IME가 사용자로 하여금 그 안의 텍스트를 관리할 수 있게 설계되지 않고, 단지 타겟 데이터 필드에 텍스트를 전송하도록만 설계되었기 때문이다. 마지막으로, 최근 대부분의 목표로 하는 설계 이슈는 다양한 IME를 사용해서 IME에 의해 생성된 텍스트를 수정하는 성능에 관한 것이었다. 그 가장 좋은 예가 사용자가 단어를 말하고, 이것이 잘못 인식되어 수정이 필요한 경우이다. 이 경우, 사용자가 대안 리스트에서 정확한 단어를 찾지 못하면, 그는 정확한 단어를 입력하거나 편집해서, 개인 음성 모델이 다음번에 정확하게 조정되도록 어떻게든 해서 수정 동작에 이를 적용해야 한다. 단가지 과제가 있는데, 단어의 수정을 가능하게 하기 위해서는 사용자는 음성 인식을 사용하지 않고 이를 입력할 수 있어야 한다(음성을 사용한 스펠링을 사용할 수 있는 경우에도). 이는 사용자가 수정을 위해서 다른(다양한) IME 모듈로 수동으로 전환하게 하는 것을 의미하며, 이로써 음성 IME를 동작 중지시켜서 수정이 필요한 텍스트를 가진 가상 영역을 제거할 것이다. 이는 절대로 수용가능한 사용자 시나리오가 아니며, 본 발명은 다른 IME 모듈이 사용되는 동안 음성 IME를 동작 상태로 유지시킴으로써 이러한 단점을 극복한다.

따라서, 음성 IME의 설계는 사용이 자연스럽고 효율적으로 되도록 이러한 도전 과제를 달성해야 한다. 도 1 및 도 2를 참조로 설명되고 논의된 바와 같이, 음성 IME 모델은 로직 인터페이스 설계와 사용자 인터페이스 설계 모두의 경우에 이러한 문제를 해결한다. 이에 더해서, 도 3을 참조하면, 본 발명에 따른 입력 방법 편집기의 동작 방법(또는 사용 모델:50)을 나타내는 흐름도가 도시되어 있다. 방법(50)은 단계(52)에서 핸드헬드 휴대형 장치로 음성 IME 모듈을 로딩하는 것으로 시작한다. 사용자가 음성 IME를 예시적인 PDA 환경에서 현재의 IME로서 선택하면, 단계(54)에서 음성 IM 모듈이 가동된다. 이를 수행하는 데는 다양한 방법이 있지만, 가장 통상적인 방법은 메뉴 리스트에서 선택하는 것이다. IME가 그 사용에서 서로 배타적이기 때문에, 어떤 이전 IME 클라이언트 영역은 화면에서 제거되고, 음성 IME는 그 컨텐츠를 꺼낼 기회를 획득한다.

IME는 단계(56)에 도시된 바와 같이 음성 및 사용자 이벤트를 허용할 수 있다. 물론, 하나의 사용자 이벤트가 사용자가 음성 IME를 선택해제하는 것이 될 수 있고, 이 경우 음성 IME 모듈은 단계(58)에서 동작 정지된다. 사용자가 음성 IME 활동 영역을 원하는 위치에 구성한 이후에 그는 스타일러스 또는 임의의 다른 선택 방법을 사용해서 유효 타겟 애플리케이션/필드(형식없는 문자-숫자 정보를 획득하는 임의의 애플리케이션/필드)를 선택할 수 있다는 점에 주의한다. 이후에, 사용자는 PDA 장치에 말을 하거나 다른 유저 이벤트를 수행할 수 있다. 유저 이벤트가 단계(56)에서 발생하면, 판정 단계(68)에서 버튼이 눌렸는지 판정하거나 판정 블록 (72)에서 메뉴가 선택되었는지 판정하거나 혹은 판정 단계(76)에서 다른 IME 액션이 호출되었는지 판정한다. 이들 유저 이벤트 각각이(혹은 다른 설계될 수 있는 다른 유저 이벤트가) 발생하지 않으면, 이 방법은 단계(80)에서 음성 커맨드의 처리를 계속한다. 판정 블록(68)에서 버튼이 눌려졌으면, 단계(56)로 돌아가기 전에 단계(70)에서 버튼 액션이 처리된다. 판정 블록(72)에서 메뉴가 선택되었으면, 단계(56)로 돌아가기 전에, 단계(74)에서 메뉴 액션이 처리된다. 판정 블록(76)에서 대리 IME 액션이 호출되었다면, 단계(56)로 돌아가기 전에 대리 IME 액션이 단계(78)에서 처리된다.

단계(56)에서 음성 이벤트가 발생하면, 판정 블록(60)에서 음성 이벤트가 구술 텍스트를 포함하는지 판정한다. 판정 블록(60)에서 음성 이벤트가 구술 이벤트가 아니라고 판정하면, 단계(80)에서 음성 커맨드를 처리한다. 판정 블록(60)에서 음성 이벤트가 구술 텍스트를 포함하고 있으면, 단계(62)에서 (음성 IME의) 구술 텍스트가 구술 영역에 추가된다. 판정 블록(64)에서 구술 영역이 보이면, 단계(56)로 돌아간다. 판정 블록(64)에서 구술이 가려져 있으면, 구술 텍스트는 단계(56)로 돌아가기 전에 단계(66)에서 타겟 애플리케이션으로 직접 전송된다. 요약하면, 단계(60) 내지 단계(66)는 음성 IME가 인식된 텍스트를 수신하는 단계와 다음 액션들 중 하나를 수행하는 것을 포함한다. (a) 만약 구술 윈도우/영역이 보이면, 인식된 텍스트를 텍스트 필드에 위치시키는 액션(수정 윈도우가 보이면, 텍스트를 수정하는 기능을 가짐), (b) 구술 윈도우/영역이 보이지 않으면 인식된 텍스트를 타겟 애플리케이션/필드에 직접 위치시키는 액션(텍스트를 수정할 성능을 갖 지 않음).

도 4 내지 도 11에서, 디스플레이를 가진 PDA(100)는 음성 IME의 기본 컨텐츠를 나타낼 수 있으며, 이는 다음을 포함할 수 있다.

1. 마이크 상태/토클 버튼(104), 확장된 특징부 액세스 버튼(106) 및 볼륨 레벨 정보를 포함할 수 있는 음성 툴바(104:보이스 센터). 마이크 상태 및 볼륨 레벨 정보가 필요한 경우에 하나의 버튼/아이콘이 사용되어서 이를 통합할 수 있다.

2. 사용자가 텍스트를 실제 타겟 애플리케이션/필드로 전송할 때까지 직접 구술 임시 구술 타겟으로 사용되는 편집 필드(110)를 포함할 수 있는 구술 윈도우(영역:108). 이 윈도우/영역은 기본적으로 선택사항으로, 음성 툴바의 버튼(104)에 의해 보이거나 숨겨질 수 있도록 토글된다. 도 4에 도시된 바와 같이 구술 윈도우가 숨겨져 있으면, 모든 구술된 텍스트는 사용자의 개인 언어 모델(LM) 캐시의 개선을 위해서 수정하거나 편집하는 성능없이 타겟 애플리케이션/필드로 직접 전송된다.

3. 수정 윈도우/영역(112)은 도 6, 9, 11에 도시된 바와 같이 구술 단어를 수정할 대안 리스트(120)를 포함할 수 있다. 수정 윈도우/영역(112)은 알파벳(114), 스페이스바(116) 및 철자 모드 표시부(118)도 포함할 수 있다. 사용자는 이들 영역 각각을 두드릴 수 있고, 이를 보이스 커맨드를 통해서 문자, 스페이스바 및 철자 모드가 가능한 표시부로 사용할 수 있다. 사용자는 구술 윈도우로부터 수정할 단어를 선택해서 a) 스타일러스로 대안을 두드리거나 b) "n을 선택(여기서 n 은 대안의 번호)"이라고 말해서 단어를 대안 리스트(120)로부터의 대안으로 대치할 수 있다. 사용자가 철자 모드를 입력하면(두드리거나 "철자 시작"이라고 말해서), 알파벳이 철자 어휘(124:군용 알파벳을 약간 수정하거나 추가한 것과 같은)에 대한 빠른 참조로 대치된다. 사용자는 매우 높은 인식 정확도의 철자 어휘(124)를 사용해서 수정될/구술될 단어의 스펠링을 말할 수 있다. 수정 윈도우/영역(112)은 선택적인 것으로 음성 툴바의 사용자 버튼에 의해 보이거나/가려질 수 있다. 수정 윈도우/영역(112)은 선택적으로는 수정 윈도우에 내장된 미니키보드(122)를 포함할 수 있다. 이 키보드는 사용자가 철자 모드에 있지 않아서 위에 설명된 윈도우를 대치하지 않을 때 나타날 수 있으며, 알파벳 및 스페이스 바만을 포함할 수 있다.

4. 대안/대리 IME 윈도우/영역(도 9에 도시된 112a 또는 112b)은 음성 IME를 사용하면서도 구술 윈도우 또는 타겟 애플리케이션에 대한 비음성 수정 편집을 가능하게 하는데 사용될 대안의 IME(112b)를 포함할 수 있다. 이러한 특성으로 인해서 운영 체제의 다른 현재 인스톨된 IME를 사용하는 성능을 손상시키는 일 없이 모든 음성 특성의 완전한 사용이 가능하다. 이러한 설계를 통해서 타겟 애플리케이션에 정보를 입력하는데 필요한 사용자의 수고를 줄일 수 있다. COM 통합 기술을 사용해서 본 발명은 음성 IME 내의 전체 기능 외부 IME를 포함할 수 있다. 이러한 호스팅 기술은 다수의 다양한 시판 IME 또는 사용자가 선호하는 미래의 IME로 사용될 수 있다. 이러한 대안의 IME 윈도우/영역은 음성 툴바(102)의 다른 사용자 버튼에 의해 보이거나 숨겨질 수 있다. 사용자는 선택 패널로부터 원하는 대안의 IME를 취할 수 있으며, 음성 IME는 사용자가 그 기능을 토글할 때마다 그 선택을 사용할 것이다.

사용자가 구술하면, 음성 IME는 사용자가 철자 또는 숫자 모드를 입력하고, (가능하다면) 수정할 수 있게 하며, 구술 윈도우/영역(108)에 구술하는 경우에, 구술된 텍스트를 현재 선택된 애플리케이션/필드에 전달한다. 텍스트 전송은 사용자의 요청에 의해 음성 IME에 의해 수행된다. 이는 보이스 커맨드에 의해서 또는 음성 툴바(102)의 사용자 버튼을 누름으로써 수행될 수 있다. 언제든지 액세스될 수 있는 2가지 전송 타입이 있다. 이들 전송 타입은

(a) 전송(심플)-구술된 텍스트는 어떤 특별한 고려 사항없이 현재 애플리케이션/필드에 전송되고, 현재 캐럿 위치(삽입 포인트)에서 삽입된다. 구술 윈도우/영역 필드가 이러한 동작의 영향을 받지 않으므로, 전송이 완료된 이후에도 모든 원문이 유지된다. 이러한 특징의 아이콘은 화살표로 표시된 이중 페이지가 될 수 있다. 이 아이콘은 ViaVoice의 데스크 탑 버전으로부터 표준 카피 기능(예컨대 이중 페이지로 표시됨) 및 전송 기능(예컨대 청색 화살표로 표시됨)을 사용자가 안다는 이점이 있다.

(b) 전송 및 클리어 - 구술된 텍스트는 타입 (a)에서와 같이 전송되지만, 구술 윈도우/영역 편집 필드는 클리어되고 새로운 구술을 위해 리셋된다. 이러한 타입은 구술 영역의 모든 컨텐츠를 제거하고, 엔진 컨텐츠를 리셋한다. 이러한 특성의 아이콘은 예컨대 화살표(140)를 가진 한쌍의 가위가 될 수 있다. 이러한 아이콘은 ViaVoice의 데스크 탑 버전으로부터 사용자가 컷/클리어 기능(가위로 도시된) 및 전송 기능을 안다는 이점이 있다. 사용자가 타겟 영역으로부터 컨텐츠 모두 혹 은 일부를 클리어하려하면, 전송 옵션을 선택하기 전에 클리어될 영역을 선택할 수 있다. 다른 가능한 전송 타입도 가능하다.

(c) 전송(및 클리어) 및 다음 필드 - 이는 음성 IME가 선택 커서를 다음 문서/필드로 이동시키려하는 것을 제외하면 앞의 전송 모드와 같다. 이는 더 빠른 형태의 입력 시나리오를 가능하게 해서, 사용자가 다음 타겟 필드를 수동으로 선택하게 하는 추가적인 단계를 제거한다.

본 발명은 하드웨어, 소프트웨어 또는 이들의 조합으로 구현될 수 있다. 본 발명은 하나의 컴퓨터 시스템에서 집중 방식으로 구현될 수도 있고, 혹은 다양한 구성 요소가 서로 연결된 다수의 컴퓨터 시스템을 통해 분산되는 분산 방식으로도 구현될 수 있다. 여기 설명된 방법을 수행하기에 적합한 어떤 컴퓨터 시스템 또는 다른 장치도 가능하다. 전형적인 하드웨어와 소프트웨어의 조합은 컴퓨터 프로그램을 구비한 다목적 컴퓨터 시스템이 될 수 있으며, 이 컴퓨터 프로그램은 로딩되어서 수행될 때, 여기 설명된 방법을 수행하도록 컴퓨터 시스템을 제어한다.

본 발명은 컴퓨터 시스템에 로딩될 때, 여기 설명된 방법의 구현을 가능하게 하는 모든 특징을 포함한 컴퓨터 프로그램 제품으로 구현될 수도 있다. 본 설명에서 컴퓨터 프로그램 또는 애플리케이션은 정보 처리 기능을 가진 시스템이 직접 혹은 (a) 다른 언어, 코드 또는 주석으로의 변환 (b) 다른 자료 형태로 생성과 같은 기능 중 하나 혹은 모두를 수행한 이후에 특정 기능 편집을 수행할 수 있도록 해주는 임의의 언더, 코드 또는 주석으로 된 인스트럭션의 세트의 표현이다.

본 발명은 그 사상 및 기본 속성으로부터 벗어남없이 다른 형태로 실시될 수 있다. 따라서, 위의 상세한 설명이 아닌 본 발명의 범주를 나타내는 다음 청구의 범위를 참조한다.

Claims

삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
핸드헬드 포터블 장치의 음성 입력 편집 방법에 있어서,

인식된 텍스트를 수신하는 단계와,

구술 윈도우가 보이는 상태라면, 상기 구술 윈도우로 상기 인식된 텍스트를 입력하는 단계와,

구술 윈도우가 숨겨진 상태라면, 상기 인식된 텍스트를 타겟 애플리케이션으로 직접 입력하는 단계

를 포함하는 핸드헬드 포터블 장치의 음성 입력 편집 방법.
제 16 항에 있어서,

상기 인식된 텍스트를 음성 입력 방법 편집기 및 적어도 하나의 대안의 입력 방법 편집기를 사용해서 상기 구술 윈도우에서 편집하는 단계를 더 포함하되,

상기 대안의 입력 방법 편집기에 의한 편집은 상기 음성 입력 방법 편집기에 의한 편집과 동시에 수행되는

핸드헬드 포터블 장치의 음성 입력 편집 방법.
제 17 항에 있어서,

상기 적어도 하나의 대안의 입력 방법 편집기는 관련된 윈도우를 작동시키는 단계를 더 포함하는

핸드헬드 포터블 장치의 음성 입력 편집 방법.
제 17 항에 있어서,

상기 음성 입력 방법 편집기를 사용해서 상기 타겟 애플리케이션에 편집된 인식된 텍스트를 전송하는 단계를 더 포함하는

핸드헬드 포터블 장치의 음성 입력 편집 방법.
제 19 항에 있어서,

상기 전송 단계는

1) 타겟 애플리케이션 내의 삽입 지점에 상기 편집된 인식된 텍스트를 삽입하는 단계,

2) 상기 타겟 애플리케이션의 상기 삽입 지점에 상기 편집된 인식된 텍스트를 삽입하고, 상기 구술 윈도우를 클리어하는 단계,

3) 상기 타겟 애플리케이션에서 클리어될 영역을 선택하고, 상기 편집된 인 식된 텍스트를 상기 타겟 애플리케이션의 상기 삽입 지점에 삽입하는 단계,

4) 상기 타겟 애플리케이션의 상기 삽입 지점에 상기 편집된 인식된 텍스트를 삽입하고, 상기 구술 윈도우를 클리어하고, 선택 커서를 타겟 애플리케이션 내의 입력 시퀀스 중 다음 문서 또는 필드로 이동시키는 단계

로부터 선택되는

핸드헬드 포터블 장치의 음성 입력 편집 방법.
머신에 의해 수행가능한 복수의 코드 섹션을 구비한 컴퓨터 프로그램이 저장된 머신 판독 가능 저장 장치에 있어서, 상기 복수의 코드 섹션은 머신으로 하여금

인식된 텍스트를 수신하는 단계와,

구술 윈도우가 보이는 상태라면, 상기 구술 윈도우로 상기 인식된 텍스트를 입력해서, 상기 음성 입력 방법 편집기 또는 적어도 하나의 대안의 입력 방법 편집기를 사용한 상기 구술 윈도우의 상기 인식된 텍스트의 편집을 가능하게 하는 단계 - 상기 대안의 입력 방법 편집기에 의한 편집은 상기 음성 입력 방법 편집기의 동작을 중지시키지 않음 - 와,

구술 윈도우가 숨겨진 상태라면, 상기 인식된 텍스트를 타겟 애플리케이션으로 직접 입력하는 단계

를 수행하게 하는

머신 판독 가능 저장 장치.