KR20030086612A

KR20030086612A - 정보 처리 장치와 그 방법, 및 프로그램

Info

Publication number: KR20030086612A
Application number: KR10-2003-7012357A
Authority: KR
Inventors: 게이이찌 사까이; 데쯔오 고사까
Original assignee: 캐논 가부시끼가이샤
Priority date: 2001-03-22
Filing date: 2002-03-19
Publication date: 2003-11-10
Also published as: JP4006338B2; AU2002238961A1; DE60216096T2; KR100549482B1; CN1537267A; US7165034B2; EP1405169A2; US20040044523A1; DE60216096D1; ATE345526T1; WO2002077790A2; CN1291307C; EP1405169B1; WO2002077790A3; JP2005500591A

Abstract

입력폼(input form)과 관련된 입력폼 정보는 폼명 보유부(form name holding unit)에 저장된다. 입력 음성은 음성 인식부에 의해 인식되고, 음성 인식 결과에 대응하는 입력폼 정보가 선택된다. 선택된 입력폼 정보에 대응하는 입력폼의 표시 패턴은 GUI 표시부에 의해 제어된다.

Description

정보 처리 장치와 그 방법, 및 프로그램{INFORMATION PROCESSING APPARATUS AND METHOD, AND PROGRAM}

텍스트 등의 데이터가 GUI(그래픽 사용자 인터페이스) 상의 입력 필드(입력폼)에 입력될 때, 입력을 수신하는 입력폼이 복수의 입력폼 중에서 하나를 선택함으로써 결정되고, 그 후에 키보드를 이용하여 데이터가 입력되거나, 선택될 복수의 후보 중에서 하나가 마우스 등의 포인팅 디바이스를 사용하여 선택되어 입력이 수행된다. 또한, 이와 같은 입력폼에 데이터를 입력함에 있어서, 음성 인식 기술을 이용하여 음성으로 데이터를 입력하는 기술이 제안되어 왔다.

그러나, 상술한 종래 기술에 따르면, 입력폼에 음성으로 데이터를 입력하는 경우에, 데이터를 수신하는 입력폼은 키보드나 마우스를 사용하여 선택되어야만 한다. 따라서, 음성 입력과 손 입력 조작이 병용되어야만 하고, 조작성 (operability)이 항상 양호하지는 않다.

본 발명은 표시 화면 상에 표시되는 입력폼(input form)에 관한 입력 음성에 기초하여 이루어진 조작에 따라 처리를 실행하는 정보 처리 장치와 그 방법, 및 프로그램에 관한 것이다.

도 1은 본 발명의 각 실시예에 따른 정보 처리 장치의 하드웨어 구성의 일례를 도시하는 블록도이다.

도 2는 본 발명의 제1 실시예에서의 정보 처리 장치의 기능 블록도이다.

도 3은 본 발명의 제1 실시예에서의 입력폼 정보 테이블의 일례를 도시하는도면이다.

도 4는 본 발명의 제1 실시예에서의 인식 문법의 포맷을 도시하는 도면이다.

도 5는 본 발명의 제1 실시예에서의 정보 처리 장치에 의해 실행되는 처리를 도시하는 흐름도이다.

도 6은 본 발명의 제1 실시예에서의 GUI의 일례를 도시하는 도면이다.

도 7은 본 발명의 제1 실시예에서의 GUI의 일례를 도시하는 도면이다.

도 8은 본 발명의 제1 실시예에서의 GUI의 일례를 도시하는 도면이다.

도 9는 본 발명의 제1 실시예에서의 GUI의 일례를 도시하는 도면이다.

도 10은 본 발명의 제2 실시예에 따른 정보 처리 장치의 기능 블록도이다.

도 11은 본 발명의 제2 실시예에서의 입력폼 정보 테이블의 일례를 도시하는 도면이다.

도 12는 본 발명의 제2 실시예에서의 정보 처리 장치에 의해 실행되는 처리를 도시하는 흐름도이다.

도 13은 본 발명의 제2 실시예에서의 GUI의 일례를 도시하는 도면이다.

도 14는 본 발명의 제3 실시예에 따른 정보 처리 장치의 기능 블록도이다.

도 15는 본 발명의 제5 실시예에 따른 정보 처리 장치의 기능 블록도이다.

도 16은 본 발명의 제5 실시예의 정보 처리 장치에 의해 실행되는 처리를 도시하는 흐름도이다.

도 17은 본 발명의 제6 실시예에 따른 입력폼 정보 테이블의 일례를 나타내는 도면이다.

도 18은 본 발명의 제7 실시예에 따라 마크업 언어를 이용하여 음성 인식을 실행하는데 사용되는 태그의 일례를 나타내는 도면이다.

〈도면의 주요 부분에 대한 부호의 설명〉

1 : 표시 장치

2 : 중앙 처리 장치

3 : 기억 장치

4 : A/D 변환 장치

5 : 마이크

6 : 통신 장치

7 : 버스

101 : 콘텐츠 보유부

102 : GUI 표시부

103 : 포커스 보유부

104 : 폼명 생성부

105 : 폼명 보유부

106 : 인식 문법

107 : 음성 입력부

108 : 음성 인식부

109 : 포커스 위치 변경부

111 : 포커스 위치 보유부

l12 : 배치 관계 생성부

113 : 배치 관계 보유부

114 : 상대 위치 판정부

121 : 절대 위치 판정부

l22 : 표시 범위 보유부

151 : 위치 선택 방법 판정부

본 발명은 상술한 문제점을 해결하기 위해 이루어진 것으로, 음성 입력에 의해 표시 화면상에 표시되는 입력폼에 조작을 효율적으로 또한 순조롭게 실행할 수 있는 정보 처리 장치와 그 방법, 및 프로그램을 제공하는 것을 목적으로 한다.

상술한 목적을 달성하기 위해서, 본 발명에 따른 정보 처리 장치는 다음의 구성을 포함한다. 즉, 입력된 음성에 기초하여, 표시 화면상에 표시되는 입력폼에 대한 처리를 실행하는 정보 처리 장치에 있어서, 상기 입력폼에 관한 입력폼 정보를 기억하는 기억 수단과, 상기 입력된 음성을 인식하는 음성 인식 수단과, 상기 음성 인식 수단의 음성 인식 결과에 대응하는 입력폼 정보를 선택하는 선택 수단을 포함하는 정보 처리 장치를 제공한다.

바람직하게는, 이 장치는 상기 선택 수단에 의해 선택된 입력폼 정보에 대응하는 입력폼의 표시 패턴(display pattern)을 제어하는 표시 제어 수단을 더 포함한다.

바람직하게는, 상기 입력폼 정보는 상기 입력폼의 입력폼명(input form name)을 포함한다.

바람직하게는, 상기 입력폼 정보는 상기 입력폼의 위치를 나타내는 배치 정보(layout information)를 포함한다.

바람직하게는, 상기 표시 제어 수단은 상기 선택 수단에 의해 선택된 입력폼 정보에 대응하는 입력폼을, 그 외의 입력폼의 제1 표시 패턴과는 상이한 제2 표시 패턴으로 표시한다.

바람직하게는, 상기 표시 제어 수단은 상기 선택 수단에 의해 선택된 입력폼정보에 대응하는 입력폼을, 상기 표시 화면 상의 중앙에 표시한다.

바람직하게는, 상기 장치는 상기 선택 수단에 의한 선택이 확정될 때, 그 취지(message)를 통지 수단을 더 포함한다.

바람직하게는, 상기 입력폼 정보는 상기 입력폼의 입력폼명 및 상기 입력폼의 위치를 나타내는 배치 정보를 포함하고, 상기 장치는 상기 음성 인식 수단의 음성 인식 결과가 상기 입력폼명 또는 상기 배치 정보 중 어느 것에 대응하는지를 판정하는 판정 수단을 더 포함하고, 상기 선택 수단은 상기 판정 수단의 판정 결과에 기초하여, 상기 음성 인식 수단의 음성 인식 결과에 대응하는 입력폼 정보를 선택한다.

바람직하게는, 상기 입력폼 정보는 상기 입력폼의 위치를 나타내는 배치 정보를 포함하고, 상기 음성 인식 수단은 상기 배치 정보를 특정하기 위한 음성을 인식하기 위해 사용되는 음성 인식 문법 데이터를 이용하여, 상기 입력된 음성을 인식한다.

바람직하게는, 상기 음성 인식 문법 데이터는, 상기 입력폼의 상대적인 위치를 나타내는 상대 위치 표현 및 상기 입력폼의 절대적인 위치를 나타내는 절대 위치 표현 중 적어도 어느 하나를 인식하기 위해 사용되는 데이터를 포함한다.

바람직하게는, 상기 음성 인식 문법 데이터는, 상기 절대 위치 표현이 상기 입력폼을 포함하는 콘텐츠 전체 또는 상기 표시 화면 상의 표시 범위에 대응하는지를 인식하기 위해 사용되는 데이터를 포함한다.

바람직하게는, 상기 입력폼이 하이퍼텍스트 문서로 구현되어 있는 경우, 상기 입력폼 정보는 상기 입력폼을 나타내는 태그를 포함한다.

바람직하게는, 상기 하이퍼텍스트 문서는 상기 음성 인식 수단에 의한 음성 인식을 실행하기 위한 태그를 기술한다.

상기 목적을 달성하기 위해, 본 발명에 따른 정보 처리 방법은 다음의 구성을 구비한다. 즉, 입력된 음성에 기초하여, 표시 화면 상에 표시되는 입력폼에 대한 처리를 실행하기 위한 정보 처리 방법에 있어서, 상기 입력된 음성을 인식하는 음성 인식 단계와, 상기 음성 인식 단계의 음성 인식 결과에 대응하는, 상기 입력폼에 관한 입력폼 정보를 선택하는 선택 단계를 구비한다.

상기 목적을 달성하기 위해, 본 발명에 따른 프로그램은 다음의 구성을 구비한다. 즉, 입력된 음성에 기초하여, 표시 화면 상에 표시되는 입력폼에 대한 조작 처리를 실행하는 정보 처리를 컴퓨터에 기능시키기 위한 프로그램에 있어서, 상기 입력된 음성을 인식하는 음성 인식 단계의 프로그램 코드와, 상기 음성 인식 단계의 음성 인식 결과에 대응하는, 상기 입력폼에 관한 입력폼 정보를 선택하는 선택 단계의 프로그램 코드와, 상기 선택 단계에서 선택된 입력폼 정보에 대응하는 입력폼의 표시 패턴을 제어하는 표시 제어 단계의 프로그램 코드를 포함한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.

도 1은 본 발명의 각 실시예에 따른 정보 처리 장치의 하드웨어 구성의 일례를 나타내는 블록도이다.

정보 처리 장치에서, 참조번호 1은 GUI를 표시하기 위한 표시 장치를 나타낸다. 참조번호 2는 수치 연산·제어 등의 처리를 행하는 CPU 등의 중앙 처리 장치를 나타낸다. 참조번호 3은 후술하는 각 실시예의 처리 수순이나 처리에 필요한 일시적인 데이터 및 프로그램, 또는 음성 인식 문법 데이터(speech recognition grammar data)나 음성 모델 등의 각종 데이터를 저장하는 기억 장치를 나타낸다. 이 기억 장치(3)는 디스크 장치 등의 외부 메모리 장치 또는 RAM·ROM 등의 내부 메모리 장치를 포함한다.

참조번호 5는 사용자가 발성하는 음성을 입력하는 마이크를 나타낸다. 참조번호 4는 마이크(5)를 통해 입력된 음성 데이터를 아날로그 신호에서 디지털 신호로 변환하는 A/D 변환 장치를 나타낸다. 참조번호 6은 네트워크를 통하여, 웹 서버 등의 외부 장치와 데이터의 교환하는 통신 장치를 나타낸다. 참조번호 7은 정보 처리 장치의 각종 구성 요소를 서로 접속시키는 버스를 나타낸다.

<제1 실시예>

도 2는 본 발명의 제1 실시예에 따른 정보 처리 장치의 기능 블록도이다.

참조번호 101은 기술 언어(예를 들면, HTML 문서 등의 마크업 언어 등)를 사용하여 기술되는 하이퍼텍스트 문서에 의해 구현되는 GUI에서 표시되는 콘텐츠를 보유하는 콘텐츠 보유부를 나타낸다. 참조번호 102는 콘텐츠 보유부(101)에 보유된 콘텐츠를 GUI 상에 표시하는 브라우저 등의 GUI 표시부를 나타낸다. 참조번호 103은 GUI 표시부(102)에 표시되는 각종 콘텐츠 상에 포커스가 맞추어진 입력폼을 보유하는 포커스 보유부(focus holding unit)를 나타낸다. 참조번호 104는 GUI 표시부(102)에 표시되는 콘텐츠 상의 입력폼명(표기)을 추출하여, 그 발음을 제공하는 폼명 생성부이다. 이 폼명 생성부(l04)에 의해 생성되는 입력폼명 및 발음은 폼명 보유부(105)에 보유된다. 또한, 그 발음은 이동 인식 문법 데이터(movement recognition grammar data)로서 사용되고, 입력폼명과 발음은 인식 문법(106)에 보유된다.

도 3은, 입력폼과 관련된 정보를 관리하기 위해 입력폼명(표기) 및 그와 서로 대응하는 사전 발음(dictionary pronunciations)을 저장하는 입력폼 정보 테이블의 일례를 도시한다. 도 3에서, 입력폼 정보 테이블을 위해 사용되는 사전 발음은 단지 예시적인 것이며, 발음의 다양한 유형이 입력폼 정보 테이블용으로 사용될수 있다.

도 4는 인식 문법(106)의 포맷을 도시한다.

도 4에 도시한 바와 같이, 인식 문법(106)은, 입력된 음성에 의해 포커스가 맞추어지는 입력폼을 선택하기 위해 사용되는 이동 인식 문법 데이터와, 사용자에게로의 확인에 대한 응답, 도움 요구 등의 각종 조작에 대한 조작 제어 인식 문법 데이터와, 입력폼에 음성으로 입력되는 콘텐츠를 인식하기 위해 사용되는 항목값(field value) 인식 문법 데이터를 포함하는 3개의 음성 인식 문법 데이터를 포함한다. 이 음성 인식 문법 데이터는 하나의 파일에 통합될 수 있고, 또는 각각이 별개의 파일을 형성할 수 있다.

음성 인식 문법 데이터는 단일 단어 음성 인식인 경우에 단어의 표기들 및 발음들을 기술하는 단어 리스트, 문맥-자유 문법(context-free grammar; CFG)에 기반하는 네트워크 문법 등, 일반적으로 음성 인식에 이용되는 것들을 포함할 수 있다는 점에 유의하여야 한다.

도 2의 설명으로 복귀한다.

참조번호 107은 마이크(5)와 그 마이크(5)를 통해 입력되는 음성 데이터를 A/D 변환하는 A/D 변환 장치(4)를 포함하는 음성 입력부를 나타낸다. 참조번호 108은 인식 문법(106)에 보유된 음성 인식 문법 데이터를 판독하고, 음성 입력부(107)로부터 입력된 디지털 신호로부터 음성 인식을 행하는 음성 인식부를 나타낸다. 참조번호 109는 음성 인식부(108)의 음성 인식 결과가 제공된 입력폼명인 경우에, 포커스 보유부(103)를 참조하여, GUI 표시부(102)에 표시되는 포커스위치를 변경하는 포커스 위치 변경부를 나타낸다.

제1 실시예의 정보 처리 장치에 의해 실행되는 처리가 도 5를 이용하여 다음에 기술된다.

도 5는 본 발명의 제1 실시예의 정보 처리 장치에 의해 실행되는 처리를 도시하는 흐름도이다.

도 5의 흐름도에서의 각 단계의 조작은, 예를 들면 프로그램으로서 기억 장치(3)에 저장되고, 중앙 처리 장치(2)가 그 프로그램을 판독하여 실행한다는 점에 유의하여야 한다.

단계 S1에서, GUI 표시부(102)는 표시될 복수의 입력폼을 포함하는 GUI를 표시 장치(1)상에 표시한다. GUI는 마크업 언어로 기술되는 HTML 데이터와 같은 외부 데이터를 로딩하여 표시함으로써 표시될 수 있고, 전용 프로그램만으로 표시될 수도 있다.

GUI의 일례에 대하여 도 6을 이용하여 설명한다.

도 6은 표시 장치(1) 상에 표시되는 복수의 입력폼을 포함하는 GUI의 예이다. 이 GUI는 사용자와 관련된 사용자 정보로서 개인 등록 데이터의 등록(입력/변경) GUI를 상정한 것으로, 도 6에서의 구형 프레임 각각이 각종 입력폼이다. 예를 들면, 입력폼(6)은 문자열 데이터(character string data)로서 ID 번호를 입력하기 위해 사용된다. 또한, 입력폼들(7, 9~13, 및 15~22)은 각종 문자열 데이터를 입력하기 위해 사용된다. 입력폼(8 및 14)은, 미리 준비된 것들(남자, 여자, 회사원 등)로부터 원하는 선택지 데이터(choice data)를 선택하기 위해 사용되는 라디오버튼형의 입력폼이다. 버튼(23)은, 예를 들면, 어플리케이션에, GUI 상에서 각종 입력폼에 입력되는 각종 데이터를 송신하기 위해 사용된다.

이들의 각 입력폼이 표시 장치(1)에 표시될 때에, 폼명 생성부(103)는 그 입력폼명과 발음을 생성하고, 상술한 바와 같이, 이것은 폼명 보유부(104)와 인식 문법(106)에 입력폼 정보 테이블로서 저장된다.

웹 서버와 웹 브라우저를 탑재하는 클라이언트와 같은 서버·클라이언트형의 GUI 표시 시스템의 경우에, 폼명 생성부(103)에 의해서 실행되는 입력폼명을 생성하는 처리는, 웹 서버측에서 각 콘텐츠에 대하여 미리 실행될 수 있고, 또는 클라이언트측의 웹 브라우저상에서 동적으로 실행될 수도 있다.

제1 실시예에서, 데이터를 수신하는 입력폼(이하, 포커스가 맞추어진 입력폼이라고도 함)은 파선(제1 표시 패턴)으로 표시되고, 포커스가 맞추어지지 않은 입력폼은 실선(제2 표시 패턴)으로 표시된다. 도 6은 입력폼(6)에 포커스가 맞추어져 있는 경우를 예시한다.

도 6에 도시된 개인 등록 데이터의 등록 GUI는 개인 등록 데이터가 변경되는 경우를 설명하기 위한 일례이고, 변경전의 개인 등록 데이터가 이미 존재하는 것을 상정하고 있다. 개인 등록 데이터를 변경하는 경우에는, 도 7에 도시한 바와 같이, 사용자가 입력폼(6)에 ID 번호(예를 들면, 1234)를 입력하고, 제출 버튼(23)을 누르면, ID 번호에 대응하는 현재 등록되어 있는 개인 등록 데이터가 표시되고, 예를 들면 입력폼(9)에 포커스가 맞추어진다.

도 5의 설명으로 복귀한다.

단계 S2에서, 음성 인식부(108)는 기억 장치(3)에 저장된 인식 문법(6)으로부터 각종 음성 인식 문법 데이터를 판독한다. 상술한 바와 같이, 음성 인식 문법 데이터는, 입력된 음성에 의해 포커스가 맞추어지는 입력폼을 선택하기 위해 사용되는 이동 인식 문법 데이터와, 조작 제어 인식 문법 데이터와, 현재 포커스가 맞추어져 있는 입력폼에 음성 입력을 인식하기 위해 사용되는 항목값 인식 문법 데이터를 포함한다.

단계 S3에서, 음성 입력부(107)는 음성 입력을 개시한다. 사용자가 발성한 음성은 마이크(5)에 의해 전기 신호로 변환되고, 이 전기 신호는 A/D 변환 장치(4)에 의해 디지털 신호(음성 데이터)로 변환된다.

단계 S4에서, 음성 인식부(108)는, 판독된 각종 음성 인식 문법 데이터를 이용하여, 입력된 음성 데이터의 음성 인식을 실행한다. 이 경우에, 음성 인식은 이동 인식 문법 데이터와 항목값 인식 문법 데이터를 각각 이용하여 행해진다. 이들 2개의 음성 인식 문법 데이터가 사용되기 때문에, 음성 인식 결과는 각각의 음성 인식 문법 데이터로부터 획득된다. 이 결과들은 음성 인식의 확실성에 대한 정도를 나타내는 가능성 레벨(likelihood level) 등과 같이 수치를 사용하여 비교되고, 보다 확실성이 높은 음성 인식 결과가 최종적인 음성 인식 결과로서 선택된다.

단계 S5에서, 음성 인식 결과가 입력폼의 선택인지의 여부를 판정한다. 즉, 이동 인식 문법 데이터를 사용하여 획득된 음성 인식 결과의 가능성 레벨이 항목값 인식 문법 데이터를 사용하여 획득된 음성 인식 결과의 가능성 레벨보다 높은 지의 여부를 판정한다. 음성 인식 결과가 입력폼의 선택이 아닌 경우(단계 S5에서 아니오)에, 단계 S8로 진행하여, 포커스가 맞추어져 있는 입력폼에 입력된 음성 데이터의 음성 인식 결과를 표시한다. 이 처리는 종래 기술과 마찬가지이므로, 그 설명을 생략한다. 한편, 음성 인식 결과가 입력폼의 선택인 경우(단계 S5에서 예)에, 단계 S6으로 진행한다.

단계 S6에서, 음성 인식 결과(입력폼명)에 대응하는 입력폼을 선택한다. 예를 들면, 음성 인식 결과로서 "소속(affiliation)" 또는 "주소(address)"의 입력폼명이 획득된 경우에, 단계 S5에서 이 단계 S6의 처리로 진행하여, 음성 인식 결과에 대응하는 입력폼명에 매칭하는 입력폼을 특정한다. 도 9는 음성 인식 결과가 "소속(affiliation)일 때 표시 장치(1)의 GUI의 일례를 도시한다.

단계 S7에서, 선택 확인 조작(selection confirmation operation)이 행해진다. 이것은 선택된 입력폼을 사용자에게 나타내는 확인 처리이다. 예를 들면, 그 임력폼을 플래싱(소정의 시간 주기 동안 폼의 색상을 변경함)하는 등에 의해 선택되지 않은 다른 입력폼과 구별되도록 선택된 입력폼의 표시 패턴을 변경하는 표시 제어가 실행되거나, 또는 윈도우 중앙에 선택된 입력폼을 위치시키기 위해 윈도우를 스크롤하는 등의 표시 제어가 실행된다. 부가적으로, 비프톤이 생성되어 입력폼이 선택되는 것을 나타낼 수 있다.

상술한 바와 같이, 제1 실시예에 따르면, 사용자가 입력폼명을 발성했을 때, 그 발성의 음성 인식에 의하여 획득되는 음성 인식 결과에 대응하는 입력폼이 데이터의 입력 대상으로서 선택될 수 있다. 이러한 방식으로, 사용자는 키보드나 마우스 등을 사용하여 수동으로 입력폼을 선택할 필요가 없고, 단지 음성 입력만으로,GUI에 대한 입력폼을 선택할 수 있고 데이터를 입력할 수 있어, 종래 기술과 비교하여 보다 GUI 조작성을 향상시킬 수 있다.

<제2 실시예>

제1 실시예에서, 사용자가 입력폼명을 발성했을 때, 데이터의 입력 대상으로서의 입력폼이 그 음성의 음성 인식에 의하여 획득되는 음성 인식 결과에 기반하여 선택된다. 또한, 사용자가 입력폼의 상대 위치를 나타내는 상태 위치 표현, 예를 들어 "세번째 위(third upper)" 또는 "두번째 아래(second lower)"를 발성했을 때, 데이터의 입력 대상으로서의 입력폼은 그 음성의 음성 인식에 의해 획득되는 음성 인식 결과에 기반하여 선택될 수 있다.

이러한 실시예에 따른 정보 처리 장치의 기능적 구성이 도 10에 도시된다.

도 10은 본 발명의 제2 실시예의 정보 처리 장치의 기능 블록도이다.

도 10을 참조하면, 제1 실시예의 도 2에서의 콘텐츠 보유부(101), GUI 표시부(102), 인식 문법(106), 음성 입력부(107) 및 음성 인식부(108) 외에도, 이 장치는, 사용자가 상대 위치 표현을 발성했을 때 포커스 위치를 변경하는 포커스 위치 변경부(109), 현재 포커스가 맞추어져 있는 입력폼의 위치를 보유하는 포커스 위치 보유부(111), 입력폼명 및 그 위치를 나타내는 배치 정보를 생성하는 배치 관계 생성부(112), 배치 관계 생성부(112)에 보유된 입력폼명 및 배치 정보를 보유하는 배치 관계 보유부(113), 그리고 발성된 콘텐츠가 상대 위치 표현인지의 여부를 판정하는 상대 위치 판정부(114)를 갖는다.

배치 관계 생성부(112)에 의해 생성되는 입력폼명 및 배치 정보는, 기억 장치(3)에 입력폼 정보 테이블로서 저장된다. 도 11은 입력폼명 및 배치 정보(예를 들면, GUI 상의 상부 좌측 코너가 원점으로 정의될 때 세로, 가로의 위치 좌표)를 서로 대응시켜 저장하는 입력폼 정보 테이블로서 관리되는 테이블의 일례를 도시한다. 이 입력폼 정보 테이블은 콘텐츠 표시 시에 콘텐츠를 분석함으로써 생성된다. 콘텐츠가 네트워크를 통해 웹 서버 등의 외부 장치로부터 배신될 때, 입력폼 정보 테이블은 콘텐츠 제공자측에서 미리 생성될 수 있고, 콘텐츠 송신에 정합하여 송신될 수도 있다. 부가적으로, 웹 브라우저를 장착한 클라이언트 및 웹 서버를 포함하는 서버·클라이언트형의 GUI 표시 시스템의 경우에, 배치 관계 생성부(112)에 의해 실행되는, 입력폼명 및 배치 정보를 생성하는 처리는 웹 서버측의 각각의 콘텐츠에 대해 미리 행해질 수 있고, 또는 클라이언트측의 웹 브라우저 상에서 동적으로 행해질 수 있다.

제2 실시예에 있어서, 도 11에서의 인식 문법(106) 내의 이동 인식 문법 데이터는 상대 위치 표현의 음성 인식을 행하기 위해 필요한 데이터를 포함하고, 예를 들면 숫자나 "~번째(th)", "위(upper)", "아래(lower)", "오른쪽(right)", "왼쪽(left)", "에서/으로부터(from)" 등을 인식하기 위해 사용되는 데이터가 관리된다.

이하에 제2 실시예의 정보 처리 장치에 의해 실행되는 처리가 도 12를 이용하여 설명된다.

도 12는 본 발명의 제2 실시예의 정보 처리 장치에 의해 실행되는 처리를 도시하는 흐름도이다.

도 12는 제1 실시예의 도 5의 흐름도와 상이한 부분만을 도시한다는 점에 유의하여야 한다.

단계 S4에서 음성 인식부(108)가 판독된 인식 문법(106)을 참조하여 입력된 음성 데이터의 음성 인식을 실행할 때, 단계 S70에서, 상대 위치 판정부(114)는 그 음성 인식 결과가 상대 위치 표현인지의 여부를 판정한다. 즉, 이동 인식 문법 데이터를 사용하여 획득된 음성 인식 결과의 가능성(likelihood)이 항목값 인식 문법 데이터를 사용하여 획득된 음성 인식 결과의 가능성보다 높은 지의 여부를 판정한다. 특히, 이동 인식 문법 데이터를 사용하여 획득된 음성 인식 결과의 가능성이 다른 음성 인식 문법 데이터를 사용하여 획득된 음성 인식 결과의 가능성보다도 높은 경우에는, 음성 인식 결과가 상대 위치 표현이라고 판정한다.

단계 S71에서 음성 인식 결과가 상대 위치 표현이라고 판정된 경우(단계 S70에서 아니오)에, 단계 S8로 진행한다. 한편, 음성 인식 결과가 상대 위치 표현인 경우(단계 S70에서 예)에, 단계 S71로 진행하고, 포커스 위치 변경부(109)는 상대 위치 표현에 의해 지정된 입력폼을 결정한다. 이 경우에는, 입력폼은 현재 포커스가 맞추어진 입력폼의 배치 정보, 배치 관계 보유부(113) 및 상대 위치 표현의 음성 인식 결과를 이용하여 판정된다.

예를 들면, 현재 포커스가 맞추어져 있는 입력폼이 입력폼(16)(도 9)인 경우에, 포커스 위치 보유부(111)는 대응하는 입력폼명 "소속(affiliation)"의 배치 정보(8, 1)(도 11)를 보유한다. 사용자가 발성한 음성의 음성 인식 결과가 "3번째 위(third upper)"인 경우에는, (5, 1)이 도 11의 입력폼 정보 테이블에 기초하여포커스 위치의 이동처로서 결정된다. 이러한 방식으로, 포커스 위치 보유부(111)에서 보유되는 배치 정보는 (5, 1)로 갱신된다. 결과적으로, 도 13에 도시한 바와 같이, 포커스는 입력폼(16)으로부터 입력폼(l2)으로 변경된다.

이상 설명한 바와 같이, 제2 실시예에 따르면, 사용자가 입력폼이 입력폼의 상대적인 위치를 나타내는 상대 위치 표현을 발성하면, 그 발성의 음성 인식에 의해 획득되는 음성 인식 결과에 대응하는 입력폼이 데이터의 입력 대상으로서 선택될 수 있다. 이러한 방식으로, 사용자는 키보드 또는 마우스 등을 사용하여 입력폼을 수동으로 선택할 필요가 없고, 단지 음성 입력만으로 GUI에 대한 입력폼을 선택하고 데이터를 입력할 수 있어, 종래 기술과 비교하여 GUI에 대한 조작성을 보다 향상시킬 수 있다. 사용자는 입력폼명을 발성하지 않고도, 제1 실시예보다 간단한 음성 표현으로 입력폼을 선택할 수 있고, 보다 적응성 있고(flexible) 정밀도가 높은 음성 입력에 의한 입력폼의 선택을 구현할 수 있다.

<제3 실시예>

제2 실시예에서는, 입력폼이 상대 위치 표현에 의해서 선택된다. 예를 들면, 사용자가 발성하는 "맨 위에서 5번째(fifth from top)" 또는 "맨 밑에서 2번째(second from bottom)"와 같은, 절대적인 위치를 나타내는 절대 위치 표현에 의해, 입력폼이 선택될 수도 있다.

이러한 실시예에 따른 정보 처리 장치의 기능적 구성이 도 14에 도시된다.

도 14를 참조하면, 제1 실시예의 도 2에서의 콘텐츠 보유부(101), GUI 표시부(102), 인식 문법(106), 음성 입력부(107) 및 음성 인식부(108), 제2 실시예의 도 10에서의 포커스 위치 변경부(109), 배치 관계 생성부(112) 및 배치 관계 보유부(113) 외에, 상기 장치는 절대 위치 판정부(121)와 표시 범위 보유부(122)를 포함한다. 절대 위치 판정부(121)는 도 10의 상대 위치 판정부(114)와 유사한 기능을 구현하며, 발성된 콘텐츠가 절대 위치 표현인지의 여부를 판정한다. 표시 범위 보유부(122)에 대한 상세는 제4 실시예에서 후술한다. 인식 문법(106) 내의 이동 인식 문법 데이터는 절대 위치 표현을 음성 인식하기 위해서 필요한 데이터를 포함하고, 예를 들면, "맨 위에서(from top)", "맨 밑에서(from bottom)", "오른쪽에서(from right)", "왼쪽에서(from left)", 숫자, "th(~번째)" 등을 인식하기 위해 사용되는 데이터가 관리된다.

제3 실시예의 정보 처리 장치에 의해 실행되는 처리는 제1 실시예의 정보 처리 장치에 의해 실행되는 처리를 응용한 것이다. 특히, 제1 실시예의 도 5에서의 흐름도의 단계 S6의 처리에 있어서, 사용자에 의해 발성된 음성이 인식되고, 절대 위치 판정부(121)는 도 11에서의 입력폼 정보 테이블을 참조하여 포커스가 맞추어질 입력폼을 선택한다. 예를 들면, 사용자가 "맨 밑에서 2번째(second from bottom)"라고 발성한 경우에, 도 11의 입력폼 정보 테이블의 세로 위치의 최대값이 11이기 때문에, 세로 위치가 10인 전화 번호의 입력폼이 선택되고, 포커스 위치가 그 위치에 이동된다. 그 후에, 단계 S7로 진행한다.

이상 설명한 바와 같이, 제3 실시예에 따르면, 입력폼은 상대 위치 표현 대신에 절대 위치 표현에 의해서도 선택될 수 있고, 제2 실시예에서와 같이, 음성 입력에 의한 입력폼 선택이 보다 적응성 있고 정밀도 높게 구현될 수 있다.

<제4 실시예>

콘텐츠가 브라우저 등의 윈도우 어플리케이션으로 브라우징되거나, 좁은 표시 범위를 갖는 휴대 장치 상에서 브라우징될 때, GUI 표시부(102)는 콘텐츠를 부분적으로만 표시할 수 있고, 사용자는 마우스 등의 포인팅 디바이스를 사용하여 표시 윈도우 상에 콘텐츠가 브라우징되도록 스크롤해야만 한다. 상술한 각각의 실시예에서는, 예를 들면, 사용자가 "맨 위에서 3번째(third from top)"라고 발성하면, 장치는 전체 콘텐츠 범위에서의 위에서 3번째의 폼에 포커스를 맞추지만, 예를 들면, 표시 윈도우 상에서 콘텐츠의 표시 범위 내에서의 3번째 폼에 포커스를 맞출 수도 있다.

이러한 경우, 도 14의 표시 범위 보유부(122)는 GUI 표시부(102) 상에 현재 표시되고 있는 표시 범위의 배치 정보를 보유할 수 있고, 도 5의 단계 S6에서의 처리에 있어서, 절대 위치 판정부(121)가 표시 범위 내에서의 절대 위치를 판정할 수 있다.

표시 범위 내에서의 절대 위치 표현인지 아니면, 전체 콘텐츠에서의 절대 위치 표현인 것인지를 사용자가 명확하게 발성했을 때, 어느 쪽의 표현인지가 판별될 수 있고, 대응하는 조작이 행해질 수 있다. 이 경우에, 도 14의 인식 문법(106)에서의 이동 인식 문법 데이터는 이들 절대 위치 표현을 음성 인식하기 위해 필요한 데이터를 포함하고, 제3 실시예에서 기술된 것들 외에, 예를 들면, "전체에서(overall)", "표시 범위 내에서(within display range)" 등을 관리하는데 사용되는 데이터가 관리된다.

이 경우에, 전체 콘텐츠에서의 절대 위치인지, 표시 범위 보유부(122)의 표시 범위 내에서의 절대 위치인지는, 사용자가 "전체에서 맨 위에서 3번째(third from top of overall)" 또는 "표시 범위에서 위에서 3번째(third from top in display range)" 등으로 지정한 경우에, 음성 인식 결과에 기반하여 판정될 수 있다.

한편, 전체 콘텐츠에서의 절대 위치인지 또는 표시 범위에서의 절대 위치인지를 나타내는 지정이 생략된 경우에는, 불명료함(ambiguity)이 발생한다. 이러한 경우에는, 이들 절치 위치들 중 어느 하나가 미리 정해진 값으로 고정될 수 있고, 또는 절대 위치가 이전에 지정된 위치로 동적으로 변경될 수 있다. 절대 위치가 동적으로 변경되는 경우에는, 어느 하나의 절대 위치를 선택하는 지정 정보가 표시 범위 보유부(122)에 보유될 수 있다.

제4 실시예의 정보 처리 장치에 의해 실행되는 처리는, 제1 실시예의 정보 처리 장치에 의해 실행되는 처리를 응용한 것이다. 특히, 제1 실시예의 도 5에서 흐름도의 단계 S6에서의 처리에 있어서는, 예를 들면, 도 6의 콘텐츠의 입력폼(9 내지 18)이 GUI 표시부(102) 상에 표시되어 있는 경우에, 표시 범위 보유부(122)는, 표시 범위의 배치 정보로서 왼쪽 위 (3, 1)과 오른쪽 아래 (9,2)를 보유한다.

사용자가 "맨 밑에서 2번째(second from bottom)"라고 발성한 경우와, 특히 표시 범위 보유부(122)가 디폴트로서 표시 범위를 채택하도록 설정된 경우에, 절대 위치 판정부(121)는 도 11의 입력폼 정보 테이블 및 표시 범위 보유부(122)를 참조하여 표시 범위내의 아래에서부터 두번째 입력폼으로서 입력폼명 "소속(affiliation)"의 배치 정보 (8, 1)을 판정하고, 그 위치로 포커스 위치를 이동시킨다. 한편, 표시 범위 보유부(122)가 디폴트로서 전체 콘테츠를 채용하도록 설정된 경우에, 절대 위치 판정부(121)는 전체 콘텐츠의 아래에서부터 두번째 입력폼으로서 입력폼명 "전화번호(telephone number)"의 배치 정보 (10, 1)을 판정하고, 그 위치로 포커스를 이동시킨다.

이상 설명한 바와 같이, 제4 실시예에 따르면, 전체 콘텐츠에서의 절대 위치 표현/표시 범위에서의 절대 위치 표현이 음성에 의해 명확하게 또는 자동적으로 입력되어, 입력폼이 입력된 음성에 의해 선택될 수 있다. 제3 실시예에서 설명한 효과 외에도, 표시되는 표시 범위에 따른 입력된 음성에 의해 보다 적응성 있고 정밀한 입력폼 선택이 구현될 수 있다.

<제5 실시예>

상술한 제1 실시예 내지 제4 실시예에 있어서의 이동 인식 문법 데이터로서, 각 실시예를 구현하기 위해 필요한 데이터만이 관리된다. 대안적으로, 이동 인식 문법 데이터는 입력폼명, 상대 위치 표현 및 절대 위치 표현 중 임의의 것에 의해 입력폼을 선택할 수 있도록 구성될 수 있다.

이러한 실시예에 따른 정보 처리 장치의 기능적 구성이 도 15에 도시된다.

도 15를 참조하여, 제1 실시예 내지 제4 실시예의 도 2, 도 10 및 도 14에서의 각종 구성 요소 외에, 상기 장치는 포커스 위치의 선택 방법의 유형(입력폼명,상대 위치 표현 및 절대 위치 표현)을 판정하는 위치 선택 방법 판정부(151)를 갖는다.

이하에, 제5 실시예의 정보 처리 장치에 의해 실행되는 처리에 대하여 도 16을 이용하여 설명한다.

도 16은 제1 실시예의 도 5에서의 흐름도와 상이한 부분만을 도시한다는 점에 유의하여야 한다.

음성 인식부(108)가 판독된 인식 문법(106)을 참조하여, 입력된 음성 데이터의 음성 인식을 실행할 때, 위치 선택 방법 판정부(151)는 단계 S51에서 폼명 보유부105를 참조하여, 음성 인식 결과가 입력폼의 선택인지의 여부를 판정한다. 음성 인식 결과가 입력폼의 선택인 경우(단계 S51에서 예)에, 단계 S61로 진행하여, 제1 실시예의 도 5에서의 흐름도의 단계 S6과 동일한 처리를 실행한다. 한편, 음성 인식 결과가 입력폼의 선택이 아닌 경우(단계 S51에서 아니오)에는, 단계 S52로 진행한다.

위치 선택 방법 판정부(151)는 단계 S52에서 음성 인식 결과가 상대 위치 표현인지의 여부를 판정한다. 이 판정에 있어서, 예를 들면, 음성 인식 결과의 말미(end)가 위치 표현(예를 들면, "위(upper)", "아래(lower)", "오른쪽(right)", "왼쪽(left)")인 경우에, 음성 인식 결과는 상대 위치 표현으로 판정된다.

단계 S52에서 음성 인식 결과가 상대 위치 표현이라고 판정된 경우(단계 S52에서 예)에, 단계 S62로 진행하여, 제2 실시예의 도 12의 단계 S71 및 단계 S72와 동일한 처리를 실행한다. 한편, 음성 인식 결과가 상대 위치 표현이 아닌 경우 (단계 S52에서 아니오)에는, 단계 S53으로 진행한다.

위치 선택 방법 판정부(151)는 단계 S53에서 음성 인식 결과가 절대 위치 표현인지의 여부를 판정한다. 이 판정에 있어서, 예를 들면, 음성 인식 결과의 선두(head)가 위치 표현(예를 들면, "맨 위에서(from top)", "맨 밑에서(from bottom)", "오른쪽에서(from right)" 또는 "왼쪽에서(from left)", 또는 "전체에서(of overall)", "표시 범위에서(in display range)" 및 이들의 동의어)인 경우에, 음성 인식 결과는 절대 위치 표현으로 판정된다.

단계 S53에서 음성 인식 결과가 절대 위치 표현이라고 판정된 경우(단계 S53에서 예)에, 단계 S63에 진행하여, 제3 실시예 또는 제4 실시예에서 설명한 바와 같이, 절대 위치 표현에 기반하여 포커스 위치를 변경하는 처리를 실행한다. 한편, 음성 인식 결과가 절대 위치 표현이 아닌 경우(단계 S53에서 아니오)에는, 단계 S8로 진행한다.

제5 실시예의 설명에 있어서, 포커스 위치는 입력폼명, 상대 위치 및 절대 위치 중 어느 하나를 사용하는 선택 방법에 의해서 선택될 수 있다. 또한, 이러한 방법들 중 2개 이상의 선택 방법을 이용하여, 포커스 위치를 선택하는 구성이 구현될 수도 있다.

이상 설명한 바와 같이, 제5 실시예에 따르면, 제1 실시예 내지 제4 실시예에서 기술된 효과 외에도, 복수 유형의 선택 방법에 의해 입력폼이 선택될 수 있기때문에, 보다 적응성 있고 여러 가지 장치에 적용할 수 있는, 입력된 음성에 의한 입력폼 선택 환경이 구현될 수 있다.

<제6 실시예>

콘텐츠 보유부(101)에 보유되는 콘텐츠가 마크업 언어로 기술되는 경우, 배치 관계 보유부(113)는 입력폼을 나타내는 태그의 유형을 보유할 수 있고, 입력폼은 "n번째(n-th)(태그명)"와 같이 입력된 음성에 의해서 선택될 수 있다. 도 17은 이러한 구성에서 배치 관계 보유부(113)에 보유되는 입력폼 정보 테이블의 콘텐츠를 도시한다. 이러한 경우에, 절대 위치 판정부(121)는 성별로서 1번째의 라디오 버튼을 인식하고, 직업으로서 2번째의 라디오 버튼을 인식한다. 사용자가 "두번째 라디오 버튼"이라고 말하는 경우에, 포커스 위치는 직업으로 이동되고, 흐름은 단계 S7로 진행한다.

배치 관계 보유부(113)에 보유되는 태그의 유형은 "input(입력)" 및 "radio(라디오)"에 국한되지 않으며, 예를 들면, 메뉴를 나타내는 "menu(메뉴)" 태그 또는 링크 지정을 나타내는 "a(에이)" 태그가 보유되는 경우에도 동일 처리가 행해질 수 있다.

이상 설명한 바와 같이, 제6 실시예에 따르면, 입력폼이 입력폼을 나타내는 태그의 유형에 따라서 입력된 음성에 의해 선택될 수 있기 때문에, 보다 적응성 있는 입력된 음성에 의한 입력폼의 선택이 구현될 수 있다.

<제7 실시예>

콘텐츠가 마크업 언어로 기술되어 있는 경우에, 센터링(centering)을 나타내는 "center(센터)" 태그, 행바꿈을 나타내는 "br(비알)" 태그 등과 같이 음성 인식에 의한 입력에서 사용하지 않은 태그들도 많이 존재한다.

따라서, 제6 실시예에서, 음성 인식에서 포커스 이동에 사용되는 태그의 유형은 음성 인식을 선언하는 부분에서 나열될 수 있다.

도 18은 마크업 언어를 이용하여 음성 인식을 실행하기 위해 사용되는 태그들의 일례를 도시한다. 도 18에서, 제7 실시예와 관련된 음성 인식의 태그들의 일례, 및 음성 인식의 태그들 [<SpeechRecog···>]이 음성 인식에 의한 입력을 수행하기 위한 기술이다.

제7 실시예의 GUI 표시부(102)에 있어서, [<SpeechRecog···>]는, "음성 인식하고, 그 음성 인식 결과를 표시한다"라고 해석된다. 음성 인식에서 사용되는 인식 문법(106) 및 음성 인식에서 포커스 이동에 사용되는 태그 유형의 리스트는, 각각 [grammar], [used_tag]에 의해 지정될 수 있다. 이 예에서, 태그 [<SpeechRecog···>]는, 인식 문법 사전 [command.grm]이 사용되고, "input(입력)" 태그, "radio(라디오)" 태그, "a(에이)" 태그의 3개의 상이한 태그가 포커스 이동에 이용된다는 것을 선언한다.

이상 설명한 바와 같이, 제7 실시예에 따르면, 음성 인식을 실행하기 위해 사용되는 태그가 콘텐츠 내에 함께 기술되어 있기 때문, 음성 인식을 실행하기 위해 사용되는 태그는 콘텐츠 내의 태그에서 보다 효율적으로 판정될 수 있다. 또한, 음성 인식을 실행하기 위해 사용되는 태그가 각각의 콘텐츠에 대하여 기술되기 때문에, 입력폼이 입력폼을 나타내는 태그의 유형에 따라서 입력된 음성에 의해 선택될 때에도, 배치 관계 보유부(113)가 도 17에서의 어떤 입력폼 정보 테이블을 보유할 필요가 없어, 기억 자원을 절약할 수 있다.

본 발명은, 상술한 실시예의 기능을 구현하는 소프트웨어의 프로그램(각 실시예에서 예시되는 흐름도에 대응하는 프로그램)을, 시스템 또는 장치에 직접 또는 원격으로부터 제공함으로써 달성되는 경우, 및 그 시스템 또는 장치의 컴퓨터로 공급된 프로그램 코드를 판독하여 실행함으로써 달성되는 경우도 포함한다는 점에 유의하여야 한다. 이러한 경우에, 프로그램 기능이 제공될 수만 있으면, 그 형태는 프로그램에 국한되지 않는다.

따라서, 컴퓨터를 사용하여 본 발명의 기능적인 처리를 구현하기 위해서, 컴퓨터에 인스톨되는 프로그램 코드 자체 또한 본 발명을 구현하는 것이다. 즉, 본 발명은, 본 발명의 기능적인 처리를 구현하기 위한 컴퓨터 프로그램 자체를 포함한다.

이 경우에, 프로그램의 형태는 특별하게 한정되지 않으며, 프로그램의 기능을 갖고 있으면, 오브젝트 코드, 인터프리터에 의해 실행되는 프로그램, 0S에 공급되는 스크립트 데이터 등이 사용될 수 있다.

프로그램을 공급하기 위한 기록 매체로서는, 예를 들면, 플로피 디스크, 하드디스크, 광 디스크, 광 자기 디스크, MO, CD-ROM, CD-R, CD-RW, 자기 테이프, 불휘발성의 메모리 카드, ROM, DVD(DVD-ROM, DVD-R) 등이 사용될 수 있다.

다른 프로그램 공급 방법으로서는, 클라이언트 컴퓨터의 브라우저를 이용하여 인터넷 상에 제공된 홈페이지에 접속하고, 압축되고 자동 인스톨 기능을 포함하는 본 발명의 컴퓨터 프로그램 그 자체 또는 파일을 그 홈페이지로부터 하드 디스크 등과 같은 기억 매체에 다운로드함으로써, 프로그램을 공급할 수도 있다. 또한, 본 발명의 프로그램을 형성하는 프로그램 코드는 복수의 파일로 분할될 수 있고, 이들 파일들은 상이한 홈페이지들로부터 다운로드될 수 있다. 즉, 본 발명은, 복수의 사용자가 컴퓨터를 사용하여 본 발명의 기능적인 처리를 구현하는 프로그램 파일들을 다운로드하게 하는 WWW 서버 또한 포함한다.

또한, 본 발명의 암호화된 프로그램을 저장하는 CD-ROM 등의 기억 매체가 사용자에게 배포될 수 있으며, 소정의 조건을 통과한 사용자에게 대하여, 인터넷을 개재하여 홈페이지로부터 프로그램을 해독하는 키 정보를 다운로드할 수 있게 허가하고, 암호화된 프로그램을 그 키 정보를 사용하여 암호화된 실행되어 컴퓨터에 인스톨함으로써, 본 발명을 구현할 수 있다.

또한, 상술한 실시예의 기능은, 컴퓨터에 의해 판독된 프로그램 코드를 실행함으로서 구현될 수 있을 뿐만 아니라, 그 프로그램의 지시에 기초하여 컴퓨터 상에서 작동하고 있는 OS 등에 의해 일부 또는 모든 실제 처리 조작이 실행됨으로써도 구현될 수 있다.

또한, 상술한 실시예의 기능은, 기억 매체로부터 판독되는 프로그램이 컴퓨터에 삽입되거나 접속되는 기능 확장 보드 또는 기능 확장 유닛에 기록된 후에, 기능 확장 보드 또는 기능 확장 유닛에 배치되는 CPU 등에 의해 일부 또는 모든 실제 처리들이 실행됨으로써 구현될 수 있다.

Claims

입력된 음성에 기초하여, 표시 화면 상에 표시되는 입력폼(input form)에 대한 처리를 실행하는 정보 처리 장치에 있어서,

상기 입력폼에 관한 입력폼 정보를 기억하는 기억 수단;

상기 입력된 음성을 인식하는 음성 인식 수단; 및

상기 음성 인식 수단의 음성 인식 결과에 대응하는 입력폼 정보를 선택하는 선택 수단

을 포함하는 정보 처리 장치.
제1항에 있어서,

상기 선택 수단에 의해 선택된 상기 입력폼 정보에 대응하는 입력폼의 표시 패턴(display pattern)을 제어하는 표시 제어 수단을 더 포함하는 정보 처리 장치.
제1항에 있어서,

상기 입력폼 정보는 상기 입력폼의 입력폼명(input form name)을 포함하는 정보 처리 장치.
제1항에 있어서,

상기 입력폼 정보는 상기 입력폼의 위치를 나타내는 배치 정보(layoutinformation)를 포함하는 정보 처리 장치.
제2항에 있어서,

상기 표시 제어 수단은 상기 선택 수단에 의해 선택된 입력폼 정보에 대응하는 입력폼을, 그외의 입력폼들의 제1 표시 패턴과는 상이한 제2 표시 패턴으로 표시하는 정보 처리 장치.
제2항에 있어서,

상기 표시 제어 수단은 상기 선택 수단에 의해 선택된 입력폼 정보에 대응하는 입력폼을 상기 표시 화면 상의 중앙에 표시하는 정보 처리 장치.
제1항에 있어서

상기 선택 수단에 의한 선택이 확정된 경우에, 그 취지(message)를 통지하는 통지 수단을 더 포함하는 정보 처리 장치.
제1항에 있어서,

상기 입력폼 정보는 상기 입력폼의 입력폼명 및 상기 입력폼의 위치를 나타내는 배치 정보를 포함하고,

상기 정보 처리 장치는, 상기 음성 인식 수단의 음성 인식 결과가 상기 입력폼명 또는 상기 배치 정보 중 어느 쪽에 대응하는지를 판정하는 판정 수단을 더 포함하고,

상기 선택 수단은 상기 판정 수단의 판정 결과에 기초하여, 상기 음성 인식 수단의 음성 인식 결과에 대응하는 입력폼 정보를 선택하는 정보 처리 장치.
제1항에 있어서,

상기 입력폼 정보는 상기 입력폼의 위치를 나타내는 배치 정보를 포함하고,

상기 음성 인식 수단은 상기 배치 정보를 특정하기 위한 음성을 인식하기 위해 사용되는 음성 인식 문법 데이터(speech recognition grammar data)를 이용하여, 상기 입력된 음성을 인식하는 정보 처리 장치.
제9항에 있어서,

상기 음성 인식 문법 데이터는 상기 입력폼의 상대적인 위치를 나타내는 상대 위치 표현 및 절대적인 위치를 나타내는 절대 위치 표현 중 적어도 어느 하나를 인식하기 위해 사용되는 데이터를 포함하는 정보 처리 장치.
제9항에 있어서,

상기 음성 인식 문법 데이터는 상기 절대 위치 표현이 상기 입력폼을 포함하는 콘텐츠 전체 또는 상기 표시 화면 상의 표시 범위에 대응하는지를 인식하기 위해 사용되는 데이터를 포함하는 정보 처리 장치.
제1항에 있어서,

상기 입력폼이 하이퍼텍스트 문서로 구현되어 있는 경우에, 상기 입력폼 정보는 상기 입력폼을 나타내는 태그를 포함하는 정보 처리 장치.
제12항에 있어서,

상기 하이퍼텍스트 문서는 상기 음성 인식 수단에 의한 음성 인식을 실행하기 위해 사용되는 태그를 기술하는 정보 처리 장치.
입력된 음성에 기초하여, 표시 화면 상에 표시되는 입력폼에 대한 처리를 실행하기 위한 정보 처리 방법에 있어서,

상기 입력된 음성을 인식하는 음성 인식 단계; 및

상기 음성 인식 단계의 음성 인식 결과에 대응하는, 상기 입력폼에 관한 입력폼 정보를 선택하는 선택 단계

를 포함하는 정보 처리 방법.
제14항에 있어서,

상기 선택 단계에서 선택된 입력폼 정보에 대응하는 입력폼의 표시 패턴을 제어하는 표시 제어 단계

를 더 포함하는 정보 처리 방법.
제14항에 있어서,

상기 입력폼 정보는 상기 입력폼의 입력폼명을 포함하는 정보 처리 방법.
제14항에 있어서,

상기 입력폼 정보는 상기 입력폼의 위치를 나타내는 배치 정보를 포함하는 정보 처리 방법.
제15항에 있어서,

상기 표시 제어 단계는 상기 선택 단계에서 선택된 입력폼 정보에 대응하는 입력폼을, 그외의 입력폼의 제1 표시 패턴과는 상이한 제2 표시 패턴으로 표시하는 단계를 포함하는 정보 처리 방법.
제15항에 있어서,

상기 표시 제어 단계는 상기 선택 단계에서 선택된 입력폼 정보에 대응하는 입력폼을 상기 표시 화면 상의 중앙에 표시하는 단계를 포함하는 정보 처리 방법.
제14항에 있어서,

상기 선택 단계에서 선택이 확정될 때, 그 취지를 통지하는 통지 단계를 더 포함하는 정보 처리 방법.
제14항에 있어서,

상기 입력폼 정보는 상기 입력폼의 입력폼명 및 상기 입력폼의 위치를 나타내는 배치 정보를 포함하고,

상기 정보 처리 방법은, 상기 음성 인식 단계의 음성 인식 결과가 상기 입력폼명 또는 상기 배치 정보 중 어느 것에 대응하는지를 판정하는 판정 단계를 더 포함하고,

상기 선택 단계는 상기 판정 단계의 판정 결과에 기초하여, 상기 음성 인식 단계의 음성 인식 결과에 대응하는 입력폼 정보를 선택하는 단계를 포함하는 정보 처리 방법.
제14항에 있어서,

상기 입력폼 정보는 상기 입력폼의 위치를 나타내는 배치 정보를 포함하고,

상기 음성 인식 단계는 상기 배치 정보를 특정하기 위한 음성을 인식하기 위해 사용되는 음성 인식 문법 데이터를 이용하여, 상기 입력된 음성을 인식하는 단계를 포함하는 정보 처리 방법.
제22항에 있어서,

상기 음성 인식 문법 데이터는 상기 입력폼의 상대적인 위치를 나타내는 상대 위치 표현 및 상기 입력폼의 절대적인 위치를 나타내는 절대 위치 표현 중 적어도 어느 하나를 인식하기 위해 사용되는 데이터를 포함하는 정보 처리 방법.
제22항에 있어서,

상기 음성 인식 문법 데이터는, 상기 절대 위치 표현이 상기 입력폼을 포함하는 콘텐츠 전체 또는 상기 표시 화면 상의 표시 범위에 대응하는지를 인식하기 위해 사용되는 데이터를 포함하는 정보 처리 방법.
제14항에 있어서,

상기 입력폼이 하이퍼텍스트 문서로 구현되어 있는 경우, 상기 입력폼 정보는 상기 입력폼을 나타내는 태그를 포함하는 정보 처리 방법.
제25항에 있어서,

상기 하이퍼텍스트 문서는 상기 음성 인식 단계에서 음성 인식을 실행하기 위해 사용되는 태그를 기술하는 정보 처리 방법.
입력된 음성에 기초하여, 표시 화면 상에 표시되는 입력폼에 대한 처리를 실행하는 정보 처리를 컴퓨터에 기능시키기 위한 프로그램에 있어서,

상기 입력된 음성을 인식하는 음성 인식 단계의 프로그램 코드; 및

상기 음성 인식 단계의 음성 인식 결과에 대응하는, 상기 입력폼에 관한 입력폼 정보를 선택하는 선택 단계의 프로그램 코드

를 포함하는 프로그램.
입력된 음성에 기초하여, 표시 화면 상에 표시되는 입력폼에 대한 처리를 실행하는 정보 처리 장치에 있어서,

상기 입력폼에 관한 입력폼 정보를 기억하는 기억부;

상기 입력된 음성을 인식하는 음성 인식부; 및

상기 음성 인식 수단의 음성 인식 결과에 대응하는 입력폼 정보를 선택하는 선택부

를 포함하는 정보 처리 장치.
입력된 음성에 기초하여, 표시 화면 상에 표시되는 입력폼에 대한 처리를 실행하는 정보 처리 장치에 있어서,

상기 입력된 음성을 인식하는 음성 인식 수단;

상기 음성 인식 결과가 입력폼의 선택인지 아닌지를 판정하는 판정 수단;

상기 판정 수단이 상기 음성 인식 결과가 입력폼의 선택이라고 판정했을 때, 상기 음성 인식 결과에 대응하는 입력폼을 선택하는 선택 수단; 및

상기 판정 수단이 상기 음성 인식 결과가 입력폼의 선택이 아니라고 판정했을 때, 선택된 입력폼에 상기 음성 인식 결과를 표시하는 표시 수단

을 포함하는 정보 처리 장치.
입력된 음성에 기초하여, 표시 화면 상에 표시되는 입력폼에 대한 처리를 실행하기 위한 정보 처리 방법에 있어서,

상기 입력된 음성을 인식하는 음성 인식 단계;

상기 음성 인식 결과가 입력폼의 선택인지 아닌지를 판정하는 판정 단계;

상기 판정 단계에서 상기 음성 인식 결과가 입력폼의 선택이라고 판정되었을 때, 상기 음성 인식 결과에 대응하는 입력폼을 선택하는 선택 단계; 및

상기 판정 단계에서 상기 음성 인식 결과가 입력폼의 선택이 아니라고 판정되었을 때, 선택된 입력폼에 상기 음성 인식 결과를 표시하는 표시 단계

를 포함하는 정보 처리 방법.
입력된 음성에 기초하여, 표시 화면 상에 표시되는 입력폼에 대한 처리를 실행하는 정보 처리를 컴퓨터에 기능시키기 위한 프로그램에 있어서,

상기 입력된 음성을 인식하는 음성 인식 단계의 프로그램 코드;

상기 음성 인식 결과가 입력폼의 선택인지 아닌지를 판정하는 판정 단계의 프로그램 코드;

상기 판정 단계에서 상기 음성 인식 결과가 입력폼의 선택이라고 판정되었을 때, 상기 음성 인식 결과에 대응하는 입력폼을 선택하는 선택 단계의 프로그램 코드; 및

상기 판정 단계에서 상기 음성 인식 결과가 입력폼의 선택이 아니라고 판정되었을 때, 선택된 입력폼에 상기 음성 인식 결과를 표시하는 표시 단계의 프로그램 코드

를 포함하는 프로그램.
입력된 음성에 기초하여, 표시 화면 상에 표시되는 입력폼에 대한 처리를 실행하는 정보 처리 장치에 있어서,

상기 입력된 음성을 인식하는 음성 인식부;

상기 음성 인식 결과가 입력폼의 선택인지 아닌지를 판정하는 판정부;

상기 음성 인식 결과가 입력폼의 선택이라고 상기 판정부가 판정했을 때, 상기 음성 인식 결과에 대응하는 입력폼을 선택하는 선택부; 및

상기 음성 인식 결과가 입력폼의 선택이 아니라고 상기 판정부가 판정했을 때, 선택된 입력폼에 상기 음성 인식 결과를 표시하는 표시부

를 포함하는 정보 처리 장치.