KR20070068269A

KR20070068269A - 정보처리장치 및 정보처리방법

Info

Publication number: KR20070068269A
Application number: KR1020060132394A
Authority: KR
Inventors: 히로키 야마모토; 쓰요시 야기사와
Original assignee: 캐논 가부시끼가이샤
Priority date: 2005-12-26
Filing date: 2006-12-22
Publication date: 2007-06-29
Also published as: KR100894457B1; EP1811369A2; EP1811369A3; CN1991975A; JP2007171809A; US8032382B2; US20070150291A1

Abstract

음성 정보처리방법은, 음성 처리 개시 지시 수단의 제1 조작을 검출하는 스텝과, 상기 제1 조작의 검출에 응답해, 상기 음성 인식 정보를 표시하도록 표시를 제어하는 스텝과, 상기 음성 처리 개시 지시 수단의 제2 조작을 검출하는 스텝과, 상기 제2 조작에 응답해 음성 정보를 취득하는 스텝과, 상기 취득 스텝에서 취득한 음성 정보에 대하여 음성인식을 행하는 스텝을 포함한다.

음성정보처리, 음성인식, 음성사전

Description

정보처리장치 및 정보처리방법{INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD}

도 1은 본 발명의 일 실시 예에 따른 정보처리장치를 나타내는 블럭도이다.

도 2는 본 발명의 일 실시 예에 따른 인식 사전의 일례를 나타낸다.

도 3은 본 발명의 일 실시 예에 따른 정보처리장치의 표시를 설명한다.

도 4는 본 발명의 일 실시 예에 따른 정보처리장치가 수행하는 처리순서를 나타내는 플로차트이다.

도 5는 일 실시 예에 있어서, 음성 인식어를 제시한 경우를 설명한다.

도 6은 일 실시 예에 따른, "음량(Volume)"이라는 단어가 인식된 경우에 행해진 처리를 설명한다.

도 7은 일 실시 예에 따른, 인식 결과와 그에 대응하는 처리가 기록된 테이블을 나타낸다.

도 8은 일 실시 예에 있어서, 인식 대상을 식별하도록 표시를 제어한 경우를 설명한다.

도 9는 일 실시 예에 있어서, 아이콘이나 기호로 표시된 인식 대상을 인식하기 위해 사용된 단어를 표시한 경우를 설명한다.

도 10은 일 실시 예에 있어서, 아이콘이나 기호로 표시된 인식 대상을 인식하기 위해 사용된 단어를 표시한 경우를 설명한다.

도 11은 일 실시 예에 있어서, 인식 대상의 음성 표기를 제시한 경우를 설명한다.

도 12는 일 실시 예에 있어서, 화면 내에 표시되어 있지 않은 인식어를 제시한 경우를 설명한다.

도 13은 본 발명의 일 실시 예에 따른 정보처리장치가 수행하는 처리순서를 설명하는 플로차트이다.

도 14는 본 발명의 일 실시 예에 따른 정보처리장치가 수행하는 처리순서를 설명하는 플로차트이다.

도 15는 본 발명의 일 실시 예에 따른 정보처리장치의 구성을 설명하는 블럭도이다.

도 16은 본 발명의 일 실시 예에 따른 정보처리장치가 이용하는 프로그램 정보 데이터의 일례를 나타낸다.

도 17은 본 발명의 일 실시 예에 따른 정보처리장치가 이용하는 관련어 데이터의 일례를 나타낸다.

도 18은 본 발명의 일 실시 예에 따른 정보처리장치가 이용하는 인식 사전의 일례를 나타낸다.

도 19는 본 발명의 일 실시 예에 따른 정보처리장치가 이용하는 인식 사전의 일례를 나타낸다.

도 20은 일 실시 예에 있어서, 인식 대상을 식별하도록 표시를 제어하는 경우를 설명한다.

도 21은 일 실시 예에 있어서, 인식 대상을 나타내는 영역을 식별하도록 표시를 제어하는 경우를 설명한다.

도 22는 일 실시 예에 있어서, 화면 내에 표시되지 않는 인식 대상을 제시한 경우를 설명한다.

도 23은 일 실시 예에 있어서, 인식 대상의 표시 내용을 변경한 여러 가지 경우를 설명한다.

본 발명은, 음성인식을 통해서 인식 가능한 단어를 제시하는 정보처리장치 및 정보처리방법에 관한 것이다.

음성인식 기능을 구현하는 공지된 기기나 애플리케이션에서는, 음성인식 기능을 사용할 때에 유저가 무엇을 말하면 좋은지 명확하지 않은 경우가 종종 있다. 이것은, 유저가 그러한 음성인식 기능을 작동하기 어렵게 느끼는 요인이 되었다. 이러한 문제를 해결하기 위해, 일본국 공개특허공보 특공평 04-075540호, 특개 2004-295578호, 및 특개 2005-242183호에는 유저에게 인식 단어를 제시하는 기술이 제안되어 있다.

일본국 공개특허공보 특공평 04－075540호에 개시된 음성인식 장치에서는, 각 GUI 윈도우의 하부에 개개의 인식가능한 단어 리스트를 표시해, 각 윈도우마다 인식가능한 단어를 유저에게 통지하고 있다. 일본국 공개특허공보 특개 2004-295578호에 개시된 번역 장치에서는, 화면에 표시된 인식 가능한 단어를 언더라인 등을 사용해 강조해 표시하고 있다. 또, 일본국 공개특허공보 특개 2005-242183호에 개시된 음성인식 장치에서는, 화면 위에 표시된 단어 중에 인식 가능한 단어가 있는 경우에, 인식가능한 단어를 다른 단어와 다른 형태로 표시하도록 화면 표시를 제어한다.

그렇지만, 상기 문헌에서는, 인식가능한 단어의 표시/비표시를 바꾸고, 또 인식가능한 단어를 표시하는 타이밍에 대해서는 개시되어 있지 않다. 음성 인식 기술을 실현하는 기기나 애플리케이션 중에는, 음성 인식 기술 이외의 수단에 의해 의도된 처리를 수행할 수 있도록 구성된 것도 있다. 이러한 기기나 애플리케이션에 상기 문헌에 개시된 기술을 사용했을 경우, 음성인식 기능이 유효할 때 항상 인식가능한 단어가 표시되게 된다. 이 표시 형태는, 음성 인식 기술 이외의 조작 수단을 이용해서 기기나 애플리케이션을 조작하는 유저에게 있어서는 장황한 표시 형태여서, 바람직한 표시 형태가 아니다.

본 발명은 상기 과제를 감안하여 이루어진 것이다. 따라서, 유저가 행한 음성 입력 조작에 응답해 음성 인식어를 표시하는 정보처리방법이 필요하다. 이와 같이, 이 방법에 의하면, 음성인식 기능을 이용한 조작이 유효한 경우라도 음성 입력을 수행하지 않는 경우에는 음성 인식어를 유저에게 제시하지 않는다.

본 발명의 제1 국면에 의하면, 음성 처리 개시 지시 수단의 제1 조작을 검출하도록 구성된 제1 검출수단과, 상기 음성 처리 개시 지시 수단의 제1 조작에 응답해서, 음성 인식 정보의 표시를 제어하도록 구성된 표시 제어수단과, 상기 음성 처리 개시 지시 수단의 제2 조작을 검출하도록 구성된 제2 검출수단과, 상기 음성 처리 개시 지시 수단의 제2 조작에 응답해서, 음성 정보를 취득하도록 구성된 취득 수단과, 상기 취득수단에 의해 취득된 음성 정보에 대하여 음성 인식 처리를 수행하도록 구성된 음성 인식수단을 포함하는 음성 정보처리장치가 제공된다.

본 발명의 제2 국면에 의하면, 음성 처리 개시 지시 수단의 제1 조작을 검출하는 스텝과, 상기 제1 조작의 검출에 응답해서, 음성 인식 정보를 표시하도록 표시를 제어하는 스텝과, 상기 음성 처리 개시 지시 수단의 제2 조작을 검출하는 스텝과, 상기 제2 조작에 응답해서, 음성 정보를 취득하는 스텝과, 상기 취득 스텝에서 취득한 음성 정보에 대하여 음성 인식 처리를 수행하는 스텝을 포함한 음성 정보처리방법이 제공된다.

이하, 도면을 참조하면서 본 발명의 바람직한 실시 예에 대해 상세히 설명한다.ㅌ

[제1 실시 예]

본 실시 예에 대해서는, 유저가 선택한 음악 데이터를 재생하는 애플리케이션의 예를 이용해서 설명한다. 도 1은 음악 데이터를 재생하는 애플리케이션을 구 비한 본 발명의 일 실시 예에 따른 정보처리장치의 구성을 개략적으로 설명하는 블록도이다. 상기 정보처리장치는, 조작부(101), 음악 데이터 기억부(102), 음성 출력부(103), 인식 사전 기억부(104), 음성 인식부(105), 음성 입력부(106), 표시 제어부(107), 표시부(108), 및 제어기(109)를 포함하고 있다.

조작부(101)는, 버튼 및 마우스 등의, 유저가 정보처리장치를 조작하는 입력장치를 포함하고 있다. 조작부(101)를 이용해서 유저가 수행하는 조작 내용은, 제어기(109)에 의해 검출된다. 그 다음, 제어기(109)는 검출한 조작에 따라 소정의 처리를 수행한다. 본 실시 예에서는, 유저가 음성 인식 기능을 이용하기 위해 발화할 때에, 유저는 조작부에 포함된 입력장치를 이용해 소정의 조작을 수행한다. 이 조작은 음성 처리의 개시를 지시하는 역할을 한다. 그러한 조작에 이용하는 입력장치는, 전용의 입력장치여도 되고, 특정의 버튼 등에 음성 처리의 개시를 지시하는 기능이 제공되어 있는 키보드나 마우스 등의 범용적인 입력장치여도 된다. 이하에서는, 음성 처리의 개시를 지시하는 입력장치로서 버튼을 이용하는 경우에 대해서 설명한다. 이 버튼을 여기에서는 음성 처리 개시 지시 버튼이라고 칭한다.

음악 데이터 기억부(102)는 음악 데이터를 기억하고 있다. 음성 출력부(103)는, 스피커 등의 음성 출력장치를 갖고, 유저가 음악 재생 조작을 수행할 때 음악 데이터를 출력한다.

인식 사전 기억부(104)는, 인식 사전을 기억하고 있다. 이 인식 사전에는, 음성 인식부(105)가 인식 가능한 단어와 그에 대응하는 음성 표기가 기록되어 있다. 이 전후관계에 있어서는, 음성표기는 IPA(International Phonetic Alphabet)로 정의된 것과 같은 사전에 정의된 음성 기호로 단어의 발음을 표시한다. 음성 인식부(105)가 인식 가능한 단어를 이하 음성 인식어라고 칭한다. 그러한 인식 사전의 일례가 도 2에 나타나 있다. 음성 입력부(106)는 마이크로폰을 구비해, 유저의 음성을 수집한다. 이 수집한 음성은 음성 인식부(105)에 의해 처리되도록 디지털 데이터로 변환된다. 음성 인식부(105)는, 음성 입력부(106)에 의해 수집되는 유저의 음성에 대응하는 데이터에 대하여 음성 인식 처리를 행하고, 인식 사전에 기록되어 있는 단어 중에서 수집한 유저의 음성에 가까운 단어를 선택한다. 그 다음, 음성 인식부(105)는 선택한 단어를 인식결과로서 출력한다.

표시부(108)는, 액정 디스플레이 등의 표시장치를 구비해, 본 정보처리장치로부터 유저에게 제공하는 정보나 GUI(graphical user interface) 등의 데이터를 표시한다. 표시 제어부(107)는, 표시부(108)에 표시되는 표시 내용을 제어한다. 표시 제어부(107)의 하나의 특징은, 음성 처리 개시 지시 버튼에 대해 행해진 소정의 조작을 제어기(109)가 검출한 경우에, 음성 인식어를 표시하도록 표시 내용을 제어한다는 점이다. 특히, 유저가 발화할 때에, 표시 제어부(107)는 음성 인식어를 표시해서, 유저가 발화 가능한 단어를 표시한다.

제어기(109)는, 조작부(101)를 통해서 행해진 조작을 검출하고, 그 조작 내용에 따라 처리를 실행한다. 또, 제어기(109)는 정보처리장치 내의 다른 모듈과 제휴해, 음악 데이터의 선택, 판독, 및 재생 등의 음악 데이터 재생과 관련된 처리를 제어한다.

이하에서는, 이상과 같이 구성된 정보처리장치가 수행하는 동작에 대해서 설 명한다.

본 실시 예에 따른 음악 데이터를 재생하는 애플리케이션이 기동되면, 표시 제어부(107)는 표시 내용을 생성하고, 그 표시내용을 표시부(108)에 표시한다. 그러한 표시내용의 예가 도 3에 도시되어 있다. 도면에 나타낸 바와 같이, 메인 윈도우(301)에는 파일 메뉴(302), 음량 메뉴(303), 음악 데이터의 재생을 개시하는 버튼(304), 및 음악 데이터의 재생을 정지하는 버튼(305)이 표시되어 있다.

메뉴 302 및 303은, 일반적인 GUI에 이용되고 있는 계층형의 메뉴이다. 각 메뉴는 메뉴를 선택할 때 표시되는 부메뉴와 관련되어 있다. 본 실시 예에서는, 파일 메뉴(302)의 부메뉴가 "Open" 및 "Close"를 포함하고, 음량 메뉴(303)의 부메뉴가 (이 도면에 나타내지 않은) "Volume up" 및 "Volume down"을 포함한다.

유저가 이들 GUI를 마우스 등을 이용해서 조작한다. 이러한 유저 조작에 대한 설명은 생략한다. 이하에서는, 음성인식을 이용해 이 애플리케이션에 대해 유저가 행한 조작을, 유저가 음성 처리 개시 지시 버튼을 누르고 나서 발화한 경우를 이용해서 설명한다.

도 4를 참조하면, 플로차트는, 음성 인식 기능을 이용해 본 실시 예에 따른 정보처리장치를 조작하는 경우에 행해진 처리순서를 설명한다. 이 처리순서를 실현하기 위한 프로그램은, 기억장치(미도시)에 기억되어 있고, 제어기(109)가 수행하는 제어에 근거해서 실행된다.

유저가 음성 인식 기능을 이용하기를 소망할 때에, 유저는 우선 음성 처리 개시 지시 버튼을 누른다. 제어기(109)가 음성 처리 개시 지시 버튼의 누름을 검출 하면(스텝 S101에서　"YES"), 스텝 S102에서, 표시 제어부(107)가 인식 사전 기억부(104)에 기억된 인식 사전을 참조해, 발화 가능한 커맨드(즉, 음성 인식어)를 표시하도록 표시 내용을 제어한다. 도 5에는 표시부(108)에 표시되는 표시내용의 예가 나타나 있다. 도면에 나타낸 바와 같이, 표시 제어부(107)에 의한 제어에 의해, 메인 윈도우(301)에 영역 306이 부가되고, 예를 들면 음성 인식어(307)가 표시된다. 이 예에서는 메인 윈도우(301) 내에 음성 인식어를 표시한다. 그러나, 이들 음성 인식어를 표시하기 위해서 서브 윈도우를 작성하는 것도 가능하다.

도 4의 플로차트로 돌아와 참조하면, 스텝 S102의 처리 후에, 스텝 S103에서는, 음성 입력부(106)에서 음성 입력을 개시한다. 스텝 S102와 S103의 처리 모두를 동시에 개시할 수 있다는 점에 유념한다.

음성 입력부(106)에 의해 수집된 음성 데이터는, 유저의 발화 종료를 검출할 때까지 음성 인식부(105)에 의해 처리된다(스텝 S104, S105　"NO").

음성 인식부(105)에 의해 발화 종료를 검출한 경우에(스텝 S105에서 "YES"), 음성 입력 및 음성 인식 처리를 종료한다. 그 다음, 스텝 S106에서는, 표시 제어부(107)가 음성 인식어의 표시를 종료하도록 표시 내용을 제어한다. 특히, 이 시점에서는, 도 3에 도시한 바와 같이, 표시부(108)에 표시되는 표시내용이, 스텝 S102에서 음성 인식어를 표시하기 전에 표시된 내용과 동일하다.

계속해서, 스텝 S107에서는, 발화를 중단하거나 음성 처리 개시 지시 버튼을 누른 후에 수집되는 음성이 존재하지 않는 등의 이유로, 음성 인식부(105)에서 음성 인식 처리의 결과를 취득할 수 없는 경우(스텝 S107에서　"NO"), 이 처리순서 를 종료한다.

음성 인식 처리의 결과를 취득했을 경우(스텝 S107에서　"YES")에는, 인식 결과를 제어기(109)에 출력한다. 그 다음, 스텝 S108에서는, 제어기(109)가 인식 결과에 근거해 처리를 실행한다. 예를 들면, 인식 결과가 "음량(Volume)"인 경우, 제어기(109)는 음량 메뉴(303)가 마우스 등으로 선택된 경우에 실행되는 처리와 같은 처리를 실행한다. 도 6은 이 처리의 결과를 나타낸다. 이 도면은, "음량(Volume)"(308)이 선택되어, "음량(Volume)"의 부메뉴(309)가 표시되는 상황을 나타내고 있다. 인식 결과와 그에 대응하는 처리 간의 관계는, 본 정보처리장치를 제어하는 프로그램 중에 미리 기술될 수 있다. 제어기(109) 내에, 이 관계가 기록되어 있는 대응 테이블을 제공하는 것도 가능하다. 도 7은 그러한 대응 테이블의 일례를 나타낸다. "Volume"가 인식된 상기 예에서는, 제어기(109)가 "Volume"에 대응하는 "VolumeMenuOpen"(702)으로서 표시된 처리를 실행한다.

이상의 설명에서는, 발화의 종료를 음성 인식부(105)가 검출한다. 그러나, 유저가 명시적으로 발화의 종료를 제시하도록 구성하는 것도 가능하다. 예를 들면, 음성 처리 개시 지시 버튼을 누르고 있는 동안에 유저가 발화할 수 있다. 이 경우, 제어기(109)가 음성 처리 개시 지시 버튼이 눌러진 상태에서 눌러져 있지 않은 상태로 되돌아왔다(버튼의 해제)는 것을 검출할 때 발화의 종료(스텝 S105　"YES")를 판단한다. 이와 같이 구성에 의해, 유저가 음성 처리 개시 지시 버튼을 누름으로써 표시되는 음성 인식어는, 유저가 버튼을 계속 누르고 있는 동안 표시되어 유지된다. 유저가 음성 처리 개시 지시 버튼을 해제하면, 음성 인식어의 표시를 종료한 다.

스텝 S102의 처리에 있어서의 인식어를 표시하는 다양한 방식을 이용할 수 있다. 이러한 표시방식의 예가 도 8 내지 도 12에 나타나 있다.

도 8은, 화면에 표시되어 있는 정보 중에서, 유저가 발화 가능한 단어를 구별할 수 있도록 유저가 발화 가능한 정보를 제시한 경우를 설명한다. 이 도면에 나타낸 바와 같이, 파일 메뉴(310), 음량 메뉴(311), 및 재생 버튼(312)을 굵은 선으로 둘러싸서, 이들 메뉴 및 버튼이 음성 인식 처리(인식 대상)를 통해서 인식될 수 있는 대상이라는 것을 표시한다. 반대로, 정지 버튼(305)은, 음성 인식 처리를 통해서 인식될 수 없다는 것, 즉 버튼(305)에 대응하는 음성이 인식되지 않는다는 것을 표시한다. 이와 같이, 표시된 정보 중에서, 음성 인식 대상이 되는 정보를 구별할 수 있도록 표시를 제어한다. 이 구성에 의해, 발화 가능한 단어를 효과적으로 유저에게 통지할 수가 있다.

도 9 및 도 10은, 도 8에 나타낸 바와 같이, 기호나 아이콘의 형태로 표시되어 있는 대응하는 인식 대상을 인식하기 위해 사용된 단어를 제시한 경우의 예를 나타낸다. 도 9는, 재생 버튼(312)에, 음성 인식어 "재생(Play)"를 부가한 경우(영역 313에 표시)를 나타낸다. 도 10은, 재생 버튼(312)을 음성 인식어 "재생(Play)"으로 교체한 경우를 나타낸다(버튼 314로서 표시). 기호나 아이콘과 관련지어 연상될 수 있는 단어는 유저에 의존하고, 기호는 복수의 명칭을 가질 수 있기 때문에, 유저는 어떻게 발화해 기호나 아이콘을 인식하는지 잘 모른다. 예를 들면, 유저는 재생 버튼(312)을 "재생(Play)"이라는 단어나 "개시(Start)"라는 단어와 관련지어 생각할 수도 있다. 이와 같이, 도 9 및 도 10에 나타낸 표시방법에 의해, 이러한 단어의 모호함을 해소할 수가 있어, 음성 인식 기능을 이용할 때 유저가 안심해서 발화할 수 있게 된다.

도 11은, 대응하는 음성 인식 대상에 대한 음성표기를 제시한 경우의 예를 나타낸다. 이 도면에 나타낸 바와 같이, 영역 315에 나타낸 대응하는 음성 인식어에는 음성표기가 부여된다. 또한, 버튼 316으로서 나타낸 대응하는 기호나 아이콘에도 음성표기를 부여한다. 이와 같은 구성에 의해, 유저가 표시된 단어나 기호를 읽을 때 실수하는 것을 방지할 수가 있다.

도 12는, 화면 내에 표시되어 있지 않은 음성 인식어를 유저에게 제시하는 경우의 예를 나타낸다. 이 예에서는, 파일 메뉴 및 음량 메뉴의 부메뉴를 인식하기 위해 사용된 단어의 리스트를 메인 윈도우(301)에 추가한다. 이러한 표시 방법에 의해, 메인 윈도우에 표시된 것 이외의 음성 인식어가 있다는 것을 유저에게 알릴 수가 있다.

이상으로 설명한 본 실시 예에 따른 구성에 의하면, 유저가 행한 발화 개시 조작에 응답해 음성 인식어가 제시된다. 이 때문에, 유저가 음성 인식 기능을 이용하는 경우, 음성 인식어에 특별한 주의를 기울이지 않고 음성 인식어를 알 수 있다. 또, 유저가 음성 인식 기능을 필요로 하지 않는 경우에는, 발화 개시 조작을 수행하지 않기 때문에, 음성 인식어는 화면상에 표시 또는 제시되지 않는다. 즉, 불필요한 정보의 장황한 표시를 피할 수 있다고 하는 효과가 있다. 이상과 같이, 상술한 특징을 갖는 정보처리장치에 의해, 음성 인식 기능을 이용하거나, 또는 음 성 인식 기능을 이용하지 않는 유저에 대해서 조작성이 높은 음성 인터페이스를 실현할 수 있다.

[제2 실시 예]

상술한 제1 실시 예에서는, 음성 처리 개시 지시 버튼의 누름을 검출하는 것과 동시에 음성 인식어의 표시와 음성 입력을 개시한다. 그렇지만, 이러한 구성에 의해, 유저가 표시된 음성 인식어를 보면서 무엇을 발화할지를 판정하는 동안에 주변 잡음을 유저의 음성으로서 오인식해 버리는 상황이 일어날 수도 있다. 이와 같이, 본 실시 예에서는, 발화 개시 버튼의 조작을 통해서, 음성 인식어를 표시하는 처리와 음성 입력을 개시하는 처리를 서로 다른 타이밍에서 수행할 수가 있다. 이것은, 제1 실시 예에서 기술한 정보처리장치와 같은 구성을 갖는 정보처리장치를 이용해서 실현될 수 있다. 특히, 본 실시 예에 있어서, 음성 처리 개시 지시 버튼의 누름과 해제를 검출한다. 이 음성 처리 개시 지시 버튼의 누름 검출에 응답해서, 인식어를 표시한다. 그 후, 음성 처리 개시 지시 버튼의 해제에 응답해서, 음성 입력을 개시한다.

이하에서는, 본 실시 예에 따른 처리순서를 도 13에 나타낸 플로차트를 참조하면서 설명한다. 이 플로차트는 스텝 S102와 스텝 S103의 처리 사이에 스텝 S109의 처리가 더해진 점이 도 4를 이용해서 기술한 제1 실시 예에 따른 처리순서와 다르다. 스텝 S109 이외의 처리에 관한 설명에 대해서는, 생략한다.

제어기(109)가 음성 처리 개시 지시 버튼의 누름을 검출(스텝 S101에서　"YES")하면, 스텝 S102에서는, 표시 제어부(107)가 음성 인식어를 표시하도록 표시 내용을 제어한다. 이 순서는 제1 실시 예에서 행한 것과 같다.

그 다음에, 스텝 S109에서는, 제어기(109)가 음성 처리 개시 지시 버튼의 해제를 검출할 때까지 처리를 진행시키지 않는다(스텝 S109에서　"NO"). 이 기간 동안, 음성 입력은 행해지지 않는다. 제어기(109)가 음성 처리 개시 지시 버튼의 해제를 검출하면, 스텝 S103에서는, 음성 입력부(106)에서 음성 입력을 개시한다. 이후에 행해진 처리순서는, 제1 실시 예와 같기 때문에, 그 설명은 생략한다.

이상의 구성에 의하면, 음성 인식어를 표시하는 처리와 음성 입력을 개시하는 처리를 서로 다른 타이밍에서 수행할 수가 있다. 이와 같이, 본 실시 예에 따르면, 유저가 음성 입력을 위해 발화를 개시하기 전에 음성 인식어를 보기 위한 충분한 시간을 가짐으로써, 한층 더 유저의 조작성을 증가시킨다.

[제3 실시 예]

본 실시 예에서는, 음성 처리 개시 지시 버튼의 반 누름과 완전 누름을 구별해서 검출하여, 음성 인식어를 표시하는 처리와 음성 입력을 개시하는 처리를 서로 다른 타이밍에서 수행할 수가 있다. 여기서, 반 누름이란, 일반적인 오토포커스 카메라의 초점 맞춤의 경우와 같이 버튼을 약간 누른 상태를 말한다. 본 실시 예에서는, 유저가 음성 처리 개시 지시 버튼을 반 누르면, 음성 인식어를 제시한다. 그 후, 유저가 음성 처리 개시 지시 버튼을 더 누르면(완전 누름), 음성 입력을 개시한다. 반 눌러진 상태로부터 음성 처리 개시 지시 버튼이 해제된 경우에는, 음성 인식어의 제시를 종료한다.

이하에서는, 본 실시 예에 따른 처리순서에 대해 도 14에 나타낸 플로차트를 참조하면서 설명한다.

이 플로차트는, 스텝 S101의 처리 대신에 스텝 S110의 처리가 수행되고, 스텝 S102와 스텝 S103의 처리 사이에서 스텝 S111~S113의 처리가 행해진다는 점이 제1 실시 예에 따른 도 4에 나타낸 플로차트와 다르다. 이들 처리 이외의 처리는, 제1 실시 예와 비슷하게 행해지므로, 그것의 설명은 생략한다.

제어기(109)가 음성 처리 개시 지시 버튼의 반 누름을 검출하면(스텝 S110에서　"YES"), 스텝 S102에서는, 표시 제어부(107)가 음성 인식어를 제시하도록 표시 내용을 제어한다.

계속해서, 스텝 S111에서는, 제어기(109)가 음성 처리 개시 지시 버튼의 해제 혹은 완전 누름을 검출할 때까지 처리를 진행시키지 않는다(스텝 S111에서는　"NO", 스텝 S113에서도　"NO"). 이 기간 동안, 음성 입력은 개시되지 않는다. 음성 처리 개시 지시 버튼의 해제를 검출하면(스텝 S111에서　"YES"), 스텝 S112에서는, 표시 제어부(107)가 음성 인식어의 제시를 종료하도록 표시 내용을 제어한다.

유저가 반 눌러진 상태에서 음성 처리 개시 지시 버튼을 더 누르고, 제어기(109)가 이 버튼의 완전 누름을 검출하면(스텝 S113에서　"YES"), 스텝 S103에서는, 음성 입력부(106)에서 음성 입력을 개시한다. 이후의 처리순서는, 제1 실시 예와 같으므로, 그 설명은 생략한다.

이상으로 설명한 구성에 의하면, 음성 인식어를 표시하는 처리와 음성 입력을 개시하는 처리는 서로 다른 타이밍에서 행해질 수가 있다. 따라서, 본 실시 예에 따르면, 유저는 음성 입력을 위해 발화를 개시하기 전에 음성 인식어를 보기 위 한 충분한 시간을 가지므로, 유저의 조작성이 증가한다.

[제4 실시 예]

본 실시 예에서는, 본 발명을 프로그램 검색 장치에서 실현한 경우에 대해 설명한다.

도 15는 본 발명의 실시 예에 따른, 프로그램을 검색하는 정보처리장치의 구성을 개략적으로 나타내는 블럭도이다. 이 정보처리장치는, 조작부(401), 프로그램 정보 기억부(402), 인식 사전 작성부(403), 인식 사전 기억부(404), 음성 인식부(405), 음성 입력부(406), 표시 제어부(407), 표시부(408), 및 제어기(409)를 포함하고 있다.

조작부(401)는, 제1 실시 예에서 설명한 조작부(101)와 마찬가지로, 유저가 장치를 조작할 수 있게 하는 버튼 및 마우스 등의 입력장치를 갖는다. 조작부(401)를 통해서 유저가 행하는 조작 내용은, 제어기(409)에 의해 검출된다. 그 다음 제어기(409)는 검출한 조작에 따라 소정의 처리를 수행한다. 본 실시 예에서도, 제1 실시 예의 경우와 같이, 발화를 개시하기 위해서 유저가 사용하는 버튼을 음성 처리 개시 지시 버튼이라고 칭한다.

프로그램 정보 기억부(402)는, 제어기(409)가 수신하는 EPG(electronic program guide) 등의 프로그램 정보 데이터를 기억한다. 도 16의 프로그램 정보 데이터(501)에 나타낸 바와 같이, 이 프로그램 정보 데이터 기억부(402)는 "타이틀"(프로그램명), "방송국"(방송국명), "일시"(방송 일시), 및 "정보"(프로그램 정보)를 프로그램마다 기억하고 있다. 또, 도 17의 관련어 데이터(601)에 나타낸 바 와 같이, 방송국명이나 프로그램명의 관련어의 데이터도 프로그램 정보 기억부(402)에 기억되어 있다. 이러한 관련어 데이터는, EPG 데이터에 포함될 수 있고, 또는 EPG와는 관계없는 데이터로서 외부 네트워크로부터 취득될 수도 있다.

인식 사전 기억부(404)는, 인식 사전을 기억한다. 인식 사전에는, 음성 인식부(405)가 인식 가능한 단어(음성 인식어)와 그에 대응하는 음성표기가 기록되어 있다. 또, 각 인식어와 관련된 부대 정보도 기록될 수 있다. 본 실시 예에서는, 정보처리장치를 조작하기 위한 커맨드와 프로그램을 검색하기 위한 키워드를 음성 인식어로서 이용한다. 도 18 및 도 19의 각각은 인식 사전의 일례를 나타낸다. 도 18에 나타낸 인식 사전(701)은 본 실시 예에 따른 정보처리장치를 조작하기 위한 커맨드로서 사용된 단어를 포함한다. 인식 사전(701)에서는, 각 인식어마다 음성표기뿐 아니라 그에 대응하는 처리가 부대 정보로서 기록되어 있다. 그 해당 음성 인식어가 검색될 때 그에 대응하는 처리가 행해질 것이다. 도 19에 나타낸 인식 사전(801)은 프로그램 검색을 위한 키워드로서 사용된 단어를 포함한다. 부대 정보로서 키워드의 카테고리가 기록되어 있다.

인식 사전 작성부(403)는, 프로그램 정보 데이터(501)로부터, 타이틀, 방송국 등을 검색할 때에 필요한 키워드를 추출하고, 그에 대응하는 음성표기와 카테고리를 기록해, 프로그램 검색을 위해 사용된 인식 사전을 작성한다. 또, 각 키워드의 관련어를 관련어 데이터(601)로부터 추출해, 인식 사전에 부여하는 것도 가능하다. 예를 들면, 프로그램 정보 데이터(501)로부터 타이틀 "Adventure TV"를 키워드로서 추출하면, 관련어 데이터(601)로부터 "Adventure"를 관련어로서 추출해서 인 식 사전에 부가한다.

음성 입력부(406)는 마이크로폰을 구비해서, 유저가 발화한 음성을 수집하고, 수집한 음성을, 음성 인식부(405)에 의해 처리되도록 디지털 데이터로 변환한다. 음성 인식부(405)는, 음성 입력부(406)가 수집한 음성 데이터에 대해서 음성 인식 처리를 수행하고, 인식 사전에 기록된 단어로부터 유저의 발화에 가장 가까운 단어를 음성 인식 결과로서 출력한다.

표시부(408)는, 액정 디스플레이 등의 표시장치를 갖고, 정보처리장치로부터 유저에게 제공하는 프로그램 정보 등의 정보나 GUI를 표시하는 역할을 한다. 표시 제어부(407)는, 표시부(408)에 표시되는 표시 내용을 제어한다. 본 실시 예에 있어서, 제어기(409)가 유저가 수행하는 음성 입력 개시 조작을 검출하면, 표시 제어부(407)는, 유저가 음성 인식어를 식별할 수 있도록 표시 내용을 제어한다. 예를 들면, 음성 입력 조작이 개시될 때 표시된 표시 내용에 음성 인식어나 GUI 부품(음성 인식 대상)이 포함되어 있는 경우에는, 인식 대상을 다른 단어나 GUI 부품과 구별할 수 있게, 폰트, 색, 및 장식 등의 인식 대상의 표시 형태를 변경하도록 표시 내용을 제어한다. 표시 내용에 포함되지 않는 다른 음성 인식어에 대해서는, 예를 들면, 별도의 윈도우를 생성해 이들 음성 인식어를 표시하도록 표시 내용을 제어한다. 음성 인식 결과를 취득한 경우에는, 제어기(409)에 의해 제공된 프로그램 정보를 표시하도록 표시내용을 제어한다. 음성 입력 동작 중에 타임 아웃이나 유저의 조작에 의해 음성 입력이 중지된 경우에는, 음성 입력 동작 전에 표시되었던 내용을 다시 표시하도록 표시 내용을 제어한다.

제어기(409)는, 본 실시 예에 따른 정보처리장치에 포함된 각 모듈과 제휴해서, 프로그램 검색 전체의 처리를 제어한다. 또, 제어기(409)는, 외부 네트워크를 통해서 전달되는 프로그램 정보 데이터를 수신하고, 프로그램 정보 기억부(402)에 프로그램 정보 데이터를 기억한다. 또한, 제어기(409)는 마우스 및 키보드 등의 입력장치의 조작 이벤트를 감시해, 조작 이벤트에 따라 처리를 실행한다. 또, 제어기(409)는, 음성 인식부(405)에 의해 인식되는 단어에 근거해서 프로그램 정보 기억부(402)에 기억되어 있는 프로그램 정보 데이터를 검색한 후, 검색된 프로그램 정보 데이터에 해당하는 프로그램에 관한 정보를 출력한다. 외부 유닛에 의해 관련어 사전이 제공되는 경우에는, 제어기(409)가 이 사전을 수신하는 역할을 한다.

이하에서는, 상기 구성을 갖는 정보처리장치의 동작에 대해서 설명한다.

본 실시 예에 따른 정보처리장치에서 수행하는 처리순서는 제1 실시 예에서 설명한 정보처리장치가 수행하는 처리순서와 같다. 따라서, 도 4에 나타낸 플로차트에 따라 처리 순서를 설명한다.

프로그램 검색 동작이 개시되면, 표시 제어부(407)는 프로그램 정보 기억부(402)에 기억된 프로그램 정보 데이터를 기본으로 해서 프로그램 검색에 사용되는 표시 데이터를 생성하도록 제어를 행한다. 그 후에, 생성된 표시 데이터를 표시부(408)에 표시한다. 도 20은 그러한 표시 데이터의 일례를 나타낸다. 이 도면은, 표시부(408)에 포함된 표시장치의 화면의 한 장면(screen shot;901)을 나타낸다. 화면 표시(902)는 프로그램 검색 동작이 개시될 때에 표시되는 표시내용의 일례이다. 화면 표시(902)에서, 방송국 "Japan TV"의 프로그램을 방송 시간 순으로 표시 한다. 유저는 표시되어 있는 프로그램 중에서 원하는 프로그램을 선택한다. 표시되어 있는 프로그램에 원하는 프로그램이 포함되어 있지 않은 경우, 유저는 다른 시간대의 장면을 표시하기 위해 화면표시를 스크롤하거나, 표시하는 방송국을 변경해서 원하는 프로그램을 찾는 것이 가능하다. 유저는 이들 조작을, 음성 인식 기능 또는 조작부(401)의 입력장치를 이용해 수행한다.

유저가 음성 인식 기능을 이용하는 경우, 프로그램을 선택할 때는 소망하는 프로그램명을; 방송국을 바꿀 때는 소망하는 방송국명을; 화면표시를 스크롤할 때는 "Scroll Down" 등의 커맨드를 발화한다. 유저가 발화 전에 음성 입력을 개시하는 소정의 조작을 수행한다. 본 실시 예에서는, 조작부의 입력장치에 설치된 특정 버튼이 음성 입력을 초기화하는데 이용되는 버튼(음성 처리 개시 지시 버튼)으로서 할당될 수 있다. 유저가 이 음성 처리 개시 지시 버튼을 누르면, 아래에 설명된 바와 같이, 음성 입력을 초기화한다. 유저가 음성 처리 개시 지시 버튼을 누르면, 제어기(409)가 해당 버튼의 누름을 검출한다. 그 후에, 음성 입력부(406)에서 음성의 수집을 개시한다(스텝 S101에서　"YES").

스텝 S102에서는, 표시 제어부(407)가 음성 인식 대상을 표시부(408)에 표시된 다른 대상과 구별할 수 있도록 표시 내용을 변경한다. 이때, 표시 제어부(407)는, 인식 사전 기억부(404)에 기억되어 있는 인식 사전을 참조한다. 인식 사전에 기록되어 있는 단어가 화면 표시 내에 포함되는 경우에는, 폰트, 색, 및 장식 등의 기록된 단어의 표시 형태를 변경한다. 마찬가지로, 인식 사전에 기록되어 있는 커맨드에 대응하는 GUI 부품이 화면 표시 내에 포함되는 경우에는, 그 GUI 부품의 표 시 형태를 변경한다. 그 일례를 도 20에 나타낸 화면 표시(912)에 나타낸다. 화면표시(912)에서는, 타이틀, 방송국, 및 스크롤하는 GUI 부품을 굵은 선으로 둘러싸서, 이들 둘러싸인 대상을 음성 인식 대상이라고 나타낸다.

스텝 S103에서는, 음성 입력부(406)가 수집된 음성이 순차적으로 디지털 데이터로 변환되어, 음성 인식부(405)에 의해 처리된다. 음성 인식부(405)가 유저의 발화의 종료를 검출한 시점에서, 음성 인식 처리 및 음성 입력부(406)에 있어서의 음성 입력을 종료한다. 음성 입력을 종료한 경우(스텝 S105에서　"YES"), 표시 제어부(407)는 음성 인식어의 표시를 종료한다. 특히, 스텝 S106에서는, 스텝 S102의 처리시 변경된 표시 내용을 도 20의 화면 표시(902)에 나타낸 것과 같이 되돌려 변경한다.

발화를 중단하거나 음성 처리 개시 지시 버튼을 누른 후에 수집되는 음성이 없다는 이유로, 음성 인식부(405)에서 음성 인식 처리의 결과를 취득할 수 없는 경우(스텝 S107에서　"NO"), 프로그램 검색 동작을 종료한다.

음성 인식부(405)에서 음성 인식 처리의 결과를 취득한 경우(스텝 S107에서,　"YES"), 스텝 S108에서는, 제어기(409)가 음성 인식 결과에 따라 처리를 실행한 후, 프로그램 검색 동작을 종료한다. 예를 들면, 음성 인식 결과로서 타이틀이 인식된 경우에는, 제어기(409)가 프로그램 정보 기억부(402)에 기억되어 있는 프로그램 정보 데이터를 검색한다. 타이틀에 해당하는 프로그램이 프로그램 정보 데이터 내에 기억되어 있는 경우에는, 표시 제어부(407)가 표시부(408)에 프로그램 정보를 표시시킨다. 다른 한편으로, 그러한 해당하는 타이틀이 프로그램 정보 데이터 내에 기억되어 있지 않은 경우에는, 스텝 S108에서, 표시 제어부(407)가 그 결과의 통지를 표시부(408)에 표시시킨다. 그 후, 프로그램 검색 동작을 종료한다.

상술한 본 실시 예에 따른 구성에 의하면, 유저가 수행하는 음성 입력 개시 조작에 응답해 화면 표시 내에 포함된 음성 인식 대상이 제시된다. 이와 같이, 유저가 음성 인식 기능을 이용하는 경우에는, 인식 대상에 특별한 주의를 기울이지 않고 그러한 인식 대상을 통지할 수 있다. 또, 유저가 음성 인식 기능을 이용하지 않는 경우에는, 장황함을 피하기 위해 불필요한 정보를 표시하지 않는다고 하는 효과도 있다. 본 실시 예에 따른 정보처리장치에 의하면, 유저가 음성 인식 기능을 이용하든 아니든, 조작성이 높은 음성 인터페이스를 실현할 수가 있다.

(그 외의 실시 예)

상술한 제4 실시 예에서는, 스텝 S102의 처리에서 화면에 표시된 음성 인식 대상의 표시 형태를 변경하는 경우에 대해 설명했다. 그러나, 이것과는 대조적으로, 음성 인식 대상 이외의 표시된 대상의 표시 형태를 변경해 음성 인식 대상을 구별할 수 있도록 표시 내용을 제어할 수 있다. 그 구성을 도 21에 나타낸다. 이 도면에 나타낸 바와 같이, 음성 인식 대상 이외의 대상을 나타내는 화면 표시(922) 내의 영역을 어둡게 함으로써, 음성 인식 대상을 나타내는 다른 영역과 구별할 수 있다.

또, 스텝 S102의 처리에서 음성 인식 대상을 제시할 때에, 화면 내에 표시되어 있지 않은 음성 인식어를 표시할 수 있다. 이 경우, 표시 제어부(407)는, 인식 사전 기억부(404)에 기억된 인식 사전에 기록된 단어 중, 현재 화면 내에 표시되어 있지 않은 단어를 표시하도록 표시 내용을 제어한다. 도 22는 이러한 구성을 나타낸다. 이 도면에 나타낸 바와 같이, GUI 화면에 표시되어 있지 않은 음성 인식어를 모두 별도의 윈도우(932)에 표시한다.

게다가, 스텝 S102의 처리에서 음성 인식 대상을 표시할 때에, 표시하는 단어를 생략하거나, 혹은 표시되어야 하는 생략된 명칭을 본래의 명칭으로 복귀시킬 수 있다. 이때, 관련어 데이터(601)와 인식 사전(701, 801)을 참조한다. 또한, 인식 사전(701, 801)을 참조해, 발화하는 대상의 내용과 그에 대응하는 음성표기를 표시하는 것도 가능하다. 이 구성을 도 23에 나타낸다. 이 도면에 있어서, 영역 942는 인식 사전(801)을 이용해 방송국명 "VOWVOW"의 음성 표기를 제공한 경우를 나타낸다. 영역 944는 관련어 데이터(601)를 이용해서 생략되었던 타이틀 "Hey! Poffy"를 그것의 본래의 명칭 "Hey! Hey! Poffy AKIYUKI"로 교체한 경우를 나타낸다. 영역 945는, 관련어 데이터(601)와 인식 사전(801)을 이용해, 타이틀 "Ichiro's NEWS7"의 본래의 명칭을 생략된 명칭 "NEWS7"으로 교체하고, 더 나아가서 그에 해당하는 음성표기를 제공한 경우를 나타낸다. 게다가, 영역 946은 GUI 부품에 대응하는 음성 인식어 "Scroll Down"이 단어 벌룬(balloon)을 이용해서 제시된 경우를 나타낸다. 이러한 구성에 의해, 유저는 해당 GUI 부품을 인식하기 위한 단어를 알 수 있다.

이상과 같이, 음성 인식 대상을 표시할 때, 음성표기를 부여할 수 있고, 발음하기 어려운 명칭을 교체할 수 있다. 이러한 구성에 의해, 단순히 음성 인식 대상을 다른 대상과 구별하도록 표시하는 상술한 경우에 비해, 조작성이 증가된 유저 인터페이스를 실현할 수 있다.

본 발명은, 또한 전술한 실시 예의 각 기능을 실현하는 프로그램을, 시스템 또는 장치에 직접 또는 원격으로 공급하고, 이 시스템 또는 장치가 공급된 프로그램 코드를 판독하여 실행할 수 있는 컴퓨터를 갖는 구성도 포함하고 있다.

따라서, 상술한 실시 예의 기능을 실현하는 컴퓨터에 공급 및 인스톨되는 프로그램 코드도 본 발명을 실현하는 특징이다. 즉, 상술한 실시 예의 기능을 실현하기 위한 컴퓨터 프로그램도 본 발명에 포함되어도 된다.

그 경우, 오브젝트 코드, 인터프리터에 의해 실행되는 프로그램, 오퍼레이팅 시스템에 공급되는 스크립트 데이터 등, 프로그램의 형태는 제한되지 않는다.

프로그램을 공급하기 위한 기록 매체의 예로서는, 플렉시블 디스크, 하드 디스크, 광디스크, MO(magneto-optical disks), CD-ROM(compact disk-read-only memory), CD-R(CD-recordable), CD-RW(CD-rewriteable) 등의 자기 기록매체가 있다. 기록 매체로서는, 자기테이프, 불휘발성 메모리 카드, ROM(read-only memory), DVD-ROM(digital versatile disk-ROM), DVD-R 등도 이용할 수 있다.

다른 프로그램 공급 방법으로서는, 클라이언트 컴퓨터를, 브라우저를 이용해 인터넷상의 홈 페이지에 접속해도 되고, 또 본 발명의 컴퓨터 프로그램 자체 또는 자동 인스톨 기능을 포함하는 압축된 파일을, 홈페이지로부터 하드 디스크 등의 기록 매체로 다운로드해도 된다. 또, 본 발명의 실시 예에 따른 프로그램을 구성하는 프로그램 코드를, 복수의 파일로 분할하고, 각각의 파일을 다른 홈 페이지로부터 다운로드해도 된다. 즉, 본 발명의 기능 처리를 컴퓨터로 실현하기 위한 프로그램 파일을 복수의 유저에게 다운로드시키는 WWW 서버도, 본 발명에 포함되어도 된다.

또, 본 발명의 실시 예에 따른 프로그램을 암호화해 CD-ROM 등의 기억 매체에 저장하고, 이 상태에서 유저에게 배포하는 구성이어도 되고, 이 경우, 소정의 조건을 만족하는 유저에게만, 홈 페이지로부터 암호화를 해독하는 열쇠 정보를 다운로드시켜, 그 열쇠 정보를 이용해 암호화된 프로그램을 실행해 컴퓨터에 인스톨할 수 있다.

판독한 프로그램을 컴퓨터상에 실행시킴으로써, 전술한 실시 예의 기능을 실현할 뿐 아니라, 그 프로그램의 지시에 근거해 실제 처리가 일부 또는 전부를 수행하는 컴퓨터상에서 가동하고 있는 오퍼레이팅 시스템에 의해 상술한 실시 예의 기능을 실현해도 된다.

게다가, 기록 매체로부터 판독한 프로그램을, 컴퓨터에 삽입된 기능 확장 보드나 컴퓨터에 접속된 기능확장 유닛에 설치된 메모리에 기록함으로써, 상술한 기능을 실현해도 되고, 그 프로그램의 지시에 근거해, 그 기능 확장 보드나 기능 확장 유닛의 CPU가 실제의 처리의 일부 또는 전부를 수행해도 된다.

본 발명의 예시한 실시 예를 참조하면서 설명했지만, 본 발명은 이 예시한 실시 예에 한정되지 않는다는 것을 알아야 한다. 이하의 청구항의 범주는 모든 변형, 균등 구조 및 기능을 포함하도록 가장 넓게 해석되어야 한다.

본 발명에 의하면, 음성인식을 이용한 조작이 유효한 경우라도 음성 입력을 행하지 않는 경우에는 음성 인식 단어를 유저에게 표시하지 않는다.

Claims

음성 처리 개시 지시 수단의 제1 조작을 검출하도록 구성된 제1 검출수단과,

상기 음성 처리 개시 지시 수단의 제1 조작에 응답해서, 음성 인식 정보의 표시를 제어하도록 구성된 표시 제어수단과,

상기 음성 처리 개시 지시 수단의 제2 조작을 검출하도록 구성된 제2 검출수단과,

상기 음성 처리 개시 지시 수단의 제2 조작에 응답해 음성 정보를 취득하도록 구성된 취득수단과,

상기 취득수단이 취득한 음성 정보에 대해서 음성 인식을 수행하도록 구성된 음성 인식수단을 구비한 것을 특징으로 하는 음성 정보처리장치.
제 1 항에 있어서,

상기 표시 제어수단은, 상기 음성 인식 정보가 다른 표시된 정보와 시각적으로 구별될 수 있도록 표시를 제어하는 것을 특징으로 하는 음성 정보처리장치.
제 1 항 또는 제 2 항에 있어서,

상기 음성 처리 개시 지시 수단은 버튼이고,

상기 제1 조작은 상기 버튼의 누름이며,

상기 제2 조작은 상기 버튼의 해제인 것을 특징으로 하는 음성 정보처리장치.
제 1 항 또는 제 2 항에 있어서,

상기 음성 처리 개시 지시 수단은 버튼이고,

상기 제1 조작은 상기 음성 처리 개시 지시 버튼의 부분 누름이며,

상기 제2 조작은 상기 버튼의 완전 누름인 것을 특징으로 하는 음성 정보처리장치.
제 1 항 또는 제 2 항에 있어서,

상기 표시된 음성 인식 정보 이외의 음성 인식어가 있는 경우, 상기 표시 제어수단은, 상기 표시된 음성 인식 정보뿐 아니라 상기 음성 인식어를 표시하도록 제어를 수행하는 것을 특징으로 하는 음성 정보처리장치.
제 1 항 또는 제 2 항에 있어서,

상기 표시된 음성 인식 정보에 포함된 대상이 그래픽 유저 인터페이스 부품 이면, 상기 표시 제어수단은 상기 그래픽 유저 인터페이스 부품을 인식하기 위해 사용된 명칭을 상기 그래픽 유저 인터페이스 부품과 관련지어 표시하도록 제어를 수행하는 것을 특징으로 하는 음성 정보처리장치.
제 1 항 또는 제 2 항에 있어서,

표시된 음성 인식 정보와 관련된 단어를 기억하도록 구성된 관련어 기억수단을 더 구비하고,

상기 표시 제어수단은, 표시된 음성 인식 정보에 대응하는 관련어가 기록되어 있는 경우, 상기 음성 인식 정보를 관련어로 교체하거나 또는 상기 음성 인식 정보뿐 아니라 상기 관련어도 표시하도록 제어를 수행하는 것을 특징으로 하는 음성 정보처리장치.
제 1 항 또는 제 2 항에 있어서,

상기 표시 제어수단은, 음성 인식 정보뿐 아니라 음성 인식 정보에 대한 음성표기를 표시하고, 상기 음성표기는 음성 인식어를 인식하기 위해서 사용되는 것을 특징으로 하는 음성 정보처리장치.
음성 처리 개시 지시 수단의 제1 조작을 검출하는 스텝과,

상기 제1 조작의 검출에 응답해, 음성 인식 정보를 표시하도록 표시를 제어하는 스텝과,

상기 음성 처리 개시 지시 수단의 제2 조작을 검출하는 스텝과,

상기 제2 조작에 응답해 음성 정보를 취득하는 스텝과,

상기 취득 스텝에서 취득한 음성 정보에 대하여 음성인식을 수행하는 스텝을 포함한 것을 특징으로 하는 음성 정보처리장치.
제 9 항에 있어서,

상기 음성 인식 정보가 다른 표시된 정보와 시각적으로 구별될 수 있도록 상기 표시를 제어하는 것을 특징으로 하는 음성 정보처리방법.
컴퓨터에 로딩되어 실행될 때 청구항 9 또는 10에 기재된 방법을 수행하는 프로그램을 기억한 것을 특징으로 하는 컴퓨터 판독가능한 기억매체.