KR100815731B1

KR100815731B1 - 음성 인식 방법 및 음성 인식 장치

Info

Publication number: KR100815731B1
Application number: KR1020060059540A
Authority: KR
Inventors: 겐이찌로 나까가와; 마꼬또 히로따
Original assignee: 캐논 가부시끼가이샤
Priority date: 2005-06-30
Filing date: 2006-06-29
Publication date: 2008-03-20
Also published as: ATE433180T1; EP1739656B1; JP2007010971A; JP4667138B2; KR20070003640A; CN1892819A; US7668719B2; EP1739656A2; CN1892819B; EP1739656A3; US20070005371A1; DE602006007062D1

Abstract

복수의 설정가능한 그래픽 유저 인터페이스 항목들을 포함하는 그래픽 유저 인터페이스와 함께 음성 인식을 사용하는 대화형 처리에서, 인식 대상 어휘를 감소시킴으로써 인식률이 향상된다. 디스플레이 화면에 표시되지 않은 설정가능한 그래픽 유저 인터페이스 항목이 검출되고, 수신된 음성 정보는 검출된 항목에 대응하는 음성 인식 문법을 이용하여 인식되고, 그 인식 결과를 이용하여 데이터가 항목에 설정된다.

음성 인식, 인식 문법, 인식 어휘, 그래픽 유저 인터페이스, Push To Talk 키

Description

음성 인식 방법 및 음성 인식 장치{SPEECH RECOGNITION METHOD AND SPEECH RECOGNITNION APPARATUS}

도 1은 본 발명의 실시예 1에 따른 정보 처리 장치의 기능적 구성의 예시를 보여주는 도면.

도 2는 실시예 1에 따른 정보 처리 장치의 예시적인 프로세스 플로우.

도 3은 본 발명의 실시예 2에 따른 정보 처리 장치의 기능적 구성의 예를 보여주는 도면.

도 4는 실시예 2에 따른 정보 처리 장치의 예시적인 프로세스 플로우.

도 5는 본 발명의 실시예에 따른 정보 처리 장치의 GUI 화면의 예.

도 6은 예시적인 실시예에 이용된 음성 인식 문법의 예.

도 7은 예시적인 실시예에서 정보 처리 장치의 GUI 컴포넌트 명과 음성 인식 문법 명 간의 관계를 보여주는 테이블의 예.

도 8은 GUI 화면과 GUI 표시 영역 간의 관계를 보여주는 도면.

도 9는 실시예 2에 따른 정보 처리 장치의 GUI 화면의 예.

<도면의 주요 부분에 대한 설명>

101: GUI 표시부

102: GUI 검출부

103: 비표시 영역 문법 선택부

104: 음성 인식 문법 저장부

105: 표시 영역 문법 선택부

106: 제한된 비표시 영역 문법 생성부

107: 음성 인식부

본 발명은 음성 인식 문법을 이용하여 입력된 음성을 인식하는 음성 인식 장치에 관한 것이다.

음성은 인간의 자연적인 인터페이스이고, 특히 아이들이나 노인들처럼 조작 장치에 친숙하지 않은 사용자들 또는 시각 장애인들에게 효과적인 유저 인터페이스(UI)이다. 최근에, 이러한 음성 UI와 GUI(그래픽 유저 인터페이스)를 조합한 데이터 입력 방법이 주목을 받고 있으며, 이 입력 방법은 "W3C Multimodal Interaction Activity"(http://www.w3.org/2002/mmi)에서 또는 "SALT" 포럼(http://www.saltforum.org)에서 논의되어 왔다.

일반적으로, 음성에 의한 데이터 입력은 종래의 음성 인식 기술을 사용한다. 이 음성 인식은 입력된 음성과 음성 인식 문법 내에 기술된 인식 대상 어휘를 비교하여 가장 적합한 어휘를 인식 결과로서 출력하는 처리이다. 그러나, 이 방법에 의하면, 음성 인식 문법의 규모 또는 어휘 수가 증가하면 인식 성능이 저하된다. 이러한 문제점을 해결하기 위하여, WO02/031643에서는 사용자에게 현재 GUI 상에 표시되는 입력 항목을 검출하고, 항목에 대응하는 음성 인식 문법을 사용하여 음성 인식을 수행하는 기술을 논하고 있다. 그 결과, 음성 인식에 사용되는 인식 대상 어휘의 수가 제한될 수 있고, 음성 인식 성능의 저하를 방지할 수 있다.

음성 UI를 가진 시스템에서, 사용자는 종종 특정 키(Push To Talk 키라고 부른다)를 누른 후에 말을 시작하라는 요구를 받는다. 이러한 방식은 음성 구간이 쉽게 검출되고, 시끄러운 환경에서도 음성 인식 성능의 저하가 감소된다는 장점이 있다. 복수의 Push To Talk 키들이 제공되고, 각 키가 특정 의미를 갖는 선행 기술이 존재한다. 예를 들어, 일본특허공개공보 제2003-202890호에서는, 조작되는 Push To Talk 키에 따라 사용될 음성 인식 문법의 세트가 전환되는 기술이 논의되고 있다. 그 결과, 사용자는 키를 누름으로써, 대화의 개시에 대한 정보를 줄 수 있을 뿐만 아니라, 사용될 음성 인식 문법의 세트를 선택할 수도 있다.

선행 기술 WO02/031643에 따르면, 전술한 것처럼 음성 인식에 사용된 인식 어휘는 감소할 수 있다. 그러나, WO02/031643에 의해서는 음성이 GUI 표시 영역 내의 입력 대상으로 입력되는 반면에, 표시되지 않은 입력 대상으로의 음성 입력은 고려되지 않는다. 예를 들어, 시스템을 조작하는 데 익숙한 사용자들은 표시되지 않은 입력 대상으로 항목들을 입력하고 싶어할 것이다. 그러나, WO02/031643에서는 그러한 요구에 대응하기 어렵다.

전술한 바와 같이, 일본특허공개공보 제2003-202890호는 복수의 Push To Talk 키들을 사용한 선행 기술이다. 그러나, 이러한 키들은 디스플레이의 변화에 따라 음성 인식 문법을 전환하지 않는다.

상기 과제를 해결하기 위해, 본 발명에 따라 데이터를 복수의 항목 각각에 설정하는 정보 처리 방법은 디스플레이 화면에 표시되지 않은 항목을 검출하는 단계, 검출 단계에서 검출된 항목에 대응하는 음성 인식 문법을 선택하는 단계, 선택 단계에서 선택된 음성 인식 문법을 이용하여 수신한 음성 정보를 인식하는 단계, 및 인식 단계의 인식 결과를 이용하여 데이터를 항목에 설정하는 단계를 포함한다.

또한, 상기 과제를 해결하기 위해, 본 발명에 따라 데이터를 복수의 항목 각각에 설정하는 정보 처리 방법은, 음성 인식의 개시를 지시하는 지시부로부터의 지시가 디스플레이 화면에 표시되지 않은 항목을 유효하게 하는 경우, 표시되지 않은 항목에 대응하는 음성 인식 문법을 사용하여 수신된 음성 정보를 인식하는 단계, 및 인식 단계의 인식 결과를 이용하여 항목에 데이터를 설정하는 단계를 포함한다.

또한, 상기 과제를 해결하기 위해, 본 발명에 따른 정보 처리 방법은, 디스플레이 화면에 표시되지 않은 항목을 검출하는 단계, 각 항목과 일대일 대응을 가지고 그 항목에 대응하는 인식 어휘 및 그 항목에 설정될 데이터에 대응하는 인식 어휘를 포함하는 음성 인식 문법으로부터, 검출 단계에서 비인식 대상으로 검출된 항목에 대한 데이터에 대응하는 인식 어휘를 배제한 후에 수신된 음성 정보를 인식하는 단계, 인식 단계의 인식 결과가 표시되지 않은 항목에 대응하는 인식 어휘인 경우 그 항목을 표시하는 제어를 수행하는 단계를 포함한다.

또한, 상기 과제를 해결하기 위해, 본 발명에 따라 복수의 항목 각각에 데이 터를 설정하는 정보 처리 장치는 디스플레이 화면에 표시되지 않은 항목을 검출하도록 구성된 검출부, 검출부에서 검출된 항목에 대응하는 음성 인식 문법을 선택하도록 구성된 선택부, 선택부에 의해 선택된 음성 인식 문법을 이용하여 수신된 음성 정보를 인식하도록 구성된 인식부, 및 인식부의 인식 결과를 이용하여 항목에 데이터를 설정하도록 구성된 설정부를 포함한다.

또한, 상기 과제를 해결하기 위해, 본 발명에 따라 복수의 항목 각각에 데이터를 설정하는 정보 처리 장치는 디스플레이 화면에 표시되지 않은 항목을 검출하도록 구성된 검출부, 표시되지 않은 항목에 대응하는 음성 인식 문법을 이용하여 수신된 음성 정보를 인식하도록 구성된 인식부, 및 음성 인식의 개시를 지시하는 지시부로부터의 지시가 디스플레이 화면에 표시되지 않은 항목을 활성시키는 지시인 경우, 인식부에 의해 취득된 인식 결과를 이용하여 항목에 데이터를 설정하도록 구성된 설정부를 포함한다.

또한, 상기 과제를 해결하기 위해, 본 발명에 따른 정보 처리 장치는 디스플레이 화면에 표시되지 않은 항목을 검출하도록 구성된 검출부, 각 항목과 일대일 대응을 가지고 그 항목 및 그 항목에 설정될 데이터에 대응하는 인식 어휘를 포함하는 음성 인식 문법으로부터, 검출부에 의해 비인식 대상으로 검출된 항목에 대한 데이터에 대응하는 인식 어휘를 배제한 후에 수신된 음성 정보를 인식하도록 구성된 인식부, 및 인식부에 의해 취득된 인식 결과가 표시되지 않은 항목에 대응하는 인식 어휘인 경우에 그 항목을 표시하는 제어를 수행하도록 구성된 표시 제어부를 포함한다.

본 발명의 추가적인 특징들은 첨부된 도면들을 참조하여 다음의 실시예들의 상세한 설명을 통하여 명확해질 것이다.

이하에서 본 발명의 실시예는 도면들을 참조하여 상세하게 기술된다.

명세서에 포함되어 있고 명세서의 일부를 이루는 첨부 도면은, 발명의 실시예를 도시하고, 상세한 설명과 함께 발명의 원리를 설명하는데 사용된다.

<실시예 1>

도 1은 본 발명의 예시적인 실시예 1에 따른 정보 처리 장치의 기능 구성을 나타낸다. 도 2는 정보 처리 장치의 프로세스 플로우이다. 도 5는 상기 장치의 GUI 부분의 예를 나타낸다. 예시적인 실시예 1은 이 도면들을 참조하여 기술될 것이다. 이 실시예에서는, 음성 UI와 GUI를 이용하여 설정을 행하는 복사기를 예로 들 것이다.

이제 도 1을 참조하면, 본 발명의 예시적인 실시예 1에 따른 정보 처리 장치는 GUI 표시부(101), GUI 검출부(102), 비표시 영역 문법 선택부(103), 음성 인식 문법 저장부(104), 표시 영역 문법 선택부(105), 제한된 비표시 영역 문법 생성부(106) 및 음성 인식부(107)를 포함한다.

본 장치는 사용자에게 GUI가 제공되는 디스플레이나 터치 패널과 같은 GUI 표시부(101)를 포함한다. 음성 대화 GUI1(501)과 이와 다른 음성 대화 GUI2(502)를 포함하는 GUI 화면의 예시가 도 5에 나타나 있다. 각 GUI는 묘화(rendering) 영역(503), 스크롤바(504) 및 텍스트 영역(505)을 포함한다. GUI 디스플레이 장치 의 크기 제한으로 인해, 모든 정보가 장치 내에 한꺼번에 표시되지는 않을 수도 있다. 그러한 경우, 사용자는 도 5의 참조 번호(501, 502)에 나타난 것과 같이 스크롤바(504)를 상하로 움직여서 표시 영역을 변경할 수 있다.

음성 입력 모드의 개시와 같은 특정 이벤트가 발생하면, 본 실시예의 프로세스가 시작되고, 도 2의 플로우로 진행한다. 상기 플로우는 이 단계의 GUI 화면이 참조 번호(501)의 상태에 있다고 가정하고 기술될 것이다.

우선, GUI 검출부(102)는 현재 묘화되고 있는 GUI 컴포넌트를 취득한다(S201). 여기서, "묘화(render)"와 "표시"는 구분하여 사용될 것이다. "묘화"란 GUI 컴포넌트의 뷰 데이터(view data)를 출력 장치의 메모리(예를 들면 VRAM) 상에 배치하는 것을 의미한다. "표시"란 사용자에게 시각적으로 보여질 수 있는 형식으로 화면에 출력하는 것을 의미한다.

GUI 검출부(102)에 의해 취득되는 GUI 컴포넌트를 GUI 컴포넌트 A로 지칭할 것이다. GUI 컴포넌트는 버튼, 텍스트 박스, 리스트 박스와 같이 GUI를 구성하는 요소이고, 설정될 항목을 나타낸다. 다음으로, 취득된 GUI 컴포넌트가 현재 표시되고 있는지의 여부를 결정하고, 표시되는 GUI 컴포넌트와 표시되지 않는 GUI 컴포넌트가 검출된다(S202). 컴포넌트가 표시되었는지의 여부에 대한 결정은 GUI 컴포넌트의 위치, GUI 화면의 크기, 또는 스크롤바의 상태를 참조하여 행해질 수 있다. 예를 들어, GUI 화면이 참조 번호(501)의 상태에 있을 때, GUI 화면과 실제 표시 영역 간의 관계는 GUI 화면(801), GUI 컴포넌트(802) 및 표시 영역(803)을 도시하는 도 8에 나타난다. "표시된" GUI 컴포넌트를 완전하게 보이는 GUI 컴포넌트로 정의하면, 이때 표시된 컴포넌트들은 "Paper Size"에 대응하는 텍스트 영역(2)과 "Copy Ratio"에 대응하는 텍스트 영역(3) 뿐이다.

GUI 컴포넌트 A가 표시되어 있다고 결정한 후에, 표시 영역 문법 선택부(105)는 음성 인식 문법 저장부(104)를 액세스하고, GUI 컴포넌트 A에 대응하는 음성 인식 문법을 선택하여 취득한다. 취득된 문법을 문법 A로 지칭한다(단계 S203). GUI 컴포넌트 명 및 음성 인식 문법 명 간의 관계를 나타내는 테이블은 GUI 컴포넌트에 대응하는 음성 인식 문법을 선택하기 위해 사용될 수 있다. 도 7은 그러한 테이블의 예이다. 예를 들어, GUI 컴포넌트 A가 텍스트 영역(2)인 경우에는, 음성 인식 문법 명은 PaperSize.xml이다.

한편, GUI 컴포넌트 A가 표시되어 있지 않다고 결정한 경우, 비표시 영역 문법 선택부(103)는 음성 인식 문법 저장부(104)를 액세스하고, GUI 컴포넌트 A에 대응하는 음성 인식 문법을 선택하여 취득한다. 그리고 취득된 문법은 문법 A'라고 부른다(S204). 도 7에 도시된 바와 같이, 이 경우에, GUI 컴포넌트 명과 음성 인식 문법 명 간의 관계를 나타내는 표가 사용될 수 있다. 선택된 음성 인식 문법 A'은 제한된 비표시 영역 문법 생성부(106)로 보내진다. 음성 인식 문법 A'의 내용이 분석되고, 음성 인식 문법 A' 내의 어휘를 제한하여 음성 인식 문법 A가 생성된다(S205). 즉, 문법 A는 문법 A'보다 적은 어휘를 가진다. 어휘가 제한되는 이러한 음성 인식 문법은 미리 생성될 수도 있다.

문법 내에서의 어휘의 제한은 도 6에 도시된 문법을 이용하여 설명된다. 이 음성 인식 문법은 "A4" 및 "A3"과 같은 복사 용지의 크기를 수락하고, 음성 인식 문법 사양 버전 1.0(http://www.w3.org/TR/speech-grammar/)의 언어 사양으로 기술된다. 이 음성 인식 문법(601)의 루트 룰(root rule) 명(602)은 "main" 룰이다. 따라서, 음성 인식 문법이 일반적인 방법에 의해 분석될 때, "메인(main)"이라는 이름을 가진 룰이 우선 전개된다. 메인 룰 내에서, "slot_name" 및 "slot_value"(604)의 2개 룰에 대한 참조가 이루어진다. "slot_name"은 설정될 항목 명(설정의 종류)에 대응하는 어휘 세트이고, "slot_value"는 항목 값(설정될 항목 내에 입력될 실제 데이터)에 대응하는 어휘 세트이다. 이 두 룰들의 실체(entity)는 (605)에 기술되어 있다.

즉, 음성 인식 문법을 그대로 분석하면, "slot_name"과 "slot_value" 룰들이 전개되고, "Paper Size"와 같은 항목 명과 "A4" 및 "A3"과 같은 항목 값이 인식될 수 있다. 그러나, 전개될 룰을 "slot_name"에만 제한함으로써, "Paper Size" 및 "Size"와 같은 항목 명들만이 수락될 것이다. 따라서, 설정가능한 GUI 컴포넌트가 실제로 표시될 때, 어휘는 사용 가능한 어휘의 서브세트로 제한될 것이다.

참조 번호(501)의 예에서, GUI 컴포넌트의 텍스트 영역(1) 및 텍스트 영역(4)이 표시지지 않는 것으로 간주되기 때문에, 도 7에서 "PaperNumber.xml" 및 "Density.xml"은 비표시 영역 문법(또는 음성 인식 문법 A')으로서 선택된다. 또한, 이 두 세트의 문법에 대해 배치될 룰은 항목 명만이 수락될 수 있도록 "slot_name"에 제한된다. 제한된 문법은 음성 인식 문법 A로 지칭된다.

GUI 컴포넌트 A에 대응하는 음성 인식 문법 A는 음성 인식부(107)로 보내져서 음성 인식 엔진 상에 등록된다(S206). 모든 GUI 컴포넌트들이 처리되었는지를 확인하고, 처리되었다면 등록된 문법을 이용하여 음성 인식이 수행된다(S208). 그렇지 않고, 모든 GUI 컴포넌트들이 처리된 것이 아니라면, 프로세스는 단계 S201로 돌아간다(단계 S208로 돌아가지 않는다). 그 후에, 인식 결과를 이용하여 GUI 컴포넌트에 데이터가 설정된다(S209). 이후 프로세스는 종료된다.

참조 번호(501)의 예에서, "PaperSize.xml" 및 "CopyRatio.xml"은 음성 인식 엔진 상에 그대로 등록되는 반면에, "PaperNumber.xml" 및 "Density.xml"은 항목 명만이 말해질 수 있도록 제한되어 등록된다. 따라서, 사용자는 음성에 의해 "Paper Size"와 "Copy Ratio"의 항목 값(예를 들면 "A4" 및 "400%"), 항목 명(예를 들면 "Paper Size" 및 "Copy Ratio"), 및 "Paper Number"와 "Density"의 항목 명(예를 들면 "Paper Number"와 "Density")을 입력할 수 있다. "Paper Number"와 "Density"의 항목 값은 말해지더라도 인식되지 않을 것이다.

이상은 실시예 1에 따른 장치 조작을 기술한다. 이 장치를 이용하여, 다음의 어플리케이션이 구현될 수 있다. 항목 값이 음성 인식의 결과로서 출력되는 경우에, 그 결과는 대응하는 텍스트 영역으로 입력된다. 따라서, 이것은 데이터를 설정하는 설정부를 제공한다. 예를 들어, 인식 결과 "A4"가 참조 번호(501)의 상태로 출력되는 경우에, Paper Size의 텍스트 영역에 문자열 "A4"가 입력된다. "Density"와 같은 항목 명이 인식 결과로서 출력되는 경우, 그 항목 명에 대응하는 영역을 표시하는 제어가 수행된다. 좀 더 정확히는, 화면이 그 항목 명에 대응하는 영역으로 스크롤된다. 예를 들어, 참조 번호(502)에 나타난 것처럼 화면이 스크롤된다. 일반적으로, 사용자는 GUI 상에 표시되지 않는 항목 값을 말하지 않는 다. 이러한 이유로, 표시되지 않은 항목의 항목 값이 인식 어휘로부터 제거되는 경우에도 유용성은 나빠지지 않는다고 추정된다. 반대로, 인식 어휘의 감소로 인해 인식 성능은 향상될 수 있다.

<실시예 2>

복수의 음성 인식 트리거가 실시예 1과 조합될 수 있다. 음성 입력을 사용하는 대화형 장치는 종종 사용자들로 하여금 음성을 개시하는 시점에 특정 키를 누르도록 한다. 이것은 음성 인식의 전처리부인 음성 구간 검출 처리의 정확도를 높이기 위한 것이다. 이하에서, 이 키를 Push To Talk 키라고 부른다. 장치의 유용성은 이러한 Push To Talk 키들을 복수 개 제공하고 사용자가 이 키들을 누르게 함으로써 향상될 수 있다. 이 실시예는 도 3과 도 4를 참조하여 설명된다. 도 1의 구성요소들과 동일한 도 3의 구성요소들에는 동일한 참조 번호들이 할당된다.

이제 도 3을 참조하여, 본 발명의 실시예 2에 따른 정보 처리 장치는 GUI 표시부(101), GUI 검출부(102), 비표시 영역 문법 선택부(103), 음성 인식 문법 저장부(104), 표시 영역 문법 선택부(105), 음성 인식부(107) 및 음성 인식 트리거 로딩부를 포함한다.

음성 입력 모드의 개시와 같은 특정 이벤트가 발생하면, 본 발명의 처리가 개시되어, 도 4의 플로우로 진행한다. 상기 플로우는 이 단계의 GUI 화면이 참조 번호(501)의 상태에 있다고 가정하고 설명된다. 단계 S401 내지 단계 S403의 처리들은 단계 S201 내지 단계 S203에서의 처리와 같기 때문에, 이에 대한 설명은 생략한다.

비표시 영역 문법이 비표시 영역 문법 선택부에 의해 선택된 후에(S404), 상기 문법은 GUI 컴포넌트 A에 대응하는 문법 A가 된다. 문법 A는 음성 인식부(107)에 의해 음성 인식 엔진 상에 등록된다(S405). 다음으로, 모든 GUI 컴포넌트들이 처리되었는지의 여부를 판정한다(S406). 모든 GUI 컴포넌트들이 처리되었다고 확인되면(S406에서 예), 음성 인식 트리거를 로딩한다(S407). 그렇지 않고, 모든 GUI 컴포넌트들이 처리된 것이 아니라면(S406에서 아니오), 프로세스는 단계 S401로 돌아간다. 그 후에, 트리거의 각 종류에 대응하는 문법을 이용하여 음성 인식을 수행하고(S408), 그 인식 결과를 이용하여 GUI 컴포넌트에 데이터를 설정한다(S409). 그 다음에 프로세스는 종료된다.

음성 인식 트리거가 음성 인식 트리거 로딩부(301)로부터 로딩된다(S407). 음성 인식 트리거는 음성 인식을 개시하라는 지시를 주도록 구성된 지시부이고, 이전에 Push To Talk 키로서 설명되었다. "표시" 와 "비표시"로서 표시된 두 개의 Push To Talk 키가 음성 인식 트리거를 발생시키는 디바이스로서 제공된다고 가정한다. 도 9는 GUI(902)를 표시하는 디스플레이(901)를 예시한다. 또한 도 9는 이러한 키들의 예를 나타내고, 참조 번호(903 및 904)는 "표시" 키와 "비표시" 키를 각각 나타낸다. 사용자가 "표시" 키를 누른 후에 말을 하는 경우, 음성 인식 엔진에 등록된 음성 인식 문법들 중에서 표시 영역의 문법만이 음성 인식의 수행에 사용된다(S408). 사용자가 "비표시" 키를 누른 후에 말을 하는 경우, 음성 인식은 비표시 영역 문법들만을 이용하여 수행된다.

상술한 것처럼, 사용자는 음성이 표시된 영역에 대한 것인지 또는 표시되지 않은 영역에 대한 것인지를 키 입력에 의해 지정할 수 있다. 키를 분리함으로써 음성 인식 처리에 있어서 인식 어휘를 감소시키고 인식률을 향상시킬 수 있다. 또한, 사용자는 키를 "표시"와 "비표시"로 분리함으로써 직관적으로 결정할 수 있다.

<실시예 3>

실시예 2에서 "표시"와 "비표시"로 나타내어진 두 개의 Push To Talk 키가 사용되었다. 이것은 단지 하나의 예시이고, 그 외의 키들이나 이벤트가 음성 인식 개시의 트리거로 사용될 수 있다. 예를 들어, 어떠한 키도 누르지 않고 음성을 검출하는 것을 음성 인식 개시의 트리거로서 간주할 수도 있다. 그렇게 함으로써, 키가 눌려지는 경우에는 음성 인식이 비표시 영역 문법을 이용하여 수행되고, 키가 눌려지지 않은 채로 음성이 검출되는 경우에는 음성 인식이 표시 영역 문법을 이용하여 수행된다.

전술한 바와 같이, 사용자는 현재 표시되는 영역에 대해서는 Push To Talk 키를 누르지 않고 말을 할 수 있게 된다. 반대로 키가 눌러진 경우에는 표시 영역 문법을 이용해 음성 인식을 수행하고, 키가 눌러지지 않고 음성이 검출되는 경우에는 비표시 영역 문법을 이용하여 음성 인식을 수행할 수 있다.

<실시예 4>

실시예 1에서, 표시된 GUI 컴포넌트에 대응하는 음성 인식 문법(표시 영역 문법) 및 표시되지 않은 GUI 컴포넌트에 대응하고 제한이 가해진 음성 인식 문법(제한된 비표시 영역 문법)이 음성 인식에서 사용된다. 여기에 실시예 2에서 사용된 복수의 음성 인식 개시 트리거가 조합될 수 있다.

예를 들어, "표시" 및 "비표시"로 나타내어진 두 개의 Push To Talk 키들이 사용되는 경우에, 사용자가 "표시" 키를 누른 후에 말을 하면, 음성 인식 엔진에 등록된 음성 인식 문법들 중에서 표시 영역 문법만을 사용하여 음성 인식이 수행된다. 사용자가 "비표시" 키를 누른 후에 말을 하면, 제한된 비표시 영역 문법만을 사용하여 음성 인식이 수행된다.

전술한 바와 같이, 화면에 표시되지 않는 GUI 컴포넌트에 대응하는 음성 인식 어휘가 제한될 수 있기 때문에, 음성 인식 성능의 향상이 기대된다. 또한, 음성 인식 문법이 Push To Talk 키를 선택함으로써 제한될 수도 있기 때문에, 음성 인식 어휘의 추가 감소가 기대된다.

<실시예 5>

본 발명의 목적은 상기 실시예의 기능을 구현하는 소프트웨어의 프로그램 코드를 저장한 저장 매체를 시스템 또는 장치에 공급하여, 시스템 또는 장치의 컴퓨터(또는 CPU 또는 MPU)가 저장 매체에 저장된 프로그램 코드를 검색하고 수행하도록 함으로써도 달성될 수 있다.

이 경우에, 저장 매체로부터 검색된 프로그램 코드 자체가 상기 실시예의 기능을 실현하고, 프로그램 코드를 저장한 저장 매체가 본 발명을 구성할 수 있다.

프로그램 코드를 공급하는 저장 매체의 예로는 플렉서블 디스크, 하드 디스크, 광 디스크, 광-자기 디스크, CD-ROM, CD-R, 자기 테이프, 불휘발성 메모리 카드, 및 ROM이 있다.

또한, 컴퓨터에 의해 검색된 프로그램 코드를 실행하여 상기 실시예의 기능 을 실현하는 것 외에도, 본 발명은 또한 컴퓨터 상에서 작동하는 운영체제(OS)가 프로그램 코드의 지시들에 따라 실제 프로세스의 일부 혹은 전부를 수행하고, 그 프로세스가 상기 실시예의 기능들을 실현하는 경우도 포함한다.

또한, 본 발명은 프로그램 코드가 저장 매체로부터 검색되고, 컴퓨터 내에 삽입된 기능 확장부 보드 또는 컴퓨터에 연결된 기능 확장부 내의 메모리 상에 로딩된 후에, 기능 확장부 보드 또는 기능 확장부 내의 CPU가 프로그램 코드의 지시에 따라 프로세스의 일부 혹은 전부를 처리하고, 그 프로세스가 상기 실시예의 기능들을 실현하는 경우도 포함한다.

본 발명은 실시예를 참조하여 설명되었지만, 본 발명은 예시적인 실시예에 의해 한정되는 것은 아님을 이해해야 한다. 이하의 특허청구범위의 범위는 모든 변경들, 등가 구조들 및 기능들을 포함하도록 최대한 넓게 해석되어야 한다.

본 출원은 본 명세서에서 참조로써 포함된 일본특허출원 제2005-191538호의 우선권을 주장한다.

본 발명에 따르면, 복수의 설정가능한 그래픽 유저 인터페이스 항목들을 포함하는 그래픽 유저 인터페이스와 함께 음성 인식을 사용하는 대화형 처리에서, 인식 대상 어휘를 감소시킴으로써 인식률이 향상될 수 있다.

Claims

복수의 항목의 각각에 데이터를 설정하는 정보 처리 방법으로서,

표시 화면에 표시되어 있지 않은 항목을 검지하는 검지 단계;

상기 검지 단계에서 검지한 항목에 대응한 음성 인식 문법을 선택하는 선택 단계;

상기 선택 단계에서 선택된 음성 인식 문법을 이용하여, 수신한 음성 정보를 인식하는 인식 단계; 및

상기 인식 단계에서 인식한 결과를 이용하여, 상기 항목에 데이터를 설정하는 설정 단계

를 포함하고,

상기 선택 단계에서 선택되는 음성 인식 문법은, 상기 항목이 표시되어 있을 경우에 이용되는 음성 인식 문법에 대하여, 특정한 어휘 세트가 삭제된 음성 인식 문법인 것을 특징으로 하는 정보 처리 방법.
제1항에 있어서,

상기 설정 단계는, 상기 항목에 대응하는 입력 필드에 상기 인식 단계에서 인식한 결과를 입력함으로써, 상기 항목에 데이터를 설정하는 것을 특징으로 하는 정보 처리 방법.
제1항에 있어서,

상기 설정 단계는, 상기 인식 단계에서 인식한 결과를 이용하여, 상기 항목에 대응하는 선택 대상으로부터 선택함으로써, 상기 항목에 데이터를 설정하는 것을 특징으로 하는 정보 처리 방법.
정보 처리 방법으로서,

표시 화면에 표시되어 있지 않은 항목을 검지하는 검지 단계;

각 항목에 대응지어진, 그 항목에 대응하는 인식 어휘 및 그 항목에 설정하는 데이터에 대응하는 인식 어휘로 이루어지는 음성 인식 문법 중, 상기 검지 단계에서 검지된 항목에 대해서는, 상기 데이터에 대응하는 인식 어휘는 인식 대상으로부터 제외하여, 수신한 음성 정보를 인식하는 인식 단계; 및

상기 인식 단계에서 인식한 결과가, 상기 표시되어 있지 않은 항목에 대응하는 인식 어휘이었을 경우에, 그 항목을 표시하도록 제어하는 표시 제어 단계

를 포함하는 정보 처리 방법.
제1항에 기재된 정보 처리 방법을 컴퓨터에 실행시키기 위한 제어 프로그램을 저장한 컴퓨터 판독가능한 저장매체.
제4항에 기재된 정보 처리 방법을 컴퓨터에 실행시키기 위한 제어 프로그램을 저장한 컴퓨터 판독가능한 저장매체.
복수의 항목의 각각에 데이터를 설정하는 정보 처리 장치로서,

표시 화면에 표시되어 있지 않은 항목을 검지하는 검지 수단;

상기 검지 수단에서 검지한 항목에 대응한 음성 인식 문법을 선택하는 선택 수단;

상기 선택 수단에서 선택된 음성 인식 문법을 이용하여, 수신한 음성 정보를 인식하는 인식 수단; 및

상기 인식 수단에서 인식한 결과를 이용하여, 상기 항목에 대하여 설정을 행하는 설정 수단

을 포함하고,

상기 선택 수단에서 선택되는 음성 인식 문법은, 상기 항목이 표시되어 있을 경우에 이용되는 음성 인식 문법에 대하여, 특정한 어휘 세트가 삭제된 음성 인식 문법인 것을 특징으로 하는 정보 처리 장치.
정보 처리 장치로서,

표시 화면에 표시되어 있지 않은 항목을 검지하는 검지 수단;

각 항목에 대응지어진, 그 항목에 대응하는 인식 어휘 및 그 항목에 설정하는 데이터에 대응하는 인식 어휘로 이루어지는 음성 인식 문법 중, 상기 검지 수단에서 검지된 항목에 대해서는, 상기 데이터에 대응하는 인식 어휘는 인식 대상으로부터 제외하여, 수신한 음성 정보를 인식하는 인식 수단; 및

상기 인식 수단에서 인식한 결과가, 상기 표시되어 있지 않은 항목에 대응하는 인식 어휘이었을 경우에, 그 항목을 표시하도록 제어하는 표시 제어 수단

을 포함하는 것을 특징으로 하는 정보 처리 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제