KR100815731B1 - 음성 인식 방법 및 음성 인식 장치 - Google Patents

음성 인식 방법 및 음성 인식 장치 Download PDF

Info

Publication number
KR100815731B1
KR100815731B1 KR1020060059540A KR20060059540A KR100815731B1 KR 100815731 B1 KR100815731 B1 KR 100815731B1 KR 1020060059540 A KR1020060059540 A KR 1020060059540A KR 20060059540 A KR20060059540 A KR 20060059540A KR 100815731 B1 KR100815731 B1 KR 100815731B1
Authority
KR
South Korea
Prior art keywords
item
recognition
speech recognition
grammar
displayed
Prior art date
Application number
KR1020060059540A
Other languages
English (en)
Other versions
KR20070003640A (ko
Inventor
겐이찌로 나까가와
마꼬또 히로따
Original Assignee
캐논 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 캐논 가부시끼가이샤 filed Critical 캐논 가부시끼가이샤
Publication of KR20070003640A publication Critical patent/KR20070003640A/ko
Application granted granted Critical
Publication of KR100815731B1 publication Critical patent/KR100815731B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Digital Computer Display Output (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

복수의 설정가능한 그래픽 유저 인터페이스 항목들을 포함하는 그래픽 유저 인터페이스와 함께 음성 인식을 사용하는 대화형 처리에서, 인식 대상 어휘를 감소시킴으로써 인식률이 향상된다. 디스플레이 화면에 표시되지 않은 설정가능한 그래픽 유저 인터페이스 항목이 검출되고, 수신된 음성 정보는 검출된 항목에 대응하는 음성 인식 문법을 이용하여 인식되고, 그 인식 결과를 이용하여 데이터가 항목에 설정된다.
음성 인식, 인식 문법, 인식 어휘, 그래픽 유저 인터페이스, Push To Talk 키

Description

음성 인식 방법 및 음성 인식 장치{SPEECH RECOGNITION METHOD AND SPEECH RECOGNITNION APPARATUS}
도 1은 본 발명의 실시예 1에 따른 정보 처리 장치의 기능적 구성의 예시를 보여주는 도면.
도 2는 실시예 1에 따른 정보 처리 장치의 예시적인 프로세스 플로우.
도 3은 본 발명의 실시예 2에 따른 정보 처리 장치의 기능적 구성의 예를 보여주는 도면.
도 4는 실시예 2에 따른 정보 처리 장치의 예시적인 프로세스 플로우.
도 5는 본 발명의 실시예에 따른 정보 처리 장치의 GUI 화면의 예.
도 6은 예시적인 실시예에 이용된 음성 인식 문법의 예.
도 7은 예시적인 실시예에서 정보 처리 장치의 GUI 컴포넌트 명과 음성 인식 문법 명 간의 관계를 보여주는 테이블의 예.
도 8은 GUI 화면과 GUI 표시 영역 간의 관계를 보여주는 도면.
도 9는 실시예 2에 따른 정보 처리 장치의 GUI 화면의 예.
<도면의 주요 부분에 대한 설명>
101: GUI 표시부
102: GUI 검출부
103: 비표시 영역 문법 선택부
104: 음성 인식 문법 저장부
105: 표시 영역 문법 선택부
106: 제한된 비표시 영역 문법 생성부
107: 음성 인식부
본 발명은 음성 인식 문법을 이용하여 입력된 음성을 인식하는 음성 인식 장치에 관한 것이다.
음성은 인간의 자연적인 인터페이스이고, 특히 아이들이나 노인들처럼 조작 장치에 친숙하지 않은 사용자들 또는 시각 장애인들에게 효과적인 유저 인터페이스(UI)이다. 최근에, 이러한 음성 UI와 GUI(그래픽 유저 인터페이스)를 조합한 데이터 입력 방법이 주목을 받고 있으며, 이 입력 방법은 "W3C Multimodal Interaction Activity"(http://www.w3.org/2002/mmi)에서 또는 "SALT" 포럼(http://www.saltforum.org)에서 논의되어 왔다.
일반적으로, 음성에 의한 데이터 입력은 종래의 음성 인식 기술을 사용한다. 이 음성 인식은 입력된 음성과 음성 인식 문법 내에 기술된 인식 대상 어휘를 비교하여 가장 적합한 어휘를 인식 결과로서 출력하는 처리이다. 그러나, 이 방법에 의하면, 음성 인식 문법의 규모 또는 어휘 수가 증가하면 인식 성능이 저하된다. 이러한 문제점을 해결하기 위하여, WO02/031643에서는 사용자에게 현재 GUI 상에 표시되는 입력 항목을 검출하고, 항목에 대응하는 음성 인식 문법을 사용하여 음성 인식을 수행하는 기술을 논하고 있다. 그 결과, 음성 인식에 사용되는 인식 대상 어휘의 수가 제한될 수 있고, 음성 인식 성능의 저하를 방지할 수 있다.
음성 UI를 가진 시스템에서, 사용자는 종종 특정 키(Push To Talk 키라고 부른다)를 누른 후에 말을 시작하라는 요구를 받는다. 이러한 방식은 음성 구간이 쉽게 검출되고, 시끄러운 환경에서도 음성 인식 성능의 저하가 감소된다는 장점이 있다. 복수의 Push To Talk 키들이 제공되고, 각 키가 특정 의미를 갖는 선행 기술이 존재한다. 예를 들어, 일본특허공개공보 제2003-202890호에서는, 조작되는 Push To Talk 키에 따라 사용될 음성 인식 문법의 세트가 전환되는 기술이 논의되고 있다. 그 결과, 사용자는 키를 누름으로써, 대화의 개시에 대한 정보를 줄 수 있을 뿐만 아니라, 사용될 음성 인식 문법의 세트를 선택할 수도 있다.
선행 기술 WO02/031643에 따르면, 전술한 것처럼 음성 인식에 사용된 인식 어휘는 감소할 수 있다. 그러나, WO02/031643에 의해서는 음성이 GUI 표시 영역 내의 입력 대상으로 입력되는 반면에, 표시되지 않은 입력 대상으로의 음성 입력은 고려되지 않는다. 예를 들어, 시스템을 조작하는 데 익숙한 사용자들은 표시되지 않은 입력 대상으로 항목들을 입력하고 싶어할 것이다. 그러나, WO02/031643에서는 그러한 요구에 대응하기 어렵다.
전술한 바와 같이, 일본특허공개공보 제2003-202890호는 복수의 Push To Talk 키들을 사용한 선행 기술이다. 그러나, 이러한 키들은 디스플레이의 변화에 따라 음성 인식 문법을 전환하지 않는다.
상기 과제를 해결하기 위해, 본 발명에 따라 데이터를 복수의 항목 각각에 설정하는 정보 처리 방법은 디스플레이 화면에 표시되지 않은 항목을 검출하는 단계, 검출 단계에서 검출된 항목에 대응하는 음성 인식 문법을 선택하는 단계, 선택 단계에서 선택된 음성 인식 문법을 이용하여 수신한 음성 정보를 인식하는 단계, 및 인식 단계의 인식 결과를 이용하여 데이터를 항목에 설정하는 단계를 포함한다.
또한, 상기 과제를 해결하기 위해, 본 발명에 따라 데이터를 복수의 항목 각각에 설정하는 정보 처리 방법은, 음성 인식의 개시를 지시하는 지시부로부터의 지시가 디스플레이 화면에 표시되지 않은 항목을 유효하게 하는 경우, 표시되지 않은 항목에 대응하는 음성 인식 문법을 사용하여 수신된 음성 정보를 인식하는 단계, 및 인식 단계의 인식 결과를 이용하여 항목에 데이터를 설정하는 단계를 포함한다.
또한, 상기 과제를 해결하기 위해, 본 발명에 따른 정보 처리 방법은, 디스플레이 화면에 표시되지 않은 항목을 검출하는 단계, 각 항목과 일대일 대응을 가지고 그 항목에 대응하는 인식 어휘 및 그 항목에 설정될 데이터에 대응하는 인식 어휘를 포함하는 음성 인식 문법으로부터, 검출 단계에서 비인식 대상으로 검출된 항목에 대한 데이터에 대응하는 인식 어휘를 배제한 후에 수신된 음성 정보를 인식하는 단계, 인식 단계의 인식 결과가 표시되지 않은 항목에 대응하는 인식 어휘인 경우 그 항목을 표시하는 제어를 수행하는 단계를 포함한다.
또한, 상기 과제를 해결하기 위해, 본 발명에 따라 복수의 항목 각각에 데이 터를 설정하는 정보 처리 장치는 디스플레이 화면에 표시되지 않은 항목을 검출하도록 구성된 검출부, 검출부에서 검출된 항목에 대응하는 음성 인식 문법을 선택하도록 구성된 선택부, 선택부에 의해 선택된 음성 인식 문법을 이용하여 수신된 음성 정보를 인식하도록 구성된 인식부, 및 인식부의 인식 결과를 이용하여 항목에 데이터를 설정하도록 구성된 설정부를 포함한다.
또한, 상기 과제를 해결하기 위해, 본 발명에 따라 복수의 항목 각각에 데이터를 설정하는 정보 처리 장치는 디스플레이 화면에 표시되지 않은 항목을 검출하도록 구성된 검출부, 표시되지 않은 항목에 대응하는 음성 인식 문법을 이용하여 수신된 음성 정보를 인식하도록 구성된 인식부, 및 음성 인식의 개시를 지시하는 지시부로부터의 지시가 디스플레이 화면에 표시되지 않은 항목을 활성시키는 지시인 경우, 인식부에 의해 취득된 인식 결과를 이용하여 항목에 데이터를 설정하도록 구성된 설정부를 포함한다.
또한, 상기 과제를 해결하기 위해, 본 발명에 따른 정보 처리 장치는 디스플레이 화면에 표시되지 않은 항목을 검출하도록 구성된 검출부, 각 항목과 일대일 대응을 가지고 그 항목 및 그 항목에 설정될 데이터에 대응하는 인식 어휘를 포함하는 음성 인식 문법으로부터, 검출부에 의해 비인식 대상으로 검출된 항목에 대한 데이터에 대응하는 인식 어휘를 배제한 후에 수신된 음성 정보를 인식하도록 구성된 인식부, 및 인식부에 의해 취득된 인식 결과가 표시되지 않은 항목에 대응하는 인식 어휘인 경우에 그 항목을 표시하는 제어를 수행하도록 구성된 표시 제어부를 포함한다.
본 발명의 추가적인 특징들은 첨부된 도면들을 참조하여 다음의 실시예들의 상세한 설명을 통하여 명확해질 것이다.
이하에서 본 발명의 실시예는 도면들을 참조하여 상세하게 기술된다.
명세서에 포함되어 있고 명세서의 일부를 이루는 첨부 도면은, 발명의 실시예를 도시하고, 상세한 설명과 함께 발명의 원리를 설명하는데 사용된다.
<실시예 1>
도 1은 본 발명의 예시적인 실시예 1에 따른 정보 처리 장치의 기능 구성을 나타낸다. 도 2는 정보 처리 장치의 프로세스 플로우이다. 도 5는 상기 장치의 GUI 부분의 예를 나타낸다. 예시적인 실시예 1은 이 도면들을 참조하여 기술될 것이다. 이 실시예에서는, 음성 UI와 GUI를 이용하여 설정을 행하는 복사기를 예로 들 것이다.
이제 도 1을 참조하면, 본 발명의 예시적인 실시예 1에 따른 정보 처리 장치는 GUI 표시부(101), GUI 검출부(102), 비표시 영역 문법 선택부(103), 음성 인식 문법 저장부(104), 표시 영역 문법 선택부(105), 제한된 비표시 영역 문법 생성부(106) 및 음성 인식부(107)를 포함한다.
본 장치는 사용자에게 GUI가 제공되는 디스플레이나 터치 패널과 같은 GUI 표시부(101)를 포함한다. 음성 대화 GUI1(501)과 이와 다른 음성 대화 GUI2(502)를 포함하는 GUI 화면의 예시가 도 5에 나타나 있다. 각 GUI는 묘화(rendering) 영역(503), 스크롤바(504) 및 텍스트 영역(505)을 포함한다. GUI 디스플레이 장치 의 크기 제한으로 인해, 모든 정보가 장치 내에 한꺼번에 표시되지는 않을 수도 있다. 그러한 경우, 사용자는 도 5의 참조 번호(501, 502)에 나타난 것과 같이 스크롤바(504)를 상하로 움직여서 표시 영역을 변경할 수 있다.
음성 입력 모드의 개시와 같은 특정 이벤트가 발생하면, 본 실시예의 프로세스가 시작되고, 도 2의 플로우로 진행한다. 상기 플로우는 이 단계의 GUI 화면이 참조 번호(501)의 상태에 있다고 가정하고 기술될 것이다.
우선, GUI 검출부(102)는 현재 묘화되고 있는 GUI 컴포넌트를 취득한다(S201). 여기서, "묘화(render)"와 "표시"는 구분하여 사용될 것이다. "묘화"란 GUI 컴포넌트의 뷰 데이터(view data)를 출력 장치의 메모리(예를 들면 VRAM) 상에 배치하는 것을 의미한다. "표시"란 사용자에게 시각적으로 보여질 수 있는 형식으로 화면에 출력하는 것을 의미한다.
GUI 검출부(102)에 의해 취득되는 GUI 컴포넌트를 GUI 컴포넌트 A로 지칭할 것이다. GUI 컴포넌트는 버튼, 텍스트 박스, 리스트 박스와 같이 GUI를 구성하는 요소이고, 설정될 항목을 나타낸다. 다음으로, 취득된 GUI 컴포넌트가 현재 표시되고 있는지의 여부를 결정하고, 표시되는 GUI 컴포넌트와 표시되지 않는 GUI 컴포넌트가 검출된다(S202). 컴포넌트가 표시되었는지의 여부에 대한 결정은 GUI 컴포넌트의 위치, GUI 화면의 크기, 또는 스크롤바의 상태를 참조하여 행해질 수 있다. 예를 들어, GUI 화면이 참조 번호(501)의 상태에 있을 때, GUI 화면과 실제 표시 영역 간의 관계는 GUI 화면(801), GUI 컴포넌트(802) 및 표시 영역(803)을 도시하는 도 8에 나타난다. "표시된" GUI 컴포넌트를 완전하게 보이는 GUI 컴포넌트로 정의하면, 이때 표시된 컴포넌트들은 "Paper Size"에 대응하는 텍스트 영역(2)과 "Copy Ratio"에 대응하는 텍스트 영역(3) 뿐이다.
GUI 컴포넌트 A가 표시되어 있다고 결정한 후에, 표시 영역 문법 선택부(105)는 음성 인식 문법 저장부(104)를 액세스하고, GUI 컴포넌트 A에 대응하는 음성 인식 문법을 선택하여 취득한다. 취득된 문법을 문법 A로 지칭한다(단계 S203). GUI 컴포넌트 명 및 음성 인식 문법 명 간의 관계를 나타내는 테이블은 GUI 컴포넌트에 대응하는 음성 인식 문법을 선택하기 위해 사용될 수 있다. 도 7은 그러한 테이블의 예이다. 예를 들어, GUI 컴포넌트 A가 텍스트 영역(2)인 경우에는, 음성 인식 문법 명은 PaperSize.xml이다.
한편, GUI 컴포넌트 A가 표시되어 있지 않다고 결정한 경우, 비표시 영역 문법 선택부(103)는 음성 인식 문법 저장부(104)를 액세스하고, GUI 컴포넌트 A에 대응하는 음성 인식 문법을 선택하여 취득한다. 그리고 취득된 문법은 문법 A'라고 부른다(S204). 도 7에 도시된 바와 같이, 이 경우에, GUI 컴포넌트 명과 음성 인식 문법 명 간의 관계를 나타내는 표가 사용될 수 있다. 선택된 음성 인식 문법 A'은 제한된 비표시 영역 문법 생성부(106)로 보내진다. 음성 인식 문법 A'의 내용이 분석되고, 음성 인식 문법 A' 내의 어휘를 제한하여 음성 인식 문법 A가 생성된다(S205). 즉, 문법 A는 문법 A'보다 적은 어휘를 가진다. 어휘가 제한되는 이러한 음성 인식 문법은 미리 생성될 수도 있다.
문법 내에서의 어휘의 제한은 도 6에 도시된 문법을 이용하여 설명된다. 이 음성 인식 문법은 "A4" 및 "A3"과 같은 복사 용지의 크기를 수락하고, 음성 인식 문법 사양 버전 1.0(http://www.w3.org/TR/speech-grammar/)의 언어 사양으로 기술된다. 이 음성 인식 문법(601)의 루트 룰(root rule) 명(602)은 "main" 룰이다. 따라서, 음성 인식 문법이 일반적인 방법에 의해 분석될 때, "메인(main)"이라는 이름을 가진 룰이 우선 전개된다. 메인 룰 내에서, "slot_name" 및 "slot_value"(604)의 2개 룰에 대한 참조가 이루어진다. "slot_name"은 설정될 항목 명(설정의 종류)에 대응하는 어휘 세트이고, "slot_value"는 항목 값(설정될 항목 내에 입력될 실제 데이터)에 대응하는 어휘 세트이다. 이 두 룰들의 실체(entity)는 (605)에 기술되어 있다.
즉, 음성 인식 문법을 그대로 분석하면, "slot_name"과 "slot_value" 룰들이 전개되고, "Paper Size"와 같은 항목 명과 "A4" 및 "A3"과 같은 항목 값이 인식될 수 있다. 그러나, 전개될 룰을 "slot_name"에만 제한함으로써, "Paper Size" 및 "Size"와 같은 항목 명들만이 수락될 것이다. 따라서, 설정가능한 GUI 컴포넌트가 실제로 표시될 때, 어휘는 사용 가능한 어휘의 서브세트로 제한될 것이다.
참조 번호(501)의 예에서, GUI 컴포넌트의 텍스트 영역(1) 및 텍스트 영역(4)이 표시지지 않는 것으로 간주되기 때문에, 도 7에서 "PaperNumber.xml" 및 "Density.xml"은 비표시 영역 문법(또는 음성 인식 문법 A')으로서 선택된다. 또한, 이 두 세트의 문법에 대해 배치될 룰은 항목 명만이 수락될 수 있도록 "slot_name"에 제한된다. 제한된 문법은 음성 인식 문법 A로 지칭된다.
GUI 컴포넌트 A에 대응하는 음성 인식 문법 A는 음성 인식부(107)로 보내져서 음성 인식 엔진 상에 등록된다(S206). 모든 GUI 컴포넌트들이 처리되었는지를 확인하고, 처리되었다면 등록된 문법을 이용하여 음성 인식이 수행된다(S208). 그렇지 않고, 모든 GUI 컴포넌트들이 처리된 것이 아니라면, 프로세스는 단계 S201로 돌아간다(단계 S208로 돌아가지 않는다). 그 후에, 인식 결과를 이용하여 GUI 컴포넌트에 데이터가 설정된다(S209). 이후 프로세스는 종료된다.
참조 번호(501)의 예에서, "PaperSize.xml" 및 "CopyRatio.xml"은 음성 인식 엔진 상에 그대로 등록되는 반면에, "PaperNumber.xml" 및 "Density.xml"은 항목 명만이 말해질 수 있도록 제한되어 등록된다. 따라서, 사용자는 음성에 의해 "Paper Size"와 "Copy Ratio"의 항목 값(예를 들면 "A4" 및 "400%"), 항목 명(예를 들면 "Paper Size" 및 "Copy Ratio"), 및 "Paper Number"와 "Density"의 항목 명(예를 들면 "Paper Number"와 "Density")을 입력할 수 있다. "Paper Number"와 "Density"의 항목 값은 말해지더라도 인식되지 않을 것이다.
이상은 실시예 1에 따른 장치 조작을 기술한다. 이 장치를 이용하여, 다음의 어플리케이션이 구현될 수 있다. 항목 값이 음성 인식의 결과로서 출력되는 경우에, 그 결과는 대응하는 텍스트 영역으로 입력된다. 따라서, 이것은 데이터를 설정하는 설정부를 제공한다. 예를 들어, 인식 결과 "A4"가 참조 번호(501)의 상태로 출력되는 경우에, Paper Size의 텍스트 영역에 문자열 "A4"가 입력된다. "Density"와 같은 항목 명이 인식 결과로서 출력되는 경우, 그 항목 명에 대응하는 영역을 표시하는 제어가 수행된다. 좀 더 정확히는, 화면이 그 항목 명에 대응하는 영역으로 스크롤된다. 예를 들어, 참조 번호(502)에 나타난 것처럼 화면이 스크롤된다. 일반적으로, 사용자는 GUI 상에 표시되지 않는 항목 값을 말하지 않는 다. 이러한 이유로, 표시되지 않은 항목의 항목 값이 인식 어휘로부터 제거되는 경우에도 유용성은 나빠지지 않는다고 추정된다. 반대로, 인식 어휘의 감소로 인해 인식 성능은 향상될 수 있다.
<실시예 2>
복수의 음성 인식 트리거가 실시예 1과 조합될 수 있다. 음성 입력을 사용하는 대화형 장치는 종종 사용자들로 하여금 음성을 개시하는 시점에 특정 키를 누르도록 한다. 이것은 음성 인식의 전처리부인 음성 구간 검출 처리의 정확도를 높이기 위한 것이다. 이하에서, 이 키를 Push To Talk 키라고 부른다. 장치의 유용성은 이러한 Push To Talk 키들을 복수 개 제공하고 사용자가 이 키들을 누르게 함으로써 향상될 수 있다. 이 실시예는 도 3과 도 4를 참조하여 설명된다. 도 1의 구성요소들과 동일한 도 3의 구성요소들에는 동일한 참조 번호들이 할당된다.
이제 도 3을 참조하여, 본 발명의 실시예 2에 따른 정보 처리 장치는 GUI 표시부(101), GUI 검출부(102), 비표시 영역 문법 선택부(103), 음성 인식 문법 저장부(104), 표시 영역 문법 선택부(105), 음성 인식부(107) 및 음성 인식 트리거 로딩부를 포함한다.
음성 입력 모드의 개시와 같은 특정 이벤트가 발생하면, 본 발명의 처리가 개시되어, 도 4의 플로우로 진행한다. 상기 플로우는 이 단계의 GUI 화면이 참조 번호(501)의 상태에 있다고 가정하고 설명된다. 단계 S401 내지 단계 S403의 처리들은 단계 S201 내지 단계 S203에서의 처리와 같기 때문에, 이에 대한 설명은 생략한다.
비표시 영역 문법이 비표시 영역 문법 선택부에 의해 선택된 후에(S404), 상기 문법은 GUI 컴포넌트 A에 대응하는 문법 A가 된다. 문법 A는 음성 인식부(107)에 의해 음성 인식 엔진 상에 등록된다(S405). 다음으로, 모든 GUI 컴포넌트들이 처리되었는지의 여부를 판정한다(S406). 모든 GUI 컴포넌트들이 처리되었다고 확인되면(S406에서 예), 음성 인식 트리거를 로딩한다(S407). 그렇지 않고, 모든 GUI 컴포넌트들이 처리된 것이 아니라면(S406에서 아니오), 프로세스는 단계 S401로 돌아간다. 그 후에, 트리거의 각 종류에 대응하는 문법을 이용하여 음성 인식을 수행하고(S408), 그 인식 결과를 이용하여 GUI 컴포넌트에 데이터를 설정한다(S409). 그 다음에 프로세스는 종료된다.
음성 인식 트리거가 음성 인식 트리거 로딩부(301)로부터 로딩된다(S407). 음성 인식 트리거는 음성 인식을 개시하라는 지시를 주도록 구성된 지시부이고, 이전에 Push To Talk 키로서 설명되었다. "표시" 와 "비표시"로서 표시된 두 개의 Push To Talk 키가 음성 인식 트리거를 발생시키는 디바이스로서 제공된다고 가정한다. 도 9는 GUI(902)를 표시하는 디스플레이(901)를 예시한다. 또한 도 9는 이러한 키들의 예를 나타내고, 참조 번호(903 및 904)는 "표시" 키와 "비표시" 키를 각각 나타낸다. 사용자가 "표시" 키를 누른 후에 말을 하는 경우, 음성 인식 엔진에 등록된 음성 인식 문법들 중에서 표시 영역의 문법만이 음성 인식의 수행에 사용된다(S408). 사용자가 "비표시" 키를 누른 후에 말을 하는 경우, 음성 인식은 비표시 영역 문법들만을 이용하여 수행된다.
상술한 것처럼, 사용자는 음성이 표시된 영역에 대한 것인지 또는 표시되지 않은 영역에 대한 것인지를 키 입력에 의해 지정할 수 있다. 키를 분리함으로써 음성 인식 처리에 있어서 인식 어휘를 감소시키고 인식률을 향상시킬 수 있다. 또한, 사용자는 키를 "표시"와 "비표시"로 분리함으로써 직관적으로 결정할 수 있다.
<실시예 3>
실시예 2에서 "표시"와 "비표시"로 나타내어진 두 개의 Push To Talk 키가 사용되었다. 이것은 단지 하나의 예시이고, 그 외의 키들이나 이벤트가 음성 인식 개시의 트리거로 사용될 수 있다. 예를 들어, 어떠한 키도 누르지 않고 음성을 검출하는 것을 음성 인식 개시의 트리거로서 간주할 수도 있다. 그렇게 함으로써, 키가 눌려지는 경우에는 음성 인식이 비표시 영역 문법을 이용하여 수행되고, 키가 눌려지지 않은 채로 음성이 검출되는 경우에는 음성 인식이 표시 영역 문법을 이용하여 수행된다.
전술한 바와 같이, 사용자는 현재 표시되는 영역에 대해서는 Push To Talk 키를 누르지 않고 말을 할 수 있게 된다. 반대로 키가 눌러진 경우에는 표시 영역 문법을 이용해 음성 인식을 수행하고, 키가 눌러지지 않고 음성이 검출되는 경우에는 비표시 영역 문법을 이용하여 음성 인식을 수행할 수 있다.
<실시예 4>
실시예 1에서, 표시된 GUI 컴포넌트에 대응하는 음성 인식 문법(표시 영역 문법) 및 표시되지 않은 GUI 컴포넌트에 대응하고 제한이 가해진 음성 인식 문법(제한된 비표시 영역 문법)이 음성 인식에서 사용된다. 여기에 실시예 2에서 사용된 복수의 음성 인식 개시 트리거가 조합될 수 있다.
예를 들어, "표시" 및 "비표시"로 나타내어진 두 개의 Push To Talk 키들이 사용되는 경우에, 사용자가 "표시" 키를 누른 후에 말을 하면, 음성 인식 엔진에 등록된 음성 인식 문법들 중에서 표시 영역 문법만을 사용하여 음성 인식이 수행된다. 사용자가 "비표시" 키를 누른 후에 말을 하면, 제한된 비표시 영역 문법만을 사용하여 음성 인식이 수행된다.
전술한 바와 같이, 화면에 표시되지 않는 GUI 컴포넌트에 대응하는 음성 인식 어휘가 제한될 수 있기 때문에, 음성 인식 성능의 향상이 기대된다. 또한, 음성 인식 문법이 Push To Talk 키를 선택함으로써 제한될 수도 있기 때문에, 음성 인식 어휘의 추가 감소가 기대된다.
<실시예 5>
본 발명의 목적은 상기 실시예의 기능을 구현하는 소프트웨어의 프로그램 코드를 저장한 저장 매체를 시스템 또는 장치에 공급하여, 시스템 또는 장치의 컴퓨터(또는 CPU 또는 MPU)가 저장 매체에 저장된 프로그램 코드를 검색하고 수행하도록 함으로써도 달성될 수 있다.
이 경우에, 저장 매체로부터 검색된 프로그램 코드 자체가 상기 실시예의 기능을 실현하고, 프로그램 코드를 저장한 저장 매체가 본 발명을 구성할 수 있다.
프로그램 코드를 공급하는 저장 매체의 예로는 플렉서블 디스크, 하드 디스크, 광 디스크, 광-자기 디스크, CD-ROM, CD-R, 자기 테이프, 불휘발성 메모리 카드, 및 ROM이 있다.
또한, 컴퓨터에 의해 검색된 프로그램 코드를 실행하여 상기 실시예의 기능 을 실현하는 것 외에도, 본 발명은 또한 컴퓨터 상에서 작동하는 운영체제(OS)가 프로그램 코드의 지시들에 따라 실제 프로세스의 일부 혹은 전부를 수행하고, 그 프로세스가 상기 실시예의 기능들을 실현하는 경우도 포함한다.
또한, 본 발명은 프로그램 코드가 저장 매체로부터 검색되고, 컴퓨터 내에 삽입된 기능 확장부 보드 또는 컴퓨터에 연결된 기능 확장부 내의 메모리 상에 로딩된 후에, 기능 확장부 보드 또는 기능 확장부 내의 CPU가 프로그램 코드의 지시에 따라 프로세스의 일부 혹은 전부를 처리하고, 그 프로세스가 상기 실시예의 기능들을 실현하는 경우도 포함한다.
본 발명은 실시예를 참조하여 설명되었지만, 본 발명은 예시적인 실시예에 의해 한정되는 것은 아님을 이해해야 한다. 이하의 특허청구범위의 범위는 모든 변경들, 등가 구조들 및 기능들을 포함하도록 최대한 넓게 해석되어야 한다.
본 출원은 본 명세서에서 참조로써 포함된 일본특허출원 제2005-191538호의 우선권을 주장한다.
본 발명에 따르면, 복수의 설정가능한 그래픽 유저 인터페이스 항목들을 포함하는 그래픽 유저 인터페이스와 함께 음성 인식을 사용하는 대화형 처리에서, 인식 대상 어휘를 감소시킴으로써 인식률이 향상될 수 있다.

Claims (19)

  1. 복수의 항목의 각각에 데이터를 설정하는 정보 처리 방법으로서,
    표시 화면에 표시되어 있지 않은 항목을 검지하는 검지 단계;
    상기 검지 단계에서 검지한 항목에 대응한 음성 인식 문법을 선택하는 선택 단계;
    상기 선택 단계에서 선택된 음성 인식 문법을 이용하여, 수신한 음성 정보를 인식하는 인식 단계; 및
    상기 인식 단계에서 인식한 결과를 이용하여, 상기 항목에 데이터를 설정하는 설정 단계
    를 포함하고,
    상기 선택 단계에서 선택되는 음성 인식 문법은, 상기 항목이 표시되어 있을 경우에 이용되는 음성 인식 문법에 대하여, 특정한 어휘 세트가 삭제된 음성 인식 문법인 것을 특징으로 하는 정보 처리 방법.
  2. 제1항에 있어서,
    상기 설정 단계는, 상기 항목에 대응하는 입력 필드에 상기 인식 단계에서 인식한 결과를 입력함으로써, 상기 항목에 데이터를 설정하는 것을 특징으로 하는 정보 처리 방법.
  3. 제1항에 있어서,
    상기 설정 단계는, 상기 인식 단계에서 인식한 결과를 이용하여, 상기 항목에 대응하는 선택 대상으로부터 선택함으로써, 상기 항목에 데이터를 설정하는 것을 특징으로 하는 정보 처리 방법.
  4. 정보 처리 방법으로서,
    표시 화면에 표시되어 있지 않은 항목을 검지하는 검지 단계;
    각 항목에 대응지어진, 그 항목에 대응하는 인식 어휘 및 그 항목에 설정하는 데이터에 대응하는 인식 어휘로 이루어지는 음성 인식 문법 중, 상기 검지 단계에서 검지된 항목에 대해서는, 상기 데이터에 대응하는 인식 어휘는 인식 대상으로부터 제외하여, 수신한 음성 정보를 인식하는 인식 단계; 및
    상기 인식 단계에서 인식한 결과가, 상기 표시되어 있지 않은 항목에 대응하는 인식 어휘이었을 경우에, 그 항목을 표시하도록 제어하는 표시 제어 단계
    를 포함하는 정보 처리 방법.
  5. 제1항에 기재된 정보 처리 방법을 컴퓨터에 실행시키기 위한 제어 프로그램을 저장한 컴퓨터 판독가능한 저장매체.
  6. 제4항에 기재된 정보 처리 방법을 컴퓨터에 실행시키기 위한 제어 프로그램을 저장한 컴퓨터 판독가능한 저장매체.
  7. 복수의 항목의 각각에 데이터를 설정하는 정보 처리 장치로서,
    표시 화면에 표시되어 있지 않은 항목을 검지하는 검지 수단;
    상기 검지 수단에서 검지한 항목에 대응한 음성 인식 문법을 선택하는 선택 수단;
    상기 선택 수단에서 선택된 음성 인식 문법을 이용하여, 수신한 음성 정보를 인식하는 인식 수단; 및
    상기 인식 수단에서 인식한 결과를 이용하여, 상기 항목에 대하여 설정을 행하는 설정 수단
    을 포함하고,
    상기 선택 수단에서 선택되는 음성 인식 문법은, 상기 항목이 표시되어 있을 경우에 이용되는 음성 인식 문법에 대하여, 특정한 어휘 세트가 삭제된 음성 인식 문법인 것을 특징으로 하는 정보 처리 장치.
  8. 정보 처리 장치로서,
    표시 화면에 표시되어 있지 않은 항목을 검지하는 검지 수단;
    각 항목에 대응지어진, 그 항목에 대응하는 인식 어휘 및 그 항목에 설정하는 데이터에 대응하는 인식 어휘로 이루어지는 음성 인식 문법 중, 상기 검지 수단에서 검지된 항목에 대해서는, 상기 데이터에 대응하는 인식 어휘는 인식 대상으로부터 제외하여, 수신한 음성 정보를 인식하는 인식 수단; 및
    상기 인식 수단에서 인식한 결과가, 상기 표시되어 있지 않은 항목에 대응하는 인식 어휘이었을 경우에, 그 항목을 표시하도록 제어하는 표시 제어 수단
    을 포함하는 것을 특징으로 하는 정보 처리 장치.
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
KR1020060059540A 2005-06-30 2006-06-29 음성 인식 방법 및 음성 인식 장치 KR100815731B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2005-00191538 2005-06-30
JP2005191538A JP4667138B2 (ja) 2005-06-30 2005-06-30 音声認識方法及び音声認識装置

Publications (2)

Publication Number Publication Date
KR20070003640A KR20070003640A (ko) 2007-01-05
KR100815731B1 true KR100815731B1 (ko) 2008-03-20

Family

ID=37067634

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060059540A KR100815731B1 (ko) 2005-06-30 2006-06-29 음성 인식 방법 및 음성 인식 장치

Country Status (7)

Country Link
US (1) US7668719B2 (ko)
EP (1) EP1739656B1 (ko)
JP (1) JP4667138B2 (ko)
KR (1) KR100815731B1 (ko)
CN (1) CN1892819B (ko)
AT (1) ATE433180T1 (ko)
DE (1) DE602006007062D1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101207435B1 (ko) 2012-07-09 2012-12-04 다이알로이드(주) 대화형 음성인식 서버, 대화형 음성인식 클라이언트 및 대화형 음성인식 방법

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4878471B2 (ja) * 2005-11-02 2012-02-15 キヤノン株式会社 情報処理装置およびその制御方法
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
WO2008136081A1 (ja) * 2007-04-20 2008-11-13 Mitsubishi Electric Corporation ユーザインタフェース装置及びユーザインタフェース設計装置
US8306810B2 (en) * 2008-02-12 2012-11-06 Ezsav Inc. Systems and methods to enable interactivity among a plurality of devices
US9519353B2 (en) * 2009-03-30 2016-12-13 Symbol Technologies, Llc Combined speech and touch input for observation symbol mappings
KR101597289B1 (ko) * 2009-07-31 2016-03-08 삼성전자주식회사 동적 화면에 따라 음성을 인식하는 장치 및 방법
DE102009059792A1 (de) * 2009-12-21 2011-06-22 Continental Automotive GmbH, 30165 Verfahren und Vorrichtung zur Bedienung technischer Einrichtungen, insbesondere eines Kraftfahrzeugs
CN103204100B (zh) * 2013-04-08 2015-08-05 浙江海联电子股份有限公司 一种出租车顶灯语音控制系统
US9430186B2 (en) * 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
CN106098066B (zh) * 2016-06-02 2020-01-17 深圳市智物联网络有限公司 语音识别方法及装置
US10515625B1 (en) 2017-08-31 2019-12-24 Amazon Technologies, Inc. Multi-modal natural language processing
CN110569017A (zh) * 2019-09-12 2019-12-13 四川长虹电器股份有限公司 基于语音的文本输入方法
US11967306B2 (en) 2021-04-14 2024-04-23 Honeywell International Inc. Contextual speech recognition methods and systems

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000021073A1 (en) * 1998-10-02 2000-04-13 International Business Machines Corporation Structure skeletons for efficient voice navigation through generic hierarchical objects
JP2000268046A (ja) 1999-03-17 2000-09-29 Sharp Corp 情報処理装置
KR20000067827A (ko) * 1998-12-17 2000-11-25 포만 제프리 엘 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법
US6182046B1 (en) 1998-03-26 2001-01-30 International Business Machines Corp. Managing voice commands in speech applications
JP2002062213A (ja) * 2000-08-22 2002-02-28 Airec Engineering Corp 光ファイバ湿潤度センサ及びこのセンサを用いた湿潤度計測装置
KR20050015585A (ko) * 2003-08-06 2005-02-21 삼성전자주식회사 향상된 음성인식 장치 및 방법

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
JP3286339B2 (ja) * 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
US5890122A (en) * 1993-02-08 1999-03-30 Microsoft Corporation Voice-controlled computer simulateously displaying application menu and list of available commands
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
JPH10222337A (ja) * 1997-02-13 1998-08-21 Meidensha Corp コンピュータシステム
US5897618A (en) * 1997-03-10 1999-04-27 International Business Machines Corporation Data processing system and method for switching between programs having a same title using a voice command
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
JP2001042890A (ja) * 1999-07-30 2001-02-16 Toshiba Tec Corp 音声認識装置
JP3774698B2 (ja) 2000-10-11 2006-05-17 キヤノン株式会社 情報処理装置、情報処理方法及び記憶媒体
CN1156751C (zh) * 2001-02-02 2004-07-07 国际商业机器公司 用于自动生成语音xml文件的方法和系统
JP4056711B2 (ja) * 2001-03-19 2008-03-05 日産自動車株式会社 音声認識装置
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
JP2003202890A (ja) 2001-12-28 2003-07-18 Canon Inc 音声認識装置及びその方法、プログラム
JP2004219728A (ja) * 2003-01-15 2004-08-05 Matsushita Electric Ind Co Ltd 音声認識装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182046B1 (en) 1998-03-26 2001-01-30 International Business Machines Corp. Managing voice commands in speech applications
WO2000021073A1 (en) * 1998-10-02 2000-04-13 International Business Machines Corporation Structure skeletons for efficient voice navigation through generic hierarchical objects
KR20010073105A (ko) * 1998-10-02 2001-07-31 포만 제프리 엘 통상의 계층 오브젝트를 사용한 효과적인 음성네비게이션용 뼈대 구조 시스템
KR20000067827A (ko) * 1998-12-17 2000-11-25 포만 제프리 엘 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법
JP2000268046A (ja) 1999-03-17 2000-09-29 Sharp Corp 情報処理装置
JP2002062213A (ja) * 2000-08-22 2002-02-28 Airec Engineering Corp 光ファイバ湿潤度センサ及びこのセンサを用いた湿潤度計測装置
KR20050015585A (ko) * 2003-08-06 2005-02-21 삼성전자주식회사 향상된 음성인식 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101207435B1 (ko) 2012-07-09 2012-12-04 다이알로이드(주) 대화형 음성인식 서버, 대화형 음성인식 클라이언트 및 대화형 음성인식 방법

Also Published As

Publication number Publication date
ATE433180T1 (de) 2009-06-15
EP1739656B1 (en) 2009-06-03
JP2007010971A (ja) 2007-01-18
JP4667138B2 (ja) 2011-04-06
KR20070003640A (ko) 2007-01-05
CN1892819A (zh) 2007-01-10
US7668719B2 (en) 2010-02-23
EP1739656A2 (en) 2007-01-03
CN1892819B (zh) 2010-04-21
EP1739656A3 (en) 2007-02-28
US20070005371A1 (en) 2007-01-04
DE602006007062D1 (de) 2009-07-16

Similar Documents

Publication Publication Date Title
KR100815731B1 (ko) 음성 인식 방법 및 음성 인식 장치
JP4878471B2 (ja) 情報処理装置およびその制御方法
JP5892244B2 (ja) 文字入力プロンプト方法および電子デバイス
KR100790700B1 (ko) 문자 규정 방법 및 문자 선택 장치
US7630901B2 (en) Multimodal input method
US8413050B2 (en) Information entry mechanism for small keypads
US6401065B1 (en) Intelligent keyboard interface with use of human language processing
EP1544719A2 (en) Information processing apparatus and input method
US20120123781A1 (en) Touch screen device for allowing blind people to operate objects displayed thereon and object operating method in the touch screen device
KR102249054B1 (ko) 온스크린 키보드에 대한 빠른 작업
TWI510965B (zh) 輸入方法編輯器整合
US20100231523A1 (en) Zhuyin Input Interface on a Device
JP5521028B2 (ja) インプットメソッドエディタ
CN103026318A (zh) 输入法编辑器
JP7132538B2 (ja) 検索結果表示装置、検索結果表示方法、及びプログラム
US6991162B2 (en) Handheld device with tract input function
JP2000122768A (ja) 文字入力装置、方法および記録媒体
JP6720274B2 (ja) 入力支援プログラム、入力支援方法および入力支援装置
JP5674140B2 (ja) テキスト入力装置、テキスト入力受付方法及びプログラム
KR20090020265A (ko) 휴대 단말기 및 그 메시지 작성 방법
JP7476960B2 (ja) 文字列入力装置、文字列入力方法、および文字列入力プログラム
JP2003202886A (ja) テキスト入力処理装置及び方法並びにプログラム
KR100387033B1 (ko) 특수문자를 쉽게 입력할 수 있는 전화기의 문자코드 발생장치 및 방법
KR100631666B1 (ko) 이동 통신 단말기의 데이터 검색 방법
JP2000123004A (ja) コメント表示用グラフィカルユーザーインターフェース、そのコメント表示方法およびその記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130221

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140226

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150226

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160226

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee