KR100354365B1

KR100354365B1 - 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법

Info

Publication number: KR100354365B1
Application number: KR1019990058126A
Authority: KR
Inventors: 모건스콧앤쏘니; 로버츠데이비드존; 스웨어링겐크레이그아드너; 탄넨바움앨런리차드
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1998-12-17
Filing date: 1999-12-16
Publication date: 2002-09-28
Also published as: JP2000215022A; KR20000067827A; JP3292190B2; US20130041670A1; US8831956B2; US8275617B1

Abstract

본 발명은 음성 커맨드 입력 인식(speech command input recognition) 및 시각 피드백(visual feedback)을 위한 대화형 내지 상호작용형 컴퓨터 제어 디스플레이 시스템(interactive computer controlled display system)에 관한 것으로서, 이 시스템은 대응하는 다수의 시스템 동작을 제각기 개시(initiate)시키는 다수의 음성 커맨드를 사전결정하는 수단과, 상기 다수의 커맨드 각각에 연관된 음성 용어 집합(an associated set of speech terms)을 제공하는 수단을 포함하는데, 각각의 용어는 자신과 연관된 커맨드에 관련성(relevance)을 갖는다. 또, 이 시스템은 음성 커맨드와 음성 용어를 감지하는 수단을 포함한다. 이 시스템은 음성 커맨드의 감지에 응답하여 상기 커맨드를 디스플레이하는 수단과, 상기 커맨드 중 하나에 관련성을 갖는 감지된 음성 용어에 응답하여 그 관련 커맨드를 디스플레이하는 수단을 제공한다. 이 시스템은 디스플레이된 커맨드를 선택하여 시스템 동작을 개시시키는 대화형 내지 상호작용형 수단을 더 포함하는데, 이들 선택 수단은 음성 커맨드 입력 수단인 것이 바람직하다. 이 시스템은 기본 음성 커맨드와 관련 커맨드를 동시에 디스플레이한다. 본 발명의 한 측면에 따르면, 상기 연관된 음성 용어 집합을 제공하는 수단은 범용 음성 입력 커맨드(universal speech input commands) 및 상기 입력 커맨드에 의해 개시되는 동작과 통상적으로 연관되는 범용 컴퓨터 동작 용어(universal computer operation terms) 등으로 구성된 저장된 관련성 테이블 및 상기 시스템의 특정 상호작용 인터페이스 용어를 상기 관련성 테이블 내의용어와 관련시키는 수단을 포함한다.

Description

음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터 제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드 입력 제공 방법{SPEECH COMMAND INPUT RECOGNITION SYSTEM FOR INTERACTIVE COMPUTER DISPLAY WITH INTERPRETATION OF ANCILLARY RELEVANT SPEECH QUERY TERMS INTO COMMANDS}

본 발명은 음성 커맨드 입력 기능이 있는 대화형 내지 상호작용형 컴퓨터 제어 디스플레이 시스템에 관한 것으로서, 보다 구체적으로는, 대화형 내지 상호작용형 사용자(interactive users)에게 디스플레이 피드백을 제공하는 그러한 시스템에 관한 것이다.

1990년대는 데이터 처리 산업과 가전 산업(consumer electronics industry)이 통합되는 기술적인 혁명으로 특징지워진다. 이러한 진보는 지난 수년간 소비자이건 비지니스건 광범위하게 인터넷에 연루됨으로써 더욱 가속화되었다. 이들 변화의 결과, 실질적으로 산업화된 세계에서의 인간 노력의 모든 측면이 인간/컴퓨터 인터페이스를 필요로 하는 것처럼 보이게 되었다. 따라서, 수년 전만 해도 컴퓨터에 대해 문맹이었거나 무관심했던 사람들도 컴퓨터 지향 활동(computer directed activities)을 액세스할 수 있도록 할 필요가 있게 되었다.

그러므로, 대화형 내지 상호작용형 사용자가 컴퓨터의 기능과 데이터에 액세스할 수 있는 사용의 용이성을 개선하는 컴퓨터와 네트워크로의 인터페이스가 끊임없이 요구되고 있다. 3차원 가상 현실 시뮬레이션 인터페이스(three-dimensional virtual reality simulating interfaces)는 물론, 윈도우(windows)와 아이콘(icons)을 포함하는 데스크탑 류 인터페이스(desktop-like interfaces)를 이용하여, 인간/컴퓨터 인터페이스를 현실 세계 인터페이스, 예컨대 인간/인간 인터페이스에 점점 더 가깝게 만드는 것을 통해 인터페이스를 보다 사용자에게 친숙하게 함으로써 컴퓨터 산업은 그러한 사용자 상호작용을 충족시키기 위해 애쓰고 있다. 이러한 환경 하에서는, 컴퓨터에게 자연 언어 형태로 말하는 것이, 심지어 초보 사용자도 컴퓨터와 인터페이스할 수 있는 매우 자연스러운 방법일 것이다. 음성 인식 컴퓨터 인터페이스의 이러한 잠재적인 장점에도 불구하고, 이들 기법은 비교적 느리게 사용자에게 수용되었다.

음성 인식 기법은 20 여 년 전부터 이용가능했지만, 최근에 와서야 특히, 인터네셔날 비즈니스 머신즈(International Business Machines:IBM)사와 드래곤 시스템즈(Dragon Systems)사에 의해 상용화된 것들과 같은 "음성 받아쓰기(speech dictation)"나 "음성에서 문장으로(speech to text)" 시스템과 함께, 상업적인 수용이 시작되었다. 음성 인식 기법의 이 받아쓰기 측면의 개발은 가속도가 붙어서 워드 프로세싱 시장에서 상당한 위치를 차지하게 될 때까지 계속되리라고 예상된다. 한편, 컴퓨터로의 음성 인식 입력이 보다 일반적으로 응용될 수 있는 곳은 커맨드 및 제어 기술(command and control technology)에서 인데, 여전히 사용자 수용 면에서 기대에 미치지 못하고 있는 바, 이 기법에서는, 예를 들어, 시스템의 메뉴 문장, 아이콘, 라벨, 버튼 등에서 흔히 발견되는 커맨드를 사용자가 발음함으로써, 컴퓨터 시스템의 그래픽 사용자 인터페이스를 통해 사용자가 네비게이션(navigate)할 수 있다.

워드 프로세싱 및 커맨드 기술의 양자에 있어서 음성 인식의 단점 중 많은 것은, 부분적으로는 기술 수준에 기인하고, 부분적으로는 사용자의 발음 패턴의 다양성 및 동작을 개시시키는 데 필요한 특정 커맨드를 기억하는 사용자의 능력에 기인하는, 고유한 음성 인식 오류 때문이다. 따라서, 대부분의 현재의 음성 인식 시스템은 컴퓨터가 사용자의 발음을 이해했는지 여부를 사용자가 확인하게 해주는 소정 형태의 시각 피드백을 제공한다. 워드 프로세싱에 있어서는, 이 프로세스의 목적이 발음된 것을 시각적인 것으로 번역하는 것이므로, 이러한 시각 피드백은 이프로세스에 있어서는 본질적인 것이다. 이것이 음성 인식의 워드 프로세싱 응용이 보다 빠른 속도로 진보한 이유 중 하나가 될 것이다.

그러나, 음성 인식 구동 커맨드 및 제어 시스템(speech recognition driven command and control systems)에 있어서는, 사용자가 도움말을 요청하거나 다른 문의를 할 때는 자연 언어 입력 동작 모드로부터, 사용자가 실제 커맨드를 내보내고 있을 때는 커맨드 동작 모드로, 앞뒤로 동작 모드를 계속해서 바꿀 필요가 있는데, 이는 특히 중간 디스플레이 피드백(intermediate display feedback)이 존재하는 경우 매우 지루한 것이며, 사용자 생산성(user productivity)에 영향을 미친다.

본 발명은 커맨드 및 제어 시스템을 제공함에 있어서 음성 인식 시스템의 전술한 요구에 대한 해답을 제공하려 한다. 이들 해답은 컴퓨터의 측면에서는 컴퓨터가 자연 언어로부터 커맨드로의 사용자 피드백 사이클만을 국한하여 학습한다는 점에서, 사용자의 측면에서는 사용자가 피드백 사이클의 결과로서의 컴퓨터 시스템 특정 커맨드(computer system specific commands)만을 국한하여 학습하는 경향을 보인다는 점에서, 양자 모두에 대해 경험적(heuristic)이다.

도 1은 본 발명을 실시하는 데 사용되는 음성 입력(voice input) 기능을 갖춘 컴퓨터 제어 상호작용형 디스플레이 시스템을 제공하는 중앙 처리 장치를 포함하는 일반화된 데이터 처리 시스템의 블럭도,

도 2는 실시예와 연관된 시스템 구성요소의 일반화된 확대도를 도시하는 도 1의 시스템의 일부분의 블럭도,

도 3은 음성 커맨드 및/또는 음성 용어 입력 시, 시각 피드백에 사용되는 상호작용형 대화 패널 인터페이스가 디스플레이되는 디스플레이 스크린의 개략도,

도 4는 음성 용어가 입력된 후의 도 3의 디스플레이 스크린을 도시하는 도면,

도 5는 사용자가 도 4의 음성 용어 입력을 마친 후 도 4의 디스플레이 스크린을 도시하는 도면(사용자는 리스트된 커맨드 중 하나를 말할 수 있음),

도 6은 본 발명에 따른 시각 피드백 시스템을 이용하여 음성 커맨드 인식을생성하고 이용하는 컴퓨터 제어 디스플레이 시스템 내의 시스템 및 프로그램의 기본 구성요소의 흐름도,

도 7은 도 6에서 셋업(set up)된 프로그램을 실행함에 있어 관련된 단계의 흐름도.

도면의 주요 부분에 대한 부호의 설명

10 : CPU 12 : 시스템 버스

14 : RAM 16 : ROM

18 : I/O 어댑터 20 : 디스크 저장 장치

24 : 키보드 26 : 마우스

27 : 마이크로폰 28 : 스피커

34 : 통신 어댑터 36 : 디스플레이 어댑터

38 : 디스플레이 39 : 프레임 버퍼

40 : 애플리케이션 41 : 운영 체제

본 발명은 음성 커맨드 입력 인식(speech command input recognition) 및 시각 피드백(visual feedback)을 위한 상호작용형 컴퓨터 제어 디스플레이 시스템에관한 것으로서, 이 시스템은 대응하는 다수의 시스템 동작을 제각기 개시(initiate)시키는 다수의 음성 커맨드를 사전결정하는 수단과 다수의 커맨드 각각에 대해 연관된 음성 용어 집합을 제공하는 수단을 포함하는데, 각각의 용어는 연관된 커맨드와 관련성을 갖는다. 또한, 이 시스템은 음성 커맨드와 음성 용어를 감지하는 수단을 포함한다. 이 시스템은 음성 커맨드의 감지에 응답하여 상기 커맨드를 디스플레이하는 수단과, 상기 커맨드 중 하나에 관련성을 갖는 감지된 음성 용어에 응답하여 그 관련 커맨드를 디스플레이하는 수단을 제공한다.

이 시스템은 디스플레이된 커맨드를 선택하여 시스템 동작을 개시시키는 상호작용형 수단을 더 포함하는데, 이들 선택 수단은 음성 커맨드 입력 수단인 것이 바람직하다. 이 시스템은 실제 음성 커맨드(actual speech commands) 즉, 실제 사용자에 의해 발음된 커맨드와, 관련 커맨드(relevant commands) 즉, 실제로 발음되지는 않았지만 그 커맨드에 관련성을 갖는 음성 용어에 응답하여 발견된 커맨드를 동시에 디스플레이할 수 있다.

본 발명의 시스템은 실제 음성 커맨드를 도움말이나 다른 목적의 음성 질의와 구별하는 데 사용하면 특히 효과적이다.

본 발명의 한 측면에 따르면, 상기 연관된 음성 용어 집합을 제공하는 수단은 범용 음성 입력 커맨드(universal speech input commands) 및 상기 입력 커맨드에 의해 개시되는 동작과 통상적으로 연관되는 범용 컴퓨터 동작 용어(universal computer operation terms) 등으로 저장된 관련성 테이블(relevance table)과, 상기 시스템의 특정 상호작용 인터페이스 용어를 상기 관련성 테이블 내의 용어와 관련시키는 수단을 포함한다.

후속하는 상세한 설명과 도면을 참조하면, 본 발명이 더 잘 이해될 것이고, 본 발명의 수많은 목적과 장점이 당업자에게 보다 명백해질 것이다.

도 1을 참조하면, 음성 입력을 수신 및 해석하고, 소정의 인식된 실제 커맨드와 함께 (커맨드와는 다른) 음성 용어(speech terms)를 관련성 테이블과 비교함에 의해 도출된 제안적 관련 커맨드 집합(a set of proposed relevant commands)을 포함하는 디스플레이된 피드백을 제공함으로써, 본 발명의 시스템을 구현하는 데 사용되는 컴퓨터 제어 디스플레이 터미널 역할을 하는 전형적인 데이터 처리 시스템이 도시되어 있다. IBM사나 델사(Dell Corporation)로부터 입수가능한 PC 내의 임의의 PC 마이크로프로세서와 같은 중앙 처리 장치(Central Processing Unit : CPU)(10)가 제공되어 시스템 버스(12)에 의해 다양한 다른 구성요소와 상호접속되어 있다. 운영 체제(41)는 CPU(10) 상에서 실행되며, 제어를 제공하고, 도 1의 다양한 구성요소의 기능을 통합하는 데 사용된다. 운영 체제(41)는 IBM사로부터 입수가능한 운영 체제인 OS/2^(TM)(OS/2는 IBM의 등록 상표임), 마이크로소프트 윈도우즈 95^(TM)나 윈도우즈 NT^(TM), UNIX나 AIX 운영 체제와 같은 상업적으로 입수가능한 운영 체제 중 하나일 수 있다. 제안적 관련 커맨드의 시각적 피드백을 구비하는 음성 인식 프로그램인 애플리케이션(40)은 이후에 자세히 설명할 것인데, 운영 체제(41)와 함께 실행되며, 운영 체제(41)로의 출력 호출(output calls)을 제공하는데, 운영 체제(41)는 애플리케이션(40)에 의해 수행되는 다양한 기능을 구현한다.

ROM(Read Only Memory)(16)은 버스(12)를 통해 CPU(10)에 접속되어 있고, 기본적인 컴퓨터 기능을 제어하는 기본 입력/출력 시스템(basic input/output system : BIOS)을 포함한다. RAM(Random Access Memory)(14), I/O 어댑터(18), 통신 어댑터(34)도 시스템 버스(12)에 상호접속되어 있다. 운영 체제(41)와 애플리케이션(40)을 포함하는 소프트웨어 구성요소가 RAM(14)에 로딩(load)되어 있다는 점에 유의하여야 한다. I/O 어댑터(18)는 디스크 저장 장치(20) 즉, 하드 드라이브와 통신하는 소규모 컴퓨터 시스템 인터페이스(Small Computer System Interface : SCSI) 어댑터일 수 있다. 통신 어댑터(34)는 버스(12)를 외부 네트워크와 상호접속시켜서, 데이터 처리 시스템이 인터넷을 포함하는 근거리 통신망(Local Area Network : LAN)이나 원거리 통신망(Wide Area Network : WAN)을 통하여 이러한 다른 시스템과 통신할 수 있게 해준다. I/O 장치도 사용자 인터페이스 어댑터(22)와 디스플레이 어댑터(36)를 통해 시스템 버스(12)에 접속되어 있다. 키보드(24)와 마우스(26)는 모두 사용자 인터페이스 어댑터(22)를 통해 버스(12)에 상호접속되어 있다. 오디오 출력은 스피커(28)에 의해 제공되고, 음성 입력은 입력 장치(27)를 통해 인가되는데, 입력 장치(27)는 적절한 인터페이스 어댑터(22)를 통해 시스템에 액세스하는 마이크로폰으로 대략 묘사되어 있다. 음성 입력 및 인식은 특히 도 2를 참조하여 이후에 훨씬 더 상세히 설명할 것이다. 디스플레이 어댑터(36)는 디스플레이 스크린(38) 상의 각 화소의 표시를 보유하는 저장 장치인 프레임 버퍼(39)를 포함한다. 음성 입력 커맨드, 제안적 관련 커맨드, 음성 입력 디스플레이 피드백 패널과 같은 영상은 디지털/아날로그 변환기(도시하지 않음) 등과 같은 다양한 구성요소를 통해 모니터(38)로의 디스플레이를 위해 프레임 버퍼(39)에 저장될 수 있다. 전술한 I/O 장치를 이용하여, 사용자는 마이크로폰(27)을 통한 음성 입력 외에도 키보드(24)나 마우스(26)를 통한 시각 정보를 시스템으로 입력할 수 있고, 디스플레이(38)나 스피커(28)를 통해 시스템으로부터 출력 정보를 수신할 수 있다.

이제 도 2를 참조하여, 본 발명을 구현하는 것과 관련된 일반적인 시스템 구성요소를 설명할 것이다. 음성 입력(50)은 음성 입력 장치를 대표하는 마이크로폰(51)을 통해 인가된다. 음성 용어(speech terminology)와 음성 커맨드 인식 기술이 오래되고 잘 개발된 것이기 때문에, 본 발명을 구현하는 데 사용될 수 있는 하드웨어와 전형적인 시스템의 시스템 세부 사항은 다루지 않을 것이다. 당업자는 다음 특허 즉, 미국 특허 제 5,671,328 호, 제 5,133,111 호, 제 5,222,146 호, 제 5,664,061 호, 제 5,553,121 호, 제 5,157,384 호 중 어느 것에 개시된 시스템과 하드웨어가 사용될 수 있다는 것을 명백히 알 것이다. 이 시스템으로의 음성 입력은 시스템이 인식할 실제 음성 커맨드 및/또는 컴퓨터가 피드백을 통해 적절한 관련 커맨드를 제안하도록 사용자가 컴퓨터로 어드레스하는 음성 용어일 수 있다. 입력 음성은 저장된 커맨드 세트(52)와 비교하는 인식 과정을 거친다. 실제 음성 커맨드가 분명히 식별된 음성 커맨드(55)이면, 그 커맨드가 실행된 후 디스플레이 어댑터(36)를 통해 디스플레이(38)에 디스플레이되거나, 그 음성 커맨드가 먼저 디스플레이된 후 실행될 것이다. 이와 관련하여, 이 시스템은 이후에 더 상세히 설명할 바와 같이 몇 가지 선택 사양을 가질 수 있다. 여기에서는 본 발명이 실제 커맨드를 디스플레이하는 능력을 제공한다는 것을 아는 것으로 족하다.

음성 입력이 실제 커맨드와는 다른 용어를 포함하고 있으면, 시스템은 보통 실제 저장된 커맨드(52) 각각과 관련하여 사용할 수 있는 용어들의 포괄적인 집합인 관련성 테이블(53)을 제공한다. 입력 음성 용어 중 어느 것이 실제 커맨드 중 하나와 비견하면(54) 관련 커맨드(56)로 간주되며 디스플레이 어댑터(36)를 통해 디스플레이 상에서 사용자에게 제공된다. 이러한 관련성은 이후에 상세히 설명되겠지만, 여기서는 이러한 테이블이 생성되는 방법을 설명하는 것이 적절할 것이다. 처음에, 활성 어휘집(active vocabulary)이 결정된다. 이는 운영 체제 및 모든 주요 애플리케이션 프로그램 등의 컴퓨터 동작에서, 현재 활성인 애플리케이션 윈도우로부터의 메뉴 및 버튼 및 보이지는 않지만 활성인 단어를 포함하는 기타 사용자 인터페이스 제어로부터의 모든 단어 및 용어와, 음성 시스템 및 애플리케이션 및 사용자에 의해 제공되는 매크로의 모든 이름과, 사용자가 전환하여 진행할 수도 있는 다른 애플리케이션 이름과, 어느 애플리케이션에도 통용되는 일반 커맨드(generic commands)와, 현재 활성일 수도 있는 임의의 다른 단어와 용어를 수집한다. 이러한 기본적인 활성 어휘집은 각 단어나 용어가 실제 커맨드 중 하나 이상과 관련되고, 역으로 실제 용어 각각이 그 커맨드와 관련되는 단어 및 용어 집합과 연관되는 관련성 테이블로 구축된다. 이 관련성 테이블은 각각의 특정 컴퓨터 동작에 따라 적절한 대로 추가될 수 있다는 면에서 동적(dynamic)이라는 것에 주목하여야 한다. 특정 컴퓨터 시스템에 대해 일반적인 용어의 기본적인(basic) 또는 일반적인(generic) 관련성 테이블이 있다고 가정하면, 그 특정 시스템에 대한활성 어휘 세트가 그 기본 관련성 테이블에 추가되고, 확장된 관련 어휘집이 적어도 다음 방편 중 적어도 몇 개를 이용하여 동적으로 생성된다.

-- 활성 어휘집 내의 각 단어나 구(phrase)는 그것이 원래의 활성 어휘집의 단어 또는 구(phrase)라는 표지와 함께 확장된 단어집에 추가된다.

-- 활성 어휘집 내의 각 단어나 구는 색인(index)으로서 관련성 테이블에서 검색된다. 발견되면, 테이블 내의 셀의 대응 내용은 그 셀이 포함할 수 있는 추가 단어나 구로서 그 어휘집을 더 확장하는 데 사용된다. 이들 추가 용어는 자신이 포함되도록 유발한 활성 엔트리(active entry)에 대한 연관된 참조(associated reference)를 가질 것이다.

-- 이어서, 각각의 구는 적당하다면 구성 단어, 단어 쌍, n 단어 부구(n-word subphrases)로 나뉘고, 위 과정이 반복된다.

-- 사용자는 관련성 테이블에 대해 색인될 수 있는 자신의 단어와 구의 리스트를 공급하도록 독려될 수 있다.

-- 동의어 사전은 단어와 구를 위한 추가 소스일 수 있다.

도 2를 참조하여 음성 커맨드와 관련 커맨드 양자를 디스플레이하는 것에 대한 전술한 설명에서, 관련 커맨드를 찾기 위해 커맨드 및 관련성 테이블과 비교될 음성 용어를 포함할 수 있는 음성 입력의 디스플레이는 다루지 않았다. 음성 입력도 별도로 디스플레이될 것이라는 사실을 이해할 것이다. 이것은, 본 발명에 따라 관련 커맨드와 함께 디스플레이되는 음성 언어의 시각적 피드백을 제공하기 위해 본 발명이 어떻게 사용될 수 있는지에 관한 예를 제공할 도 3 내지 도 5를 참조하면 알 수 있다. 스크린 영상 패널에 대해 설명하자면, 이들은 도 1의 시스템의 RAM(14)에서의 임의의 통상적인 윈도우 운영 체제 내의 것들과 같은 영상 및 문장 작성 프로그램을 저장함으로써 표현될 수 있다는 것을 이해할 것이다. 도 3 내지 도 5의 디스플레이 스크린은 도 1의 디스플레이 모니터(38) 상에서 관찰자에게 제공된다. 통상적인 기법에 의하면, 사용자는 도 1의 마우스(26)와 같은 통상적인 I/O 장치를 통해 상호작용으로 스크린을 제어할 수 있고, 음성 입력은 마이크로폰(27)을 통해 인가된다. 이들은 운영 체제(41)와 협력하여 디스플레이 어댑터(36)의 프레임 버퍼(39) 내에 영상을 생성하는 RAM(14) 내의 프로그램을 사용자 인터페이스(22)를 통해 불러내어, 모니터(38) 상의 디스플레이 패널을 제어한다. 도 3의 초기 디스플레이 스크린은 시각 피드백 디스플레이 패널(70)을 구비하는 디스플레이 스크린을 도시하고 있다. 이 패널에서, 윈도우(71)는 사용자가 발음한 단어를 나타내는 한편, 윈도우(72)는 모든 관련 커맨드 즉, 실제로 발음되지는 않았지만 윈도우(71) 내의 몇몇 음성 단어나 구가, 도 2에서 도시한 바와 같이, 관련성 테이블을 통해 관련 커맨드와 연관되는 커맨드 모두를 디스플레이할 것이다. 또한, 윈도우(71) 내의 음성 입력의 일부였던 임의의 음성 커맨드도 윈도우(72) 내의 관련 커맨드와 함께 리스트될 것이다. 이 패널도 커맨드 버튼을 구비하고 있는데, 버튼(73)을 누르거나 "리스트 지움(Clear List)"이라는 커맨드를 발음함으로써, 사용자는 도 3의 윈도우(71)와 윈도우(72)에서 모든 제안적 관련 커맨드와 입력 문장을 지울 것이다. 버튼(74)을 누르거나 "취소(Never mind)" 커맨드를 발음하면, 전체 애플리케이션이 무효화된다. 도 4는 "세팅디스플레이(Display the settings)"를 음성 입력 한 후의 도 3의 스크린 패널(70)을 도시하고 있다. 이 시스템은 이 용어 중에서 실제 커맨드를 발견하지는 못하지만, 윈도우(72) 내에 도시한 4 개의 관련 커맨드는 발견할 수 있다. 커서 아이콘(76)은 이 필드가 음성 초점(speech focus)임을 나타내는 표시로서 윈도우(71)의 음성 용어에 인접하여 존재한다. 도 5에서는 커서 아이콘(76)으로 표시된 음성 초점이 윈도우(72)로 이동하고 사용자가 관련 커맨드 중 하나인 "문서 특성(Document Properties)"(75)을 발음함으로써 이를 선택한 후의 도 4의 디스플레이를 도시하고 있는데, 그 결과 이 커맨드가 강조되었다. 관련 커맨드가 발음되면, 이 시스템은 그 커맨드를 실행할 것이다.

이제 도 6 및 도 7을 참조하여, 이들 도면의 흐름도와 함께 본 발명에 의해 구현되는 프로세스를 설명하겠다. 도 6은 음성 커맨드에 대한 시각적 피드백 및 사용자가 선택할 수 있게끔 시스템이 제안한 관련 음성 커맨드(system proposed relevant spoken commands)의 리스트를 포함하는 기타 용어를 제공하는 본 발명에 따른 프로세스의 전개를 도시하고 있다. 먼저, 단계(80)에서는, 인식가능한 음성 시스템 및 사용 중인 시스템을 구동할 애플리케이션 커맨드 집합이 셋업되고 저장된다. 이어서, 단계(81)에서는 각각의 인식된 음성 커맨드에 의해 요청된 동작을 실행하는 적절한 프로세스가 셋업된다. 인식된 음성 커맨드를 디스플레이하기 위한 프로세스도 셋업된다. 이렇게 함에 있어, 프로그램 개발자는, 모든 인식된 커맨드를 디스플레이할지 명확히 인식되지 않은 커맨드만을 디스플레이하여 사용자가 그 커맨드를 확인할 기회를 갖게 할지의 선택권을 갖는다. 이어서, 단계(83)에서는, 전술한 바와 같이 관련성 테이블 또는 관련 커맨드의 테이블이 셋업된다. 이 테이블은 컴퓨터 시스템과 관련된 설명 구와 용어 및 각각의 용어와 관련된 실제 커맨드를 실질적으로 모두 포함하는 것이 바람직하다. 단계(84)에서는, 인식된 커맨드를 제외한 모든 음성 입력을 이 관련성 테이블 상에서 검색하여 관련 커맨드를 결정하는 프로세스가 셋업된다. 이는 시스템 및 애플리케이션 커맨드를 관련성 테이블과 통합하여 음성 인식 시스템에 의해 사용될 음성 용어 어휘집을 발생시킴으로써, 관련 커맨드 리스트를 제공하는 것을 포함한다. 이는 도 2를 참조하여 이미 설명하였다. 마지막으로, 단계(85)에서, 사용자가 발음함으로써 관련 커맨드를 선택하여 그 커맨드 동작을 개시하도록 관련 커맨드를 디스플레이하는 프로세스가 셋업된다. 이는 도 5를 참조하여 이미 설명하였다. 이로써 셋업을 종료한다.

도 7을 참조하여, 프로세스의 실행을 설명한다. 먼저, 단계(90)에서는, 음성 입력이 있었는지 여부에 관해 판단한다. 판단 결과가 '아니오'이면, 입력은 단계(90)로 돌아가 음성 입력을 대기한다. 단계(90)의 판단이 '예'이면, 판단 단계(91)에서 커맨드가 확실하게 인식되었는지 여부에 관해 더 판단한다. 이 시점에서, 앞에서와 같이, 사용자가 커맨드로서 수행되기를 명백히 원하지 않는 음성 커맨드 즉, 관련 커맨드를 구하는 입력 용어 또는 음성 질의(spoken query)의 일부일 뿐인 음성 커맨드와 그들의 제시 문맥(presentation context)을 고려해 볼 때 확실하게 커맨드로 의도된 커맨드와를 다시 구별하여야 한다. 음성 질의 문맥 안의 용어가 이 커맨드 중 하나와 우연히 정합(match)하면, 단계(97)를 참조하여 이후에 설명할 것과 같이, 이 용어는 디스플레이되는 관련 커맨드와 함께 리스트될뿐이다. 한편, 확실한 커맨드가 인식되면, 단계(91)에서의 판단은 '예'일 것이고, 그 커맨드는 단계(92)에서 통상적인 방식으로 실행되고, 이어서 단계(93)에서는 세션(session)이 종료하였는지 여부에 관해 판단한다. 그 결과가 '예'이면, 세션은 종료한다. 그 결과가 '아니오'이면, 흐름은 단계(90)로 돌아가 후속 음성 커맨드를 대기한다. 단계(91)로부터의 판단이 '아니오'이면 즉, 확실한 커맨드가 인식되지 않았으면, 전술한 바와 같이 단계(95)에서는 관련성 테이블에 대해 비교가 수행되고, 단계(97)에서는 모든 관련 커맨드가 디스플레이되어 사용자에게 관련 커맨드 중 하나를 선택할 기회를 제공한다. 판단 단계(98)에서는, 사용자가 관련 커맨드 중 하나를 발음하였는지 여부에 관해 판단한다. 그 결과가 '예'이면, 프로세스는 분기 "A"를 통해 단계(92)로 돌아가고, 그 커맨드가 실행된다. 단계(98)의 판단 결과가 '아니오'이면, 단계(99)에서 사용자가 다른 용어를 더 발음하였는지 여부에 관해 더 판단된다. 그 결과가 '예'이면, 프로세스는 단계(95)로 돌아가, 관련성 테이블에 대해 비교가 수행되고 전술한 과정이 반복된다. 단계(99)의 판단 결과가 '아니오'이면, 프로세스는 분기 "B"를 통해 단계(93)로 돌아가, 전술한 바와 같이 세션이 종료하였는지 여부에 관해 판단한다.

이 명세서에서, 관련 커맨드와 실제 커맨드라는 용어가 여러군데서 설명되었다. 양자는 실제(real) 커맨드 즉, 특정 시스템이 실행할 수 있는 커맨드를 지칭한다. 구분은 그 커맨드가 실제로 발음되었는지 여부에 달려 있다. 따라서, 실제 커맨드는 음성 엔트리의 일부로서이건 사용자가 관련 커맨드를 위치(locate)시킬 목적으로 발음한 질의(spoken entry or query)의 일부로서이건 사용자가 실제로 발음한 것일 수도 있고, 사용자가 통상적인 방식으로 실행되기를 원하는 것일 수도 있다. 한편, 관련 커맨드는 사용자에 의해 발음되지는 않았지만 관련성 테이블을 통해 사용자의 음성 엔트리 내의 단어나 용어와 연관되는 커맨드일 것이다.

본 발명의 바람직한 구현 중 하나는 컴퓨터 동작 중 도 1의 RAM(14)에 상주하는 프로그래밍 단계 또는 인스트럭션으로 구성된 애플리케이션 프로그램(40)이다. 컴퓨터 시스템에 의해 요청될 때까지, 프로그램 인스트럭션은 다른 판독가능 매체 이를테면, 디스크 드라이브(20)나 CD ROM 컴퓨터 입력에 사용되는 광 디스크와 같은 탈착가능형 메모리(removable memory) 또는 플로피 디스크 드라이브 컴퓨터 입력에 사용되는 플로피 디스크에 저장될 수 있다. 또한, 프로그램 인스트럭션은 본 발명의 시스템에서 사용되기 이전에 다른 컴퓨터 메모리에 저장될 수도 있고, 본 발명의 사용자가 필요로 한다면 인터넷과 같은 LAN이나 WAN을 통해 전송될 수도 있다. 당업자는 본 발명을 제어하는 프로세스가 다양한 형태의 컴퓨터 판독가능 매체의 형태로 보급될 수 있음을 이해해야 한다.

특정 바람직한 실시예에 대해 도시하고 설명하였지만, 첨부하는 청구 범위의 범위와 의도를 벗어나지 않는 범위 내에서 다양한 수정과 변형이 가능하다는 것을 이해할 것이다.

본 발명에 의하면, 컴퓨터의 측면에서는 컴퓨터가 자연 언어로부터 커맨드로의 사용자 피드백 사이클에 국한하여 학습한다는 점에서, 사용자의 측면에서는 사용자가 피드백 사이클의 결과로서의 컴퓨터 시스템 특정 커맨드에 국한하여 학습한다는 점에서, 양자 모두에 대해 경험적인 커맨드 및 제어 시스템이 제공되어 효과적인 음성 인식이 가능하다.

Claims

음성 커맨드(speech command) 입력 인식 기능이 있는 상호작용형 컴퓨터 제어 디스플레이 시스템(an interactive computer controlled display system)에 있어서,

① 대응하는 다수의 시스템 동작을 제각기 개시(initiate)시키기 위한 다수의 음성 커맨드를 사전결정하는 수단과,

② 상기 다수의 커맨드 각각에 대해 연관된 비커맨드 음성 용어 집합(an associated set of non-command speech terms)을 제공하는 수단 ― 각각의 용어는 자신과 연관된 커맨드와 관련성(relevance)을 가짐 ― 과,

③ 음성 커맨드와 비커맨드 음성 용어를 감지하는 수단과,

④ 감지된 음성 커맨드에 응답하여 그 커맨드를 디스플레이하는 수단과,

⑤ 상기 커맨드들 중 하나와 관련성을 갖는 감지된 비커맨드 음성 용어에 응답하여 그 관련 커맨드를 디스플레이하는 수단

을 포함하는 상호작용형 컴퓨터 제어 디스플레이 시스템.
제 1 항에 있어서,

⑥ 디스플레이된 커맨드를 선택하여 시스템 동작을 개시시키는 상호작용 수단을 더 포함하는 상호작용형 컴퓨터 제어 디스플레이 시스템.
제 2 항에 있어서,

상기 디스플레이된 커맨드를 선택하는 상기 수단은 음성 커맨드 입력 수단을 포함하는 상호작용형 컴퓨터 제어 디스플레이 시스템.
제 3 항에 있어서,

상기 음성 커맨드와 관련 커맨드는 동시에 디스플레이되는 상호작용형 컴퓨터 제어 디스플레이 시스템.
제 4 항에 있어서,

상기 시스템의 특정 동작과 관련되어 사용되는 다수의 음성 용어를 더 포함하며,

상기 연관된 음성 용어 집합을 제공하는 상기 수단은,

상기 입력 커맨드에 의해 개시되는 동작과 통상적으로 연관되는 범용 컴퓨터 동작 용어(universal computer operation terms)와 범용 음성 입력 커맨드(universal speech input commands)의 저장된 관련성 테이블과,

상기 시스템의 특정 동작과 관련되어 사용되는 상기 다수의 음성 용어를 상기 관련성 테이블 내의 커맨드와 관련시키는 수단

을 포함하는 상호작용형 컴퓨터 제어 디스플레이 시스템.
음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터 제어 디스플레이 시스템으로의 음성 커맨드 입력을 제공하는 방법에 있어서,

① 대응하는 다수의 시스템 동작을 제각기 개시시키기 위한 다수의 음성 커맨드를 사전결정하는 단계와,

② 상기 다수의 커맨드 각각에 대해 연관된 비커맨드 음성 용어 집합을 제공하는 단계 ― 각각의 용어는 자신과 연관된 커맨드와 관련성을 가짐 ― 와,

③ 음성 커맨드와 비커맨드 음성 용어를 감지하는 단계와,

④ 음성 커맨드의 감지에 응답하여 그 음성 커맨드를 디스플레이하는 단계와,

⑤ 상기 커맨드들 중 하나와 관련성을 갖는 감지된 비커맨드 음성 용어에 응답하여 그 관련 커맨드를 디스플레이하는 단계

를 포함하는 음성 커맨드 입력 제공 방법.
제 6 항에 있어서,

⑥ 디스플레이된 커맨드를 선택하여 시스템 동작을 개시시키는 상호작용 단계를 더 포함하는 음성 커맨드 입력 제공 방법.
제 7 항에 있어서,

상기 디스플레이된 커맨드를 선택하는 상기 단계는 음성 커맨드 입력 단계를 포함하는 음성 커맨드 입력 제공 방법.
제 8 항에 있어서,

상기 음성 커맨드와 관련 커맨드는 동시에 디스플레이되는 음성 커맨드 입력 제공 방법.
제 9 항에 있어서,

상기 시스템의 특정 동작과 관련되어 사용되는 다수의 음성 용어를 제공하는 단계를 더 포함하며,

상기 연관된 음성 용어 집합을 제공하는 상기 단계는,

상기 입력 커맨드에 의해 개시되는 동작과 통상적으로 연관되는 범용 컴퓨터 동작 용어와 범용 음성 입력 커맨드의 관련성 테이블을 저장하는 단계와,

상기 시스템의 특정 동작과 관련되어 사용되는 상기 다수의 음성 용어를 상기 관련성 테이블 내의 커맨드와 관련시키는 단계

를 포함하는 음성 커맨드 입력 제공 방법.
제6항 내지 제10항 중 어느 하나의 항에 따른 방법을 컴퓨터에서 실행가능하게 하는 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
삭제
삭제
삭제
삭제