KR100354365B1 - 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법 - Google Patents

음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법 Download PDF

Info

Publication number
KR100354365B1
KR100354365B1 KR1019990058126A KR19990058126A KR100354365B1 KR 100354365 B1 KR100354365 B1 KR 100354365B1 KR 1019990058126 A KR1019990058126 A KR 1019990058126A KR 19990058126 A KR19990058126 A KR 19990058126A KR 100354365 B1 KR100354365 B1 KR 100354365B1
Authority
KR
South Korea
Prior art keywords
command
commands
voice
terms
input
Prior art date
Application number
KR1019990058126A
Other languages
English (en)
Other versions
KR20000067827A (ko
Inventor
모건스콧앤쏘니
로버츠데이비드존
스웨어링겐크레이그아드너
탄넨바움앨런리차드
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20000067827A publication Critical patent/KR20000067827A/ko
Application granted granted Critical
Publication of KR100354365B1 publication Critical patent/KR100354365B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 음성 커맨드 입력 인식(speech command input recognition) 및 시각 피드백(visual feedback)을 위한 대화형 내지 상호작용형 컴퓨터 제어 디스플레이 시스템(interactive computer controlled display system)에 관한 것으로서, 이 시스템은 대응하는 다수의 시스템 동작을 제각기 개시(initiate)시키는 다수의 음성 커맨드를 사전결정하는 수단과, 상기 다수의 커맨드 각각에 연관된 음성 용어 집합(an associated set of speech terms)을 제공하는 수단을 포함하는데, 각각의 용어는 자신과 연관된 커맨드에 관련성(relevance)을 갖는다. 또, 이 시스템은 음성 커맨드와 음성 용어를 감지하는 수단을 포함한다. 이 시스템은 음성 커맨드의 감지에 응답하여 상기 커맨드를 디스플레이하는 수단과, 상기 커맨드 중 하나에 관련성을 갖는 감지된 음성 용어에 응답하여 그 관련 커맨드를 디스플레이하는 수단을 제공한다. 이 시스템은 디스플레이된 커맨드를 선택하여 시스템 동작을 개시시키는 대화형 내지 상호작용형 수단을 더 포함하는데, 이들 선택 수단은 음성 커맨드 입력 수단인 것이 바람직하다. 이 시스템은 기본 음성 커맨드와 관련 커맨드를 동시에 디스플레이한다. 본 발명의 한 측면에 따르면, 상기 연관된 음성 용어 집합을 제공하는 수단은 범용 음성 입력 커맨드(universal speech input commands) 및 상기 입력 커맨드에 의해 개시되는 동작과 통상적으로 연관되는 범용 컴퓨터 동작 용어(universal computer operation terms) 등으로 구성된 저장된 관련성 테이블 및 상기 시스템의 특정 상호작용 인터페이스 용어를 상기 관련성 테이블 내의용어와 관련시키는 수단을 포함한다.

Description

음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터 제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드 입력 제공 방법{SPEECH COMMAND INPUT RECOGNITION SYSTEM FOR INTERACTIVE COMPUTER DISPLAY WITH INTERPRETATION OF ANCILLARY RELEVANT SPEECH QUERY TERMS INTO COMMANDS}
본 발명은 음성 커맨드 입력 기능이 있는 대화형 내지 상호작용형 컴퓨터 제어 디스플레이 시스템에 관한 것으로서, 보다 구체적으로는, 대화형 내지 상호작용형 사용자(interactive users)에게 디스플레이 피드백을 제공하는 그러한 시스템에 관한 것이다.
1990년대는 데이터 처리 산업과 가전 산업(consumer electronics industry)이 통합되는 기술적인 혁명으로 특징지워진다. 이러한 진보는 지난 수년간 소비자이건 비지니스건 광범위하게 인터넷에 연루됨으로써 더욱 가속화되었다. 이들 변화의 결과, 실질적으로 산업화된 세계에서의 인간 노력의 모든 측면이 인간/컴퓨터 인터페이스를 필요로 하는 것처럼 보이게 되었다. 따라서, 수년 전만 해도 컴퓨터에 대해 문맹이었거나 무관심했던 사람들도 컴퓨터 지향 활동(computer directed activities)을 액세스할 수 있도록 할 필요가 있게 되었다.
그러므로, 대화형 내지 상호작용형 사용자가 컴퓨터의 기능과 데이터에 액세스할 수 있는 사용의 용이성을 개선하는 컴퓨터와 네트워크로의 인터페이스가 끊임없이 요구되고 있다. 3차원 가상 현실 시뮬레이션 인터페이스(three-dimensional virtual reality simulating interfaces)는 물론, 윈도우(windows)와 아이콘(icons)을 포함하는 데스크탑 류 인터페이스(desktop-like interfaces)를 이용하여, 인간/컴퓨터 인터페이스를 현실 세계 인터페이스, 예컨대 인간/인간 인터페이스에 점점 더 가깝게 만드는 것을 통해 인터페이스를 보다 사용자에게 친숙하게 함으로써 컴퓨터 산업은 그러한 사용자 상호작용을 충족시키기 위해 애쓰고 있다. 이러한 환경 하에서는, 컴퓨터에게 자연 언어 형태로 말하는 것이, 심지어 초보 사용자도 컴퓨터와 인터페이스할 수 있는 매우 자연스러운 방법일 것이다. 음성 인식 컴퓨터 인터페이스의 이러한 잠재적인 장점에도 불구하고, 이들 기법은 비교적 느리게 사용자에게 수용되었다.
음성 인식 기법은 20 여 년 전부터 이용가능했지만, 최근에 와서야 특히, 인터네셔날 비즈니스 머신즈(International Business Machines:IBM)사와 드래곤 시스템즈(Dragon Systems)사에 의해 상용화된 것들과 같은 "음성 받아쓰기(speech dictation)"나 "음성에서 문장으로(speech to text)" 시스템과 함께, 상업적인 수용이 시작되었다. 음성 인식 기법의 이 받아쓰기 측면의 개발은 가속도가 붙어서 워드 프로세싱 시장에서 상당한 위치를 차지하게 될 때까지 계속되리라고 예상된다. 한편, 컴퓨터로의 음성 인식 입력이 보다 일반적으로 응용될 수 있는 곳은 커맨드 및 제어 기술(command and control technology)에서 인데, 여전히 사용자 수용 면에서 기대에 미치지 못하고 있는 바, 이 기법에서는, 예를 들어, 시스템의 메뉴 문장, 아이콘, 라벨, 버튼 등에서 흔히 발견되는 커맨드를 사용자가 발음함으로써, 컴퓨터 시스템의 그래픽 사용자 인터페이스를 통해 사용자가 네비게이션(navigate)할 수 있다.
워드 프로세싱 및 커맨드 기술의 양자에 있어서 음성 인식의 단점 중 많은 것은, 부분적으로는 기술 수준에 기인하고, 부분적으로는 사용자의 발음 패턴의 다양성 및 동작을 개시시키는 데 필요한 특정 커맨드를 기억하는 사용자의 능력에 기인하는, 고유한 음성 인식 오류 때문이다. 따라서, 대부분의 현재의 음성 인식 시스템은 컴퓨터가 사용자의 발음을 이해했는지 여부를 사용자가 확인하게 해주는 소정 형태의 시각 피드백을 제공한다. 워드 프로세싱에 있어서는, 이 프로세스의 목적이 발음된 것을 시각적인 것으로 번역하는 것이므로, 이러한 시각 피드백은 이프로세스에 있어서는 본질적인 것이다. 이것이 음성 인식의 워드 프로세싱 응용이 보다 빠른 속도로 진보한 이유 중 하나가 될 것이다.
그러나, 음성 인식 구동 커맨드 및 제어 시스템(speech recognition driven command and control systems)에 있어서는, 사용자가 도움말을 요청하거나 다른 문의를 할 때는 자연 언어 입력 동작 모드로부터, 사용자가 실제 커맨드를 내보내고 있을 때는 커맨드 동작 모드로, 앞뒤로 동작 모드를 계속해서 바꿀 필요가 있는데, 이는 특히 중간 디스플레이 피드백(intermediate display feedback)이 존재하는 경우 매우 지루한 것이며, 사용자 생산성(user productivity)에 영향을 미친다.
본 발명은 커맨드 및 제어 시스템을 제공함에 있어서 음성 인식 시스템의 전술한 요구에 대한 해답을 제공하려 한다. 이들 해답은 컴퓨터의 측면에서는 컴퓨터가 자연 언어로부터 커맨드로의 사용자 피드백 사이클만을 국한하여 학습한다는 점에서, 사용자의 측면에서는 사용자가 피드백 사이클의 결과로서의 컴퓨터 시스템 특정 커맨드(computer system specific commands)만을 국한하여 학습하는 경향을 보인다는 점에서, 양자 모두에 대해 경험적(heuristic)이다.
도 1은 본 발명을 실시하는 데 사용되는 음성 입력(voice input) 기능을 갖춘 컴퓨터 제어 상호작용형 디스플레이 시스템을 제공하는 중앙 처리 장치를 포함하는 일반화된 데이터 처리 시스템의 블럭도,
도 2는 실시예와 연관된 시스템 구성요소의 일반화된 확대도를 도시하는 도 1의 시스템의 일부분의 블럭도,
도 3은 음성 커맨드 및/또는 음성 용어 입력 시, 시각 피드백에 사용되는 상호작용형 대화 패널 인터페이스가 디스플레이되는 디스플레이 스크린의 개략도,
도 4는 음성 용어가 입력된 후의 도 3의 디스플레이 스크린을 도시하는 도면,
도 5는 사용자가 도 4의 음성 용어 입력을 마친 후 도 4의 디스플레이 스크린을 도시하는 도면(사용자는 리스트된 커맨드 중 하나를 말할 수 있음),
도 6은 본 발명에 따른 시각 피드백 시스템을 이용하여 음성 커맨드 인식을생성하고 이용하는 컴퓨터 제어 디스플레이 시스템 내의 시스템 및 프로그램의 기본 구성요소의 흐름도,
도 7은 도 6에서 셋업(set up)된 프로그램을 실행함에 있어 관련된 단계의 흐름도.
도면의 주요 부분에 대한 부호의 설명
10 : CPU 12 : 시스템 버스
14 : RAM 16 : ROM
18 : I/O 어댑터 20 : 디스크 저장 장치
24 : 키보드 26 : 마우스
27 : 마이크로폰 28 : 스피커
34 : 통신 어댑터 36 : 디스플레이 어댑터
38 : 디스플레이 39 : 프레임 버퍼
40 : 애플리케이션 41 : 운영 체제
본 발명은 음성 커맨드 입력 인식(speech command input recognition) 및 시각 피드백(visual feedback)을 위한 상호작용형 컴퓨터 제어 디스플레이 시스템에관한 것으로서, 이 시스템은 대응하는 다수의 시스템 동작을 제각기 개시(initiate)시키는 다수의 음성 커맨드를 사전결정하는 수단과 다수의 커맨드 각각에 대해 연관된 음성 용어 집합을 제공하는 수단을 포함하는데, 각각의 용어는 연관된 커맨드와 관련성을 갖는다. 또한, 이 시스템은 음성 커맨드와 음성 용어를 감지하는 수단을 포함한다. 이 시스템은 음성 커맨드의 감지에 응답하여 상기 커맨드를 디스플레이하는 수단과, 상기 커맨드 중 하나에 관련성을 갖는 감지된 음성 용어에 응답하여 그 관련 커맨드를 디스플레이하는 수단을 제공한다.
이 시스템은 디스플레이된 커맨드를 선택하여 시스템 동작을 개시시키는 상호작용형 수단을 더 포함하는데, 이들 선택 수단은 음성 커맨드 입력 수단인 것이 바람직하다. 이 시스템은 실제 음성 커맨드(actual speech commands) 즉, 실제 사용자에 의해 발음된 커맨드와, 관련 커맨드(relevant commands) 즉, 실제로 발음되지는 않았지만 그 커맨드에 관련성을 갖는 음성 용어에 응답하여 발견된 커맨드를 동시에 디스플레이할 수 있다.
본 발명의 시스템은 실제 음성 커맨드를 도움말이나 다른 목적의 음성 질의와 구별하는 데 사용하면 특히 효과적이다.
본 발명의 한 측면에 따르면, 상기 연관된 음성 용어 집합을 제공하는 수단은 범용 음성 입력 커맨드(universal speech input commands) 및 상기 입력 커맨드에 의해 개시되는 동작과 통상적으로 연관되는 범용 컴퓨터 동작 용어(universal computer operation terms) 등으로 저장된 관련성 테이블(relevance table)과, 상기 시스템의 특정 상호작용 인터페이스 용어를 상기 관련성 테이블 내의 용어와 관련시키는 수단을 포함한다.
후속하는 상세한 설명과 도면을 참조하면, 본 발명이 더 잘 이해될 것이고, 본 발명의 수많은 목적과 장점이 당업자에게 보다 명백해질 것이다.
도 1을 참조하면, 음성 입력을 수신 및 해석하고, 소정의 인식된 실제 커맨드와 함께 (커맨드와는 다른) 음성 용어(speech terms)를 관련성 테이블과 비교함에 의해 도출된 제안적 관련 커맨드 집합(a set of proposed relevant commands)을 포함하는 디스플레이된 피드백을 제공함으로써, 본 발명의 시스템을 구현하는 데 사용되는 컴퓨터 제어 디스플레이 터미널 역할을 하는 전형적인 데이터 처리 시스템이 도시되어 있다. IBM사나 델사(Dell Corporation)로부터 입수가능한 PC 내의 임의의 PC 마이크로프로세서와 같은 중앙 처리 장치(Central Processing Unit : CPU)(10)가 제공되어 시스템 버스(12)에 의해 다양한 다른 구성요소와 상호접속되어 있다. 운영 체제(41)는 CPU(10) 상에서 실행되며, 제어를 제공하고, 도 1의 다양한 구성요소의 기능을 통합하는 데 사용된다. 운영 체제(41)는 IBM사로부터 입수가능한 운영 체제인 OS/2(TM)(OS/2는 IBM의 등록 상표임), 마이크로소프트 윈도우즈 95(TM)나 윈도우즈 NT(TM), UNIX나 AIX 운영 체제와 같은 상업적으로 입수가능한 운영 체제 중 하나일 수 있다. 제안적 관련 커맨드의 시각적 피드백을 구비하는 음성 인식 프로그램인 애플리케이션(40)은 이후에 자세히 설명할 것인데, 운영 체제(41)와 함께 실행되며, 운영 체제(41)로의 출력 호출(output calls)을 제공하는데, 운영 체제(41)는 애플리케이션(40)에 의해 수행되는 다양한 기능을 구현한다.
ROM(Read Only Memory)(16)은 버스(12)를 통해 CPU(10)에 접속되어 있고, 기본적인 컴퓨터 기능을 제어하는 기본 입력/출력 시스템(basic input/output system : BIOS)을 포함한다. RAM(Random Access Memory)(14), I/O 어댑터(18), 통신 어댑터(34)도 시스템 버스(12)에 상호접속되어 있다. 운영 체제(41)와 애플리케이션(40)을 포함하는 소프트웨어 구성요소가 RAM(14)에 로딩(load)되어 있다는 점에 유의하여야 한다. I/O 어댑터(18)는 디스크 저장 장치(20) 즉, 하드 드라이브와 통신하는 소규모 컴퓨터 시스템 인터페이스(Small Computer System Interface : SCSI) 어댑터일 수 있다. 통신 어댑터(34)는 버스(12)를 외부 네트워크와 상호접속시켜서, 데이터 처리 시스템이 인터넷을 포함하는 근거리 통신망(Local Area Network : LAN)이나 원거리 통신망(Wide Area Network : WAN)을 통하여 이러한 다른 시스템과 통신할 수 있게 해준다. I/O 장치도 사용자 인터페이스 어댑터(22)와 디스플레이 어댑터(36)를 통해 시스템 버스(12)에 접속되어 있다. 키보드(24)와 마우스(26)는 모두 사용자 인터페이스 어댑터(22)를 통해 버스(12)에 상호접속되어 있다. 오디오 출력은 스피커(28)에 의해 제공되고, 음성 입력은 입력 장치(27)를 통해 인가되는데, 입력 장치(27)는 적절한 인터페이스 어댑터(22)를 통해 시스템에 액세스하는 마이크로폰으로 대략 묘사되어 있다. 음성 입력 및 인식은 특히 도 2를 참조하여 이후에 훨씬 더 상세히 설명할 것이다. 디스플레이 어댑터(36)는 디스플레이 스크린(38) 상의 각 화소의 표시를 보유하는 저장 장치인 프레임 버퍼(39)를 포함한다. 음성 입력 커맨드, 제안적 관련 커맨드, 음성 입력 디스플레이 피드백 패널과 같은 영상은 디지털/아날로그 변환기(도시하지 않음) 등과 같은 다양한 구성요소를 통해 모니터(38)로의 디스플레이를 위해 프레임 버퍼(39)에 저장될 수 있다. 전술한 I/O 장치를 이용하여, 사용자는 마이크로폰(27)을 통한 음성 입력 외에도 키보드(24)나 마우스(26)를 통한 시각 정보를 시스템으로 입력할 수 있고, 디스플레이(38)나 스피커(28)를 통해 시스템으로부터 출력 정보를 수신할 수 있다.
이제 도 2를 참조하여, 본 발명을 구현하는 것과 관련된 일반적인 시스템 구성요소를 설명할 것이다. 음성 입력(50)은 음성 입력 장치를 대표하는 마이크로폰(51)을 통해 인가된다. 음성 용어(speech terminology)와 음성 커맨드 인식 기술이 오래되고 잘 개발된 것이기 때문에, 본 발명을 구현하는 데 사용될 수 있는 하드웨어와 전형적인 시스템의 시스템 세부 사항은 다루지 않을 것이다. 당업자는 다음 특허 즉, 미국 특허 제 5,671,328 호, 제 5,133,111 호, 제 5,222,146 호, 제 5,664,061 호, 제 5,553,121 호, 제 5,157,384 호 중 어느 것에 개시된 시스템과 하드웨어가 사용될 수 있다는 것을 명백히 알 것이다. 이 시스템으로의 음성 입력은 시스템이 인식할 실제 음성 커맨드 및/또는 컴퓨터가 피드백을 통해 적절한 관련 커맨드를 제안하도록 사용자가 컴퓨터로 어드레스하는 음성 용어일 수 있다. 입력 음성은 저장된 커맨드 세트(52)와 비교하는 인식 과정을 거친다. 실제 음성 커맨드가 분명히 식별된 음성 커맨드(55)이면, 그 커맨드가 실행된 후 디스플레이 어댑터(36)를 통해 디스플레이(38)에 디스플레이되거나, 그 음성 커맨드가 먼저 디스플레이된 후 실행될 것이다. 이와 관련하여, 이 시스템은 이후에 더 상세히 설명할 바와 같이 몇 가지 선택 사양을 가질 수 있다. 여기에서는 본 발명이 실제 커맨드를 디스플레이하는 능력을 제공한다는 것을 아는 것으로 족하다.
음성 입력이 실제 커맨드와는 다른 용어를 포함하고 있으면, 시스템은 보통 실제 저장된 커맨드(52) 각각과 관련하여 사용할 수 있는 용어들의 포괄적인 집합인 관련성 테이블(53)을 제공한다. 입력 음성 용어 중 어느 것이 실제 커맨드 중 하나와 비견하면(54) 관련 커맨드(56)로 간주되며 디스플레이 어댑터(36)를 통해 디스플레이 상에서 사용자에게 제공된다. 이러한 관련성은 이후에 상세히 설명되겠지만, 여기서는 이러한 테이블이 생성되는 방법을 설명하는 것이 적절할 것이다. 처음에, 활성 어휘집(active vocabulary)이 결정된다. 이는 운영 체제 및 모든 주요 애플리케이션 프로그램 등의 컴퓨터 동작에서, 현재 활성인 애플리케이션 윈도우로부터의 메뉴 및 버튼 및 보이지는 않지만 활성인 단어를 포함하는 기타 사용자 인터페이스 제어로부터의 모든 단어 및 용어와, 음성 시스템 및 애플리케이션 및 사용자에 의해 제공되는 매크로의 모든 이름과, 사용자가 전환하여 진행할 수도 있는 다른 애플리케이션 이름과, 어느 애플리케이션에도 통용되는 일반 커맨드(generic commands)와, 현재 활성일 수도 있는 임의의 다른 단어와 용어를 수집한다. 이러한 기본적인 활성 어휘집은 각 단어나 용어가 실제 커맨드 중 하나 이상과 관련되고, 역으로 실제 용어 각각이 그 커맨드와 관련되는 단어 및 용어 집합과 연관되는 관련성 테이블로 구축된다. 이 관련성 테이블은 각각의 특정 컴퓨터 동작에 따라 적절한 대로 추가될 수 있다는 면에서 동적(dynamic)이라는 것에 주목하여야 한다. 특정 컴퓨터 시스템에 대해 일반적인 용어의 기본적인(basic) 또는 일반적인(generic) 관련성 테이블이 있다고 가정하면, 그 특정 시스템에 대한활성 어휘 세트가 그 기본 관련성 테이블에 추가되고, 확장된 관련 어휘집이 적어도 다음 방편 중 적어도 몇 개를 이용하여 동적으로 생성된다.
-- 활성 어휘집 내의 각 단어나 구(phrase)는 그것이 원래의 활성 어휘집의 단어 또는 구(phrase)라는 표지와 함께 확장된 단어집에 추가된다.
-- 활성 어휘집 내의 각 단어나 구는 색인(index)으로서 관련성 테이블에서 검색된다. 발견되면, 테이블 내의 셀의 대응 내용은 그 셀이 포함할 수 있는 추가 단어나 구로서 그 어휘집을 더 확장하는 데 사용된다. 이들 추가 용어는 자신이 포함되도록 유발한 활성 엔트리(active entry)에 대한 연관된 참조(associated reference)를 가질 것이다.
-- 이어서, 각각의 구는 적당하다면 구성 단어, 단어 쌍, n 단어 부구(n-word subphrases)로 나뉘고, 위 과정이 반복된다.
-- 사용자는 관련성 테이블에 대해 색인될 수 있는 자신의 단어와 구의 리스트를 공급하도록 독려될 수 있다.
-- 동의어 사전은 단어와 구를 위한 추가 소스일 수 있다.
도 2를 참조하여 음성 커맨드와 관련 커맨드 양자를 디스플레이하는 것에 대한 전술한 설명에서, 관련 커맨드를 찾기 위해 커맨드 및 관련성 테이블과 비교될 음성 용어를 포함할 수 있는 음성 입력의 디스플레이는 다루지 않았다. 음성 입력도 별도로 디스플레이될 것이라는 사실을 이해할 것이다. 이것은, 본 발명에 따라 관련 커맨드와 함께 디스플레이되는 음성 언어의 시각적 피드백을 제공하기 위해 본 발명이 어떻게 사용될 수 있는지에 관한 예를 제공할 도 3 내지 도 5를 참조하면 알 수 있다. 스크린 영상 패널에 대해 설명하자면, 이들은 도 1의 시스템의 RAM(14)에서의 임의의 통상적인 윈도우 운영 체제 내의 것들과 같은 영상 및 문장 작성 프로그램을 저장함으로써 표현될 수 있다는 것을 이해할 것이다. 도 3 내지 도 5의 디스플레이 스크린은 도 1의 디스플레이 모니터(38) 상에서 관찰자에게 제공된다. 통상적인 기법에 의하면, 사용자는 도 1의 마우스(26)와 같은 통상적인 I/O 장치를 통해 상호작용으로 스크린을 제어할 수 있고, 음성 입력은 마이크로폰(27)을 통해 인가된다. 이들은 운영 체제(41)와 협력하여 디스플레이 어댑터(36)의 프레임 버퍼(39) 내에 영상을 생성하는 RAM(14) 내의 프로그램을 사용자 인터페이스(22)를 통해 불러내어, 모니터(38) 상의 디스플레이 패널을 제어한다. 도 3의 초기 디스플레이 스크린은 시각 피드백 디스플레이 패널(70)을 구비하는 디스플레이 스크린을 도시하고 있다. 이 패널에서, 윈도우(71)는 사용자가 발음한 단어를 나타내는 한편, 윈도우(72)는 모든 관련 커맨드 즉, 실제로 발음되지는 않았지만 윈도우(71) 내의 몇몇 음성 단어나 구가, 도 2에서 도시한 바와 같이, 관련성 테이블을 통해 관련 커맨드와 연관되는 커맨드 모두를 디스플레이할 것이다. 또한, 윈도우(71) 내의 음성 입력의 일부였던 임의의 음성 커맨드도 윈도우(72) 내의 관련 커맨드와 함께 리스트될 것이다. 이 패널도 커맨드 버튼을 구비하고 있는데, 버튼(73)을 누르거나 "리스트 지움(Clear List)"이라는 커맨드를 발음함으로써, 사용자는 도 3의 윈도우(71)와 윈도우(72)에서 모든 제안적 관련 커맨드와 입력 문장을 지울 것이다. 버튼(74)을 누르거나 "취소(Never mind)" 커맨드를 발음하면, 전체 애플리케이션이 무효화된다. 도 4는 "세팅디스플레이(Display the settings)"를 음성 입력 한 후의 도 3의 스크린 패널(70)을 도시하고 있다. 이 시스템은 이 용어 중에서 실제 커맨드를 발견하지는 못하지만, 윈도우(72) 내에 도시한 4 개의 관련 커맨드는 발견할 수 있다. 커서 아이콘(76)은 이 필드가 음성 초점(speech focus)임을 나타내는 표시로서 윈도우(71)의 음성 용어에 인접하여 존재한다. 도 5에서는 커서 아이콘(76)으로 표시된 음성 초점이 윈도우(72)로 이동하고 사용자가 관련 커맨드 중 하나인 "문서 특성(Document Properties)"(75)을 발음함으로써 이를 선택한 후의 도 4의 디스플레이를 도시하고 있는데, 그 결과 이 커맨드가 강조되었다. 관련 커맨드가 발음되면, 이 시스템은 그 커맨드를 실행할 것이다.
이제 도 6 및 도 7을 참조하여, 이들 도면의 흐름도와 함께 본 발명에 의해 구현되는 프로세스를 설명하겠다. 도 6은 음성 커맨드에 대한 시각적 피드백 및 사용자가 선택할 수 있게끔 시스템이 제안한 관련 음성 커맨드(system proposed relevant spoken commands)의 리스트를 포함하는 기타 용어를 제공하는 본 발명에 따른 프로세스의 전개를 도시하고 있다. 먼저, 단계(80)에서는, 인식가능한 음성 시스템 및 사용 중인 시스템을 구동할 애플리케이션 커맨드 집합이 셋업되고 저장된다. 이어서, 단계(81)에서는 각각의 인식된 음성 커맨드에 의해 요청된 동작을 실행하는 적절한 프로세스가 셋업된다. 인식된 음성 커맨드를 디스플레이하기 위한 프로세스도 셋업된다. 이렇게 함에 있어, 프로그램 개발자는, 모든 인식된 커맨드를 디스플레이할지 명확히 인식되지 않은 커맨드만을 디스플레이하여 사용자가 그 커맨드를 확인할 기회를 갖게 할지의 선택권을 갖는다. 이어서, 단계(83)에서는, 전술한 바와 같이 관련성 테이블 또는 관련 커맨드의 테이블이 셋업된다. 이 테이블은 컴퓨터 시스템과 관련된 설명 구와 용어 및 각각의 용어와 관련된 실제 커맨드를 실질적으로 모두 포함하는 것이 바람직하다. 단계(84)에서는, 인식된 커맨드를 제외한 모든 음성 입력을 이 관련성 테이블 상에서 검색하여 관련 커맨드를 결정하는 프로세스가 셋업된다. 이는 시스템 및 애플리케이션 커맨드를 관련성 테이블과 통합하여 음성 인식 시스템에 의해 사용될 음성 용어 어휘집을 발생시킴으로써, 관련 커맨드 리스트를 제공하는 것을 포함한다. 이는 도 2를 참조하여 이미 설명하였다. 마지막으로, 단계(85)에서, 사용자가 발음함으로써 관련 커맨드를 선택하여 그 커맨드 동작을 개시하도록 관련 커맨드를 디스플레이하는 프로세스가 셋업된다. 이는 도 5를 참조하여 이미 설명하였다. 이로써 셋업을 종료한다.
도 7을 참조하여, 프로세스의 실행을 설명한다. 먼저, 단계(90)에서는, 음성 입력이 있었는지 여부에 관해 판단한다. 판단 결과가 '아니오'이면, 입력은 단계(90)로 돌아가 음성 입력을 대기한다. 단계(90)의 판단이 '예'이면, 판단 단계(91)에서 커맨드가 확실하게 인식되었는지 여부에 관해 더 판단한다. 이 시점에서, 앞에서와 같이, 사용자가 커맨드로서 수행되기를 명백히 원하지 않는 음성 커맨드 즉, 관련 커맨드를 구하는 입력 용어 또는 음성 질의(spoken query)의 일부일 뿐인 음성 커맨드와 그들의 제시 문맥(presentation context)을 고려해 볼 때 확실하게 커맨드로 의도된 커맨드와를 다시 구별하여야 한다. 음성 질의 문맥 안의 용어가 이 커맨드 중 하나와 우연히 정합(match)하면, 단계(97)를 참조하여 이후에 설명할 것과 같이, 이 용어는 디스플레이되는 관련 커맨드와 함께 리스트될뿐이다. 한편, 확실한 커맨드가 인식되면, 단계(91)에서의 판단은 '예'일 것이고, 그 커맨드는 단계(92)에서 통상적인 방식으로 실행되고, 이어서 단계(93)에서는 세션(session)이 종료하였는지 여부에 관해 판단한다. 그 결과가 '예'이면, 세션은 종료한다. 그 결과가 '아니오'이면, 흐름은 단계(90)로 돌아가 후속 음성 커맨드를 대기한다. 단계(91)로부터의 판단이 '아니오'이면 즉, 확실한 커맨드가 인식되지 않았으면, 전술한 바와 같이 단계(95)에서는 관련성 테이블에 대해 비교가 수행되고, 단계(97)에서는 모든 관련 커맨드가 디스플레이되어 사용자에게 관련 커맨드 중 하나를 선택할 기회를 제공한다. 판단 단계(98)에서는, 사용자가 관련 커맨드 중 하나를 발음하였는지 여부에 관해 판단한다. 그 결과가 '예'이면, 프로세스는 분기 "A"를 통해 단계(92)로 돌아가고, 그 커맨드가 실행된다. 단계(98)의 판단 결과가 '아니오'이면, 단계(99)에서 사용자가 다른 용어를 더 발음하였는지 여부에 관해 더 판단된다. 그 결과가 '예'이면, 프로세스는 단계(95)로 돌아가, 관련성 테이블에 대해 비교가 수행되고 전술한 과정이 반복된다. 단계(99)의 판단 결과가 '아니오'이면, 프로세스는 분기 "B"를 통해 단계(93)로 돌아가, 전술한 바와 같이 세션이 종료하였는지 여부에 관해 판단한다.
이 명세서에서, 관련 커맨드와 실제 커맨드라는 용어가 여러군데서 설명되었다. 양자는 실제(real) 커맨드 즉, 특정 시스템이 실행할 수 있는 커맨드를 지칭한다. 구분은 그 커맨드가 실제로 발음되었는지 여부에 달려 있다. 따라서, 실제 커맨드는 음성 엔트리의 일부로서이건 사용자가 관련 커맨드를 위치(locate)시킬 목적으로 발음한 질의(spoken entry or query)의 일부로서이건 사용자가 실제로 발음한 것일 수도 있고, 사용자가 통상적인 방식으로 실행되기를 원하는 것일 수도 있다. 한편, 관련 커맨드는 사용자에 의해 발음되지는 않았지만 관련성 테이블을 통해 사용자의 음성 엔트리 내의 단어나 용어와 연관되는 커맨드일 것이다.
본 발명의 바람직한 구현 중 하나는 컴퓨터 동작 중 도 1의 RAM(14)에 상주하는 프로그래밍 단계 또는 인스트럭션으로 구성된 애플리케이션 프로그램(40)이다. 컴퓨터 시스템에 의해 요청될 때까지, 프로그램 인스트럭션은 다른 판독가능 매체 이를테면, 디스크 드라이브(20)나 CD ROM 컴퓨터 입력에 사용되는 광 디스크와 같은 탈착가능형 메모리(removable memory) 또는 플로피 디스크 드라이브 컴퓨터 입력에 사용되는 플로피 디스크에 저장될 수 있다. 또한, 프로그램 인스트럭션은 본 발명의 시스템에서 사용되기 이전에 다른 컴퓨터 메모리에 저장될 수도 있고, 본 발명의 사용자가 필요로 한다면 인터넷과 같은 LAN이나 WAN을 통해 전송될 수도 있다. 당업자는 본 발명을 제어하는 프로세스가 다양한 형태의 컴퓨터 판독가능 매체의 형태로 보급될 수 있음을 이해해야 한다.
특정 바람직한 실시예에 대해 도시하고 설명하였지만, 첨부하는 청구 범위의 범위와 의도를 벗어나지 않는 범위 내에서 다양한 수정과 변형이 가능하다는 것을 이해할 것이다.
본 발명에 의하면, 컴퓨터의 측면에서는 컴퓨터가 자연 언어로부터 커맨드로의 사용자 피드백 사이클에 국한하여 학습한다는 점에서, 사용자의 측면에서는 사용자가 피드백 사이클의 결과로서의 컴퓨터 시스템 특정 커맨드에 국한하여 학습한다는 점에서, 양자 모두에 대해 경험적인 커맨드 및 제어 시스템이 제공되어 효과적인 음성 인식이 가능하다.

Claims (15)

  1. 음성 커맨드(speech command) 입력 인식 기능이 있는 상호작용형 컴퓨터 제어 디스플레이 시스템(an interactive computer controlled display system)에 있어서,
    ① 대응하는 다수의 시스템 동작을 제각기 개시(initiate)시키기 위한 다수의 음성 커맨드를 사전결정하는 수단과,
    ② 상기 다수의 커맨드 각각에 대해 연관된 비커맨드 음성 용어 집합(an associated set of non-command speech terms)을 제공하는 수단 ― 각각의 용어는 자신과 연관된 커맨드와 관련성(relevance)을 가짐 ― 과,
    ③ 음성 커맨드와 비커맨드 음성 용어를 감지하는 수단과,
    ④ 감지된 음성 커맨드에 응답하여 그 커맨드를 디스플레이하는 수단과,
    ⑤ 상기 커맨드들 중 하나와 관련성을 갖는 감지된 비커맨드 음성 용어에 응답하여 그 관련 커맨드를 디스플레이하는 수단
    을 포함하는 상호작용형 컴퓨터 제어 디스플레이 시스템.
  2. 제 1 항에 있어서,
    ⑥ 디스플레이된 커맨드를 선택하여 시스템 동작을 개시시키는 상호작용 수단을 더 포함하는 상호작용형 컴퓨터 제어 디스플레이 시스템.
  3. 제 2 항에 있어서,
    상기 디스플레이된 커맨드를 선택하는 상기 수단은 음성 커맨드 입력 수단을 포함하는 상호작용형 컴퓨터 제어 디스플레이 시스템.
  4. 제 3 항에 있어서,
    상기 음성 커맨드와 관련 커맨드는 동시에 디스플레이되는 상호작용형 컴퓨터 제어 디스플레이 시스템.
  5. 제 4 항에 있어서,
    상기 시스템의 특정 동작과 관련되어 사용되는 다수의 음성 용어를 더 포함하며,
    상기 연관된 음성 용어 집합을 제공하는 상기 수단은,
    상기 입력 커맨드에 의해 개시되는 동작과 통상적으로 연관되는 범용 컴퓨터 동작 용어(universal computer operation terms)와 범용 음성 입력 커맨드(universal speech input commands)의 저장된 관련성 테이블과,
    상기 시스템의 특정 동작과 관련되어 사용되는 상기 다수의 음성 용어를 상기 관련성 테이블 내의 커맨드와 관련시키는 수단
    을 포함하는 상호작용형 컴퓨터 제어 디스플레이 시스템.
  6. 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터 제어 디스플레이 시스템으로의 음성 커맨드 입력을 제공하는 방법에 있어서,
    ① 대응하는 다수의 시스템 동작을 제각기 개시시키기 위한 다수의 음성 커맨드를 사전결정하는 단계와,
    ② 상기 다수의 커맨드 각각에 대해 연관된 비커맨드 음성 용어 집합을 제공하는 단계 ― 각각의 용어는 자신과 연관된 커맨드와 관련성을 가짐 ― 와,
    ③ 음성 커맨드와 비커맨드 음성 용어를 감지하는 단계와,
    ④ 음성 커맨드의 감지에 응답하여 그 음성 커맨드를 디스플레이하는 단계와,
    ⑤ 상기 커맨드들 중 하나와 관련성을 갖는 감지된 비커맨드 음성 용어에 응답하여 그 관련 커맨드를 디스플레이하는 단계
    를 포함하는 음성 커맨드 입력 제공 방법.
  7. 제 6 항에 있어서,
    ⑥ 디스플레이된 커맨드를 선택하여 시스템 동작을 개시시키는 상호작용 단계를 더 포함하는 음성 커맨드 입력 제공 방법.
  8. 제 7 항에 있어서,
    상기 디스플레이된 커맨드를 선택하는 상기 단계는 음성 커맨드 입력 단계를 포함하는 음성 커맨드 입력 제공 방법.
  9. 제 8 항에 있어서,
    상기 음성 커맨드와 관련 커맨드는 동시에 디스플레이되는 음성 커맨드 입력 제공 방법.
  10. 제 9 항에 있어서,
    상기 시스템의 특정 동작과 관련되어 사용되는 다수의 음성 용어를 제공하는 단계를 더 포함하며,
    상기 연관된 음성 용어 집합을 제공하는 상기 단계는,
    상기 입력 커맨드에 의해 개시되는 동작과 통상적으로 연관되는 범용 컴퓨터 동작 용어와 범용 음성 입력 커맨드의 관련성 테이블을 저장하는 단계와,
    상기 시스템의 특정 동작과 관련되어 사용되는 상기 다수의 음성 용어를 상기 관련성 테이블 내의 커맨드와 관련시키는 단계
    를 포함하는 음성 커맨드 입력 제공 방법.
  11. 제6항 내지 제10항 중 어느 하나의 항에 따른 방법을 컴퓨터에서 실행가능하게 하는 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
KR1019990058126A 1998-12-17 1999-12-16 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법 KR100354365B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US9/213,856 1998-12-17
US09/213,856 US8275617B1 (en) 1998-12-17 1998-12-17 Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US09/213,856 1998-12-17

Publications (2)

Publication Number Publication Date
KR20000067827A KR20000067827A (ko) 2000-11-25
KR100354365B1 true KR100354365B1 (ko) 2002-09-28

Family

ID=22796776

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990058126A KR100354365B1 (ko) 1998-12-17 1999-12-16 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법

Country Status (3)

Country Link
US (2) US8275617B1 (ko)
JP (1) JP3292190B2 (ko)
KR (1) KR100354365B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102153668B1 (ko) 2019-10-29 2020-09-09 주식회사 퍼즐에이아이 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법
WO2020218650A1 (ko) * 2019-04-26 2020-10-29 엘지전자 주식회사 전자기기

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8275617B1 (en) 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US8065155B1 (en) 1999-06-10 2011-11-22 Gazdzinski Robert F Adaptive advertising apparatus and methods
KR20040001340A (ko) * 2002-06-27 2004-01-07 주식회사 케이티 음성인식 시스템의 음성명령 중개 방법
US7427024B1 (en) 2003-12-17 2008-09-23 Gazdzinski Mark J Chattel management apparatus and methods
JP4667138B2 (ja) * 2005-06-30 2011-04-06 キヤノン株式会社 音声認識方法及び音声認識装置
CA2618623C (en) * 2005-08-09 2015-01-06 Mobilevoicecontrol, Inc. Control center for a voice controlled wireless communication device system
KR100738414B1 (ko) * 2006-02-06 2007-07-11 삼성전자주식회사 텔레매틱스 환경에서 음성 인식의 성능을 향상시키기 위한방법 및 상기 방법을 수행하는 장치
US8589869B2 (en) 2006-09-07 2013-11-19 Wolfram Alpha Llc Methods and systems for determining a formula
KR101597289B1 (ko) 2009-07-31 2016-03-08 삼성전자주식회사 동적 화면에 따라 음성을 인식하는 장치 및 방법
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
KR20130136566A (ko) 2011-03-29 2013-12-12 퀄컴 인코포레이티드 로컬 멀티-사용자 협업을 위한 모듈식 모바일 접속된 피코 프로젝터들
WO2012154938A1 (en) 2011-05-10 2012-11-15 Kopin Corporation Headset computer that uses motion and voice commands to control information display and remote devices
US9911349B2 (en) * 2011-06-17 2018-03-06 Rosetta Stone, Ltd. System and method for language instruction using visual and/or audio prompts
US9851950B2 (en) 2011-11-15 2017-12-26 Wolfram Alpha Llc Programming in a precise syntax using natural language
KR102022318B1 (ko) * 2012-01-11 2019-09-18 삼성전자 주식회사 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
JP5954049B2 (ja) * 2012-08-24 2016-07-20 カシオ電子工業株式会社 データ処理装置及びプログラム
US10276157B2 (en) 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
US20140095167A1 (en) * 2012-10-01 2014-04-03 Nuance Communication, Inc. Systems and methods for providing a voice agent user interface
WO2014107186A1 (en) * 2013-01-04 2014-07-10 Kopin Corporation Controlled headset computer displays
EP2941769B1 (en) * 2013-01-04 2019-05-08 Kopin Corporation Bifurcated speech recognition
KR102009316B1 (ko) * 2013-01-07 2019-08-09 삼성전자주식회사 대화형 서버, 디스플레이 장치 및 그 제어 방법
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
US9575720B2 (en) * 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
WO2015025330A1 (en) 2013-08-21 2015-02-26 Kale Aaditya Kishore A system to enable user to interact with an electronic processing device using voice of the user
US8849675B1 (en) 2013-12-18 2014-09-30 Google Inc. Suggested query constructor for voice actions
US9430186B2 (en) 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
CN105940399B (zh) 2014-03-28 2019-04-26 松下知识产权经营株式会社 声音检索装置、声音检索方法以及显示装置
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US20160078864A1 (en) * 2014-09-15 2016-03-17 Honeywell International Inc. Identifying un-stored voice commands
US20160202947A1 (en) * 2015-01-09 2016-07-14 Sony Corporation Method and system for remote viewing via wearable electronic devices
US10095691B2 (en) 2016-03-22 2018-10-09 Wolfram Research, Inc. Method and apparatus for converting natural language to machine actions
US10261752B2 (en) * 2016-08-02 2019-04-16 Google Llc Component libraries for voice interaction services
US11003417B2 (en) 2016-12-15 2021-05-11 Samsung Electronics Co., Ltd. Speech recognition method and apparatus with activation word based on operating environment of the apparatus
US11450314B2 (en) 2017-10-03 2022-09-20 Google Llc Voice user interface shortcuts for an assistant application
KR102550932B1 (ko) * 2017-12-29 2023-07-04 삼성전자주식회사 음성 인식 모델의 개인화 방법 및 장치
TWI700630B (zh) * 2018-05-31 2020-08-01 技嘉科技股份有限公司 聲控顯示裝置及擷取語音訊號的方法
US11544591B2 (en) 2018-08-21 2023-01-03 Google Llc Framework for a computing system that alters user behavior
KR20210016739A (ko) 2019-08-05 2021-02-17 삼성전자주식회사 전자 장치 및 전자 장치의 입력 방법
US11691076B2 (en) 2020-08-10 2023-07-04 Jocelyn Tan Communication with in-game characters
JP2022096305A (ja) * 2020-12-17 2022-06-29 キヤノン株式会社 情報処理システム、画像処理装置、情報処理システムの制御方法、及びプログラム

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5688501A (en) 1979-12-21 1981-07-18 Matsushita Electric Ind Co Ltd Heater
US4451895A (en) 1980-07-17 1984-05-29 Telesis Corporation Of Delaware, Inc. Interactive computer aided design system
JPS58195957A (ja) 1982-05-11 1983-11-15 Casio Comput Co Ltd 音声によるプログラム実行方式
US4726065A (en) 1984-01-26 1988-02-16 Horst Froessl Image manipulation by speech signals
US5068900A (en) 1984-08-20 1991-11-26 Gus Searcy Voice recognition system
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US4783759A (en) 1986-09-09 1988-11-08 International Business Machines Corporation Floating command line
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5027406A (en) 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5157384A (en) 1989-04-28 1992-10-20 International Business Machines Corporation Advanced user interface
US5214743A (en) 1989-10-25 1993-05-25 Hitachi, Ltd. Information processing apparatus
JPH03147010A (ja) * 1989-11-01 1991-06-24 Yamatake Honeywell Co Ltd コマンド処理装置
JPH04235630A (ja) 1990-07-30 1992-08-24 Ronald L Colier 可聴コマンドでコンピュータのプログラミングを行うための方法及び装置
US5133011A (en) 1990-12-26 1992-07-21 International Business Machines Corporation Method and apparatus for linear vocal control of cursor position
US5251130A (en) 1991-04-18 1993-10-05 International Business Machines Corporation Method and apparatus for facilitating contextual language translation within an interactive software application
WO1993007562A1 (en) 1991-09-30 1993-04-15 Riverrun Technology Method and apparatus for managing information
US5222146A (en) 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
US5305244B2 (en) 1992-04-06 1997-09-23 Computer Products & Services I Hands-free user-supported portable computer
US5428707A (en) 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US6101468A (en) 1992-11-13 2000-08-08 Dragon Systems, Inc. Apparatuses and methods for training and operating speech recognition systems
US5452397A (en) 1992-12-11 1995-09-19 Texas Instruments Incorporated Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list
EP0607615B1 (en) 1992-12-28 1999-09-15 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
US5671328A (en) 1992-12-30 1997-09-23 International Business Machines Corporation Method and apparatus for automatic creation of a voice recognition template entry
US5890122A (en) * 1993-02-08 1999-03-30 Microsoft Corporation Voice-controlled computer simulateously displaying application menu and list of available commands
US5698834A (en) 1993-03-16 1997-12-16 Worthington Data Solutions Voice prompt with voice recognition for portable data collection terminal
CA2115210C (en) 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5465317A (en) 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
EP0645757B1 (en) 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US5602963A (en) 1993-10-12 1997-02-11 Voice Powered Technology International, Inc. Voice activated personal organizer
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
DE69531861T2 (de) 1994-03-18 2004-11-04 Koninklijke Philips Electronics N.V. Sprachgesteuertes fahrzeugalarmsystem
GB2292500A (en) 1994-08-19 1996-02-21 Ibm Voice response system
US5638486A (en) 1994-10-26 1997-06-10 Motorola, Inc. Method and system for continuous speech recognition using voting techniques
US5774859A (en) 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5729659A (en) 1995-06-06 1998-03-17 Potter; Jerry L. Method and apparatus for controlling a digital computer using oral input
US5864815A (en) 1995-07-31 1999-01-26 Microsoft Corporation Method and system for displaying speech recognition status information in a visual notification area
US5970457A (en) * 1995-10-25 1999-10-19 Johns Hopkins University Voice command and control medical care system
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
JPH10111784A (ja) * 1996-10-08 1998-04-28 Toshiba Corp パーソナルコンピュータおよびコマンド制御方法
US6018711A (en) 1998-04-21 2000-01-25 Nortel Networks Corporation Communication system user interface with animated representation of time remaining for input to recognizer
JP2000029585A (ja) * 1998-07-08 2000-01-28 Canon Inc 音声コマンド認識画像処理装置
US6233560B1 (en) 1998-12-16 2001-05-15 International Business Machines Corporation Method and apparatus for presenting proximal feedback in voice command systems
US6192343B1 (en) 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
US6937984B1 (en) 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
US8275617B1 (en) 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
US7206747B1 (en) * 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020218650A1 (ko) * 2019-04-26 2020-10-29 엘지전자 주식회사 전자기기
US11657800B2 (en) 2019-04-26 2023-05-23 Lg Electronics Inc. Electronic device with wakeup word determined multi-mode operation
KR102153668B1 (ko) 2019-10-29 2020-09-09 주식회사 퍼즐에이아이 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법
WO2021085811A1 (ko) 2019-10-29 2021-05-06 주식회사 퍼즐에이아이 키보드 매크로 기능을 활용한 자동 음성 인식기 및 음성 인식 방법
US11977812B2 (en) 2019-10-29 2024-05-07 Puzzle Ai Co., Ltd. Automatic speech recognizer and speech recognition method using keyboard macro function

Also Published As

Publication number Publication date
JP2000215022A (ja) 2000-08-04
KR20000067827A (ko) 2000-11-25
JP3292190B2 (ja) 2002-06-17
US20130041670A1 (en) 2013-02-14
US8831956B2 (en) 2014-09-09
US8275617B1 (en) 2012-09-25

Similar Documents

Publication Publication Date Title
KR100354365B1 (ko) 음성 커맨드 입력 인식 기능이 있는 상호작용형 컴퓨터제어 디스플레이 시스템 및 그 시스템으로의 음성 커맨드입력 제공 방법
US7206747B1 (en) Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6192343B1 (en) Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
US6937984B1 (en) Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
KR100996212B1 (ko) 음성인식을 위한 방법, 시스템 및 프로그램
US5890122A (en) Voice-controlled computer simulateously displaying application menu and list of available commands
EP1485773B1 (en) Voice-controlled user interfaces
Cohen et al. The role of voice input for human-machine communication.
US5748841A (en) Supervised contextual language acquisition system
US6820056B1 (en) Recognizing non-verbal sound commands in an interactive computer controlled speech word recognition display system
US7461352B2 (en) Voice activated system and methods to enable a computer user working in a first graphical application window to display and control on-screen help, internet, and other information content in a second graphical application window
US7548859B2 (en) Method and system for assisting users in interacting with multi-modal dialog systems
TWI394065B (zh) 在精簡鍵盤解疑系統中的多重預測
US20120215543A1 (en) Adding Speech Capabilities to Existing Computer Applications with Complex Graphical User Interfaces
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
US6499015B2 (en) Voice interaction method for a computer graphical user interface
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JP2009506386A (ja) 対話式ユーザチュートリアルへの、音声エンジン訓練の組込み
KR20080045142A (ko) 네비게이션 인터페이스를 통해 컴퓨팅 시스템에 텍스트를입력하기 위한 방법 및 컴퓨터 판독가능 매체
US20230161553A1 (en) Facilitating discovery of verbal commands using multimodal interfaces
House Spoken-language access to multimedia(SLAM): a multimodal interface to the World-Wide Web
Wagner et al. An empirical evaluation of a vocal user interface for programming by voice
JP2002116797A (ja) 音声処理装置、音声処理方法及び記憶媒体
GB2344917A (en) Speech command input recognition system
Rosenfeld et al. Universal Human-Machine Speech Interface

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20060814

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee