KR20060050966A - 음성 인식에 있어서 동사 에러 복원 - Google Patents

음성 인식에 있어서 동사 에러 복원 Download PDF

Info

Publication number
KR20060050966A
KR20060050966A KR1020050081661A KR20050081661A KR20060050966A KR 20060050966 A KR20060050966 A KR 20060050966A KR 1020050081661 A KR1020050081661 A KR 1020050081661A KR 20050081661 A KR20050081661 A KR 20050081661A KR 20060050966 A KR20060050966 A KR 20060050966A
Authority
KR
South Korea
Prior art keywords
verb
user
invalid object
speech recognition
command
Prior art date
Application number
KR1020050081661A
Other languages
English (en)
Other versions
KR101213835B1 (ko
Inventor
데이비드 모와트
로버트 엘. 챔버스
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060050966A publication Critical patent/KR20060050966A/ko
Application granted granted Critical
Publication of KR101213835B1 publication Critical patent/KR101213835B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

음성 인식용 컴퓨터 구현 방법 및 시스템이 제공된다. 상기 방법 및 시스템은 일반적으로 음성 인식 커맨드를 위한 동사의 세트를 유지한다. 상기 동사에 대한 무효 목적어 또는 목적어들과 결합하여 상기 세트의 동사의 발음을 인식하면, 상기 방법 및 시스템은 동사 및 무효 목적어와 관련하는 지시를 생성한다. 상기 지시는 무효 목적어를 구비하는 동사와 관계된 커맨드를 실행하는 방법이 확실하지 않다는 것을 사용자에게 통지하는 것을 포함한다. 상기 방법 및 시스템은 다음에 사용자 입력을 수신하여 동사 및 비유효 목적어를 처리해야 하는 방법을 특정한다.
음성 인식, 커맨드, 동사, 목적어, 형용사, 발음

Description

음성 인식에 있어서 동사 에러 복원{VERB ERROR RECOVERY IN SPEECH RECOGNITION}
도 1은 본 발명의 실시예를 실행하는 적당한 컴퓨팅 환경의 블록도.
도 2는 본 발명이 실행될 수 있는 다른 컴퓨팅 환경의 블록도.
도 3은 본 발명의 실시예에 따른 컴퓨터 구현 방법의 블록도.
<도면의 주요 부분에 대한 부호의 설명>
202: 프로세서
208: 통신 인터페이스
212: OS
214: 애플리케이션
216: 목적어 저장부
본 발명은 컴퓨터화된 음성 인식에 관한 것이다. 보다 상세하게는, 본 발명은 음성 인식 시스템이 인식 에러 및/또는 모호함에 반응하는 방식을 향상하기 위한 장치 및 방법에 관한 것이다.
음성 인식은 사람들이 자신의 음성을 사용하여 컴퓨팅 시스템과 인터페이싱할 수 있게 하는 많은 유용한 애플리케이션을 갖는 기술이다. 이들 애플리케이션은: 사용자가 텍스트를 문서로 받아쓰게 할 수 있고; 사용자가 음성을 통해 하나 이상의 컴퓨터 프로그램에 커맨드를 발행할 수 있으며; 자동화 전화 시스템을 향상시키고; 많은 기타 애플리케이션을 포함한다. 그러한 시스템은, 컴퓨터화된 전화 프로세싱 시스템; 데스크탑 컴퓨팅 제품과의 사용자 인터랙션; 및 심지어 모바일 컴퓨팅 장치의 인터랙션 및 제어 같은 대규모 중앙집중화 서버 애플리케이션에 유용하다.
음성 인식은 공지되어 있으며, 아마도 컴퓨팅 장치와의 인간 인터랙션의 미래로서 활발하게 연구되고 있다. 음성 인식이 빠르게 진보되어 왔지만, 완전하지는 않다. 음성 인식은 실질적인 컴퓨팅 리소스를 필요로 하며 100% 인식 정확도를 달성하지는 못한다. 이것은 부분적으로 인간 언어에 내재하는 모호성에 기인하고, 또한, 부분적으로, 사용자 음성이 적용될 수 있는 도메인이 변경하는 것에 기인한다.
현재의 데스크탑 음성 인식 시스템은 전형적으로 음성의 세개의 클래스를 경청한다. 인식된 텍스트가 현재 포커스를 갖는 문서에 간단히 삽입되는 제1 클래스에는 받아쓰기(dictation)가 없다. 받아쓰기의 예로는, "존, 어제 보내준 보고서 받았니?"가 있을 수 있다. 음성의 제2 클래스는 메뉴 또는 버튼의 간단한 이름 형태의 커맨드이다. 음성의 상기 클래스의 예로는 "파일(File)", "편집(Edit)", "보기(View)", "OK" 등을 포함한다. 커맨드 워드가 인식되는 경우, 그들이 나타내는 아이템이 음성에 의해 "클릭킹"되거나 선택된다(즉, 파일 메뉴는 "File"이 인식되는 경우 열린다). 제3 클래스는 동사 플러스 목적어 커맨드 쌍 형태의 커맨드이다. 음성의 상기 클래스의 예로는 "Delete report(리포트 삭제)", "Click OK(OK 클릭)" 및 "Start Calculator(계산기 실행)"을 포함한다. "계산기 실행" 커맨드는, 적당하게 인식될 때, 계산기를 호출하는 애플리케이션을 론칭(launching)할 것이다.
세개의 모든 클래스를 경청함으로써, 사용자는 음성에 의해 텍스트를 입력하고자 하는지 아니면 음성에 의해 커맨드를 제공하고자 하는지 여부를 말하기 전에 지시할 필요는 없다. 음성 인식 시스템은 그러한 것을 자동적으로 결정한다. 따라서, 사용자가 "Delete sentence(문장 삭제)"를 발음하면, 현재 문장이 삭제될 것이다. 또한, 사용자가 "This is a test(이것은 테스트이다)"라고 발음하면, 워드 "This is a test"가 현재 문서에 삽입될 것이다. 이러한 직관적인 접근법은 사용자 경험을 매우 간소화하지만, 제한이 없는 것은 아니다. 특히, 사용자가 동사-플러스-목적어 커맨드를 제공하고자 하는 경우, 그리고 커맨드 또는 목적어에 에러가 있거나 인식을 실패하는 경우, 동사-플러스-목적어는 받아쓰기로서 처리되고 문서에 삽입될 것이다.
시도된 동사-플러스-목적어 커맨드를 문서에 잘못 삽입하게되면 컴파운드 에러 상황이 발생하게 된다. 특히, 사용자는 잘못 삽입된 텍스트를 원상태로 되돌려야 하고 상기 커맨드를 다시 말해야 한다. 사용자가 동사-플러스-목적어 커맨드가 잘못인식될 때 하나 이상의 단계를 따라야 한다는 사실은 잘못 인식된 에러를 "컴 파운드 에러"로 전환하는 것이다. 컴파운드 에러는 사용자를 당황스럽게 하고 음성 인식에 대한 사용자의 인상을 쉽게 윤색할 수 있다. 따라서, 그러한 에러를 감소시키거나 또는 심지어 제거할 수 있는 음성 인식 시스템은 일반적으로 음성 인식으로 사용자의 경험을 향상시킬 것이다.
음성 인식용 컴퓨터 구현 방법 및 시스템이 제공된다. 상기 방법 및 시스템은 일반적으로 음성 인식 커맨드용 동사 세트를 유지한다. 동사 세트 및 그 동사에 대한 무효 목적어를 결합하여 발음하는 것을 인식하게 되면, 상기 방법 및 시스템은 상기 동사 및 무효 목적어에 관련하는 지시를 생성하게 된다. 상기 지시는 사용자에게 상기 시스템이 무효 목적어와 함께 동사와 관련된 커맨드를 실행해야 하는 방법이 불확실하다는 것을 통지하는 것을 포함한다. 그 다음, 상기 방법 및 시스템은 사용자 입력을 수신하여 동사 및 무효 목적어를 처리해야하는 방법을 특정한다.
도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 예를 나타낸다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일 예이며 본 발명의 사용 또는 기능의 범위에 제한을 가하도록 의도된 것은 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 도시된 컴포넌트들 중의 임의의 하나 또는 조합에 관하여 임의의 종속성(dependency) 또는 요구사항(requirement)을 갖는 것으로 해석되어서는 안된다.
본 발명은 많은 다른 범용 또는 특수목적 컴퓨팅 시스템 환경들 또는 구성들과 함께 동작될 수 있다. 본 발명과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경, 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드(hand-held) 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋 탑 박스(set top box), 프로그램가능한 가전제품(programmable consumer electronics), 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기의 시스템 또는 장치 중의 임의의 것을 포함하는 분산형 컴퓨팅 환경 등이 포함될 수 있지만, 이에 한정되지 않는다.
본 발명은 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행가능 명령과 일반적으로 관련하여 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 목적어, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 통신 네트워크 또는 다른 데이터 전송 매체를 통해 링크된 원격 프로세싱 장치에 의해 태스크를 수행하는 분산형 컴퓨팅 환경에서 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈 및 그외 데이터는 메모리 저장 장치를 포함하는 국부 및 원격 컴퓨터 저장 매체 내에 위치할 수 있다.
도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들로는, 중앙 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트를 프로세싱 유닛(120)에 연결시키는 시스템 버스(121)가 포함될 수 있 지만, 이에 한정되는 것은 아니다.
시스템 버스(121)는 다양한 버스 아키텍처 중의 임의의 것을 사용하는 로컬 버스, 주변 버스, 및 메모리 버스 또는 메모리 컨트롤러를 포함하는 몇가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로서, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(Enhanced ISA; EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스, 및 메자닌(Mezzanine 버스로도 알려진 주변 컴포넌트 상호접속(PCI) 버스를 포함하지만, 이에 한정되는 것은 아니다.
컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(110)에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수 있으며, 휘발성 및 비휘발성 매체, 분리형(removable) 및 비분리형(non-removable) 매체를 둘 다 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이에 한정되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 둘 다 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광학 디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함할 수 있지만, 이에 한정되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 변조된 데이터 신호에 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내에 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지 않는다. 상술한 것들 중의의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 때에 컴퓨터(110) 내의 구성요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고 및/또는 프로세싱 유닛(120)에 의해 현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)를 도시하지만, 이에 한정되는 것은 아니다.
컴퓨터(110)는 또한 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 비분리형 비휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드 디스크 드라이브(141), 분리형 비휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라 이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 분리형 비휘발성 광학 디스크(156)로부터 판독하거나 그 광학 디스크에 기록하는 광학 디스크 드라이브(155)가 도시되어 있다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD(Digital versatile disk), 디지털 비디오 테이프, 고체 RAM, 고체 ROM 등을 포함하지만 이에 한정되지 않는다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 다른 프로그램 모듈(146), 및 프로그램 데이터(147)는 최소한 다른 복사본(different copies)임을 나타내기 위하여 다른 번호를 부여하였다.
사용자는 일반적으로 마우스, 트랙볼, 또는 터치 패드라 불리우는 포인팅 장치(161), 키보드(162) 및 마이크로폰(163)과 같은 입력 장치를 통해 컴퓨터(110)에 명령 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 마이크로폰, 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 종종 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 유니버설 시리얼 포트(USB) 와 같은 기타 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터 외에도, 컴퓨터는 또한 출력 주변 인터페이스(190)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드헬드 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성요소 중 다수 또는 모든 구성요소를 일반적으로 포함할 수 있다. 도 1에 도시된 논리적 접속은 근거리 통신망(LAN; 171) 및 원거리 통신망(WAN; 173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 광역 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메카니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서 (한정하고자 하는 것은 아님), 도 1은 원격 컴퓨터(180)에 상주하는 원격 애플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다.
도 2는 예시적 컴퓨팅 환경인 모바일 장치(200)의 블록도이다. 모바일 장치(200)는 마이크로프로세서(202), 메모리(204), 입력/출력(I/O) 컴포넌트(206), 및 원격 컴퓨터 또는 그 외의 모바일 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 전술한 컴포넌트는 적절한 버스(210)를 통해 서로 통신하도록 접속되어 있다.
메모리(204)는, 모바일 장치(200)로의 일반적인 전력이 셧 다운(shut down)되는 경우 그 메모리(204)에 저장된 정보가 손실되지 않도록 배터리 백업 모듈(도시 생략)을 구비한 RAM과 같은 비휘발성 전자 메모리로서 구현된다. 메모리(204)의 일부는 프로그램 실행을 위한 어드레스가능 메모리로서 할당되는 반면, 메모리(204)의 다른 부분은 디스크 드라이브 상의 저장을 시뮬레이션하는 것과 같은 저장 을 위해 사용되는 것이 바람직하다.
메모리(204)는 오퍼레이팅 시스템(212), 애플리케이션 프로그램(214) 뿐만 아니라 목적어 저장부(216)를 포함한다. 동작동안, 오퍼레이팅 시스템(212)은 메모리(204)로부터 프로세서(202)에 의해 실행되는 것이 바람직하다. 바람직한 일 실시예에서, 오퍼레이팅 시스템(212)은 마이크로소프트사로부터 상업적으로 이용가능한 WINDOWS® CE 브랜드 오퍼레이팅 시스템이다. 오퍼레이팅 시스템(212)은 바람직하게는 모바일 장치용으로 설계되어 있고, 노출된 애플리케이션 프로그래밍 인터페이스 세트 및 방법을 통해 애플리케이션(214)에 의해 이용될 수 있는 데이터베이스 피쳐(feature)를 구현한다. 목적어 저장부(216)에 있는 목적어는, 노출된 애플리케이션 프로그래밍 인터페이스 및 방법으로의 호출에 적어도 부분적으로 응답하여 애플리케이션(214) 및 오퍼레이팅 시스템(212)에 의해 유지된다.
통신 인터페이스(208)는 모바일 장치(200)가 정보를 송수신할 수 있게 하는 많은 장치 및 기술을 나타낸다. 상기 장치는, 예를 들면, 유선 및 무선 모뎀, 위성 수신기 및 방송 튜너를 포함한다. 모바일 장치(200)는 또한 컴퓨터에 직접 접속되어 데이터를 교환할 수 있다. 그 경우에, 통신 인터페이스(208)는 스트리밍 정보를 전송할 수 있는 적외선 트랜시버 또는 시리얼 또는 패러랠 통신 접속일 수 있다.
입력/출력 컴포넌트(206)는, 터치 민감형 스크린, 버튼, 롤러, 및 마이크로폰과 같은 다양한 입력 장치 뿐만 아니라 오디오 생성기, 진동 장치, 및 디스플레 이를 포함하는 다양한 출력 장치를 포함한다. 상기 목록화된 장치는 예이고 모바일 장치(200) 상에 모두 구비할 필요는 없다. 또한, 기타 입력/출력 장치는 본 발명의 범위 내에서 모바일 장치(200)와 접속되거나 그 안에서 발견할 수 있다.
본 발명의 일 실시예에 따라, 음성 인식 시스템은 사용자가 컴파운드 에러 시나리오에 빠지는 것을 회피하는 것을 돕기 위해 유도성 피드팩을 사용자에게 제공한다. 일 실시예에서, 상기 시스템은 시스템이 올바른 동사를 청취하였지만 그 주제(subject)가 불확실하다는 지시를 사용자에게 제공함으로써 상기 사항을 실행한다. 다음에, 그것이 사용자가 하고 싶어하는 것이라면, 텍스트로서 어구를 삽입하는 선택을 사용자에게 제공할 수 있다.
도 3은 본 발명의 실시예에 따른 컴퓨터 구현 방법의 블록도이다. 도 3에 도시된 방법은 전술한 컴퓨팅 환경 뿐만 아니라 기타 적절한 컴퓨팅 환경에서 실행될 수 있다. 방법(300)은 블록(302)에서 시작하며, 이 블록에서 음성 인식 커맨드용으로 사용되는 동사의 세트가 식별된다. 이 세트에는 일반적으로 10 내지 20개의 동사(예를 들면, select(선택하다), delete(삭제하다), start(시작하다), click(클릭하다) 등)가 있고, 그 동사들은 음향 차이에 대하여 선택될 것이다. 이것은, 음성 인식 소프트웨어가 시간상 매우 높은 퍼센트로 정확하게 동사를 인식하는 것을 확실하게 한다.
블록(304)에서, 시스템은 음성을 경청하고 음성을 인식된 텍스트로 변환한다. 블록(304)은 오늘날 공지된 임의의 적절한 음석 인식 기술 또는 미래에 개발될 기술에 따라 동작할 수 있다. 블록(304)에서 음성이 텍스트로 변환된 후에, 블 록(306)으로 진행하여 시스템은 인식된 텍스트가 간단한 커맨드인지의 여부를 판정한다. 인식된 음성이 "File"과 같은 간단한 커맨드이면, 그 커맨드는 음성에 의해 파일 메뉴를 클릭킹하는 것과 같이 실행된 다음, 제어는 라인(308)을 경유하여 블록(304)로 리턴한다.
블록(310)에서, 상기 시스템은 인식된 텍스트가 동사 플럭스 적어도 하나의 유효 목적어인지 여부를 판정한다. 간단한 예로는, 인식된 텍스트가 "Start Calculator"와 같은 유효한 동사-플러스-목적어가 있고, 다음에 시스템은 계산기 애플리케이션을 론칭할 것이다. 그러나, 본 발명의 실시예는 유효 목적어에 이어 부가의 텍스트가 있는 상황에도 동일하게 적용가능하다. 예를 들면, "Select the word <text> 및 turn it <formatting style>"과 같은 커맨드는 동사 "select"에 이어 유효 목적어 "the word"가 이어지며 그 뒤에 텍스트가 "the word"로서 의미되는 시스템을 말하는 특정자 <텍스트>가 이어진다. 또한, 상기 커맨드는 제2 동사 "turn"에 이어 또 다른 유효 목적어 "it"을 포함하기 때문에 다수의 부분을 갖는다. 본 발명의 실시예는 동사에 이어 적어도 하나의 유효 목적어로 시작하는 임의의 음성 인식 커맨드를 포함한다. 따라서, 본 발명의 실시예는, 동사-목적어-동사-목적어(select fred and turn it bold); 동사-목적어-목적어(change fred into fried); 및 동사-목적어-형용사(turn that red)를 포함하는 커맨드 뿐만 아니라 동사에 이어 유효 목적어로 시작하는 임의의 기타 커맨드에도 적용가능하다. 시스템이 동사 플러스 적어도 하나의 목적어에서 동작하였다면, 제어는 라인(312)를 따라 블록(304)로 리턴한다.
블록(312)에서, 상기 시스템은 인식된 텍스트가 블록(302)에서 선택된 동사 세트로부터의 동사 플러스 비유효 목적어인지 여부를 판정한다. 그 경우, 제어는 블록(314)로 진행한다. 블록(314)에서, 상기 시스템은 인식된 동사가 비유효 목적어에 기인하여 어떻게 동작해야 하는지 불확실하다는 지시를 사용자에게 제공한다. 그러나, 상기 시스템은 또한 "What was that?"와 같은 표준 오인식 메시지를 사용자에게 간단히 제공할 수 있다. 일 실시예에서, 사용자가 "Start calculator" 대신 "Start adding"라고 말하고 "adding"이 동사 "Start"에 대하여 비유효 목적어이면, 시스템은 사용자에게 무엇이 "Started"될 것인지 불확실하다고 지시할 것이다. 그 다음, 상기 시스템은 사용자가 받아쓰기로서 텍스트를 삽입하기를 원하면, "Insert start..."라고 말해야 한다는 것을 지시할 수 있다. 피드백은 또한 사용자가 원한다면, 인식된 동사에 대한 유효 목적어의 리스트가 디스플레이될 수 있다는 것을 지시한다. 사용자 피드백이 주어지면, 상기 방법은 블록(316)으로 선택적으로 진행하고, 시스템은 피드백에 대한 사용자 응답을 대기한다. 일부 실시예에서, 상기 방법은, 사용자 입력 및 결과적인 시스템 액션이 필요하지 않으면 블록(314)으로부터 블록(304)로 직접 진행할 수 있다. 선택 블록(316)에서, 사용자 응답은 버튼을 누르거나, 커맨드를 말하거나, 또는 임의의 기타 적절한 인터랙션의 형태일 수 있다. 사용자가 피드백에 관련한 입력을 제공하면, 블록(318)으로 선택적으로 진행하고, 여기에서 사용자 입력에 기초하여 적절한 액션이 취해진다. 예를 들면, 사용자가 동사 플러스 비유효 목적어가 구술되었다는 것을 지시했다면, 텍스트가 구술로서 입력될 것이다. 사용자 입력이 블록(318)에서 동작된 후에, 라 인(320)을 따라 블록(304)으로 리턴한다. 마지막으로, 인식된 텍스트가 간단한 커맨드, 동사-플러스-목적어도 아니고 동사-플러스 비유효 목적어도 아니라면, 인식된 텍스트는 블록(322)에서 지시된 바와 같이 구술로서 현재 문서에 간단히 삽입된다.
단계(306, 310 및 312)를 연속적으로 설명하였지만, 그러한 설명은 명료성을 위해 간단히 제공된 것이다. 평가 순서는 본 발명의 실시예에 따라 변경될 수 있다.
따라서, 본 발명에 따르면, 무효 목적어와 결합하여 선택된 동사의 인식에 응답하여 사용자에게 유도성 피드백을 제공함으로써, 간단한 프로세스를 통해 컴파운드 에러가 있는 것에 대하여 사용자를 즐겁게 할 수 있다. 더욱이, 음성 인식 시스템과 익숙하지 않은 사용자를 과도하게 실망시키지 않으면서 쉽게 안내할 수 있게 된다. 이러한 향상된 사용자 경험을 통해 사용자를 음성 인식 기술에 용이하게 적응시킬 수 있을 뿐만 아니라 음성 인식 시스템과의 사용자 인터랙션의 효율을 향상시킬 수 있다.
본 발명이 특정 실시예를 참조하여 설명되었지만, 본 발명의 사상 및 범위를 벗어나지 않고 변경이 가해질 수 있다는 것을 당업자는 이해할 수 있을 것이다.

Claims (15)

  1. 음성을 인식하는 컴퓨터 구현 방법으로서,
    음성 인식 커맨드용의 동사 세트를 식별하는 단계;
    상기 동사 세트 중 하나의 동사 및 그 동사에 적어도 하나의 무효 목적어를 결합하여 발음하는 것을 인식하는 단계;
    상기 동사 및 무효 목적어에 관련하는 지시를 생성하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 지시는 사용자에게 명령을 제공하는 방법.
  3. 제2항에 있어서,
    상기 지시는 받아쓰기로서 상기 동사 및 무효 목적어를 처리하기 위해 응답하는 방법을 사용자에게 통지하는 방법.
  4. 제1항에 있어서,
    사용자 응답을 수신하고, 사용자 응답에 기초하여 상기 동사 및 무효 목적어에 관련하는 액션을 취하는 단계를 더 포함하는 방법.
  5. 제4항에 있어서,
    상기 액션은 받아쓰기로서 상기 동사 및 무효 목적어를 삽입하는 단계를 포함하는 방법.
  6. 제4항에 있어서,
    상기 액션은 상기 사용자 응답에 기초하여 동사와 관계된 커맨드를 실행하는 단계를 포함하는 방법.
  7. 제4항에 있어서,
    상기 사용자 응답은 버튼을 누르는 단계를 포함하는 방법.
  8. 제4항에 있어서,
    상기 사용자 응답은 음성 커맨드를 포함하는 방법.
  9. 음성을 인식하도록 적응되는 컴퓨팅 시스템으로서,
    사용자 음성을 수신하기 위한 입력부;
    상기 사용자 음성을 프로세싱하고 사용자 음성에 관련하여 인식된 텍스트를 생성하는 프로세싱 수단;
    음성 커맨드와 관련된 동사 세트를 저장하는 메모리를 포함하고,
    상기 프로세싱 수단은, 상기 동사 세트 중 하나의 동사 및 그 동사의 무효 목적어와 결합한 것을 인식하면 지시를 제공하는
    컴퓨팅 시스템.
  10. 제9항에 있어서,
    상기 컴퓨팅 시스템은 데스크탑 컴퓨팅 시스템인 컴퓨팅 시스템.
  11. 제9항에 있어서,
    상기 컴퓨팅 시스템은 모바일 장치인 컴퓨팅 시스템.
  12. 제9항에 있어서,
    상기 지시는, 상기 시스템이 무효 목적어 및 동사와 관계된 커맨드를 실행하는 방법을 알지 못한다는 것을 사용자에게 통지하는 것을 포함하는 컴퓨팅 시스템.
  13. 제12항에 있어서,
    상기 지시에 응답하여 사용자 입력을 수신하도록 적응된 사용자 입력 장치를 더 포함하는 컴퓨팅 시스템.
  14. 제13항에 있어서,
    상기 시스템은 상기 사용자 입력 장치에 의해 수신된 사용자 입력에 기초하여 동사와 관계된 커맨드를 실행하는 컴퓨팅 시스템.
  15. 제13항에 있어서,
    상기 시스템은 받아쓰기로서 동사 및 무효 목적어를 삽입하는 컴퓨팅 시스템.
KR1020050081661A 2004-10-22 2005-09-02 음성 인식에 있어서 동사 에러 복원 KR101213835B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/971,817 2004-10-22
US10/971,817 US8725505B2 (en) 2004-10-22 2004-10-22 Verb error recovery in speech recognition

Publications (2)

Publication Number Publication Date
KR20060050966A true KR20060050966A (ko) 2006-05-19
KR101213835B1 KR101213835B1 (ko) 2012-12-20

Family

ID=35628824

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050081661A KR101213835B1 (ko) 2004-10-22 2005-09-02 음성 인식에 있어서 동사 에러 복원

Country Status (5)

Country Link
US (1) US8725505B2 (ko)
EP (1) EP1650744A1 (ko)
JP (1) JP4942970B2 (ko)
KR (1) KR101213835B1 (ko)
CN (1) CN1763842B (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720684B2 (en) * 2005-04-29 2010-05-18 Nuance Communications, Inc. Method, apparatus, and computer program product for one-step correction of voice interaction
US8914289B2 (en) * 2009-12-16 2014-12-16 Symbol Technologies, Inc. Analyzing and processing a verbal expression containing multiple goals
JP2011253374A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP6502249B2 (ja) 2013-08-29 2019-04-17 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識方法及び音声認識装置
US20150336786A1 (en) * 2014-05-20 2015-11-26 General Electric Company Refrigerators for providing dispensing in response to voice commands
KR102216048B1 (ko) 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
GB2563066B (en) 2017-06-02 2019-11-06 Avecto Ltd Computer device and method for managing privilege delegation
GB2566262B (en) * 2017-09-01 2020-08-26 Avecto Ltd Managing installation of applications on a computer device
GB2566305B (en) 2017-09-08 2020-04-15 Avecto Ltd Computer device and method for controlling process components
JP2019057123A (ja) * 2017-09-21 2019-04-11 株式会社東芝 対話システム、方法、及びプログラム
GB2566949B (en) * 2017-09-27 2020-09-09 Avecto Ltd Computer device and method for managing privilege delegation
GB2568919B (en) 2017-11-30 2020-07-15 Avecto Ltd Managing removal and modification of installed programs on a computer device
GB2570655B (en) 2018-01-31 2020-12-16 Avecto Ltd Managing privilege delegation on a server device
GB2573491B (en) 2018-02-08 2020-07-01 Avecto Ltd Managing privilege delegation on a computer device
GB2570924B (en) 2018-02-12 2021-06-16 Avecto Ltd Managing registry access on a computer device
GB2572977B (en) 2018-04-18 2020-04-22 Avecto Ltd Protecting a computer device from escalation of privilege attacks
GB2577067B (en) 2018-09-12 2021-01-13 Avecto Ltd Controlling applications by an application control system in a computer device
CN111968637B (zh) 2020-08-11 2024-06-14 北京小米移动软件有限公司 终端设备的操作模式控制方法、装置、终端设备及介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5794196A (en) * 1995-06-30 1998-08-11 Kurzweil Applied Intelligence, Inc. Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
JP2000047685A (ja) 1998-07-30 2000-02-18 Denso Corp 車両用作動装置のための音声操作システム
WO2000011571A1 (en) 1998-08-24 2000-03-02 Bcl Computers, Inc. Adaptive natural language interface
JP2999768B1 (ja) 1999-03-04 2000-01-17 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識誤り訂正装置
US6327566B1 (en) * 1999-06-16 2001-12-04 International Business Machines Corporation Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
US6347296B1 (en) * 1999-06-23 2002-02-12 International Business Machines Corp. Correcting speech recognition without first presenting alternatives
US6374214B1 (en) * 1999-06-24 2002-04-16 International Business Machines Corp. Method and apparatus for excluding text phrases during re-dictation in a speech recognition system
US6581033B1 (en) 1999-10-19 2003-06-17 Microsoft Corporation System and method for correction of speech recognition mode errors
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
JP2001188781A (ja) 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
US6895380B2 (en) * 2000-03-02 2005-05-17 Electro Standards Laboratories Voice actuation with contextual learning for intelligent machine control
JP2001306566A (ja) 2000-04-19 2001-11-02 Nec Corp 情報提供システム及び情報提供方法
JP2001306091A (ja) 2000-04-26 2001-11-02 Nec Software Kobe Ltd 音声認識システムおよび単語検索方法
AU2001259446A1 (en) * 2000-05-02 2001-11-12 Dragon Systems, Inc. Error correction in speech recognition
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
US7136465B2 (en) * 2000-08-31 2006-11-14 Lamson Holdings Llc Voice activated, voice responsive product locator system, including product location method utilizing product bar code and product-situated, location-identifying bar code
US7809574B2 (en) * 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
JP3617826B2 (ja) * 2001-10-02 2005-02-09 松下電器産業株式会社 情報検索装置
JP4000828B2 (ja) 2001-11-06 2007-10-31 株式会社デンソー 情報システム、電子機器、プログラム
US7099829B2 (en) * 2001-11-06 2006-08-29 International Business Machines Corporation Method of dynamically displaying speech recognition system information
US20040018479A1 (en) * 2001-12-21 2004-01-29 Pritchard David E. Computer implemented tutoring system
US9374451B2 (en) * 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7380203B2 (en) * 2002-05-14 2008-05-27 Microsoft Corporation Natural input recognition tool
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
JP2004110613A (ja) * 2002-09-20 2004-04-08 Toshiba Corp 制御装置、制御プログラム、対象装置及び制御システム
KR100668297B1 (ko) * 2002-12-31 2007-01-12 삼성전자주식회사 음성인식방법 및 장치
ATE417346T1 (de) * 2003-03-26 2008-12-15 Koninkl Philips Electronics Nv Spracherkennungs- und korrektursystem, korrekturvorrichtung und verfahren zur erstellung eines lexikons von alternativen
KR100577387B1 (ko) * 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치

Also Published As

Publication number Publication date
EP1650744A1 (en) 2006-04-26
KR101213835B1 (ko) 2012-12-20
JP2006119625A (ja) 2006-05-11
CN1763842B (zh) 2011-06-15
JP4942970B2 (ja) 2012-05-30
CN1763842A (zh) 2006-04-26
US8725505B2 (en) 2014-05-13
US20060089834A1 (en) 2006-04-27

Similar Documents

Publication Publication Date Title
KR101213835B1 (ko) 음성 인식에 있어서 동사 에러 복원
JP4854259B2 (ja) 音声コマンドを明瞭化する集中化された方法およびシステム
EP0607615B1 (en) Speech recognition interface system suitable for window systems and speech mail systems
US8694322B2 (en) Selective confirmation for execution of a voice activated user interface
KR101042119B1 (ko) 음성 이해 시스템, 및 컴퓨터 판독가능 기록 매체
RU2352979C2 (ru) Синхронное понимание семантических объектов для высокоинтерактивного интерфейса
US7624018B2 (en) Speech recognition using categories and speech prefixing
US7930183B2 (en) Automatic identification of dialog timing problems for an interactive speech dialog application using speech log data indicative of cases of barge-in and timing problems
JP3725566B2 (ja) 音声認識インターフェース
CN110046227B (zh) 对话系统的配置方法、交互方法、装置、设备和存储介质
JP7413568B2 (ja) 音声対話の訂正方法及び装置
CN109036406A (zh) 一种语音信息的处理方法、装置、设备和存储介质
CN111326154A (zh) 语音交互的方法、装置、存储介质及电子设备
US20190279623A1 (en) Method for speech recognition dictation and correction by spelling input, system and storage medium
CN108831473B (zh) 一种音频处理方法及装置
KR101780464B1 (ko) 언어 학습을 위한 채팅 방법, 채팅 서버 및 채팅 시스템
JP2024010748A (ja) 検索支援システム、情報処理装置、方法およびプログラム
CN116243804A (zh) 一种语音控制键盘
CN118762693A (zh) 语音控制方法、装置及电子设备
CN114556353A (zh) 数据处理方法、装置、电子设备和存储介质
CN111324703A (zh) 人机对话方法及模拟人声进行人机对话的玩偶
CN111324702A (zh) 人机对话方法及模拟人声进行人机对话的耳麦

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151118

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161123

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171117

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181115

Year of fee payment: 7