KR20080040699A - 목소리로 활성화되는 사용자 인터페이스의 실행에 대한선택적 확인 - Google Patents

목소리로 활성화되는 사용자 인터페이스의 실행에 대한선택적 확인 Download PDF

Info

Publication number
KR20080040699A
KR20080040699A KR1020087002977A KR20087002977A KR20080040699A KR 20080040699 A KR20080040699 A KR 20080040699A KR 1020087002977 A KR1020087002977 A KR 1020087002977A KR 20087002977 A KR20087002977 A KR 20087002977A KR 20080040699 A KR20080040699 A KR 20080040699A
Authority
KR
South Korea
Prior art keywords
command
voice
user
component
commands
Prior art date
Application number
KR1020087002977A
Other languages
English (en)
Inventor
알렉스 지. 스닛코브스키
데이비드 모와트
펠릭스 지.티.아이. 앤드류
로버트 에드워드 드워
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20080040699A publication Critical patent/KR20080040699A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

애플리케이션을 위한 목소리로 활성화되는 사용자 인터페이스가 기술된다. 목소리로 활성화되는 사용자 인터페이스는 음성 인식 컴포넌트를 호출하여 사용자로부터의 음성 입력을 인식한다. 만일 음성 입력이 명령이면, 승인 컴포넌트가 호출되어 실행에 앞서 명령을 승인할지 결정한다.
Figure P1020087002977
사용자 인터페이스, 목소리로 활성화되는 사용자 인터페이스, 음성 신호, 애플리케이션, 방법, 음성 인식 컴포넌트, 음성 지원 컴포넌트, 승인 컴포넌트, 확인, 승인, 명령, 파괴적 명령

Description

목소리로 활성화되는 사용자 인터페이스의 실행에 대한 선택적 확인{SELECTIVE CONFIRMATION FOR EXECUTION OF A VOICE ACTIVATED USER INTERFACE}
음성 인식 애플리케이션은 음성을 인식하고 인식된 음성을 기초로 명령의 실행 및/또는 텍스트의 생성을 수행한다. 음성 인식은 오류가 발생하기 쉽고, 그 결과 때때로 잘못된 텍스트가 디스플레이되거나 잘못된 명령이 실행된다.
위 설명은 단지 일반적인 배경 지식 정보를 제공하는 것이고 본 발명의 권리 범위를 결정하는데 보조 수단으로 사용되고자 하는 것이 아니다.
목소리로 활성화되는 사용자 인터페이스(user interface; "UI")는 실행에 앞서 명령을 선택적으로 승인(validate)한다. 음성 인식 컴포넌트가 호출되어 사용자의 음성 입력을 인식한다. 만일 음성 입력이 명령이면, 승인 컴포넌트가 호출되어 명령을 승인시킬지 결정한다. 입력 명령에 따라, 승인 컴포넌트는 사용자에게 사용자가 입력 명령을 실행하기를 원하는지를 확인 또는 승인화하도록 유도한다.
이 부분 설명은 아래의 실시예에서 더욱 상세히 기술될 사상들 중 선택된 일부를 단순화된 형태로 소개하기 위해 제공된다. 이 부분 설명은 본 발명의 권리범위의 본질적인 특징이나 기본적인 특징을 파악하고자 하는 것이 아니고, 본 발명의 권리 범위를 결정하는데 보조 수단으로 사용되고자 하는 것도 아니다.
도 1은 본 발명이 실시될 수 있는 한 컴퓨팅 환경의 블록도를 도시하는 도면.
도 2는 본 발명이 실시될 수 있는 선택적인 컴퓨팅 환경의 블록도를 도시하는 도면.
도 3은 애플리케이션 명령에 대한 승인 컴포넌트를 포함하는 목소리로 활성화되는 사용자 인터페이스의 일 실시예의 블록도를 도시하는 도면.
도 4는 본 발명에 따라 목소리로 활성화되는 사용자 인터페이스를 구현한 일 실시예를 설명하는 흐름도를 도시하는 도면.
도 1은 실시예들이 구현되기에 적합한 컴퓨팅 시스템 환경(100)의 일례를 도시하고 있다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 컴퓨팅 환경(100)이 예시적인 운영 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서도 안된다.
실시예들은 많은 기타 범용 또는 특수 목적의 컴퓨팅 시스템 환경 또는 구성에서 동작할 수 있다. 다양한 실시예들에서 사용하는 데 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템들이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만 이에 제한되는 것은 아니다.
실시예들은 일반적으로 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 개체, 컴포넌트, 데이터 구조 등을 포함한다. 어떤 실시예들은 또한 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시되도록 설계된다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 비롯한 로컬 및 원격 컴퓨터 저장 매체 양쪽에 위치할 수 있다.
도 1과 관련하여, 어떤 실시예들을 구현하는 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장치(120), 시스템 메모리(130), 및 시스템 메모리를 비롯한 각종 시스템 컴포넌트들을 처리 장치(120)에 연결시키는 시스템 버스(121)를 포함하지만 이에 제한되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스, 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다.
컴퓨터(110)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨터(110)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 변조된 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선된 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 상술된 매체들의 모든 조합들 또한, 컴퓨터 판독가능 매체의 영역 안에 포함되는 것으로 한다.
시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에, 컴퓨터(110) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 통상적으로 ROM(131)에 저장되어 있다. RAM(132)에는 통상적으로 처리 장치(120)가 즉시 이용할 수 있고, 또는 현재 동작시키고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 1은 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있지만 이에 제한되는 것은 아니다.
컴퓨터(110)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장매체를 포함한다. 단지 예로서, 도 1은 비이동식·비휘발성 자기 매체에 기록을 하거나 그로부터 판독을 하는 하드 디스크 드라이브(141), 이동식·비휘발성 자기 디스크(152)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(151), CD-ROM 또는 기타 광 매체 등의 이동식·비휘발성 광 디스크(156)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(155)를 도시한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 기억 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고상(solid state) RAM, 고상 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
위에서 설명되고 도 1에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체에는, 컴퓨터(110)에 대한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터가 저장된다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이들 컴포넌트가 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일하거나 그와 다를 수 있다는 것이다. 이와 관련해, 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146) 및 프로그램 데이터(147)에 다른 번호가 부여되어 있다는 것은 적어도 이들이 다른 사본(copy)이라는 것을 나타내기 위한 것이다.
사용자는 키보드(162), 마이크(163) 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시 생략)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페 이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속될 수 있다. 모니터 외에, 컴퓨터는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(195)를 통해 접속될 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(110)와 관련하여 상술된 구성요소들의 대부분 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접속으로는 LAN(171) 및 WAN(173)이 있지만, 기타 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 통상적으로 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속된다. 네트워크화된 환경에서, 컴퓨터(110) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 있는 것으로 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 이해할 것이다.
도 2는 예시적 컴퓨팅 환경인 이동 장치(mobile device; 200)의 블록도 이다. 이동 장치(200)는 마이크로 프로세서(202), 메모리(204), 입/출력 컴포넌트(input/output components; 206) 그리고 원격 컴퓨터(remote computer)나 다른 이동 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 전술한 구성요소는 상호 간에 통신을 하기 위해 적합한 버스(210)를 통해 연결된다.
메모리(204)는 이동 장치(200)의 주 전원이 꺼졌을 때도 메모리(204) 내에 저장된 정보가 손실되지 않도록 배터리 백업 모듈(도시 없음)이 있는 랜덤 액세스 메모리(RAM)와 같은 비휘발성 전자 메모리 형태로 구현된다. 메모리(204)의 일부분은 프로그램 실행을 위한 번지 지정 메모리(addressable memory)로서 할당되는 것이 바람직하고, 반면에 메모리(204)의 또 다른 부분은 디스크 드라이브상의 모의 저장장치(simulate storage)와 같은 저장장치로 사용되는 것이 바람직하다.
메모리(204)는 객체 기억장치(object store; 216) 뿐만 아니라 운영 체제(212), 애플리케이션 프로그램(214)도 포함한다. 동작 중에, 운영 체제(212)는 메모리(204)로부터 읽혀져 프로세서(202)에 의해 실행된다. 한 실시예에서 운영 체제(212)는 마이크로소프트 코포레이션(Microsoft Corporation) 에서 나온 상 업적으로 이용가능한 윈도우즈 씨이(WINDOWS® CE) 상표(brand)의 운영 체제일 수 있다. 운영 체제(212)는 이동 장치를 위해 설계되고 애플리케이션(214)에 의해 사용될 수 있는 데이터베이스 특성들을 노출된 애플리케이션 프로그래밍 인터페이스와 메쏘드의 집합(a set of exposed application programming interface and methods)을 통해 구현한다. 객체 기억장치(216) 내의 객체는 노출된 애플리케이션 프로그래밍 인터페이스와 메쏘드의 호출에 적어도 부분적으로 응답하여, 애플리케이션(214)과 운영 체제(212)에 의해 관리된다.
통신 인터페이스(208)는 이동 장치(200)가 정보를 송신하고 수신하는 것을 가능케하는 수많은 장치와 기술을 의미한다. 상기 장치는 몇 개를 들자면 유/무선 모뎀, 위성 수신기 및 방송 동조기(broadcast tuner)를 포함한다. 이동 장치(200)는 또한 상호 간의 데이터 교환을 위해 컴퓨터에 직접 연결될 수 있다. 이런 경우, 통신 인터페이스(208)는 적외선 송수신기 또는 직렬 또는 병렬 통신 접속(a serial or a parallel communication connection)일 수 있으며 예시된 이들 모든 인터페이스는 스트리밍 정보를 전송하는 것이 가능하다.
입/출력 컴포넌트(206)는 접촉 감지 스크린(touch-sensitive screen), 버튼, 롤러 및 마이크로폰과 같은 다양한 입력 장치를 포함할 뿐만 아니라, 음향 생성기(audio generator), 진동 장치(vibrating device) 및 디스플레이와 같은 다양한 출력 장치들도 포함한다. 상기에 열거된 장치들은 예를 든 것이고 이동 장치(200)에 모두 갖춰져 있을 필요는 없다. 부가적으로, 기타 입/출력 장치는 이동 장치(200)에 부착되거나, 이동 장치(200)와 함께 있을 수 있다.
도 3은 애플리케이션(300)용 사용자 인터페이스(250)가 목소리로 활성화 되는 것을 가능케하는 시스템을 도시한다. 도 3에 도시된 바와 같이, 시스템은 음성 지원 컴포넌트(speech support component; 302)를 포함한다. 음성 지원 컴포넌트(302)는, 예컨대 마이크로폰 또는 기타 음성 입력 장치를 통해, 사용자로부터 음성 입력(306)을 수신하고 받아쓰기(310) 및/또는 명령(312)으로 구성된 텍스트(309)를 파악하기 위해 음성을 디코딩하는 음성 인식 컴포넌트(speech recognition component; 304)를 호출하도록 구성된다. 받아쓰기(310)의 예시는 워드 프로세싱 문서(word processing document)의 본문 및/또는 이메일 메시지의 본문을 위한 텍스트를 포함한다.
명령(command; 312)은 "전송", "인쇄", "삭제" 또는 "저장"과 같은 작업을 수행하는 명령어(instruction)를 포함한다. 음성 지원 컴포넌트(302)는 사용자 인터페이스(250)를 살피어 어떤 구성요소가 인터페이스상에 디스플레이될지 및 각각의 구성요소와 연관된 레이블을 결정한다. 음성 지원 컴포넌트(302)는 레이블 및 인터페이스의 구성요소에 기초하여 문법(grammer; 314)을 구축하는데, 음성 인식 컴포넌트(304)는 이 문법을 사용하여 특정 인식된 단어 또는 어구(certain recognized words and phrases)가 명령을 의미하게 한다. 통상적으로, 문법(314)은 명령과 관련된 가령, 명령이 선두의 침묵 휴지기(leading pause of silence)와 후미의 침묵 휴지기(trailing pause of silence) 사이에 존재한다, 와 같은 규칙을 정의할 것이다.
음성 지원 컴포넌트(302)는 승인 컴포넌트(320)를 호출하여 사용자 인터페이 스(250)를 통한 명령(312)의 실행에 앞서 명령(312)을 승인받는다. 승인 컴포넌트(320)는 개별 객체 모듈이거나 음성 지원 컴포넌트(302)와 통합될 수 있다.
승인 컴포넌트(320)는 입력 명령(312)을 승인하는데 서로 다른 승인 기법들을 사용할 수 있다. 한 승인 기법은 입력 명령(312)을 데이터 기억장치(322) 내의 파괴적 단음절 명령어 목록(a list of destructive monosyllabic commands)과 비교한다. 파괴적 명령이란 쉽게 원상태로 되돌릴 수 없는 명령이다. 예컨대, "전송(send)" 명령은 단음절이고 많은 이메일 시스템에서 이메일 문서는 전송 명령이 수행된 후에는 전송 취소가 될 수 없기 때문에 파괴적인 것으로 간주 된다. "전송"과 같은 단음절 명령은 오인되기 쉽기 때문에 승인받도록 선택된다. 승인은 사용자 입력을 요구하기 때문에, 오인이 발생할 가능성이 높은 경우로 제한하는 것이 바람직하다. 본 발명자는 단음절 단어 및 그와 유사한 것들에 대하여 오인이 발생할 가능성이 높다는 것을 발견하였고, 일 실시예에서는, 오직 단음절 명령에 대하여서만 승인이 이루어진다.
입력 명령(312)이 데이터 기억장치(322) 내의 파괴적 명령들 중 일부라면, 승인 컴포넌트(320)는 (324)블록에 도시된 바와 같이 사용자가 진행하기를 원하는지 확인하도록 유도한다. 예컨대, 만일 사용자가 이메일 메시지를 생성하고 단어 "전송"을 발음한다면, 승인 컴포넌트(320)는 사용자가 이메일을 전송하기를 원하는지 확인하도록 유도한다.
승인 유도 또는 메시지(324)는 애플리케이션 프로그램(300)의 사용자 인터페 이스(250)를 통해 구현되거나 디스플레이될 수 있다. 승인 유도는 각기 다른 형태로 구현될 수 있다. 예컨대, 음성 유도 또는 텍스트 유도가 사용될 수 있다.
일 실시예에서는, 그 명령에 해당하는 컴퓨터 디스플레이 또는 화면상에 명령에 대응하는 버튼 또는 아이콘을 시각적으로 하이라이트(highlight)함으로써 사용자는 해당 명령(312)을 확인하도록 유도된다. 그러면 사용자는 하이라이트된 명령이 실행되기 원하는지를 확인한다. 사용자는 네/아니오 피드백 옵션을 사용함으로써 하이라이트된 명령을 확인할 수 있다. 대안적으로, 애플리케이션(300)은, 사용자가 애플리케이션 또는 프로그램에 실행하지 않겠다고 명령하지 않는다면 일정 시간 지연 뒤에 애플리케이션(300)이 명령을 실행할 것이라는 내용의 메시지를 디스플레이할 수 있다.
도 4는 컴퓨터 애플리케이션 또는 프로그램을 위해 목소리로 활성화되는 인터페이스를 구현하는 단계를 도시하는 흐름도이다. 도시된 바와 같이, 음성 지원 컴포넌트(302)는 음성 인식 컴포넌트(304)를 호출하여 단계(350)에 도시된 바와 같이 입력 음성을 수신한다. 음성 인식 컴포넌트(304)는 단계(352)에서 입력 음성이 받아쓰기인지 애플리케이션 명령인지 결정한다.
텍스트와 명령은 입력 음성의 속성 및 애플리케이션 명령에 대한 문법(314)에 기초하여 구별된다. 예를 들어, 명령의 특징적인 속성은 명령을 나머지 발성(utterance)과 구별하는 선두 및 후미의 휴지기를 포함할 수 있다.
그러나, 또 다른 실시예에서는, 자유로운 형식의 음성 받아쓰기가 사용될 수 있고 확인이나 승인이 여전히 사용될 수 있다.
만일 인식된 음성이 받아쓰기면, 단계(354)에 도시된 바와 같이 텍스트가 사용자 인터페이스(250)에서 현재 활성된 사용자 인터페이스 구성요소 내에 위치하게 된다.
만일 인식된 음성이 명령이면, 승인 컴포넌트(320)가 단계(356)에 도시된 바와 같이 명령이 파괴적인지 또는 비파괴적인지, 또는 확인을 요청할지를 결정한다.
도시된 실시예에서, 만일 명령이 파괴적이면 블록(358)에 도시된 바와 같이 사용자로부터의 확인이 요청된다. 만일 명령이 파괴적이 아니면, 단계(359)에서 명령은 사용자 인터페이스 일 구성요소에 대한 선택으로 변환되고 선택 메쏘드에 대한 호출이 이루어진다.
단계(360)에 도시된 바와 같이, 파괴적 명령이 사용자에 의해 확인되면, 단계(359)에서 명령은 사용자 인터페이스 일 구성요소에 대한 선택으로 변환된다. 이와 달리, 만일 사용자가 명령을 확인하지 않으면 명령은 실행되지 않는다. 이 절차는 단계(399)에 도시된 바와 같이 다음 음성 입력이 있을 때까지 대기 단계에 있게 된다.
승인 컴포넌트(320)는 데이터 기억장치(322) 내의 명령 목록을 사용하여 명령의 실행에 앞서 선택적으로 확인을 요청한다. 실행에 앞서 확인하기 위해 데이터 기억장치를 사용하여 파괴적이거나 단음절인 명령을 파악하는 것은 오인 및 의도하지 않은 작업 또는 기능이 실행되는 것을 감소시킨다.
파괴적인 명령의 목록은 데이터 기억장치(322)에 수동으로 입력될 수 있다. 예를 들어, 파괴적인 명령은 사용자 입력 없이 입력될 수 있다. 또 다른 실시예에 서 사용자로부터의 피드백을 기초로 데이터 기억장치(322)의 기록(data store records)이 생성된다. 후속 실시예에서 단말 사용자(end user)는 애플리케이션이 데이터 기억장치(322) 내의 파괴적 단어 목록을 (애플리케이션이 실행 중일 때에도) 수정하도록 구성(configure)할 수 있다. 예를 들어, 만일 음성 인식 컴포넌트(304)가 “실행(run)” 명령을 출력하였지만, 사용자는 말하지 않았거나 “실행" 명령을 의도하지 않았다면 사용자는 애플리케이션에게 인식 오류가 있었다는 내용을 지적하는 피드백을 제공할 수 있다. 특히 사용자는 “실행” 명령이 실행되지 말았어야 했고 추후에는 “실행” 명령이 승인을 거쳐야 한다는 것을 지시할 수 있다. 그러면 상기 명령은 데이터 기억장치(322)에 추가되어, 추후 사용자는 실행에 앞서 유도되게 된다.
예시적인 실시예에서, 애플리케이션 그 자체가 데이터 기억장치(322)에 파괴적 명령 목록이 상주하게 할 수 있다. 이는 수 가지 방법으로 이뤄질 수 있다. 한 방법에 따르면, 애플리케이션이 설치될 때 애플리케이션은 파괴적 명령 목록을 데이터 기억장치(322)에 상주케한다.
또 다른 방법에 따르면, 애플리케이션은 동적으로 사용자 인터페이스(250) 내의 특정 구성요소가 파괴적인 것이라고 표시할 수 있다. 따라서, 음성 지원 컴포넌트(302)가 애플리케이션(300)과 인터페이스로 연결되어 디스플레이된 인터페이스 명령 또는 구성요소를 결정할 때, 음성 지원 컴포넌트(302)는 어떤 명령(들)이 파괴적인지도 결정한다. 예컨대, 한 인터페이스 또는 애플리케이션에서 사용자가 “빨강(red)”을 (위험 신호기(red flag)로서) 발음했을 때, “빨강”은 파괴적인 것으로 표시되고, 발음 또는 음성 명령의 실행을 확인하기 위하여 확인 단계가 수행된다. 동일한 애플리케이션의 다른 부분 또는 다른 애플리케이션에서 “빨강”은 단지 텍스트 색상을 바꿀 수 있을 뿐이어서, “빨강”은 파괴적인 것으로 표시되지 않고 확인 단계는 수행되지 않는다.
어떤 경우들에서 명령이 파괴적이 되는지에 대한 정보가 파괴적 명령 목록 내에 내장될 수 있다. 예컨대, “전송/모든 애플리케이션”은 “전송” 명령이 모든 애플리케이션에 대해 파괴적이라는 것을 의미하는 반면에 “빨강/경보 모니터”(alertmonitor)”는 “빨강”이 “경보 모니터” 라는 애플리케이션에 대해서만 파괴적이라는 것을 의미한다.
따라서, 예시적인 실시예에서, 데이터 기억장치(322)는 정적 기억장치(static store)일 수 있고 또는 선택적으로, 데이터 기억장치(322)는 동적으로 채워질 수 있으며 애플리케이션은 기술된 특정한 실시예에 제한되지 않는다.
본 발명의 요지가 구조적인 특징 및/또는 방법론적인 동작에 있어서 특정 어법으로 기술되었지만, 첨부된 청구항에 정의된 본 발명의 권리 범위는 상기에 기술된 특정 특징과 동작에 한정되지 않는 것으로 이해될 것이다. 오히려, 상기에 기술된 특정 특징과 동작은 청구항을 구현하는 예시적인 형태로서 개시된 것이다.

Claims (20)

  1. 컴퓨터 실행가능 음성 명령들을 승인하는 시스템으로서,
    음성 인식 컴포넌트로부터 명령을 수신하고 애플리케이션 명령들의 데이터 기억 장치(a data store of application commands)에 기초하여 상기 명령을 승인받을지를 결정하도록 구성된 승인 컴포넌트를 포함하는 시스템.
  2. 제1항에 있어서,
    상기 데이터 기억장치는 파괴적 명령어들의 목록을 포함하는 시스템.
  3. 제2항에 있어서,
    상기 데이터 기억장치 내의 상기 애플리케이션의 모든 명령들은 단음절인 시스템.
  4. 제1항에 있어서,
    상기 승인 컴포넌트는 사용자가 상기 명령의 실행을 확인하도록 유도하는(prompt) 사용자 인터페이스를 호출함으로써 명령을 승인하는 시스템.
  5. 제4항에 있어서,
    상기 사용자 인터페이스가 상기 명령의 구현을 확인하기 위한 음성 유도 또 는 텍스트 유도 중의 하나를 포함하는 시스템.
  6. 제1항에 있어서,
    상기 데이터 기억장치는 파괴적 명령들의 목록 및 상기 파괴적 명령들이 승인되어야하는 경우들 또는 애플리케이션들에 대한 정보를 포함하는 시스템.
  7. 제1항에 있어서,
    음성 입력으로부터 상기 명령을 인식하기 위한 상기 음성 인식 컴포넌트를 더 포함하는 시스템.
  8. 목소리로 활성화되는 사용자 인터페이스로서,
    사용자로부터의 음성 입력 명령(audio input command)을 위해 음성(speech)을 인식하는 음성 인식 컴포넌트를 호출할 수 있는 음성 지원 컴포넌트;
    상기 음성 입력 명령에 응답하여 호출되어 상기 음성 입력 명령을 승인받을지를 결정하는 승인 컴포넌트; 및
    상기 음성 입력 명령에 기초하여 상기 음성 지원 컴포넌트에 의해 선택된 인터페이스 구성 요소를 구비한 사용자 인터페이스
    를 포함하는 인터페이스.
  9. 제8항에 있어서,
    상기 승인 컴포넌트는 애플리케이션 명령들의 데이터 기억장치에 접근하여(access) 상기 음성 입력 명령을 승인받을지를 결정하는 목소리로 활성화되는 사용자 인터페이스.
  10. 제9항에 있어서,
    상기 데이터 기억장치는 파괴적 명령어들의 목록을 포함하는 목소리로 활성화되는 사용자 인터페이스.
  11. 제10항에 있어서,
    상기 데이터 기억장치의 상기 모든 파괴적 명령들은 단음절인 목소리로 활성화되는 사용자 인터페이스.
  12. 제8항에 있어서,
    상기 승인 컴포넌트는 상기 사용자에게 상기 음성 입력 명령의 구현을 실행할지 확인하도록 유도하는 인터페이스를 호출하는 목소리로 활성화되는 사용자 인터페이스.
  13. 제8항에 있어서,
    상기 음성 인식 컴포넌트는 상기 사용자 인터페이스로부터 생성된 애플리케이션 명령들의 문법(a grammer of appliation commands)을 사용하는 목소리로 활성 화되는 사용자 인터페이스.
  14. 컴퓨터 실행가능 방법으로서,
    음성 입력을 수신하는 단계;
    상기 음성 입력으로부터 사용자 명령을 인식하기 위하여 음성 인식 컴포넌트를 호출하는 단계; 및
    애플리케이션 명령들의 데이터 기억장치에 기초하여 상기 사용자 명령을 승인받을지를 결정하는 단계를
    포함하는 방법.
  15. 제13항에 있어서,
    상기 데이터 기억장치의 모든 명령들은 단음절의 파괴적 명령들인 방법.
  16. 제14항에 있어서,
    상기 사용자에게 상기 사용자 명령의 실행을 확인하도록 유도함으로써 상기 사용자 명령을 승인하는 단계를 포함하는 방법.
  17. 제16항에 있어서,
    상기 유도는 음성 유도 또는 텍스트 유도 중 하나인 방법.
  18. 제14항에 있어서,
    애플리케이션 명령들의 목록을 사용자 입력 없이 상기 데이터 기억장치에 입력하는 단계를 더 포함하는 방법.
  19. 제14항에 있어서,
    사용자로부터의 피드백에 기초하여 애플리케이션 명령에 대한 데이터 기억장치 기록을 생성하는 단계를 더 포함하는 방법.
  20. 제14항에 있어서,
    상기 애플리케이션 명령들의 데이터 기억장치를 동적으로 상주시키기 위한 애플리케이션을 사용하는 단계를 더 포함하는 방법.
KR1020087002977A 2005-08-05 2006-08-07 목소리로 활성화되는 사용자 인터페이스의 실행에 대한선택적 확인 KR20080040699A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US70597305P 2005-08-05 2005-08-05
US60/705,973 2005-08-05
US11/256,120 US8694322B2 (en) 2005-08-05 2005-10-21 Selective confirmation for execution of a voice activated user interface
US11/256,120 2005-10-21

Publications (1)

Publication Number Publication Date
KR20080040699A true KR20080040699A (ko) 2008-05-08

Family

ID=37718666

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087002977A KR20080040699A (ko) 2005-08-05 2006-08-07 목소리로 활성화되는 사용자 인터페이스의 실행에 대한선택적 확인

Country Status (12)

Country Link
US (1) US8694322B2 (ko)
EP (1) EP1920321B1 (ko)
JP (1) JP2009503623A (ko)
KR (1) KR20080040699A (ko)
AU (1) AU2006278365A1 (ko)
BR (1) BRPI0614114A2 (ko)
CA (1) CA2617924A1 (ko)
IL (1) IL189125A0 (ko)
MX (1) MX2008001615A (ko)
NO (1) NO20080534L (ko)
RU (1) RU2008104139A (ko)
WO (1) WO2007019476A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160039244A (ko) * 2013-07-31 2016-04-08 구글 인코포레이티드 인식된 음성 개시 액션에 대한 시각적 확인
WO2016104824A1 (ko) * 2014-12-23 2016-06-30 엘지전자 주식회사 포터블 디바이스 및 그 제어 방법
KR20160099639A (ko) * 2013-12-18 2016-08-22 시러스 로직 인터내셔널 세미컨덕터 리미티드 스피치 프로세스의 활성화

Families Citing this family (190)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9264483B2 (en) 2007-07-18 2016-02-16 Hammond Development International, Inc. Method and system for enabling a communication device to remotely execute an application
EP2037427A1 (en) * 2007-09-12 2009-03-18 Siemens Aktiengesellschaft Interface device for user communication with a controller and method for inputting commands to a controller
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9111538B2 (en) * 2009-09-30 2015-08-18 T-Mobile Usa, Inc. Genius button secondary commands
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
AU2012316484A1 (en) * 2011-09-30 2014-04-17 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US20130297318A1 (en) * 2012-05-02 2013-11-07 Qualcomm Incorporated Speech recognition systems and methods
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
RU2643443C2 (ru) * 2012-08-06 2018-02-01 Конинклейке Филипс Н.В. Активированный аудиосигналом и/или активация аудиосигналом режима и/или инструмента выполняющейся прикладной программы
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102091003B1 (ko) 2012-12-10 2020-03-19 삼성전자 주식회사 음성인식 기술을 이용한 상황 인식 서비스 제공 방법 및 장치
US8645138B1 (en) * 2012-12-20 2014-02-04 Google Inc. Two-pass decoding for speech recognition of search and action requests
WO2014107413A1 (en) * 2013-01-04 2014-07-10 Kopin Corporation Bifurcated speech recognition
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9798302B2 (en) * 2013-02-27 2017-10-24 Rockwell Automation Technologies, Inc. Recognition-based industrial automation control with redundant system input support
US9111546B2 (en) * 2013-03-06 2015-08-18 Nuance Communications, Inc. Speech recognition and interpretation system
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
TWI497993B (zh) * 2013-10-09 2015-08-21 晶睿通訊股份有限公司 無線攝影裝置與以語音設定無線攝影裝置的方法
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9430186B2 (en) 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
US9547468B2 (en) * 2014-03-31 2017-01-17 Microsoft Technology Licensing, Llc Client-side personal voice web navigation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP2958010A1 (en) * 2014-06-20 2015-12-23 Thomson Licensing Apparatus and method for controlling the apparatus by a user
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10147421B2 (en) 2014-12-16 2018-12-04 Microcoft Technology Licensing, Llc Digital assistant voice input integration
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
WO2017119908A1 (en) * 2016-01-08 2017-07-13 Visa International Service Association Secure authentication using biometric input
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049670B2 (en) * 2016-06-06 2018-08-14 Google Llc Providing voice action discoverability example for trigger term
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9786271B1 (en) * 2016-09-28 2017-10-10 International Business Machines Corporation Voice pattern coding sequence and cataloging voice matching system
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11158317B2 (en) * 2017-05-08 2021-10-26 Signify Holding B.V. Methods, systems and apparatus for voice control of a utility
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10380345B2 (en) * 2017-07-31 2019-08-13 International Business Machines Corporation Delivering configuration based security and process workflows
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
KR102527278B1 (ko) * 2017-12-04 2023-04-28 삼성전자주식회사 전자 장치, 그 제어 방법 및 컴퓨터 판독가능 기록 매체
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11544591B2 (en) 2018-08-21 2023-01-03 Google Llc Framework for a computing system that alters user behavior
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11741951B2 (en) * 2019-02-22 2023-08-29 Lenovo (Singapore) Pte. Ltd. Context enabled voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20220036211A1 (en) * 2020-07-30 2022-02-03 International Business Machines Corporation User-hesitancy based validation for virtual assistance operations
US11935529B2 (en) * 2021-06-15 2024-03-19 Motorola Solutions, Inc. System and method for virtual assistant execution of ambiguous command

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890122A (en) 1993-02-08 1999-03-30 Microsoft Corporation Voice-controlled computer simulateously displaying application menu and list of available commands
US5802467A (en) * 1995-09-28 1998-09-01 Innovative Intelcom Industries Wireless and wired communications, command, control and sensing system for sound and/or data transmission and reception
US5970457A (en) 1995-10-25 1999-10-19 Johns Hopkins University Voice command and control medical care system
US6052666A (en) * 1995-11-06 2000-04-18 Thomson Multimedia S.A. Vocal identification of devices in a home environment
US6456974B1 (en) 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
US5930751A (en) * 1997-05-30 1999-07-27 Lucent Technologies Inc. Method of implicit confirmation for automatic speech recognition
US6289140B1 (en) 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6012030A (en) 1998-04-21 2000-01-04 Nortel Networks Corporation Management of speech and audio prompts in multimodal interfaces
US6965863B1 (en) 1998-11-12 2005-11-15 Microsoft Corporation Speech recognition user interface
US6937984B1 (en) * 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
US7206747B1 (en) * 1998-12-16 2007-04-17 International Business Machines Corporation Speech command input recognition system for interactive computer display with means for concurrent and modeless distinguishing between speech commands and speech queries for locating commands
US6505155B1 (en) 1999-05-06 2003-01-07 International Business Machines Corporation Method and system for automatically adjusting prompt feedback based on predicted recognition accuracy
US6895380B2 (en) * 2000-03-02 2005-05-17 Electro Standards Laboratories Voice actuation with contextual learning for intelligent machine control
US6466847B1 (en) * 2000-09-01 2002-10-15 Canac Inc Remote control system for a locomotive using voice commands
US20020077830A1 (en) * 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
US20020095294A1 (en) 2001-01-12 2002-07-18 Rick Korfin Voice user interface for controlling a consumer media data storage and playback device
US7039590B2 (en) * 2001-03-30 2006-05-02 Sun Microsystems, Inc. General remote using spoken commands
US6882974B2 (en) 2002-02-15 2005-04-19 Sap Aktiengesellschaft Voice-control for a user interface
JP3702867B2 (ja) * 2002-06-25 2005-10-05 株式会社デンソー 音声制御装置
JP3724461B2 (ja) * 2002-07-25 2005-12-07 株式会社デンソー 音声制御装置
US20040230637A1 (en) 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
KR20050023941A (ko) * 2003-09-03 2005-03-10 삼성전자주식회사 음성 인식 및 화자 인식을 통한 개별화된 서비스를제공하는 a/v 장치 및 그 방법
KR20050028150A (ko) 2003-09-17 2005-03-22 삼성전자주식회사 음성 신호를 이용한 유저-인터페이스를 제공하는휴대단말기 및 그 방법
GB0323551D0 (en) 2003-10-08 2003-11-12 Radioscape Ltd DAB radio system with voiced control feedback
US7885816B2 (en) 2003-12-08 2011-02-08 International Business Machines Corporation Efficient presentation of correction options in a speech interface based upon user selection probability
US7587685B2 (en) 2004-02-17 2009-09-08 Wallace James H Data exploration system
US20050216268A1 (en) 2004-03-29 2005-09-29 Plantronics, Inc., A Delaware Corporation Speech to DTMF conversion
US7899673B2 (en) * 2006-08-09 2011-03-01 Microsoft Corporation Automatic pruning of grammars in a multi-application speech recognition interface

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160039244A (ko) * 2013-07-31 2016-04-08 구글 인코포레이티드 인식된 음성 개시 액션에 대한 시각적 확인
KR20160099639A (ko) * 2013-12-18 2016-08-22 시러스 로직 인터내셔널 세미컨덕터 리미티드 스피치 프로세스의 활성화
WO2016104824A1 (ko) * 2014-12-23 2016-06-30 엘지전자 주식회사 포터블 디바이스 및 그 제어 방법

Also Published As

Publication number Publication date
IL189125A0 (en) 2008-08-07
JP2009503623A (ja) 2009-01-29
CA2617924A1 (en) 2007-02-15
US20070033054A1 (en) 2007-02-08
AU2006278365A1 (en) 2007-02-15
MX2008001615A (es) 2008-04-07
EP1920321A1 (en) 2008-05-14
WO2007019476A1 (en) 2007-02-15
US8694322B2 (en) 2014-04-08
NO20080534L (no) 2008-02-20
RU2008104139A (ru) 2009-08-10
BRPI0614114A2 (pt) 2011-03-09
EP1920321B1 (en) 2015-04-15
EP1920321A4 (en) 2011-02-23

Similar Documents

Publication Publication Date Title
KR20080040699A (ko) 목소리로 활성화되는 사용자 인터페이스의 실행에 대한선택적 확인
US8229753B2 (en) Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) Application abstraction with dialog purpose
US7409349B2 (en) Servers for web enabled speech recognition
RU2352979C2 (ru) Синхронное понимание семантических объектов для высокоинтерактивного интерфейса
US7506022B2 (en) Web enabled recognition architecture
RU2349969C2 (ru) Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения
US7260535B2 (en) Web server controls for web enabled recognition and/or audible prompting for call controls
KR101255402B1 (ko) 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기
US7873523B2 (en) Computer implemented method of analyzing recognition results between a user and an interactive application utilizing inferred values instead of transcribed speech
US7962344B2 (en) Depicting a speech user interface via graphical elements
US7881938B2 (en) Speech bookmarks in a voice user interface using a speech recognition engine and acoustically generated baseforms
EP1650744A1 (en) Invalid command detection in speech recognition
US20070006082A1 (en) Speech application instrumentation and logging
US8532995B2 (en) System and method for isolating and processing common dialog cues
JP5127201B2 (ja) 情報処理装置及び方法並びにプログラム
JP2006251545A (ja) 音声対話システム及びコンピュータプログラム
JP2007033478A (ja) マルチモーダル対話システム及びマルチモーダルアプリケーション生成ウィザード
JP2015052743A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
JP2006127149A (ja) デバッグ処理方法

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid