KR100620826B1 - 대화형 컴퓨팅 시스템 및 방법, 대화형 가상 머신, 프로그램 저장 장치 및 트랜잭션 수행 방법 - Google Patents

대화형 컴퓨팅 시스템 및 방법, 대화형 가상 머신, 프로그램 저장 장치 및 트랜잭션 수행 방법 Download PDF

Info

Publication number
KR100620826B1
KR100620826B1 KR1020017004223A KR20017004223A KR100620826B1 KR 100620826 B1 KR100620826 B1 KR 100620826B1 KR 1020017004223 A KR1020017004223 A KR 1020017004223A KR 20017004223 A KR20017004223 A KR 20017004223A KR 100620826 B1 KR100620826 B1 KR 100620826B1
Authority
KR
South Korea
Prior art keywords
interactive
application
dialog
user
cvm
Prior art date
Application number
KR1020017004223A
Other languages
English (en)
Other versions
KR20010085878A (ko
Inventor
코프만다니엘
코머포드리암디
데젠나로스티븐브이
엡스타인에드워드에이
고팔라크리쉬난포나니
마에스스테판에이치
나하무데이비드
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20010085878A publication Critical patent/KR20010085878A/ko
Application granted granted Critical
Publication of KR100620826B1 publication Critical patent/KR100620826B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72445User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/355Interactive dialogue design tools, features or methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42204Arrangements at the exchange for service or number selection by voice
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/44Additional connecting arrangements for providing access to frequently-wanted subscribers, e.g. abbreviated dialling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4931Directory assistance systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Saccharide Compounds (AREA)

Abstract

본 발명은 복수 개의 대화 인식 애플리케이션(11)(conversationally aware application)(즉, 대화형 프로토콜을 "음성으로 구동시키는(speak)" 애플리케이션) 및 종래 애플리케이션(12)간에 범용의 조정된 멀티 모델 대화형 사용자 인터페이스(CUI)(10)(universal coordinated multi-modal conversational user interface)를 제공하는 대화형 컴퓨팅 시스템에 관한 것이다. 대화 인식 애플리케이션(11)은 대화형 애플리케이션 API(13)를 통해 대화형 커널(14)과 통신한다. 대화형 커널(14)은 등록된 대화 기능(능력) 및 요건에 기초하여 애플리케이션들과 장치들(로컬형 및 네트워크형의 것)간의 다이알로그를 제어하고, 통합된 대화형 사용자 인터페이스 및 대화형 서비스 및 행태를 제공한다. 대화형 컴퓨팅 시스템은 종래의 오퍼레이팅 시스템 및 API(15) 및 종래 장치 하드웨어(16) 상부에 구축될 수 있다. 대화형 커널(14)은 모든 입출력(I/O) 프로세싱을 취급하고 대화형 엔진(18)을 제어한다. 대화형 커널(14)은 음성에 의한 요구를 질의로 전환하고, 대화형 엔진(18) 및 대화 아규먼트(17)를 사용하여 출력과 결과를 구두형 메시지(spoken message)로 전환한다. 대화형 애플리케이션 API(13)는 대화형 커널(14)의 모든 정보를 전달하여 질의를 애플리케이션 호출로 변환하고 출력을 사용자에게 제공되기 전에 적절하게 분류된 음성으로 역(逆)전환한다.

Description

대화형 컴퓨팅 시스템 및 방법, 대화형 가상 머신, 프로그램 저장 장치 및 트랜잭션 수행 방법{CONVERSATIONAL COMPUTING VIA CONVERSATIONAL VIRTUAL MACHINE}
본 발명은 일반적으로 대화형 컴퓨팅을 위한 시스템 및 방법에 관한 것이다. 특히, 본 발명은 자립형 OS(Operating System) 또는 플랫폼, 즉 커널 중 하나로 실시되어 종래의 플랫폼 및 애플리케이션의 역 호환성을 가능하게 제공하는 종래의 OS 또는 RTOS(Real-Time Operating System)상에서 운용할 수 있는 CVM(Conversational Virtual Machine)에 관한 것이다. 본 명세서에서 설명하는 바와 같은 CVM은 대화형 API(Application Program Interface), 대화형 프로토콜 및 대화 파운데이션 클래스를 애플리케이션 개발자에게 공개하고, 상이한 대화 능력을 갖는 플랫폼 및 장치간의 다이알로그 및 콘텍스트, 대화형 엔진 및 자원과 대화형 프로토콜/통신을 관리함으로써 대화형 컴퓨팅을 실행하는 커널층을 제공하여, 보편적인 CUI(Conversational User Interface)를 제공한다.
최근에, 개인용 컴퓨터(PC)에서는 GUI(Graphical User Interface)형 OS가 우세하고, 앞서가는 아키텍쳐, 플랫폼 및 OS로서의 워크스테이션은 기본적으로 GUI를 기반으로 하거나 GUI 커널을 중심으로 구축되고 있다. 실제로, 사용자 인터페이스(UI)가 주로 음성 및 DTMF(Dual Tone MultiFrequency) I/O(Input/Output)인 IVR(Interactive Voice Response)과 같은 전화 애플리케이션을 제외하고, 대부분의 일반적인 정보 억세스 및 관리 애플리케이션은 GUI 패러다임을 중심으로 구축된다. 또, 다른 비-GUI 기반의 UI는 메인프레임 또는 아주 전문화된 시스템과 같은 보다 오래된 아키텍쳐에 접속하여 이용된다. 일반적으로, GUI 패러다임의 경우, 각 프로세스를 독립된 윈도우로서 표시하여 멀티태스킹을 행하므로, 각 윈도우에 대한 입력은 키보드, 마우스 및/또는 펜과 같은 다른 포인팅 장치를 통해 가능해질 수 있다(다만, 사용자가 일부 프로세스를 직접 "인터랙팅/인터페이싱"하고 있지 않은 경우에는 그들 프로세스를 안보이게 할 수 있다).
GUI는 시간공유형의 메인프레임으로부터 개별 머신과 다른 티어(tier)(예를 들면, 서버 및 백엔드 서비스 및 아키텍쳐)로의 패러다임 유발하고 촉진하였다. GUI 기반의 OS는 정보를 억세스하고 관리하도록 종래의 PC 클라이언트/서버 모델에서 널리 실시되고 있다. 억세스되는 정보는 장치 상에 로컬로, 인터넷 또는 사설 인트라넷을 통해서 리모트로, 다수의 개인용 PC, 장치 및 서버 상에 배치될 수 있다. 이러한 정보는 콘텐츠 자료, 트랜잭션 관리 및 생산 툴을 포함한다. 그러나, 본 출원인은 종래의 PC 클라이언트 서버 모델과는 달리, 서로 연결되어 있는 수억 개의 퍼베이시브 컴퓨팅 클라이언트(PvC 클라이언트)를 향하는 정보를 억세스하고 관리하며, 그것에 의해서, 사용자가 언제 어디서나 어떤 장치를 통해서도 정보를 억세스하고 관리할 수 있는 새로운 경향을 목격하고 있다. 그리고, 정보에 대한 이러한 억세스는 사용되는 장치 또는 애플리케이션과 관계없이 그에 대한 인터페이스가 동일하도록 되어 있다. 이러한 경향은 장치의 소형화 및 성능 및 복잡성의 극적인 증가가 병행하여 진행한다. 동시에, 전화기는 아직 정보를 억세스하는 가장 널리 존재하는 통신 장치이기 때문에, 전화기를 통해 도처에서 정보를 억세스하고 관리하고자 하는 기대가 더욱 강해지기까지 한다.
불행하게도, 이러한 정보에 대한 억세스는 사용가능한 장치 또는 인터페이스에 의해 제한되고, 근저의 논리는 장치에 따라 완전히 달라진다. 실제로, 임베디드 분야에서 접하는 다양성과 제약은 다른 티어, 즉 데스크탑, 워크스테이션 및 백엔드 서버에 접하는 것과 비교할 수 없고, 따라서, 임베디드 분야는 UI에 대한 실질적인 도전에 직면하고 있다. 또, 제약이 점점 심해지는 입출력 인터페이스와 결합된 PvC 클라이언트의 복잡성이 증가함에 따라, GUI의 효과가 상당히 감소한다. 실제로, PvC 클라이언트는 사용자가 손이나 눈을 사용하지 않고 상호작용(인터랙션)하기를 원하는 모바일 환경에서 종종 사용된다. 일부 제한된 표시 능력을 제공하는 임베디드 장치조차도, GUI는 작은 디스플레이에 과부하를 주고, 빈약한 전력과 CPU 자원을 과소비하고 있다. 또, 이러한 GUI는 제한된 인터페이스와 씨름하고 있는 사용자를 압도하여 괴롭힌다. 또, 언제 어디서나 어떤 장치를 통해서든 정보를 억세스하고 관리하고자 하는 유비쿼터스 인터페이스에 관하여 최근에 공론화되고 있는 요구는 GUI의 한정에 관한 것이다.
최근에는, 컴퓨터를 사용하는 곳 어디에나 음성에 의한 명령 및 제어(음성 C&C)를 행하는 UI가 떠오르고 있다. 또, 압축 포장형 소매 상품으로서 음성 인식에 대한 최근의 성공과 전화기의 IVR 인터페이스의 일부로서 혁신적인 도입은 음성 인식이 중요한 사용자 인터페이스 엘리먼트가 될 것임을 보여주고 있다. 예를 들면, 전화 회사, 호출 센터 및 IVR은 특정 작업들을 자동화하고 이들 작업의 운용자 요구 사항과, 운용 비용을 줄이며 호출 프로세싱의 속도를 높이도록 음성 인터페이스를 구성하였다. 그러나, 이 단계에서, IVR 애플리케이션 개발자는 자신이 소유하고 있는 음성 엔진 및 API를 제공한다. 다이알로그 개발은 복잡한 스크립팅 및 숙련된 프로그래머를 필요로 하고, 이들 소유 애플리케이션은 통상 벤더마다 이식할 수 없다(즉, 각 애플리케이션은 힘들게 정밀하게 만들어지고 특정한 비지니스 로직(논리)용으로 설계된다).
또, GUI 기반의 OS를 위한 음성 인터페이스는 구술지령(dictation) 및 명령(command) 및 제어를 위해 상업적으로 사용가능한 연속적인 음성 인식 애플리케이션을 사용하여 구성된다. 그러나, 이들 음성 애플리케이션은 본질적으로, 이러한 애플리케이션이 키보드 및 마우스를 대신할 수 있고 사용자가 포커스를 변경해서 새로운 작업을 시작하여 포커스가 되는 작업에 대한 음성 명령을 제공한다는 점에서, GUI 기반의 OS에 대한 부가물이다. 실제로, 이러한 음성 인터페이스를 제공하는 최근의 판매자(벤더) 및 기술 개발자 모두는 GUI 메뉴에 촛점을 맞추고 선택하기 위한 키보드 또는 포인팅 디바이스를 직접적으로 대체하도록 음성 또는 NLU(Natural Language Understanding)를 명령 라인 입력으로서 짜넣는 것에 의존하고 있다. 이러한 애플리케이션에서는 음성을 인간/머신간의 상호작용에 있어서 근본적인 변화의 벡터로 간주하기보다 새로 추가된 I/O 모델로서 간주한다.
대화형 시스템으로서 음성, NLU 또는 어떤 다른 입력/출력 인터페이스의 구성은 오퍼레이팅 시스템으로의 피상적인 통합에 한정되어서는 안된다. 이것은 임베디드 장치에 걸쳐 유비쿼터스적인 외관이나 느낌에 한정되어서도 안된다. 그 대신에, 이것은 근저의 오퍼레이팅 시스템과 컴퓨팅 기능의 설계를 근본적으로 수정하여야 한다. 또, 입출력 미디어의 유연성 관점에서 보면, 오퍼레이팅 시스템의 가장 근본적인 변화는 음성 입출력을 필요로 하지 않고 종래의 키보드, 마우스 또는 펜 입력 디스플레이 출력 장치로 구성될 수도 있어야 한다.
따라서, 현재의 애플리케이션에 음성 I/O 또는 대화 기능(능력)을 부가하거나 종래의 대화형 애플리케이션을 설치하거나 종래의 오퍼레이팅 시스템에 "음성"을 피상적으로 통합하는 것을 크게 벗어나서 범용의 대화형 사용자 인터페이스를 통해 다수의 플랫폼, 장치 및 애플리케이션간에 대화형 컴퓨팅을 수행하는 시스템이 매우 바람직하다.
본 발명은 범용의 대화형 사용자 인터페이스(CUI)를 통해 대화형 컴퓨팅을 제공하는 대화형 컴퓨팅 패러다임에 기초한 시스템 및 방법에 관한 것이다. 이 대화형 컴퓨팅 패러다임은 질의 및 그 질의의 실행 결과를 완성, 명확화, 요약화 또는 수정하도록 시스템이 사용자와 다이알로그(대화)를 행하는 것을 규정한다. 이것은 콘텍스트, 애플리케이션, 히스토리 및 사용자 취향(user preference) 및 바이오메트릭스에 기본을 둔 질의, 콘텍스트 및 조작 정보를 추출하여 취급한다. 이들 핵심 원리는 음성 구동형 I/O 인터페이스를 필요로 하지는 않지만, 오히려 근저의 컴퓨팅 코어에 깊게 침투한다. 실제로, 본 발명에 따른 대화형 컴퓨팅 패러다임은, 음성없이도 적용되고, 이러한 다이알로그가 예를 들면 키보드 상에서 행해지더라도 다이알로그와 대화를 중심으로 구축된 컴퓨팅의 본질을 말해준다. VT100 또는 팜 파일럿 스크린(palm pilot screen)과 같은 더미 터미널 디스플레이를 통하는 경우에도 사용자가 예를 들면 병렬로 동작하는 다수의 윈도우 애플리케이션을 심리스(seamless)하게 제어 가능하게 하는 것이 바로 대화형 컴퓨팅 패러다임이다.
본 발명의 한 형태에서는, 이 대화형 패러다임에 기반을 둔 대화형 컴퓨팅을 수행하는 시스템은 자립형 OS로서 또는, 종래의 OS 또는 RTOS 상에서 구동하는 플랫폼 또는 커널로서 실시되어, 종래의 플랫폼 및 애플리케이션을 위한 역호환성을 제공할 수 있는 CVM이다. CVM은 대화형 API, 대화형 프로토콜 및 대화 파운데이션 클래스를 애플리케이션 개발자에게 공개하고, 다이알로그 및 콘텍스트, 대화형 엔진 및 자원, 및 다른 대화 기능(능력)을 갖는 플랫폼 및 장치간에서의 대화형 프로토콜/통신을 관리함으로써 대화형 컴퓨팅을 실행할 수 있는 커널을 제공하여, 범용의 CUI를 제공한다. CVM 커널은 등록된 대화 능력과 요건에 기초하여 애플리케이션과 장치간의 다이알로그를 제어하는 코어층이다. 또, 이것은 대화형 시스템의 행동을 제공하기 위해 I/O 모델로서 음성을 부가하는 것과는 크게 다른 통합된 대화형 사용자 인터페이스를 제공한다. CVM은 담화(discourse), 콘텍스트, 혼합식 이니셔티브 및 앱스트랙트의 기능(능력)에 의한 대화와 유사한 방법으로 작업을 관리할 수 있다.
본 발명의 한 형태에서는, CVM은 음성 인식, 화자 인식, 텍스트-음성, 자연어 인식 및 자연스런 다이알로그 발생 엔진을 포함하는 대화형 서브시스템(로컬과 분산 중 어느 것으로도 가능)을 사용하여 사용자와 머신간의 다이알로그를 이해하고 발생한다. 이들 서브시스템은 CVM을 통해 억세스된다. 이들 엔진은 대화형 애플리케이션 API를 통해 애플리케이션에 대해서도 은폐된다. CVM은 대화형 엔진 API를 통해 이러한 엔진을 제어할 수 있다. 또, 대화형 애플리케이션 API는 대화형 엔진 API를 포함할 수 있다. 전형적으로는, CVM은 애플리케이션 개발자에게 이들 엔진 API를 직접 공개하는 기능을 포함한다. 이것은 대화형 애플리케이션 API에 포함된 대화형 엔진 API를 가지거나 대화형 애플리케이션 API의 레벨에서의 유사한 호출 및 기능을 에뮬레이팅함으로써 행해질 수 있다.
다른 형태에서는, CVM 커널층(또는 CVM 콘트롤러)은 다이알로그를 관리하고 활성 다이알로그, 콘텍스트 및 애플리케이션을 선택하는 메타 정보 관리자, 자원 관리자, 콘텍스트 스택, 글로벌 히스토리, 다이알로그 관리자 및 작업 디스패처를 포함한다. 콘텍스트 스택은 입력 이해에 필요한 데이타(예를 들면, 음성 입력을 위한 활성 FSG, 주제, 어휘 또는 가능한 질의)와 함께, 활성화된 담화를 사용하여 각 활성 프로세스의 콘텍스트[전체의 아규먼트(argument) 및 상태/모드 - 즉, 이미 도입된 질의 아규먼트, 어떤 I/O 이벤트 및 애플리케이션에 의해 발생된 이벤트를 축적한다. CVM 커널은 로컬 및 네트워크화된 종래형 및 대화형 자원 상에서 생성되는 다른 작업 및 프로세스를 조정한다. CVM 커널층은 이들 자원을 추적하고, 적합한 대화형 서브시스템에 입력을 전송하며, 장치, 상태 및 애플리케이션 사이를 조정한다. 또, CVM 커널층은 활성 대화 및 대화 히스토리에 따라 출력 발생 및 우선 순위 부여, 지연된 복귀, 네트워크 자원간의 위임 및 작업 위임 및 메모리화를 조정한다.
본 발명의 다른 형태에서는, CVM 시스템은 객체, 데이타 스트림의 취급, 네트워크, 주변 기기, 하드웨어 및 로컬 및 네트워크화된 파일 시스템과 같은 엘리먼트에 관련된 메타 정보를 통해서 고수준의 앱스트랙션 및 앱스트랙트 카테고리도 제공한다. 본 발명의 한 형태에 따른 앱스트랙트 메타 정보 시스템은 자원의 소유자/개발자 또는 자원의 과거 사용자/애플리케이션에 의해 정의된 다수의 카테고리를 포함한다. 이러한 엘리먼트들은 앱스트랙트 숏컷 및 혼합식 이니셔티브 요구를 통해 억세스 가능해진다. 접속시, 또는 객체 또는 이것의 콘텐츠와 관련된 앱스트랙트 카테고리의 리스트를 업데이트시키고, 각 자원이 그의 기능을 등록하는 앱스트랙션 테이블처럼 작동하는 메타 정보 서버(DNS 서버 또는 네임 스페이스 관리자와 유사함)를 통해 새로운 객체에 관련된 새로운 카테고리를 자동적으로 생성하기 위한 등록 프로토콜이 제공된다. 다운로드 또는 전송된 객체는 동일 프로토콜을 사용하여 로컬로 등록할 수 있다. 앱스트랙트 메타 정보는 네트워크의 엘리먼트들을 숏컷, 자동 추출 또는 처리하는데 사용될 수 있다.
다른 형태에서는, CVM은 (다수의 도메인을 갖는) 다수의 작업, 프로세스 및 담화에 걸쳐 분류된 NLU, NLG, 콘텍스트 및 혼합식 이니셔티브를 갖는 자연스런 다이알로그를 가질 수 있는 기능을 제공한다. 대화형 입력 인터페이스는 다수 모드 입력 스트림 세트가 각각 ASCII 명령 또는 질의[즉, 속성값 쌍 또는 n-더블(n-uples)의 리스트]로 번역되도록 제공된다. 각 입력 실체(엔티티)[명령, NLU 질의 분야 또는 아규먼트 유닛(분리된 문자, 워드 등)]는 타임마크와 관련되고, 그에 따라 하나의 합성된 입력 스트림에 부가된다. 동일한 타임마크를 갖는 2 개 이상의 스트림은 각 입력 스트림이 이전에 분배된 시기에 기초하여 우선 순위가 부여되거나, 각 애플리케이션/입력 스트림이 콘텍스트 히스토리에 기초하여 수신한 우선 순위에 기초하여 우선 순위가 부여된다. 합성 입력은 가능한 FSG 및 사전과 대조되고, 선택 사양에 따라서 사용자에게 피드백된다. 각 자원은 이들의 대화 기능(능력)을 교환하고, 입력 스트림은 관련된 정보만을 교환하도록 맞추어진다.
또 다른 형태에서는, 대화형 출력 디스패치 및 인터페이스 프로토콜은 다수의 작업의 출력이 콘텍스트 스택 및 작업 디스패처에 기초하여 모노 채널 출력에 대기 행렬화되도록 제공한다. 멀티플렉스(다중화)된 경우에도 각 입력 스트림에 할당된 자원을 재지정하거나 변형시키는 메카니즘이 제공된다. 각 자원은 그의 대화 기능을 교환하고, 출력 스트림은 출력 보이스 폰트의 선택 및 대화형 프레젠테이션의 포맷을 포함하여 관련 정보만을 교환하도록 맞추어진다.
다른 형태에서는, 어떤 사용가능한 자원을 입력 또는 출력 스트림으로서 사용할 수 있도록 하는 프로그래밍/스크립트 언어를 사용한다. 대화형 서브시스템을 사용하여, 각 입력은 빌트인 객체로서 프로그래밍 언어에 의해 직접적으로 처리될 수 있는 이진 또는 ASCII 입력(속성값 쌍 또는 n-더블의 리스트)으로 변환된다. 호출, 플래그 및 태그는 다른 객체와 정확히 인터페이스하는데 필요한 대화 메타 정보를 객체와 프로세스간에 전송하도록 자동적으로 포함된다. 실제로, 어떤 모델(modality)의 어떤 입력은 관련된 콘텍스트 또는 콘텍스트 스택에 부가되는 이벤트로서 CVM 커널층의 다이알로그 관리자에 의해 포획된다. 예를 들면, 마우스 클릭 또는 포인터/스타일러스에 의한 지시 행위 후에, "나는 이것을 열고 싶다"라고 하는 명령을 계속하면, 이것은 속성값 쌍의 세트, 즉 "Command: Open, Object: "Windows" 또는 최종 마우스 클릭에 의해 선택된 작업으로 명확해진다. 출력은 애플리케이션 또는 사용자의 필요에 따라 특히 포맷될 수 있다. 이제, 새로운 프로그래밍 도구를 사용하여 멀티 모델(multi-modal) 담화 프로세싱을 쉽게 구축할 수 있다. 또, 이러한 프로그래밍 언어 및 스크립트는 대화가능형 애플리케이션 및 CML(Conversational Markup Language) 뿐만 아니라 CVM간의 대화형 API를 포함한다.
또 다른 형태에서는, 종래의 논리 서술문 상태 및 연산자는 그들의 ASCII/이진 콘텐츠에 기초하거나 그들의 NLU 변환 질의/속성값 n-더블 리스트에 기초하여 비교될 수 있는 대화 질의를 취급하도록 확장된다. 논리 연산자는 이러한 시스템을 테스트하거나 변형하도록 실현된다.
다른 형태에서는, 다수의 대화 장치 또는 애플리케이션이 대화방식으로만 인식되는 사일런트 파트너를 포함하여 그들의 대화 기능을 등록할 수 있는 대화형 네트워크 접속 프로토콜을 제공한다. 다수의 CVM 및 사일런트 파트너와의 대화를 조정하기 위해서 대화형 프로토콜을 제공하고, 이것에 의해서, 다수의 CVM 장치가 대화형으로 접속되고 조정될 때, 한 개의 단일 인터페이스를 통해 (예를 들면, 단일 마이크로폰을 통해) 그들 CVM 장치를 동시에 제어할 수 있게 된다. 서로를 검출하고 그들의 식별 정보를 등록한 후, 각 시스템 또는 장치는 데이타 이송을 관련 정보에 한정하기 위해 그들의 대화 기능에 관한 정보를 교환한다. 사일런트 대화 파트너도 유사하게 행동하고, 대화형 프록시 서버를 통하거나 CVM의 대화형 클라이언트로서 상호작용할 수 있다. 다수 CVM간의 조정에는 대화식으로 접속된 다수의 장치/객체에 의해 제시되는 조정된 균등한 대화 인터페이스(coordinated uniform conversational interface)를 제공하기 위해서 동적 매스터-슬레이브 방식의 상호작용 및 P2P 방식의 상호작용을 행하는 것을 포함할 수 있다. 또, P2P 방식으로 서로간에 상호작용하는 (전체 네트워크 트래픽 및 다이알로그 흐름 지연을 감소시키도록 최적화되거나 결정된) 다수의 로컬 매스터를 포함하여 다른 토폴로지도 고려될 수 있다. 객체의 집합은 집중화 또는 분산된 콘텍스트 스택을 통해 사용자에게 단일의 조정된 인터페이스를 제시한다.
또 다른 형태에서는, 개발자가 CVM용 대화 인식 애플리케이션을 만들고, 시뮬레이트하며 디버깅하는 개발 툴이 제공된다. 이 개발 툴은 API 호출, 프로토콜 호출, 이들 API 및 프로토콜을 사용하는 애플리케이션의 직접 실시, 관련된 라이브러리, CVM에 의해 제공되는 서비스 및 동작을 이용하는 애플리케이션의 링킹 기능을 제공한다. 이들 개발 툴에 의해서, 보이스(Voice) 폰트와 같은 다수의 개성(personality)을 이용한 개량된 대화 인터페이스를 구성할 수 있고, 이것에 의해서, 사용자는 출력을 제공하는 음성 타입을 선택할 수 있다. 포스트크립트 및 AFL(Audio Formatting Language)과 같은 대화형 프레젠테이션을 구축하는 대화형 포맷팅 언어가 제공된다. 이들 애플리케이션을 실행하는 코드는 선언형 또는 절차형으로 할 수 있다. 이것은 라이브러리 링크, 대화 논리, 엔진 호출 및 대화 파운데이션 클래스와 함께 인터프리트형 및 컴파일형의 스크립트 및 프로그램을 포함한다. 대화 파운데이션 클래스는 모델 또는 복수의 모델의 조합과 무관하게 어떤 다이알로그를 특징짓는 기본 구성요소 또는 대화형 제스쳐이다.
또 다른 형태에서는, 로컬 파일 또는 리모트 파일, 특히 실행 가능 파일의 작성자 및/또는 변경자에 관한 메타 정보를 사용하여 대화 보안이 제공되어, 권한이 없는 억세스를 방지한다. CVM은 제한된 자원에 대한 질의가 행해질 때마다 그 자원에 관련된 보안 메타 정보에 기초하여 사용자의 자동 인증을 제공한다. 인증은 요구에 대해서 곧, 또는 질의 직전에 얻어진 만료되지 않은 정보에 대해서 행해진다.
다른 형태에서는, CVM은 대화 맞춤화(커스텀화) 기능을 제공한다. 사용자는 자원에 대한 질의가 행해질 때마다 자동적으로 식별된다. 인증은 요구에 대해서 곧, 또는 질의 직전에 얻어진 만료되지 않은 정보에 대해서 행해진다. 각 작업 또는 자원 억세스는 요구자의 취향에 맞추어 개별적으로 맞춤화될 수 있다. 작업 및 콘텍스트는 활성 사용자의 순서에 따라 우선 순위가 부여되고, 사용자의 변경시마다 우선 순위가 재부여된다. 환경 변수는 전체 환경을 리셋하도록 요구하지 않고서도 사용자 식별 정보의 변경에 기초하여 신속하게 수정될 수 있다. 불명료성은 사용자 식별 정보를 사용하여 각 콘텍스트 또는 콘텍스트 스택의 레벨에서 해결된다.
또 다른 형태에서는, 대화 검색 기능은, 파일의 이름, 수정 또는 ASCII 내용 뿐만 아니라 오퍼레이팅 시스템, 애플리케이션 또는 사용자에 의해서 정의된 앱스트랙트 카테고리, 및 오퍼레이팅 시스템에 의해서 온라인 또는 오프라인에서 추출한 토픽 또는 객체가 억세스되었을 때 대화형 프로토콜을 통해 얻은 토픽에도 기초하여 제공된다. 또, 콘텍스트 검색 기능은 활성 질의를 완성시키거나 유사한 질의/콘텍스트를 추출하도록 제공된다.
또 다른 형태에서는, 대화 선택 기능은 자원 관리자 레벨에서 제공되거나 메타 정보, 앱스트랙션 및 대화 질의/혼합식 이니셔티브/수정에 의존하는 애플리케이션 내에서 제공된다. 이러한 대화 선택 기능에 의해서, 기본 선택의 긴 시퀀스가 회피되고, 선택의 자연스런 숏컷 및 수정이 행해진다. 또, 계층적 구조를 갖는 객체의 윤곽을 즉시 억세스하고 제시하는 메카니즘도 제공된다.
또 다른 형태에서는, 대화형 도움말, 매뉴얼 및 서포트는 요구를 완성하고 절차를 통해 가이드하며 정보를 검색하고 새로운 애플리케이션을 업그레이드/인스톨하기 위해 로컬 자원 및 원격(리모트) 자원, 사용자 및 에이전트의 이용 히스토리를 이용하여 유비쿼터스적 조정 대화 인터페이스(ubiquitous coordinated conversational interface)를 통해 제공된다. 또, 도움말 정보를 억세스하는 NLU 질의를 사용하거나, 최근 사용자(히스토리)에 관련된 메타 정보에 기초하고 또한 누락되거나 혼합식 이니셔티브를 사용하여 변경된 아규먼트에 기초하여 도움말 정보에 억세스될 수 있다. 각 애플리케이션에 의해 제공되는 다이알로그 사용자의 취향 및 전문 지식의 레벨에 맞추어진다.
본 발명에 따른 CVM에 의해 제공되는 다른 특징은, 최소 학습 곡선을 갖는 간단하고 직관적이며 자연스런 인터페이스, 음성의 사용이 생산성, 새로운 기능 또는 사용법을 크게 개량하는 강력한 대화형 애플리케이션, 자연스런 질의를 이해할 수 있는 고기능의 머신/장치, 핸즈-프리 모드 및/또는 아이-프리 모드에서 효율적으로 작업을 수행할 가능성, 종래의 사용자 I/O를 보충하고 필요에 따라 교체하는 강력한 멀티 모드 고생산성 사용자 인터페이스(디스플레이 없음 또는 소형 디스플레이, 키보드, 펜 또는 포인팅 장치가 없음, 리모트 컴퓨팅 등), 억세스하기 위해 사용하는 장치[PC(Personal Computer), PDA(Personal Digital Assistant, 개인 휴대 단말기), 전화기 등]에는 독립하고 트랜잭션/서비스/애플리케이션과도 독립한 범용 사용자 인터페이스, 하나의 장치가 복수개의 다른 장치를 제어하고 기존의 OS, 애플리케이션, 장치 및 서비스와 역호환성을 가지도록 허용하는 복수개의 대화 장치간에 조정된 인터페이스를 포함하고 있다.
본 발명의 이들 및 다른 특징 및 장점은 첨부하는 도면을 참조하여 기록되는 이어지는 양호한 실시예의 상세한 설명으로부터 명백하게 설명될 수 있다.
도 1은 본 발명의 실시예에 따른 대화형 컴퓨팅 시스템의 블럭도.
도 2는 본 발명의 실시예에 따른 대화형 컴퓨팅 시스템의 앱스트랙트층을 도시하는 도면.
도 3은 본 발명의 한 특징에 따른 대화형 컴퓨팅 시스템에서 실행된 대화형 프로토콜을 도시하는 블럭도.
도 4는 본 발명의 실시예에 따른 대화형 컴퓨팅 시스템의 성분 블럭도.
도 5는 본 발명의 한 특징에 따른 작업 디스패칭 프로세스를 도시하는 도면.
도 6은 본 발명의 한 특징에 따른 일반적인 대화형 사용자 인터페이스 및 입력/출력 프로세스를 도시하는 도면.
도 7은 본 발명의 한 특징에 따른 분할된 대화형 컴퓨팅 시스템을 도시하는 도면.
도 8은 본 발명의 실시예에 따른 범용의 대화형 애플리케이션을 도시하는 도면.
도 9는 본 발명의 한 특징에 따른 다이알로그 관리 프로세스를 도시하는 도면.
도 10은 본 발명의 다른 특징에 따른 다이알로그 관리 프로세스의 도면.
도 11은 본 발명의 다른 특징에 따른 다이알로그 관리 프로세스의 도면.
도 12는 본 발명에 따른 대화형 네트워킹을 도시하는 도면.
본 발명은 대화형 시스템 및 멀티 모델 인터페이스의 모든 특징을 포함하는 대화형 컴퓨팅 시스템 및 방법에 관한 것이다. 본 명세서에 설명된 대화형 컴퓨팅 패러다임에 따른 대화형 컴퓨팅을 제공하는 주요 구성요소는 CVM이다. 일 실시예에서, CVM은 종래의 OS 또는 RTOS 상에서 실행하는 대화 플랫폼 또는 커널이다. 또, CVM 플랫폼은 서버 및 PvC(Pervasive Computing) 클라이언트로 실행될 수도 있다. 일반적으로, CVM은 대화형 서브시스템(예를 들면, 음성 인식 엔진, 문자의 음성으로의 변환 등)과 대화형 및/또는 종래의 애플리케이션 간의 대화형 API 및 프로토콜을 제공한다. 또, CVM은 좀더 제한된 인터페이스를 갖는 기존의 애플리케이션에 역호환성을 제공할 수 있다. 상세하게 후술하는 바와 같이, CVM은 대화형 서비스와 작동기능 및 대화형 프로토콜을 제공하여, 적어도 대화에 의해 인식되는 CVM층이 역시 장착되어 있는 다수의 애플리케이션 및 장치와 상호작용한다.
본 명세서에서 설명된 상이한 엘리먼트들 및 프로토콜/API들은 그득이 수행하는 기능이나 그들이 교환하는 정보에 기초하여 정의된다. 이들의 실제 구조 또는 구성예는 변경될 수 있는데, 예를 들면 동일 또는 다른 실체(엔티티)에 의해 구성되어, 더 큰 구성요소의 또는 독립적으로 실증된 객체 또는 이러한 객체나 클래스의 패밀리로서의 구성요소에 의해서 구성될 수 있다.
본 발명에 따라 본 명세서에서 설명된 대화형 컴퓨팅 패러다임에 기초를 둔 CVM(또는 오퍼레이팅 시스템)에 의해서, 컴퓨터 또는 임의의 다른 인터랙티브 장치는 사용자와 대화할 수 있다. 또, 머신에 디스플레이 기능, 즉 GUI 기능이 없거나, 키보드, 펜 또는 포인팅 장치가 없는 것에 상관없이, 이 CVM에 의해서, 사용자는 그 머신 상에서 복수의 작업을 수행할 수 있다. 실제로, 사용자는 대화하듯이 이들 작업을 관리하고, 하나의 작업 또는 복수 개의 동시 작업을 수행하여 종결지을 수 있다. 대화하듯이 작업을 관리하기 위해, 본 발명에 따른 CVM은 혼합식 이니셔티브, 콘텍스트 및 높은 레벨의 앱스트랙션에 의존하여 다양한 기능을 수행하는 능력을 갖출 수 있다. 혼합식 이니셔티브는 사용자가 시스템과의 다이알로그를 통해 요구를 자연스럽게 완성하거나 변경하거나 수정할 수 있다. 또, 혼합식 이니셔티브는 CVM이 특히, 음성구동형 애플리케이션에서 적극적으로 돕고(이니셔티브를 쥐고 돕는 것) 작업을 통해 사용자를 코치할 수 있으며, 혼합식 이니셔티브 능력은 디스플레이없는 시스템 또는 디스플레이 기능이 제한된 시스템을 보상하는 자연스러운 방법임을 의미한다. 일반적으로, CVM은 종래의 인터페이스와 사용자 입출력을 대체하는 것이 아니라 종래의 인터페이스와 사용자 입출력을 보완하는 것이다. 이것은 "멀티 모델"의 개념이고, 이것에 의해서, 음성은 마우스, 키보드 및 펜과 같은 다른 입력 장치와 병행하여 사용된다. 종래의 인터페이스는 장치의 한계가 특정 인터페이스의 실행을 제약할 때 대체될 수 있다. 또, 장치, 티어 및 서비스들의 종단에 설치된 인터페이스들의 편재성(ubiquity)과 일치성(uniformity)은 추가적인 필수 특성이다. CVM 시스템은 종래의 입력 및/또는 출력 미디어를 갖는 복수 기능을 가질 수 있다. 실제로, 종래의 모니터 디스플레이와 결합된 종래의 키보드 입력 및 포인팅 장치를 갖는 컴퓨터는 본 발명에 따른 CVM을 활용함으로써 상당한 장점을 가질 수 있다. 그 일례는 참조 문헌(GUI 모드와 및 음성 모드간에 정확한 동시성을 갖는 멀티 모델 애플리케이션을 구성하는 방법을 설명하는)으로 여기에 양도되고 합체된 "멀티 모델 셀"이라는 명칭의 1999년 4월 7일자로 출원된 미합중국 가출원 번호 제60/128,081에 설명되어 있다. 즉, 자기의 컴퓨터와 대화하기를 원하지 않는 사용자조차도 사용자 자신이 CVM 구동형 머신과 상호작용하는 것에 대해서 극적인 긍정적 변화가 나타나는 것을 깨달을 수 있다.
도 1을 참조하면, 블럭도는 클라이언트 장치 또는 서버에서 실행될 수 있는 본 발명의 실시예에 따른 대화형 컴퓨팅 시스템(또는 CVM 시스템)을 설명하고 있다. 일반적으로, CVM은 범용의 조정된 멀티 모델의 대화형 사용자 인터페이스(CUI)(10)(universal coordinated multi-modal conversational user interface)를 제공한다. CUI의 "멀티 모델"적 형태란 음성, 키보드, 펜 및 포인팅 장치(마우스), 키패드, 터치 스크린 등과 같은 다양한 입출력(I/O) 자원이 CVM 플랫폼과 병행하여 사용될 수 있다는 것을 의미한다. CUI(10)의 "범용(unversality)"적 형태란 CVM가 데스크톱 컴퓨터, 제한된 디스플레이 기능을 갖는 PDA 또는 디스플레이없는 전화에 접속하여 실행되도록 CVM 시스템이 동일 UI를 사용자에게 제공한다는 것을 의미한다. 다시 말하면, 범용성이란 CVM 시스템이, 음성 대 멀티 모델, 즉 음성+GUI에 대해서만의 음성에서부터 순수한 GUI에 이르는 범위의 기능을 갖는 장치의 UI를 적절하게 취급할 수 있다는 것을 의미한다. 그러므로, 범용 CUI는 억세스 모드에 무관하게 모든 사용자와의 상호작용에 대해서 동일한 UI를 제공한다.
또, 범용 CUI의 개념은 조정된 CUI의 개념까지 확장된다. 특히, (다수의 컴퓨터 티어의 내부에 있는 또는 이들간에 걸쳐 있는) 다수의 장치가 동일 CUI를 제공하고 있다고 가정하면, 이들 장치는 단일 담화(single discourse), 즉 조정된 인터페이스를 통해 관리될 수 있다. 즉, 다수의 장치가 대화식으로 접속되는 경우(즉, 서로를 인식하는 경우), 그들 다수의 장치 중 하나의 장치에 속하는 1 개의 인터페이스(예를 들면, 단일 마이크로폰)를 통해 그들 다수의 장치를 동시에 제어하는 것이 가능하다. 예를 들면, 범용의 조정된 CUI를 이용함으로써 스마트 폰, 페이저, PDA, 네트워크화된 컴퓨터 및 IVR 및 대화식으로 접속되는 차량 탑재용 컴퓨터를 음성으로 자동 제어하는 것이 가능하다. 이러한 CUI 개념은 더욱 상세히 후술될 것이다.
또, CVM 시스템은 대화 인식 애플리케이션(11)[즉, 대화형 프로토콜을 "음성으로 구동시키는(speak)"시키는 애플리케이션] 및 종래의 애플리케이션(12)을 포함하는 다수의 애플리케이션을 포함한다. 대화 인식 애플리케이션(11)은 대화형 애플리케이션 API(13)를 통해 CVM 코어층(또는 커널)(14)과 함께 동작하기 위해서 특별히 프로그램된 애플리케이션이다. 일반적으로, CVM 커널(14)은 애플리케이션들과 장치들을 거치는 다이알로그를 그들의 등록된 대화 능력과 요건에 기초하여 제어하고, 대화형 시스템의 행동을 제공하기 위해 I/O 모드로서 음성을 추가하는 것으로부터 크게 벗어난 통합 대화형 사용자 인터페이스를 제공한다. CVM 시스템은 종래의 OS 및 API(15)와 종래의 장치 하드웨어(16) 상에 설치되어, 서버 또는 임의의 클라이언트 장치(PC, PDA, PvC)에 배치될 수 있다. 종래의 애플리케이션(12)은 근저의 OS 명령 뿐만 아니라 OS API를 통해 종래 애플리케이션의 GUI 메뉴 및 명령을 억세스할 수 있는 CVM 커널층(14)에 의해 관리된다. CVM은 대화형 서브시스템(18)(즉, 대화형 엔진) 및 종래의 OS(15)의 종래의 서브시스템(예를 들면, 파일 시스템 및 종래의 드라이버)을 포함하는 모든 입출력 발생을 자동적으로 처리(취급)한다. 일반적으로, 대화형 서브시스템(18)은 음성 요구를 질의로 전환하고, 출력 및 결과를 적합한 데이타 파일(17)(예를 들면, 콘텍스트, 유한 상태 문법, 어휘, 언어 모델, 심볼 질의맵 등)을 사용하여 말하는 메시지로 전환하는 일을 한다. 대화형 애플리케이션 API(13)는 CVM(14)에 대한 모든 정보를 전달하여, 질의를 애플리케이션 호출로 변환하고, 출력을 사용자에게 제공되기 전에 적절하게 분류된 음성으로 역(逆)전환된다.
도 2를 참조하면, 도면은 본 발명의 실시예에 따른 대화형 컴퓨팅 시스템(또는 CVM)의 앱스트랙트 프로그래밍층을 도시한다. CVM의 앱스트랙트층은 대화 인식 애플리케이션(200) 및 종래의 애플리케이션(201)을 포함한다. 전술한 바와 같이, 대화 인식 애플리케이션(200)은 대화형 애플리케이션 API층(203)을 통해 CVM 커널층(202)과 상호작용한다. 대화형 애플리케이션 API층(203)은 CVM 커널(202)에 제공된 다양한 특징(후술함)을 제공하도록 대화형 프로그래밍 언어/스크립트 및 라이브러리(대화 파운데이션 클래스)를 포함한다. 예를 들면, 대화형 프로그래밍 언어/스크립트는 애플리케이션 개발자가 대화 인식 애플리케이션(200)을 후크(또는 개발)하도록 허용하는 대화형 API를 제공한다. 또, 이것은 개발자가 대화적 특징들을 애플리케이션으로 만들되, "대화식으로 인식(conversationally aware)"하도록 만들 수 있게 허용하는 대화형 API층(203), 대화형 프로토콜(204) 및 시스템 호출을 제공한다. 애플리케이션, API 호출 및 프로토콜 호출을 실행하는 코드는 라이브러리 링크, 대화 논리(후술함) 엔진 호출 및 대화 파운데이션 클래스를 갖는 번역되고 컴파일된 스크립트 및 프로그램을 포함한다.
특히, 대화형 애플리케이션 API층(203)은 본 발명에 따른 CUI 또는 대화 인식 애플리케이션(200)을 구축하는데 사용될 수 있는 라이브러리 기능을 통해 애플리케이션 개발자에게 제공되는 다수의 대화 파운데이션 클래스(205)(또는 기본 다이알로그 구성요소)를 포함한다. 대화 파운데이션 클래스(205)는 어떤 다이알로그를 절차적으로 또는 선언적으로 실행될 수 있는 모드 또는 모드들의 조합과 무관하게 특징짓는 기본적인 구성요소 또는 대화형 제스처(1997년에 미국 보스톤에 소재하는 Kluwer Academic Publishers에서 발간한 T.V. Raman의 저서 "Auditory User Interfaces, Toward The Speaking Computer"에 설명됨)이다. 대화 파운데이션 클래스(205)는 CUI 구축 블럭 및 대화 플랫폼 라이브러리, 다이알로그 모듈 및 구성요소, 다이알로그 스크립트 및 빈즈(beans)를 포함한다. 대화 파운데이션 클래스(205)는 로컬하게 대화 객체(206)로 컴파일될 수 있다. 특히, 대화 객체(206)(또는 다이알로그 구성요소)는 자바 또는 C++와 같은 프로그래밍 언어를 통해 이들 라이브러리를 호출하는 코드에서 다른 개별 클래스를 조합함으로써 대화 파운데이션 클래스(205)(기본 다이알로그 구성요소)로부터 컴파일된다. 전술한 바와 같이, 코딩 단계는 이러한 기초 다이알로그 구성요소를 선언적인 코드안에 내장하는 단계 또는 이 기초 다이알로그 구성요소를 절차 코드에 링크시키는 단계를 포함한다. 대화 파운데이션 클래스(205)를 안착(네스팅)시키고 내장함으로써, 대화 객체(206)(재사용 가능할 수도 있고 불가능할 수도 있음)가 특정 다이알로그 작업 또는 애플리케이션을 실행하도록 (선언적으로 또는 컴파일/번역을 통해) 구성될 수 있다. 예를 들면, 대화 객체(206)는 여기에 참조 문헌으로 지정되고 합체된 명칭이 "대화형 브라우저 및 대화형 시스템"이고 동시에 출원된 특허 출원 IBM 문서 YO9998-392P에 설명한 바와 같이 대화형 브라우저[또는 뷰어(viewer)](200a)에 의해 처리되거나 로드된 (네스트되어 있는 또는 네스트되어 있지 않은) CML(Conversational Markup Language)의 페이지와 같이 선언적으로 실행될 수 있다. 다이알로그 객체는 (대화형 브라우저를 통한) 페이지, (CVM 분산 가능) CML 상의 절차 객체, CVM 상의 스크립트 태그 및 서블릿(servlet) 구성요소가 CML을 통해 로드될 수 있는 애플릿 또는 객체를 포함한다.
본 발명에 따라 실행될 수 있는 대화형 제스처의 일부 예에 대해 설명한다. 대화형 제스처 메시지는 정보 메시지를 사용자에게 전달하기 위해 머신에 의해 사용된다. 이 제스처 메시지는 디스플레이된 스트링(displayed string)(시각형) 또는 스포큰 프롬프트(spoken prompt)(청각형)로서 제공되는 것이 전형적이다. 발성될 메시지 부분은 CVM 상에서 실행하는 다양한 애플리케이션/다이알로그의 현행 상태의 기능일 수 있다. 대화형 제스처 "세트 중에서 선택"은 사용자가 개별 선택사항의 세트 중에서 선택할 것으로 기대되는 다이알로그를 캡슐화하는데 사용되는 것이다. 이것은 적법한 선택사항의 세트는 물론 프롬프트, 디폴트 선택을 캡슐화한다. 대화형 제스처 메시지 "범위 중에서 선택"은 사용자가 연속적인 범위의 값들 중에서 하나의 값을 선택할 수 있게 하는 다이알로그를 캡슐화하는 것이다. 제스처는 유효 범위, 현재의 선택 및 정보 프롬프트(informational prompt)를 캡슐화한다. 또, 대화형 제스처 입력은 입력 제약이 더욱 복잡한 경우(또는 경우에 따라서는 존재하지 않는 경우)에 사용자 입력을 획득하는데 사용된다. 제스처는 사용자 프롬프트, 요구되고 있는 정보 항목(TBD)에 대한 애플리케이션 레벨의 의미론(semantics) 및, 경우에 따라서는 입력 유효성 검사를 위한 술어부(predicate)를 캡슐화한다. 그러나, 전술한 바와 같이, 대화 파운데이션 클래스는 대화 제스처의 개념을 포함, 또는 능가한다(즉, 이것은 대화 작업을 실행하기 위한 법칙 뿐만 아니라 기초 행동 및 서비스의 레벨로 확장한다).
후술하는 바와 같이, 어떤 프로그래밍 모델은 대화형 API를 통해 매스터 다이알로그 관리자와 엔진간의 접속을 가능하게 한다. 파운데이션 클래스의 데이타 파일은 CVM(내장된 플랫폼용으로 로드가능한) 상에 제공된다. 객체의 데이타 파일은 확장되고 로드될 수 있다. 다른 객체는 동시 다이알로그 관리자로서 작용한다. 일부의 대화 파운데이션 클래스의 예는 다음과 같다.
로우 레벨 다이알로그 대화 파운데이션 클래스 :
[적합한 경우에 사용가능한 멀티 모델의 구성]
(분산시 CVM 처리를 포함)
1. Select_an_item_from_list
2. Field_filing_with_grammar
3. Acoustic_Enroll_speaker
4. Acoustic_Identify_speaker
5. Acoustic_Verify_speaker
6. Verify_utterance
7. Add_to_list
8. Enroll_utterance
9. Get_input_from_NL
10. Disambiguate
etc
로우 레벨 특수화된 다이알로그 대화 파운데이션 클래스 :
(적합한 경우에 사용가능한 멀티 모델의 구성)
(분산시 CVM 처리를 포함)
1. Get_Yes/No
2. Get_a_date
3. Get_a_time
4. Get_a_natural_number
5. Get_a_currency
6. Get_a_telephone_number US or international, rules can be specified or any possibility
7. Get_digitstring
8. Get_alphanumeric
9. Get_spelling
10. Speech_biometrics_identify
11. Open_NL
12. Close_NL
13. Delete_NL
14. Save_NL
15. Select_NL
16. Mark_NL
etc.
중간 레벨 다이알로그 대화 파운데이션 클래스 :
(적합한 경우에 사용가능한 멀티 모델의 구성)
(분산시 CVM 처리를 포함)
1. Form_filling
2. Request_confirmation
3. Identify_user by dialog
4. Enrol_user by dialog
5. Speech_biometrics_identify
6. Verify_user by dialog
7. Correct_input
8. Speech_biometrics_identify
9. Speech_biometrics_verify
10. Speech_biometrics_enrol
11. Manage_table
12. Fill_free_field
13. Listen_to_TTS
14. Listen_to_playback
15. Simultaneous_form_filling
16. Simultaneous_classes_dialog
17. Summarize_dialog
etc.
하이 레벨 애플리케이션 특수 파운데이션 클래스 :
(적합한 경우에 사용가능한 멀티 모델의 구성)
(분산시 CVM 처리를 포함)
1. Manage_bank_account
2. Manage_portfolio
3. Request_travel_reservation
4. Manage_e-mail
5. Manage_calendar
6. Manage_addressbook/director
etc.
통신 대화 클래스
1. Get_list_of_CVM_devices
2. Get_capability_of_CVM_device
3. Send_capability_to_CVM_device
4. Request_device_with_given_capability
5. Get_handle_from_CVM_device
6. Mark_as_Master_CVM
7. Mark_as_active_CVM
8. Get_context
9. Send_context
10. Get_result
11. Send_result
12. Save_on_context
etc.
서비스 및 행동 대화 파운데이션 클래스
(이 경우에도, 분산시 CVM 처리를 포함 가능)
1. Get_meta-information
2. Set_meta-information
3. Register_category
4. Get_list_of_categories
5. Conversational_search(dialog or abstraction-based)
6. Conversational_selection(dialog or abstraction-based)
7. Accept_result
8. Reject_result
9. Arbitrate_result
etc.
다른 서비스
(복수 클래스를 포함)
Conversational security
Conversational customization
Conversational Help
Conversation prioritization
Resource management
Output formatting and presentation
I/O abstraction
Engine abstractions
Etc.
규칙
How complete get a name from a first name
How to get a phone number
How to get an address
How to undo a query
How to correct a query
etc.
본 명세서에서는 CVM이 제공하는 개발 환경을 SPOKEN AGETM이라고 한다. 이 스포큰 에이지는 개발자가 CVM용 대화 인식 애플리케이션을 만들고, 시뮬레이션하며 디버깅할 수 있게 한다. 이 스포큰 에이지는 API 호출을 직접 구현하게 하는 기능 외에, 다수의 개성을 갖는 고급의 대화 인터페이스를 구축하는 도구, 사용자가 출력을 제공하는 음성의 타입을 선택할 수 있게 하는 음성 폰트, 및 포스트크립트 및 AFL과 같이 대화형 프리젠테이션을 작성하는 대화형 포맷팅 등의 기능도 제공한다.
전술한 바와 같이, 대화형 애플리케이션 API층(203)은 범용의 대화형 입력 및 출력, 대화 논리 및 대화 메타 정보 교환 프로토콜을 제공하기 위해서 대화형 프로그래밍 언어와 스크립트를 포함한다. 대화형 프로그래밍 언어/스크립트는 모든 사용가능한 자원을 입력 또는 출력 스트림으로서 사용할 수 있게 한다. 보다 상세하게 후술하는 바와 같이, 대화형 엔진(208) 및 [대화형 엔진 API(207)를 통해 CVM(202)에 의해 억세스되는] 대화형 데이타 파일(209)을 사용하면, 각 입력은 이진 또는 ASCII 입력으로 전환되고, 이것은 빌트인(내장) 객체로서 프로그래밍 언어에 의해 직접적으로 처리될 수 있다. 호출, 플래그 및 태그는 객체와, 대화 메타 정보가 다른 객체와 정확하게 인터페이스하도록 요구되는 프로세스 간에 전송하도록 자동적으로 포함될 수 있다. 또, 출력 스트림은 애플리케이션 또는 사용자의 요구에 따라 특수하게 포맷될 수 있다. 이들 프로그래밍 툴에 의해서 멀티 모델 담화 프로세싱이 용이하게 만들어질 수 있다. 또, 논리 진술 스테이터스 및 연산자는 이들 ASCII 이진 내용에 기초하거나 NLU 전환 질의(종래 및 대화형 서브시스템의 입력/출력) 또는 FSG 기반의 질의(시스템이 제한된 명령을 사용하는 경우)에 기초하여 비교될 수 있는 풍부한 대화 질의를 처리하도록 확장된다. 논리 연산자는 이러한 시스템을 검사하거나 변경하도록 실행될 수 있다. 대화 논리값/연산자는 참, 거짓, 미완성, 불명료, ASCII 관점용의 상이/등가, NLU 관점으로부터의 상이/등가, 활성 질의 분야 관점으로부터의 상이/등가, 미지수, 호환불가, 비교를 포함하도록 확장한다.
또, 대화형 애플리케이션 API층(203)은 근저의 OS 특징 및 행태(behavior)의 확장을 제공하는 코드를 포함한다. 예를 들면, 이러한 확장은 파운데이션 클래스 라이브러리 뿐만 아니라 객체에 관련된 하이 레벨의 앱스트랙션 및 앱스트랙트 카테고리, 앱스트랙트 카테고리의 자체 등록 메카니즘, 메모리화(memorization), 요약화(summarization), 대화형 검색(conversational search), 선택, 재지정(redirection), 사용자 맞화춤(user customization), 트레인 능력(train ability), 도움말(help), 다수 사용자(multi-user) 및 보안 기능(능력)(security capabilities)을 포함하고, 각각에 대해 더 상세히 후술하는다.
도 2의 대화형 컴퓨팅 시스템은 코어 엔진과 대화형 엔진(208)(예를 들면, 음성 인식, NL 파싱(parsing), NLU, TTS 및 음성 압축/압축 해제 엔진)간의 인터페이스를 제공하는 대화형 엔진 API층(207) 및 이것을 사용하는 애플리케이션을 포함한다. 또, 엔진 API층(207)은 코어 엔진이 로컬(국부)이든 리모트(원격)이든 그들 코어 엔진과 통신하기 위한 프로토콜도 역시 제공한다. I/O API층(210)은 인터페이스에 (멀티 모델 대화형 UI를 제공하기 위한) 키보드, 마우스, 터치 스크린, 키패드 등과 같은 종래의 I/O 자원(211) 및 음성 I/O(오디오 입력/오디오 출력)를 획득하기 위한 오디오 서브시스템을 제공한다. I/O API층(210)은 장치 앱스트랙션, I/O 앱스트랙션 및 UI 앱스트랙션을 제공한다. I/O 자원(211)는 I/O API층(210)을 통해 CVM 커널층(202)에 등록될 것이다.
코어 CVM 커널층(202)은 대화형 애플리케이션 및 행태/서비스 관리자층(215), 대화 다이알로그 관리자(중재자)층(219), 대화 자원 관리자층(220), 작업/디스패처 관리자(221) 및 메타 정보 관리자(222)와 같은 프로그래밍층을 포함하고, 이들 프로그래밍층은 CVM층(202)의 핵심 기능을 제공한다. 대화형 애플리케이션 및 행태/서비스 관리자층(215)은 종래의 애플리케이션(201)과 대화 인식 애플리케이션(200)을 관리하는 기능을 포함한다. 이러한 관리 기능은 예를 들면, 애플리케이션이 (로컬 및 네트워크 분배) 등록되고, 애플리케이션의 다이알로그 인터페이스이며(있는 경우에), 각 애플리케이션의 상태인 트랙을 유지하는 것을 포함한다. 또, 대화형 애플리케이션 및 서비스/행태 관리자(215)는 CVM 시스템에 의해 제공된 어떤 특수한 서비스 또는 행태에 관련된 모든 작업을 시작한다. 이 대화형 서비스 및 행태는 애플리케이션 개발자가 (애플리케이션 개발로 실행해야 함이 없이) API를 통해 억세스할 수 있다고 기대할 수 있는 특징 뿐만 아니라 사용자가 애플리케이션 및 상호작용에서 발견한다고 기대할 수 있는 대화형 UI의 모든 행동 및 특징이다. CVM 커널(202)에 의해 제공된 대화형 서비스 및 행태의 예는 한정되지는 않지만 대화 카테고리 분류(categorization) 및 메타 정보, 대화 객체, 자원 및 파일 관리, 대화 검색, 대화 선택, 대화 맞춤화, 대화 보안, 대화 도움말, 대화 우선 순위, 대화 자원 관리, 출력 포맷팅 및 프리젠테이션, 요약, 대화 지연 액션/에이전트/메모리화, 대화 논리 및 조정 인터페이스 및 장치(각각은 명세서에서 상세하게 후술됨)를 포함한다. 이러한 서비스는 대화형 애플리케이션 API층(203)을 통해서 API 호출을 통해 제공된다. 대화형 애플리케이션 및 행태/서비스 관리자(215)는 UI를 장치, 애플리케이션 및/또는 사용자 취향의 기능(능력) 및 제약에 적응시키는데 필요한 다른 기능들을 전부 실행하는 일을 맡는다.
대화 다이알로그 관리자(219)는 등록된 모든 애플리케이션들간의 다이알로그(대화 다이알로그는 음성 및 GUI 키보드, 포인터, 마우스, 비디오 입력 등과 같은 멀티 모델 I/O를 포함함)를 관리하는 기능을 포함한다. 특히, 대화 다이알로그 관리자(219)는 사용자가 갖고 있는 정보, 사용자가 제공하고 있는 입력 및 사용자 입력을 처리해야 하는 애플리케이션을 결정한다.
대화 자원 관리자(220)는 [로컬 대화형(208) 및/또는 네트워크 분산 자원에] 등록된 대화형 엔진(208), 각 등록된 자원의 능력 및 각 등록된 자원의 상태를 결정한다. 또, 대화 자원 관리자(220)는 활성 애플리케이션과의 다이알로그의 흐름을 유지하도록 CPU 사이클 또는 입력/출력 우선 순위의 배당에 우선 순위를 부여한다(예를 들면, 현재 입력 또는 출력을 인식하거나 제어하기 위해 관계된 엔진은 우선 순위를 가짐). 마찬가지로, 분산된 애플리케이션의 경우에는, 활성 전면 처리(active foreground process)에 대한 네트워크 지연을 최소화하는데 사용되도록 엔진 및 네트워크 경로를 라우트하여 선택한다.
작업 디스패처/관리자(221)는 로컬 및 네트워크화된 종래 및 대화 자원(보다 상세하게 후술함)에 (사용자 및 머신에 의해) 생성된 다른 작업 및 프로세스를 디스패치하여 조정한다. 메타 정보 관리자(222)는 메타 정보 저장소(218)를 통해서 시스템에 관련된 메타 정보를 관리한다. 메타 정보 관리자(222) 및 저장소(218)는 대화형 인터랙션(상호작용)에서는 알려져 있지만 현재의 대화 레벨에서는 사용가능하지 않다고 통상적으로 가정한 모든 정보를 수집한다. 그 예에는 선험적 지식(즉, 문화적 교육적 가설)과 지속적 정보(즉, 과거의 요구, 조회, 사용자·애플리케이션·뉴스 등에 대한 정보)가 있다. 이것은 전형적으로는, 대화 히스토리/콘텍스트의 길이/라이프를 벗어나 보존되고 지속되는데 필요한 정보와, 대화를 위한 공통의 지식이라고 기대되고 그에 따라서 현재의 대화 상호작용 중에 그리고 경우에 따라서는 과거의 대화 상호작용 중에 정의된 적이 없는 정보이다. 또, 후술하는 바와 같이, 명령, 자원 및 매크로 등에 대한 숏컷은 메타 정보 관리자(222)에 의해 관리되고 메타 정보 저장소(218)에 저장된다. 또, 메타 정보 저장소(218)는 사용자 식별자(identity)에 기초한 사용자의 사용일지(user-usage log)를 포함한다. CVM 시스템이 제공하는 소정의 다이알로그 프롬프트(도입, 질문, 피드백 등) 뿐만 아니라 대화형 도움말 및 보조와 같은 서비스는 메타 정보 저장소(218)에 저장되고 애플리케이션에 관련된 사용자의 이용 히스토리에 기초하여 맞추어질 수 있음을 이해하여야 한다. 사용자가 주어진 애플리케이션과 이미 상호작용해 오고 있는 경우, 사용자가 그 애플리케이션에 정통하다고 가정하면 설명을 줄일 수 있다. 마찬가지로, 사용자가 많은 에러를 범하는 경우, 에러가 많다는 것은 사용자가 애플리케이션이나 기능에 대해 확신이 없고, 생소하며, 이해력이 부족하거나 오해를 한 것으로 해석되기 때문에, 설명은 더욱 복잡해질 수 있다.
콘텍스트 스택(217)은 다이알로그 관리자(219)에 의해 관리된다. 콘텍스트 스택(217)은 애플리케이션에 관련된 모든 정보를 포함한다. 이러한 정보는 다이알로그의 콘텍스트에서 실행되는 백엔드 및 다이알로그 중 발생하는 외래의 이벤트에 대한 모든 변화, 상태, 입력, 출력 및 질의를 포함한다. 보다 상세히 후술하는 바와 같이, 콘텍스트 스택은 각 활성 다이알로그(또는 지체된 다이알로그-에이전트/메모리화)에 해당하는 조직화된/분류된 콘텍스트에 관련된다. CVM 시스템에 포함된 글로벌 히스토리(216)는 각 애플리케이션의 콘텍스트를 벗어나 저장된 정보를 포함한다. 글로벌 히스토리는 예를 들면, 대화 세션(즉, 현재 세션 동안에 또는 머신의 작동시부터 사용자와 머신간의 다이알로그의 히스토리) 기간 중에 취급하는 모든 애플리케이션 및 액션에 관련된 정보를 저장한다.
또, CVM 커널층(202)은 [다이알로그 관리자(219)를 바이패싱하기 보다] 다이알로그 관리자(219)를 통해서 백엔드 비지니스 논리(213)에 억세스할 수 있게 하는 백엔드 앱스트랙션층(223)을 포함한다. 이것에 의해서, 이러한 억세스는 콘텍스트 스택(217) 및 글로벌 히스토리(216)에 추가될 수 있다. 예를 들면, 백엔드 앱스트랙션층(223)은 다이알로그 관리자(219)로의/로부터의 입력 및 출력을 데이타베이스 질의로 변환시킬 수 있다. 이 층(223)은 규격화된 속성값 n-더블을 데이타베이스 질의로 전환하고, 이러한 질의의 결과를 테이블 또는 속성값 n-더블 세트로 해석하여, 다이알로그 관리자(219)로 돌려 보낸다. 또, 대화형 트랜스코딩층(224)은 CVM 시스템을 실행하는 장치의 I/O 및 엔진 능력에 기초하여 사용자에게 표시된 행동, UI 및 다이알로그를 적응시키기 위해 제공된다.
또, CVM 시스템은 OS(212)에 의해 제공된 근저의 시스템 서비스의 일부로서 통신 스택(214)(또는 통신 엔진)을 더 포함한다. CVM 시스템은 통신 스택을 사용하여 대화형 프로토콜(204)을 통해 정보를 전송하고, 대화형 프로토콜(24)은 종래의 통신 서비스를 확장하여 대화형 통신을 제공한다. 통신 스택(214)은 대화 장치간의 대화형 통신 교환을 제공하기 위해 본 발명의 한 실시예에 따라서 공지의 OSI(Open System Interconnection) 프로토콜층과 연결하여 구현될 있음을 이해하여야 한다. 이 기술에서 공지된 바와 같이, OSI는 각 층이 각각의 기능을 수행하여 네트워크 접속된 장치의 네트워크 분산 대화형 애플리케이션간의 통신을 제공하는 7개 층으로 이루어져 있다. 이들 층(이들 기능은 공지되어 있음)은 애플리케이션층, 프리젠테이션층, 세션층, 트랜스포트층, 네트워크층, 데이타 링크층 및 물리층으로 이루어져 있다. 애플리케이션층은 대화형 프로토콜(204)을 통해서 대화형 통신을 할 수 있도록 확장된다.
일반적으로, 대화형 프로토콜(204)은 리모트 애플리케이션 및 자원이 그들의 대화 능력 및 프록시를 등록할 수 있도록 허용한다. 이 대화형 프로토콜(204)에 대해서는 본 출원과 동일자로 출원되고 발명의 명칭이 "System and Method For Providing Network Coordinated Conversational Services"인 미국 특허 출원(IBM 문서관리번호 YO999-113P)에 더욱 상세하게 개시되어 있고, 이것은 본 명세서에 참고로 인용되고 있으며 본 출원인에게 공동으로 양도된 것이다(여기에서는, 대화형 프로토콜은 CVM 시스템을 이용하지 않는 시스템에서 이용된다). 특히, 도 3을 더 참조하면, 대화형 프로토콜(204)(또는 방법)은 분산 대화형 프로토콜(300), 디스커버리, 등록 및 교섭 프로토콜(301) 및 음성 전송 프로토콜(302)을 포함한다. 분산 대화형 프로토콜(300)에 의해서, 네트워크 대화형 애플리케이션(200, 200a) 및 네트워크 접속된 장치(로컬 클라이언트 및 서버와 같은 다른 네트워크화된 장치)는 이들의 현재 대화 상태, 아규먼트[데이타 파일(209)] 및 콘텍스트를 서로 등록하기 위해서 정보를 교환할 수 있다. 분산 대화형 프로토콜(300)은 네트워크 접속 장치들(예를 들면, 클라이언트/서버)간의 로컬 및 분산 대화형 엔진(208, 208a)의 공유를 허용한다. 또, 분산 대화형 프로토콜(300)은 다이알로그 관리자(DM) 프로토콜(후술함)을 포함한다. 분산 대화형 프로토콜은 매스터/슬레이브 대화형 네트워크, 피어(peer) 대화형 네트워크, 사일런트 파트너를 포함하는 다수 장치 또는 애플리케이션이 관여하는 대화를 조정하기 위해 정보의 교환을 허용한다. 분산 대화형 프로토콜을 사용하여 네트워크 장치간에 교환될 수 있는 정보는 데이타 파일(아규먼트)에 대한 포인터, 데이타 파일 및 다른 대화 아규먼트의 전송(필요한 경우), 입력, 출력 이벤트 및 인식 결과의 통지, 대화형 엔진 API 호출 및 결과, 상태 및 콘텍스트 변경 및 다른 시스템 이벤트의 통지, 등록 업데이트: 등록을 위한 핸드셰이크, 절충 업데이트 처리: 절충을 위한 핸드셰이크, 인식 업데이트 및 요구된 자원이 손실될 때의 디스커버리 업데이트를 포함한다.
또, 분산 대화형 프로토콜(300)은 예를 들면 사일런트 파트너를 포함하는 매스터/슬레이브 또는 P2P 대화형 네트워크 구성 및 네트워크에서 이러한 장치간의 대화를 조정하도록 장치 또는 관련된 애플리케이션을 허용하는 애플릿, ActiveX 구성요소 및 다른 실행가능한 코드와 같은 다른 정보를 교환하기 위해 애플리케이션 및 장치를 허용한다. 다시 말하면, 복수 개의 CVM 또는 복수 개의 대화 인식 장치가 대화형으로 접속되고 조정될 때, 이들을 한 개의 단일 인터페이스를 통해(즉, 단일 마이크로폰을 통해) 동시에 제어할 수 있게 된다. 예를 들면, 음성은 고유의 조정 대화 인터페이스를 통해서, 스마트폰, 페이저, PDA, 네트워크 컴퓨터, IVR 및 차량 탑재용 컴퓨터를 자동 제어할 수 있다. 사일런트 파트너는 다른 대화 장치의 대화 인터페이스를 통해서 제어될 수 있다. 사일런트 파트너는 API/프로토콜을 통해서 네트워크 접속된 CVM와 상호작용할 수 있도록 대화식으로 인식되는 시스템이다. 그러나, 사일런트 파트너는 지정된 기능외에는 사용자에게 I/O를 제공하지 않는다. 예를 들면, 방 안의 램프는, CVM에 의해 발견될 수 있고 그의 대화 상태(예를 들면, 그것의 명령이 전등을 켜라 또는 전등을 꺼라 등인 것)를 등록할 수 있으며 CVM으로부터 전송된 명령을 실행할 수 있음으로써 대화식으로 인식될 수 있다. 이러한 형태로, 본 명세서에서 UCRC(Universal Conversational Remote Control, 범용의 대화식 원격 제어)라고 칭하는 CVM 리모트 콘트롤은 발견된 모든 대화 인식형 전기제품(conversationally aware appliance)에 의해 지원되는 명령을 다운로드할 수 있다. 따라서, 사용자는 단지 CVM 리모트 콘트롤과 다이알로그함으로써 이들 애플리케이션을 음성으로 제어할 수 있다.
일 실시예에서, 분산 대화형 프로토콜(300)은 네트워크 상에서 애플리케이션과 다른 대화형 엔진간에 호출을 구현하도록 RMI(Remote Method Invocation) 또는 RPC(Remote Procedure Call) 시스템을 통해 구현된다. 해당 기술 분야에서 공지된 바와 같이, RPC는 하나의 애플리케이션이 네트워크 상의 다른 애플리케이션으로부터의 서비스를 요구할 수 있도록 허용하는 프로토콜이다. 마찬가지로, RMI는 객체들이 분산 네트워크 내에서 상호작용할 수 있게 하는 방법이다. RMI에 의해서 한 개 이상의 객체가 요구와 함께 통과될 수 있다.
대화형 프로토콜(204)은 대화형 디스커버리(검출), 등록 및 절충 프로토콜(또는 방법)(301)을 더 포함한다. 등록 프로토콜은 각 네트워크 장치 또는 애플리케이션이 그들의 대화 능력, 상태/콘텍스트 및 아규먼트에 관한 정보를 교환하고 등록하여 장치들간의 데이타 전송을 관련 정보에 한정하고 매스터/슬레이브 또는 피어 네트워킹을 수행할 수 있게 한다. (대화식으로만 인식되는) 사일런트 대화 파트너는 유사하게 행동하고(즉, 그의 능력 등을 등록하고), 대화형 프록시 서버를 통해서 또는 CVM의 대화형 클라이언트로서 상호작용할 수 있다(즉, 사일런트 파트너는 CVM 장치에 대해서 대화형 등록을 사용한다).
등록 프로토콜에 의해서 다음 정보, (1) 능력 및, 정의 및 업데이트 이벤트를 포함하는 로드 메시지; (2) 엔진 자원(소정의 장치가 NLU, DM, NLG, TTS, 화자 인식, 음성 인식 압축, 코딩, 저장 등을 포함하고 있는지에 관한 것); (3) I/O 능력; (4) CPU, 메모리 및 로드 능력; (5) 데이타 파일 형태(특정 도메인, 사전, 언어 모델, 언어 등); (6) 네트워크 어드레스 및 특징(feature); (7) 사용자에 대한 정보(정의 및 업데이트 이벤트); (8) 장치, 애플리케이션 또는 다이알로그에 대한 사용자 취향; (9) 맞춤(customization); (10) 사용자의 경험; (11) 도움말; (12) 애플리케이션(및 애플리케이션 상태)(정의 및 업데이트 이벤트)당 능력 요구 사항; (13) CUI 서비스 및 행동에 관한 메타 정보(통상적으로 도움말 파일, 카테고리, 대화형 우선 순위 등)(테이블에 대한 포인터를 경유한 정의 및 업데이트 이벤트); (14) 프로토콜 핸드셰이크; 및/또는 (15) 토폴러지 절충이 변경될 수 있다.
등록은 장치들간의 TCP/IP, TCP/IP 29, X-10 또는 CEBus 및 소켓 통신과 같은 전통적인 통신 프로토콜을 사용하여 실행될 수 있다. 이들 장치는 분산 대화형 아키텍쳐를 사용하여 이들의 관련된 대화형 엔진 및 CVM 콘트롤러에 이들의 대화 아규먼트[예를 들면, 활성 어휘, 문법 및 언어 모델, 파싱 및 번역/태깅 모델, 성문(聲紋), 합성 규칙, 베이스폼(발음법) 및 음성 폰트]를 전송한다. 이 정보는 파일 또는 스트림으로서 CVM 콘트롤러 및 대화형 엔진에 전송되거나 URL로서(또는 전술한 바와 같이, 장치들간, 즉 객체와 XML 구조간의 정보 변경 레벨에서 선언적 또는 절차적으로) 전송된다. 등록 프로토콜을 실행하는 한 실시예에서, 접속할 때 장치는 플래그 세트 또는 장치 소유의 객체를 장치의 대화 능력을 예정된 프로토콜(예를 들면, TTS 영어, 텍스트, 음성 인식, 500 어휘 및 FSG 문법, 화자 인식없음 등)과 교환할 수 있다. 마찬가지로, 애플리케이션은 엔진 요건 리스트를 변경할 수 있다. 매스터/슬레이브 네트워크 구성으로, 매스터 다이알로그 관리자는 모든 리스트를 컴파일(편집)할 수 있고, 기능과 요구를 대화 능력과 일치시킬 수 있다. 또, 콘텍스트 정보는 콘트롤러가 억세스하여 그의 콘텍스트 스택에 부가할 수 있는 장치 또는 애플리케이션의 콘텍스트 스택/히스토리로의 전송 또는 지시를 표시함으로써 전송될 수 있다. 또, 장치는 그의 멀티 모델 I/O 및 UI 능력(스크린있음/스크린없음, 오디오 입력/출력 능력, 키보드 등)에 대한 정보를 전송하기도 한다. 대화 아규먼트는 다이알로그 엔진이 현재의 상태 및 콘텍스트에 기초하여 NLU 엔진에 의해 새로운 질의의 관련성을 추정할 수 있게 한다.
대화형 디스커버리 프로토콜(301)은 로컬 또는 네트워크 대화 인식 시스템을 자동적으로 발견하고 이러한 대화 인식 시스템을 동적이고 자발적으로 네트워크와 접속하도록 장치의 자발적으로 네트워크화된 대화형 클라이언트(230, 230a)에 의해 활용된다. 디스커버리 프로토콜을 통해서 변경된 정보는 (1) 핸드셰이크를 위한 방송 요구 또는 요구의 청취; (2) 장치 식별자의 교환; (3) 초기 등록을 위한 처리/포인터의 교환; 및 (4) 초기 절충용 처리의 교환을 포함한다.
또, 절충 프로토콜(301)은 동적 매스터/슬레이브 및 P2P 상호작용시에 복수 개의 CVM 시스템간의 적합한 조정을 제공하도록 매스터/슬레이브간의 절충 또는 피어 네트워킹을 할 수 있게 한다. 특히, 등록시 복수 개의 CVM 장치는 대화형 등록 능력에 예를 들면 그들 장치의 제어 능력, 그들 장치가 억세스하는 대화형 엔진 및 그들 장치에 관해 등록되고 그들 장치가 제어하는 애플리케이션 및 장치에 관련된 정보를 추가할 것이다. 그들의 UI, I/O 능력 및 활성 I/O에 기초하여, 한 개의 CVM 콘트롤러는 매스터가 되고, 다른 CVM 콘트롤러는 슬레이브로서 작용하며, 새로운 절충이 발생할 때까지 애플리케이션이 등록됨에 따라 매스터에 대해 비교적 등가이다. 매스터와 슬레이브의 역할은 활성 I/O 모드 또는 장치에 기초하거나 활성 애플리케이션에 기초하여 동적으로 전환될 수 있다.
음성 전송 프로토콜(302 : 또는 대화 코딩 프로토콜)은 음성 전송 클라이언트(231, 231a)에 의해 사용되어, 압축된 음성을 프로세스용 다른 네트워크 장치, 시스템 또는 애플리케이션으로/으로부터 송신/수신하여 처리한다. 음성 전송 클라이언트(231, 231a)는 네트워크를 통해 전송된 음성을 처리하기 위해 적합한 압축 하드웨어(235, 235a)를 사용하여, 압축, 압축 해제 및 재구성 엔진(234, 234a)과 병행하여 동작한다. 음성 코더(234, 234a)는 압축된 음성 및 최적화된 대화형 성능(예를 들면, 워드 에러 비율)의 감각적으로 수용가능하거나 알 수 있는 재구성을 제공한다. 음성은 음향 신호 처리 엔진(오디오 서브시스템)(232, 232a) 및 적합한 오디오 하드웨어(233, 233a)를 사용하여 각각의 네트워크 장치에서 포착된다(그리고 특징으로 변환된다). 또, 압축된 음성 파일 포맷(303)은 음성을 처리하는 장치간에 송수신될 수 있다. 특히, 음성 전송 프로토콜(303)은 장치가 네트워크의 다른 장치 및 애플리케이션으로/으로부터 압축된 음성 또는 로컬 처리 결과를 송수신하게 할 수 있다. 전술한 바와 같이, 대화형 엔진(208 : 도 2)은 전송을 위해 음성(또는 결과)을 압축하고 로컬 프로세싱을 위해 또 다른 장치 또는 애플리케이션으로부터 네트워크를 통해 얻어진 압축 음성(또는 결과)을 압축 해제하는 압축/압축 해제 엔진(234)을 포함하는 것이 바람직하다. 일 실시예에서는, 송신 장치와 수신 장치간의 핸드셰이크 프로세스 후에, 데이타 스트림(패킷 단위)은 수신기로 전송된다. 패킷 헤더는 음성(또는 결과)을 엔코딩하기 위해 사용하는 코딩 구조 및 코딩 아규먼트(즉, 상기 합체된 특허 출원 IBM 문서 관리 번호 YO999-113P에서 개시한 바와 같은 샘플링 주파수, 특징화(feature characteristics), 벡터 차원, 특징 변환/패밀리 등)를 규정하는 것이 바람직하다. 또, 에러 보정 정보는 (예를 들면, 이전 패킷이 손실되거나 지연될 경우 다른 디코더를 보정하기 위해 이전 패킷의 최종 특징 벡터) 또는 손실 패킷을 복구(재전송)하기 위한 적합한 메시징을 도입할 수 있다.
도 9, 도 10 및 도 11에 도시한 바와 같이, 대화형 프로토콜(204)은 네트워크화된 장치의 다이알로그 관리자(DM : DM은 상세히 후술함)간에 정보 교환용 프로토콜을 더 포함한다. 도 9에 도시한 바와 같이, 예를 들면 분산 애플리케이션[분산 애플리케이션(200a)]에서, 다이알로그 관리 프로토콜은 어떤 다이알로그 관리자(219 또는 219a)가 주어진 기능을 실행할지를 결정하기 위해 정보를 교환하는데 사용된다. 전형적으로, 다른 장치, CVM 또는 다른 애플리케이션은 그들 소유의 다이알로그 관리자, 콘텍스트 스택(217, 217a) 및 글로벌 히스토리(218, 218a)를 가질 것이다. [분산 프로토콜(300 : 도 3)의 일부인] 다이알로그 관리자(DM) 프로토콜을 통해, 다른 다이알로그 관리자는 1 개의 매스터 다이알로그 관리자 및 수 개의 슬레이브 또는 피어 다이알로그 관리자를 갖는 토폴로지를 수행할 것이다. 활성 매스터 다이알로그 관리자[도 9에서 다이알로그 관리자(219)로서 도시한]는 여러 개의 관리자에 대한 I/O의 흐름을 관리하여 활성 다이알로그를 결정하고, 질의를 적절히 실행하여, 콘텍스트 및 히스토리를 업데이트하는 일을 담당할 것이다. 예를 들면, 다음의 정보가 변경될 수 있다. (1) DM 아키텍쳐 등록(예를 들면, 각 DM은 로컬 DM의 수집체일 수 있다). (2) 관련된 메타 정보에 대한 포인터(사용자, 장치 능력, 애플리케이션 필요성 등). (3) DM 네트워크 토폴로지의 수행(예를 들면, 매스터/슬레이브, P2P). (4) 적용 가능한 경우, 즉 엔진이 매스터 DM에 의해 제어되는 엔진이 사용되는 경우에는 데이타 파일(대화 아규먼트). (5) 엔진으로부터의 전송 및/또는 콘텍스트로의 추가를 위한 사용자 입력, 사용자로의 출력과 같은 I/O 이벤트의 통지. (6) 인식 이벤트의 통지. (7) 처리된 입력의, 엔진에서 매스터 DM으로의 전송. (8) 등록된 DM으로의 매스터 DM 의무의 전송. (9) DM 처리 결과 이벤트. (10) DM 제외. (11) 신뢰 및 불명료의 결과, 제안된 피드백 및 출력, 제안된 기대 상태, 제안된 액션, 제안된 콘텍스트 변경, 제안된 새로운 다이알로그 상태의 전송. (12) 결정 통지, 콘텍스트 업데이트, 액션 업데이트, 상태 업데이트 등. (13) 완료하거나 실패하거나 중단된 액션의 통지. (14) 콘텍스트 변경의 통지 및/또는 (15) 액션으로 인한 데이타 파일, 콘텍스트 및 상태 업데이트. 또, 액션, I/O 이벤트, 백엔드 억세스는 대화 자원 관리자 및 작업 디스패처 관리자와 공유되는 정보이다.
도 10 및 도 11은 본 발명에 따른 다이알로그 관리 시스템 및 방법을 도시한다. 특히, 도 10은 다양한 장치/애플리케이션(l, k 및 N)의 다수 다이알로그 관리자(즉, 매스터 중재자 및 슬레이브 다이알로그 관리자 l, k 및 N)간의 계층 다이알로그를 도시한다. 도 10은 전형적인 매스터 슬레이브 토폴로지를 도시한다. 전술한 바와 같이, 토폴로지는 DM 프로토콜을 통해서 관련된 정보를 교환함으로써 형성된다. 한편, 도 11은 메인 루트(중재자) 다이알로그 관리자만이 한 개 이상의 애플리케이션 또는 장치(l, k, N)를 위한 다이알로그 관리자 작업을 실행하는 또 다른 매스터/슬레이브 구성을 도시한다. 이 예에서, 매스터 다이알로그 관리자 중재자는 제공된 유일한 다이알로그 관리자이고, 글로벌 콘텍스트 및 히스토리(가능하다면 애플리케이션 특정 콘텍스트 및 히스토리의 분류에 의해서)를 유지한다. DM 프로토콜은 각 애플리케이션 및 장치와 코어 루트 다이알로그 관리자간의 속성값 n-더블을 교환하는 것을 포함한다.
다수의 장치/애플리케이션이 관련되어 있는 경우에도, 도 10에 도시한 바와 같은 실제 다이알로그 관리 프로세스는 단일 장치에서 한 개의 단일 아날로그 관리자에 의해서 순차적으로 실행될 수 있음을 이해하여야 한다. 이 2 개 상황간의 차이는 소정의 작업에 대해서 엔티티당 1 회의 대화를 한정하여 여러 번의 대화를 전달하는 것과 달리, 사용자가 1 개의 엔티티가 다수 작업을 전달하여 1회의 대화를 전달하는 느낌을 갖는 것이다. 이들 토폴로지 각각은 DM 프로토콜을 통해서 수행되거나, 사용자 취향, 애플리케이션 선택 또는 CVM 디폴트 설정에 의해 부과될 수 있다.
도 4를 참조하면, 도면은 본 발명의 한 실시예에 따라서 대화형 시스템 및, CVM 시스템의 대화형 커널의 중심 기능 모델의 상세한 구성을 도시한다. 도 4의 시스템과 그에 관한 설명은 실행 예를 제공하기 위한 설명의 목적용이고, 당해 기술의 일반적인 숙련자는 본 발명의 정신에 따른 CVM를 실행하는 다른 구성요소 또는 시스템 아키텍쳐를 계획할 수 있음을 이해하여야 한다. 또, 이들 엘리먼트 각각은 기존의 오퍼레이팅 시스템, 또는 이들 상이한 새로운 엘리먼트를 중심으로 구축된 코어(중심) 커널을 갖는 진정한 CVM 하의 플랫폼으로서 애플리케이션 내에서 자립(스탠드얼론)형 모드로 도입될 수 있음을 이해하여야 한다. 그 근저의 오퍼레이팅 시스템에 대한 종래의 호출은 휴대할 수 있는 CVM으로 획득하여 실행될 수 있다. 이 예에서, CVM은 기존의 플랫폼을 위해 자립(스탠드얼론)형 플랫폼으로서 구성되어 있다.
도 4를 참조하면, 본 발명의 한 실시예에 따른 대화형 시스템(400)은 일반적으로 종래의 서브시스템 및 CVM(401)에 의해 실행되고 관리되는 대화형 서브시스템의 조합으로 이루어져 있다. CVM(401)은 작업 디스패처/콘트롤러(402), 메타 정보 관리자(403), 다이알로그 콘트롤러(404)(또는, 상기에 칭해진 다이알로그 관리자), 콘텍스트 스택(405) 및 대화형 서브시스템 서비스 관리자(406)를 포함한다. 용어 "CVM 콘트롤러"는 여기에서 작업 디스패처/콘트롤러(402)와 다이알로그 콘트롤러(404)를 총칭하도록 사용될 수 있음을 이해하여야 한다. 일반적으로, CVM(401)은 대화형 및 종래 입력 스트림을 복수 개의 액션으로 전환함으로써 조작하고, 분류된 출력을 대화형 및/또는 종래의 출력 스트림을 통해 사용자에게 생성한다.
대화형 시스템(400)은 예를 들면 음성 인식 시스템(408), 화자 인식 시스템(409), 자연어 인식 및 자연어 파싱 시스템(410) 및 텍스트-음성 합성(TTS) 시스템(411)을 포함하는 다수의 대화 자원 서브시스템(엔진)(407)을 더 포함한다. 대화 자원(407)는 NLG(Natural Language Generation) 엔진 및 오디오 서브시스템과 같은 다른 시스템을 포함할 수도 있음을 이해하여야 한다. 전술한 바와 같이, 이들 대화형 서브시스템(407) 각각은 API 호출을 통해 CVM(401)에 억세스될 수 있다. CVM(401)은 [대화형 서브시스템 서비스 관리자(406)를 통해서] 요구한 대화형 서브시스템(407)을 찾아, 그의 실행을 구동시켜 적합하게 그 결과를 복귀시킬 것이다. 이들 대화형 서브시스템(407)은 로컬형 또는 네트워크를 통한 분산형일 수 있고, 모든 대화형 서브시스템 호출은 애플리케이션에 대해서 숨겨져 있음[그러나, 개발자가 엔진(407)의 특정한 행태를 실행하기를 원할 경우에는 언제든지 엔진 API가 애플리케이션에 대해서 사용 가능함]을 이해하여야 한다.
대화형 서브시스템 서비스 관리자(406)는 CVM(401)에 의해 제공되는 (본 명세서에 설명한 바와 같은) 모든 서비스, UI 및 행태를 관리한다. 종래 서브시스템 서비스 관리자(412)는 근저의 오퍼레이팅 시스템(또는 근저의 OS의 결여시라도 종래의 I/O 시스템)에 의해 제공되는 모든 서비스 및 UI를 관리한다.
CVM(401)의 중심은 다이알로그 콘트롤러(404)의 제어하에서 동작되고 관리된 콘텍스트 스택(405)이다[콘텍스트 스택(405)이 전술한 글로벌 히스토리 및 메타 정보 저장소에 직접적으로 관련되어 있음을 이해하여야 한다]. 일반적으로, 콘텍스트 스택(405)은 입력 인식[예를 들면, 엔진이 활성 FSG, 토픽, 어휘, HMM(Hidden Markov Model), 성문(보이스프린트), 음성 입력용으로 가능한 언어 모델 또는 질의와 같은 이들 각각의 작업을 실행하기 위해 사용하는 파일 또는 아규먼트]를 위해 필요해질 수 있는 다른 엔진용 임의의 데이타 파일(413)(또는 적어도 이러한 대화 아규먼트의 식별자)에 따라 활성화된 담화(즉, 주어진 작업/프로세스/스레드에 관련된 대화형 상호작용)을 이용하여 각 활성 프로세스의 콘텍스트(즉, 속성값 n-더블 및 상태/모드의 충분한 질의 아규먼트 리스트)를 축적한다. 다시 말하면, 용어 "콘텍스트"는 (활성이든 비활성이든) 각 담화의 상태를 나타내는 것으로서, 그 담화의 과거 히스토리, 그것의 현재 상태 및 특수한 특징과 입력 인식을 위해 필요한 모든 데이타에 따른 대응하는 작업의 전체 질의 아규먼트(예를 들면, 각 활성 작업/프로세스의 어휘 파일, 언어 모델, 파싱, 태그, 성문, TTS 룰, 문법, NLU 등)의 궤적을 유지하고 있다. (후술하는 바와 같은) 분산형 CVM에서는, 콘텍스트 스택(다른 CVM 구성요소 뿐만 아니라)은 네트워크화된 서비스(즉, 네트워크를 통해서 분산된)(콘텍스트 및 글로벌 히스토리에 관해 전술한 바와 같은)에 직접적으로 관련될 수 있다.
특히, 각 새로운 작업, 프로세스 또는 스레드(thread)는 새로운 스택 엔트리를 형성하고, 또한 하나의 담화에 관련되어 있다. 각 애플리케이션은 다수의 담화(예를 들면, 애플리케이션 관리 담화 및 애플리케이션 내용 내비게이션 담화)에 관련될 수 있다. 주어진 담화에 관련된 각 콘텍스트는 최근 출력 뿐만 아니라 대응하는 프로세스/작업/스레드에 대해서 형성된 최근의 요구를 포함한다. 주어진 담화의 콘텍스트는, 예를 들면 어떤 활성 문법, 어휘 및, 실제 질의를 그대로 반영하는 심볼 언어에도 관련되어 있다. 이 경우에도, 최근 정보는 히스토리 및 콘텍스트 스택에 저장된다. 과거의 히스토리 및 콘텍스트와 기타의 정보는 메타 정보 관리자(403)에 의해 관리되고, 메타 정보의 일부로서 저장된다.
다이알로그 콘트롤러(404)는 네트워크화된 장치로부터 로컬 또는 리모트로 생성된 새로운 작업/프로세스/스레드마다 콘텍스트 스택(405)에서 새로운 스택 엔트리를 생성함으로써 콘텍스트 스택(405)을 관리한다[여기서, 작업 관리는 후술하는 바와 같이 작업 디스패처/콘트롤러(402)에 의해 제어된다]. 각 활성 애플리케이션은 다수의 담화(애플리케이션 관리 담화, 애플리케이션 내용 내비게이션 담화 등)에 관련될 수 있다. 전술한 바와 같이, 주어진 담화에 관련된 각 콘텍스트는 최종 출력 뿐만 아니라 대응하는 프로세스/작업/스레드에 대해서 형성된 최근의 요구를 포함하고 있다. 또, 주어진 담화의 콘텍스트는, 예를 들면 어떤 활성 문법, 어휘 및 실제 질의를 그대로 반영하는 심볼 언어(속성값 n-더블)에 관련된다. 콘텍스트 스택(405)은 사용자로부터 새로운 입력이 있으면 입력 콘텍스트가 적절하게 달정될 수 있을 때까지 다이알로그 콘트롤러(404)가 콘텍스트 스택(405)을 가로질러 검색하도록 머신 상태 스택에 관련되어 있다. 이것은 본질적으로 최근의 담화와 과거의 담화 중에서 사용자와 머신간의 활성 담화를 찾아서 선택하는 것과 마찬가지이다.
작업 디스패처/콘트롤러(402)는 로컬 및 네트워크화된 종래 및 대화 자원에서 (사용자 및 머신에 의해) 생성된 다른 작업 및 프로세스를 디스패치하고 조정한다. 작업 디스패처/콘트롤러(402)는 일반적으로, 모든 자원의 로드 및 이용가능성을 모니터링하고 다양한 작업들을 상이한 자원들에 적절히 배정하고 이동시킴으로써, 활성화된 작업(그 작업이 종래 방식에 의한 작업이든 대화형 작업이든 불문함)를 디스패치하고, 각 작업, 자원 등의 스테이터스를 제어하는 자원 할당 메카니즘이다. 자원 할당 기능은 각 자원의 현재 부하, 각 서비스 및 애플리케이션의 필요성을 결정하고, 모든 시스템 로드 및 대화 흐름을 최적화하기 위해 조정할 수 있는 자원에 작업을 디스패치함으로써 모든 시스템을 조정하고/관리하는 것을 포함한다. 작업 디스패처/콘트롤러(402)는 [전술한 발견(디스커버리), 등록, 절충, 분산된 대화형 프로토콜을 통해서] 다른 자원에 의해 교환된 어떤 정보에 [종래 작업 관리자(417)를 통해서] 종래 시스템 관리 절차를 추가한 것에 따른다. 작업 디스패처/콘트롤러(402)는 이들 자원의 트랙을 유지하고, 콘텍스트 스택(405) 상의 다른 작업간에 종래의 서브시스템(예를 들면, GUI I/O 및 시스템, 비디오 인식 엔진 등) 및 대화형 시스템(407)을 공유한다. 또, 작업 디스패처/콘트롤러(402)는 종래의 작업 관리자(417)의 레벨에서 오퍼레이팅 시스템에 의해 제어될 수 있는 종래 작업을 관리하고 제어하도록 근저의 오퍼레이팅 시스템의 서비스를 활용할 것이다. 이 경우에도, 전술한 바와 같이, 종래 오퍼레이팅 시스템은 대화형 작업 디스패처 관리자/콘트롤러(402)의 지시하에서 작업 관리를 수행할 수 있다.
작업 디스패처/콘트롤러(402)는 [활성 콘텍스트를 선택하는 다이알로그 콘트롤러(404)를 통해서] 종래 및 대화형 서브시스템 서비스(412, 416)로부터의 입력을 콘텍스트 스택(405)에 공급하고, 다른 작업의 출력을 다른 서브시스템에 공급하여 이것들에 우선 순위를 부여한다. 또, 작업 디스패처/콘트롤러(402)는 콘텍스트 스택(405)에 따라 에이전트/데몬(daemon) 및 메모리화 작업의 형태로 대화형 보조를 삽입하고 관리한다. 작업 디스패처/콘트롤러(402)는 활성 대화 및 대화 히스토리, 지연된 복귀, 네트워크 자원 및 작업 위임에 걸쳐 위임, 요약화 및 암기화(기능은 후술함)에 따른 출력 발생 및 우선 순위를 조정한다.
다이알로그 콘트롤러(404)는 [작업 디스패처/콘트롤러(402)에 등록된] 모든 대화형 애플리케이션 및 종래 애플리케이션간의 다이알로그(대화 = 음성 및 멀티 모델; GUI, 키보드, 포인터, 마우스, 비디오 입력 등)를 관리한다. 전술한 바와 같이, 애플리케이션은 그들의 상태에 대한 정보, 그들이 최근의 입력을 어떻게 번역하는지 및 이러한 번역에 대한 신뢰 수준을 (API 호출 또는 절충 프로토콜을 통해서) 교환한다. 다이알로그 콘트롤러(404)는 활성 콘텍스트 및 애플리케이션을 관리하고 결정한다. 또, 이것은 어떤 애플리케이션이 활성 중인지를 결정함에 있어서 다이알로그 콘트롤러(404)를 보조하도록 애플리케이션이 정보를 교환하게 하는 대화형 프로토콜을 관리하거나, 이러한 결정을 형성할 수 없을 경우 불명료를 해결하기 위해 짧은 다이알로그를 활성화시킨다.
도 5는 다이알로그 관리자(404)의 기능을 설명한다. 도시한 바와 같이, 다른 작업(작업 1, 작업 N) 및 자원(대화형 서브시스템 A-Z)는 CVM(401)에 의해 관리된다. CVM(401)은 애플리케이션이 활성되어 있는지와, 콘텍스트가 (다이알로그 관리자 및 대화형 프로토콜에 대해 전술한 바와 같이) 수정되는지를 결정한다. 분산형 애플리케이션에서, 이 기능은 전술한 다이알로그 관리자 프로토콜에 의해서와 같이 메시지를 전송함으로써 실행된다. 다이알로그 관리자 프로토콜이 로컬 동시식 애플리케이션간에 정보를 교환하는데 사용됨을 이해하여야 한다. 설계시에 다이알로그 관리자 및 엔진에 알려지지 않은 다수의 (로컬 또는 네트워크 연결된) 다이알로그/애플리케이션간의 다이알로그 및 콘텍스트를 관리하는 능력은 일반적인 NL 프로세싱 및 플래그가능한 다이알로그 관리자 및 NL 애플리케이션으로서 칭해지는 것이다.
애플리케이션은 (전술한 CVM API를 통해서) CVM(401) 또는 오퍼레이팅 시스템[또는 JVM(Java Virtual Machine)과 같은 근저의 시스템 또는 마이크로소프트 윈도우와 같은 오퍼레이팅 시스템]을 직접 호출할 수 있음을 이해하여야 한다. 호출이 CVM(401)을 통해 형성될 때, 이것은 작업 디스패처/콘트롤러(402)를 통해 등록되고, (멀티 모델일 수 있지만 음성 입력 또는 출력이 없는) 다이알로그는 다이알로그 콘트롤러(404)에 의해 관리된다. 호출(call)이 근저의 오퍼레이팅 시스템에 대해서 완성되면, 다이알로그 콘트롤러(404)는 애플리케이션과 간접적으로만 상호작용할 것이다. 즉, 종래의 호출은 종래의 작업 관리자(417)에 의해 관리되고, 따라서, 통과될 때 및/또는 작업 디스패처가 종래의 작업 관리자(417)를 협력/명령하기 때문에 작업 디스패처/콘트롤러(402)에 의해 고려된다. 후자는 다이알로그 콘트롤러(404)에 애플리케이션을 등록하고, 작업 디스패처/콘트롤러(402)가 인식하는 스테이터스 변경을 업데이트할 것이다. 종래의 애플리케이션이 C&C(Command and Control) 인터페이스(또는 어떤 다른 형태의 음성 인터페이스)에 의해 관리되는 경우에는, 애플리케이션 다이알로그가 등록되고 다이알로그 콘트롤러(404)에의 한 등록을 통해 다이알로그 콘트롤러(404)에 의해 제어된다. 이들은 특별한 경우임을 이해하여야 한다. 그러나, 일반적으로, 역 호환성 또는 비대화형 애플리케이션이 문제가 되지 않을 때에는, 다이알로그 콘트롤러(404)는 모든 애플리케이션의 다이알로그를 제어하고 콘텍스트 스택(405)을 통해 콘텍스트를 관리할 것이다. CVM(401)은 모든 종래 기능, 서비스 및 행태를 재구성할 수 있음을 이해하여야 한다. 이 경우에, CVM(401)은 종래의 오퍼레이팅 시스템의 플랫폼으로서 실행되지 않고, 자기 자신이 모든 종래 호출을 획득하는 오퍼레이팅 시스템으로서 작용한다.
CVM(401)은 다른 자원 또는 객체(로컬형, 네트워크형 등) 및 사용자에 대한 정보(취향, 보안 습성, 바이오메트릭스, 행태 등) 뿐만 아니라 CVM(401)에 관련된 파일(또는 기록 또는 성명 공간과 같은 장치에 적용된 다른 유사한 실체), 디렉토리, 객체 및 애플리케이션과 같은 엘리먼트를 관리하는 메타 정보 관리자(403)를 더 포함한다. 메타 정보 관리자(403)는 앱스트랙트 카테고리 및 메타 정보를 통해서 이러한 엘리먼트 및 시스템 자원을 하이 레벨의 대화형 앱스트랙션과 관련시킴으로써 이들 엘리먼트를 관리한다. 예를 들면, 객체 표시는 각 객체[예를 들면, 파일을 픽처, 드로윙, 이미지 등과 같은 앱스트랙트 개념과 관련짓는 보안 특성(사용자 및 저작자)]에 관련된 콘텐츠 주도형의 메타 정보와 같은 개량된 지식 표시를 포함하도록 확장된다. 이들 엘리먼트 각각은 다수의 메타 정보 카테고리 중 하나 이상에 관련된다. 이들 카테고리는 오퍼레이팅 시스템, 애플리케이션 또는 사용자 중 하나에 의해서 정의된다. 각 파일, 디렉토리 객체 및 애플리케이션은 카테고리 정의와 관련 기능을 지시함으로써 또는 그들을 이들 클래스에 등록함으로써 그 정의된 카테고리들 중 하나 이상에 관련될 수 있다. 상세하게 후술하는 바와 같이, 앱스트랙트 메타 정보는 파일 시스템 또는 어떤 다른 객체, 자원 또는 사용자의 엘리먼트를 숏컷하거나 자동 추출 및 처리하는데 사용될 수 있다.
특히, 메타 정보 관리자(403)는 다수 카테고리를 가진 앱스트랙트 메타 정보 및 프로토콜을 사용하여 파일 시스템을 관리한다. 이들 카테고리는 자원의 소유자/개발자에 의해 또는 자원의 과거 사용자/애플리케이션에 의해 정의될 수 있다. 유리하게는, CVM(401)은 종래의 파일 관리 시스템과 달리 관련된 메모리 개념에 의존하고, 파일에 대한 정보는 3가지 주요 형태: (1) 파일 이름의 확장자; (2) 파일 이름의 헤더; 및 (3) 파일 내용 형태로 오퍼레이팅 시스템에 의해서 획득된다(이진 대 ASCII)(단, 본 명세서에 설명한 앱스트랙트 카테고리 개념은 이러한 종래의 파일 시스템을 상당히 개선할 수 있다). 대화형 시스템에서는, 파일의 내용 또는 역할을 특징짓기 위해 앱스트랙션의 추가 레벨를 추가한다. 예를 들면, 각 파일은 파일을 특징짓는 앱스트랙트 클래스 세트에 관련될 수 있다(반면에 종래에는, GIF 파일은 예를 들면 디폴트로 파일을 오픈하거나 편집하기 위해 소프트웨어 애플리케이션에 관련될 수 있다). 또, 다수 디렉토리/파일 시스템 디스플레이는 디스플레이된 정보로부터의 이들 확장자를 디폴트로 포함되거나 제외한다. 어떤 다른 이미지 형태의 파일은 자동 조작 프로세스를 이용하기 위해 애플리케이션 레벨 또는 양호하게는 오퍼레이팅 시스템의 레벨로 등록되어야 할 것이다. 반대로, 부정확하거나 불명료한 파일 확장자는 부정확한 자동화 작업이 되는 경우가 많다. 한편, 헤더는 내용에 대한 더 상세한 정보 및 소정의 파일의 프로세싱 요구 사항을 전달한다. 그러나, 현재에는 MIME 헤더와 같은 헤더는 대개, 애플리케이션, 예를 들면 e-메일 또는 프로토콜 및 언어, 예컨대 HTTP(Hyper Text Transfer Protocol) 및 HTML(Hyper Text Markup Language)의 클래스에 대해서만 설계된다.
본 발명에 따라, 파일은 앱스트랙트 메타 정보에 관련된다. 이것은 예컨대 주제 또는 이미지 분류자에 의해서 자동적으로 행해지거나 애플리케이션, 사용자, 플랫폼 등에 의해 명시적으로 행해질 수 있다. 예를 들면, 이미지, 픽처, 영화, 그림의 개념은 다양한 앱스트랙트 카테고리를 한정할 수 있다. 그러므로, 파일은 그 파일의 포맷, 확장자 및/또는 사용법과는 별개의 다른 용어로 특징지어질 수 있다. 또, CVM은 애플리케이션의 개발자(그 다음에 등록됨) 또는 사용자(맞춤 또는 사용법) 중 하나에 의해 애플리케이션에 카테고리를 추가하기 위한 능력을 제공한다.
이 앱스트랙션은 디렉토리, 객체 및 애플리케이션에 확장될 수 있지만, 파일에만은 확장되지 않음을 이해하여야 한다. 예를 들면, 링크, 매크로, 숏컷 및 심지어 북마크와 같은 개념은 특정 카테고리에 관련될 수 있다. 예를 들면, 이들 카테고리는 모든 그림 애플리케이션 또는 모든 이미지 파일 대 모든 재무 애플리케이션 또는 모든 재무 파일을 표시하도록 허용한다.
메타 정보 관리자(403)는 CVM 플랫폼에 제공되거나 구축된 어떤 객체를 카테고리의 이중 링크된 리스트에 관련지을 것이다. 다른 구성으로 동일한 기능을 실행할 수 있음을 이해하여야 한다. CVM 플랫폼은 메타 정보 관리자(403)에 의해 관리되는 모든 한정된 카테고리의 저장소 테이블을 포함한다. 일부 카테고리는 사용자 종속적 또는 애플리케이션 종속적일 수 있다. CVM 플랫폼 시스템 호출을 사용하여, 사용자 또는 애플리케이션은 새로운 카테고리 및 이 새로운 카테고리에 관련된 새로운 객체를 형성할 수 있다. 이것은 파일 시스템에 특히 잘 맞는다. 또, 각 객체에는 CVM 플랫폼에 의해 시스템 호출을 통한 사용자/애플리케이션에 의해 제공된 동적 정보, 즉 생성 날짜, 사용 날짜, 그것의 사용자, 그 객체의 생성일, 빈도수, 생성자, 그 객체를 컴파일한 자가 추가될 수 있다.
객체의 내용은 객체, 애플리케이션, 사용자 또는 플랫폼에 의해 제공된 정보에 기초하여 인덱스될 수 있다. 이들 인덱스는 객체에 관련된 동적 정보의 일부이다. 인덱싱 및/또는 주제 검출은 가능 시에 배치(batch) 모드 시에 신속히 행해질 수 있다.
또, 메타 정보가 사용가능한 자원에 관련될 때에만, 메타 정보, 앱스트랙션 및 앱스트랙트 카테고리는 각 디스패치 작업 및 프로세스에 관련될 수 있음을 이해하여야 한다. 프로세스 및 로드 관리외에, 이것은 작업의 매우 특정한 선택을 가능하게 한다. 예를 들면, 하나의 대화형 요구로, 사용자는 작업의 출력을 듣거나, 콘텍스트 스택을 다운한 작업용 입력(예를 들면, 마이크로폰)을 재청구하고, 입력 스트림에 부가하도록 웨이브 파일 또는 ASCII 파일을 관리한다. 마찬가지로, 예로서, 사용자는 단일 재지정 요구를 제공함으로써 파일이 전송된 프린터를 재지정할 수 있다.
파일 시스템의 레벨에서 앱스트랙트 카테고리를 사용하는 개념은 CVM 오퍼레이팅 시스템에 의해 사용가능해지거나 억세스할 수 있는 어떤 객체 및/또는 자원로 확장되는 것이 바람직함을 이해하여야 한다. 그러한 것으로서, 네트워크 및 분산 애플리케이션에서, 메타 정보 관리자(403)는 자원의 소유자/개발자 또는 자원의 과거 사용자/애플리케이션에 의해 한정된 비로컬 객체 또는 자원(예를 들면, 파일, 디렉토리, 디스크, 객체, 주변기기, 애플리케이션 등)에 관련된 다수의 메타 정보 카테고리를 관리할 수 있음을 이해하여야 한다. 실제로, 앱스트랙트 카테고리는 특정 자원이 로컬형인지 네트워크형인지에 독립적이고, 자원으로의 억세스 또는 접속을 통해서 자원은 앱스트랙트 카테고리에 등록되거나 새로운 앱스트랙트 카테고리를 형성할 수도 있음을 이해하여야 한다. 특히, 아직 억세스되지는 않았지만 억세스가능한 새로운 객체는 그의 메타 정보를 등록해야 하고, 이 등록 프로세스는 머신이 그 객체에 접속될 때 국부적으로 발생할 수 있고, 이것이 자체, 자체 내용 또는 자체 카테고리에 등록한 DNS 접근 또는 네임 공간 관리자에 유사한 서버일 수 있다. 이 프로토콜은 애플리케이션 또는 객체가 (예를 들면, ActiveX, 자바스크립트, 자바 애플릿, Vbscript를 통해서) 그 머신에 다운로드되거나 전송될 때 국부적으로 사용되므로, 애플리케이션에 의해서 이것의 앱스트랙트 카테고리를 자동적으로 등록/활성화시킬 수 있다. (전술한 바와 같은) 등록 프로토콜은 원격 시스템에 접속하거나 객체 또는 이것의 내용에 관련된 앱스트랙트 카테고리의 리스트를 업데이트하는 메타 정보 서버(DNS 서버 또는 네임 공간 관리자와 유사함)를 통해서 비로컬 객체에 관련한 새로운 카테고리를 자동적으로 형성하도록 활용된다. 자체 등록 메카니즘에 의해서, 네트워크로부터 다운로드되거나 네트워크에 전송된 새로운 객체는 그의 관련된 메타 정보와 통신하고 그 동일 프로토콜을 사용하여 국부적으로 등록할 수 있다. 이중 링크된 리스트 및 저장소는 플랫폼 리스트에 부가될 수 있다. 자원이 새로운 카테고리를 등록할 때마다, 새로운 카테고리는 이 자원에 관련된 것으로서 지시된다. 자원이 삭제될 때에는 대응하는 카테고리도 제거된다.
로컬 객체에 관련된 메타 정보와 같이, 앱스트랙트 메타 정보는 네트워크의 비로컬 엘리먼트를 숏컷하거나 자동적으로 추출하거나 처리하는데 사용될 수 있다. 이들 자원은 활성 앱스트랙트 카테고리 또는 등록된 자원 세트 내에 적어도 잠시동안 기억되어야 한다. 원격으로 억세스가능한 각각의 비로컬 객체 또는 자원은 카테고리 정의 및 관련된 기능을 지시하거나 이들을 적절한 클래스에 등록함으로써 이들 다른 카테고리에 관련될 수 있다.
예를 들면, 이것은 watson.ibm.com 인트라넷의 일부인 모든 자원 또는 방문한 모든 프린터 자원 또는 모든 재무 홈 페이지를 "왓슨" 자원이라 칭하는 것이 가능해진다. 현재, 종래의 브라우저(또는 뷰어)에 의하면, 페이지 또는 파일에 대한 URL은 저장된 다음, 사용자에 의해 수동으로 분류될 수 있다. 본 출원인에 의한 방법의 결과로서, 앱스트랙트 카테고리는 헤더 포맷 또는 HTML 내(예를 들면, 현재의 HTML 명세에 의해서 지정된 코멘트 필드 내 또는 적합한 메타 태그 내 또는 추가 대화형 프로토콜 핸드셰이크로 인해)에 초기에 포함된 다른 메타 정보에 기초하여 자동적으로 생성되거나 신청될 수 있다. 그러므로, 북마크는 억세스되거나 추가될 때 자동적으로 카테고리가 분류될 수 있다.
메타 정보 관리자(403) 및 저장소는 대화형 상호작용으로 알려져 있지만 현재 대화의 레벨에서 사용될 수 없다고 가정되는 모든 정보를 수집한다. 예로는 선험적 지식(즉, 문화적 교육적 가설)과 지속적 정보(즉, 과거의 요구, 조회, 사용자 정보, 애플리케이션, 뉴스 등)가 있다. 이것은 통상, 대화형 히스토리/콘텍스트의 길이/라이프를 벗어나 유지되고 보존할 필요가 있는 정보 및 대화에 필요한 공통의 지식이라고 기대되는 정보이므로, 현재의 대화형 상호작용 및 있을 수 있는 과거의 대화 상호작용시에 한정되지 않는다.
데이타 스트림 프로세싱의 균일성은 메타 정보를 통한 앱스트랙트 카테고리 분류를 간단히 하기 위한 중요한 방식이고, 로컬형 또는 네트워크형 자원 뿐만 아니라 유사한 앱스트랙트 카테고리, 파일, 객체, 애플리케이션하에서의 카테고리 분류를 가능하게 한다.
이하, 입력 및 출력 데이타 스트림의 처리에 있어서 CVM(401)의 작업 디스패처/콘트롤러(402), 다이알로그 콘트롤러(404) 및 콘텍스트 스택(405)간의 상호작용에 대해 더 상세히 설명한다. 본 발명은 (다수 도메인을 갖는) 다수의 작업간에 분류되는 콘텍스트 및 혼합식 이니셔티브를 갖는 NLU 인터페이스를 제공함을 이해하여야 한다. 보다 구체적으로, 본 발명은 다수의 도메인을 갖는 다수의 애플리케이션간에 NLU, NLG 및 혼합식 이니셔티브로 자연스런 다이알로그를 행할 수 있는 능력을 제공한다. 이것에 관해, 각 애플리케이션은 CVM(401)에 자체 파싱 및 번역 아규먼트를 제공할 것이다. 더욱 상세히 후술하는 바와 같이, NLU 엔진(410)은 순차적(파일링 형성)이거나 동시에(예를 들면, 절차형 스레드 또는 동시식 대화 객체/절차 또는 동시식 형태)로 질의를 태그할 수 있다. 불명료하지 않은 질의를 발생함으로써 다이알로그를 완성시키는 최초의 작업은 실행되고, 다른 애플리케이션에 의해 번역된 대응하는 질의는 사용자가 그 인식된 질의를 거부하는 경우에 활성화시키기 위해서 저장된다.
대화형 바이오매트릭스를 이용해서 사용자의 콘텍스트 및 메타 정보를 수집하여, 사용자 취향의 목적에 맞추거나 적응하거나 질의를 위임할 수 있을 뿐만 아니라 그 정보를 사용하여 더 강건한 인식을 실행할 수 있음을 이해하여야 한다. 따라서, 정보는 사용자를 인식하기 위해 축적될 수 있다. 즉, 질의의 일반적인 구절화(phrasing), 구절화된 형태의 질의, 명령 빈도수(자주 사용함, 자주 사용하지 않음), 양호한 애플리케이션, 시간 또는 용도 등이 있다. 대화형 바이오메트릭스는 공동으로 양도되고 본 명세서에서 참조 문헌으로 합체되어 있고, 발명의 명칭이 "Apparatus and Methods for Speaker Verification/Identification/Classification Employing Non-Acoustic and/or Acoustic Models(비음향 및/또는 음향 모델을 사용하는 화자 검사/확인/분류용 장치 및 방법)"인 미국 특허 제5,897,616에 설명된 방법을 사용하여 구축될 수 있다.
이제 도 6을 참조하면, 도면은 본 발명의 한 실시예에 따른 대화형 입력/출력 인터페이스를 도시한다. 도시한 바와 같이, 본 발명의 실시예에 따른 대화형 입력 인터페이스는 자연스런 인터페이스를 포함하여, 전화기(600), 키보드(601), 포인팅 장치(602), 핸드라이팅 장치(603)를 통해서 멀티 모델 입력, 즉 파일/스트림/자원을 음성으로 처리할 수 있다. 이것은 모든 모드에서 일어나는 모든 입력 및 출력 이벤트를 취하여 다이알로그 관리자(이 관리자는 이 입출력 이벤트를 콘텍스트 스택에 적절히 저장한다)로 전송한다는 것을 의미한다. 음성 클라이언트[예를 들면, 전화기(600)]로부터의 구두 입력은 음성 인식 프로세스(604)에 종속되고, 다른 입력(예를 들면, 키보드, 마우스 클릭 등)은 NLU 프로세싱(605)에 종속된다. 각 입력은 속성 획득(401a)에 종속되고, 그것에 의해서, 속성값 n-더블이 입력으로부터 획득된다. 요약화 프로세스(401b)는 실행되어, 속성값 n-더블이 콘텍스트에 추가된 다음 질의가 완성, 미완성 또는 불명료한지를 백엔드 애플리케이션(608)의 신택스로 인증한다. 또, 백엔드 억세스는 다이알로그 관리자 또는 콘텍스트 관리자에 의해 추적된다. 경우에 따라서는, 백엔드에 일부 명료성 능력(다이알로그 관리자의 특징)을 로드함으로써 "지능"의 일부를 백엔드에 분산시키는 것도 가능하다. 개별적으로, 각 입력 스트림은 종래와 같이 행동한다. 중요한 대화의 형태는 명령이 (입력 질의의 자연 언어적 이해를 제공하기 위한) NLU에 진입되거나, (자유로운 자연스런 입력과는 반대로 규칙, 즉 문법과 어휘에 따라 입력이 구속받는 경우에는) FSG 모드에 진입될 수 있는 입력 절차에서 존재한다. 명령 또는 질의는 누락된 필드를 완성함으로써 또는 활성 작업에 관한 부정확한 필드를 보정함으로써 완성 또는 보정될 수 있다. 이와 같은 것으로서, CVM은 종래의 OS에 충족하지 않는 새로운 이슈, 즉 입력에 불명료성이 발생하는 통합 예정의 동시 입력 스트림을 도입한다. 예를 들면, 입력은 이제, 재지정 스트림으로부터의 가능한 입력은 말할 것도 없고 키보드를 통해서 키인(key in)된 입력, 수기 입력 및 음성 입력과 결합될 수 있다. 그러므로, 본 발명은 불명료성을 해결하기 위한 메카니즘을 제공한다. 이것은 상기 합체된 미국 특허 출원 번호 60/128,081에 설명된 바와 같이 실행될 수 있다.
본 발명에 따르면, 입력의 문제는 다수 디코더의 출력의 통합, ASCII 전사 또는 속성값 n-더블의 리스트로서 처리된다. 각 입력 스트림은 ASCII 전사로 전환되고, 음성 인식 프로세싱(604)을 통해서 입력 타임마크와 함께 정렬된다. 다른 입력 스트림이 동일 작업에 관련될 때, 전사는 다음과 같이 통합된다. 첫째, 명령 및 질의는 타임마크에 기초하여 분류되고, 단일 데이타 스트림에 부가된다. 명령 공식화는 FSG 법칙과 대조하여 체크되고, 문법 규칙을 만족하도록 재분류된다. NLU 질의는 반드시 재분류를 필요로 하지는 않는다. NLU 질의시에는, 각 스트림마다 심볼 필드가 채워진 다음, 최종 입력 스트림의 레벨에서 혼합된다. 스펠링 및 문자숫자식 코드와 같은 아규먼트는 순서 불명료성을 해결하도록 문법 법칙 또는 NLU를 이용하지 않는다. 타임마크는 유일한 스트림을 세우도록 유사하게 사용된다. 그러나, 입력은 확인을 위해 사용자에게 피드백되어 애플리케이션에 따라 달라지는 사전 또는 FSG 규정집을 사용하여 미리 필터링할 수 있다.
네트워크 기반의 상호작용의 경우에는 전술한 바와 같이, 각 머신은 네트워크에서 다른 장치의 작업 디스패처/콘트롤러에 등록하고, 이것의 대화 능력에 대한 정보를 제공한다. 즉, 일반적인 데스크탑은 충분한 대화 능력을 등록할 수 있지만, 전화는 디스플레이없는, 키보드 없는, 펜 없는, 포인터없는 장치로서 등록(스마트폰)하거나 그의 서버를 등록시키고(일반전화), PDA는 모노 윈도우 장치 등으로서 등록할 수 있다. 시스템간에는 관련된 입력만이 교환된다.
요약하면, 입력 절차는 ASCII 명령, 질의 또는 속성값 n-더블의 리스트로 각각 전사된 멀티 모델 입력 스트림들의 세트를 제공한다. 각 입력 실체[명령, NLU 질의 필드 또는 아규먼트 유닛(고립 문자, 워드 등)]은 타임마크에 관련되고, 따라서 합성된 입력 스트림에 부가된다. 2개 이상의 스트림이 정확히 동일 타임마크를 가질 경우, 이들 스트림에는 각 입력 스트림이 이전에 분배된 시기에 기초하여 우선 순위가 부여된다. 합성된 입력은 가능한 FSG 및 사전과 대조하여 체크되고, 선택사양으로 사용자에게 피드백된다. 각 자원은 그들의 대화 능력을 교환하고, 입력 스트림은 관련된 정보를 단지 교환하도록 맞추어진다.
대화형 출력 디스패처 및 인터페이스에 대해, CVM(401)은 파일/스트림/자원에 대한 출력, 디스플레이(단일 또는 다수 윈도우, GUI, 칼라, 이미지, 영화), 오디오를 생성시킨다. 개별적으로, 각 출력 스트림은 종래에 따라 행동한다. 그러나, 콘텍스트 스택(405) 및 작업 디스패처/콘트롤러(402)에 따라, 다수 프로세스의 출력은 동일 출력 스트림(예를 들면, 텍스트 모드에서의 동일 디스플레이 또는 음성 분석기)에 동시에 충돌할 수 있다. 또, 한 개의 작업의 출력은 몇몇 출력 스트림간에 다중화될 수 있다.
각 출력 스트림은 종래방식으로 행동할 수 있다. 대안으로, 출력은 작업의 출력 또는 다이알로그 프로세스(예를 들면, 지정된 다이알로그 또는 혼합식 이니셔티브)에서 발생된 출력 중 하나일 수 있다. 출력 스트림의 카테고리는 여러 가지가 존재한다. 예를 들면, 모노 채널 출력[예를 들면, 더미 터미널(VT100 또는 팜 파일럿 스크린) 또는 오디오 전용 출력]의 경우에는, 이 자원을 사용하는 모든 출력 메시지는 동일 채널을 사용한다(또는 때때로 하나의 동일 채널을 공유한다)(예를 들면, 음성 출력, 고유의 윈도우/스크린 및/또는 텍스트 출력). 다수 채널 출력의 경우에는, 각 작업(예를 들면 윈도우즈 GUI)의 출력마다 독립된 채널이 존재한다. 모노 채널 자원에 대한 다수 작업의 출력 스트림들은 콘텍스트 스택(405)과, 작업 디스패처(402)에 의해 할당된 우선 순위에 기초하여 큐잉 처리된다. 사용자에게 모노 채널 출력이 제공되면 그 이벤트가 활성화되어 콘텍스트 스택의 상단에 기록된다. 다중 채널의 출력들은 우선 순위가 부여되지 않고, 콘텍스트 스택의 상단에 팝업시키는 작업 없이 비동기식으로 업데이트된다.
각 작업에서 생기는 출력들은 사용자가 수정할 수 있는 작업에 따라 배정된 출력 취급에 기초하여 다수의 출력 스트림으로 다중화될 수 있음을 이해하여야 한다. 네트워크형 기반의 상호작용에서는, 각 머신은 대화 능력에 관한 정보를 제공하기 위해서 네트워크 안에 연결된 다른 장치의 작업 디스패처/콘트롤러에 등록될 것이다. 예를 들면, 전술한 바와 같이, 일반적인 데스크탑은 충분한 대화 능력을 등록할 것이다. 전화기는 (스마트 폰인 경우에는) 자신을 등록할 것이고, (일반 전화기인 경우에는) 디스플레이없고 키보드없고 펜없고 포인터없는 장치로서 자신의 서버를 등록시킬 것이다. 또한, PDA는 모노 윈도우 장치(예를 들면, 팜 파일럿) 등으로서 등록할 것이다. 관련된 출력만이 시스템들간에 교환된다.
모든 출력, 특히 음성 출력은 사용자에 의해 맞춤화되고 프로그램될 수 있음을 이해하여야 한다. 텍스트 디스플레이에서 폰트를 선택할 수 있는 것과 같이, 출력 소리를 내는 음성도 선택 가능하다. 이 경우, 사용자는 음성 폰트로 말하는 것이 된다. 더 복잡한 대화 표현은 대화 포맷팅 언어를 사용하여 준비된다. 요약하면, CVM(401)은 다중화된 경우에도, 각 입력 스트림에 배정된 자원을 재지정하거나 변경하는 메카니즘 뿐만 아니라 콘텍스트 스택(405) 및 작업 디스패처(402)에 기초하여 다수 작업의 출력을 모노 채널 출력에 큐잉 처리하는 메카니즘을 제공한다. 각 자원은 자신들의 대화 능력을 교환하고, 출력 스트림은 출력 음성 폰트의 선택, GUI 이벤트를 포함하는 대화 표현의 포맷팅 및 다른 오디오 콘텐츠를 비롯한 관련 정보를 교환하는데 지나지 않도록 맞춤화된다.
이제, CVM(401)에 의한 입력/출력 처리에 대해 더 상세히 설명한다. 전술한 바와 같이, CVM(401)는 다양한 활성화를 적절하게 구성하여야 한다. 예를 들면, 기본 시스템 호출들은 상이한 서브시스템들에 연계된 복수 개의 액션을 생성해야 한다. 이러한 액션은 작업을 실행하는 것, 새로운 입력을 청취하는 것, 및 출력/피드백을 생성하는 것을 포함한다. 예로써, 작업 디스패처/콘트롤러(402)는 활성화 콘텍스트를 확인하고 질의를 완성하도록 다이알로그 콘트롤러(404)에 대한 질의에 작동하여 활성 콘텍스트를 식별하고 그 질의를 완성하여야 하는 상이한 통계적 파서(parser)를, 콘텍스트 스택(405)에 기초하여 결정할 것이다. 이들 액션에는 적절히 우선 순위가 부여되어야 하며, 이 우선 순위는, 예를 들면 완성된 질의를 실행하고 콘텍스트 스택(405)을 업데이트하고, 완성되지 않거나 불명료한 질의/명령을 사용자에게 피드백시키고, 새로운 입력이 디코드되어 콘텍스트 스택(405)에서 실행될 수 있게 하고, 실행된 프로세스 또는 작용중인 프로세스의 출력을 반송시키도록 부여된다.
작업 디스패처/콘트롤러(402)는 대화 아규먼트를 이용하여 각 작업 또는 장치를 대화형 엔진에 관련시킨다. 애플리케이션 또는 장치당 한 개의 엔진이 있는 경우에는, 각 애플리케이션 또는 장치의 NLU 엔진은 병렬식(절차적 스레드) 또는 직렬식[폼 필링(form filling)]될 수 있다(전술한 바와 같음). 다수의 장치/애플리케이션이 동일 엔진을 공유하고 있는 경우에는, NLU 엔진은 절차적 스레드와 병렬로 되어 있어야 한다. 거부 또는 새로운 질의의 가능성은 대화 아규먼트에 기초하여 활성화된 각 작업에 의해 관리된다. 질의가 거부되거나 너무 부적절하면, 다이알로그 콘트롤러(404)는 사용가능한 다음 콘텍스트를 조사하기 위해 콘텍스트 스택(405)을 훑어 내려간다. 활성 작업의 각 액션, 완성된 질의 및 대화 아규먼트와, 되돌아 온 각 값/결과는 콘텍스트 스택(405)에 저장된다. 또, 되돌아 온 값과 결과는 적절한 시기에 과거의 콘텍스트를 활성화시킨다.
작업 디스패처/콘트롤러(402)는 각 명령/프로세스를 복수 개의 액션으로 나누고, 적절한 우선 순위를 갖는 해당 스레드/프로세스를 개시하며, 이 해당 스레드/프로세스를 콘텍스트 스택(405)에 관련/삽입시킨다. 작업 디스패처(402)는 각 자원을 할당하고 이들을 생성된 다른 액션들간에 공유시키며, 자원에 관련된 취급 및 스트림을 제어한다. 모드(포인터, 키보드, 파일, 음성)에 기초하여, 작업 디스패처(402)는 스트림을, 음성 입력이 전사되고/이해되는 적절한 대화형 서브시스템 또는 종래 서브시스템에 재지정한다. 이들 서브시스템의 출력은 활성 질의를 추출하고 이것을 완성하기 위해 콘텍스트 스택(405)에서 수행해 내려간다. 한편, 출력들은 각 작업의 우선 순위 레벨에 기초하여 큐잉 처리되고, 그 순서대로 출력 자원에 디스패치된다.
각 새로운 (활성) 작업/프로세스/스레드는 활성화된 담화가 있든 없든 콘텍스트 스택(405)에 새로운 스택 엔트리를 생성시킨다. 콘텍스트 스택(405)은 사용자로부터 새로운 입력이 있으면, 입력 콘텍스트가 적절하게 달성될 때까지 콘텍스트 스택(405)을 가로질러 검색할 수 있도록 머신 상태 스택과 관련되어 있다. 이것은 근본적으로 최근의 담화와 과거의 담화 중에서, 경우에 따라서는 히스토리를 거슬러 올라가 사용자와 머신간의 활성 담화를 찾아서 선택하는 것과 마찬가지이다. 이제, 이 선택 프로세스에 대해 더 상세히 설명한다. 추가로, 각 작업은 혼합식 이니셔티브층에 관계된다. 이 층은 종래 오퍼레이팅 시스템에서 명령 라인의 사용 정보에 대한 대화형 등가물만큼 간단할 수 있다. 다이알로그 콘트롤러(404)는 우선, 명령 질의의 신택스 레벨에서의 완성도 또는 불명료성에 대해서 사용자 명령 질의를 체크할 것이다. 미완성이거나 불명료한 것처럼 보이는 명령은 마찬가지로 (촛점이 되고 있는 애플리케이션의 최상위) 우선 순위 레벨에 따라 적절한 대화형 엔진(407)으로 반송되고, 이 대화형 엔진(407)은 누락 정보 또는 불명료한 정보에 대한 요구(프롬프트)를 생성하여 콘텍스트(요구된 누락 필드)를 업데이트할 것이다. 또, 이 프롬프트(예를 들면, 레거시 애플리케이션)을 더욱 양호하게 정형화할 수 없을 때에는 그 요구가 미완성이고 불명료하다는 것도 간단히 언급할 수 있다.
한편, 완성되었지만 불명료한 명령은 소정의 결과(예를 들면, 출력 또는 액션)를 발생시킬 것이다. 이들 결과는 마찬가지로, 종래의 시스템에서와 같이 사용자에 의해서 재지정되지 않는다면, 우선 순위 레벨에 따라 적절한 대화형 엔진(407)으로 되돌려져 콘텍스트를 업데이트한다. 그러나, 재지정은 결과를 재지정하는 동안에 부분적인 혼합식 이니셔티브 통지를 포함할 수 있을 때 더욱 복잡할 수 있다. 더 상세히 후술하는 바와 같이, 이것은, 예를 들면 대화형 보조장치로 구현될 수 있다. 이것은 종래 시스템으로 달성하기에는 극히 복잡하고, 경우에 따라서는 출력을 특수하게 기록된 스크립트에 재지정시키는 것을 필요로 할 수도 있다. 또, 명령은 사용자 취향으로부터 발생한 취향/세팅, CVM 플랫폼 또는 애플리케이션에 기초한 실행 이전에 사용자의 확인 응답(confirmation)을 필요로 할 수도 있다.
활성 콘텍스트에 대한 완성/검색은 스택 아래방향으로 한 콘텍스트씩 수행된다. 즉, 새로운 질의 또는 아규먼트는 다이알로그 엔진에 의해 비교되며, 그 비교는 수용가능한 일치가 얻어지고 또한 옵션에 따라서는 사용자로부터 확인 응답이 얻어질 때까지 스택 아래방향으로 진행하는 방식으로 행해진다. NLU 심볼 언어 레벨의 발성음에 적합한 콘텍스트가 발견되자마자, 콘텍스트는 활성으로 되고, 대응하는 프로세스도 활성으로 된다. 활성 명령이 완성될 때까지 또는 새로운 명령이 제공될 때까지, 그 선택된 콘텍스트는 활성으로 마크되어 콘텍스트 스택(405)의 상단에 삽입된다. 어떤 메시지가 사용자에게 되돌려지면(반송되면), 콘텍스트는 업데이트되고, 이어서, 활성 콘텍스트하에서 콘텍스트 스택(405)의 상단에 삽입된다. 활성 콘텍스트는 반송된 값의 존재를 통지하기 위해 업데이트된다. 또, 이것은 스택을 아래방향으로 검사하기 전에 대체의 CVM 세션 담화(이것은 스택 내에 있을 수도 있고 항상 스택 밖에 있을 수도 있으며 활성 콘텍스트 직후에 검색됨)의 레벨에서 행해지는 것도 가능하다. 작업들이 동시에 완성되면 활성 콘텍스트하에서 CVM 우선 순위(예를 들면, FIFO 또는 FILO)에 따라 정렬된 콘텍스트가 생긴다. 작업을 형성할만큼 충분히 완성된 활성 콘텍스트는 스택에서 다음 콘텍스트 또는 반송된 모든 콘텍스트보다 아래쪽에 삽입될 것이다. 그렇게 하지 않으면 이것은 활성 담화가 될 수 있다. 이것은 자동으로 행해질 수도 있고 사용자의 명령이 있을 때 행해질 수도 있다. 이러한 스택 구조에 의해서, 다수의 작업, 스레드 또는 프로세스와의 대화 상호작용은 불명료하지 않게 유지될 수 있다.
이 요구가 완성되면, 예를 들어 철회할 수 없는 경우에, 계류중인 있을 수 있는 사용자 확인응답 요구가 실행될 것이다. 그렇지 않은 경우에는, 혼합식 이니셔티브가 사용되어, 그 완성을 지속시키거나 질의/명령을 정정한다. 명령/요구가 진척될 때마다, 사용자에 의한 담화 거부용 콘텍스트에 옵션이 열린다. 이것은 이전 스택 스테이터스(및 프로그램 스테이터스)를 복원하고 스택을 아래방향으로 훑어 내려가는 것을 의미할 것이다. 사용자는 스택을 다시 윗방향으로 검사해 올라가는 것을 명시적으로 요구해야 할 것이다. 실행 또는 사용자에게의 실행 통지 이전에 사용자가 입력을 거부하거나 즉시 완료하면, 그 새로운 입력은 활성 발성음에 첨부되고, 검색은 스택의 상단에서부터 재개된다. 활성 콘텍스트가 확립되기 전에 사용자가 제공하는 다른 어떤 발성음은 버퍼에 저장되고, 활성 발성음(음성 발성음 또는 다른 어떤 입력 모드)에 첨부된 것으로 간주된다. 콘텍스트 스택은 음성, 키보드, 마우스 또는 다른 어떤 입력 또는 명령 및 애플리케이션 출력에 따라서 업데이트된다.
본 발명에 따라 CVM(401)이 제공하는 특히 유용한 특징(feature)은 "대화 메모리화(conversational memorization)"이다. 대화형 메모리화는 사용자, 플랫폼 또는 특정한 애플리케이션 중 하나에 의해 할당된 콘텍스트를 지연시켜서 작업에 되돌려주는 능력이다. 일반적으로, 사용자가 개시하는 인스트럭션/명령은 명백히 시스템의 백그라운드로 전송된다. 이 명령은 데몬 또는 에이전트가 배정된 일부 특정 작업 또는 기능을 론칭하는 것(launching daemons or agents assigned some specific task or functions)을 포함할 수 있다. 또, 이 명령은 메모리화를 포함할 수 있으며, 이 메모리화에 의해서, CVM은 명령 또는 이벤트를 "인지"하고 이것을 보고하거나, 이것을 실행하여 사용자에 의해서 또는 디폴트값으로 선택된 특정 시기에(예를 들면, 세션 종료시에) 사용자에게 되돌려준다. 그러므로, 출력 또는 백그라운드 작업은 후속 시기에 그들의 결과를 표시하도록 재지정될 수 있다. 이어서, 종래 에이전트가 활성화된다. 종래의 백그라운드 작업과 에이전트의 차이에서, 그에 대한 리마인더(reminder) 또는 결과가 사용자에게 반송되면, 메모리화 요구 순간의 대화 콘텍스트는 복원된다. 메모리화의 발생 시에는, 콘텍스트 스택(405)의 스냅샷이 만들어져서, 메모리화된 작업에 관련된 메타 정보로서 저장된다. 콘텍스트 스택(405)은 메모리화된 작업이 사용자와 상호작용하는 시기에 재배열된다. 현재의 콘텍스트 스택이 저장되고, 오래된 콘텍스트 스택은 콘텍스트 스택의 상단에 추가된다. 이 때, 작업의 론칭과 작업의 완성 사이에 콘텍스트와 다이알로그의 진전으로 인한 중간 변경에 기초하여 사용자 또는 애플리케이션 개발자가 프로그램한대로 또는 CVM이 지정한대로 업데이트가 행해질 수 있다. 사용자와 메모리화된 작업의 상호작용이 이전 콘텍스트에 되돌려짐으로써 완료되면, 상기 이전 콘텍스트 스택은 스택의 상단에 추가된다. 콘텍스트 스택이 추가되면, 스택의 하단에서 중첩 부분이 제거될 수 있다. 사용자, 플랫폼 또는 애플리케이션은 스택의 저장 부분을 유지하는 것에 대해서만 결정할 수 있다. 대화 보조 장치는 이러한 작업을 수행한다. 대화 보조 장치는 에이전트와 데몬이 그들 자신 상에서 단순히 실행하고 출력 발생 시에만 사용자와 다시 상호작용함으로써 구현될 수 있다. 이들의 출력은 작업의 우선 순위 레벨에 따라 사용자에게 전송된다. 활성화되는 경우에는, 사용자는 에이전트에 관련된 작업을 쉽게 업데이트할 수 있다. 대화형 메모리화는, 스택의 하단에서 삽입되고 스택이 세션 종료 시에 비어 있는 경우에만 실행되는 작업이라고 할 수 있다. 때로는, 이것은 스택 안에서 더욱 높은 위치에 삽입될 수도 있고 예정된 순간에 스택의 상단에 밀어넣어질 수도 있다. 메모리화 작업은 활성 상태에서만 실행된다. 메모리화의 특징은 과거의 액션, 취향 및 인스트럭션을 메모리화하는 능력을 제공하는 것이다.
전술한 바와 같이, 메모리화는 리마인더에 관련된 대화를 복원하기 위해 활성 콘텍스트에 대해서 스냅샷을 저장한다. 그러나, 그 순간에 사용자에 대한 대화와 콘텍스트를 요약할 수 있는 것도 역시 중요하다. 이것을 수행하기 위해서, 애플리케이션의 개발자(및/또는 CVM 플랫폼에 의해 취해진 사용자 취향 또는 소정의 결정)는 요약되어 표시되어야 하는 필드(즉, 속성 항목)를, 이 필드가 채워져 있다면 사용자에게 제공할 수 있다. 이것은 시스템의 각 변수/속성에 관련된 메타 정보에 여분의 필드로서 기억된다. 전형적으로, 애플리케이션 개발자는 각 필드가 그의 실제 변수명 또는 속성 호칭 대신에 어떻게 (사용가능한 앱스트랙트 이름으로) 어드레스되는지도 역시 기술할 수 있다. 이어서, 요약화는 애플리케이션에 의한 결정(애플리케이션의 재활성화)시에, 또는 사용자의 질의에 의해 또는 CVM에 의해 활성화될 수 있다. 요약화는 활성 프로세스를 검색하고, 콘텍스트를 복원하며, "질의에 관련된 속성 n-더블의 기록 스테이터스"를 요약할 것이다. 요약화 작업은 다른 어떤 애플리케이션과도 친숙한 CVM의 서비스이며, 이것에 의해서, 사용자는 더욱 상세한 내용을 얻거나 요약을 위해서 시간상 더 후진하도록 요약화 애플리케이션(summarization application)과 다이알로그할 수 있다. 이것은 "애플리케이션 X로 되돌아가라"고 말하거나 "Y를 실행하라는 말씀이시군요"라고 말하면 될 정도로 간단할 수도 있고, 다이알로그의 히스토리를 통해 더욱 상세하게 역추적할 정도로 매우 복잡할 수도 있다.
CVM(401)가 제공하는 다른 특징은 대화 재지정(conversational re-directions)이다. 유닉스 프로세스의 입력 및 출력을 재지정하는 것이 쉬운 것처럼, 예를 들면 대화 재지정도 동일한 기능을 수행한다. 그러나, 재지정은 스트림을 재지정하는 동안에 부분적 혼합식 이니셔티브 통지를 포함할 수 있기 때문에 더 복잡해질 수 있다. 대화형 호출을 사용하여, 우선 순위 레벨을 갖는 사용자에 대한 통지와 프로세스 결과간의 출력을 구별하는 것이 가능하다.
이 경우에도, 전술한 바와 같이, 메타 정보, 앱스트랙션 및 앱스트랙트 카테고리는 각 디스패치된 작업 및 프로세스에 관련되어, 작업을 특정하게 선택할 수 있다. 예를 들면, 하나의 대화 요구가 있는 경우(또는 키보드 상의 버튼을 누르거나 마우스를 클릭하거나 키를 제공함으로써), 사용자는 작업의 출력을 듣거나, 콘텍스트 스택 아래방향에 작업에 대한 입력(예를 들면, 마이크로폰)을 재요구하고 웨이브 파일 또는 ASCII 파일을 지정하여 입력 스트림에 첨부할 수 있다. 마찬가지로, 사용자는 단일 재지정 요구를 제공함으로써, 파일이 전송되는 프린터를 재지정할 수 있다.
옵션/취향의 구성, 시스템의 로드 또는 시스템의 능력에 기초하여, 작업 디스패처/콘트롤러(402)는 네트워크화된 프로세서에서 작업을 실행하도록 결정하거나, 다른 프로세서가 입력을 이해하기 위해서 사용되고 그 입력을 활성화하여 이해할 수 있을 때까지 일부 작업을 지연시키도록 결정하거나, 또는 이러한 작업을 수행할 수 있는 장치가 네트워크 상에서 이용가능한 시기를 결정할 수 있다. 전형적으로, 로우엔드형 핸드-헬드 장치에서의 지연된 구술지령은 이 모델을 따를 수 있을 것이다. 이 경우에도, 작업들은 그 작업에 대해서 메모리화되고, 서버측이 활성 상태에 있고 전사(transcription)를 수행할 수 있을 때까지 세션별로 메모리화된다. 유사하게, 로컬 머신과 서버 머신간의 공유 인터페이스는 작업 디스패처/콘트롤러(402)에 의해 관리될 수 있다. 예를 들면, 네임 다이알러 애플리케이션(name dialer application)이 대화식 스마트 폰에 추가될 수 있다. 자주 사용되는 이름(name)은 로컬로 기억되어 인식된다. 한편, 모르는 이름 또는 이전에 사용된 적이 없는 이름은 인식을 위해서 더욱 강력한 네트워크 머신으로 전송된 다음, 업데이트된 정보(전화 다이알 번호 등)를 다운로드한다. 유사하게, 로컬에 기억되어 있는 모든 정보는 전화 번호 정보를 업데이트하기 위해서 주기적으로 동기화될 수 있다. 이러한 로컬 대 서버 기반의 인식 프로세스는 작업 디스패처(402)에 의해 은폐된다. 네트워크에서 공유된 작업은 작업이 실행되는 머신과는 무관하게 몇 개의 담화로서 사용자에 의해 관리된다. 이것은 모든 트랜잭션에 대해서 모든 플랫폼에 걸쳐 균일한 CVM API를 사용하는 유용성의 일 예이다. 이것은 대화형 프로토콜을 사용하여 네트워크 장치들간의 대화 서비스를 조정하기 위한 방법 및 시스템으로서, 상기 합체된 IBM 문서 관리 번호 YO999-113P에 설명된 방법 및 시스템과 유사하다. 또, 클라이언트와 서버간의 분산 구조 및 분산 프로세싱은 대화형 네트워킹의 신규 요건으로 된다. 이러한 요건은 네트워크에서의 대화 상호작용에 참여하는 각 사용자에 대해서 적절한 다이알로그 흐름을 보장하도록 네트워크에 분산된 자원과 트래픽 흐름을 관리하는 것을 포함한다. IBM 문서 관리 번호 YO999-113P에 개시한 구성요소는 네트워크에서의 대화 상호작용[예를 들면, 다이알로그 흐름을 유지하기 위한 서버의 로드 관리, 작업, 특징 및 능력 요구 사항에 기초한 엔진 서버 선택 및 대화 아규먼트 유효성(데이타 파일)에 기초한 엔진 서버 선택, 대화형 프로토콜, 재생 등의 재구성을 가능하게 하는 피치를 갖는 코딩 프로토콜을 제공하는 오디오 Reco VC(인식의 호환이 가능한 VoCoder)]에 대해서 여기에서 채용될 수 있다.
작업 디스패처/콘트롤러(402)가 종래의 OS에 비해 근본적으로 새로운 디스패칭 동작을 제공하고, 이것은 CVM에 의해 여기에 설명한 방법으로 대화형 서브시스템과 종래 서브시스템을 공유하지 않는다는 것을 이해하여야 한다. 실제로, 종래 시스템의 경우, 텍스트 입력은 윈도우 내에서 항상 순차적이고, 오직 하나의 작업에만 관련된다. 여기에 설명한 바와 같은 대화 디스패칭 원리의 대부분을 사용하기 위해서는 고유의 윈도우 안에 표시된 텍스트와 키보드로 다수의 동시 작업을 처리하는 능력이 필요할 것이다. 작업 디스패처는 다이알로그 흐름을 유지하는 문제를 처리하므로, 네트워크 및 CPU의 로드로 인한 지연을 최소화한다. 작업 디스패처는 다이알로그의 지연이 수용가능한 수준까지 최소화되는 것을 보장하기 위해서 CPU 사이클 및 사용가능한 네트워크 루트 및 자원에 우선 순위를 부여할 것이다. 엔진에 병목현상이 생기는 경우에, 엔진은 더욱 많은 CPU 사이클[더욱 높은 우선 순위, 역행(backing)이 재흡입될 때까지]을 수신한다. 이 경우에도, 이것은 대화형 컴퓨팅에 관련된다. 네트워크 루트가 너무 느려지는 경우에는, 작업 디스패처는 지연을 최소화하기 위해 다른 루트 또는 다른 자원을 찾을 것이다. 한편, 작업 디스패처는 사용자에게 응답시에 있을 수 있는 지연을 경고할 것이다. 활성 다이알로그의 다이알로그 흐름은 CVM의 우선 순위이다. 접속된 모든 사용자의 활성 다이알로그에 대한 다이알로그 흐름 및 최소 지연은 네트워크에 있는 라우터 게이트웨이 및 서버 상의 CVM에 의해 최적화하는 기능이다.
대화형 CVM 시스템에 의해 제공되는 다른 특징은 "대화 보안"으로, 로컬 파일 또는 리모트 파일, 특히 실행가능한 파일의 저자 및/또는 변경자에 관한 메타 정보가 보안 목적으로 사용될 수 있다. 특히, 음성 기반의 대화형 시스템의 경우, 각 명령은 질의의 공식화 뿐만 아니라 사용자의 사용에 관한 인증에 대한 충분한 정보를 전달하기 때문에, 사용자를 식별하고 검증하기 위해서 텍스트-독립형의 화자 검증(text-independent speaker verification)이 사용될 수 있다. 이와 같이 하여, 제한된 자원에 대한 질의가 있을 때마다 그 제한된 자원에 관련된 보안 메타 정보에 기초하여 사용자의 자동(및 투명한) 인증이 이루어질 수 있다. 전술한 바와 같이, 사용자 질의 및 히스토리에 대해 수집된 모든 정보는 사용자의 인식(ID 또는 검증)에 기여하도록 사용될 수 있다.
인증은 요구시 바로 수행될 수도 있고, 질의 직전에 획득된 만기되지 않은 정보를 수행될 수도 있다. 특히, 파일 또는 애플리케이션에의 억세스에 대한 인증은 질의 단위로 수행될 수 있다. 예를 들면, 사용자가 제한된 서비스를 요구하는 경우, 그 요구는 그 특정 서비스를 억세스하도록 미리 인증된 사용자 세트에 대해 검증될 수 있다. 인증은 요구(예를 들면, 파일 억세스, 디렉토리 억세스, 애플리케이션 오프닝, 실행가능한 접속, 암호화/암호 해독, 디지탈 증명/서명)시에 실행된 오픈셋 화자 확인을 통해서 실행될 수 있다. 유사한 사용자에 관련된 다른 패스워드 또는 사용자 ID를 갖는 자원은 명백한 로그인 또는 패스워드 인증없이 심리스하게 억세스될 수 있다. 어떤 경우에는, 강요하지 않는 사용자 인증은 사용자 다이알로그를 통해 연속적으로 투명하게 실행될 수 있다.
대화형 VM이 음성 입력없이도 구현될 수 있다는 아이디어에 따라, 콘텍스트의 스택은 가장 최근에 인증된 식별자로서 사용자의 식별자를 포함할 수 있다. 또, 각 자원은 소정의 보안 요구(예를 들면, 비음성의 경우에서 최근 인증의 만기일) 뿐만 아니라 인증된 사용자의 리스트를 포함할 수 있다. 물론, 인증에 기초한 키 스트로크 또는 펜이 고려될 수도 있지만, 이것은 전혀 의무적인 것은 아니다.
또, 각 자원은 자원에 대한 억세스를 시도하는 각 사용자의 식별자를 로그/캐쉬할 수 있다. 그 다음, 이들 로그는 암호화되고, 이미 억세스된 자원에 대한 억세스 요구를 인식하는데 차후에 사용될 수 있다. 특히, 오퍼레이팅 시스템은 외부 소스로부터의 패스워드 요구를 가로채서, 사용자에 대해서 투백한 로그를 사용하여 요구를 완성할 수 있다. 새로운 자원은 로그인 프로세스조차도 사용자에 대해 완전히 투명해질 수 있도록 메타 정보를 등록하는 동안 로그인 요구를 전송할 수 있다. 이것은 단일 사인-온 또는 패스워드 볼트(vault) 개념의 확장이다.
CVM이 제공하는 다른 특징은 "대화 맞춤화"로, 각 작업 또는 자원에 대한 억세스는 사용자 요구의 취향에 개별적으로 맞추어질 수 있다. 예를 들면, CVM의 개성/행태(예를 들면, 합성된 음성-음성 폰트)은 식별된 사용자의 취향에 자동적으로 맞추어질 수 있다. 사용자가 CVM 사례를 명백하게 로그아웃(즉, 세션 종료)할 때까지, 맞춤 및 취향는 동결된다. 이러한 시스템 또는 애플리케이션은 멀티유저형이지만, 다음 로그인 때까지 모두에 대해서 1회에 한번만 한 사용자가 사용한다.
대화 보안에 대해 전술한 바와 같이, 사용자의 자동 식별은 자원에 대한 질의가 행해질 때마다 실행될 수 있다. 인증은 요구시 바로 수행되거나 질의 직전에 획득된 만기되지 않은 정보를 사용하여 수행될 수 있다. 작업 및 콘텍스트는 활성 사용자의 순서에 따라 우선 순위가 부여되고, 사용자의 변경시마다 우선 순위가 재부여된다. 환경 변수 및 취향은 전체 환경의 재설정을 요구하지 않고 사용자 식별자의 변경에 기초한 즉시 수정될 수 있다. 불명료성은 사용자 식별자를 사용하여 각 콘텍스트 또는 콘텍스트 스택의 레벨에서 해결될 수 있다. 분산형의 경우에는, 사용자 또는 서버의 변경시에, 콘텍스트는 이것이 콘텍스트를 클라이언트에서 서버로 로딩하는 것인지, 서버 상에 유지되어 있는 콘텍스트를 복원하는 것인지 또는 그 콘텍스트를 서버 사이를 전달하는 것인지에 관하여 업데이트되어야 한다.
대화형 VM은 다수 사용자의 취향과 활성 콘텍스트에 동적으로 적응할 수 있다. 이것은 활동적으로 동작하는 동안 다수 사용자를 허가할 수 있다. 음성 기반의 시스템에서, 각 명령은 텍스트독립형 화자 식별(text-independent speaker identification)을 수행하도록 사용될 수 있다. 어떤 사용자 변경은 새로운 활성 콘텍스트가 새로운 사용자 또는 활성 애플리케이션에 의해 명시적으로 포기되지 않으면 콘텍스트 스택 아래방향에 이전 콘텍스트를 밀어 넣는 새로운 활성 콘텍스트의 형성을 자동적으로 의미한다. 사용자 변경은 활성 사용자에 관련된 작업을 먼저 처리하기 위해 콘텍스트 스택을 따라서 우선 순위를 자동적으로 변경한다.
사용자의 식별자는 각 담화의 상황 하에서 관련되어 있을 수 있기 때문에, 명령의 불명료는 즉시 그리고 투명하게 해결될 수 있다(어머니로부터의 e-메일은 사용자와는 독립적으로 정확히 이해된다). 담화 및 관련된 애플리케이션의 소유자에 의해서 또는 일부 옵션에 의해서 포기되는 경우를 제외하고, 콘텍스트 스택(405)을 가로질러 검색하는 프로세스는 동일 사용자에 대해 관련된 담화에 의해 향상되는 이점이 있다. 콘텍스트 스택을 가로지르는 이 규칙에 대한 예외는 담화가 멀티유저(다수 사용자)로서 플래그되는 것을 자동적으로 암시할 수 있다. 대화 보안에 대해 전술한 바와 같이, 사용자의 식별자는 그 식별자의 사용자에 의한 수동 선택 또는 입력과 같은 대안의 절차를 통해 얻어질 수 있다. 또, 활성 사용자의 식별자 변경은 대화 보안 서브시스템에 충격을 준다. 각 자원은 그 자원을 억세스하는 사용자의 식별자를 로그할 수 있다.
요약하면, 대화하는 다수 사용자와 대화 보안에 대해, 다이알로그, 카테고리, 메타 정보 및 자원에 대한 억세스는 사용자의 식별자로서의 기능 및 이것에 관련된 메타 정보 히스토리가 될 수 있다는 것을 이해하여야 한다. 역으로, 사용자를 인식하기 위해서, 질의에 관하여 수집된 대화 정보가 사용될 수도 있다. 각 객체에 관련된 메타 정보는 각 액션 또는 억세스의 전후에 참고되고 업데이트될 수 있다. 객체가 생성되거나 수정되거나 참고되는 경우에, 메타 정보가 각 객체에 관련된 보안 필드와 취향 필드를 포함하도록 사용자에 대한 정보가 그의 메타 정보에 추가된다. 객체에 대한 억세스는 그의 내용, 생성일, 억세스 및 수정의 히스토리 및 다른 메타 정보에 기초를 두고 있다. 억세스는 사용자의 식별자에 기초하는 것은 물론, 날짜, 이용 히스토리, 열려 있는 애플리케이션 등과 같은 추가의 메타 정보에도 기초하여 제어되거나 구성된다. 다시 말하면, 어떤 파일이 열려서 스크린 상에 표시, 재생 또는 실행되면 한 개인이 그 파일을 억세스하는 것이 가능하다. 그러나, 그 파일의 내용을 다른 객체에 복사하려 한다면 그 개인은 억세스가 거부된다. 추가로, 객체에 소거 불가능하게 메타 정보가 첨부(태그)될 수 있다.
CVM이 제공하는 다른 특징은 "대화 검색"으로, 검색 능력은 파일명, 파일의 수정 또는 파일의 ASCII 내용에 기초를 두는 것은 물론, 오퍼레이팅 시스템, 애플리케이션 또는 사용자에 의해서 정의되는 앱스트랙트 카테고리와, 오퍼레이팅 시스템에 의해서 온라인 또는 오프라인으로 추출되거나, 객체가 억세스된 프로토콜을 통해서 얻어질 수 있는 토픽에도 기초를 둔다. 추가로, 콘텍스트에 의한 검색 능력은 활성 질의를 완성하거나 유사한 질의/콘텍스트를 추출하는 데에도 사용될 수 있다.
특히, 자원은 각 자원에 관련된 앱스트랙트 카테고리에 기초하여 검색될 수 있다. 이들 카테고리는 메타 정보 개념의 콘텍스트에서 전술한 바와 같이 또는 콘텍스트에 의한 관련성에 기초하여 정의될 수 있다. 전술한 바와 같이 디렉토리 안에 있는 모든 이미지의 검색은 비교적 간단하지만, "유사한 이미지"의 검색은 그 디렉토리 안에 있는 모든 이미지 중에서 이미지가 유사 콘텍스트(예를 들면, 현재 이미지를 편집하는데 사용된 애플리케이션에 유사하게 카테고리 분류된 자원에 의해서 열려 있거나 편집되거나 포함되어 있는 것 등)에 사용된 콘텍스트적 관련성에 의존한다. 이것은 각 자원/객체에의 억세스를 콘텍스트적으로 로그/캐쉬 처리함으로써 수행될 수 있다. 이제, 카테고리는 자신에 대한 메타 정보도 포함할 수 있다. 추가로, 카테고리 또는 콘텍스트 카테고리에 의해 검색하는 것은 물론, 사용자 억세스(및 종래 오퍼레이팅 시스템에서와 같이 수정하는 사용자의 식별자에 의해서는 아님)에 의해 검색하는 것도 가능하다.
결국, ASCII, 오디오 및 다른 전사가능한 미디어 세트는 워드 일부, 워드, 워드 토픽 또는 콘텍스트에 기초하여 검색될 수 있다. 토픽은 토픽 텍스트를 식별하는 능력을 포함한다. 콘텍스트 검색은 현재의 활성 질의/콘텍스트를 완성하기 위해서 활성 콘텍스트 또는 후보와 유사한 콘텍스트에 대한 텍스트를 검색하는 기능(능력)을 포함한다. 예를 들면, 어떤 주어진 "화요일"을 나타내는 모든 파일을 추출함에 있어서, 키워드 "화요일"을 명시적으로 검색하거나 실제 날짜, 즉 월요일에 "내일"을 언급하는 달력 상의 요일도 이 사항에 해당하는 것인 실제 날짜를 검색하더라도, 상기 주어진 "화요일"을 나타내는 모든 파일을 추출하는 것이 가능하다.
파일의 토픽 결정은 컴퓨터가 집중적으로 사용되지 않을 때 오프라인으로 행해질 수 있다. 새로운 파일 또는 최근에 수정된 파일만이 조사되어야 한다. 토픽은 각 자원에 관련된 메타 정보에 자동적으로 추가된다. 콘텍스트 정보는 당연히 항상 CPU에 매우 부담을 주는 작업이므로, 사용자의 명시적인 요구 시에만 행해져야 할 것이다. 외부 객체의 경우, 토픽은 자원이 (전술한 바와 같이) 억세스될 때 자동적으로 등록될 수 있다. 이것은 로컬 머신이 자신의 내부 앱스트랙션(그들 자신에 대한 메타 정보를 통해 정의됨)에 대한 객체를 검색하는 것도 방지하지는 않는다.
"대화 선택"이라고 하는 특징도 제공된다. 대화 선택의 능력은 기본적인 선택의 긴 시퀀스를 피하고, 자연스런 숏컷 및 선택의 정정을 제공하는 메타 정보, 앱스트랙션 및 대화 질의/혼합식 이니셔티브/정정에 의존함으로써 자원 관리자 레벨에서 또는 애플리케이션 내에서 제공된다. 억세스하고 계층 구조를 갖는 객체의 윤곽을 즉시 제공하기 위한 다양한 메카니즘이 제공된다.
특히, 대화 선택은 활성 작업 또는 애플리케이션 내부로부터 복잡한 질의 능력(다이알로그 기반의 선택)과 계층적 검색(앱스트랙션 기반의 선택)의 조합을 사용하여 본 발명에 따라 수행될 수 있다는 것을 이해하여야 한다. 대화 선택은 종래의 선택 방법보다 상당한 개선을 제공한다. 실제로, GUI 환경에서도, 주어진 애플리케이션 또는 질의에 대해 사용가능한 자원을 표시하는 것은 메타 정보 및 앱스트랙트 카테고리를 사용함으로써 크게 개선된다. 보다 구체적으로, (앱스트랙션과 숏컷을 사용하는) 앱스트랙션 기반의 대화 선택의 경우, 개인은 (IVR에서의) 음성 질의가 DTMF 인터페이스를 통해서 메뉴 페이지를 바이패스하는 방법과 유사한 방법으로 메뉴 및 계층 선택을 바이패스할 수 있다. 이것은 생산성 증가 면에서 대화 인터페이스가 제공하는 주요 장점 중 하나이다. 이것은 또한, 동일한 인터페이스가 (예를 들면, 데스크탑, PDA 또는 전화기를 통한) 서비스(예를 들면, 상기 합체된 IBM 문서 관리 번호 YO998-392P에 개시한 바와 같은 CML)에의 억세스에 사용되는 모델과는 독립적으로 사용된다는 점에서 인터페이스의 균일성을 나타내기도 한다.를 억세스하는데 사용된 형식과 독립적으로 사용된다.
예를 들면, 데이타베이스로부터 정보를 검색하고, 웹 브라우징을 위해서 그 정보(이 정보에는 JSAPI 확장자와 대화 확장자를 사용하여 구성된 대화 헤더가 제공됨)를 HTML 포맷으로 제공하는 백엔드 서버를 고려해 본다. 서버가 대화형 브라우저 모델을 통해 억세스되는 경우, 개인은 그 정보를 표시하고 포인팅함으로써 또는 말을 함으로써 원하는 정보를 선택할 수 있다. 그 개인이 전화기 모델을 통해 서버에 억세스하는 경우, 사용자 선택은 URL과 앵커(anchor)를 포함하는 내비게이션 메뉴를 통해 수행될 수 있다. 이들 내비게이션 메뉴는 웹 페이지가 대화 HTML을 통해 브라우저에 전송하는 메타 정보로부터 발생된다.
이러한 모든 경우에, 웹 페이지 또는 파일 시스템, 또는 모든 객체의 다른 계층 구조 및 자원을 통한 선택에 의해서 내비게이션에 사용되는 메뉴는 여러가지 보완 방법 중 하나로 적절히 제공될 수 있다. 예를 들면, 네트워크화된 객체의 등록 순간에, 메뉴는 그의 구조에 대한 메타 정보를 전송할 수 있다. 또, 이 시스템은 그 구조의 각 구조 객체(윤곽)에 관련지어지는 메타 정보에서 트랙을 국부적으로 유지시킬 수 있다(대화 구조 윤곽은 IBM 문서 관리 번호 YO999-114P에 상세히 기재되고, "일반 계층 객체를 통한 효율적인 음성 내비게이션에 대한 구조 윤곽"이라는 명칭으로 특허 출원되었다). 또, 이 시스템은 CPU의 오프 피크 사용 동안, 그의 윤곽 정보를 주기적으로 업데이트할 수 있다.
이 시스템은 임의의 로컬 또는 외부 자원 및 계층 객체를 주기적으로 거미줄처럼 확장할 수 있다. 대안으로, 특정한 다이알로그 구조에서는, 각 시스템은 억세스할 수 있는 자원에 가입할 수 있고, 주기적으로 또는 억세스할 때에는, 윤곽 메타 정보를 업데이트할 수 있다. 또, 메타 정보 서버는 거미줄식 확장을 수행하고 메타 정보와 함께 윤곽 정보를 제공할 수 있다.
이 메타 정보는 사용될 필요가 있는 어휘, FSG 및 NLU를 메뉴(TTS)에 제공하는 방법을 기술한다. 또, 혼합식 이니셔티브 및 NLU는 백트래킹 또는, 종래의 OS 기반의 선택 및 GUI 기반의 선택에 의해 부과되는 것과 같은 전혀 새로운 선택을 필요로 하지 않고 선택을 정정하는데 사용될 수 있다.
그러므로, 대화 검색 및 선택의 경우, 객체는 (디렉토리를 가진 파일 시스템과 같은) 종래의 구조를 기초로 하여, 또 메타 정보, 플랫폼 애플리케이션 또는 사용자에 의해 객체에 관련된 앱스트랙트 카테고리를 기초로 하여, 그리고 그의 관련 동적 정보를 기초로 하여 검색되거나 선택될 수 있다. 또한, 검색 질의는 자연스럽게 제공되고 혼합식 이니셔티브를 사용하여 좁혀 내려갈 수 있다. 질의는 디코드되고 분석된 후, NLU 기술을 사용하여 질의들의 논리적 조합[기호적 질의로 번역될 수 있다. 이어서, 종래의 구조 및 카테고리와 동적 정보가 그 기호적 질의에 일치하도록 검색될 수 있다. 혼합식 이니셔티브는 검색의 결과에 기초하여 그 질의를 좁혀 내려가고 수정하도록 사용될 수 있다.
CVM가 제공하는 다른 특징에는 대화 도움말, 대화 매뉴얼 및 대화 지원이 있다. 대화 인터페이스의 가장 강력한 형태 중 하나는 이러한 시스템을 사용하여 학습 곡선을 편평하게 하는 능력에 있다. 실제로, NLU 및 혼합식 이니셔티브는 사용자를 지도하여 각 애플리케이션을 사용하고 시스템을 제어하게 하는데 도움을 준다. 그러나, 사용자가 작업을 수행하는 동안 사용자에게 지원을 제공할 수 있는 것이 훨씬 더 중요하다.
대화 지원은 사용자의 요구 시에 도움말 및 매뉴얼을 제공한다. 대화 지원은 애플리케이션 및 유사하게 카테고리 분류된 (메타 정보) 카테고리의 사용자 이용 히스토리의 히스토리에 의존한다. 사용자의 이전 액션에 기초하여, 본 발명의 도움말 기능은 상세화(예를 들면, 사용자가 작업을 수행한 적이 없거나, 사용자가 최근에 작업을 수행하지 않거나, 사용자가 이 작업을 수행할 때 항상 실패한 경우 등)되거나 간단한 리마인더(사용자가 이것과 친숙할 때)가 될 것이다. 사용자가 작업을 수행하는 동안, 지원 보조수단은 동시에 애플리케이션 매뉴얼을 추적하다. 누락 필드, 불명료한 요구 및 일련의 정정 및 거부된 명령이 추적되고, 이를 지원 보조수단이 이용하여 대화를 돕는 혼합식 이니셔티브를 강화시킨다. CVM 시스템이 제공하는 일부 다이알로그 프롬프트(도입, 질문, 피드백 등)와, 대화 도움말과 보조와 같은 서비스는 메타 정보 저장소에 저장되고 애플리케이션과 관련된 사용자의 이용 히스토리에 기초하여 맞추어질 수 있다는 것을 이해하여야 한다. 사용자가 소정의 애플리케이션과 이미 상호작용해 온 경우, 그 애플리케이션은 사용자에게 친숙하다고 가정하여 설명은 축소될 수 있다. 마찬가지로, 사용자가 많은 에러를 범하는 경우에는, 다수의 에러는 애플리케이션 또는 기능의 사용자 불확실성, 비친숙성 또는 불이해/오해로서 해석되므로, 설명은 좀 더 복잡할 수 있다.
도움말의 상이한 정도 및 모델은 혼합식 이니셔티브/이용 지원에서부터 NLU 요구 및 혼합식 이니셔티브, 토픽 기반의 검색, 멀티 모델 지침을 통해서 (국부적으로 그리고 네트워크를 통해서) 매뉴얼에 대한 대화형 억세스에 이르기까지 제공된다. 이것은 (예를 들면, 백그라운드에서 애플리케이션을 업그레이드 또는 재설치하기 위해) 로컬 에이전트 또는 리모트 에이전트를 포함하는 대화 기술 지원 형태를 취할 수 있다. 언제나처럼, 도움말 인터페이스의 균일성 및 조정은 가장 중요한 것이다.
도움말 정보는, 그 도움말 정보에 억세스하기 위한 NLU 질의를 사용하거나 현재 사용자(히스토리)에 관련된 메타 정보에 기초하여 그리고 혼합식 이니셔티브를 사용하여 누락 또는 수정된 아규먼트에 기초하여 억세스될 수 있다는 것을 이해하여야 한다. 각 애플리케이션이 제공하는 다이알로그는 사용자의 취향 또는 전문 지식 레벨에 맞게 조절된다.
요약하면, 도움말 및 지원은, 요구를 완성하고 절차를 통해 가이드하며 정보를 검색하고 새로운 애플리케이션을 업그레이드/인스톨하기 위해, 로컬 자원 및 리모트 자원, 사용자의 이용 히스토리 및 에이전트를 이용하여 유비쿼터스식으로 조정된 대화 인터페이스를 통해 제공된다.
다음은 전술한 바와 같이 CVM을 구현하기 위해 사용되는 프로그래밍 언어/스크립트에 관한 더욱 상세한 설명이다. 이러한 프로그래밍/스크립트 언어는 입력 또는 출력 스트림으로서 어떤 사용가능한 자원을 사용할 수 있게 한다. CVM 플랫폼의 대화형 서브시스템을 사용하여, 각 입력은 빌트인 객체로서 프로그래밍 언어에 의해 직접 처리될 수 있는 이진 또는 ASCII 입력 또는 속성값 n-더블로 변환된다(또는 선언적 등가 바이트 또는 XML이다). 호출, 플래그 및 태그는 자동적으로 포함되어, 객체와 프로세스간에, 다른 객체와 올바르게 인터페이스하는데 필요한 대화 메타 정보를 전달한다. 출력은 애플리케이션 또는 사용자의 요구에 따라 특수하게 포맷될 수 있다. 멀티 모델 담화 프로세싱은 이들 새로운 프로그래밍 툴을 사용하여 쉽게 구축될 수 있다. 프로그래밍/스크립팅 언어는 대화형 시스템 구조, 즉 음성 인식/화자 인식/대화형 시스템에서 제시되는 대화형 서브시스템의 입력 또는 출력에 파일 처리 또는 스트림 처리와 유사한 처리를 지원한다. 이들 입력 스트림은 시스템 호출에 의해 실현되는 라이브러리 호출로서 처리된다. CVM의 관점에서 보면, 상기 합체된 IBM 문서 관리 번호 YO999-392P에 전술한 바와 같은 대화형 브라우저는 대화형 애플리케이션으로 간주되거나, 그의 구성요소(예를 들면, XML 파서) 및 플러그 인이 대화형 애플리케이션을 포함하는 대화형 엔진의 일부로 간주될 수 있다는 것을 이해하여야 한다.
마이크로폰으로부터의 음성 입력(예를 들면, 표준 음성 입력)은 워드 시퀀스, 전화기 또는 사용자 식별자 또는 질의(NLU가 제공하는 기호적 언어 표현)를 갖는 기능 호출의 아규먼트일 수 있다. 또, 입력은 육필에 의해서나 파일 등으로부터도 제공될 수 있다. 각각의 결과 스트림은 객체 지향 콘텍스트에서 유도된 클래스로서 보일 수 있다.
플랫폼 스크립트의 경우에, 발성음은 대화형 서브시스템 서비스들 중 하나의 대화형 서브시스템 서비스에 의해 처리되고, 액션을 유발시키기 이전에 스크립트에 의해 처리된다. 종래의 명령 및 제어 환경[예를 들면, ViaVoice의 음성 센터(Voice Center)]은 대화형 스크립트로 생성된 비교적 간단한 대화 플랫폼으로서 관찰될 수 있다. 대화 스크립트를 수정하면 대화형 플랫폼이 수정될 것이다. 실제로는, Voice Center는 입력 처리 및 명령의 인식 및 실행을 코드 안에 깊게 은폐한 종래의 C/C++ 코드로 구축된다. 콘텍스트, 오디오 스테이터스 등은 환경 변수 또는 글로벌 변수를 업데이트하기 위해 플랫폼 내에 설정될 수 있다. 이 경우에도, 전술한 바와 같이, 대화 객체/구성요소 및 파운데이션 클래스는 절차형이거나 선언형이 될 수 있다.
본 발명에 따라 전술한 입력 프로세스는 음성 또는 다른 입력 스트림이 문자 또는 이진 입력용으로 통상 예약된 모든 프로세싱 형태에 민감한 전형적인 입력/출력 스트림으로서 포함된다고 간주하고 있다. 사용자 입력은 파싱 및 NLU 후에 각각의 전사 또는 기호 언어로의 맵핑에 의해 표시될 수 있다. 출력도 역시, 스크립트/프로그래밍 언어를 통해 완전하게 제어될 수 있다. 음성 폰트는 메시지에 따라서 선택 또는 설계, 수정될 수 있다. 이러한 대화형 프로그래밍 언어 및 스크립트를 활용함으로써, 복잡한 재지정 및 대화 프로세서 또는 멀티 모델 담화 프로세서가 구축될 수 있다. 이들은 예를 들면, 종래의 워드 프로세서 및 드로윙/사진/비디오 편집기의 자연스런 멀티 모델 확장이 된다. CVM을 포함하는 파운데이션 클래스에 대해서는 전술하였다.
또, 다른 객체와 스트림을 교환하는 경우에는, 스트림을 내비게이트하거나 제어하거나 합성하기 위해 대화 메타 정보로 데이타 스트림을 완전하게 보완하는 것이 중요하다. 다른 객체 또는 서브시스템과 통신하는 경우에는, 이것은 시스템 기능 호출을 통해 국부적으로 행해진다. 네트워크화된 객체는 HTTP/HTML, TCP/IP 또는 다양한 소켓 상호작용 형태와 같은 다른 리모트 프로토콜을 통해 통신한다. 이들 프로토콜은 이 대화 메타 정보를 교환 가능하게 하는 태그, 플래그 및 세마포어(semaphores)에 의해서 보완된다.
이러한 프로그래밍 언어는 PERL 및 Kshell, C 및 C++, HTML, 자바스크립트, 베이직, 자바 등에 대한 새로운 스크립트 언어 및 확장자의 형태가 될 수 있는 근본적으로 새로운 대화형 툴이다(이제, 이들은 Spoken PERL 등으로 명명될 수 있다). 또, 언어는 해석되거나(스크립트/선언형) 편집되는(절차형) 대화 파운데이션 클래스 및 다이알로그 구성요소(절차형 또는 선언형)의 라이브러리에 의해서 CVM상에서의 실행을 최적화하기 위해 처음부터 새롭게 구축될 수도 있다.
전술한 바와 같이, 프로그래밍 언어/스크립트는 대화형 애플리케이션과 CVM간의 대화형 API를 포함한다. 또, 상기 합체된 특허 출원 IBM 문서 관리 번호 YO998-392P에 설명한 바와 같은 CML(Conversational Markup Language)도 포함한다. 여기서, 절차형 API와 프로토콜 대 CML(XML 및 HTTP)간의 구별 및 전달 프로토콜의 변화를 논의할 가치가 있다. 절차형 API는 애플리케이션을 대화형으로 인식하기 위해서 CVM을 공개한다. 절차형 API 및 프로토콜은 CVM, 애플리케이션 및 장치간의 대화 정보를 고속으로 교환할 수 있게 하고, 또한 콘트롤러에 의해서 절차형 인터페이스를 필요로 하는 각 애플리케이션 및 콘텍스트의 상태를 고속으로 결정할 수 있게 한다. 한편, CML은 XML의 제시 자료/내용을 대화형 브라우저에 전송하는 이상적인 방법이고, 목적에 합치하며, 다이알로그를 개발하는데 필요한 프로그래밍 전문 지식을 감소시키는 장점을 갖는다.
상기 합체된 특허 출원에서 전술한 바와 같은 대화형 브라우저 형태의 인터페이스에서는, XML은 페이지간에 교환되지만, 페이지간의 콘텍스트 및 다수의 동시 작업간의 콘텍스트는 API/프로토콜을 통해 브라우저에 의해 관리된다. 이 실시 형태는, 예를 들면, (XML을 사용하는) 직렬화되어 있는 객체와 교환되는, 순수 소켓형 (TCP/IP), Corba/Java RMI형, 또는 HTTP형이 될 수 있다. 프로토콜은 절차형 통신 뿐만 아니라 XML(선언형)이 지원되도록 설계되는 것이 바람직하다.
대화형 스크립트에 의해 열릴 가능성은 대화 논리(conversational logic)의 적중율이 가장 높을 것이다. 새로운 대화형 프로그래밍 언어의 레벨에서, 종래 및 대화형 서브시스템에 발송된 스트림의 직접 처리는 새로운 논리 상태 및 연산자를 의미한다.
논리 상태는 다음: (1) 참, (2) 거짓, (3) 미완성, (4) 불명료함, (5) ASCII 관점에서의 상이함/동등함, (6) NLU 관점으로부터의 상이함/동등함, (7) 활성 질의 필드 관점으로부터의 상이함/동등함, (8) 미지(未知), (9) 호환불가 및/또는 (10) 비교불가일 수 있다. 이러한 상태를 테스트하거나 수정하기 위해서 대화 논리 연산자가 도입될 수 있다. 요약하면, 논리 상태 스테이터스 및 연산자는 이들의 ASCII/이진 내용에 기초하여 또는 이들 NLU 전환된 질의(종래 및 대화형 서브시스템의 입력/출력)에 기초하여 비교될 수 있는 풍부한 대화 질의를 처리하기 위해 확장될 수 있다. 논리 연산자는 이러한 시스템을 테스트하거나 수정하기 위해 실행될 수 있다.
도 7은 본 발명의 한 특징에 따른 분산형 CVM의 구조를 도시한다. 분산형 시스템의 중심은 다수의 애플리케이션(706), 장치(708-713), 다른 CVM 애플리케이션 또는 장치(707)와 대화 자원(705)간의 대화 중재자로서 작용하는 CVM(704 : 서버, PC 등에 배치될 수 있다)이다. CVM(704)은 이러한 장치 및 애플리케이션에 걸쳐서 조정된 균일한 대화 인터페이스를 제공하고, 이것에 의해서, 다른 대화 장치(708-713), 자원(705) 및 애플리케이션(706)은 본 발명의 대화형 프로토콜을 통해 접속할 수 있다. 조정된 인터페이스는 대화형으로 접속된 다수의 장치/객체에 의해 제공된다. 객체의 집합은 CVM(704)의 집중 또는 분산된 콘텍스트 스택을 통해 사용자에 대하여 단일의 조정된 인터페이스를 제공한다. 대화 장치는 다른 대화 장치로부터 대화 인터페이스를 통해서 제어될 수 있는 사일런트 파트너를 포함할 수 있다. 등록 단계에서, 이들은 요구시에, 지원되고 있는 리스트를 교환한다. 접속에 따라서, 콘텍스트는 중앙집중화되거나 여러 장치들에 걸쳐서 분산된다(즉, 네트워크는 절충된다).
사용자가 장치들의 집단과 상호작용하는 경우, 이 상호작용은 항상 자동차 안의 PVA(Personal Vehicle Assistant)(710) 또는 음성 브라우저(713)와 같은 중심 유닛을 통해서 행해질 수 있다. 작업 디스패처 및 콘텍스트 스택은 모든 장치에 관련된 콘텍스트를 축적하고, 각 장치에 대한 명령을 분석하고 적절히 디스패치한다. 사용자가 장치 집단 전체와 상호작용하는 경우에는, 하나의 장치가 항상 활성되어 있다(최종 활성화 콘텍스트). 이 장치는 새로운 명령이 자신의 콘텍스트 스택에 맞는지를 검사한다. 맞지 않으면, 그 명령은 활성되는 이웃 장치로 전송된다. 이 프로세스는 일치가 발견되고 경우에 따라서는 사용자에 의해 확인될 때까지, 또는 그 요구가 최초의 장치로 다시 되돌아갈 때까지 반복된다. 이 경우에는 에러 또는 혼동 메시지가 사용자에게 발송된다.
전술한 바와 같이, CVM은, 다수의 담화를 관리하고, 콘텍스트를 사용하며, 앱스트랙션 및 메타 정보를 통해서 객체를 참조하고, 작업, 앱스트랙션 및 콘텍스트를 할당하고 메모리화하며, 사용자에 맞춤화하고, 요약화하며, 친밀하지 않은 사용자도 포함하여 사용자를 돕고, 사용자를 인식하고 인증하며, 디스플레이, GUI, 키보드 또는 포인팅 장치를 이용하든 이용하지 않든 불문하고 모든 상호작용을 통해 동일한 인터페이스를 제공하는 기능을 구비함으로써 사용자가 시스템과 대화할 수 있게 한다. 동일 상호작용은 채널에 관련없는 기능을 부가 또는 생략하여 전화, 웹, PDA, 데스크탑을 거쳐서도 행해진다.
예를 들면, 사용자는 스프레드시트의 한 엘리먼트에 대한 정보를 원격으로 억세스할 수 있고, 필요한 경우에 그것을 수정함과 동시에 그의 e-메일을 검사한다. 수정된다. 사용자는 이들 모든 작업을 (그의 데스크탑 전면에 있는 동안) 종래의 방식으로 행하거나, e-메일의 타이핑을 종료하면서 관찰하지 않고 음성에 의해 스프레드시트 정보를 체크할 수 있다. 모든 경우에, 인터페이스는 사용자에 대해 심리스하게 동일하다.
다수 장치가 대화형으로 접속되는 경우에, 이들은 모든 장치가 범용 CUI를 통해 제어될 수 있도록 이들의 인터페이스를 조정한다. 이 개념은 다음의 예에 의해 설명될 수 있다. 어느 날 밤, 당신은 자동차로 귀가 중에 있고, 당신의 배우자로부터 새로운 식료품 가게에서 어떤 물건을 사올 것을 당신에게 부탁한 것을 상기하였다고 가정한다. 당신의 자동 응답 전화기의 메시지를 발견한 후, 이것을 음성 인식 소프트웨어를 사용하여 당신의 데스크탑의 메모장에 신속히 옮겨 적는다. 그러나, 당신은 이것을 프린트하거나 당신의 PDA에 이것을 전송하는 것을 잊어버렸다. 당신의 차에는 대화형 PDA, 대화형 차량탑재용 PC(PVA) 및 대화형 스마트폰이 구비되어 있기 때문에, 당신의 데스크탑 PC로 CVM을 활성화시키면 전술한 상황은 문제가 되지 않는다. 더 나아가, 2개의 다른 애플리케이션이 대화형으로 인식되는 한편 PVA가 내장형 CVM을 활성화시키는 경우, 즉 당신이 PVA 상에서 동작하는 CVM을 통해 상기 2개의 다른 애플리케이션을 제어할 수 있다고 가정한다.
당신은 전화기를 사용해서 PVA에 지시하여 당신의 PC에 전화를 걸 수 있다. 접속이 형성되면, 당신은 음성으로 인증되고, 파일명 또는 디렉토리를 생각해내거나 당신의 디렉토리를 브라우즈하여 적합한 파일을 선택하지 않고, 전에 작성한 "식료품 리스트"를 요구하는 것만으로 그 메모를 찾을 수 있다. 당신의 PC CVM이 선택의 확인을 요구할 경우에 그 선택을 확인해 줄 필요가 있다. 당신은 다른 질의, 즉 "이것은 나의 PDA와 동기되어야 한다!"를 발송할 수 있고, 그렇게 하면, 그 파일은 다음 동기 시에 당신의 PDA로 전송되도록 적절하게 링크된다. 1 개의 최종 명령, 즉 "실행하라!"를 발송하면, 당신의 PC는 포기하고, PDA가 그 불명료한 질의를 취급하게 한다. PVA는 당신의 이전 대화에 기초한 PDA 및 PC를 동기화시키기 위한 당신의 바램을 이해한다. 가능한 확인 후, 동기화는 실행되고, 식료품 리스트는 당신의 PDA에 저장되어 나중에 사용하기 쉽게 된다.
이제, 당신(사용자)은 당신을 차례로 상점에 안내하도록 PVA에 지시한다. 당신의 위치가 계산되고, 상점의 위치가 국부적으로 또는 서버로부터 인출되며, 최근 트래픽 정보를 고려하기 위해서 여정이 계산된다. 언제든지, 당신은 당신이 어디에 있는지, 당신이 다음에 무엇을 하는지, 얼마나 멀리 갈 것인지에 대한 내비게이션 정보를 요구하거나, 심지어 다른 여정을 요구할 수 있다.
시간을 재촉하는 경우에는, 당신은 상점 드라이브스루 서버(store drive-through server)에 다이알하도록 PVA에 지시한다. 이것은 디렉토리 보조 서비스 IVR과의 중간 다이알로그를 포함할 수 있다. 일단 대화 인터페이스와의 다이알로그를 통해서 상점 IVR(즉, 현재의 홈 페이지와 유사하게 구축된 소기업 또는 개인 소비자 IVR의 개념의 예)에 접속되면, 당신은 주문을 하게 된다. 이것을 위해, 당신은 식료품 리스트를 천천히 훑어보고 그 식료품 리스트를 품목별로 당신에게 읽어주도록 PVA에 요청한다. 이어서, 당신은 IVR에 대한 요구를 고쳐 말하고, 각 주문이 적절히 취해질 때까지 그 다이알로그를 수행한다.
당신이 상점에 도달할 때까지 당신의 주문은 준비된다. 이제, 당신은 집으로 돌아갈 수 있고, 조용히 돌아가는 동안에 당신에게 온 e-메일을 듣거나 뉴스 또는 주식 시세를 점검할 수 있다. 필요한 경우, 당신은 일부 스프레드시트 정보를 참고하거나 수정하도록, 당신의 메일을 처리하는 동안에 당신의 데스크탑에 음성으로 상기 일부 스프레드시트 정보를 참고하는 것과 동일한 방법으로, 당신의 PC에서 다이알할 수 있다. 또, 당신은 당신의 PVA 또는 데스크탑의 에이전트에게 작업을 배정하여 업데이트되거나 나중에 상기(리마인드)되도록 요구할 수 있다.
데스크탑 및 PVA 상에서 동작하는 CVM 및, CVM 인식형 스마트폰 및 PDA의 경우, 애플리케이션 개발자는 CVM API를 고려하여야만 한다. 이것은 모든 대화 기능(능력) 및 요건을 등록하는 것을 포함한다.
1. 애플리케이션을 제어하는 활성 어휘, 유한 상태 문법 및 언어 모델;
2. NLU가 지원될 경우나 콘텍스트 상태 리스트에서 기호 맵핑;
3. 출력에 대한 카테고리 분류를 특별히 허용하기 위해서 연관된 관련 메타 정보/카테고리;
4. 대화 I/O 정보(즉, 이것은 입력/출력을 직접 제어하거나, 이것은 사일런트 파트너, 즉 대화 I/O 프로바이더에 대한 클라이언트임); 및
5. CVM 기능(능력)/상태(즉, 이것은 CVM을 작동시키고, 이것은 CVM 클라이언트이며, 이것은 매스터, 슬레이브 또는 파트너 CVM임).
이전의 예에서는 PVA가 매스터 CVM이었다. CVM이 장착되면, PDA 및 스마트폰은 슬레이브 CVM형이거나, 또는 단순히 CVM 인식형이다. PVA가 PC에 대화식으로 연결되는 경우에, PVA가 매스터, 슬레이브 또는 파트너로서 동작하는 지를 결정하는 것은 PVA의 애플리케이션 개발자에게 달려 있다. 국부적으로 또는 전화를 통해서 연결되는 경우에는, 장치들은 API에 의해 전달되는 필요 정보를 교환하여 장치들간의 조정을 완전하게 정의한다. 이 경우에도, CVM은 대화형 서브시스템 및 종래형 서브시스템을 포함하는 모든 입력/출력 사례를 자동적으로 처리한다. 이 경우에도, API는 질의를 애플리케이션 호출로 변환하도록 CVM에 대한 모든 정보를 전달하고, 역으로 출력을 사용자에게 제공되기 전에 적합하게 분류된 음성으로 전환한다.
개발 툴을 사용하여, 개발자는 대화형 API 및 CVM을 중심으로 한 자신의 애플리케이션을 쉽게 구축할 수 있다. 이러한 개발 환경[여기에서는 스포큰 에이지(Spoken Age)라 칭함]에 의해서 프로그래머는 CVM을 에뮬레이트할 수 있고, 애플리케이션 또는 네트워크화된 프로토콜을 디버깅할 수 있으며, 대화형 사용자 인터페이스를 신속하게 개발할 수 있다. 스포큰 에이지는 CVM용 CUI 및 애플리케이션 개발을 포함한다. 또, 스포큰 에이지는 주어진 애플리케이션에 대해서 엔진의 데이타 파일(대화 아규먼트)을 수정하는 환경도 제공한다. 특히, 이것은 개발 툴의 레벨에서, 스포큰 에이지가 IBM ViaVoice 툴킷과 같은 SDK Toolkit와 같은 종래의 엔진 프론트엔드도 포함하는 것을 의미한다. 이것은 툴킷과 이 툴킷이 제공하는 알고리즘에 의해서, 사용자가 주어진 작업에 대해서 데이타 파일을 재구축, 적응화 또는 확장시킬 수 있는 것을 의미한다. 이것은 데이타 수집 규칙에 따라서 애플리케이션에 대한 데이타를 수집하고 적절한 스크립트를 실행시켜서 데이타 파일을 생성하고 성능을 테스트하는 것을 포함한다. 이것은 작업, 도메인 또는 음향 환경에 전용으로 된 (CD ROM 또는 웹 사이트로부터의) 데이타 파일 또는 데이타 파일의 일부를 다운로드하는 것을 포함할 수 있다. 또, 이것은 양식에 기재하고 새로운 애플리케이션을 설명/데이타 예를 제공함으로써 데이타 파일 생성 서비스사에게 행한 질의에 기초하여 데이타를 업데이트하는 것도 포함할 수 있다.
어떤 애플리케이션이 어떤 플랫폼에 대해서 그리고 어떤 특정한 채널에 대해서 개발되면, 프로그래머는 스포큰 에이지를 이용하여 그 애플리케이션을, CVM을 지원하는 다른 어떤 플랫폼에 포트 연결시킬 수 있다. 또, 프로그래머는 CVM을 이용하여, 상기 통신 채널에 대해서 또는 새로운 플랫폼 또는 장치에 의해 부과되는 UI 제약에 대해서 CVM의 대화 기능(능력)을 자동으로 적응화시킬 수 있다. 다시 말하면, 데스크탑에의 음성 억세스용으로 기록된 스프레드시트는 이제, CVM의 전화기 기능(능력)에 따라서 전화기에 음성으로 억세스될 수 있다. 또, 스포큰 에이지로 기록된 자바, CGI 및 XML/HTML 기반의 웹 사이트는 작은 임베디드형 대화형 브라우저에 의해서 억세스될 제한된 음성 마크업 언어 또는 전화기를 통해 서비스를 제공하는 IVR로 즉시 전환될 수 있다.
분산형 시스템은 CVM으로 동작 가능한, 경쟁력 있는 음성 구동형 애플리케이션인 대화형 브라우저(713)를 더 포함한다. 대화형 브라우저는 CVM의 상단에서 실행하고 CML을 번역하여, CML 페이지를 표시하는 동안에 대화 다이알로그를 구축할 수 있다. 도 7에 도시한 바와 같이, 그리고 상기 합체된 IBM 문서 관리 번호 YO998-392P 특허 출원에서 상세하게 설명한 바와 같이, 레거시 애플리케이션(700)은 HTML 또는 DB2와 같은 종래의 포맷을 XML로 트랜스코드하기 위해서 대화 트랜스코더 프록시를 통해 억세스될 수 있다. 대화형 브라우저는 XML 명세에 기초한 음성 마크업 언어인 CML을 번역한다. 이것은 CVM의 상부에서 동작하는 가장 경쟁력 있는 애플리케이션 중 하나로서 관찰될 수 있다. 대화형 브라우저는 자신의 CVM을 실어나르는 자립형 애플리케이션일 수 있다. CML에 의해서, 노련한 새로운 애플리케이션 개발자가 대화 다이알로그를 신속하게 개발할 수 있다. HTML 및 월드 와이드 웹과의 유사성을 더욱 추구하면, CML 및 대화형 브라우저는 레거시 기업 애플리케이션 및 레거시 데이타베이스를 중심으로 대화형 사용자 인터페이스를 구축하는 간단하고 체계적인 방법을 제공한다. 게다가, 일단 CVM 상부에 구축되면, 이 메카니즘은 사용자가 다수의 애플리케이션(로컬형도 있고 네트워크형도 있음) 및 장치(로컬형도 있고 네트워크형도 있음)를 통해서 전달할 대화에 이들 애플리케이션, 서비스 및 트랜잭션을 포함시킬 수 있다. 또, 이 메카니즘은, 사용자가 레거시 애플리케이션, 대화형 브라우저를 실행하는 사용자의 PC 및 IVR에 있는 대화형 애플리케이션, 또는 서버측에 있는 대화형 애플리케이션에 억세스하는 경우에, 사용자에게 동일 사용자 인터페이스도 제공할 것이다. 대화 프록시를 사용하여 HTML 다이알로그를 CML로 전환하는 것은 동일 페이지가 종래의 브라우저 또는 멀티 모델 브라우저, PC 상의 대화형 브라우저 또는 임베디드형 장치 및 IVR 애플리케이션을 구동할 수 있도록 허용하다. 또한, 특히, HTML 페이지를 CML 페이지로 트랜스코드하기 위해서 대화 프록시가 도입되는 경우에는, 전화 카드와 함께 장착된 서버 상의 적절하게 설계된 홈 페이지는 개인 IVR이 된다.
CVM이 API를 통해서 공개되어 CVM과 분산 자원이 API 및 절차형 프로토콜을 통해 가장 효율적으로 인터랙트하는 동안에, 상호작용 프로토콜을 확장하여 HTTP 교환과 XML/HTML 교환을 포함시키는 것이 중요하다. 실제로, HTTP 교환과 XML 교환, 경우에 따라서 또는 직렬화된 객체는 단일의 또는 축차적인 대화 트랜잭션에 대해서 충분할 수 있다. 최적의 프로토콜을 선택하고 XML 교환을 가능하게 하는 옵션은 프로그래밍에 관한 지식이 거의 없이도 다이알로그의 설계를 단순화시킨다. 한편, 절차형 호출은 다수의 동시 대화형 애플리케이션을 갖는 매우 효율적인 로컬형 구성 또는 분산형 구성을 가능하게 한다. 효율적인 대화 플랫폼 기능은 API 인터페이스를 필요로 한다. 다수의 대화형 애플리케이션의 효율적인 다이알로그 관리자는 상이한 서브시스템, 애플리케이션 및 관련된 CVM 실체간의 절차형 객체의 교환을 필요로 한다.
다음은 도 8에 도시한 바와 같이 UCRC라고도 칭하는 UCA(Universal Conversational Appliance, 범용의 대화형 전기제품)를 사용하는 본 발명의 일 응용예이다. UCA 또는 UCRC는 다수의 대화형 프로토콜 형태를 포함하는 CVM 장치의 일 예이다. UCRC는 자발적인 네트워킹 능력을 갖는 음성 구동형 휴대용 PDA이다. 이러한 네트워킹 기능은 RF형, 특별형(예를 들면, 블루투스, 호핑 네트워킹) 또는 IR형일 수 있다. 홈 환경에서, 전기제품은 이제 대화식으로(그러나, 전형적으로서 사일런트 파트너로서)로 인식된다. 이것은 상이한 전기제품이 발견되어 대화식으로 제어되도록 필요한 정보를 교환할 수 있음을 의미한다. 이들 상이한 전기제품들은 유사한 네트워킹 기능(능력)을 갖는다. 단순화된 예에서는, 이들 상이한 전기제품들은 X10과 같은 영구적인 네트워크를 사용하여 "홈 디렉터" 형의 인터페이스로 직접 제어된다. 이 사례에서는, 이어서 UCA가 오히려 홈 디렉터와 직접 대화한다.
UCRC는 (전술한 바와 같은) 대화형 프로토콜(801)을 통해서 핸드셰이크(디스커버리)를 위한 요구를 주기적으로(매우 자주) 발송한다. 각 전기제품(또는 홈 디렉터)는 이러한 요구의 검색 시에 응답한다. 새롭게 발견된 전기제품은 그 자신을 식별한다. UCRC도 역시 그 자신을 식별한다. 그 결과로 얻은 핸드셰이크는 등록된다. 이 등록에는 전기제품의 성질과 명칭(및 다른 어떤 메타 정보)을 식별하는 것과, 그 전기제품이 사일런트 파트너이고, 이어서 절충된다는 사실이 포함된다.
이 사례에서는 이 절충으로, UCRC가 대화를 구동시키는 것에 즉시 동의하게 된다. 이 새롭게 발견된 전기제품은 그의 현재 상태 및, 그것이 그 상태에서 지원하는 명령을 교환한다. 제한된 양의 명령을 지원하는 경우에, 상기 새롭게 발견된 전기제품은 그것이 지원하는 다른 상태 및, 이 다른 상태에 관련된 명령을 전송하는 것도 가능하다. 이것은 구조 윤곽(structure skeleton)을 미리 보내는 것과 같다. 상태들의 구조가 너무 복잡한 경우에는, 이 정보는 상태가 변할 때마다 상태 단위별로 행해질 것이다.
교환 프로세스는 명령 리스트를, 작동 시에 전기제품에 반송하는 복귀 취급/이벤트와, 필요한 모든 데이타 파일, 즉 어휘, 베이스폼, 다이알로그를 위한 프롬프트/음성 폰트, 문법, 경우에 따라서는 파싱, 번역, 태킹, 기호 언어 및 NL 인터페이스를 위한 언어 생성 규칙과 교환하는 것을 포함한다. 대안으로, 정보는 대화형 엔진 작업을 수행할 다른 엔진(예를 들면, 음성 인식 작업 등을 수행할 서버)의 어드레스를 포함할 수 있다. 작동 및 사용자로부터의 입력 시에, UCRC CVM은 관련된 전기제품을 결정한다. 이것은 상이한 전자제품에 의해서 (IBM 문서 관리 번호 Y0999-113P에 설명한 바와 같이 국부적으로 또는 원격적으로) 지원되는 명령에 따른 인식 결과에 기초할 수 있다.
판정 시에, 이벤트/복귀의 취급은 활성화되고, 명령은 관련된 전기제품에 관해서 실행된다. 그 결과, 상태가 변경된다. 이 새로운 상태는 UCRC에 전송된다. 또, UCRC의 콘텍스트도 업데이트된다. 명령은 (윤곽에 기초하여 또는 지원된 명령의 새로운 교환에 기초하여) 업데이트된다. 전기제품이 네트워크로부터 일시적으로 사라지는 경우에는 정보가 콘텍스트에 저장된다(전기제품이 UCRC에 의해 여전히 제어될 경우에). 이것은 시간(그것을 마지막으로 접한 것이 얼마나 오래되었는지)에 기초할 수도 있고, 위치(메타 정보)에 기초할 수도 있으며, 메타 정보(활성 중단된 경우)에 기초할 수도 있다. 재활성화시에, 대부분의 정보는 콘텍스트 또는 메타 정보로부터 재저장되고 프로토콜은 업데이트를 체크할 뿐이다.
전기제품이 제어 리스트로부터 명시적으로 제거된 경우, 사인-인 오프(sign-in off)의 요구는 전기제품으로부터 또는 UCRC로부터의 명백해질 수 있다. 전기제품이 종래방식(종래의 TV 리모콘 또는 신호등용 스위치 등)으로 제어되는 경우에는, 이벤트는 재등록/재절충하거나 전기제품의 콘텍스트, 데이타 파일 및 상태를 단지 업데이트하기 위해 UCRC로 복귀된다.
홈 디렉터가 사용되는 경우에는, 다음의 두 개의 모델 1) 및 2)가 취해지는 것을 제외하고 프로토콜은 꼭 같다.
1) 오직 한 개의 전자제품, 즉 홈 디렉터가 등록된다. 전기제품의 변경 또는 명령은 전체 홈 디렉터 상태의 변경으로 이어진다.
2) 모든 개별 전자제품이 UCRC에 등록된다. 홈 디렉터는 전기제품과 UCRC간의 프로토콜을 전송하고 트랜스코드하는 게이트웨이로서만 작용할 뿐이다.
홈 디렉터 모델이 고려되는 경우에는 UCRC가 제공하는 기능을 확장하는 것이 가능하다. 자발적인 네트워킹 대신에, 이것은 통상의 무선 LAN(홈 디렉터에 접속된 베이스 스테이션에 대한 RF, 이더넷)이 될 수 있다. 범위를 벗어나는 경우에는, 홈 디렉터 방식은 통상의 전화기에 의해서 호출 가능하다고 하는 이점(예를 들면, 모뎀형 접속)을 제공한다. 이러한 경우에는 이제, 모든 프로토콜은 전화기를 통해서 교환될 수 있다. 그러므로, 새로운 UCRC 토폴러지는, 범위 내에 있는 경우에는 로컬 또는 자발적인 네트워크 능력을 갖는 휴대 전화기/UCRC이 되고, 홈(집)으로부터 제어권을 벗어난, 범위 밖에 있는 경우에는 베이스 스테이션 능력에 대한 이진 접속이 된다.
대안으로, UCRC 기능(능력)은 홈 디렉터 머신에도 복제되거나 제한될 수 있다. 복제된 경우에, 홈 디렉터 머신이 전화 카드를 통해서 음성 브라우징 기능(능력) 또는 로컬 홈 IVR 기능(능력)을 제공할 수 있다면, 전기제품은 이제 (대화형 프로토콜을 교환하는 UCRC와 서버를 통한 이진 접속을 필요로 하는 일 없이) 전화기를 통해서 어디에 있든지간에 음성으로 제어될 수 있다. UCRC와 대화형 프로토콜은 오히려 홈 디렉터와 전기제품 사이에 있다. 통상의 전화기가 사용될 수 있다. 두 번째 경우에는, 대개 집에 있을 때 전기제품을 제어하는데 서버도 사용될 것이다. UCRC는 휴대형 I/O 시스템이 된다. 즉, 이것은 오디오를 포획하고 압축하여 홈 디렉터에 이것을(대화 코딩) 전송한다. 출력도 마찬가지로, 재생을 위해서 UCRC에 전송된다. 이제, 실제 CVM 프로세싱 모두는 홈 디렉터 서버에서 행해진다.
이제 도 12를 참조하면, 도면은 여기에서 설명한 구성요소 및 구조물을 사용하여 구성될 수 있는 대화형 네트워크 시스템을 도시하고 있다. 본 발명에 따른 대화형 컴퓨팅은 상이한 장치들의 네트워킹이라는 점에서 새로운 요건을 포함한다는 점을 이해하여야 한다. 이것은 프로토콜, 부하(로드) 및 통신량(트래픽) 관리 및 네트워크 캐싱 및 저장 모두에서의 주된 고려 사항이 부하 또는 통신량의 밸런스를 보증하는 것에만 있지 않고, 나아가, 네트워크 상에서 교신하거나 네트워크화된 자원을 사용하여 제공된 사용자 모든 활성 다이알로그의 흐름을 최적화하는 것에도 있다는 것을 의미한다. 다시 말하면, 대화식 분산형 아키텍쳐는 새로운 추가적 제약 또는 고려사항을 추가하여, 다이알로그의 지연 및 흐름, 오디오 전송 지연(대화 코딩), 음성 및 GUI 콤포넌트의 동기화(실제로, GUI 입력의 결과는 이벤트 및, UI의 음성 콤포넌트 및 GUI 콤포넌트의 동기화된/조정된 행태가 되어야 한다), 및 근저의 대화형 프로토콜의 업데이트 및 교환(절충, 다이알로그 관리자 프로토콜 등)을 최적화한다. 이러한 양태는 국부적으로 및/또는 네트워크 상에서 심리스하고 투명한 프로세싱이 요구된다면 중요한 역할을 담당한다. 서비스, 대역폭, 최소 지연, 최소 패킷 손실 등의 품질은 VoIP의 경우만큼 중요하게 유지된다.
추가로, 특정 작업 및 도메인에 필요한 데이타 파일을 적절한 엔진에 알맞게 전송하는 문제가 있다. 이 경우에도, 이것은 네트워크 상에서의 캐싱 또는 저장 및 정밀도 초과 통신량의 관리 및 부하의 관리를 필요로 한다. 이 경우에도, 송신기와 수신기간의 통신량 흐름만이 문제가 되는 VoIP에 대해서조차 개념이 제시되지 않고 있다. 추가로, 효율을 향상시키기 위해서 윤곽 정보(예를 들면, 다이알로그 논리)도 네트워크에 적절히 미리저장되거나 캐시되거나 복제될 수 있다.
도 12에 도시한 시스템에서, 본 발명에 따른 클라이언트 장치(1000)(CVM 시스템 또는 다이알로그 관리자 기능부에 장착됨)는 라우터(1004)를 통해 PSTN(1002) 및 인터넷/인트라넷(1003) 네트워크를 통해서 접속함으로써 서비스 네트워크 프로바이더 네트워크(1001)로부터의 원하는 정보를 억세스할 수 있다. 라우터(1004) 및 인터넷/인트라넷 네트워크(1003)는 분산형 대화형 프로토콜(전술함), RecoVC(인식 호환성 VoCoder)를 통한 오디오 코딩, 애플리케이션 및 메타 정보(분산형 애플리케이션 프로토콜), 디스커버리, 등록, 절충 프로토콜, 다이알로그 흐름을 유지하기 위한 서버 부하 관리, 다이알로그 흐름을 유지하기 위한 통신량 밸런싱 및 라우팅, 작업 특징 및 기능(능력) 요건과 대화 아규먼트 가용성(데이타 파일)에 기초한 엔진 서버 선택, 대화 아규먼트(분산, 즉 저장), 트래픽/라우팅 및 캐싱을 포함하는 대화형 네트워크 서비스의 확장 및 특징을 제공한다.
대화형 애플리케이션 서비스 또는 콘텐츠 또는 트랜잭션 프로바이더의 인트라넷 상에서 뿐만 아니라 도 12에 도시한 바와 같은 어떤 네트워크(인터넷, 블루투스, 무선 네트워크 등)에서, 네트워크는 콘텐츠 서버 및 백엔드 논리 또는 비지니스 논리 서버, 대화형 엔진 서버, 게이트웨이, 라우터, 프록시 및 IVR(예를 들면, 사운드 카드와 같은 것) 및 서버 브라우저를 가질 것이고, 이 경우, 오디오 및 데이타 파일은 대화 네트워킹 원리에 의해 부과되는 최적화에 따라 자원들간에 연속적으로 교환된다.
따라서, CVM 콤포넌트 또는 대화형 서비스는 상이한 기능들의 대화 네트워킹 측정, 전송, 관리 및 실행을 수행하기 위해서 메시지를 교환하도록 이들 실체(서버, 클라이언트, 게이트웨이, 라우터 등) 모두를 표시할 것을 필요로 한다. 전형적으로는, 이들 기능은 네트워크 등에서 부하 밸런싱, 통신량 밸런싱, 저장 및 캐싱을 수행하도록 현재의 프로토콜 및 시스템의 상부에서 실행된다.
도면을 참조하여 본 명세서에서 예시적인 실시예에 관하여서 설명하였지만, 본 발명의 시스템 및 방법은 이들 정확한 실시예에 한정되지 않고, 다양한 다른 변형예 및 수정예가 본 발명의 범위 또는 정신을 벗어나지 않고서 당해 기술의 숙련자에 의해 영향받을 수 있다는 점을 이해하여야 한다. 이러한 모든 변형예 및 수정예는 특허청구범위에서 정의된 본 발명의 범위 내에 포함되도록 의도된다.

Claims (47)

  1. 복수 개의 입출력(I/O) 렌더러에 동작가능하게 접속되어, 다른 활성 애플리케이션의 다른 사용자 인터페이스 모델에 걸친 입력 질의 및 입력 이벤트를 수신하고 하나 이상의 상기 다른 사용자 인터페이스 모델에서의 상기 활성 애플리케이션에 관련된 출력 메시지 및 출력 이벤트를 생성하기 위한 멀티 모델 대화형 사용자 인터페이스(CUI) 관리자와,
    상기 입력 질의 및 입력 이벤트에 응답하여 멀티 모델 다이알로그를 생성하고 상기 활성 애플리케이션에 관련된 콘텍스트를 관리하기 위한 대화형 커널과,
    상기 활성 애플리케이션과 상기 대화형 커널간에 인터페이스를 제공하기 위한 대화형 애플리케이션 프로그램 인터페이스(API)
    를 구비하는 대화형 컴퓨팅 시스템.
  2. 제1항에 있어서, 대화형 엔진 애플리케이션 프로그램 인터페이스(API)와 복수 개의 대화형 엔진을 더 구비하고,
    상기 대화형 커널은 상기 입력 질의 및 입력 이벤트를 처리하고 상기 멀티 모델 다이알로그 및 출력 이벤트를 생성하기 위해 상기 대화형 엔진 애플리케이션 프로그램 인터페이스(API)를 통해서 상기 대화형 엔진을 제어하고 억세스하는 것인 대화형 컴퓨텅 시스템.
  3. 제1항에 있어서, 상기 대화형 커널은 상기 대화형 애플리케이션 프로그램 인터페이스(API)를 통해서 애플리케이션이 접근할 수 있는 대화형 서비스 및 행태를 제공하는 것인 대화형 컴퓨팅 시스템.
  4. 제1항에 있어서, 상기 대화형 애플리케이션 프로그램 인터페이스(API)는 대화 파운데이션 클래스(CFC) 및 기본 다이알로그 구성요소의 라이브러리 기능을 구비하고 있는 라이브러리를 구비하고, 상기 대화 파운데이션 클래스(CFC) 및 기본 다이알로그 구성요소는 대화형 객체를 구축하기 위해서 상기 라이브러리를 통해 억세스되며, 상기 대화형 객체는 대화 절차의 수행과 대화형 애플리케이션의 구축 중 하나를 위해서 이용되는 것인 대화형 컴퓨팅 시스템.
  5. 제1항에 있어서, 상기 대화형 커널은 오퍼레이팅 시스템, 실시간 오퍼레이팅 시스템, 가상 머신 및 브라우저 중 하나 상에서 실행하는 것인 대화형 컴퓨팅 시스템.
  6. 제1항에 있어서, 상기 대화형 커널은 오퍼레이팅 시스템 서비스층으로서 실행하는 것인 대화형 컴퓨팅 시스템.
  7. 제1항에 있어서, 상기 대화형 컴퓨팅 시스템은 개인용 컴퓨터 플랫폼, 서버 플랫폼, 임베디드형 클라이언트 장치 플랫폼 및 이들 플랫폼의 분산된 조합 중 하나 상에서 실행하는 것인 대화형 컴퓨팅 시스템.
  8. 제1항에 있어서,
    복수 개의 입출력(I/O) 자원과,
    상기 복수 개의 입출력 자원과 인터페이스하고 상기 복수 개의 입출력 자원을 상기 대화형 커널에 등록하기 위한 입출력 애플리케이션 프로그램 인터페이스(API)를 더 구비하는 것인 대화형 컴퓨팅 시스템.
  9. 제8항에 있어서, 상기 대화형 커널은 상기 입출력 자원 및 대화형 엔진의 기능에 기초하여 사용자에게 제공되는 행태, 대화형 사용자 인터페이스(CUI) 및 다이알로그의 적용을 제공하기 위한 대화형 트랜스코드를 구비하는 것인 대화형 컴퓨팅 시스템.
  10. 제8항에 있어서, 상기 입출력 애플리케이션 프로그램 인터페이스(API) 층은 입출력 앱스트랙션, 사용자 인터페이스 앱스트랙션, 장치 앱스트랙션 및 이들의 조합 중 하나를 구비하는 것인 대화형 컴퓨팅 시스템.
  11. 제1항에 있어서, 상기 대화형 커널은,
    활성 애플리케이션들에 걸쳐 다이알로그를 관리하고 입력 질의에 기초하여 활성 다이알로그, 콘텍스트 및 애플리케이션을 선택하기 위한 다이알로그 관리자와,
    대화 작업의 실행 중에 사용되는 대화형 엔진을 관리 및 할당하기 위한 자원 관리자와,
    대화 작업을 조정하고 디스패치하기 위한 대화 작업 디스페처와,
    대화 작업의 활성 담화의 콘텍스트를 누적시키기 위한 콘텍스트 스택
    을 구비하고,
    상기 콘텍스트는 질의 아규먼트, 속성값 배수(더블)의 리스트 및 대화 상태를 구비하는 것인 대화형 컴퓨팅 시스템.
  12. 제1항에 있어서, 정보를 대화 인식 시스템과 교환하기 위한 대화형 프로토콜을 구현하는 통신 스택을 더 구비하고,
    상기 대화 인식 시스템은 원격 애플리케이션, 원격 장치, 원격 대화형 컴퓨팅 시스템 및 이들의 조합 중 하나를 구비하는 것인 대화형 컴퓨팅 시스템.
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 대화형 가상 머신을 실행하기 위해 컴퓨터에 의해 실행 가능한 저장된 지시 세트를 갖는 컴퓨터 독출 가능 매체로서, 상기 대화형 가상 머신은,
    다른 사용자 인터페이스 모델에 걸쳐 조정된 범용의 대화형 사용자 인터페이스(CUI)를 제공하기 위해서, 하나 이상의 상이한 사용자 인터페이스 모델을 가지는 상이한 플랫폼, 애플리케이션, 장치 또는 이들의 조합에 걸쳐 다이알로그 및 콘텍스트, 대화형 엔진 및 자원 및 통신을 관리하도록 적용된 커널과,
    상기 플랫폼, 애플리케이션, 장치 또는 이들의 조합을 위하여 상기 커널로부터 대화 서비스에 억세스하도록 적용된 앱스트랙션을 구비하는 애플리케이션 프로그램 인터페이스(API)
    를 구비하는 것인 컴퓨터 독출 가능 매체.
  31. 제30항에 있어서, 상기 대화형 가상 머신은 오퍼레이팅 시스템, 실시간 오퍼레이팅 시스템, 가상 머신 및 대화형 브라우저 중 하나 상에서 실행하는 쉘(shell)인 것인 컴퓨터 독출 가능 매체.
  32. 제30항에 있어서, 상기 대화형 가상 머신은 오퍼레이팅 시스템 서비스층으로서 실행하는 것인 컴퓨터 독출 가능 매체.
  33. 제30항에 있어서, 대화형 엔진에 억세스하도록 구성된 앱스트랙션을 구비하는 엔진 애플리케이션 프로그램 인터페이스(API)를 더 구비하는 것인 컴퓨터 독출 가능 매체.
  34. 제30항에 있어서, 상기 애플리케이션 프로그램 인터페이스(API)는 대화 인식 애플리케이션, 특정의 재사용 가능한 다이알로그 작업의 수행을 위한 다이알로그 구성요소, 또는 이들의 조합을 구축하기 위한 라이브러리 기능을 통해서 억세스될 수 있는 복수 개의 대화 파운데이션 클래스를 구비하는 것인 컴퓨터 독출 가능 매체.
  35. 제30항에 있어서, 상기 커널은 대화형 가상 머신 상에서 실행하는 대화형 엔진 및 작업, 처리 또는 스레드(thread)를 구동하도록 적용된 작업 관리자를 구비하는 것인 컴퓨터 독출 가능 매체.
  36. 제30항에 있어서, 상기 커널은,
    로컬형 자원, 분산형 자원 및 이들 모두 중 하나를 관리하도록 적용된 자원 관리자와,
    멀티 모델 입출력(I/O) 이벤트를 관리하도록 적용된 입출력(I/O) 관리자
    를 구비하는 것인 컴퓨터 독출 가능 매체.
  37. 제30항에 있어서, 상기 커널은,
    등록된 애플리케이션들에 걸쳐 대화형 다이알로그를 관리하도록 적용된 다이알로그 관리자와,
    상기 다이알로그 관리자의 제어 하에서 활성 애플리케이션 또는 작업의 콘텍스트를 유지하기 위한 콘텍스트 스택
    을 구비하는 것인 컴퓨터 독출 가능 매체.
  38. 제37항에 있어서, 상기 커널은 상기 등록된 애플리케이션들간의 입출력(I/O) 이벤트의 목표 애플리케이션을 중재하기 위한 중재기를 더 구비하는 것인 컴퓨터 독출 가능 매체.
  39. 제37항에 있어서, 상기 애플리케이션 프로그램 인터페이스(API)는 상기 대화형 가상 머신을 분배하도록 적용된 대화형 프로토콜을 구비하는 것인 컴퓨터 독출 가능 매체.
  40. 제39항에 있어서, 상기 대화형 가상 머신의 분배는 상기 대화형 가상 머신의 완전한 기능을 제공하는 것에 집합적으로 기여하는 다중 장치 또는 자원에 걸쳐서 상기 대화형 가상 머신의 기능 및 구성요소를 분배하는 것을 포함하는 것인 컴퓨터 독출 가능 매체.
  41. 제39항에 있어서, 상기 대화형 가상 머신의 분배는 복수 개의 대화형 가상 머신들간에 상기 대화형 가상 머신의 기능을 분배하는 것을 포함하는 것인 컴퓨터 독출 가능 매체.
  42. 제41항에 있어서, 상기 복수 개의 대화형 가상 머신의 각각의 역할은 상기 대화형 가상 머신들간에 동적으로 전환되는 것인 컴퓨터 독출 가능 매체.
  43. 제39항에 있어서, 상기 대화형 가상 머신의 분배는 상기 등록된 애플리케이션들에 걸쳐서 상기 다이알로그 관리자 및 콘텍스트 스택을 분배하는 것을 포함하는 것인 컴퓨터 독출 가능 매체.
  44. 제30항에 있어서, 상기 대화형 가상 머신은 범용의 대화식 원격 제어장치(UCRC; Universal Conversational Remote Control)의 인터페이스로서 구현되고, 상기 범용의 대화식 원격 제어장치(UCRC)는 대화식으로 인식되는 홈 전기제품을 제어하는데 사용되는 것인 컴퓨터 독출 가능 매체.
  45. 제44항에 있어서, 상기 범용의 대화식 원격 제어장치(UCRC)는 음성 구동형 개인 휴대 단말(PDA) 장치를 구비하는 것인 컴퓨터 독출 가능 매체.
  46. 삭제
  47. 삭제
KR1020017004223A 1998-10-02 1999-10-01 대화형 컴퓨팅 시스템 및 방법, 대화형 가상 머신, 프로그램 저장 장치 및 트랜잭션 수행 방법 KR100620826B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US10295798P 1998-10-02 1998-10-02
US60/102,957 1998-10-02
US11759599P 1999-01-27 1999-01-27
US60/117,595 1999-01-27

Publications (2)

Publication Number Publication Date
KR20010085878A KR20010085878A (ko) 2001-09-07
KR100620826B1 true KR100620826B1 (ko) 2006-09-13

Family

ID=26799924

Family Applications (4)

Application Number Title Priority Date Filing Date
KR10-2001-7004207A KR100430953B1 (ko) 1998-10-02 1999-10-01 네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법
KR1020017004223A KR100620826B1 (ko) 1998-10-02 1999-10-01 대화형 컴퓨팅 시스템 및 방법, 대화형 가상 머신, 프로그램 저장 장치 및 트랜잭션 수행 방법
KR10-2001-7004228A KR100459299B1 (ko) 1998-10-02 1999-10-01 대화식 브라우저 및 대화식 시스템
KR10-2001-7002798A KR100431972B1 (ko) 1998-10-02 1999-10-01 통상의 계층 오브젝트를 사용한 효과적인 음성네비게이션용 뼈대 구조 시스템

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR10-2001-7004207A KR100430953B1 (ko) 1998-10-02 1999-10-01 네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR10-2001-7004228A KR100459299B1 (ko) 1998-10-02 1999-10-01 대화식 브라우저 및 대화식 시스템
KR10-2001-7002798A KR100431972B1 (ko) 1998-10-02 1999-10-01 통상의 계층 오브젝트를 사용한 효과적인 음성네비게이션용 뼈대 구조 시스템

Country Status (10)

Country Link
US (4) US7418382B1 (ko)
EP (4) EP1163576A4 (ko)
JP (4) JP4171585B2 (ko)
KR (4) KR100430953B1 (ko)
CN (4) CN100472500C (ko)
AT (1) ATE383640T1 (ko)
CA (4) CA2345665C (ko)
DE (1) DE69937962T2 (ko)
IL (5) IL142363A0 (ko)
WO (4) WO2000020962A2 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040002031A (ko) * 2002-06-29 2004-01-07 주식회사 케이티 다수의 응용프로그램들간의 음성인식엔진 공유 방법
KR20150137076A (ko) * 2013-03-15 2015-12-08 폭스바겐 악티엔 게젤샤프트 모바일 기기 기능들의 차량내 접근
KR20180075050A (ko) * 2016-12-26 2018-07-04 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법

Families Citing this family (698)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
EP1163576A4 (en) * 1998-10-02 2005-11-30 Ibm CONVERTIVE CALCULATION VIA CONVERSIONAL VIRTUAL MACHINE
US6163794A (en) * 1998-10-23 2000-12-19 General Magic Network system extensible by users
US6886047B2 (en) * 1998-11-13 2005-04-26 Jp Morgan Chase Bank System and method for managing information retrievals for integrated digital and analog archives on a global basis
FR2787902B1 (fr) * 1998-12-23 2004-07-30 France Telecom Modele et procede d'implementation d'un agent rationnel dialoguant, serveur et systeme multi-agent pour la mise en oeuvre
WO2001013255A2 (en) 1999-08-13 2001-02-22 Pixo, Inc. Displaying and traversing links in character array
US7330815B1 (en) * 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
DE69942507D1 (de) 1999-12-06 2010-07-29 Ericsson Telefon Ab L M Intelligente Herstellung von Piconets
JP2001188784A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
US20010043234A1 (en) * 2000-01-03 2001-11-22 Mallik Kotamarti Incorporating non-native user interface mechanisms into a user interface
US7934206B2 (en) * 2000-02-11 2011-04-26 Convergent Networks, Inc. Service level executable environment for integrated PSTN and IP networks and call processing language therefor
WO2003050799A1 (en) * 2001-12-12 2003-06-19 International Business Machines Corporation Method and system for non-intrusive speaker verification using behavior models
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
AU2001256902A1 (en) * 2000-05-05 2001-11-20 James Ewing A method and a system relating to protocol communications within a pre-existing www server framework
US6769010B1 (en) * 2000-05-11 2004-07-27 Howzone.Com Inc. Apparatus for distributing information over a network-based environment, method of distributing information to users, and method for associating content objects with a database wherein the content objects are accessible over a network communication medium by a user
FR2809204B1 (fr) * 2000-05-17 2003-09-19 Bull Sa Interface applicative multiprosseur, ne necessitant pas l'utilisation d'un systeme d'exploitation multiprocesseur
US7039951B1 (en) 2000-06-06 2006-05-02 International Business Machines Corporation System and method for confidence based incremental access authentication
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
CA2349021C (en) * 2000-06-16 2010-03-30 Bayer Corporation System, method and biosensor apparatus for data communications with a personal data assistant
US6654722B1 (en) * 2000-06-19 2003-11-25 International Business Machines Corporation Voice over IP protocol based speech system
US6788667B1 (en) * 2000-06-20 2004-09-07 Nokia Corporation Wireless access to wired network audio services using mobile voice call
AU2001277638A1 (en) * 2000-07-07 2002-01-21 2020Me Holdings Ltd. System, method and medium for facilitating transactions over a network
US7139709B2 (en) 2000-07-20 2006-11-21 Microsoft Corporation Middleware layer between speech related applications and engines
DE60125597T2 (de) * 2000-08-31 2007-05-03 Hitachi, Ltd. Vorrichtung für die Dienstleistungsvermittlung
US6785651B1 (en) * 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
AU2002213338A1 (en) * 2000-10-16 2002-04-29 Eliza Corporation Method of and system for providing adaptive respondent training in a speech recognition application
US7072982B2 (en) 2000-11-22 2006-07-04 Microsoft Corporation Universal naming scheme for peer to peer resources
US7594030B2 (en) 2000-11-22 2009-09-22 Microsoft Corporation Locator and tracking service for peer to peer resources
DE50011222D1 (de) * 2000-12-04 2005-10-27 Siemens Ag Verfahren zum Nutzen einer Datenverarbeitungsanlage abhängig von einer Berechtigung, zugehörige Datenverarbeitungsanlage und zugehöriges Programm
US7016847B1 (en) * 2000-12-08 2006-03-21 Ben Franklin Patent Holdings L.L.C. Open architecture for a voice user interface
GB0030958D0 (en) * 2000-12-19 2001-01-31 Smart Card Solutions Ltd Compartmentalized micro-controller operating system architecture
JP3322262B2 (ja) * 2000-12-22 2002-09-09 日本電気株式会社 無線携帯端末通信システム
DE10064661A1 (de) * 2000-12-22 2002-07-11 Siemens Ag Kommunikationsanordnung und Verfahren für Kommunikationssysteme mit interaktiver Sprachfunktion
FI20002860A (fi) * 2000-12-27 2002-06-28 Nokia Corp Laiteroolit ja pikoverkkoyhteydet
US6925645B2 (en) * 2000-12-29 2005-08-02 Webex Communications, Inc. Fault tolerant server architecture for collaborative computing
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US7461148B1 (en) * 2001-02-16 2008-12-02 Swsoft Holdings, Ltd. Virtual private server with isolation of system components
EP1233590A1 (en) * 2001-02-19 2002-08-21 Sun Microsystems, Inc. Content provider for a computer system
US7606909B1 (en) * 2001-02-20 2009-10-20 Michael Ely Method and apparatus for a business contact center
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
AU2002238961A1 (en) 2001-03-22 2002-10-08 Canon Kabushiki Kaisha Information processing apparatus and method, and program
US7174514B2 (en) * 2001-03-28 2007-02-06 Siebel Systems, Inc. Engine to present a user interface based on a logical structure, such as one for a customer relationship management system, across a web site
US6996531B2 (en) * 2001-03-30 2006-02-07 Comverse Ltd. Automated database assistance using a telephone for a speech based or text based multimedia communication mode
FR2822994B1 (fr) * 2001-03-30 2004-05-21 Bouygues Telecom Sa Assistance au conducteur d'un vehicule automobile
CA2344904A1 (en) * 2001-04-23 2002-10-23 Bruno Richard Preiss Interactive voice response system and method
US7437295B2 (en) 2001-04-27 2008-10-14 Accenture Llp Natural language processing for a location-based services system
US7698228B2 (en) 2001-04-27 2010-04-13 Accenture Llp Tracking purchases in a location-based services system
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7020841B2 (en) 2001-06-07 2006-03-28 International Business Machines Corporation System and method for generating and presenting multi-modal applications from intent-based markup scripts
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US7606712B1 (en) * 2001-06-28 2009-10-20 At&T Intellectual Property Ii, L.P. Speech recognition interface for voice actuation of legacy systems
US7647597B2 (en) * 2001-06-28 2010-01-12 Microsoft Corporation Transparent and sub-classable proxies
US6839896B2 (en) 2001-06-29 2005-01-04 International Business Machines Corporation System and method for providing dialog management and arbitration in a multi-modal environment
JP3997459B2 (ja) 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
EP1708470B1 (en) * 2001-10-03 2012-05-16 Accenture Global Services Limited Multi-modal callback system
US7472091B2 (en) 2001-10-03 2008-12-30 Accenture Global Services Gmbh Virtual customer database
US7324947B2 (en) 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
WO2003030507A2 (en) * 2001-10-03 2003-04-10 Accenture Global Services Gmbh Multi-modal messaging and callback with service authorizer and virtual customer database
US7441016B2 (en) 2001-10-03 2008-10-21 Accenture Global Services Gmbh Service authorizer
US7233655B2 (en) 2001-10-03 2007-06-19 Accenture Global Services Gmbh Multi-modal callback
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7222073B2 (en) 2001-10-24 2007-05-22 Agiletv Corporation System and method for speech activated navigation
US7133830B1 (en) 2001-11-13 2006-11-07 Sr2, Inc. System and method for supporting platform independent speech applications
US8498871B2 (en) * 2001-11-27 2013-07-30 Advanced Voice Recognition Systems, Inc. Dynamic speech recognition and transcription among users having heterogeneous protocols
US20030101054A1 (en) * 2001-11-27 2003-05-29 Ncc, Llc Integrated system and method for electronic speech recognition and transcription
US7302394B1 (en) * 2001-12-20 2007-11-27 Ianywhere Solutions, Inc. Front-end device independence for natural interaction platform
GB2388209C (en) 2001-12-20 2005-08-23 Canon Kk Control apparatus
WO2003063137A1 (en) * 2002-01-22 2003-07-31 V-Enable, Inc. Multi-modal information delivery system
US6990639B2 (en) 2002-02-07 2006-01-24 Microsoft Corporation System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration
US20030187944A1 (en) * 2002-02-27 2003-10-02 Greg Johnson System and method for concurrent multimodal communication using concurrent multimodal tags
US6807529B2 (en) * 2002-02-27 2004-10-19 Motorola, Inc. System and method for concurrent multimodal communication
US6704396B2 (en) 2002-02-27 2004-03-09 Sbc Technology Resources, Inc. Multi-modal communications method
GB0204768D0 (en) * 2002-02-28 2002-04-17 Mitel Knowledge Corp Bimodal feature access for web applications
FR2840484B1 (fr) * 2002-05-28 2004-09-03 France Telecom Protocole de communication entre un module d'application vocale et une plate-forme vocale dans un serveur vocal
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7822609B2 (en) 2002-06-14 2010-10-26 Nuance Communications, Inc. Voice browser with integrated TCAP and ISUP interfaces
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
AU2002345308A1 (en) * 2002-07-17 2004-02-02 Nokia Corporation Mobile device having voice user interface, and a methode for testing the compatibility of an application with the mobile device
US20040054757A1 (en) * 2002-09-14 2004-03-18 Akinobu Ueda System for remote control of computer resources from embedded handheld devices
US8321427B2 (en) 2002-10-31 2012-11-27 Promptu Systems Corporation Method and apparatus for generation and augmentation of search terms from external and internal sources
US7519534B2 (en) 2002-10-31 2009-04-14 Agiletv Corporation Speech controlled access to content on a presentation medium
EP1569129B1 (en) * 2002-12-02 2019-01-30 Sony Corporation Dialogue control device and method, and robot device
KR20040051285A (ko) * 2002-12-12 2004-06-18 삼성전자주식회사 애플릿이 링크된 마크업 문서의 디스플레이 방법 및 그시스템
US7822612B1 (en) * 2003-01-03 2010-10-26 Verizon Laboratories Inc. Methods of processing a voice command from a caller
US7673304B2 (en) * 2003-02-18 2010-03-02 Microsoft Corporation Multithreaded kernel for graphics processing unit
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US7249025B2 (en) * 2003-05-09 2007-07-24 Matsushita Electric Industrial Co., Ltd. Portable device for enhanced security and accessibility
JP4891072B2 (ja) * 2003-06-06 2012-03-07 ザ・トラスティーズ・オブ・コロンビア・ユニバーシティ・イン・ザ・シティ・オブ・ニューヨーク ウェブ・ページを音声付勢するためのシステム及び方法
WO2005004334A2 (en) 2003-06-26 2005-01-13 Agile Tv Corporation Zero-search, zero-memory vector quantization
US7313528B1 (en) * 2003-07-31 2007-12-25 Sprint Communications Company L.P. Distributed network based message processing system for text-to-speech streaming data
US7383302B2 (en) * 2003-09-15 2008-06-03 International Business Machines Corporation Method and system for providing a common collaboration framework accessible from within multiple applications
US7428273B2 (en) 2003-09-18 2008-09-23 Promptu Systems Corporation Method and apparatus for efficient preamble detection in digital data receivers
US7249348B2 (en) * 2003-10-21 2007-07-24 Hewlett-Packard Development Company, L.P. Non-interfering status inquiry for user threads
US7199802B2 (en) * 2003-10-24 2007-04-03 Microsoft Corporation Multiple-mode window presentation system and process
US7856632B2 (en) * 2004-01-29 2010-12-21 Klingman Edwin E iMEM ASCII architecture for executing system operators and processing data operators
US20050229185A1 (en) * 2004-02-20 2005-10-13 Stoops Daniel S Method and system for navigating applications
US7904059B2 (en) * 2004-02-25 2011-03-08 Sk Telecom Co., Ltd. Method and mobile terminal for implementing vector animation interactive service on mobile phone browser
US7925510B2 (en) * 2004-04-28 2011-04-12 Nuance Communications, Inc. Componentized voice server with selectable internal and external speech detectors
US7596788B1 (en) * 2004-05-11 2009-09-29 Platform Computing Corporation Support of non-trivial scheduling policies along with topological properties
US7761863B2 (en) * 2004-06-08 2010-07-20 Covia Labs, Inc. Method system and data structure for content renditioning adaptation and interoperability segmentation model
US7814502B2 (en) * 2004-06-14 2010-10-12 Nokia Corporation Shared landmark user interfaces
KR100627228B1 (ko) * 2004-07-01 2006-09-25 에스케이 텔레콤주식회사 기업용 무선 어플리케이션 서비스를 위한 전용 브라우저시스템 및 그 운영방법
US7483968B1 (en) * 2004-07-29 2009-01-27 Emc Corporation System and method for configuring resource groups
FI20041075A0 (fi) * 2004-08-12 2004-08-12 Nokia Corp Tiedon lähettäminen ryhmälle vastaanottolaitteita
US8744852B1 (en) * 2004-10-01 2014-06-03 Apple Inc. Spoken interfaces
US7693719B2 (en) * 2004-10-29 2010-04-06 Microsoft Corporation Providing personalized voice font for text-to-speech applications
US8706501B2 (en) * 2004-12-09 2014-04-22 Nuance Communications, Inc. Method and system for sharing speech processing resources over a communication network
US7640162B2 (en) * 2004-12-14 2009-12-29 Microsoft Corporation Semantic canvas
KR100654447B1 (ko) * 2004-12-15 2006-12-06 삼성전자주식회사 지역별로 존재하는 컨텐츠를 글로벌로 공유하고 거래하는방법 및 시스템
US7987244B1 (en) * 2004-12-30 2011-07-26 At&T Intellectual Property Ii, L.P. Network repository for voice fonts
KR100725719B1 (ko) * 2005-02-04 2007-06-08 주식회사 유진로봇 음성과 태스크 오브젝트 기반의 대화시스템
US7490042B2 (en) * 2005-03-29 2009-02-10 International Business Machines Corporation Methods and apparatus for adapting output speech in accordance with context of communication
US9111253B2 (en) * 2005-04-22 2015-08-18 Sap Se Groupware time tracking
US20060271520A1 (en) * 2005-05-27 2006-11-30 Ragan Gene Z Content-based implicit search query
WO2006133547A1 (en) 2005-06-13 2006-12-21 E-Lane Systems Inc. Vehicle immersive communication system
JP4667138B2 (ja) * 2005-06-30 2011-04-06 キヤノン株式会社 音声認識方法及び音声認識装置
US8090084B2 (en) * 2005-06-30 2012-01-03 At&T Intellectual Property Ii, L.P. Automated call router for business directory using the world wide web
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8073700B2 (en) * 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US9009046B1 (en) * 2005-09-27 2015-04-14 At&T Intellectual Property Ii, L.P. System and method for disambiguating multiple intents in a natural language dialog system
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
WO2007044479A2 (en) * 2005-10-05 2007-04-19 Dun & Bradstreet, Inc. Modular web-based asp application for multiple products
US8041800B2 (en) * 2005-11-08 2011-10-18 International Business Machines Corporation Automatic orchestration of dynamic multiple party, multiple media communications
US20070124142A1 (en) * 2005-11-25 2007-05-31 Mukherjee Santosh K Voice enabled knowledge system
JP4829600B2 (ja) * 2005-11-28 2011-12-07 キヤノン株式会社 通信装置及び通信装置の制御方法
US9215748B2 (en) 2005-11-28 2015-12-15 Canon Kabushiki Kaisha Communication apparatus, control method for communication apparatus, and communication system
JP2007164732A (ja) * 2005-12-16 2007-06-28 Crescent:Kk コンピュータ実行可能なプログラム、および情報処理装置
DE102005061365A1 (de) * 2005-12-21 2007-06-28 Siemens Ag Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem
CN100382083C (zh) * 2005-12-23 2008-04-16 威盛电子股份有限公司 网络会话管理方法及系统
US7840964B2 (en) * 2005-12-30 2010-11-23 Intel Corporation Mechanism to transition control between components in a virtual machine environment
KR101204408B1 (ko) * 2006-01-19 2012-11-27 삼성전자주식회사 유니폼 객체 모델을 이용한 유비쿼터스 서비스/디바이스테스트 방법 및 장치
US20070180365A1 (en) * 2006-01-27 2007-08-02 Ashok Mitter Khosla Automated process and system for converting a flowchart into a speech mark-up language
US8078990B2 (en) 2006-02-01 2011-12-13 Research In Motion Limited Secure device sharing
US20070225983A1 (en) * 2006-03-23 2007-09-27 Theodore Maringo Worldwide time device
KR101264318B1 (ko) * 2006-07-07 2013-05-22 삼성전자주식회사 네트워크 환경에서의 서비스 메뉴 및 서비스 제공방법 및그 서비스 제공장치
KR100807307B1 (ko) * 2006-07-10 2008-02-28 한국전자통신연구원 대화형 음성 인터페이스 시스템 및 그 응답 방법
US9976865B2 (en) 2006-07-28 2018-05-22 Ridetones, Inc. Vehicle communication system with navigation
US20100030557A1 (en) 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
US8589869B2 (en) * 2006-09-07 2013-11-19 Wolfram Alpha Llc Methods and systems for determining a formula
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
KR100832534B1 (ko) * 2006-09-28 2008-05-27 한국전자통신연구원 음성 인식을 통한 컨텐츠 정보 서비스 제공 장치 및 그방법
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8700014B2 (en) 2006-11-22 2014-04-15 Bindu Rama Rao Audio guided system for providing guidance to user of mobile device on multi-step activities
US8478250B2 (en) 2007-07-30 2013-07-02 Bindu Rama Rao Interactive media management server
US10803474B2 (en) * 2006-11-22 2020-10-13 Qualtrics, Llc System for creating and distributing interactive advertisements to mobile devices
US11256386B2 (en) 2006-11-22 2022-02-22 Qualtrics, Llc Media management system supporting a plurality of mobile devices
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US20080140390A1 (en) * 2006-12-11 2008-06-12 Motorola, Inc. Solution for sharing speech processing resources in a multitasking environment
CA2572116A1 (en) * 2006-12-27 2008-06-27 Ibm Canada Limited - Ibm Canada Limitee System and method for processing multi-modal communication within a workgroup
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8131549B2 (en) 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
AU2012244080B2 (en) * 2007-05-24 2014-04-17 Microsoft Technology Licensing, Llc Personality-based Device
US9794348B2 (en) * 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
US8612972B2 (en) * 2007-06-27 2013-12-17 Microsoft Corporation Running add-on components in virtual environments
US20090018818A1 (en) * 2007-07-10 2009-01-15 Aibelive Co., Ltd. Operating device for natural language input
US9264483B2 (en) 2007-07-18 2016-02-16 Hammond Development International, Inc. Method and system for enabling a communication device to remotely execute an application
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8472934B2 (en) * 2007-11-28 2013-06-25 Nokia Corporation Portable apparatus, method and user interface
JP2010020273A (ja) * 2007-12-07 2010-01-28 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9703784B2 (en) * 2007-12-24 2017-07-11 Sandisk Il Ltd. Mobile device and method for concurrently processing content according to multiple playlists
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8086455B2 (en) * 2008-01-09 2011-12-27 Microsoft Corporation Model development authoring, generation and execution based on data and processor dependencies
US20090198496A1 (en) * 2008-01-31 2009-08-06 Matthias Denecke Aspect oriented programmable dialogue manager and apparatus operated thereby
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
WO2009117820A1 (en) * 2008-03-25 2009-10-01 E-Lane Systems Inc. Multi-participant, mixed-initiative voice interaction system
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) * 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2009143187A2 (en) * 2008-05-19 2009-11-26 Citrix Systems, Inc. Systems and methods for remoting multimedia plugin calls
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
EP3249893A1 (en) * 2008-06-03 2017-11-29 Whirlpool Corporation Appliance development toolkit
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
WO2009152614A1 (en) 2008-06-19 2009-12-23 E-Lane Systems Inc. Communication system with voice mail access and call by spelling functionality
US20090328062A1 (en) * 2008-06-25 2009-12-31 Microsoft Corporation Scalable and extensible communication framework
CN101621480B (zh) * 2008-06-30 2012-03-28 国际商业机器公司 呈现服务器和在其中使用的xsl文件处理方法
US9652023B2 (en) 2008-07-24 2017-05-16 Intelligent Mechatronic Systems Inc. Power management system
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8463053B1 (en) 2008-08-08 2013-06-11 The Research Foundation Of State University Of New York Enhanced max margin learning on multimodal data mining in a multimedia database
US8959053B2 (en) * 2008-08-13 2015-02-17 Alcatel Lucent Configuration file framework to support high availability schema based upon asynchronous checkpointing
JP5897240B2 (ja) * 2008-08-20 2016-03-30 株式会社ユニバーサルエンターテインメント 顧客対応システム、並びに会話サーバ
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8121842B2 (en) 2008-12-12 2012-02-21 Microsoft Corporation Audio output of a document from mobile device
US8914417B2 (en) 2009-01-07 2014-12-16 International Business Machines Corporation Apparatus, system, and method for maintaining a context stack
TW201027378A (en) * 2009-01-08 2010-07-16 Realtek Semiconductor Corp Virtual platform and related simulation method
US8954328B2 (en) * 2009-01-15 2015-02-10 K-Nfb Reading Technology, Inc. Systems and methods for document narration with multiple characters having multiple moods
WO2010084497A1 (en) * 2009-01-26 2010-07-29 Tomer London System and method for providing visual content and services to wireless terminal devices in response to a received voice call
US9529573B2 (en) * 2009-01-28 2016-12-27 Microsoft Technology Licensing, Llc Graphical user interface generation through use of a binary file
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
CN101533409B (zh) * 2009-04-23 2011-03-02 何海群 一种网络浏览器系统和控制方法
US8788524B1 (en) 2009-05-15 2014-07-22 Wolfram Alpha Llc Method and system for responding to queries in an imprecise syntax
US8601015B1 (en) 2009-05-15 2013-12-03 Wolfram Alpha Llc Dynamic example generation for queries
WO2010135837A1 (en) * 2009-05-28 2010-12-02 Intelligent Mechatronic Systems Inc Communication system with personal information management and remote vehicle monitoring and control features
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9002713B2 (en) * 2009-06-09 2015-04-07 At&T Intellectual Property I, L.P. System and method for speech personalization by need
US8442189B2 (en) * 2009-06-22 2013-05-14 Avaya Inc. Unified communications appliance
US9055151B2 (en) * 2009-06-22 2015-06-09 Avaya Inc. Method to set the flag as replied or forwarded to all replied or forwarded voice messages
EP2446652A4 (en) 2009-06-27 2012-08-29 Intelligent Mechatronic Sys INTERNET RADIO INTERFACE FOR VEHICLE
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US20110125733A1 (en) * 2009-11-25 2011-05-26 Fish Nathan J Quick access utility
US9978272B2 (en) 2009-11-25 2018-05-22 Ridetones, Inc Vehicle to vehicle chatting and communication system
US20110144976A1 (en) * 2009-12-10 2011-06-16 Arun Jain Application user interface system and method
US8868427B2 (en) * 2009-12-11 2014-10-21 General Motors Llc System and method for updating information in electronic calendars
GB0922608D0 (en) * 2009-12-23 2010-02-10 Vratskides Alexios Message optimization
EP3091535B1 (en) * 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
JP2011139303A (ja) * 2009-12-28 2011-07-14 Nec Corp 通信システム、制御装置、通信制御方法、およびプログラム
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US9665620B2 (en) * 2010-01-15 2017-05-30 Ab Initio Technology Llc Managing data queries
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8645914B2 (en) 2010-01-22 2014-02-04 AgentSheets, Inc. Conversational programming
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8433828B2 (en) 2010-02-26 2013-04-30 Apple Inc. Accessory protocol for touch screen device accessibility
US8554948B2 (en) * 2010-03-03 2013-10-08 At&T Intellectual Property I, L.P. Methods, systems and computer program products for identifying traffic on the internet using communities of interest
JP5560814B2 (ja) * 2010-03-24 2014-07-30 日本電気株式会社 負荷分散システム、負荷分散サーバおよび負荷分散方法
US8612932B2 (en) * 2010-04-18 2013-12-17 Voxeo Corporation Unified framework and method for call control and media control
US8776091B2 (en) * 2010-04-30 2014-07-08 Microsoft Corporation Reducing feedback latency
US8484015B1 (en) 2010-05-14 2013-07-09 Wolfram Alpha Llc Entity pages
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8352908B2 (en) 2010-06-28 2013-01-08 International Business Machines Corporation Multi-modal conversion tool for form-type applications
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9246914B2 (en) * 2010-07-16 2016-01-26 Nokia Technologies Oy Method and apparatus for processing biometric information using distributed computation
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8812298B1 (en) 2010-07-28 2014-08-19 Wolfram Alpha Llc Macro replacement of natural language input
US8775618B2 (en) * 2010-08-02 2014-07-08 Ebay Inc. Application platform with flexible permissioning
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8688435B2 (en) * 2010-09-22 2014-04-01 Voice On The Go Inc. Systems and methods for normalizing input media
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US20120173242A1 (en) * 2010-12-30 2012-07-05 Samsung Electronics Co., Ltd. System and method for exchange of scribble data between gsm devices along with voice
US8930194B2 (en) 2011-01-07 2015-01-06 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9183843B2 (en) 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9542657B2 (en) * 2011-02-23 2017-01-10 Avaya Inc. Method and system for optimizing contact center performance
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US8171137B1 (en) * 2011-05-09 2012-05-01 Google Inc. Transferring application state across devices
CN103534696B (zh) * 2011-05-13 2018-02-16 微软技术许可有限责任公司 针对口语语言理解中的域检测利用查询点击记录
US20120317492A1 (en) * 2011-05-27 2012-12-13 Telefon Projekt LLC Providing Interactive and Personalized Multimedia Content from Remote Servers
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US9069814B2 (en) 2011-07-27 2015-06-30 Wolfram Alpha Llc Method and system for using natural language to generate widgets
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8645978B2 (en) * 2011-09-02 2014-02-04 Compuverde Ab Method for data maintenance
US9734252B2 (en) 2011-09-08 2017-08-15 Wolfram Alpha Llc Method and system for analyzing data using a query answering system
US8645532B2 (en) * 2011-09-13 2014-02-04 BlueStripe Software, Inc. Methods and computer program products for monitoring the contents of network traffic in a network device
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US9851950B2 (en) 2011-11-15 2017-12-26 Wolfram Alpha Llc Programming in a precise syntax using natural language
US8595016B2 (en) * 2011-12-23 2013-11-26 Angle, Llc Accessing content using a source-specific content-adaptable dialogue
KR101962126B1 (ko) * 2012-02-24 2019-03-26 엘지전자 주식회사 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법
CN103295575B (zh) * 2012-02-27 2019-01-25 北京三星通信技术研究有限公司 一种语音识别方法和客户端
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US20240046928A1 (en) * 2012-04-13 2024-02-08 View, Inc. Controlling optically-switchable devices
EP2847663A4 (en) * 2012-05-07 2015-12-30 Citrix Systems Inc LANGUAGE RECOGNITION SUPPORT FOR REMOTE APPLICATIONS AND DESKTOPS
US20130304536A1 (en) * 2012-05-10 2013-11-14 Ebay, Inc. Harvest Customer Tracking Information
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10395270B2 (en) 2012-05-17 2019-08-27 Persado Intellectual Property Limited System and method for recommending a grammar for a message campaign used by a message optimization system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
US9495129B2 (en) * 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140006318A1 (en) * 2012-06-29 2014-01-02 Poe XING Collecting, discovering, and/or sharing media objects
US8554559B1 (en) * 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9710475B1 (en) 2012-07-16 2017-07-18 Tintri Inc. Synchronization of data
EP2875443A4 (en) * 2012-07-19 2016-05-18 Glance Networks Inc INTEGRATION OF CO-BROWSING WITH OTHER FORMS OF COMMON INFORMATION USE
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9485330B2 (en) 2012-07-30 2016-11-01 Tencent Technology (Shenzhen) Company Limited Web browser operation method and system
CN103577444B (zh) * 2012-07-30 2017-04-05 腾讯科技(深圳)有限公司 一种操控浏览器的方法及系统
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US9378073B2 (en) 2012-08-14 2016-06-28 International Business Machines Corporation Remote procedure call for a distributed system
US9384736B2 (en) * 2012-08-21 2016-07-05 Nuance Communications, Inc. Method to provide incremental UI response based on multiple asynchronous evidence about user input
US9405424B2 (en) 2012-08-29 2016-08-02 Wolfram Alpha, Llc Method and system for distributing and displaying graphical items
KR102150289B1 (ko) * 2012-08-30 2020-09-01 삼성전자주식회사 사용자 단말에서 사용자 인터페이스 장치 및 이를 지원하는 방법
CN102831229A (zh) * 2012-08-30 2012-12-19 浙大网新科技股份有限公司 适合盲人使用的网页浏览方法
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10276157B2 (en) * 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
KR20150063423A (ko) 2012-10-04 2015-06-09 뉘앙스 커뮤니케이션즈, 인코포레이티드 Asr을 위한 개선된 하이브리드 컨트롤러
US9035884B2 (en) 2012-10-17 2015-05-19 Nuance Communications, Inc. Subscription updates in multiple device language models
JPWO2014073206A1 (ja) * 2012-11-07 2016-09-08 日本電気株式会社 情報処理装置、及び、情報処理方法
KR101980834B1 (ko) * 2012-11-28 2019-05-21 한국전자통신연구원 컨텍스트 정보 기반 응용프로그램 관리방법 및 그 장치
US9003039B2 (en) 2012-11-29 2015-04-07 Thales Canada Inc. Method and apparatus of resource allocation or resource release
KR101940719B1 (ko) * 2012-12-14 2019-01-23 한국전자통신연구원 태스크 그래프 기반 대화 처리 시스템의 태스크 그래프 구축 장치 및 방법
CN103117058B (zh) * 2012-12-20 2015-12-09 四川长虹电器股份有限公司 基于智能电视平台的多语音引擎切换系统及方法
CN103020278A (zh) * 2012-12-28 2013-04-03 深圳创维数字技术股份有限公司 一种网页的控制方法及浏览器
US9430420B2 (en) 2013-01-07 2016-08-30 Telenav, Inc. Computing system with multimodal interaction mechanism and method of operation thereof
US9922639B1 (en) 2013-01-11 2018-03-20 Amazon Technologies, Inc. User feedback for speech interactions
CN103971687B (zh) * 2013-02-01 2016-06-29 腾讯科技(深圳)有限公司 一种语音识别系统中的负载均衡实现方法和装置
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US9817835B2 (en) * 2013-03-12 2017-11-14 Tintri Inc. Efficient data synchronization for storage containers
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9218052B2 (en) 2013-03-14 2015-12-22 Samsung Electronics Co., Ltd. Framework for voice controlling applications
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
US9526120B2 (en) 2013-03-15 2016-12-20 Google Inc. Techniques for context-based application invocation for short-range wireless communication interactions
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014251347B2 (en) 2013-03-15 2017-05-18 Apple Inc. Context-sensitive handling of interruptions
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
US9875494B2 (en) 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
WO2014183035A1 (en) 2013-05-10 2014-11-13 Veveo, Inc. Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system
US9431008B2 (en) 2013-05-29 2016-08-30 Nuance Communications, Inc. Multiple parallel dialogs in smart phone applications
WO2014196984A1 (en) * 2013-06-07 2014-12-11 Nuance Communications, Inc. Speech-based search using descriptive features of surrounding objects
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
US9311298B2 (en) * 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
KR102053820B1 (ko) 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
US10956433B2 (en) * 2013-07-15 2021-03-23 Microsoft Technology Licensing, Llc Performing an operation relative to tabular data based upon voice input
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10109273B1 (en) 2013-08-29 2018-10-23 Amazon Technologies, Inc. Efficient generation of personalized spoken language understanding models
US9361289B1 (en) * 2013-08-30 2016-06-07 Amazon Technologies, Inc. Retrieval and management of spoken language understanding personalization data
US10628378B2 (en) 2013-09-03 2020-04-21 Tintri By Ddn, Inc. Replication of snapshots and clones
US9495965B2 (en) * 2013-09-20 2016-11-15 American Institutes For Research Synthesis and display of speech commands method and system
CN103474065A (zh) * 2013-09-24 2013-12-25 贵阳世纪恒通科技有限公司 基于自动分类技术的语音意图判定识别方法
WO2015050543A1 (en) * 2013-10-02 2015-04-09 Empire Technology Development, Llc Identification of distributed user interface (dui) elements
CN104598257B (zh) * 2013-10-30 2019-01-18 华为技术有限公司 远程应用程序运行的方法和装置
KR101740332B1 (ko) * 2013-11-05 2017-06-08 한국전자통신연구원 자동 번역 장치 및 방법
US9754591B1 (en) 2013-11-18 2017-09-05 Amazon Technologies, Inc. Dialog management context sharing
US9690854B2 (en) * 2013-11-27 2017-06-27 Nuance Communications, Inc. Voice-enabled dialog interaction with web pages
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9558176B2 (en) 2013-12-06 2017-01-31 Microsoft Technology Licensing, Llc Discriminating between natural language and keyword language items
KR101489826B1 (ko) * 2013-12-30 2015-02-04 유승우 더미 터미널 및 본체
CA2939468A1 (en) * 2014-02-13 2015-08-20 Nec Corporation Communication system, communication device, communication method, and non-transitory computer readable medium storing program
SG11201707861UA (en) * 2014-03-25 2017-10-30 Botanic Tech Inc Systems and methods for executing cryptographically secure transactions using voice and natural language processing
US20150278852A1 (en) * 2014-04-01 2015-10-01 DoubleVerify, Inc. System And Method For Identifying Online Advertisement Laundering And Online Advertisement Injection
JP2015207819A (ja) * 2014-04-17 2015-11-19 株式会社リコー 情報処理装置、情報処理システム、通信制御方法およびプログラム
US9514376B2 (en) * 2014-04-29 2016-12-06 Google Inc. Techniques for distributed optical character recognition and distributed machine language translation
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9990433B2 (en) 2014-05-23 2018-06-05 Samsung Electronics Co., Ltd. Method for searching and device thereof
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US11314826B2 (en) 2014-05-23 2022-04-26 Samsung Electronics Co., Ltd. Method for searching and device thereof
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
WO2016040769A1 (en) * 2014-09-14 2016-03-17 Speaktoit, Inc. Platform for creating customizable dialog system engines
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
JP6335388B2 (ja) 2014-09-19 2018-05-30 コンヴィーダ ワイヤレス, エルエルシー サービス層セッション移転および共有
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9800619B2 (en) * 2014-10-15 2017-10-24 Ayla Networks, Inc. Registration framework for connected consumer devices
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
EP3207452A4 (en) * 2014-10-15 2018-06-20 Ayla Networks, Inc. Registration framework for connected consumer devices
US9648055B2 (en) * 2014-10-15 2017-05-09 Ayla Networks, Inc. Applications in a flexible registration framework
US9813505B2 (en) 2014-10-15 2017-11-07 Ayla Networks, Inc. Devices in a flexible registration framework
WO2016065020A2 (en) * 2014-10-21 2016-04-28 Robert Bosch Gmbh Method and system for automation of response selection and composition in dialog systems
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9965464B2 (en) * 2014-12-05 2018-05-08 Microsoft Technology Licensing, Llc Automatic process guidance
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10154041B2 (en) * 2015-01-13 2018-12-11 Microsoft Technology Licensing, Llc Website access control
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US10180985B2 (en) * 2015-02-19 2019-01-15 At&T Intellectual Property I, L.P. Apparatus and method for automatically redirecting a search
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9672829B2 (en) * 2015-03-23 2017-06-06 International Business Machines Corporation Extracting and displaying key points of a video conference
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US20160321025A1 (en) * 2015-04-30 2016-11-03 Kabushiki Kaisha Toshiba Electronic apparatus and method
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
CN106302089B (zh) * 2015-05-21 2019-06-11 阿里巴巴集团控股有限公司 会话处理方法和系统
US9721569B2 (en) * 2015-05-27 2017-08-01 Intel Corporation Gaussian mixture model accelerator with direct memory access engines corresponding to individual data streams
EP3304440B1 (en) * 2015-05-27 2021-05-19 Orion Labs Intelligent agent features for wearable personal communication nodes
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10360911B2 (en) 2015-06-01 2019-07-23 AffectLayer, Inc. Analyzing conversations to automatically identify product features that resonate with customers
US10387573B2 (en) 2015-06-01 2019-08-20 AffectLayer, Inc. Analyzing conversations to automatically identify customer pain points
US10133999B2 (en) 2015-06-01 2018-11-20 AffectLayer, Inc. Analyzing conversations to automatically identify deals at risk
US10110743B2 (en) 2015-06-01 2018-10-23 AffectLayer, Inc. Automatic pattern recognition in conversations
US10324979B2 (en) 2015-06-01 2019-06-18 AffectLayer, Inc. Automatic generation of playlists from conversations
US10679013B2 (en) 2015-06-01 2020-06-09 AffectLayer, Inc. IoT-based call assistant device
US10367940B2 (en) 2015-06-01 2019-07-30 AffectLayer, Inc. Analyzing conversations to automatically identify product feature requests
US10181326B2 (en) 2015-06-01 2019-01-15 AffectLayer, Inc. Analyzing conversations to automatically identify action items
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10504137B1 (en) 2015-10-08 2019-12-10 Persado Intellectual Property Limited System, method, and computer program product for monitoring and responding to the performance of an ad
US9688225B2 (en) * 2015-10-09 2017-06-27 Livio, Inc. Methods and systems for a mobile device to emulate a vehicle human-machine interface
EP3363016A4 (en) * 2015-10-15 2019-05-15 Interactive Intelligence Group, Inc. SYSTEM AND METHOD FOR MULTILINGUAL COMMUNICATION SEQUENCING
RU2018113724A (ru) 2015-10-21 2019-11-21 ГУГЛ ЭлЭлСи Сбор параметров и автоматическая генерация диалога в диалоговых системах
US10691473B2 (en) * 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US11018888B2 (en) * 2015-12-03 2021-05-25 Whirlpool Corporation Methods of remote control of appliances
US10832283B1 (en) 2015-12-09 2020-11-10 Persado Intellectual Property Limited System, method, and computer program for providing an instance of a promotional message to a user based on a predicted emotional response corresponding to user characteristics
CN105551488A (zh) * 2015-12-15 2016-05-04 深圳Tcl数字技术有限公司 语音控制方法及系统
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10732783B2 (en) 2015-12-28 2020-08-04 Microsoft Technology Licensing, Llc Identifying image comments from similar images
US10417346B2 (en) * 2016-01-23 2019-09-17 Microsoft Technology Licensing, Llc Tool for facilitating the development of new language understanding scenarios
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10224026B2 (en) * 2016-03-15 2019-03-05 Sony Corporation Electronic device, system, method and computer program
KR102641971B1 (ko) * 2016-03-17 2024-02-29 구글 엘엘씨 하이브리드 클라이언트-서버 데이터 제공
US9996531B1 (en) * 2016-03-29 2018-06-12 Facebook, Inc. Conversational understanding
US10319371B2 (en) * 2016-05-04 2019-06-11 GM Global Technology Operations LLC Disambiguation of vehicle speech commands
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
CN106095593B (zh) 2016-05-31 2019-04-16 Oppo广东移动通信有限公司 一种前、后景应用程序行为同步方法及装置
KR101995540B1 (ko) * 2016-06-03 2019-07-15 주식회사 허브케이 판독/입력 오류 단어 정정 장치 및 방법
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
EP3437215A4 (en) * 2016-06-21 2019-11-27 Hewlett-Packard Development Company, L.P. COMMUNICATION USING MULTIPLE VIRTUAL ASSISTANCE SERVICES
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
KR101827773B1 (ko) 2016-08-02 2018-02-09 주식회사 하이퍼커넥트 통역 장치 및 방법
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
KR102481881B1 (ko) * 2016-09-07 2022-12-27 삼성전자주식회사 외부 디바이스를 제어하는 서버 및 그 방법
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
CN106847272A (zh) * 2016-12-12 2017-06-13 北京光年无限科技有限公司 与运行应用关联的智能机器人的数据交互方法
CN106844453B (zh) * 2016-12-20 2020-09-08 江苏瀚远科技股份有限公司 一种电子文件格式转换方法
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US20180247644A1 (en) * 2017-02-27 2018-08-30 Intel Corporation Queueing spoken dialogue output
EP3392884A1 (en) * 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10127227B1 (en) * 2017-05-15 2018-11-13 Google Llc Providing access to user-controlled resources by automated assistants
US11436417B2 (en) 2017-05-15 2022-09-06 Google Llc Providing access to user-controlled resources by automated assistants
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US11048995B2 (en) 2017-05-16 2021-06-29 Google Llc Delayed responses by computational assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN107319857A (zh) * 2017-06-30 2017-11-07 广东工业大学 一种交互镜子及具有该交互镜子的智能家电系统
JP6777887B2 (ja) * 2017-06-30 2020-10-28 京セラドキュメントソリューションズ株式会社 リモート通信制御システム、セッション管理システムおよびセッション管理プログラム
US10503467B2 (en) * 2017-07-13 2019-12-10 International Business Machines Corporation User interface sound emanation activity classification
US20190018545A1 (en) * 2017-07-13 2019-01-17 International Business Machines Corporation System and method for rapid financial app prototyping
KR102419374B1 (ko) * 2017-07-21 2022-07-11 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
TWI646529B (zh) * 2017-07-25 2019-01-01 雲拓科技有限公司 主動聊天裝置
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
CN109426530B (zh) * 2017-08-17 2022-04-05 阿里巴巴集团控股有限公司 页面确定方法、装置、服务器和存储介质
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10957313B1 (en) 2017-09-22 2021-03-23 Amazon Technologies, Inc. System command processing
US10600419B1 (en) * 2017-09-22 2020-03-24 Amazon Technologies, Inc. System command processing
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
CN107479906A (zh) * 2017-09-28 2017-12-15 电子科技大学 基于Cordova的跨平台在线教育移动终端
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10453454B2 (en) * 2017-10-26 2019-10-22 Hitachi, Ltd. Dialog system with self-learning natural language understanding
CN107767856B (zh) * 2017-11-07 2021-11-19 中国银行股份有限公司 一种语音处理方法、装置及服务器
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
KR102279121B1 (ko) * 2017-12-08 2021-07-19 구글 엘엘씨 스택 데이터 구조 백그라운드의 디지털 어시스턴트 프로세싱
CN108008728B (zh) * 2017-12-12 2020-01-17 深圳市银星智能科技股份有限公司 清洁机器人以及基于清洁机器人的最短路径规划方法
US20190180753A1 (en) * 2017-12-12 2019-06-13 Ca, Inc. Analysis of collaborative dialog data structures from speech processing computer system
WO2019125486A1 (en) * 2017-12-22 2019-06-27 Soundhound, Inc. Natural language grammars adapted for interactive experiences
US11443646B2 (en) 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
US11900928B2 (en) 2017-12-23 2024-02-13 Soundhound Ai Ip, Llc System and method for adapted interactive experiences
US10671251B2 (en) 2017-12-22 2020-06-02 Arbordale Publishing, LLC Interactive eReader interface generation based on synchronization of textual and audial descriptors
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
CN108256066B (zh) * 2018-01-16 2022-01-11 智言科技(深圳)有限公司 端到端层次解码任务型对话系统
CN108269205A (zh) * 2018-01-24 2018-07-10 成都安信思远信息技术有限公司 一种利用云平台的电子数据鉴定系统
CN108319912A (zh) * 2018-01-30 2018-07-24 歌尔科技有限公司 一种唇语识别方法、装置、系统和智能眼镜
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US20190236137A1 (en) * 2018-01-31 2019-08-01 Microsoft Technology Licensing, Llc Generating conversational representations of web content
CN108520748B (zh) * 2018-02-01 2020-03-03 百度在线网络技术(北京)有限公司 一种智能设备功能引导方法及系统
US10891430B2 (en) * 2018-02-02 2021-01-12 Fuji Xerox Co., Ltd. Semi-automated methods for translating structured document content to chat-based interaction
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
KR102507249B1 (ko) * 2018-03-08 2023-03-07 삼성전자주식회사 성능 모드 제어 방법 및 이를 지원하는 전자 장치
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11056107B2 (en) * 2018-03-30 2021-07-06 International Business Machines Corporation Conversational framework
EP3776246A1 (en) * 2018-04-19 2021-02-17 Google LLC Dependency graph conversation modeling for use in conducting human-to-computer dialog sessions with a computer-implemented automated assistant
CN108614773A (zh) * 2018-04-24 2018-10-02 广州链创信息科技有限公司 一种手机小程序用展示发布体验系统
US11094316B2 (en) * 2018-05-04 2021-08-17 Qualcomm Incorporated Audio analytics for natural language processing
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
EP3570189B1 (de) * 2018-05-14 2023-08-09 Siemens Aktiengesellschaft Computerimplementiertes verfahren zum bereitstellen eines adaptiven dialogsystems und ein adaptives dialogsystem
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10776582B2 (en) * 2018-06-06 2020-09-15 International Business Machines Corporation Supporting combinations of intents in a conversation
US10811009B2 (en) 2018-06-27 2020-10-20 International Business Machines Corporation Automatic skill routing in conversational computing frameworks
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
EP3682345B1 (en) 2018-08-07 2021-11-24 Google LLC Assembling and evaluating automated assistant responses for privacy concerns
US11436215B2 (en) 2018-08-20 2022-09-06 Samsung Electronics Co., Ltd. Server and control method thereof
JP7159355B2 (ja) * 2018-08-23 2022-10-24 グーグル エルエルシー マルチアシスタント環境の特性によるアシスタント応答性の規制
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10762893B2 (en) * 2018-09-28 2020-09-01 Comcast Cable Communications, Llc Monitoring of one or more audio/video collection devices
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10594837B1 (en) 2018-11-02 2020-03-17 International Business Machines Corporation Predictive service scaling for conversational computing
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US10770072B2 (en) 2018-12-10 2020-09-08 International Business Machines Corporation Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN110021291B (zh) * 2018-12-26 2021-01-29 创新先进技术有限公司 一种语音合成文件的调用方法及装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
EP3703342B1 (en) * 2019-03-01 2023-07-26 ABB Schweiz AG Dynamic load balancing in network centric process control systems
WO2020185880A1 (en) * 2019-03-12 2020-09-17 Beguided, Inc. Conversational artificial intelligence for automated self-service account management
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111800537B (zh) * 2019-04-09 2021-07-20 Oppo广东移动通信有限公司 终端使用状态的评估方法、装置、存储介质及电子设备
CN111857219B (zh) * 2019-04-25 2023-06-30 益逻触控系统公司 具有三层系统架构的自助服务装置
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
EP3739491B1 (en) 2019-05-17 2022-07-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11526780B2 (en) * 2019-08-05 2022-12-13 Microsoft Technology Licensing, Llc Converting nonnative skills for conversational computing interfaces
US10915227B1 (en) 2019-08-07 2021-02-09 Bank Of America Corporation System for adjustment of resource allocation based on multi-channel inputs
CN110647736A (zh) * 2019-08-13 2020-01-03 平安科技(深圳)有限公司 插件式坐席系统登录方法、装置、计算机设备及存储介质
CN110400564A (zh) * 2019-08-21 2019-11-01 科大国创软件股份有限公司 一种基于栈的聊天机器人对话管理方法
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN110647305B (zh) * 2019-09-29 2023-10-31 阿波罗智联(北京)科技有限公司 应用程序的语音交互方法、装置、设备和介质
US11062270B2 (en) * 2019-10-01 2021-07-13 Microsoft Technology Licensing, Llc Generating enriched action items
US12020696B2 (en) 2019-10-21 2024-06-25 Soundhound Ai Ip, Llc Automatic synchronization for an offline virtual assistant
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
JP7029434B2 (ja) * 2019-10-23 2022-03-03 サウンドハウンド,インコーポレイテッド コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末
WO2021096382A2 (ru) * 2019-11-15 2021-05-20 Федеральное Государственное Автономное Образовательное Учреждение Высшего Образования "Московский Физико-Технический Институт" (Национальный Исследовательский Университет) (Мфти) Способ и система управления диалоговым агентом в канале взаимодействия с пользователем
CN111105289B (zh) * 2019-11-22 2023-05-05 北京云杉信息技术有限公司 一种基于aop方式的客户端订单取消判断方法及装置
US11664044B2 (en) 2019-11-25 2023-05-30 Qualcomm Incorporated Sound event detection learning
EP3836043A1 (en) 2019-12-11 2021-06-16 Carrier Corporation A method and an equipment for configuring a service
WO2021117251A1 (ja) * 2019-12-13 2021-06-17 株式会社日立産機システム 通信モジュール、通信システム及び通信方法
CN111223485A (zh) * 2019-12-19 2020-06-02 深圳壹账通智能科技有限公司 智能交互方法、装置、电子设备及存储介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN113035226B (zh) * 2019-12-24 2024-04-23 中兴通讯股份有限公司 语音通话方法、通信终端和计算机可读介质
US11209573B2 (en) 2020-01-07 2021-12-28 Northrop Grumman Systems Corporation Radio occultation aircraft navigation aid system
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11550552B2 (en) * 2020-03-30 2023-01-10 Nuance Communications, Inc. Development system and method for a conversational application
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN114095487B (zh) * 2020-07-30 2024-03-19 中移(苏州)软件技术有限公司 一种远程任务执行方法、装置及存储介质
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11514799B2 (en) 2020-11-11 2022-11-29 Northrop Grumman Systems Corporation Systems and methods for maneuvering an aerial vehicle during adverse weather conditions
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11410677B2 (en) 2020-11-24 2022-08-09 Qualcomm Incorporated Adaptive sound event classification
CN112527435B (zh) * 2020-12-08 2024-02-13 建信金融科技有限责任公司 浏览器操作方法及系统
US11329933B1 (en) 2020-12-28 2022-05-10 Drift.com, Inc. Persisting an AI-supported conversation across multiple channels
US20220415311A1 (en) * 2021-06-24 2022-12-29 Amazon Technologies, Inc. Early invocation for contextual data processing
US20230197072A1 (en) * 2021-12-17 2023-06-22 Google Llc Warm word arbitration between automated assistant devices
US20230273943A1 (en) * 2022-02-28 2023-08-31 International Business Machines Corporation Synchronizing a sensor network and an ontology
CN115064168B (zh) * 2022-08-17 2022-12-13 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN116719649A (zh) * 2022-09-01 2023-09-08 荣耀终端有限公司 会话通知的提示方法、电子设备及可读存储介质
CN116450383A (zh) * 2023-06-19 2023-07-18 合肥景云软件工程有限责任公司 一种通过网页调用操作系统的方法

Family Cites Families (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4787031A (en) * 1985-01-04 1988-11-22 Digital Equipment Corporation Computer with virtual machine mode and multiple protection rings
JPH0673135B2 (ja) * 1988-03-01 1994-09-14 工業技術院長 自然言語対話処理装置
US5282265A (en) * 1988-10-04 1994-01-25 Canon Kabushiki Kaisha Knowledge information processing system
JPH0384652A (ja) * 1989-08-29 1991-04-10 Personal Joho Kankyo Kyokai ヒューマンインタフェースのアーキテクチャモデル
US5333237A (en) * 1989-10-10 1994-07-26 Hughes Aircraft Company Hypermedia structured knowledge base system
JP3235728B2 (ja) * 1990-02-09 2001-12-04 沖ソフトウェア株式会社 会話制御方式
JPH05304567A (ja) * 1990-04-05 1993-11-16 Texas Instr Inc <Ti> 遠隔通信システムならびにその遠隔通信サービスプレゼンテーションインターフェース及び遠隔通信ネットワーク
JPH0410153A (ja) * 1990-04-27 1992-01-14 Nippon Telegr & Teleph Corp <Ntt> 情報検索システム
US5133004A (en) * 1990-05-07 1992-07-21 Unisys Corporation Digital computer platform for supporting telephone network applications
US5255305A (en) 1990-11-01 1993-10-19 Voiceplex Corporation Integrated voice processing system
US5274695A (en) * 1991-01-11 1993-12-28 U.S. Sprint Communications Company Limited Partnership System for verifying the identity of a caller in a telecommunications network
JPH0792801B2 (ja) * 1991-08-02 1995-10-09 工業技術院長 非単調推論方法
US5283888A (en) * 1991-08-27 1994-02-01 International Business Machines Corporation Voice processing interface unit employing virtual screen communications for accessing a plurality of primed applications
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
JP3213056B2 (ja) * 1992-06-19 2001-09-25 株式会社日立製作所 マルチメディア処理装置
US5384890A (en) * 1992-09-30 1995-01-24 Apple Computer, Inc. Method and apparatus for providing multiple clients simultaneous access to a sound data stream
FR2696574B1 (fr) * 1992-10-06 1994-11-18 Sextant Avionique Procédé et dispositif d'analyse d'un message fourni par des moyens d'interaction à un système de dialogue homme-machine.
JPH06131437A (ja) * 1992-10-20 1994-05-13 Hitachi Ltd 複合形態による操作指示方法
JPH06149534A (ja) * 1992-11-13 1994-05-27 Toshiba Corp 音声画面操作装置
US6029188A (en) * 1993-01-18 2000-02-22 Institute For Personalized Information Environment Information processing system for an architecture model capable of interfacing with humans and capable of being modified
US5544228A (en) * 1993-09-27 1996-08-06 The Walt Disney Company Method and apparatus for transmission of full frequency digital audio
US5509060A (en) * 1993-11-19 1996-04-16 At&T Corp. Network-accessible intelligent telephone service
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5644686A (en) * 1994-04-29 1997-07-01 International Business Machines Corporation Expert system and method employing hierarchical knowledge base, and interactive multimedia/hypermedia applications
JP3408332B2 (ja) * 1994-09-12 2003-05-19 富士通株式会社 ハイパーテキスト読上装置
US5682539A (en) * 1994-09-29 1997-10-28 Conrad; Donovan Anticipated meaning natural language interface
US5594789A (en) * 1994-10-13 1997-01-14 Bell Atlantic Network Services, Inc. Transaction implementation in video dial tone network
JPH10508964A (ja) * 1994-11-08 1998-09-02 バーミア、テクノロジーズ、インコーポレーテッド 料金設定機能を有するオンラインサービス開発ツール
JPH08137697A (ja) * 1994-11-15 1996-05-31 Kobe Steel Ltd 自律分散型システム
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
JP2746218B2 (ja) * 1995-02-23 1998-05-06 富士ゼロックス株式会社 資源管理装置および資源管理方法
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5742845A (en) * 1995-06-22 1998-04-21 Datascape, Inc. System for extending present open network communication protocols to communicate with non-standard I/O devices directly coupled to an open network
JP3729918B2 (ja) * 1995-07-19 2005-12-21 株式会社東芝 マルチモーダル対話装置及び対話方法
US5794205A (en) 1995-10-19 1998-08-11 Voice It Worldwide, Inc. Voice recognition interface apparatus and method for interacting with a programmable timekeeping device
JPH10124378A (ja) 1995-12-01 1998-05-15 Zakuson R & D:Kk インターネットおよびイントラネット上におけるホームページ上の文書録画支援装置および文書録画支援システム
AU1566497A (en) * 1995-12-22 1997-07-17 Rutgers University Method and system for audio access to information in a wide area computer network
US6101528A (en) * 1996-03-27 2000-08-08 Intel Corporation Method and apparatus for discovering server applications by a client application in a network of computer systems
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
IL122647A (en) * 1996-04-22 2002-05-23 At & T Corp Method and device for retrieving information using an audio interface
US5956507A (en) * 1996-05-14 1999-09-21 Shearer, Jr.; Bennie L. Dynamic alteration of operating system kernel resource tables
JPH09319760A (ja) * 1996-05-30 1997-12-12 Nippon Telegr & Teleph Corp <Ntt> 情報検索運行システム
EP1571815A3 (en) * 1996-06-03 2006-10-04 WorldVoice Licensing, Inc. Telephonic voice message store and forward method having network address and voice authentication
JPH1078952A (ja) * 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
US5799063A (en) * 1996-08-15 1998-08-25 Talk Web Inc. Communication system and method of providing access to pre-recorded audio messages via the Internet
JPH10124293A (ja) * 1996-08-23 1998-05-15 Osaka Gas Co Ltd 音声指令可能なコンピュータとそれ用の媒体
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
EP0863466A4 (en) * 1996-09-26 2005-07-20 Mitsubishi Electric Corp INTERACTIVE PROCESSOR
US5721827A (en) * 1996-10-02 1998-02-24 James Logan System for electrically distributing personalized information
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US5774857A (en) * 1996-11-15 1998-06-30 Motorola, Inc. Conversion of communicated speech to text for tranmission as RF modulated base band video
JP3826239B2 (ja) * 1996-11-22 2006-09-27 日本電信電話株式会社 ハイパーテキスト中継方法及び装置
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US5960399A (en) 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
JP2907174B2 (ja) * 1997-02-04 1999-06-21 日本電気株式会社 監視制御システムのユーザインタフェースシステム
JPH10222342A (ja) * 1997-02-06 1998-08-21 Nippon Telegr & Teleph Corp <Ntt> ハイパーテキスト音声制御方法及び装置
JPH10222525A (ja) 1997-02-07 1998-08-21 Hitachi Ltd ナビゲーション方法
JPH10243048A (ja) * 1997-02-27 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 情報伝送方法及びシステム
US5987102A (en) * 1997-03-14 1999-11-16 Efusion, Inc. Method and apparatus for bridging a voice call including selective provision of information in non-audio to the caller
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
JP3646471B2 (ja) * 1997-05-14 2005-05-11 日本電信電話株式会社 情報提供方法及び個人適応情報提供サーバ及び情報提供プログラムを格納した記憶媒体
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
US6108711A (en) * 1998-09-11 2000-08-22 Genesys Telecommunications Laboratories, Inc. Operating system having external media layer, workflow layer, internal media layer, and knowledge base for routing media events between transactions
US6353824B1 (en) * 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6370508B2 (en) * 1998-09-11 2002-04-09 Genesys Telecommunications Laboratories, Inc. Interface engine for managing business processes within a multimedia communication-center
WO1999049394A1 (en) * 1998-03-23 1999-09-30 Microsoft Corporation Application program interfaces in an operating system
US6859451B1 (en) * 1998-04-21 2005-02-22 Nortel Networks Limited Server for handling multimodal information
US6012030A (en) * 1998-04-21 2000-01-04 Nortel Networks Corporation Management of speech and audio prompts in multimodal interfaces
US6018711A (en) * 1998-04-21 2000-01-25 Nortel Networks Corporation Communication system user interface with animated representation of time remaining for input to recognizer
US6438523B1 (en) * 1998-05-20 2002-08-20 John A. Oberteuffer Processing handwritten and hand-drawn input and speech input
US6397259B1 (en) * 1998-05-29 2002-05-28 Palm, Inc. Method, system and apparatus for packet minimized communications
US6253326B1 (en) * 1998-05-29 2001-06-26 Palm, Inc. Method and system for secure communications
US6269366B1 (en) * 1998-06-24 2001-07-31 Eastman Kodak Company Method for randomly combining images with annotations
US6269336B1 (en) * 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
US6119147A (en) * 1998-07-28 2000-09-12 Fuji Xerox Co., Ltd. Method and system for computer-mediated, multi-modal, asynchronous meetings in a virtual space
DE69906540T2 (de) * 1998-08-05 2004-02-19 British Telecommunications P.L.C. Multimodale benutzerschnittstelle
US6195696B1 (en) * 1998-10-01 2001-02-27 International Business Machines Corporation Systems, methods and computer program products for assigning, generating and delivering content to intranet users
EP1163576A4 (en) * 1998-10-02 2005-11-30 Ibm CONVERTIVE CALCULATION VIA CONVERSIONAL VIRTUAL MACHINE
US6493671B1 (en) 1998-10-02 2002-12-10 Motorola, Inc. Markup language for interactive services to notify a user of an event and methods thereof
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6615240B1 (en) * 1998-12-18 2003-09-02 Motive Communications, Inc. Technical support chain automation with guided self-help capability and option to escalate to live help
US6523061B1 (en) * 1999-01-05 2003-02-18 Sri International, Inc. System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system
US6851115B1 (en) * 1999-01-05 2005-02-01 Sri International Software-based architecture for communication and cooperation among distributed electronic agents
US7216351B1 (en) * 1999-04-07 2007-05-08 International Business Machines Corporation Systems and methods for synchronizing multi-modal interactions
US6519617B1 (en) * 1999-04-08 2003-02-11 International Business Machines Corporation Automated creation of an XML dialect and dynamic generation of a corresponding DTD
US6636831B1 (en) * 1999-04-09 2003-10-21 Inroad, Inc. System and process for voice-controlled information retrieval
US6529889B1 (en) * 1999-07-27 2003-03-04 Acappella Software, Inc. System and method of knowledge architecture
US6799169B1 (en) * 1999-08-13 2004-09-28 International Business Machines Corporation Method and system for modeless operation of a multi-modal user interface through implementation of independent decision networks
US7069220B2 (en) * 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
US6377913B1 (en) * 1999-08-13 2002-04-23 International Business Machines Corporation Method and system for multi-client access to a dialog system
US6738803B1 (en) * 1999-09-03 2004-05-18 Cisco Technology, Inc. Proxy browser providing voice enabled web application audio control for telephony devices
US6615172B1 (en) * 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6829603B1 (en) * 2000-02-02 2004-12-07 International Business Machines Corp. System, method and program product for interactive natural dialog
US7415537B1 (en) * 2000-04-07 2008-08-19 International Business Machines Corporation Conversational portal for providing conversational browsing and multimedia broadcast on demand
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6970935B1 (en) * 2000-11-01 2005-11-29 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US6839896B2 (en) * 2001-06-29 2005-01-04 International Business Machines Corporation System and method for providing dialog management and arbitration in a multi-modal environment
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7349845B2 (en) * 2003-09-03 2008-03-25 International Business Machines Corporation Method and apparatus for dynamic modification of command weights in a natural language understanding system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040002031A (ko) * 2002-06-29 2004-01-07 주식회사 케이티 다수의 응용프로그램들간의 음성인식엔진 공유 방법
KR20150137076A (ko) * 2013-03-15 2015-12-08 폭스바겐 악티엔 게젤샤프트 모바일 기기 기능들의 차량내 접근
KR101687932B1 (ko) * 2013-03-15 2016-12-28 폭스바겐 악티엔 게젤샤프트 모바일 기기 기능들의 차량내 접근
KR20180075050A (ko) * 2016-12-26 2018-07-04 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법
KR102643501B1 (ko) 2016-12-26 2024-03-06 현대자동차주식회사 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법

Also Published As

Publication number Publication date
CA2345660C (en) 2006-01-31
KR100431972B1 (ko) 2004-05-22
CA2345662A1 (en) 2000-04-13
DE69937962T2 (de) 2008-12-24
DE69937962D1 (de) 2008-02-21
EP1125277A4 (en) 2002-02-20
KR100430953B1 (ko) 2004-05-12
KR20010073105A (ko) 2001-07-31
CN1160700C (zh) 2004-08-04
US8082153B2 (en) 2011-12-20
CN1342290A (zh) 2002-03-27
EP1133734A4 (en) 2005-12-14
CN1321295A (zh) 2001-11-07
KR20010085878A (ko) 2001-09-07
WO2000021232A2 (en) 2000-04-13
CA2345665C (en) 2011-02-08
JP2002526855A (ja) 2002-08-20
EP1133734A2 (en) 2001-09-19
US20090313026A1 (en) 2009-12-17
CN1151488C (zh) 2004-05-26
JP2002527919A (ja) 2002-08-27
EP1125279A4 (en) 2005-02-23
EP1163576A4 (en) 2005-11-30
JP4171585B2 (ja) 2008-10-22
CN100472500C (zh) 2009-03-25
ATE383640T1 (de) 2008-01-15
CN1323435A (zh) 2001-11-21
WO2000021075A1 (en) 2000-04-13
WO2000021073A1 (en) 2000-04-13
IL142366A (en) 2008-11-26
WO2000020962A2 (en) 2000-04-13
IL142366A0 (en) 2002-03-10
WO2000021232A3 (en) 2000-11-02
EP1125279B1 (en) 2008-01-09
IL142363A0 (en) 2002-03-10
JP3703082B2 (ja) 2005-10-05
KR20010075552A (ko) 2001-08-09
CN1321296A (zh) 2001-11-07
IL140805A0 (en) 2002-02-10
JP2003525477A (ja) 2003-08-26
US20070043574A1 (en) 2007-02-22
EP1163576A2 (en) 2001-12-19
EP1125277A1 (en) 2001-08-22
KR20020004931A (ko) 2002-01-16
EP1125279A1 (en) 2001-08-22
CA2345660A1 (en) 2000-04-13
CA2345661A1 (en) 2000-04-13
CN1171200C (zh) 2004-10-13
WO2000020962A3 (en) 2000-07-13
JP2002527800A (ja) 2002-08-27
IL142364A0 (en) 2002-03-10
WO2000021075A9 (en) 2000-06-08
US7729916B2 (en) 2010-06-01
US7137126B1 (en) 2006-11-14
CA2345665A1 (en) 2000-04-13
US7418382B1 (en) 2008-08-26
KR100459299B1 (ko) 2004-12-03

Similar Documents

Publication Publication Date Title
KR100620826B1 (ko) 대화형 컴퓨팅 시스템 및 방법, 대화형 가상 머신, 프로그램 저장 장치 및 트랜잭션 수행 방법
JP3943543B2 (ja) マルチモーダル環境における対話管理およびアービトレーションを提供するシステムおよび方法
EP3491533B1 (en) Providing command bundle suggestions for an automated assistant
US7680816B2 (en) Method, system, and computer program product providing for multimodal content management
US7036128B1 (en) Using a community of distributed electronic agents to support a highly mobile, ambient computing environment
JP4750139B2 (ja) パーベイシブ装置用のウェブ・サービスへの動的拡張可能な軽量アクセス
EP1076288B1 (en) Method and system for multi-client access to a dialog system
US7016847B1 (en) Open architecture for a voice user interface
CN101243437A (zh) 由端点定制的虚拟机器人通信格式
US20080140803A1 (en) Configurable Continuous Web Service Invocation on Pervasive Device
Demesticha et al. Aspects of design and implementation of a multi-channel and multi-modal information system
AU2002315475A1 (en) System and method for providing dialog management and arbitration in a multi-modal environment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120820

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130822

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140821

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150820

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160818

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20170817

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190227

Year of fee payment: 13