TWI744634B - 使用者經驗評估 - Google Patents

使用者經驗評估 Download PDF

Info

Publication number
TWI744634B
TWI744634B TW108116472A TW108116472A TWI744634B TW I744634 B TWI744634 B TW I744634B TW 108116472 A TW108116472 A TW 108116472A TW 108116472 A TW108116472 A TW 108116472A TW I744634 B TWI744634 B TW I744634B
Authority
TW
Taiwan
Prior art keywords
user
input
experience
user experience
specific task
Prior art date
Application number
TW108116472A
Other languages
English (en)
Other versions
TW201947362A (zh
Inventor
金萊軒
郭寅一
瑞比 喬杜里
文山古
艾瑞克 維瑟
費特梅 薩吉
Original Assignee
美商高通公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商高通公司 filed Critical 美商高通公司
Publication of TW201947362A publication Critical patent/TW201947362A/zh
Application granted granted Critical
Publication of TWI744634B publication Critical patent/TWI744634B/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/18Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state for vehicle drivers or machine operators
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/087Interaction between the driver and the control system where the control system corrects or modifies a request from the driver
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/10Interpretation of driver requests or demands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0077Devices for viewing the surface of the body, e.g. camera, magnifying lens
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Pathology (AREA)
  • Developmental Disabilities (AREA)
  • Social Psychology (AREA)
  • Psychology (AREA)
  • Biophysics (AREA)
  • Transportation (AREA)
  • Educational Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Mechanical Engineering (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本發明揭示一種裝置,其包括經組態以儲存一使用者體驗評估單元之一記憶體。一處理器經組態以接收對應於用以起始一特定任務之一使用者命令的一第一使用者輸入,該第一使用者輸入經由一第一感測器接收。該處理器經組態以在接收該第一使用者輸入之後接收一或多個後續使用者輸入,該一或多個後續使用者輸入包括經由一第二感測器接收之一第二使用者輸入。該處理器經組態以回應於基於該使用者體驗評估單元判定該一或多個後續使用者輸入對應於一負面使用者體驗而起始一矯正措施。

Description

使用者經驗評估
本發明大體上係關於回應於接收使用者輸入而識別且執行任務之系統,且更特定言之,係關於評估運用此等系統之一使用者體驗。
一些基於音訊之系統(諸如交通工具導航系統或智慧型揚聲器系統)能夠自使用者接收口頭命令且基於該命令執行動作。舉例而言,使用者可說出命令「在起居室揚聲器上播放音樂。」智慧型揚聲器可對使用者話語(或基於使用者話語之文字串)執行自然語言處理(NLP)以識別待執行之動作。然而,若以錯誤方式識別待執行之動作,則使用者可能感到沮喪,因此降級使用者之體驗。重複命令可能導致重複錯誤識別使用者之話語中的命令,諸如當環境雜訊正在干擾系統辨識使用者之話語的能力時,從而進一步加深使用者之沮喪。儘管在一些狀況下,系統可正確地識別使用者之重複命令,但在其他狀況下,使用者可能選擇中斷使用系統,而不必再一次重複命令。在任一情形中,使用者與系統之互動導致負面的使用者體驗,且降低使用者再次使用該系統的可能性。
在一特定態樣中,一種裝置包括:一記憶體,其經組態以儲存一使用者體驗評估單元;及一處理器,其耦接至該記憶體。該處理器經組態以接收對應於用以起始一特定任務的一使用者命令的一第一使用者輸入。該第一使用者輸入經由一第一感測器接收。該處理器經組態以在接收該第一使用者輸入之後接收一或多個後續使用者輸入。該一或多個後續使用者輸入包括經由一第二感測器接收之一第二使用者輸入。該處理器亦經組態以回應於基於該使用者體驗評估單元判定該一或多個後續使用者輸入對應於一負面使用者體驗而起始一矯正措施。
在另一特定態樣中,一種用於基於一經判定使用者體驗操作一裝置的方法包括在一處理器處接收對應於用以起始一特定任務之一使用者命令的一第一使用者輸入。該第一使用者輸入經由一第一感測器接收。該方法包括在接收該第一使用者輸入之後接收一或多個後續使用者輸入。該一或多個後續使用者輸入包括經由一第二感測器接收之一第二使用者輸入。該方法亦包括回應於基於一使用者體驗評估單元判定該一或多個後續使用者輸入對應於一負面使用者體驗而起始一矯正措施。
在另一特定態樣中,一種設備包括用於接收對應於用以起始一特定任務之一使用者命令的一第一使用者輸入的構件。該第一使用者輸入經由一第一感測器接收。該設備包括用於接收一或多個後續使用者輸入的構件。該一或多個後續使用者輸入包括在接收該第一使用者輸入之後經由一第二感測器接收的一第二使用者輸入。該設備亦包括用於回應於基於一使用者體驗評估單元判定該一或多個後續使用者輸入對應於一負面使用者體驗而起始一矯正措施的構件。
在另一特定態樣中,一種非暫時性電腦可讀媒體儲存在由一處理器執行時使得該處理器執行以下操作的指令:起始、執行或控制包括接收對應於用以起始一特定任務之一使用者命令的一第一使用者輸入的操作。該第一使用者輸入經由一第一感測器接收。該等操作包括在接收該第一使用者輸入之後接收一或多個後續使用者輸入,該一或多個後續使用者輸入包括經由一第二感測器接收之一第二使用者輸入。該等操作包括回應於基於一使用者體驗評估單元判定該一或多個後續使用者輸入對應於一負面使用者體驗而起始一矯正措施。
在審閱整個申請案之後,本發明之其他態樣、優勢及特徵將變得顯而易見,該整個申請案包括以下章節:圖式簡單說明、實施方式,及申請專利範圍。
根據 35 U.S.C.§119 之優先權主張
本專利申請案主張2018年5月17日申請的標題為「USER EXPERIENCE EVALUATION」之非臨時申請案第15/982,851號之優先級,該申請案此處指派至受讓人且特此以引用的方式明確併入本文中。
下文參考圖式描述本發明之特定態樣。在描述中,貫穿圖式藉由共同參考編號指定共同特徵。如本文所使用,僅僅出於描述特定實施之目的而使用各種術語,且該術語並不意欲為限制性的。舉例而言,除非內容以其他方式明確地指示,否則單數形式「一」及「該」意欲同樣包括複數形式。可進一步理解,術語「包含(comprise/comprises/comprising)」可與「包括(include/includes/including)」互換地使用。另外,應理解,術語「其中(wherein)」可與「在…的情況下(where)」互換使用。如本文中所使用,「例示性」可指示實例、實施及/或態樣,且不應被視作限制或視為指示偏好或較佳實施。如本文中所使用,用以修改元件(諸如,結構、組件、操作等)之序數術語(例如,「第一」、「第二」、「第三」等)本身不指示元件關於另一元件之任何優先權或次序,而是僅將元件與具有相同名稱之另一元件區別開(除非使用序數術語)。如本文中所使用,術語「集合」係指一或多個元件之群組,且術語「複數個」係指多個元件。
在本發明中,諸如「判定」、「計算」、「估計」、「偏移」、「調整」等等之術語可用以描述如何執行一或多個操作。應注意,此等術語不應解釋為限制性的且其他技術可用以執行類似操作。另外,如本文中所提及,「產生」、「計算」、「估計」、「使用」、「選擇」、「存取」及「判定」可互換使用。舉例而言,「產生」、「計算」、「估計」或「判定」參數(或信號)可指有效地產生、估計、計算或判定參數(或信號),或可指使用、選擇或存取已(諸如)由另一組件或裝置產生之參數(或信號)。
如本文中所使用,「耦接」可包括「通信耦接」、「電性耦接」或「實體耦接」,且亦可(或替代地)包括其任何組合。兩個裝置(或組件)可經由一個或多個其他裝置、組件、導線、匯流排、網路(例如,有線網路、無線網路或其一組合)等等直接地或間接地耦接(例如,通信耦接、電性耦接或實體耦接)。作為說明性非限制性實例,電性耦接之兩個裝置(或組件)可包括於相同裝置或不同裝置中,且可經由電子件、一或多個連接器或電感性耦接連接。在一些實施中,諸如在電通信中通信耦接之兩個裝置(或組件)可諸如經由一或多個導線、匯流排、網路等直接或間接地發送及接收電信號(數位信號或類比信號)。如本文中所使用,「直接耦接」可包括在無介入組件之情況下耦接(例如,通信耦接、電性耦接或實體耦接)兩個裝置。
系統與方法允許評估使用者體驗,且在使用者體驗經判定為負面或以其他方式不符合要求的情況下起始一或多個矯正措施。在一些實施中,可基於多模態分析偵測使用者命令之錯誤解譯,諸如藉由使用者說出且經由系統之話語介面解譯之命令。舉例而言,使用者體驗評估可包括話語關鍵字偵測,諸如有力表達、無意義字語或感歎語(例如,髒話)的偵測。使用者體驗評估可包括音訊情緒分析、視訊情緒分析或兩者,以便偵測使用者之沮喪位準或高興位準。作為非限制性實例,使用者體驗評估可包括基於使用者之語音反饋而判定的音韻分析及用以偵測諸如笑聲、爭吵或嬰兒哭聲之事件的音訊事件偵測。若使用者之體驗被偵測為負面的,則可選擇一或多個矯正措施幫助安撫使用者、幫助避開負面體驗源、更新系統以阻止或減少未來負面體驗之可能性,或其一組合。
圖1描繪系統100之說明性實例,該系統包括處理器102,其耦接至記憶體104、第一感測器110及第二感測器112。系統100經組態以基於使用者輸入解譯命令,且基於該命令起始任務之執行。系統100亦經組態以在起始任務之執行之後評估使用者體驗,且在使用者經判定具有負面體驗的情況下選擇待執行之矯正措施。選擇矯正措施以改良使用者之體驗,諸如藉由幫助安撫使用者、藉由幫助避開負面體驗源、藉由執行更新以阻止或減少未來負面體驗之可能性,或其一組合。
處理器102、記憶體104及感測器110、112實施於交通工具160中,諸如汽車。(在其他實施中,處理器102、記憶體104及感測器110、112實施於其他裝置或系統中,諸如智慧型揚聲器系統或行動裝置,如下文進一步描述)。第一感測器110及第二感測器112各自經組態以擷取自使用者162 (諸如交通工具160之操作者)接收之使用者輸入。舉例而言,第一感測器110可包括經組態以擷取使用者話語108之麥克風,且第二感測器112可包括經組態以擷取使用者162之影像或視訊的攝影機。第一感測器110及第二感測器112經組態以將使用者輸入提供至處理器102。舉例而言,第一感測器110經組態以擷取指示使用者之命令的第一使用者輸入140 (例如,第一音訊資料)且將其提供至處理器102。使用者話語108可為來自使用者162之發言,諸如交通工具160之駕駛員或乘客。在一特定實施中,第一使用者輸入140對應於與關鍵字無關的話語(例如,並不包括關鍵字作為第一字語的話語)。第二感測器112經組態以將第二使用者輸入152 (例如,包括非口頭使用者資訊之視訊輸入)提供至處理器102。
記憶體104包括映射單元130及使用者體驗評估單元132。映射單元130可由處理器102執行以將所接收命令(諸如命令142)映射至待回應於命令142而執行之操作(亦被稱作「任務」或「技能」)。可藉由系統100支援之技能的實例包括「導航至家」、「打開無線電」、「呼叫媽媽」或「找出附近的燃氣站」。映射單元130係可執行的以返回對應於所接收之命令142的特定技能144。使用者體驗評估單元132經組態以基於一或多個所接收輸入判定指示使用者162之體驗之態樣的體驗資料146。舉例而言,使用者體驗評估單元132可基於話語關鍵字偵測、音訊情緒分析、視訊情緒分析、音韻分析,音訊事件偵測中之至少一者評估使用者體驗。在一些實施中,映射單元130、使用者體驗評估單元132或兩者係可動態調整的,且基於使用者反饋進行更新。參考圖2至圖4更詳細描述映射單元130及使用者體驗評估單元132之實施。
處理器102包括自動話語辨識(ASR)引擎120、導航引擎122及體驗管理器124。ASR引擎120經組態以接收對應於使用者話語之音訊輸入,且產生指示音訊輸入中之所偵測話語的輸出。舉例而言,在一些實施中,ASR引擎120產生識別音訊輸入中所偵測之字語的文字輸出。為了說明,ASR引擎120可處理第一使用者輸入140之音訊部分,且產生包括藉由使用者162說出的所偵測命令142的文字輸出。在一些實施中,處理器102經組態以在嘗試將輸入資料轉換至文字輸出之前判定輸入資料是否包括話語。舉例而言,處理器102可對輸入資料執行語音活動偵測(VAD),且若語音活動位準滿足臨限,則可將輸入資料(或其一部分)識別為話語。若語音活動位準並不滿足臨限,則可捨棄輸入資料(或以其他方式未作進一步處理)。
導航引擎122經組態以執行與交通工具160相關聯之一或多個操作。舉例而言,作為說明性的非限制性實例,導航引擎122可經組態以判定交通工具160相對於一或多個電子地圖之方位,繪出自當前位置至使用者選擇之位置的路線,或導航交通工具160 (例如,在交通工具操作之自主模式中)。
體驗管理器124經組態以自使用者體驗評估單元132接收體驗資料146。體驗資料146可包括將使用者體驗分類為「良好」或「不良」之分類器(例如,具有介於0與1之間的值的資料,其中值「1」指示使用者體驗係正面的,且值「0」指示使用者體驗係負面的)。在其他實例中,作為說明性的非限制性實例,體驗資料146可包括多個值,諸如指示快樂之測量結果的第一值、指示憤怒之測量結果的第二值、指示沮喪之測量結果的第三值、指示悲傷之測量結果的第四值,及指示興奮之測量結果的第五值。
體驗管理器124經組態以判定體驗資料146是否指示負面使用者體驗。在一特定實例中,體驗管理器124經組態以回應於體驗資料146之一或多個值(例如,良好/不良分類器)低於臨限值(例如,0.5)而判定負面使用者體驗。作為另一實例,體驗管理器124可經組態以產生體驗資料146之多個值的加權和(例如,藉由將快樂值及興奮值相加,且減去憤怒值、沮喪值及悲傷值),且可將該加權和與臨限值進行比較以判定體驗資料146是否對應於負面使用者體驗。
回應於判定體驗資料146指示負面使用者體驗,體驗管理器124經組態以起始矯正措施126之執行。在第一實例中,矯正措施126包括提示使用者以獲得非音訊輸入,該非音訊輸入指示將與使用者命令相關聯的使用者選擇之任務。為了說明,當負面使用者體驗由針對命令142選擇之不正確技能144產生時,可選擇矯正措施126以校正技能144之錯誤識別,且可包括提示使用者162以指示應與命令142相關聯之任務。若命令142基於音訊輸入進行判定,則可經由視覺或聽覺提示而提示使用者162以獲得非音訊輸入(例如,以經由觸控式螢幕或經由示意動作選擇任務),以指示將與使用者命令142相關聯的使用者選擇之任務。非音訊輸入(諸如)經由觸控式螢幕顯示器裝置或經由攝影機偵測之示意動作的鍵入可在高環境雜訊降級ASR引擎120之效能且造成使用者之話語108之不精確解譯的情形中減少其他使用者沮喪。
在另一實例中,矯正措施126包括建議使用者162執行一或多個措施以增強藉由麥克風擷取之音訊的話語辨識。為了說明,當高環境雜訊降級ASR引擎120之效能且造成使用者之話語108之不精確解譯時,矯正措施126可包括指示使用者162關閉一扇打開的窗戶,將向著麥克風引導話語108 (例如,朝著第一感測器110說話),更響亮或清楚地說話,或其一組合。
在另一實例中,選擇矯正措施126以藉由改善使用者162之心情來減少使用者體驗之負面態樣。為了說明,矯正措施126可包括播放舒緩音樂、調整語音介面從而以安撫方式向使用者162說話或產生安撫效果,或向使用者162建議進行放鬆活動中的一或多者。使用者特定資料可為可由處理器102存取的,以提供用於安撫使用者162之可選擇選項,諸如可在針對使用者162產生使用者設定檔期間已藉由使用者162識別。舉例而言,作為說明性的非限制性實例,使用者162可向系統100輸入使用者之放鬆偏好,諸如特定音樂或環境聲音(例如瀑布)及較佳音量、特定溫度設定或交通工具160之暫停或執行設定。
替代地或另外,用於安撫使用者162的一或多個選項可藉由辨識而自動判定(例如,基於歷史體驗得分與對應於歷史體驗得分之相關聯措施及情形的相關值),該等措施及情形與正面使用者體驗、使用者體驗之正面改變或其一組合高度相關。作為一實例,處理器102可在分析與使用者162之互動歷史期間判定行至使用者162之姊妹家與自負面使用者體驗至正面使用者體驗的所偵測轉變之間的高相關性。因此,體驗管理器124可產生待呈現至使用者162之輸出,諸如「你今天想拜訪你的姊妹嗎?」,作為矯正措施126。以此方式,處理器102可經組態以監視使用者之情緒狀態,且將該情緒狀態(或情緒狀態之變化)與供稍後用於回應於偵測到負面體驗而改善使用者之心情的一或多個操作相關。
操作之實例在下文第一感測器110為麥克風且第二感測器112為攝影機之實施中描述。使用者162說出諸如「回家」之命令,指示使用者162希望導航引擎122在顯示於交通工具導航螢幕上的地圖上繪出通往使用者家的路線。第一感測器110產生對應於用以起始特定任務(例如,繪出路線)之使用者命令(例如,「回家」)的第一使用者輸入140。
ASR引擎120處理第一使用者輸入140之音訊資料且產生命令142。歸因於交通工具160中之風雜訊的量,ASR引擎120可能不成功而將命令142解譯為「去羅馬」。因此,處理器102使用使用者命令142存取映射單元130,該映射單元130將命令142映射至個人助理任務,以起始至意大利羅馬的行程規劃,並輸出技能144。處理器102藉由經由語音介面提示使用者162「好的。讓我們制定一個去羅馬的行程。你希望哪天出發呢?」來起始藉由映射單元130選擇的技能144。
在接收第一使用者輸入140且起始技能144之執行以制定去羅馬的行程之後,處理器102接收一或多個後續使用者輸入150,包括經由第二感測器112接收之第二使用者輸入152及經由第一感測器110接收之第三使用者輸入154(例如,包括使用者162之一或多個發言的音訊輸入)。使用者體驗評估單元132處理第二使用者輸入152及第三使用者輸入154以判定體驗資料146。
舉例而言,如參看圖4更詳細描述,使用者體驗評估單元132可評估第二使用者輸入152之視訊資料以偵測指示負面使用者體驗之示意動作(諸如晃動拳頭、咬牙或緊繃姿勢)或指示正面使用者體驗之示意動作(諸如微笑、吹口哨或放鬆的姿勢)。使用者體驗評估單元132可評估第三使用者輸入154之音訊資料以偵測關鍵字、語調、或可指示正面使用者體驗或負面使用者體驗的使用者之話語108之其他特性。
若體驗資料146指示正面使用者體驗,則體驗管理器124可判定技能144經正確選擇且不需執行矯正措施。否則回應於體驗資料146指示使用者輸入152、154對應於負面使用者體驗,體驗管理器124可選擇且起始矯正措施126之執行。舉例而言,體驗管理器124可提示使用者162以獲得反饋以判定技能144是否被錯誤識別,可向使用者162提供在識別命令142方面減少錯誤的建議(例如,移除環境雜訊源),或可起始措施以安撫或安慰使用者162,諸如播放舒緩音樂。在一些實施中,系統100提示使用者162確認命令142、技能144或該兩者是否係正確的,且若不正確,則系統100提示使用者162重複該命令。
在一些實施中,諸如當使用者162正在操作交通工具160時,體驗管理器124可延遲矯正措施126之執行,直至使用者162已關閉交通工具160、使用者162經偵測具有非負面使用者體驗,或該兩者皆發生為止。舉例而言,可延遲矯正措施126,直至偵測到負面使用者體驗已結束為止。因此,在使用者162經歷負面情緒且操作交通工具160時,體驗管理器124可避免請求使用者反饋或以其他方式進行與使用者162之非必要互動。因此,可降低使用者之體驗惡化的可能性,且可增大使用者操作交通工具160之安全性。
藉由偵測使用者162具有負面使用者體驗且起始矯正措施126,系統100可改良使用者162之整體體驗。舉例而言,當矯正措施126包括識別且校正經錯誤識別之命令時,使用者之體驗可改良。在另一實例中,矯正措施126係可操作的以安慰或安撫使用者162,且相較於在執行矯正措施126之前的使用者之體驗,使用者之體驗可即刻增強。作為另一實例,當矯正措施126包括接收關於不滿意之來源(例如,命令142之錯誤識別)的使用者反饋時,使用該反饋更新且調適映射單元130造成命令142未來的錯誤預測減少(經由經更新映射單元130之操作)且使用者162之未來體驗增強。
儘管分別參考麥克風及攝影機描述第一感測器110及第二感測器112,但在其他實施中,第一感測器110及第二感測器112對應於其他類型之感測器。舉例而言,第一感測器110可對應於攝影機、生物辨識感測器或另一類型之感測器,且第二感測器112可對應於麥克風、生物辨識感測器或另一類型之感測器。儘管展示兩個感測器,但在其他實施中,諸如參考圖2所描述,包括兩個以上感測器。
儘管系統100被描繪於交通工具160中,諸如汽車、船、飛機等等,在其他實施中,系統100並為實施於交通工具中,且可實際上實施為智慧型揚聲器裝置之部分、實施為家庭或建築自動化系統之部分,或其一組合。為了說明,在一特定實施中,系統100被實施於智慧型揚聲器系統中(例如,無線揚聲器及回應於諸如「現在上映什麼電影」或「呼叫媽媽」之使用者命令與虛擬助理整合之語音命令裝置)。在另一特定實施中,系統100被實施於行動裝置中,諸如行動電話、膝上型電腦、平板電腦、電腦化手錶等等。在另一特定實施中,作為非限制性實例,系統100被實施於一或多個物聯網(IoT)裝置或智慧型器械中。
參考圖2,展示經組態以執行使用者體驗評估之系統的說明性實施,且通常將其指定為200。在一特定實施中,系統200可包括或對應於系統100。系統200之元件中之每一者可用硬體表示,諸如經由特殊應用積體電路(ASIC)或場可程式化閘陣列(FPGA),或參考該等元件描述之操作可由執行電腦可讀指令之處理器執行。
系統200包括圖1之處理器102、記憶體104、第一感測器110及第二感測器112。系統200亦包括第三感測器214、介面裝置208及揚聲器238。在一特定實例中,第三感測器214包括提供可用以幫助判定使用者之情緒狀態的資料(諸如心率、體溫、其他量測或其一組合)之一或多個生物辨識感測器。介面裝置208可包括將視覺資訊提供至使用者162之顯示器及自使用者162接收輸入之觸控式螢幕、小鍵盤或其他輸入裝置。揚聲器238可經組態以將聽覺資訊輸出至使用者162,諸如話語209。
處理器102存取記憶體104中之映射單元(例如,模型)130,以判定使用者命令142是否被映射至任務。如所說明,映射單元130包括被映射至多個技能250至252的多個所儲存命令240至242(映射藉由箭頭指示)。映射單元130可包括於自然語言處理(NLP)系統中,且經組態以回應於接收使用者命令142而產生與特定任務相關聯之可信度得分。舉例而言,映射單元130可包括針對使用者命令240至242中之每一者產生可信度得分的迴旋神經網路,其中最高可信度得分指示使用者命令142與所儲存命令240至242之間的最佳經判定匹配(例如,在迴旋神經網路之最終完整連接層之後的「softmax」得分)。經映射至最佳使用者命令匹配的特定技能144被提供至處理器102,且可與可信度得分260相關聯。
在處理器102起始技能144之執行之後,後續使用者輸入150自各種感測器被提供至處理器102,且由使用者體驗評估單元132處理以獲得關於使用者之體驗的資訊。舉例而言,後續使用者輸入150包括:第二使用者輸入152,其包括使用者162之視訊內容;第三使用者輸入154,其包括使用者162之一或多個發言;及來自第三感測器214之第四輸入256,諸如使用者162之心率測量。
使用者體驗評估單元132包括情緒分析器266,其經組態以基於後續使用者輸入150中所偵測的情緒線索判定使用者162之滿意位準或沮喪位準。情緒分析器266包括音訊情緒分析器、視訊情緒分析器或其一組合。使用者體驗評估單元132亦包括語義分析器262,其經組態以基於後續使用者輸入150中所偵測的語義線索判定使用者162之情緒狀態。情緒分析器266及語義分析器262之輸出在經組態以輸出體驗資料146的體驗分類器264處進行處理。參考圖4之實例描述使用者體驗評估單元132之組件及操作的其他細節。
體驗管理器124處理體驗資料146以判定是否應執行矯正措施,且選擇特定矯正措施126。舉例而言,若體驗資料146指示非負面使用者體驗(例如,中立或正面的使用者體驗),則體驗管理器124可判定不需執行矯正措施。否則,體驗管理器124選擇一或多個矯正措施以執行。
舉例而言,在系統200經由話語將資訊提供至使用者162的實施中,體驗管理器124可將控制信號發送至語音介面220。控制信號可包圍(case)語音介面220以調整操作,從而向使用者162提供更能安撫或舒緩方式的話語。語音介面220可調整音調、語速、詞彙、一個或多個其他因素或其一組合,以呈現具有經設計以改良使用者162之情緒狀態的品質的話語209。
作為另一實例,體驗管理器124可調整音樂播放器222之操作,諸如交通工具中的娛樂系統。體驗管理器124可將控制信號發送至音樂播放器222以在當前未播放音樂的情況下起始播放舒緩音樂。若音樂播放器222已正在播放藉由使用者162選擇之音樂,則控制信號可使得音量增大(在音樂被分類為安撫音樂的情況下,諸如輕音樂無線電台)或減小(在音樂被分類為激情音樂的情況下,諸如搖滾樂無線電台)。在一些實施中,矯正措施126包括向使用者162推薦改變音樂選擇,諸如基於使用者偏好或使用者對各種類型音樂之情緒回應歷史。在其他實施中,矯正措施126包括在不通知使用者162的情況下改變音樂選擇。
在某些情況下,矯正措施126包括更新映射單元130以減少使用者之命令的未來錯誤解譯。為了說明,系統200可能已經錯誤地解譯使用者之命令,諸如歸因於有雜訊環境或使用者之話語模式的改變。當特定技能144並非為使用者162所請求時,處理器102經組態以接收指示與使用者命令142相關聯的使用者選擇之任務的音訊或非音訊輸入。非音訊輸入可相比使用者之話語得以更可靠地解譯,諸如經由圖形使用者介面(GUI)之輸入、藉由攝影機擷取之示意動作、藉由觸控感測器偵測之觸摸,或一般由介面裝置208表示的再一個其他非話語輸入形態。為了說明,介面裝置208可作為非限制性實例包括任何類型的顯示裝置,諸如液晶顯示器(LCD)螢幕、觸控式螢幕或單獨監視器或其他顯示器,且可作為說明性的非限制性實例包括任何類型的輸入裝置,諸如小鍵盤、指向與選擇裝置、圖形或實體控制或其任何組合。
在一特定實施中,系統200包括介面裝置208,且顯示圖形使用者介面(GUI) 218。GUI 218允許使用者選擇特定技能,諸如「回家」導航操作。GUI 218亦可播放第一使用者輸入140之音訊,且產生一提示236,以經由輸入裝置(例如,觸控式螢幕、小鍵盤、第一感測器110、第二感測器112等等)向使用者162詢問關於請求哪個技能的指示。使用者162可輸入技能(例如,經由觸控式螢幕或小鍵盤),或可使用另一形態輸入技能(諸如示意動作)。在替代性實施中,系統200並不包括介面裝置208,且GUI 218 (包括提示236)顯示於使用者之行動通信裝置上(例如,藉由運行與系統200相關聯之應用程式)。在另一實施中,提示236經由音訊提示被提供至使用者,且使用者使用音訊提示及觸控式螢幕或小鍵盤、示意動作或另一種形態之互動與系統互動。
在一特定實施中,系統200可基於使用者體驗資料146及可信度得分260判定是否提示使用者以獲得反饋。舉例而言,在選擇且起始特定技能144之執行之後,處理器102可經由使用者體驗評估單元132追蹤使用者之反應的一或多個指示。舉例而言,體驗資料146係基於話語關鍵字偵測(例如,使用者說「不」或「不要了」)、音訊-視訊(A/V)情緒分析、音韻分析或音訊事件偵測中之一或多者而判定。經偵測為負面的使用者體驗可表示為體驗資料146中的較低值,指示特定技能144係正確的可能性較低,且經偵測為正面的使用者體驗可表示為體驗資料146中的較高值,指示特定技能144係正確的可能性較大。當可信度得分260高,體驗資料146中之值高,或兩者均高時,系統200可判定特定技能144經正確判定,且不提示使用者輸入所意欲的技能。然而,當可信度得分260及體驗資料146兩者均具有低值時,系統200可判定特定技能144係不正確的,且可經由介面裝置106提供提示236以獲得使用者之反饋。
回應於接收藉由GUI 218提示之非音訊輸入,處理器102經組態以處理使用者命令。為了說明,當使用者命令對應於與汽車相關的命令(例如,「回家」)時,處理器102可藉由執行使用者選擇之技能以控制汽車(例如,將汽車引導至「家」位置的導航任務),來處理使用者命令。
處理器102亦經組態以更新映射單元130,以使得使用者命令142與使用者選擇之技能相關聯。在更新映射單元130之後,系統200更可能在使用者下一次鍵入使用者命令142時正確地識別正確的使用者選擇之技能,而不大可能回應於使用者命令142選擇另一(不正確)技能。更新映射單元130可包括將使用者命令142儲存為現有使用者命令之經辨識變體,或將使用者命令142儲存為映射至使用者選擇之任務的新命令中之至少一者。舉例而言,若命令142被解譯為「去羅馬」且為現有使用者命令(「回家」) 240之錯誤識別,則命令142可經儲存為「回家」使用者命令240之經辨識變體246,從而使得「去羅馬」之未來偵測被映射至「回家」使用者命令240。作為另一實例,若使用者命令142為新使用者命令「導航回家」,而使用者指示其對應於「導航至家」技能250,則可將新使用者命令(「導航回家」)248添加至映射單元130,且映射至「導航至家」技能250。映射單元130可基於使用者命令之經更新集合進行重新訓練,從而歸因於使用者命令之錯誤解譯而造成經改良之使用者體驗。
藉由基於使用者反饋更新映射單元130,系統200可自適應性地對錯誤作出回應,從而減少後續操作中的錯誤解譯。因為映射單元130基於使用者反饋進行更新,但是ASR引擎120可在不損害系統200之能力的情況下實施為嵌入型系統(例如,用於相較於通用計算機以經縮減之成本及功率消耗執行ASR但並非易於更新的專用系統),以基於使用者反饋改良操作。另外,使用非音訊輸入形態接收使用者反饋在諸如可能干擾音訊輸入形態的高環境雜訊之某些條件下提供更加可靠的反饋機制。
圖3描繪處理輸入音訊資料之方法300之實例。方法300包括在302判定待回應於接收輸入音訊資料而執行之技能。舉例而言,判定待執行之技能可經由自動話語辨識引擎120執行,該自動話語辨識引擎基於第一使用者輸入140產生命令142。命令142可由映射單元130用以選擇技能144,其對應於待執行之技能。
方法300包括在304執行經判定技能。舉例而言,當技能144指示導航技能時,處理器102可經由導航引擎122執行導航技能。作為另一實例,當技能144對應於另一技能時,諸如交通工具中的娛樂技能,處理器102可使用除導航引擎122之外的系統起始技能之執行,諸如音樂播放器222。
在304執行技能之後,在306評估使用者體驗。舉例而言,處理器102可接收一或多個後續使用者輸入,諸如圖1之後續使用者輸入150。後續使用者輸入可包括音訊輸入、視訊輸入、諸如生理量測之一個或多個其他輸入或其任何組合。在執行技能之後藉由處理器102接收的後續使用者輸入可由使用者體驗評估單元132處理以判定使用者體驗之一或多個態樣。
在使用者體驗經評估為負面使用者體驗之情況下,在308執行矯正措施。為了說明,矯正措施可對應於藉由體驗管理器124起始之矯正措施126。
回應於執行矯正措施308,可在310更新使用者體驗模型。舉例而言,當矯正措施126包括提示使用者輸入待執行之正確技能,且使用者指示系統選擇之技能為正確技能時,可基於經更新使用者模型資料312更新使用者體驗模型,以指示使用者對技能之反應不指示經錯誤預測的技能。在一實例中,使用者鍵入使用者命令「回家」,且映射單元130將音訊命令「回家」正確地解譯為使得導航引擎122映射出至使用者家的一條路徑的技能。隨後經由後續使用者輸入偵測使用者,以執行經解譯為指示負面使用者體驗的示意動作。使用者反饋,即所選擇技能係正確的可指示所偵測的示意動作不指示經錯誤預測之技能。
為了說明,使用者可能在顯示導航路線之後皺眉。然而,皺眉可能由於使用者之交通工具附近出現的交通事故而產生,且可能尚未與「導航至家」技能之執行相關。因此,更新使用者體驗模型可包括在評估使用者是否對經錯誤識別之命令作出負面反應時產生減小與皺眉相關聯之加權因子的經修改使用者模型資料312。
方法300亦包括在314更新技能匹配。舉例而言,回應於自使用者接收指示經判定技能並非為藉由使用者指示之技能的反饋,可更新映射單元130中的一或多個鍵入項,從而使得所偵測命令142可在未來互動中更加可靠地映射至所請求技能。舉例而言,更新技能匹配可包括產生可經儲存以供用於結合自使用者接收之未來命令的解譯的經更新技能模型資料316,諸如圖2之變體命令鍵入項246或新命令鍵入項248。
在圖3中所說明之特定實施中,在302判定待執行之技能及在304執行技能可在「線上」執行,且在310更新使用者體驗模型及在314更新技能匹配可「脫機」執行。線上可指處理輸入音訊資料,達至執行自然語言處理的時間段。在一些實施中,自然語言處理亦在線上執行。脫機可指閒置時間段或未處理輸入音訊資料的時間段。因為在306評估使用者體驗及在308執行矯正措施可在線上(例如,當執行技能時)或脫機(例如,在使用者已完成操作交通工具之後或在特定時間量已到期之後,諸如一天、一週或一月)執行,所以評估使用者體驗及執行矯正措施經說明為位於線上部分與脫機部分之間。
圖4說明系統400之實例實施,包括作為麥克風之第一感測器110、作為攝影機之第二感測器112、使用者體驗評估單元132、體驗管理器124及圖形使用者介面(GUI) 218。使用者體驗評估單元132包括第一處理階段402、第二處理階段404、第三處理階段406及第四處理階段408。舉例而言,處理階段402至408可對應於神經網路之層,其中每一層對應於判定使用者體驗時的多個輸入之不同分析位準。
第一處理階段402經組態以執行在技能起始之後接收的使用者輸入(諸如圖1之後續輸入150)之初始處理。舉例而言,第一處理階段402可執行音訊及話語資料420之分析或基本處理,諸如藉由執行自動話語辨識操作422以產生音訊及話語資料420中所偵測之文字424。另外,視訊及影像資料426可由第一處理階段402進行初步處理。
第二處理階段404包括音韻分析430、關鍵字偵測432及視訊分析434。音韻分析430經組態以處理音訊及話語資料420,以偵測一或多個音韻元素,諸如重音、音值、音調、語速或可提供關於所偵測文字424之內容資訊的一個或多個其他元素,諸如特別長的持續時間。在說明性實例中,持續時間為音韻之一個態樣:若話語相比常見的具有較長或較短持續時間,則使用者可能處於情緒狀態中,諸如悲傷、不滿意、猶豫等等。類似音值及音調輪廓的其他音韻元素(其中動態範圍高於或低於常見動態範圍)可表明使用者對於體驗係快樂或沮喪的。相對複雜映射相關性可存在於音韻之所有特徵與良好/不良使用者體驗之間。音韻分析430提取與音韻相關之特徵作為至情緒分析440之輸入中之一者,如下文所述。
可執行關鍵字偵測432以偵測一或多個關鍵字之出現,諸如出現在感歎語或與使用者體驗相關聯之其他發言的詞典中。舉例而言,關鍵字偵測432可經組態以偵測可指示負面使用者體驗的感歎語,諸如「不」、「並不是」、「哦,不」或任何其他關鍵字、有力表達或無意義字語。在其他實施中,關鍵字偵測432可進一步經組態以偵測可指示正面使用者體驗之感歎語,諸如「棒極了」、「很好」、「正確」、「謝謝」、一個或多個其他感歎語或其任何組合。
視訊分析處理434經組態以偵測使用者162之一或多個物理特性,諸如身體語言或面部表情。視訊分析處理434可包括面部表情偵測(諸如微笑或皺眉)或身體動作偵測(諸如點頭、搖頭或聳肩)或其一組合,其可指示強烈情緒反饋。
第三處理階段406包括情緒分析處理440及語義分析處理446。情緒分析處理440包括在442的音訊情緒分析及在444的視訊情緒分析。舉例而言,音訊情緒分析442可經組態以接收對應於音韻分析430之資料,且可將所接收的資料與一或多個音訊情緒模型進行比較以判定使用者輸入150對應於使用者之一或多個情緒狀態的可能性。類似地,視訊情緒分析444可經組態以將視訊分析434之結果與一或多個視訊情緒分析模型進行比較以判定使用者輸入150是否對應於使用者之一或多個情緒狀態。情緒分析440可產生指示一或多個可信度位準的輸出,其指示已偵測到使用者正經歷一或多個各別情緒狀態。
語義分析446可對關鍵字偵測432之結果、文字424及視訊分析434作出回應,以判定與輸入150相關聯之滿意位準。舉例而言,基於來自此等三個模組之文字輸入,例如,來自視訊分析434之「搖頭」、來自關鍵字偵測432之「不不不」及來自文字424之「這並不是我的意思」,語義分析446可提供量測使用者對此體驗之滿意程度的滿意位準或正面/負面評比。
第四處理階段408包括使用者體驗分類器450。舉例而言,使用者體驗分類器450可執行情緒分析440及語義分析446之結果的經加權組合,以將整體使用者體驗分類為淨正面(例如,良好)使用者體驗或淨負面(例如,不良)使用者體驗。可將使用者體驗分類器450之輸出提供至體驗管理器124作為體驗資料146。體驗管理器124可諸如藉由在GUI 218顯示提示以請求使用者輸入而選擇性地判定是否執行矯正措施126,以校正使用者之口頭命令的錯誤識別。
在一些實施中,在GUI 218處產生使用者體驗概述(例如,如同圖3中,脫機),其包括諸如所偵測命令142、被執行技能144、音訊樣本剪輯、視訊樣本剪輯或兩者的資料。舉例而言,使用者體驗概述可作為每週更新會話之部分而呈現至使用者。可告知使用者偵測到使用者沮喪,且可提示使用者鍵入關於所偵測使用者沮喪的反饋。使用者可將校正提供至藉由ASR 120轉譯的命令142,將校正提供至使用者所意欲的技能144,或其一組合。使用者體驗模型及技能匹配模型可基於使用者反饋進行更新,諸如參考圖3所描述。
參看圖5,展示包括評估使用者體驗的處理使用者輸入之說明性方法的流程圖,且通常將其指定為500。在一特定實施中,方法500可由圖1之系統100執行,諸如藉由處理器102執行。
方法500包括在502,在處理器處接收對應於用以起始特定任務之使用者命令的第一使用者輸入。該第一使用者輸入經由一第一感測器接收。舉例而言,第一使用者輸入可對應於經由第一感測器110 (諸如麥克風)接收之第一使用者輸入140。在一些實施中,使用者命令係基於音訊輸入而判定,且特定任務係基於使用者命令而選擇。
在504,在接收第一使用者輸入之後,接收一或多個後續使用者輸入。一或多個後續使用者輸入包括經由第二感測器(例如,攝影機)接收之第二使用者輸入。舉例而言,一或多個後續使用者輸入可對應於包括第二使用者輸入152及第三使用者輸入154的圖1之後續使用者輸入150 (例如,音訊輸入),或進一步包括第四輸入256的圖2之後續使用者輸入150 (例如,生物識別輸入)。
在506,回應於基於使用者體驗評估單元判定一或多個後續使用者輸入對應於負面使用者體驗而起始矯正措施。為了說明,矯正措施可對應於由體驗管理器124起始之矯正措施126。在一些實施中,判定一或多個後續使用者輸入對應於負面使用者體驗包括執行話語關鍵字偵測、音訊情緒分析、視訊情緒分析、音韻分析或音訊事件偵測中之至少一者,諸如參考圖2及圖4之使用者體驗評估單元132所描述。
在說明性實例中,矯正措施包括諸如經由圖2之GUI 218提示使用者以獲得非音訊輸入,該非音訊輸入指示將與使用者命令相關聯的使用者選擇之任務。在說明性實例中,矯正措施包括建議使用者執行一或多個措施以增強藉由麥克風擷取之音訊的話語辨識。在說明性實例中,矯正措施包括播放安撫音樂以改善使用者之情緒狀態。
藉由偵測使用者具有負面使用者體驗且起始矯正措施,方法500可改良使用者之整體體驗。舉例而言,當矯正措施可操作以安慰或安撫使用者時,使用者之體驗可立即增強。作為另一實例,當矯正措施包括接收關於不滿意之來源(例如,命令之錯誤識別)的使用者反饋時,使用反饋來更新及調適命令辨識造成命令之未來錯誤預測的減少及使用者之未來體驗的增強。
參考圖6,描繪裝置(例如,無線通信裝置)之特定說明性實施的方塊圖,且通常將其指定為600。在各種實施中,裝置600可相比圖6中所說明的具有較多或較少組件。在一說明性態樣中,裝置600可執行參考圖1至圖5之系統及方法所描述之一或多個操作。
在一特定實施中,裝置600包括耦接至記憶體632之處理器610,諸如中央處理單元(CPU)或數位信號處理器(DSP)。記憶體632包括指令668 (例如,可執行指令),諸如電腦可讀指令或處理器可讀指令。指令668可包括可由諸如處理器610之電腦執行的一或多個指令。記憶體632亦包括映射單元130及使用者體驗評估單元132,如參考圖1所描述。
裝置600可包括耦接至處理器610及顯示器628的顯示控制器626。寫碼器/解碼器(CODEC) 634亦可耦接至處理器610。揚聲器636及麥克風638可耦接至CODEC 634。裝置600亦可包括攝影機650。
圖6亦說明無線介面640 (諸如無線控制器)及收發器646可耦接至處理器610及天線642,從而可將經由天線642、收發器646及無線介面640接收之無線資料提供至處理器610。在一些實施中,處理器610、顯示控制器626、記憶體632、CODEC 634、無線介面640及收發器646包括於系統級封裝或系統單晶片裝置622中。在一些實施中,輸入裝置630及電源供應器644耦接至系統單晶片裝置622。此外,在一特定實施中,如圖6中所說明,顯示器628、輸入裝置630、揚聲器636、麥克風638、天線642、電源供應器644及攝影機650位於系統單晶片裝置622外部。在一特定實施中,顯示器628、輸入裝置630、揚聲器636、麥克風638、天線642、電源供應器644及攝影機650中之每一者可耦接至系統單晶片裝置622之組件,諸如介面或控制器。
在說明性實施中,記憶體632包括或儲存指令668 (例如,可執行指令),諸如電腦可讀指令或處理器可讀指令。舉例而言,記憶體632可包括或對應於儲存指令668之非暫時性電腦可讀媒體。指令668可包括可由諸如處理器610之電腦執行的一或多個指令。
在一特定實施中,裝置600包括儲存指令(例如,指令668)之非暫時性電腦可讀媒體(例如,記憶體632),該等指令在由處理器(例如,處理器610)執行時可使得處理器起始、執行或控制操作,包括接收對應於用以起始特定任務之使用者命令的第一使用者輸入(例如,第一使用者輸入140),該第一使用者輸入經由第一感測器(例如,第一感測器110、麥克風638)接收。該等操作包括在接收第一使用者輸入之後接收一或多個後續使用者輸入,該一或多個後續使用者輸入包括經由第二感測器(例如,第二感測器112、攝影機650)接收之第二使用者輸入(例如,第二使用者輸入152)。該等操作包括回應於基於使用者體驗評估單元(例如,使用者體驗評估單元132)判定一或多個後續使用者輸入對應於負面使用者體驗而起始矯正措施。
裝置600可包括無線電話、行動通信裝置、行動裝置、行動電話、智慧型電話、蜂巢式電話、膝上型電腦、桌上型電腦、電腦、平板電腦、機上盒,個人數位助理(PDA)、顯示裝置、電視、遊戲控制台、擴增實境(AR)裝置、虛擬實境(VR)裝置、音樂播放器、無線電、視訊播放器、娛樂單元、通信裝置、固定位置資料單元、個人媒體播放器、數位視訊播放器、數位視訊光碟(DVD)播放器、調諧器、攝影機、導航裝置、解碼器系統、編碼器系統、交通工具、交通工具之組件或其任何組合。
應注意,由參考圖1、圖2、圖4所描述之系統之一或多個組件及裝置600執行的各種功能描述為由某些組件或電路系統執行。組件及電路系統之此劃分僅用於說明。在替代性態樣中,由特定組件執行之功能可劃分於多個組件間。此外,在替代性態樣中,參考圖1至圖6所描述之兩個或兩個以上組件可整合於單個組件中。參考圖1至圖6描述之每一組件可使用硬體(例如,場可程式化閘陣列(FPGA)裝置、特殊應用積體電路(ASIC)、DSP、控制器等等)、軟體(例如,可由處理器執行之指令)或其任何組合實施。
結合所描述之態樣,設備包括用於接收對應於用以起始特定任務之使用者命令的第一使用者輸入的構件,該第一使用者輸入經由第一感測器接收。用於接收第一使用者輸入的該構件可包括或對應於圖1之第一感測器110或第二感測器112、圖2之第三感測器214、圖6之麥克風638或攝影機650、經組態以接收第一使用者輸入之一個或多個其他結構或電路,或其任何組合。
設備進一步包括用於接收一或多個後續使用者輸入的構件,該一或多個後續使用者輸入包括在接收第一使用者輸入之後經由第二感測器接收之第二使用者輸入。用於接收一或多個後續使用者輸入的該構件可包括或對應於圖1之第一感測器110或第二感測器112、圖2之第三感測器214、圖6之麥克風638或攝影機650、經組態以接收一或多個後續使用者輸入之一個或多個其他結構或電路,或其任何組合
設備進一步包括用於回應於基於使用者體驗評估單元判定一或多個後續使用者輸入對應於負面使用者體驗而起始矯正措施的構件。用於起始矯正措施的該構件可包括或對應於圖1或圖2之處理器102或體驗管理器124、圖6之處理器610、經組態以回應於基於使用者體驗評估單元判定一或多個後續使用者輸入對應於負面使用者體驗而起始矯正措施的一個或多個其他結構或電路,或其任何組合。
在一特定實施中,設備包括用於判定一或多個後續使用者輸入對應於負面使用者體驗的構件,諸如圖1、圖2或圖4之使用者體驗評估模組132、圖6之處理器610、經組態以判定一或多個後續使用者輸入對應於負面使用者體驗的一個或多個其他結構或電路,或其任何組合。在一特定實施中,設備包括用於提示使用者以獲得非音訊輸入的構件,諸如語音介面220、揚聲器238、介面裝置208、經組態以提示使用者之一個或多個其他裝置,或其任何組合,該非音訊輸入指示將與使用者命令相關聯的使用者選擇之任務。
所揭示態樣中之一或多者可實施於諸如裝置600之系統或設備中,該系統或設備可包括通信裝置、固定位置資料單元、行動位置資料單元、行動電話、蜂巢式電話、衛星電話、電腦、平板電腦、攜帶型電腦、顯示裝置、媒體播放器或桌上型電腦。替代地或另外,裝置600可包括機上盒、娛樂單元、導航裝置、個人數位助理(PDA)、監視器、電腦監視器、電視、調諧器、無線電、衛星無線電、音樂播放器、數位音樂播放器、攜帶型音樂播放器、視訊播放器、數位視訊播放器、數位視訊光碟(DVD)播放器、攜帶型數位視訊播放器、衛星、交通工具、整合於交通工具內之組件、包括處理器或儲存或擷取資料或電腦指令之任何其他裝置,或其組合。作為另一說明性非限制性實例,裝置600可包括諸如手持型個人通信系統(PCS)單元之遠端單元、諸如具有全球定位系統(GPS)能力之裝置的攜帶型資料單元、儀錶讀取裝備,或包括處理器或者儲存或擷取資料或電腦指令之處理器的任何其他裝置,或其任何組合。
雖然圖6說明包括經組態以執行使用者體驗評估之處理器的無線通信裝置,但經組態以執行使用者體驗評估之處理器可包括於各種其他電子裝置中。舉例而言,如參考圖1至圖6所描述的經組態以執行使用者體驗評估之處理器可包括於基地台之一或多個組件中。
基地台可為無線通信系統之部分。無線通信系統可包括多個基地台及多個無線裝置。無線通信系統可為長期演進(LTE)系統、分碼多重存取(CDMA)系統、全球行動通信系統(GSM)系統、無線區域網路(WLAN)系統或一些其他無線系統。CDMA系統可實施寬頻CDMA (WCDMA)、CDMA 1X、演進資料最佳化(EVDO)、分時同步CDMA (TD-SCDMA),或一些其他版本之CDMA。
可由基地台之一或多個組件執行各種功能,諸如發送及接收訊息及資料(例如,音訊資料)。基地台之一或多個組件可包括處理器(例如,CPU)、轉碼器、記憶體、網路連接、媒體閘道器、解調器、傳輸資料處理器、接收器資料處理器、傳輸多輸入多輸出(MIMO)處理器、傳輸器及接收器(例如,收發器)、天線陣列或其一組合。基地台或基地台之組件之一或多者可包括經組態以執行使用者體驗評估之處理器,如上文參考圖1至圖6所描述。
在基地台之操作期間,基地台之一或多個天線可自無線裝置接收資料串流。收發器可自一或多個天線接收資料串流,且可將資料串流提供至解調器。解調器可解調資料串流之經調變信號且將經解調資料提供至接收器資料處理器。接收器資料處理器可自經解調資料提取音訊資料,且將經提取音訊資料提供至處理器。
處理器可將音訊資料提供至轉碼器以用於轉碼。轉碼器之解碼器可將音訊資料自第一格式解碼成經解碼音訊資料且編碼器可將經解碼音訊資料編碼成第二格式。在一些實施中,編碼器可使用比自無線裝置所接收的更高資料速率(例如,升頻轉換)或更低資料速率(例如,降頻轉換)來編碼音訊資料。在其他實施中,音訊資料可未經轉碼。轉碼操作(例如,解碼及編碼)可由基地台之多個組件執行。舉例而言,解碼可由接收器資料處理器執行,且編碼可由傳輸資料處理器執行。在其他實施中,處理器可將音訊資料提供至媒體閘道器以供轉換成另一傳輸協定、寫碼方案或兩者。媒體閘道器可經由網路連接將經轉換資料提供至另一基地台或核心網路。
儘管圖1至圖6中之一或多者可說明根據本發明之教示的系統、設備及/或方法,但本發明並不限於此等所說明系統、設備及/或方法。如本文中所說明或描述之圖1至圖6中之任一者的一或多個功能或組件可與圖1至圖6中之另一者的一或多個其他部分組合。舉例而言,可結合圖5之方法500之一或多個元件或本文中所描述之其他操作執行圖3的方法300之一或多個元件。因此,本文中所描述的單一實施皆不應視為限制性且本發明之實施可在不背離本發明之教示的情況下經合適地組合。作為一實例,參考圖1至圖6所描述之一或多個操作可為可選的,可至少部分並行執行,及/或可以不同於所展示或描述的次序執行。
熟習此項技術者將進一步瞭解,結合本文中所揭示之實施描述之各種說明性邏輯區塊、組態、模組、電路及演算法可實施為電子硬體、由處理器執行之電腦軟體或兩者之組合。上文大體在功能性方面描述各種說明性組件、區塊、組態、模組、電路及步驟。此功能性被實施為硬體抑或處理器可執行指令取決於特定應用及強加於整個系統的設計約束。對於每一特定應用而言,熟習此項技術者可針對每一特定應用而以變化之方式實施所描述之功能性,而但不應將此等實施決策解譯為致使脫離本發明之範疇。
結合本文中之揭示內容描述之方法或演算法之步驟可直接以硬體、由處理器執行之軟體模組或兩者之組合來實施。軟體模組可駐存於隨機存取記憶體(RAM)、快閃記憶體、唯讀記憶體(ROM)、可程式化唯讀記憶體(PROM)、抹除式可程式化唯讀記憶體(EPROM)、電子抹除式可程式化唯讀記憶體(EEPROM)、暫存器、硬碟、可移除式磁碟、緊密光碟唯讀記憶體(CD-ROM)或此項技術中已知的任何其他形式的非暫時性儲存媒體中。例示性儲存媒體經耦接至處理器,使得處理器可自儲存媒體讀取資訊並將資訊寫入至儲存媒體。在替代方案中,儲存媒體可與處理器成一體式。處理器及儲存媒體可駐存於特殊應用積體電路(ASIC)中。ASIC可駐存於計算裝置或使用者終端中。在替代方案中,處理器及儲存媒體可作為離散組件駐存於計算裝置或使用者終端中。
提供先前描述以使得熟習此項技術者能夠進行或使用所揭示之實施。熟習此項技術者將容易地顯而易見對此等實施之各種修改,且在不背離本發明之範疇的情況下,本文中所定義之原理可應用於其他實施。因此,本發明並非意欲限於本文中所展示之實施,而應符合可能與如以下申請專利範圍所定義之原理及新穎特徵相一致的最廣泛範疇。
100‧‧‧系統 102‧‧‧處理器 104‧‧‧記憶體 106‧‧‧介面裝置 108‧‧‧使用者話語 110‧‧‧第一感測器 112‧‧‧第二感測器 120‧‧‧自動話語辨識(ASR)引擎 122‧‧‧導航引擎 124‧‧‧體驗管理器 126‧‧‧矯正措施 130‧‧‧映射單元 132‧‧‧使用者體驗評估單元 140‧‧‧第一使用者輸入 142‧‧‧命令 144‧‧‧技能 146‧‧‧體驗資料 150‧‧‧後續使用者輸入 152‧‧‧第二使用者輸入 154‧‧‧第三使用者輸入 160‧‧‧交通工具 162‧‧‧使用者 200‧‧‧系統 208‧‧‧介面裝置 209‧‧‧話語 214‧‧‧第三感測器 218‧‧‧圖形使用者介面(GUI) 220‧‧‧語音介面 222‧‧‧音樂播放器 236‧‧‧提示 238‧‧‧揚聲器 240‧‧‧命令 242‧‧‧命令 246‧‧‧變體 248‧‧‧新使用者命令 250‧‧‧技能 252‧‧‧技能 256‧‧‧第四輸入 260‧‧‧可信度得分 262‧‧‧語義分析器 264‧‧‧體驗分類器 266‧‧‧情緒分析器 300‧‧‧方法 302‧‧‧步驟 304‧‧‧步驟 306‧‧‧步驟 308‧‧‧步驟 310‧‧‧步驟 312‧‧‧經更新使用者模型資料 314‧‧‧步驟 316‧‧‧經更新技能模型資料 400‧‧‧系統 402‧‧‧第一處理階段 404‧‧‧第二處理階段 406‧‧‧第三處理階段 408‧‧‧第四處理階段 420‧‧‧音訊及話語資料 422‧‧‧自動話語辨識操作 424‧‧‧文字 426‧‧‧視訊及影像資料 430‧‧‧音韻分析 432‧‧‧關鍵字偵測 434‧‧‧視訊分析 440‧‧‧情緒分析處理 442‧‧‧音訊情緒分析 444‧‧‧視訊情緒分析 446‧‧‧語義分析處理 450‧‧‧使用者體驗分類器 500‧‧‧方法 502‧‧‧步驟 504‧‧‧步驟 506‧‧‧步驟 600‧‧‧裝置 610‧‧‧處理器 622‧‧‧系統單晶片裝置 626‧‧‧顯示控制器 628‧‧‧顯示器 630‧‧‧輸入裝置 632‧‧‧記憶體 634‧‧‧寫碼器/解碼器(CODEC) 636‧‧‧揚聲器 638‧‧‧麥克風 640‧‧‧無線介面 642‧‧‧天線 644‧‧‧電源供應器 646‧‧‧收發器 650‧‧‧攝影機 668‧‧‧指令
圖1為執行使用者體驗評估之系統之特定說明性態樣的方塊圖。
圖2為執行使用者體驗評估之系統之特定說明性態樣的方塊圖。
圖3為說明包括評估使用者體驗的一種處理使用者輸入之方法的流程圖。
圖4為執行使用者體驗評估之系統之特定說明性態樣的圖式。
圖5為說明包括評估使用者體驗的一種處理使用者輸入之方法的流程圖。
圖6為執行使用者體驗評估之無線裝置之態樣的方塊圖。
100‧‧‧系統
102‧‧‧處理器
104‧‧‧記憶體
108‧‧‧使用者話語
110‧‧‧第一感測器
112‧‧‧第二感測器
120‧‧‧自動話語辨識(ASR)引擎
122‧‧‧導航引擎
124‧‧‧體驗管理器
126‧‧‧矯正措施
130‧‧‧映射單元
132‧‧‧使用者體驗評估單元
140‧‧‧第一使用者輸入
142‧‧‧命令
144‧‧‧技能
146‧‧‧體驗資料
150‧‧‧後續使用者輸入
152‧‧‧第二使用者輸入
154‧‧‧第三使用者輸入
160‧‧‧交通工具
162‧‧‧使用者

Claims (30)

  1. 一種使用者體驗評估裝置,其包含:一記憶體,其經組態以儲存一使用者體驗評估單元;及一處理器,其耦接至該記憶體,該處理器經組態以:接收對應於用以起始一特定任務之一使用者命令的一第一使用者輸入,該第一使用者輸入經由一第一感測器接收;回應於該第一使用者輸入而起始該特定任務之執行;在該特定任務之執行之起始之後,接收一或多個後續使用者輸入,該一或多個後續使用者輸入包括經由一第二感測器接收之一第二使用者輸入,且該一或多個後續使用者輸入與與該特定任務之執行相關聯之使用者體驗相關聯;及回應於基於該使用者體驗評估單元所作之該一或多個後續使用者輸入之評估判定與該特定任務之執行相關聯之該使用者體驗對應於一負面使用者體驗而起始與該特定任務之執行相關聯之一矯正措施。
  2. 如請求項1之裝置,其進一步包含:一麥克風;及一攝影機,其中該一或多個後續使用者輸入包括藉由該麥克風擷取之一音訊輸入,藉由該攝影機擷取之一視訊輸入或其一組合。
  3. 如請求項2之裝置,其中該第一感測器包括該麥克風,且該第二感測器包括該攝影機。
  4. 如請求項1之裝置,其中該使用者體驗評估單元係可執行的以執行以下項中之至少一者:話語關鍵字偵測、音訊情緒分析、視訊情緒分析、音韻分析或音訊事件偵測。
  5. 如請求項1之裝置,其中該第一使用者輸入包括一使用者之一音訊輸入,其中該記憶體經進一步組態以儲存將使用者命令映射至相關聯任務的一映射單元,且其中該處理器經進一步組態以:基於該音訊輸入判定該使用者命令;及使用該使用者命令存取該映射單元以選擇該特定任務。
  6. 如請求項5之裝置,其中該矯正措施包括提示該使用者以獲得一非音訊輸入,該非音訊輸入指示將與該使用者命令相關聯的一使用者選擇之任務。
  7. 如請求項5之裝置,其中該矯正措施包括建議該使用者執行一或多個措施以增強藉由一麥克風擷取之音訊的話語辨識。
  8. 如請求項1之裝置,其中該矯正措施包括以下項中之至少一者:播放舒緩音樂、調整一語音介面以按一安撫方式說話,或推薦供一使用者實施的一放鬆活動。
  9. 如請求項1之裝置,其中該處理器實施於一交通工具中,其中該矯正措施包括提示該交通工具之一使用者以獲得關於使用者體驗之資訊,且其中該處理器經組態以延遲執行該矯正措施,直至偵測到該使用者具有一非負面使用者體驗,該使用者已關閉該交通工具或該兩者皆發生為止。
  10. 一種使用者體驗評估方法,其包含:在一處理器處接收對應於用以起始一特定任務之一使用者命令的一第一使用者輸入,該第一使用者輸入經由一第一感測器接收;在該處理器處回應於該第一使用者輸入而起始該特定任務之執行;在該特定任務之執行之起始之後,接收一或多個後續使用者輸入,該一或多個後續使用者輸入包括經由一第二感測器接收之一第二使用者輸入,且該一或多個後續使用者輸入與與該特定任務之執行相關聯之使用者體驗相關聯;及回應於基於一使用者體驗評估單元所作之該一或多個後續使用者輸入之評估判定與該特定任務之執行相關聯之該使用者體驗對應於一負面使用者體驗而起始與該特定任務之執行相關聯之一矯正措施。
  11. 如請求項10之方法,其中該第一感測器包括一麥克風且該第二感測器包括一攝影機。
  12. 如請求項10之方法,其中判定該一或多個後續使用者輸入對應於一負面使用者體驗包括執行以下項中之至少一者:話語關鍵字偵測、音訊情緒分析、視訊情緒分析、音韻分析或音訊事件偵測。
  13. 如請求項10之方法,其中該第一使用者輸入包括一使用者之一音訊輸入,且該方法進一步包含:基於該音訊輸入判定該使用者命令;及基於該使用者命令選擇該特定任務。
  14. 如請求項13之方法,其中該矯正措施包括提示該使用者以獲得一非音訊輸入,該非音訊輸入指示將與該使用者命令相關聯的一使用者選擇之任務。
  15. 如請求項13之方法,其中該矯正措施包括建議該使用者關閉一窗戶、向著一麥克風直接說話、更響亮或清楚地說話,或其一組合。
  16. 如請求項10之方法,其中該矯正措施包括以下項中之至少一者:播放舒緩音樂、調整一語音介面以產生具有一安撫效果的話語,或推薦供一使用者實施的一放鬆活動。
  17. 如請求項10之方法,其中該矯正措施包括提示一交通工具之一使用者以獲得關於使用者體驗之資訊,且其中該矯正措施之執行被延遲,直至偵測 到該使用者具有一非負面使用者體驗,該使用者已關閉該交通工具或該兩者皆發生為止。
  18. 一種儲存指令之非暫時性電腦可讀媒體,該等指令在由一處理器執行時使得該處理器起始、執行或控制操作,該等操作包含:接收對應於用以起始一特定任務之一使用者命令的一第一使用者輸入,該第一使用者輸入經由一第一感測器接收;回應於該第一使用者輸入而起始該特定任務之執行;在該特定任務之執行之起始之後,接收一或多個後續使用者輸入,該一或多個後續使用者輸入包括經由一第二感測器接收之一第二使用者輸入,且該一或多個後續使用者輸入與與該特定任務之執行相關聯之使用者體驗相關聯;及回應於基於一使用者體驗評估單元所作之該一或多個後續使用者輸入之評估判定與該特定任務之執行相關聯之該使用者體驗對應於一負面使用者體驗而起始與該特定任務之執行相關聯之一矯正措施。
  19. 如請求項18之非暫時性電腦可讀媒體,其中該第一感測器包括一麥克風,且該第二感測器包括一攝影機。
  20. 如請求項18之非暫時性電腦可讀媒體,其中判定該一或多個後續使用者輸入對應於一負面使用者體驗包括執行音訊情緒分析或視訊情緒分析中之至少一者。
  21. 如請求項18之非暫時性電腦可讀媒體,其中該第一使用者輸入包括一使用者之一音訊輸入,且其中該等操作進一步包含:基於該音訊輸入之話語辨識判定該使用者命令;及基於該使用者命令選擇該特定任務。
  22. 如請求項21之非暫時性電腦可讀媒體,其中該矯正措施包括提示該使用者執行一或多個措施以增強後續音訊輸入之話語辨識。
  23. 如請求項18之非暫時性電腦可讀媒體,其中該矯正措施包括以下項中之至少一者:播放舒緩音樂、調整一語音介面以產生具有一安撫效果的話語,或推薦供一使用者實施的一放鬆活動。
  24. 如請求項18之非暫時性電腦可讀媒體,其中該矯正措施之執行被延遲直至偵測到該負面使用者體驗已結束為止。
  25. 一種使用者體驗評估設備,其包含:用於接收對應於用以起始一特定任務之一使用者命令的一第一使用者輸入的構件,該第一使用者輸入經由一第一感測器接收;用於回應於該第一使用者輸入而起始該特定任務之執行的構件; 用於接收一或多個後續使用者輸入的構件,該一或多個後續使用者輸入包括在該第一使用者輸入得以接收之後經由一第二感測器接收之一第二使用者輸入,該一或多個後續使用者輸入在該特定任務之執行之起始之後接收,該一或多個後續使用者輸入與與該特定任務之執行相關聯之使用者體驗相關聯;及用於回應於基於一使用者體驗評估單元所作之該一或多個後續使用者輸入之評估判定與該特定任務之執行相關聯之該使用者體驗對應於一負面使用者體驗而起始與該特定任務之執行相關聯之一矯正措施的構件。
  26. 如請求項25之設備,其中該第一感測器包括一麥克風且該第二感測器包括一攝影機。
  27. 如請求項25之設備,其進一步包含用於判定該一或多個後續使用者輸入對應於一負面使用者體驗的構件。
  28. 如請求項25之設備,其中該第一使用者輸入包括一使用者之一音訊輸入。
  29. 如請求項28之設備,其進一步包含用於提示該使用者以獲得一非音訊輸入的構件,該非音訊輸入指示將與該使用者命令相關聯的一使用者選擇之任務。
  30. 如請求項25之設備,其中該矯正措施包括以下項中之至少一者:播放舒緩音樂、調整一語音介面以產生具有一安撫效果的話語,或推薦供一使用者實施的一放鬆活動。
TW108116472A 2018-05-17 2019-05-13 使用者經驗評估 TWI744634B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/982,851 2018-05-17
US15/982,851 US10872604B2 (en) 2018-05-17 2018-05-17 User experience evaluation

Publications (2)

Publication Number Publication Date
TW201947362A TW201947362A (zh) 2019-12-16
TWI744634B true TWI744634B (zh) 2021-11-01

Family

ID=66625429

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108116472A TWI744634B (zh) 2018-05-17 2019-05-13 使用者經驗評估

Country Status (4)

Country Link
US (1) US10872604B2 (zh)
CN (1) CN112106381B (zh)
TW (1) TWI744634B (zh)
WO (1) WO2019222043A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11550565B1 (en) 2017-07-21 2023-01-10 State Farm Mutual Automobile Insurance Company Method and system for optimizing dynamic user experience applications
US10872604B2 (en) * 2018-05-17 2020-12-22 Qualcomm Incorporated User experience evaluation
US11430435B1 (en) * 2018-12-13 2022-08-30 Amazon Technologies, Inc. Prompts for user feedback
US11133002B2 (en) * 2019-01-14 2021-09-28 Ford Global Technologies, Llc Systems and methods of real-time vehicle-based analytics and uses thereof
CN110138654B (zh) * 2019-06-06 2022-02-11 北京百度网讯科技有限公司 用于处理语音的方法和装置
US11574553B2 (en) * 2019-09-18 2023-02-07 International Business Machines Corporation Feeling experience correlation
DE102019132626A1 (de) * 2019-12-02 2021-06-02 Bayerische Motoren Werke Aktiengesellschaft Verfahren, Vorrichtung, Computerprogramm und computerlesbares Speichermedium zur Ermittlung einer Zuordnung bezüglich eines Ausstattungsmerkmals eines Fahrzeuges
CN114930449A (zh) * 2020-01-06 2022-08-19 七哈格斯实验室 用于控制多个装置的系统和方法
US11687778B2 (en) 2020-01-06 2023-06-27 The Research Foundation For The State University Of New York Fakecatcher: detection of synthetic portrait videos using biological signals
CN111240478B (zh) * 2020-01-07 2023-10-13 百度在线网络技术(北京)有限公司 设备响应的评测方法、装置、设备及存储介质
CN111312247A (zh) * 2020-02-19 2020-06-19 百度在线网络技术(北京)有限公司 语音交互方法和装置
US11735206B2 (en) * 2020-03-27 2023-08-22 Harman International Industries, Incorporated Emotionally responsive virtual personal assistant
US11508361B2 (en) * 2020-06-01 2022-11-22 Amazon Technologies, Inc. Sentiment aware voice user interface
US11676593B2 (en) * 2020-12-01 2023-06-13 International Business Machines Corporation Training an artificial intelligence of a voice response system based on non_verbal feedback
US20230395078A1 (en) * 2022-06-06 2023-12-07 Cerence Operating Company Emotion-aware voice assistant
TWI824883B (zh) * 2022-12-14 2023-12-01 輔仁大學學校財團法人輔仁大學 應用虛擬實境模擬表情情緒訓練的虛擬實境互動式系統

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120252483A1 (en) * 2011-01-04 2012-10-04 Qualcomm Incorporated Camera enabled headset for navigation
US20160033280A1 (en) * 2014-08-01 2016-02-04 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable earpiece for providing social and environmental awareness
US20160265917A1 (en) * 2015-03-10 2016-09-15 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing navigation instructions at optimal times
TW201729038A (zh) * 2016-02-05 2017-08-16 財團法人工業技術研究院 控制電子設備之方法及穿戴裝置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001289661A (ja) * 2000-04-07 2001-10-19 Alpine Electronics Inc ナビゲーション装置
US20030236582A1 (en) * 2002-06-25 2003-12-25 Lee Zamir Selection of items based on user reactions
US7437297B2 (en) 2005-01-27 2008-10-14 International Business Machines Corporation Systems and methods for predicting consequences of misinterpretation of user commands in automated systems
US8880402B2 (en) * 2006-10-28 2014-11-04 General Motors Llc Automatically adapting user guidance in automated speech recognition
ATE555433T1 (de) 2007-04-26 2012-05-15 Ford Global Tech Llc Emotives beratungssystem und verfahren
JP2010128015A (ja) 2008-11-25 2010-06-10 Toyota Central R&D Labs Inc 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム
US9123341B2 (en) 2009-03-18 2015-09-01 Robert Bosch Gmbh System and method for multi-modal input synchronization and disambiguation
WO2013022135A1 (en) * 2011-08-11 2013-02-14 Lg Electronics Inc. Electronic device and method of controlling the same
US9997069B2 (en) * 2012-06-05 2018-06-12 Apple Inc. Context-aware voice guidance
US9092394B2 (en) 2012-06-15 2015-07-28 Honda Motor Co., Ltd. Depth based context identification
US9719797B2 (en) * 2013-03-15 2017-08-01 Apple Inc. Voice and touch user interface
US20140298364A1 (en) * 2013-03-26 2014-10-02 Rawllin International Inc. Recommendations for media content based on emotion
US9462115B2 (en) * 2013-04-04 2016-10-04 James S. Rand Unified communications system and method
US9286029B2 (en) * 2013-06-06 2016-03-15 Honda Motor Co., Ltd. System and method for multimodal human-vehicle interaction and belief tracking
EP3008708B1 (en) * 2013-06-13 2019-12-18 Mobileye Vision Technologies Ltd. Vision augmented navigation
EP2857276B1 (en) * 2013-08-20 2018-12-12 Harman International Industries, Incorporated Driver assistance system
US9109917B2 (en) * 2013-09-26 2015-08-18 Google Inc. Systems and methods for providing input suggestions via the head unit of a vehicle
WO2015126095A1 (ko) * 2014-02-21 2015-08-27 삼성전자 주식회사 전자 장치
DE112015003379T5 (de) * 2014-07-22 2017-04-27 GM Global Technology Operations LLC Systeme und Verfahren für eine adaptive Schnittstelle, um Anwendererfahrungen in einem Fahrzeug zu verbessern
KR102497299B1 (ko) * 2016-06-29 2023-02-08 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN106373569B (zh) * 2016-09-06 2019-12-20 北京地平线机器人技术研发有限公司 语音交互装置和方法
CN106933345B (zh) * 2017-01-18 2020-02-07 北京光年无限科技有限公司 用于智能机器人的多模态交互方法及装置
US10872604B2 (en) * 2018-05-17 2020-12-22 Qualcomm Incorporated User experience evaluation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120252483A1 (en) * 2011-01-04 2012-10-04 Qualcomm Incorporated Camera enabled headset for navigation
US20160033280A1 (en) * 2014-08-01 2016-02-04 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable earpiece for providing social and environmental awareness
US20160265917A1 (en) * 2015-03-10 2016-09-15 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing navigation instructions at optimal times
TW201729038A (zh) * 2016-02-05 2017-08-16 財團法人工業技術研究院 控制電子設備之方法及穿戴裝置

Also Published As

Publication number Publication date
CN112106381B (zh) 2023-12-01
WO2019222043A1 (en) 2019-11-21
CN112106381A (zh) 2020-12-18
US10872604B2 (en) 2020-12-22
US20190355351A1 (en) 2019-11-21
TW201947362A (zh) 2019-12-16

Similar Documents

Publication Publication Date Title
TWI744634B (zh) 使用者經驗評估
US20230267921A1 (en) Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
US11031000B2 (en) Method and device for transmitting and receiving audio data
US10515640B2 (en) Generating dialogue based on verification scores
CN112074900B (zh) 用于自然语言处理的音频分析
US20210193176A1 (en) Context-based detection of end-point of utterance
US10102844B1 (en) Systems and methods for providing natural responses to commands
JP7243625B2 (ja) 情報処理装置、及び情報処理方法
EP2801091B1 (en) Method, apparatus and computer program product for joint use of speech and text-based features for sentiment detection
WO2014096506A1 (en) Method, apparatus, and computer program product for personalizing speech recognition
CN114762038A (zh) 在多轮对话中的自动轮次描述
US20230046658A1 (en) Synthesized speech audio data generated on behalf of human participant in conversation
US20210050018A1 (en) Server that supports speech recognition of device, and operation method of the server
US11741943B2 (en) Method and system for acoustic model conditioning on non-phoneme information features
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP2018207169A (ja) 機器制御装置及び機器制御方法
US11862178B2 (en) Electronic device for supporting artificial intelligence agent services to talk to users
EP3545519B1 (en) Method and device for transmitting and receiving audio data
WO2020208972A1 (ja) 応答生成装置及び応答生成方法
US11527247B2 (en) Computing device and method of operating the same
JP2022054667A (ja) 音声対話装置、音声対話システム、および、音声対話方法
KR20230135396A (ko) 대화 관리 방법, 사용자 단말 및 컴퓨터로 판독 가능한 기록 매체