TW201937344A - 智慧型機器人及人機交互方法 - Google Patents
智慧型機器人及人機交互方法 Download PDFInfo
- Publication number
- TW201937344A TW201937344A TW107110167A TW107110167A TW201937344A TW 201937344 A TW201937344 A TW 201937344A TW 107110167 A TW107110167 A TW 107110167A TW 107110167 A TW107110167 A TW 107110167A TW 201937344 A TW201937344 A TW 201937344A
- Authority
- TW
- Taiwan
- Prior art keywords
- user
- expression
- feature
- voice
- level
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000003993 interaction Effects 0.000 title claims abstract description 27
- 230000004044 response Effects 0.000 claims abstract description 69
- 230000002996 emotional effect Effects 0.000 claims abstract description 54
- 230000008451 emotion Effects 0.000 claims abstract description 32
- 230000014509 gene expression Effects 0.000 claims description 98
- 230000008921 facial expression Effects 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 28
- 230000001815 facial effect Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 210000000744 eyelid Anatomy 0.000 description 16
- 238000000605 extraction Methods 0.000 description 12
- 210000003128 head Anatomy 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 210000005252 bulbus oculi Anatomy 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 210000001508 eye Anatomy 0.000 description 8
- 208000027534 Emotional disease Diseases 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000009429 distress Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/0003—Home robots, i.e. small robots for domestic use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Manipulator (AREA)
- User Interface Of Digital Computer (AREA)
- Toys (AREA)
- Processing Or Creating Images (AREA)
Abstract
本發明涉及一種智慧型機器人。該智慧型機器人包括處理單元。該處理單元用於:獲取該語音採集單元採集的語音;識別獲取的語音以確定使用者的情緒特徵;根據識別的語音確定使用者意圖;根據使用者的情緒特徵、使用者意圖及一應答關係表確定與該情緒特徵及該使用者意圖相匹配的應答語句;及控制該語音輸出單元輸出該確定出的應答語句。本發明中能夠深入地理解用戶的情感和情緒的問題並與用戶進行交互,提高了用戶的體驗感。
Description
本發明涉及機器人領域,尤其涉及一種智慧型機器人及人機交互方法。
現有技術中,機器人與人之間的交互主要涉及簡單的人機對話,或在人的指令下完成特定的工作內容。然而,隨著人工智慧的發展,如何使機器人深入地理解用戶的情感和情緒的問題並與用戶進行交互成為人工智慧發展的一大難題。
鑒於以上內容,有必要提供一種智慧型機器人及人機交互方法以深入地理解用戶的情感和情緒的問題並與用戶進行交互。
一種智慧型機器人,包括語音採集單元、語音輸出單元及處理單元,該語音採集單元用於採集該智慧型機器人周圍的語音,該處理單元用於:
獲取該語音採集單元採集的語音;
識別獲取的語音以確定使用者的情緒特徵;
根據識別的語音確定使用者意圖;
根據使用者的情緒特徵、使用者意圖及一應答關係表確定與該情緒特徵及該使用者意圖相匹配的應答語句,其中,該應答關係表包括情緒特徵、使用者意圖及應答語句,並定義了情緒特徵、使用者意圖及應答語句的對應關係;及
控制該語音輸出單元輸出該確定出的應答語句。
優選地,該智慧型機器人還包括攝像單元及顯示單元,該攝像單元用於攝取位於該智慧型機器人周圍的人臉圖像,該處理單元還用於:
獲取該攝像單拍攝的人臉圖像;
根據獲取的人臉圖像確定一動畫形象的表情動畫;
控制該顯示單元顯示該動畫形象的表情動畫。
優選地,該處理單元還用於從獲取的人臉圖像中分析出面部表情圖片,對獲取的面部表情圖片進行面部表情特徵提取後確定出面部表情特徵參數,並根據獲取的人臉圖像的面部表情特徵參數利用臉部動作編碼系統來確定該動畫形象的表情動畫。
優選地,該智慧型機器人還包括一表情輸出單元,該處理單元還用於:
根據識別的使用者情緒及一表情關係表確定一表情控制指令;及
根據確定的表情控制指令控制該表情輸出單元輸出一表情以使該智慧型機器人與用戶進行交互,其中,該表情關係表包括一組用戶情緒及一組表情控制指令,並定義了該些用戶情緒及該些表情控制指令的對應關係。
優選地,該處理單元還用於:
從識別的語音中提取多段特徵檔,其中各段特徵文字與預設的樹形結構意圖庫中的各個級別一一對應;
將第一級別對應的特徵文字確定為當前級別的特徵文字,並將該樹形結構意圖庫中第一級別的所有意圖確定為候選意圖;
將所述當前級別的特徵文字與各個候選意圖進行匹配,獲得當前意圖;
判斷是否所有特徵文字匹配完成;及
當所有特徵文字都匹配完成時將當前意圖確定為用戶意圖。
優選地,該處理單元還用於:
當所有特徵文字沒有全部匹配完成時將下一級別對應的特徵文字確定為當前級別的特徵文字;
將所述樹形結構意圖庫中當前意圖對應的下一級別的所有意圖確定為候選意圖;
將當前級別的特徵文字與所述各個候選意圖進行匹配,獲得當前意圖;及
當所有特徵文字均匹配完成時,將當前意圖確定為用戶意圖。
一種人機交互方法,應用在一智慧型機器人中,該方法包括步驟:
獲取一語音採集單元採集的語音;
識別獲取的語音以確定使用者的情緒特徵;
根據識別的語音確定使用者意圖;
根據使用者的情緒特徵、使用者意圖及一應答關係表確定與該情緒特徵及該使用者意圖相匹配的應答語句,其中,該應答關係表包括情緒特徵、使用者意圖及應答語句,並定義了情緒特徵、使用者意圖及應答語句的對應關係;及
控制一語音輸出單元輸出該確定出的應答語句。
優選地,該方法還包括步驟:
獲取一攝像單拍攝的人臉圖像;
根據獲取的人臉圖像確定一動畫形象的表情動畫;
控制一顯示單元顯示該動畫形象的表情動畫。
優選地,該方法在步驟“根據獲取的人臉圖像確定一動畫形象的表情動畫”中包括:
從獲取的人臉圖像中分析出面部表情圖片;
對獲取的面部表情圖片進行面部表情特徵提取後確定出面部表情特徵參數;及
根據獲取的人臉圖像的面部表情特徵參數利用臉部動作編碼系統來確定該動畫形象的表情動畫。
優選地,方法還包括步驟:
根據識別的使用者情緒及一表情關係表確定一表情控制指令;及
根據確定的表情控制指令控制一表情輸出單元輸出一表情以使該智慧型機器人與用戶進行交互,其中,該表情關係表包括一組用戶情緒及一組表情控制指令,並定義了該些用戶情緒及該些表情控制指令的對應關係。
優選地,該方法還包括步驟:
從識別的語音中提取多段特徵檔,其中各段特徵文字與預設的樹形結構意圖庫中的各個級別一一對應;
將第一級別對應的特徵文字確定為當前級別的特徵文字,並將該樹形結構意圖庫中第一級別的所有意圖確定為候選意圖;
將所述當前級別的特徵文字與各個候選意圖進行匹配,獲得當前意圖;
判斷是否所有特徵文字匹配完成;及
當所有特徵文字都匹配完成時將當前意圖確定為用戶意圖。
優選地,該方法還包括步驟:
當所有特徵文字沒有全部匹配完成時將下一級別對應的特徵文字確定為當前級別的特徵文字;
將所述樹形結構意圖庫中當前意圖對應的下一級別的所有意圖確定為候選意圖;
將當前級別的特徵文字與所述各個候選意圖進行匹配,獲得當前意圖;及
當所有特徵文字均匹配完成時,將當前意圖確定為用戶意圖。
本案中的智慧型機器人及人機交互方法能夠深入地理解用戶的情感和情緒的問題並與用戶進行交互,提高了用戶的體驗感。
請參考圖1,所示為本發明一實施方式中人機交互系統1的應用環境圖。該人機交互系統1應用在一智慧型機器人2中。該智慧型機器人2與一伺服器3通訊連接。本實施方式中,該伺服器3為雲端伺服器。該人機交互系統1用於獲取使用者的語音資訊及表情資訊,根據獲取的語音資訊產生一應答語句及根據獲取的表情資訊產生一表情動畫,並輸出該應答語句及表情動畫以實現該智慧型機器人2與用戶的交互。
參考圖2,所示為本發明一實施方式智慧型機器人2的功能模組圖。該智慧型機器人2包括,但不限於攝像單元21、語音採集單元22、顯示單元23、語音輸出單元24、表情輸出單元25、存儲單元26、處理單元27及通訊單元28。該處理單元27分別與該攝像單元21、語音採集單元22、顯示單元23、語音輸出單元24、表情輸出單元25、存儲單元26及通訊單元28連接。本實施方式中,該攝像單元21用於攝像智慧型機器人2周圍的環境圖像並將攝取的圖像傳送給該處理單元27。例如,該攝像單元21可以攝取位於智慧型機器人2周圍的使用者的人臉圖像,並將攝取的使用者的人臉圖像發送給該處理單元27。本實施方式中,該攝像單元21可以為一攝像頭、3D光場相機等。該語音採集單元22用於採集接收智慧型機器人2周圍的語音資訊並將接收的語音資訊傳送給處理單元27。在本實施方式中,該語音採集單元22可以為麥克風或麥克風陣列等。該顯示單元23用於在該處理單元27的控制下顯示該智慧型機器人2的資料內容。例如,該顯示單元23顯示一動畫圖像資料。
該語音輸出單元24用於在該處理單元27的控制下輸出語音資訊。在本實施方式中,該語音輸出單元24可以為揚聲器。該表情輸出單元25用於在該處理單元27的控制下輸出表情動作。例如,該表情動作可以為,如高興、苦惱、憂鬱等表情動作。在本實施方式中,該表情輸出單元25包括設於機器人頭部可開合的眼簾和嘴巴及設於眼簾內可轉動的眼球。該通訊單元28用於供該智慧型機器人2與伺服器3通訊連接。在一實施方式中,該通訊單元28可以為WIFI通訊模組、3G/4G通訊模組、Zigbee通訊模組及Blue Tooth通訊模組。
該存儲單元26用於存儲該智慧型機器人2的程式碼及資料資料。例如,該存儲單元26可以存儲預設人臉圖像、預設語音及人機交互系統1。本實施方式中,該存儲單元26可以為該智慧型機器人2的內部存儲單元,例如該智慧型機器人2的硬碟或記憶體。在另一實施方式中,該存儲單元26也可以為該智慧型機器人2的外部存放裝置,例如該智慧型機器人2上配備的插接式硬碟,智慧存儲卡(Smart Media Card, SMC),安全數位(Secure Digital, SD)卡,快閃記憶體卡(Flash Card)等。本實施方式中,該處理單元27可以為一中央處理器(Central Processing Unit, CPU),微處理器或其他資料處理晶片,該處理單元27用於執行軟體程式碼或運算資料。
請參考圖3,所示為本發明一實施方式中人機交互系統1的功能模組圖。該人機交互系統1包括一個或多個模組,所述一個或者多個模組被存儲於該存儲單元26中,並被該處理單元27所執行。本實施方式中,人機交互系統1包括獲取模組101、識別模組102、應答確定模組103、表情動畫確定模組104及輸出模組105。在其他實施方式中,該人機交互系統1為內嵌在該智慧型機器人2中的程式段或代碼。
該獲取模組101用於獲取該語音採集單元22採集的語音。
該識別模組102用於識別獲取模組101獲取的語音以確定使用者的情緒特徵。本實施方式中,使用者的情緒特徵包括,但不限於高興、憤怒、生氣、喜悅、擔心等情緒。例如,該識別模組102識別的語音是“今天是週末,可以出去好好玩一玩了”時,該識別模組102能夠確定與該語音相對應的情緒特徵是高興。例如,該識別模組102識別的語音是“今天天氣糟透了,不能出去玩了”時,該識別模組102能夠確定與該語音相對應的情緒特徵是生氣。本實施方式中,根據使用者的語音確定使用者的情緒特徵為現有技術,這裡不再詳述。
該識別模組102還根據識別的語音確定使用者意圖。例如,該識別模組102識別的語音是“今天是週末,可以出去好好玩一玩了”時,該識別模組102能夠確定與該語音相對應的使用者意圖是出去玩。具體地,該識別模組102從識別的語音中提取多段特徵文字,其中各段特徵文字與預設的樹形結構意圖庫中的各個級別一一對應。本實施方式中,該識別模組102將該語音輸入預設的特徵文字提取模型,獲得特徵文字提取模型輸出的各個級別的多特徵文字。其中,特徵文字提取模型,用於對所述語音進行語義解析,獲得與樹形結構意圖庫中各個級別對應的特徵文字。在本實施方式中,樹形結構意圖庫中的所有級別可以只對應一個總的特徵文字提取模型。在輸入時,將語音辨識結果輸入該總的特徵文字提取模型,獲得該總的特徵文字提取模型輸出的各個級別的多特徵文字。然後,該識別模組102將第一級別對應的特徵文字確定為當前級別的特徵文字,並將所述樹形結構意圖庫中第一級別的所有意圖確定為候選意圖。
然後,該識別模組102將所述當前級別的特徵文字與各個候選意圖進行匹配,獲得當前意圖。具體的,在匹配時,從第一級別的特徵文字與樹形結構意圖庫中第一級別的所有意圖的匹配開始執行,然後將第二級別的特徵文字與樹形結構意圖庫中匹配成功的第二級別的所有意圖進行匹配,將第三級別的特徵文字與樹形結構意圖庫中匹配成功的第三級別的所有意圖進行匹配,依此規律逐級執行匹配過程,直至所有級別的特徵文字匹配完成。本實施方式中,在獲得當前意圖時,該識別模組102可以直接將匹配成功的候選意圖作為當前意圖。本實施方式中,當前意圖為本次匹配成功的候選意圖以及在本次匹配之前所有匹配成功的各級別意圖共同構成的意圖。接著,該識別模組102判斷是否所有特徵文字匹配完成。如果所有特徵文字都匹配完成,該識別模組102將當前意圖確定為用戶意圖。如果所有特徵文字沒有全部匹配完成,該識別模組102將下一級別對應的特徵文字確定為當前級別的特徵文字;將所述樹形結構意圖庫中當前意圖對應的下一級別的所有意圖確定為候選意圖,並將當前級別的特徵文字與所述各個候選意圖進行匹配,獲得當前意圖。最後,當所有特徵文字均匹配完成時,當前意圖即構成了最終確定的用戶意圖。
該應答確定模組103用於根據使用者的情緒特徵、使用者意圖及應答關係表200確定一與情緒特徵及使用者意圖相匹配的應答語句。請參考圖4,所示為本發明一實施方式中應答關係表200的示意圖。本實施方式中,該應答關係表200包括情緒特徵、使用者意圖及應答語句,並定義了情緒特徵、使用者意圖及應答語句的對應關係。本實施方式中,該應答確定模組103根據使用者的情緒特徵、使用者意圖查找該應答關係表200確定與該情緒特徵及使用者意圖相匹配的應答語句。例如,在該應答關係表200中,與情緒特徵為“高興”及與用戶意圖為“出去玩”相對應的應答語句為“祝你玩得愉快”。該應答確定模組103根據獲取的“高興”情緒特徵及“出去玩”的用戶意圖查找該應答關係表200,並確定出與該情緒特徵及使用者意圖相匹配的應答語句為“祝你玩得愉快”。本實施方式中,該應答關係表200存儲在該智慧型機器人2的存儲單元26中,該應答確定模組103根據使用者的情緒特徵、使用者意圖查找存儲在該存儲單元26中的應答關係表200確定與該情緒特徵及使用者意圖相匹配的應答語句。在其他實施方式中,該應答關係表200存儲在該伺服器3中,該應答確定模組103根據使用者的情緒特徵、使用者意圖查找存儲在該伺服器3中的應答關係表200確定與該情緒特徵及使用者意圖相匹配的應答語句。
該輸出模組105用於控制該語音輸出單元24輸出該應答語句。
在一實施方式中,該獲取模組101還用於獲取該攝像單元21拍攝的人臉圖像。該表情動畫確定模組104用於根據獲取的人臉圖像確定一動畫形象的表情動畫。具體的,該表情動畫確定模組104從獲取的人臉圖像中分析出面部表情圖片,對獲取的面部表情圖片進行面部表情特徵提取後確定出面部表情特徵參數,並根據該面部表情特徵參數確定該動畫形象的表情動畫。本實施方式中,該面部表情特徵包括,但不限於頭高、頭圍、眼寬、眼高、兩眼距、鼻寬、鼻長、嘴寬、上下嘴唇厚、耳長、耳寬、耳厚等。該動畫形象可以為小豬、小狗或小熊等卡通形象。本實施方式中,該表情動畫確定模組104根據獲取的人臉圖像的面部表情特徵參數利用臉部動作編碼系統(Facial Action Coding system, FACS)來確定該動畫形象的表情動畫。在另一實施方式中,該表情動畫確定模組104根據獲取的人臉圖像的面部表情特徵參數及識別模組102確定的使用者情緒利用臉部動作編碼系統確定該動畫形象的表情動畫。該輸出模組105用於控制該顯示單元23顯示該動畫形象的表情動畫。
在一實施方式中,該輸出模組105還根據識別模組102識別的使用者情緒及表情關係表300確定一表情控制指令,並根據確定的表情控制指令控制該表情輸出單元25輸出一表情以使該智慧型機器人2與用戶進行交互。該表情輸出單元25可以為設於智慧型機器人2頭部中的眼簾和嘴巴及設於眼簾內的眼球。請參考圖5,所示為本發明一實施方式中表情關係表300的示意圖。該表情關係表300包括一組用戶情緒及一組表情控制指令,並定義了該些用戶情緒及該些表情控制指令的對應關係。該輸出模組105根據使用者情緒查找該表情關係表300確定與用戶情緒相匹配的表情控制指令。例如,在該表情關係表300中,與“高興”用戶表情相對應的表情控制指令為控制設於智慧型機器人2頭部中的眼簾和嘴巴開合及設於眼簾內的眼球轉動。當該輸出模組105根據“高興”使用者表情查找該表情關係表300並確定與“高興”用戶表情相對應的表情控制指令為控制設於智慧型機器人2頭部中的眼簾和嘴巴開合及設於眼簾內的眼球轉動時,該輸出模組105控制該智慧型機器人2中的眼簾和嘴巴開合及設於眼簾內的眼球轉動以輸出智慧型機器人2的表情,從而實現該智慧型機器人2與用戶進行交互。
請參考圖6,所示為本發明一實施方式中人機交互方法的流程圖。該方法應用在智慧型機器人2中。根據不同需求,該流程圖中步驟的順序可以改變,某些步驟可以省略或合併。該方法包括如下步驟。
S601:獲取該語音採集單元22採集的語音。
S602:識別獲取的語音以確定使用者的情緒特徵。
本實施方式中,使用者的情緒特徵包括,但不限於高興、憤怒、生氣、喜悅、擔心等情緒。例如,當識別的語音是“今天是週末,可以出去好好玩一玩了”時,該智慧型機器人2能夠確定與該語音相對應的情緒特徵是高興。當識別的語音是“今天天氣糟透了,不能出去玩了”時,該智慧型機器人2能夠確定與該語音相對應的情緒特徵是生氣。本實施方式中,根據使用者的語音確定使用者的情緒特徵為現有技術,這裡不再詳述。
S603:根據識別的語音確定使用者意圖。例如,當識別的語音是“今天是週末,可以出去好好玩一玩了”時,該智慧型機器人2能夠確定與該語音相對應的使用者意圖是出去玩。
S604:根據使用者的情緒特徵、使用者意圖及應答關係表200確定一與情緒特徵及使用者意圖相匹配的應答語句。本實施方式中,該應答關係表200包括情緒特徵、使用者意圖及應答語句,並定義了情緒特徵、使用者意圖及應答語句的對應關係。
本實施方式中,該智慧型機器人2根據使用者的情緒特徵、使用者意圖查找該應答關係表200確定與該情緒特徵及使用者意圖相匹配的應答語句。例如,在該應答關係表200中,與情緒特徵為“高興”及與用戶意圖為“出去玩”相對應的應答語句為“祝你玩得愉快”。該智慧型機器人2根據獲取的“高興”情緒特徵及“出去玩”的用戶意圖查找該應答關係表200,並確定出與該情緒特徵及使用者意圖相匹配的應答語句為“祝你玩得愉快”。
S605:控制語音輸出單元24輸出該應答語句。
在一實施方式中,該方法還包括步驟:
獲取該攝像單元21拍攝的人臉圖像;
根據獲取的人臉圖像確定一動畫形象的表情動畫;及
控制該顯示單元23顯示該動畫形象的表情動畫。
在一實施方式中,該方法在步驟“根據獲取的人臉圖像確定一動畫形象的表情動畫”中包括:從獲取的人臉圖像中分析出面部表情圖片;對獲取的面部表情圖片進行面部表情特徵提取後確定出面部表情特徵參數;並根據該面部表情特徵參數確定該動畫形象的表情動畫。
本實施方式中,該面部表情特徵包括,但不限於頭高、頭圍、眼寬、眼高、兩眼距、鼻寬、鼻長、嘴寬、上下嘴唇厚、耳長、耳寬、耳厚等。該動畫形象可以為小豬、小狗或小熊等卡通形象。本實施方式中,該智慧型機器人2根據獲取的人臉圖像的面部表情特徵參數利用臉部動作編碼系統來確定該動畫形象的表情動畫。在另一實施方式中,該智慧型機器人2根據獲取的人臉圖像的面部表情特徵參數及確定的使用者情緒利用臉部動作編碼系統確定該動畫形象的表情動畫。
在一實施方式中,該方法還包括步驟:根據識別的使用者情緒及表情關係表300確定一表情控制指令;並根據確定的表情控制指令控制該表情輸出單元25輸出一表情以使該智慧型機器人2與用戶進行交互。
本實施方式中,該表情輸出單元25可以為設於智慧型機器人2頭部中的眼簾和嘴巴及設於眼簾內的眼球。該表情關係表300包括一組用戶情緒及一組表情控制指令,並定義了該些用戶情緒及該些表情控制指令的對應關係。該智慧型機器人2根據使用者情緒查找該表情關係表300確定與用戶情緒相匹配的表情控制指令。例如,在該表情關係表300中,與“高興”用戶表情相對應的表情控制指令為控制設於智慧型機器人2頭部中的眼簾和嘴巴開合及設於眼簾內的眼球轉動。當智慧型機器人2根據“高興”使用者表情查找該表情關係表300並確定與“高興”用戶表情相對應的表情控制指令為控制設於智慧型機器人2頭部中的眼簾和嘴巴開合及設於眼簾內的眼球轉動時,該智慧型機器人2控制該智慧型機器人2中的眼簾和嘴巴開合及設於眼簾內的眼球轉動以輸出智慧型機器人2的表情,從而實現該智慧型機器人2與用戶進行交互。
請參考圖7,所示為本發明一實施方式中根據識別的語音確定使用者意圖的方法流程圖。本實施方式中,該方法包括步驟:
S701:從識別的語音中提取多段特徵檔,其中各段特徵文字與預設的樹形結構意圖庫中的各個級別一一對應。
本實施方式中,該智慧型機器人2將該語音輸入預設的特徵文字提取模型,獲得特徵文字提取模型輸出的各個級別的多特徵文字。其中,特徵文字提取模型,用於對所述語音進行語義解析,獲得與樹形結構意圖庫中各個級別對應的特徵文字。在本實施方式中,樹形結構意圖庫中的所有級別可以只對應一個總的特徵文字提取模型。在輸入時,將語音辨識結果輸入該總的特徵文字提取模型,獲得該總的特徵文字提取模型輸出的各個級別的多特徵文字。
S702:將第一級別對應的特徵文字確定為當前級別的特徵文字,並將所述樹形結構意圖庫中第一級別的所有意圖確定為候選意圖。
具體的,在匹配時,從第一級別的特徵文字與樹形結構意圖庫中第一級別的所有意圖的匹配開始執行,然後將第二級別的特徵文字與樹形結構意圖庫中匹配成功的第二級別的所有意圖進行匹配,將第三級別的特徵文字與樹形結構意圖庫中匹配成功的第三級別的所有意圖進行匹配,依此規律逐級執行匹配過程,直至所有級別的特徵文字匹配完成。
S703:將所述當前級別的特徵文字與各個候選意圖進行匹配,獲得當前意圖。
具體地,在獲得當前意圖時,該智慧型機器人2可以直接將匹配成功的候選意圖作為當前意圖。本實施方式中,當前意圖為本次匹配成功的候選意圖以及在本次匹配之前所有匹配成功的各級別意圖共同構成的意圖。
S704:判斷是否所有特徵文字匹配完成。若是,則執行步驟S705;若否,則執行步驟S706。
S705:將當前意圖確定為用戶意圖。
S706:將下一級別對應的特徵文字確定為當前級別的特徵文字;將所述樹形結構意圖庫中當前意圖對應的下一級別的所有意圖確定為候選意圖;返回步驟S703。
本實施方式中,當所有特徵文字均匹配完成時,當前意圖即構成了最終確定的用戶意圖。
綜上所述,本發明符合發明專利要件,爰依法提出專利申請。惟,以上所述者僅為本發明之較佳實施方式,舉凡熟悉本案技藝之人士,於爰依本發明精神所作之等效修飾或變化,皆應涵蓋於以下之申請專利範圍內。
1‧‧‧人機交互系統
2‧‧‧智慧型機器人
3‧‧‧伺服器
21‧‧‧攝像單元
22‧‧‧語音採集單元
23‧‧‧顯示單元
24‧‧‧語音輸出單元
25‧‧‧表情輸出單元
26‧‧‧存儲單元
27‧‧‧處理單元
28‧‧‧通訊單元
101‧‧‧獲取模組
102‧‧‧識別模組
103‧‧‧應答確定模組
104‧‧‧表情動畫確定模組
105‧‧‧輸出模組
200‧‧‧應答關係表
300‧‧‧表情關係表
S601~S604、S701~S706‧‧‧步驟
圖1為本發明一實施方式中人機交互系統的應用環境圖。 圖2為本發明一實施方式智慧型機器人的功能模組圖。 圖3為本發明一實施方式中人機交互系統的功能模組圖。 圖4為本發明一實施方式中應答關係表的示意圖。 圖5為本發明一實施方式中表情關係表的示意圖。 圖6為本發明一實施方式中人機交互方法的流程圖。 圖7為本發明一實施方式中根據識別的語音確定使用者意圖的方法流程圖。
Claims (12)
- 一種智慧型機器人,包括語音採集單元、語音輸出單元及處理單元,該語音採集單元用於採集該智慧型機器人周圍的語音,其改良在於,該處理單元用於: 獲取該語音採集單元採集的語音; 識別獲取的語音以確定使用者的情緒特徵; 根據識別的語音確定使用者意圖; 根據使用者的情緒特徵、使用者意圖及一應答關係表確定與該情緒特徵及該使用者意圖相匹配的應答語句,其中,該應答關係表包括情緒特徵、使用者意圖及應答語句,並定義了情緒特徵、使用者意圖及應答語句的對應關係;及 控制該語音輸出單元輸出該確定出的應答語句。
- 如申請專利範圍第1項所述的智慧型機器人,該智慧型機器人還包括攝像單元及顯示單元,該攝像單元用於攝取位於該智慧型機器人周圍的人臉圖像,其中,該處理單元還用於: 獲取該攝像單拍攝的人臉圖像; 根據獲取的人臉圖像確定一動畫形象的表情動畫; 控制該顯示單元顯示該動畫形象的表情動畫。
- 如申請專利範圍第2項所述的智慧型機器人,其中,該處理單元還用於從獲取的人臉圖像中分析出面部表情圖片,對獲取的面部表情圖片進行面部表情特徵提取後確定出面部表情特徵參數,並根據獲取的人臉圖像的面部表情特徵參數利用臉部動作編碼系統來確定該動畫形象的表情動畫。
- 如申請專利範圍第1項所述的智慧型機器人,該智慧型機器人還包括一表情輸出單元,其中,該處理單元還用於: 根據識別的使用者情緒及一表情關係表確定一表情控制指令;及 根據確定的表情控制指令控制該表情輸出單元輸出一表情以使該智慧型機器人與用戶進行交互,其中,該表情關係表包括一組用戶情緒及一組表情控制指令,並定義了該些用戶情緒及該些表情控制指令的對應關係。
- 如申請專利範圍第1項所述的智慧型機器人,其中,該處理單元還用於: 從識別的語音中提取多段特徵檔,其中各段特徵文字與預設的樹形結構意圖庫中的各個級別一一對應; 將第一級別對應的特徵文字確定為當前級別的特徵文字,並將該樹形結構意圖庫中第一級別的所有意圖確定為候選意圖; 將所述當前級別的特徵文字與各個候選意圖進行匹配,獲得當前意圖; 判斷是否所有特徵文字匹配完成;及 當所有特徵文字都匹配完成時將當前意圖確定為用戶意圖。
- 如申請專利範圍第5項所述的智慧型機器人,其中,該處理單元還用於: 當所有特徵文字沒有全部匹配完成時將下一級別對應的特徵文字確定為當前級別的特徵文字; 將所述樹形結構意圖庫中當前意圖對應的下一級別的所有意圖確定為候選意圖; 將當前級別的特徵文字與所述各個候選意圖進行匹配,獲得當前意圖;及 當所有特徵文字均匹配完成時,將當前意圖確定為用戶意圖。
- 一種人機交互方法,應用在一智慧型機器人中,其改良在於,該方法包括步驟: 獲取一語音採集單元採集的語音; 識別獲取的語音以確定使用者的情緒特徵; 根據識別的語音確定使用者意圖; 根據使用者的情緒特徵、使用者意圖及一應答關係表確定與該情緒特徵及該使用者意圖相匹配的應答語句,其中,該應答關係表包括情緒特徵、使用者意圖及應答語句,並定義了情緒特徵、使用者意圖及應答語句的對應關係;及 控制一語音輸出單元輸出該確定出的應答語句。
- 如申請專利範圍第7項所述的人機交互方法,其中,該方法還包括步驟: 獲取一攝像單拍攝的人臉圖像; 根據獲取的人臉圖像確定一動畫形象的表情動畫; 控制一顯示單元顯示該動畫形象的表情動畫。
- 如申請專利範圍第8項所述的人機交互方法,其中,該方法在步驟“根據獲取的人臉圖像確定一動畫形象的表情動畫”中包括: 從獲取的人臉圖像中分析出面部表情圖片; 對獲取的面部表情圖片進行面部表情特徵提取後確定出面部表情特徵參數;及 根據獲取的人臉圖像的面部表情特徵參數利用臉部動作編碼系統來確定該動畫形象的表情動畫。
- 如申請專利範圍第7項所述的人機交互方法,其中,方法還包括步驟: 根據識別的使用者情緒及一表情關係表確定一表情控制指令;及 根據確定的表情控制指令控制一表情輸出單元輸出一表情以使該智慧型機器人與用戶進行交互,其中,該表情關係表包括一組用戶情緒及一組表情控制指令,並定義了該些用戶情緒及該些表情控制指令的對應關係。
- 如申請專利範圍第7項所述的人機交互方法,其中,該方法還包括步驟: 從識別的語音中提取多段特徵檔,其中各段特徵文字與預設的樹形結構意圖庫中的各個級別一一對應; 將第一級別對應的特徵文字確定為當前級別的特徵文字,並將該樹形結構意圖庫中第一級別的所有意圖確定為候選意圖; 將所述當前級別的特徵文字與各個候選意圖進行匹配,獲得當前意圖; 判斷是否所有特徵文字匹配完成;及 當所有特徵文字都匹配完成時將當前意圖確定為用戶意圖。
- 如申請專利範圍第11項所述的人機交互方法,其中,該方法還包括步驟: 當所有特徵文字沒有全部匹配完成時將下一級別對應的特徵文字確定為當前級別的特徵文字; 將所述樹形結構意圖庫中當前意圖對應的下一級別的所有意圖確定為候選意圖; 將當前級別的特徵文字與所述各個候選意圖進行匹配,獲得當前意圖;及 當所有特徵文字均匹配完成時,將當前意圖確定為用戶意圖。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
??201810170642.4 | 2018-03-01 | ||
CN201810170642.4A CN110309254A (zh) | 2018-03-01 | 2018-03-01 | 智能机器人与人机交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201937344A true TW201937344A (zh) | 2019-09-16 |
Family
ID=67768219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107110167A TW201937344A (zh) | 2018-03-01 | 2018-03-23 | 智慧型機器人及人機交互方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190272846A1 (zh) |
CN (1) | CN110309254A (zh) |
TW (1) | TW201937344A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883131A (zh) * | 2020-08-20 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法及装置 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113778114A (zh) * | 2014-11-07 | 2021-12-10 | 索尼公司 | 控制系统、控制方法以及存储介质 |
CN109421044A (zh) * | 2017-08-28 | 2019-03-05 | 富泰华工业(深圳)有限公司 | 智能机器人 |
CN110807388B (zh) * | 2019-10-25 | 2021-06-08 | 深圳追一科技有限公司 | 交互方法、装置、终端设备及存储介质 |
CN112829763A (zh) * | 2019-11-05 | 2021-05-25 | 北京新能源汽车股份有限公司 | 一种语音交互处理方法、系统及汽车 |
CN112289312B (zh) * | 2020-07-10 | 2024-04-05 | 北京京东尚科信息技术有限公司 | 语音指令的识别方法、装置、电子设备及计算机可读介质 |
CN111966221B (zh) * | 2020-08-10 | 2024-04-26 | 广州汽车集团股份有限公司 | 车内互动处理方法及装置 |
CN112309372B (zh) * | 2020-10-28 | 2024-02-23 | 平安科技(深圳)有限公司 | 基于语调的意图识别方法、装置、设备及存储介质 |
CN114595314A (zh) * | 2020-12-07 | 2022-06-07 | 山东新松工业软件研究院股份有限公司 | 融合情绪的对话应答方法、装置、终端及存储装置 |
CN112992147A (zh) * | 2021-02-26 | 2021-06-18 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备和存储介质 |
CN114121041B (zh) * | 2021-11-19 | 2023-12-08 | 韩端科技(深圳)有限公司 | 一种基于智伴机器人智能陪伴方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2989209B1 (fr) * | 2012-04-04 | 2015-01-23 | Aldebaran Robotics | Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot |
CN105082150B (zh) * | 2015-08-25 | 2017-04-05 | 国家康复辅具研究中心 | 一种基于用户情绪及意图识别的机器人人机交互方法 |
CN106537294A (zh) * | 2016-06-29 | 2017-03-22 | 深圳狗尾草智能科技有限公司 | 一种机器人交互内容的生成方法、系统及机器人 |
CN106985137B (zh) * | 2017-03-09 | 2019-11-08 | 北京光年无限科技有限公司 | 用于智能机器人的多模态交互方法及系统 |
CN106959839A (zh) * | 2017-03-22 | 2017-07-18 | 北京光年无限科技有限公司 | 一种人机交互装置及方法 |
CN107146610B (zh) * | 2017-04-10 | 2021-06-15 | 易视星空科技无锡有限公司 | 一种用户意图的确定方法及装置 |
-
2018
- 2018-03-01 CN CN201810170642.4A patent/CN110309254A/zh active Pending
- 2018-03-23 TW TW107110167A patent/TW201937344A/zh unknown
- 2018-04-23 US US15/959,370 patent/US20190272846A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883131A (zh) * | 2020-08-20 | 2020-11-03 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法及装置 |
CN111883131B (zh) * | 2020-08-20 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 语音数据的处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110309254A (zh) | 2019-10-08 |
US20190272846A1 (en) | 2019-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201937344A (zh) | 智慧型機器人及人機交互方法 | |
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
US12039454B2 (en) | Microexpression-based image recognition method and apparatus, and related device | |
CN107492379B (zh) | 一种声纹创建与注册方法及装置 | |
EP3617946B1 (en) | Context acquisition method and device based on voice interaction | |
WO2020135194A1 (zh) | 基于情绪引擎技术的语音交互方法、智能终端及存储介质 | |
CN103218842B (zh) | 一种语音同步驱动三维人脸口型与面部姿势动画的方法 | |
TWI661363B (zh) | 智慧型機器人及人機交互方法 | |
CN110688008A (zh) | 虚拟形象交互方法和装置 | |
KR20200046117A (ko) | 공동 오디오-비디오 얼굴 애니메이션 시스템 | |
US20150325240A1 (en) | Method and system for speech input | |
CN112650831A (zh) | 虚拟形象生成方法、装置、存储介质及电子设备 | |
CN103456299A (zh) | 一种控制语音识别的方法和装置 | |
US20240070397A1 (en) | Human-computer interaction method, apparatus and system, electronic device and computer medium | |
CN107911643B (zh) | 一种视频通信中展现场景特效的方法和装置 | |
CN106502382B (zh) | 用于智能机器人的主动交互方法和系统 | |
KR102222911B1 (ko) | 로봇 상호작용 시스템 및 그를 위한 프로그램 | |
CN110737335B (zh) | 机器人的交互方法、装置、电子设备及存储介质 | |
WO2024088321A1 (zh) | 虚拟形象面部驱动方法、装置、电子设备及介质 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN108628454B (zh) | 基于虚拟人的视觉交互方法及系统 | |
CN116935277A (zh) | 多模态情感识别方法及装置 | |
JP2017182261A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN111062207A (zh) | 表情图像处理方法、装置、计算机存储介质及电子设备 | |
CN115171673A (zh) | 一种基于角色画像的交流辅助方法、装置及存储介质 |