TW202129467A - 基於內容的對話方法、電腦可讀取記錄媒體及電腦裝置 - Google Patents
基於內容的對話方法、電腦可讀取記錄媒體及電腦裝置 Download PDFInfo
- Publication number
- TW202129467A TW202129467A TW110102496A TW110102496A TW202129467A TW 202129467 A TW202129467 A TW 202129467A TW 110102496 A TW110102496 A TW 110102496A TW 110102496 A TW110102496 A TW 110102496A TW 202129467 A TW202129467 A TW 202129467A
- Authority
- TW
- Taiwan
- Prior art keywords
- posture
- content
- reaction
- processor
- determined
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 107
- 244000145845 chattering Species 0.000 title 1
- 238000006243 chemical reaction Methods 0.000 claims abstract description 147
- 230000004044 response Effects 0.000 claims abstract description 52
- 230000036544 posture Effects 0.000 claims description 253
- 239000013598 vector Substances 0.000 claims description 74
- 238000013507 mapping Methods 0.000 claims description 14
- 239000000463 material Substances 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 206010016173 Fall Diseases 0.000 description 5
- 241000282412 Homo Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 210000004197 pelvis Anatomy 0.000 description 2
- 208000033748 Device issues Diseases 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241000640843 Epipactis gigantea Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/50—Business processes related to the communications industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Multimedia (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
- Operations Research (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本發明公開了基於內容的對話方法、電腦可讀取記錄媒體及電腦裝置。本發明一實施例的基於內容的對話方法可包括:接收步驟,接收源內容;人體姿勢確定步驟,確定所輸入的上述源內容所包含的人體姿勢;反應姿勢確定步驟,確定與所確定的上述人體姿勢對應的反應姿勢;反應內容確定步驟,確定包含所確定的上述反應姿勢的反應內容;以及提供步驟,作爲對於上述源內容的回應,提供所確定的上述反應內容。
Description
以下說明關於以基於人體姿勢的內容爲基礎的對話方法及系統。
即時通訊(instant messaging)爲可以在網路上收發簡單訊息或檔案的軟體的統稱。通常,透過上述即時通訊收發的即時訊息包括文本。另一方面,即時訊息也可包括圖像、聲音、視訊和/或映射有動畫的表情包(或表情符號)。例如,在韓國授權專利第10-1434227號中公開了用於表情符號聊天的移動終端及利用其的手機聊天方法。有時,即時通訊的使用者在聊天時會使用表情包,而並非進行打字,根據情况,相比於使用由文本組成的多個單詞或句子,映射在表情包中的圖像、聲音和/或動畫將可更好地表達使用者的感受或感情。在此情况下,表情包可利用即時通訊擴展成由能夠以即時訊息的形式收發的圖像、聲音、視訊和/或動畫形成的內容。
另一方面,聊天機器(chatbot)或聊天機器人(chatterbot)作爲一種電腦程式,可透過以語音或文字與人進行對話來執行特定作業。聊天機器人也可稱爲對話機器人(talkbot)、聊天盒(chatterbox)或者簡稱爲機器人(bot)。可利用上述聊天機器人來實現人與機器人之間的對話。在此情况下,當人向聊天機器人傳輸包含如上述說明的表情包的內容的即時訊息時,具有如下問題,即,聊天機器人難以應對包含相應即時訊息的內容。
本發明的目的在於,提供如下的以基於人體姿勢的內容爲基礎的對話方法及系統,即,可根據內容中所包含的人體姿勢來對內容進行索引,從而,可根據所輸入的內容所包含的人體姿勢提供包括對應姿勢的反應內容。
本發明提供的基於內容的對話方法,其爲包括至少一個處理器的電腦裝置的基於內容的對話方法,上述基於內容的對話方法包括:接收步驟,透過上述至少一個處理器,接收源內容;人體姿勢確定步驟,透過上述至少一個處理器,確定所輸入的上述源內容所包含的人體姿勢;反應姿勢確定步驟,透過上述至少一個處理器,確定與所確定的上述人體姿勢對應的反應姿勢;反應內容確定步驟,透過上述至少一個處理器,確定包含所確定的上述反應姿勢的反應內容;以及提供步驟,透過上述至少一個處理器,提供所確定的上述反應內容作爲對於上述源內容的回應。
根據一實施方式,本發明的特徵在於,在接收上述源內容的步驟中,透過在即時通訊服務中在使用者帳號與聊天機器人的人工智慧帳號之間建立的會話,透過上述聊天機器人接收由上述使用者向上述聊天機器人傳輸的內容作爲上述源內容,在提供所確定的上述反應內容的步驟中,向上述聊天機器人傳輸上述反應內容,以能夠透過上述聊天機器人向上述使用者提供上述反應內容作爲對於上述源內容的回應。
根據再一實施方式,上述基於內容的對話方法還可包括:識別步驟,透過上述至少一個處理器,識別多個內容中的每一個所包含的人體;轉換步驟,透過上述至少一個處理器,將所識別的上述人體的姿勢轉換成高維向量;計算步驟,透過上述至少一個處理器,計算對於多個上述內容的多個高維向量之間的相似度;以及索引步驟,透過上述至少一個處理器,以所計算的上述相似度爲基礎對多個上述內容進行索引。
根據另一實施方式,本發明的特徵在於,在確定上述人體姿勢的步驟中,可透過對於在上述源內容中識別的人體的姿勢的高維向量與所轉換的上述高維向量之間的相似度對上述源內容進行索引,來確定上述人體姿勢。
根據還有一實施方式,本發明的特徵在於,在確定上述反應內容的步驟中,可在經過索引的多個上述內容中,將包含所確定的上述反應姿勢的任意內容確定爲上述反應內容。
根據又一實施方式,本發明的特徵在於,在確定上述人體姿勢的步驟中,可透過根據人體的姿勢對多個內容進行索引的索引伺服器確定上述源內容所包含的人體姿勢,上述索引伺服器識別多個內容中的每一個所包含的人體,將所識別的上述人體的姿勢轉換成高維向量,計算對於多個上述內容的多個高維向量之間的相似度,以所計算的上述相似度爲基礎對上述內容進行索引。
根據又一實施方式,本發明的特徵在於,在確定上述反應內容的步驟中,可透過向上述索引伺服器傳輸所確定的上述反應姿勢來從上述索引伺服器接收包含所確定的上述反應姿勢的反應內容,上述索引伺服器透過在經過索引的多個上述內容中,將包含所確定的上述反應姿勢的任意內容確定爲上述反應內容來提供。
根據又一實施方式,本發明的特徵在於,上述基於內容的對話方法還可包括反應映射表儲存步驟,在上述反應映射表儲存步驟中,透過上述至少一個處理器,儲存反應映射表,上述反應映射表根據反應方案連結用於源內容的第一姿勢和用於反應內容的第二姿勢來儲存,在確定上述反應姿勢的步驟中,透過在上述反應映射表中提取與上述人體姿勢對應的第二姿勢來確定爲上述反應姿勢。
根據又一實施方式,本發明的特徵在於,上述反應方案可包括:第一反應方案,用於將上述第一姿勢和上述第二姿勢作爲相似的姿勢連結;第二反應方案,用於將上述第一姿勢和上述第二姿勢作爲連續姿勢連結;以及第三反應方案,用於將上述第一姿勢和上述第二姿勢作爲相反姿勢連結。
根據又一實施方式,本發明的特徵在於,還可包括如下的學習步驟:透過上述至少一個處理器,將從視訊片段中提取的人體姿勢作為學習資料來以使學習模型輸出與第一姿勢對應的第二姿勢的方式使上述學習模型進行學習,在確定上述反應姿勢的步驟中,將所確定的上述人體姿勢作爲上述第一姿勢向上述學習模型輸入來將從上述學習模型輸出的上述第二姿勢確定爲上述反應姿勢。
根據又一實施方式,本發明的特徵在於,在上述學習的步驟中,可將在連續的時間戳中對同一人體獲得的多個姿勢作爲用於連續姿勢的學習資料利用,將在同一畫面中對不同的人體獲得的多個姿勢作爲用於相反姿勢的學習資料利用來使上述學習模型進行學習。
本發明提供的基於內容的對話方法,其爲包括至少一個處理器的電腦裝置的基於內容的對話方法,包括:識別步驟,透過上述至少一個處理器,識別多個內容中的每一個所包含的人體;轉換步驟,透過上述至少一個處理器,將所識別的上述人體的姿勢轉換成高維向量;計算步驟,透過上述至少一個處理器,計算對於多個上述內容的多個高維向量之間的相似度;以及索引步驟,透過上述至少一個處理器,基於所計算的上述相似度對多個上述內容進行索引。
根據一實施方式,上述基於內容的對話方法還可包括:接收步驟,透過上述至少一個處理器,接收源內容;確定步驟,透過上述至少一個處理器,透過對於在上述源內容中識別的人體的姿勢的高維向量對上述源內容進行索引來確定上述源內容所包含的人體姿勢;以及提供步驟,透過上述至少一個處理器,提供所確定的上述人體姿勢。
根據再一實施方式,上述基於內容的對話方法還可包括:接收步驟,透過上述至少一個處理器,接收與所提供的上述人體姿勢對應來確定的反應姿勢;確定步驟,透過上述至少一個處理器,在經過索引的多個上述內容中確定包含所接收的上述反應姿勢的反應內容;以及提供步驟,透過上述至少一個處理器,提供上述反應內容。
本發明提供電腦程式,儲存於電腦可讀取記錄媒體,以與電腦裝置相結合來在電腦裝置中執行上述方法。
本發明提供電腦可讀取記錄媒體,記錄有用於在電腦裝置中執行上述方法的程式。
本發明提供電腦裝置,其特徵在於,包括實現爲執行電腦可讀指令的至少一個處理器,透過上述至少一個處理器,接收源內容,確定所輸入的上述源內容所包含的人體姿勢,確定與所確定的上述人體姿勢對應的反應姿勢,確定包含所確定的上述反應姿勢的反應內容,提供所確定的上述反應內容作爲對於上述源內容的回應。
本發明提供電腦裝置,其特徵在於,包括實現爲執行電腦可讀指令的至少一個處理器,透過上述至少一個處理器,識別多個內容中的每一個所包含的人體,將所識別的上述人體的姿勢轉換成高維向量,計算對於多個上述內容的多個高維向量之間的相似度,以所計算的上述相似度爲基礎對上述內容進行索引。
本發明具有如下效果,即,根據內容中所包含的人體的姿勢對內容進行索引來構建姿勢相關內容資料庫,由此,可根據所輸入的內容所包含的人體的姿勢有效且即刻提供包括對應姿勢的反應內容。
以下,參照圖式,詳細說明實施例。
本發明實施例的基於內容的對話系統可透過至少一個電腦裝置實現,本發明實施例的基於內容的對話方法可透過基於內容的對話系統中所包括的至少一個電腦裝置執行。在此情况下,可在電腦裝置中安裝及驅動本發明一實施例的電腦程式,電腦裝置可根據所驅動的電腦程式的控制來執行本發明實施例的基於內容的對話方法。上述電腦程式可儲存於電腦可讀取記錄媒體,以與電腦裝置相結合來在電腦裝置中執行基於內容的對話方法。
圖1爲示出本發明一實施例的網路環境的例子的圖。圖1的網路環境示出包括多個電子設備110、電子設備120、電子設備130、電子設備140、多個伺服器150、伺服器160及網路170的例子。上述圖1爲用於說明發明的一例,電子設備的數量或伺服器的數量並不限定於圖1所示。並且,圖1的網路環境僅用於說明可適用於本實施例的環境中的一例,可適用於本實施例的環境並不限定於圖1的網路環境。
多個電子設備110、電子設備120、電子設備130、電子設備140可以爲透過電腦裝置實現的固定型終端或移動型終端。作爲多個電子設備110、電子設備120、電子設備130、電子設備140的例子,包括智慧型手機(smart phone)、手機、導航儀、電腦、筆記型電腦、數位廣播終端、個人數位助理(Personal Digital Assistants,PDA)、便攜式多媒體播放器(Portable Multimedia Player,PMP)、平板電腦等。作爲一例,圖1中,作爲電子設備110的例子,示出智慧型手機的形狀,但在本發明實施例中,電子設備110實質上可以爲能夠利用無線或有線通訊方式來透過網路170與其他多個電子設備120、電子設備130、電子設備140和/或伺服器150、伺服器160進行通訊的多種物理電腦裝置中的一個。
通訊方式不受限,可包括利用網路170可包括的通訊網(作爲一例,移動通訊網、有線互聯網、無線互聯網、廣播網)的通訊方式和多個設備之間的近距離無線通訊。例如,網路170可包括個人區域網路(personal area network,PAN)、區域網路(local area network,LAN)、校園網路(campus area network,CAN)、都會網路(metropolitan area network,MAN)、廣域網路(wide area network,WAN)、寬頻網路(broadband network,BBN)、互聯網等的網路中的一種以上的任意網路。並且,網路170可包括具有匯流排網路、星型網路、環形網路、網狀網路、星型匯流排網路、樹狀網路或分層(hierarchical)網路等的網路拓撲結構中的任意一種以上,但並不限定於此。
各個伺服器150、伺服器160可以實現爲透過網路170與多個電子設備110、電子設備120、電子設備130、電子設備140進行通訊來提供指令、代碼、檔案、內容、服務等的一個或多個電腦裝置。例如,伺服器150可以爲向透過網路170連接的多個電子設備110、電子設備120、電子設備130、電子設備140提供服務(作爲一例,即時通訊服務、游戲服務、群組通話服務(或語音會議服務)、通訊服務、郵件服務、社交網路服務、地圖服務、翻譯服務、金融服務、支付服務、查詢服務、內容提供服務等)的系統。
圖2爲示出本發明一實施例的電腦裝置的例子的方塊圖。在上述說明的多個電子設備110、電子設備120、電子設備130、電子設備140中的每一個或多個伺服器150、伺服器160中的每一個可透過圖2所示的電腦裝置200實現。
如圖2所示,上述電腦裝置200可包括記憶體210、處理器220、通訊介面230及輸入輸出介面240。記憶體210作爲電腦可讀取記錄媒體,可包括隨機存取記憶體(random access memory,RAM)、如唯讀記憶體(read only memory,ROM)及磁碟驅動器的永久性大容量儲存裝置(permanent mass storage device)。其中,如唯讀記憶體和磁碟驅動器的永久性大容量儲存裝置作爲與記憶體210區分的單獨的永久性儲存裝置,可包含在電腦裝置200中。並且,記憶體210可儲存作業系統和至少一個程式代碼。這種多個軟體結構要素可從與記憶體210不同的電腦可讀取記錄媒體向記憶體210載入。這種單獨的電腦可讀取記錄媒體可包括軟碟驅動器、磁碟、磁帶、DVD/CD-ROM驅動器、記憶卡等電腦可讀取記錄媒體。在另一實施例中,多個軟體結構要素可透過通訊介面230向記憶體210載入,而不是透過電腦可讀取記錄媒體向記憶體210載入。例如,多個軟體結構要素能夠以透過經由網路170接收的多個檔案安裝的電腦程式爲基礎向電腦裝置200的記憶體210載入。
處理器220可配置爲執行基本的算術、邏輯及輸入輸出計算,由此,可以處理電腦程式的指令。指令可透過記憶體210或通訊介面230向處理器220提供。例如,處理器220可根據儲存於如記憶體210的儲存裝置中的程式代碼來執行所接收的指令。
通訊介面230可提供使電腦裝置200透過網路170來與其他裝置(例如,上述說明的多個儲存裝置)進行通訊的功能。作爲一例,電腦裝置200的處理器220根據儲存於如記憶體210的儲存裝置中的程式代碼生成的請求、指令、資料、檔案等可根據通訊介面230的控制,透過網路170被傳輸至其他多個裝置。相反,來自其他裝置的信號、指令、資料、檔案等可經由網路170透過電腦裝置200的通訊介面230被接收至電腦裝置200。透過通訊介面230接收的信號、指令、資料等可以向處理器220或記憶體210傳輸,檔案等可儲存於電腦裝置200還可包括的儲存媒體(上述永久性大容量儲存裝置)。
輸入輸出介面240可以爲用於與輸入輸出裝置250接合的單元。例如,輸入裝置可包括麥克風、鍵盤或滑鼠等的裝置,輸出裝置可包括如顯示器、揚聲器的裝置。作爲另一例子,輸入輸出介面240可以爲用於與如觸控螢幕的用於輸入和輸出的功能被合併在一起的裝置接合的單元。輸入輸出裝置250中的至少一個可以與電腦裝置200構成爲一個裝置。例如,可實現爲如智慧型手機的觸控螢幕、麥克風、揚聲器等包括在電腦裝置200中的形式。
並且,在其他實施例中,電腦裝置200可包括比圖2的結構要素更少或更多的結構要素。但是,無需明確示出大部分的現有技術結構要素。例如,電腦裝置200可包括上述輸入輸出裝置250中的至少一部分,或者還可包括如收發器(transceiver)、資料庫等的其他結構要素。
在本說明書中,「人體」可以是不僅包含人還包含擬人化的實物或動植物等的概念,人體的「姿勢」不僅包括人體移動或控制的樣子,還可包括人的臉部表情。並且,「內容」可以爲包含出現上述人體姿勢的圖像、視訊和/或動畫的內容。
圖3爲示出本發明一實施例的基於內容的對話系統的例子的圖。本實施例的基於內容的對話系統300可包括索引伺服器310、應用程式編程介面伺服器320及聊天機器人330。在此情况下,索引伺服器310、應用程式編程介面伺服器320及聊天機器人330可透過一個物理裝置實現,也可實現在一個以上的不同的物理裝置中。並且,實質上,圖3示出的使用者340也可以與使用者爲了利用即時通訊服務而使用的物理裝置相對應。其中,物理裝置可以與上述說明的電腦裝置200相對應。
第一過程351可以爲索引伺服器310根據人體的姿勢對內容進行索引的過程的例子。在此情况下,索引伺服器310可識別內容中所包含的人體,可將人體的姿勢轉換成高維向量。在此情况下,高維向量可以爲具有3以上的維度的向量。索引伺服器310可透過將向量歸一化並利用歸一化向量來對各個內容進行索引。並且,索引伺服器310計算對於人體姿勢的多個向量之間的相似度,並基於所計算的相似度來將包含人體姿勢的多種內容分類成多個姿勢組。在此情况下,被索引成高維向量的內容可作爲對於之後使用者340的內容的反應,可以爲向使用者340提供的反應內容的候選。
第二過程352可以爲使用者340向聊天機器人330傳輸內容的過程的例子。聊天機器人330可以爲透過即時通訊服務與使用者340進行對話的人工智慧系統。例如,在即時通訊服務中,可透過即時訊息來在聊天機器人330與使用者340之間進行對話,上述即時訊息透過在聊天機器人330的人工智慧帳號與使用者340的帳號之間連接的會話收發。在此情况下,使用者340可透過與和聊天機器人300連接的會話對應的聊天室來傳輸包含內容的即時訊息,上述內容包含人體姿勢。上述內容可以爲使用者340向聊天機器人330傳輸的對話的一環,使用者340可期待聊天機器人330對上述對話作出反應(reaction)。
第三過程353可以爲聊天機器人330透過應用程式編程介面調用向應用程式編程介面伺服器320請求處理第一內容的過程的例子。對於第一內容的處理可作爲聊天機器人330向使用者340呈現出的對第一內容的反應,可以爲用於獲得反應內容的過程。換言之,聊天機器人330可透過應用程式編程介面調用向應用程式編程介面伺服器320詢問需要向使用者340提供對於內容的哪種反應。
第四過程354可以爲應用程式編程介面伺服器320向索引伺服器310請求姿勢分析的過程的例子。例如,應用程式編程介面伺服器320可向索引伺服器310傳輸內容並請求提供對於內容所包含的人體姿勢的資訊。
第五過程355可以爲索引伺服器310向應用程式編程介面伺服器320傳輸姿勢的過程的例子。例如,索引伺服器310可透過分析從應用程式編程介面伺服器320傳輸的第一內容來識別第一內容所包含的人體,並可提取所識別的人體姿勢。在此情况下,索引伺服器310可包含第一過程351中對包含人體姿勢的多種內容進行索引的結果,並可確定第一內容具有包含在哪種索引中的人體姿勢。若確定第一內容所包含的人體姿勢,則索引伺服器310可向應用程式編程介面伺服器320傳輸所確定的人體姿勢。
第六過程356可以爲應用程式編程介面伺服器320查詢對於姿勢的反應的過程的例子。例如,當應用程式編程介面伺服器320從索引伺服器310接收到姿勢A時,作爲對於姿勢A的反應,可查詢姿勢B。之後更加詳細說明作爲對於姿勢A的反應,應用程式編程介面伺服器320查詢姿勢B的更具體的方式。
第七過程357可以爲應用程式編程介面伺服器320向索引伺服器310請求反應內容的過程的例子。例如,應用程式編程介面伺服器320可透過向索引伺服器310傳輸姿勢B來請求將與姿勢B對應的內容作爲反應內容提供。
第八過程358可以爲索引伺服器310向應用程式編程介面伺服器320傳輸反應內容的過程的例子。例如,索引伺服器310可在與從應用程式編程介面伺服器320傳輸的姿勢B對應的多個內容中,將任意內容作爲反應內容選擇。隨後,索引伺服器310可向應用程式編程介面伺服器320傳輸所選擇的反應內容。
第九過程359可以爲應用程式編程介面伺服器320向聊天機器人330傳輸反應內容的過程的例子。上述反應內容的傳輸可以爲對於在第三過程353中對於內容的處理請求的回應。
第十過程360可以爲聊天機器人330向使用者340傳輸反應內容的過程的例子。上述反應內容的傳輸可以爲對於在第二過程352中使用者340傳輸的內容的聊天機器人330的回應。
像這樣,當使用者340向聊天機器人330傳輸包含人體姿勢的內容時,聊天機器人330也可向使用者340提供包含與相應姿勢對應的姿勢的反應內容,從而可實現使用者340與聊天機器人330之間的基於內容的對話。
另一方面,查詢與人體姿勢對應的姿勢有可能爲非常艱難的作業。以下說明對一個人體姿勢查詢對應的人體姿勢的方法。在此情况下,以下,爲了幫助理解本發明,將包含人體姿勢的內容限定爲圖像進行說明,但是,可從以下說明中輕易理解包含人體姿勢的內容可包括圖像、視訊或動畫等。
在一實施例中,應用程式編程介面伺服器320能夠以規則(rule)爲基礎查詢對應的人體姿勢。爲此,作爲明確的姿勢含義,可對所有圖像均賦予標籤(label),上述標籤可用於查詢圖像。例如,可定義#sleep、#running、#fallingdown、#scold、#tobescold等幾種標籤,如下述表1所示的反應映射表(reacting mapping table),可針對各個反應方案連結用於源圖像的標籤與用於對應圖像的標籤。實際上,用於源圖像的標籤可以爲用於識別用於源內容的第一姿勢的資訊,用於對應圖像的標籤可以爲用於識別用於反應內容的第二姿勢的資訊。
表1
反映方案 | 源圖像 | 對應圖像 | 使用情況 |
模仿/相似姿勢 | #sleep | #sleep | 聊天、圖像查詢 |
連續姿勢 | #running | #fallingdown | 聊天 |
相反姿勢 | #scold | #tobescold | 聊天 |
例如,假設使用者340向聊天機器人330傳輸的內容包含人體奔跑的姿勢。在此情况下,應用程式編程介面伺服器320可透過第五過程355從索引伺服器310接收作爲與內容所包含的姿勢有關的資訊的對於奔跑姿勢的高維向量。在此情况下,應用程式編程介面伺服器320可利用向量與標籤映射表來將對於奔跑姿勢的高維向量與標籤#running對應。應用程式編程介面伺服器320可透過標籤#running查詢反應映射表來提取對於反應姿勢的標籤#fallingdown。在此情况下,應用程式編程介面伺服器320可透過利用向量與標籤映射表來獲得與標籤#fallingdown對應的高維向量。應用程式編程介面伺服器320可透過第七過程357向索引伺服器310請求反應內容。以與標籤#fallingdown對應獲得的高維向量爲基礎,索引伺服器310可向應用程式編程介面伺服器320傳輸包含人摔倒姿勢的反應內容。可透過聊天機器人330向使用者340傳輸向應用程式編程介面伺服器320傳輸的反應內容。作爲更具體的例子,作爲對於使用者340向聊天機器人330傳輸人奔跑姿勢的表情包的反應,聊天機器人330可向使用者340回應人摔倒的姿勢(例如,用於提供人在奔跑時摔倒的反應的姿勢)的表情包。換言之,可進行使用者340與聊天機器人330之間的基於內容的對話。
在另一實施例中,應用程式編程介面伺服器320以向源圖像的人體姿勢輸出用於對應圖像的人體姿勢的方式進行學習。在此情况下,爲了進行學習,可使用現有的視訊片段。在視訊資料中,人體姿勢具有兩種類型。第一種類型爲在連續時間戳中的同一人體的姿勢,第二種類型爲在同一畫面中的不同的人體之間的姿勢。在此情况下,第一種類型的多個姿勢可作爲用於確定連續姿勢的學習資料使用,第二種類型的多個姿勢可作爲用於確定相反姿勢的學習資料使用。
圖4爲示出本發明一實施例的基於內容的對話方法的例子的流程圖。本實施例的基於內容的對話方法可透過實現上述說明的應用程式編程介面伺服器320的電腦裝置200執行。在此情况下,電腦裝置200的處理器220可實現爲執行記憶體210所包含的作業系統的代碼或至少一個程式的代碼的控制指令(instruction)。其中,處理器220可控制電腦裝置200,以根據儲存於電腦裝置200的代碼所提供的控制指令來使電腦裝置200可以執行圖4的方法所包括的多個步驟(步驟410至步驟450)。
在步驟410中,電腦裝置200可接收源內容。在一實施例中,電腦裝置200也可實現爲根據所輸入的源內容提供反應內容。在另一實施例中,如上述圖3的實施例所示,電腦裝置200也可實現爲從聊天機器人330接收源內容來向聊天機器人330提供基於源內容的反應內容。在此情况下,在即時通訊服務中,電腦裝置200可透過聊天機器人330將使用者340透過在使用者340的帳號與聊天機器人330的人工智慧帳號之間建立的會話向聊天機器人330傳輸的內容作爲源內容接收。
在步驟420中,電腦裝置200可確定所輸入的源內容所包含的人體姿勢。作爲一例,如上所述,在圖3的實施例中說明了應用程式編程介面伺服器320透過索引伺服器310接收對於源內容所包含的人體姿勢的高維向量的過程。在此情况下,索引伺服器310可實現爲執行之後說明的圖5的多個步驟(步驟510至步驟560),電腦裝置200可透過在步驟420中根據人體姿勢對內容進行索引的索引伺服器310確定源內容所包含的人體姿勢。
另一方面,在另一實施例中,當電腦裝置200實現爲包括應用程式編程介面伺服器320和索引伺服器310兩者時,電腦裝置200可實現爲執行圖5的步驟(步驟510至步驟560)中的多個步驟(步驟510至步驟540)。在此情况下,步驟420可以與圖5的步驟550對應,步驟450與圖5的步驟560對應。在此情况下,電腦裝置200可透過在步驟420中對於在源內容中識別的人體姿勢的高維向量與在圖5的步驟520中轉換的高維向量之間的相似度來對源內容進行索引,從而可確定人體姿勢。
在步驟430中,電腦裝置200可確定與所確定的人體姿勢對應的反應姿勢。爲了確定與人體姿勢對應的反應姿勢,電腦裝置200可使用利用反應映射表的實施例和/或利用學習模型的實施例。
在一實施例中,電腦裝置200可儲存反應映射表,上述反應映射表可根據反應方案連結用於源內容的第一姿勢和用於反應內容的第二姿勢來進行儲存。在此情况下,電腦裝置200可在步驟430中,在反應映射表中提取與人體姿勢對應的第二姿勢來確定爲反應姿勢。其中,反應映射表已透過上述表1進行詳細說明。在此情况下,反應方案可包括:第一反應方案,用於將第一姿勢和第二姿勢作爲相似的姿勢連結;第二反應方案,用於將第一姿勢和第二姿勢作爲連續姿勢連結;以及第三反應方案,用於將第一姿勢和第二姿勢作爲相反姿勢連結。反應映射表還可包含使用者簡介項目(使用者性別、年齡等),還可以按使用者簡介的每個項目映射用於源內容的第一姿勢和用於反應內容的第二姿勢。
在另一實施例中,電腦裝置200可將從視訊片段中提取的多個人體姿勢作為學習資料來以使學習模型輸出與第一姿勢對應的第二姿勢的方式使學習模型進行學習。在此情况下,電腦裝置200可將在連續時間戳中對同一人體獲得的多個姿勢作爲用於連續姿勢的學習資料利用,將在同一畫面中對不同的人體獲得的多個姿勢作爲用於相反姿勢的學習資料利用來使學習模型進行學習。在此情况下,在步驟430中,電腦裝置200可將所確定的人體姿勢作爲第一姿勢向學習模型輸入,從而可將從學習模型輸出的第二姿勢確定爲第二姿勢。
在步驟440中,電腦裝置200可確定包含所確定的反應姿勢的反應內容。如上所述,在一實施例中,電腦裝置200可透過單獨的索引伺服器310確定包含反應姿勢的反應內容。例如,電腦裝置200可透過向索引伺服器310傳輸所確定的反應姿勢來接收反應內容,該反應內容包含從索引伺服器310確定的反應姿勢。作爲一例,索引伺服器310可將任意內容確定爲反應內容並提供,該任意內容包含在索引伺服器310透過圖5的步驟540進行索引的內容中確定的反應姿勢。
在另一實施例中,電腦裝置200可直接執行圖5的多個步驟(步驟510至步驟560),也可將包含在透過圖5的步驟540進行索引的內容中確定的反應姿勢的任意內容確定爲反應內容。
在步驟450中,電腦裝置200可提供作爲對於源內容的回應而確定的反應內容。如上所述,電腦裝置200可實現爲根據簡單輸入的源內容來提供反應內容。但是,在另一實施例中,電腦裝置200可向聊天機器人330傳輸反應內容,以使反應內容可作爲對於源內容的回應並透過聊天機器人330向使用者340提供。在此情况下,電腦裝置200可以透過聊天機器人330提供反應內容作爲對於從使用者340輸入的源內容的回應,由此可以進行基於內容的對話。
圖5爲示出本發明一實施例的基於內容的對話方法的另一例子的流程圖。本實施例的基於內容的對話方法可透過實現上述說明的索引伺服器310的電腦裝置200執行。在此情况下,電腦裝置200的處理器220可實現爲執行記憶體210所包含的作業系統的代碼或至少一個程式代碼的控制指令(instruction)。其中,處理器220以可根據儲存於電腦裝置200的代碼所提供的控制指令來使電腦裝置200執行圖5的方法所包括的多個步驟(步驟510至步驟560)的方式控制電腦裝置200。
在步驟510中,電腦裝置200可識別包含在多個內容中的每一個的人體。例如,電腦裝置200可在作爲內容包含的圖像、視訊和/或動畫中識別包含人體的區域。識別人體的方法可利用在圖像中用於探測特定對象的現有技術。
在步驟520中,電腦裝置200可將所識別的人體的姿勢轉換成高維向量。在此情况下,電腦裝置200可透過利用用於推測人體姿勢的現有技術生成高維向量。例如,電腦裝置200可以與所識別的人體的身體部位相關地生成包含對於主要關節(key body joints)的向量的高維向量。作爲一例,可生成包含對於臉部、右肩、左肩、右肘、左肘、右骨盆、左骨盆、右膝蓋、左膝蓋等各個關節的多個向量的高維向量。
在步驟530中,電腦裝置200可計算對於多個內容的多個高維向量之間的相似度。作爲一例,高維向量可以包含對於各個主要關節的多個向量,因此,多個高維向量的比較可以與人體姿勢的比較對應。
在步驟540中,電腦裝置200能夠以所計算的相似度爲基礎對內容進行索引。作爲一例,可預先提出能夠代表預定的人體姿勢的高維向量。在此情况下,電腦裝置200可比較預定的各個人體姿勢的高維向量與從多個內容中提取的人體姿勢的高維向量,來根據高維向量的相似度對內容進行索引。在此情况下,可利用對於人體姿勢的關鍵詞來追加分類並按姿勢類型進行索引的內容。
在步驟550中,電腦裝置200可確定源內容所包含的人體姿勢。在一實施示例中,當電腦裝置200包括應用程式編程介面伺服器320和索引伺服器310兩者時,步驟550可以與圖4的步驟420對應。在另一實施例中,當電腦裝置200實現索引伺服器310且應用程式編程介面伺服器320實現在單獨的物理裝置時,電腦裝置200可從應用程式編程介面伺服器320接收源內容,可利用對於從源內容中識別的人體姿勢的高維向量或對於相應高維向量的索引來確定源內容所包含的人體姿勢。在此情况下,電腦裝置200可向應用程式編程介面伺服器320提供確定的人體姿勢。
在步驟560中,電腦裝置200可確定包含反應姿勢的反應內容。在一實施例中,當電腦裝置200實現爲包括應用程式編程介面伺服器320和索引伺服器310兩者時,步驟560可以與圖4的步驟440對應。在另一實施例中,當電腦裝置200實現索引伺服器310且應用程式編程介面伺服器320實現在單獨的物理裝置時,電腦裝置200可接收與向應用程式編程介面伺服器320提供的人體姿勢對應地在應用程式編程介面伺服器320中確定的反應姿勢,可在索引內容中,確定包含所接收的反應姿勢的反應內容。在此情况下,電腦裝置200可向應用程式編程介面伺服器320提供確定的反應內容。
如上所述,應用程式編程介面伺服器320將反應內容作爲對於源內容的回應提供,由此,可實現使用者340與聊天機器人330之間的基於內容的對話。
圖6爲示出在本發明一實施例中的根據姿勢構建索引的過程的例子的圖。圖6示出將源圖像610所包含的人體姿勢轉換成如第一虛線盒620的高維向量的例子。在源圖像610中識別到多個人體的情况下,可以以所識別的人體圖像的大小、在圖像內的位置或識別可靠性爲基礎,僅對多個人體中的至少一部分轉換成高維向量。作爲一例,在源圖像610中呈現出識別可靠性分別爲0.830、0.971及0.997的三個人體。在此情况下,在所識別到的三個人體中,可以僅針對圖像的大小最大、識別可靠性最高的人體(0.997)執行到高維向量的轉換。在此情况下,呈現在第一虛線盒620中的高維向量可以爲在源圖像610中對於識別可靠性最高的人體姿勢的高維向量的例子。作爲一例,爲了轉換成高維向量,電腦裝置200可透過如下方式生成高維向量,即,從與在圖像內識別到的各個主要關節對應的X坐標和Y坐標生成高維向量,或者對各個關節生成歸一化的向量(normalized vector)後,從各個主要關節的歸一化的多個向量生成高維向量。接著,在如第二虛線盒630的由高維向量構成的向量空間內,以從源圖像610的高維向量的距離爲基礎確定相似度。以上述相似度爲基礎對多個圖像進行索引,從而可提供與特定圖像相似的多個圖像。在如第二虛線盒630的向量空間內,按從源圖像610的高維向量的距離順序,可將預先確定數量的圖像確定爲反應圖像。圖6中,可導出如第三虛線盒640的以從源圖像610的高維向量爲基礎確定的三個不同的圖像。作爲一例,在圖3的實施例中,可假設在聊天機器人330與使用者340之間的對話過程中,從使用者340接收源圖像610的情况。在此情况下,聊天機器人330可將以從源圖像610的高維向量爲基礎確定的三個圖像作爲反應圖像650向使用者340傳輸。即,作爲對於使用者340傳輸的源圖像610的反應,聊天機器人330可向使用者340傳輸反應圖像650。在此情况下,反應圖像650可作爲使用者能夠選擇的候選,顯示在電腦裝置200的輸入視窗的至少一部分上。在圖6的實施例中說明了三個不同的圖像作爲反應圖像導出的例子,但是,可導出的反應圖像的數量可根據源圖像610和/或設定來改變。
在此情况下,可透過利用預構建的資料庫提供多個反應圖像。例如,可收集包含人體姿勢的多個內容,在所收集的多個內容中的每一個中,人體姿勢可轉換成高維向量。在此情况下,高維向量與相應內容可連結並儲存在資料庫中。當一個內容包含多個人體時,可對一個內容連結多個高維向量。並且,根據實施例,對於內容所包含的人體的識別可靠性可透過與相應內容連結來儲存在資料庫中。在此情况下,當一個內容包含多個人體時,也可對一個內容連結多個識別可靠性並儲存。若構建完資料庫,則電腦裝置200可以以從所輸入的源圖像610獲得的高維向量爲基礎,從資料庫提取至少一個反應圖像。
圖7爲示出在本發明一實施例中的連續姿勢的例子的圖。圖7示出在視訊片段中,在連續的時間戳中,對同一人體獲得的多個姿勢的例子。如上所述,這種姿勢可作爲用於連續姿勢的學習資料使用。在此情况下,對於各個姿勢的高維向量可以與識別可靠性一同儲存。
圖8爲示出在本發明一實施例中的相反姿勢的例子的圖。圖8示出在同一畫面中,對不同的人體獲得的多個姿勢的例子。如上所述,這種姿勢可作爲用於相反姿勢的學習資料使用。換言之,當與兩個中的一個姿勢以規定以上的識別可靠性相似的姿勢作爲源內容輸入時,可將與另一個姿勢以規定以上的識別可靠性相似的姿勢作爲反應內容提供。
如上所述,根據本發明實施例,可根據內容中所包含的人體姿勢對內容進行索引,從而,可根據所輸入的內容中所包含的人體姿勢來提供包括對應姿勢的反應內容。
以上說明的系統或裝置可實現爲硬體結構要素或硬體結構要素及軟體結構要素的組合。例如,在實施例中說明的裝置及結構要素可利用如處理器、控制器、算術邏輯單元(arithmetic logic unit,ALU)、數位信號處理器(digital signal processor)、微型電腦、現場可編程閘陣列(field programmable gate array,FPGA)、可編程邏輯單元(programmable logic unit,PLU)、微型處理器或可執行並回應指令(instruction)的任何其他裝置的一個以上的通用電腦或專用電腦實現。處理裝置可執行作業系統(OS)及在上述作業系統上執行的一個以上的軟體應用程式。並且,處理裝置可回應於軟體的執行來存取、儲存、操作、處理及生成資料。爲了便於理解,說明了僅使用一個處理裝置的情况,本發明所屬技術領域的技術人員可以知道處理裝置可包括多個處理要素(processing element)和/或多個類型的處理要素。例如,處理裝置可包括多個處理器或一個處理器及一個控制器。並且,還可包括如同平行處理器(parallel processor)的其他處理結構(processing configuration)。
軟體可包括電腦程式(computer program)、代碼(code)、指令(instruction)或它們中的一種以上的組合,能夠以按需要進行操作的方式構成處理裝置或者獨立或結合性(collectively)地對處理裝置下達指令。軟體和/或資料可以爲了透過處理裝置解析或者爲了向處理裝置提供指令或資料而可以具體化(embody)在任何類型的機器、結構要素(component)、物理裝置、虛擬裝置(virtual equipment)、電腦儲存媒體或裝置中。軟體可分散在透過網路連接的電腦系統上,從而透過分散的方法儲存或執行。軟體及資料可儲存於一個以上的電腦可讀取記錄媒體。
實施例的方法可實現爲可透過多種電腦單元執行的程式指令的形式來記錄在電腦可讀取媒體中。上述電腦可讀取媒體可單獨或組合性地包括程式指令、資料檔案、資料結構等。媒體可繼續儲存能夠透過電腦執行的程式,或者爲了執行或下載而暫時儲存。並且,媒體可以爲單個或多個硬體結合的形式的多種記錄單元或儲存單元,而並不侷限於與一種電腦系統直接連接的媒體,而也可以在網路上分散存在。作爲媒體的例示,可以有包括如硬碟、軟碟及磁帶的磁媒體、如CD-ROM及DVD的光記錄媒體、如光磁軟碟(floptical disk)的磁光媒體(magneto-optical medium)及唯讀記憶體、隨機存取記憶體、快閃記憶體等在內的、以儲存程式指令的方式構成的媒體。並且,作爲其他媒體的例示,也可以列舉流通應用的應用商城或供給或流通其他多種軟體的網站、在伺服器等中管理的記錄媒體或儲存媒體。作爲程式指令的例子,不僅包括透過編譯器形成的機械語言代碼,而且還包括使用解譯器等來在電腦中執行的高級語言代碼。
如上所述,雖然透過限定的實施例和圖式說明了多個實施例,只要是本發明所屬技術領域的技術人員,可以從上述記載進行多種修改及變形。例如,即使所說明的技術以與所說明的方法不同的順序執行和/或所說明的系統、結構、裝置、電路等的結構要素以與所說明的方法不同的形式結合或組合,或者透過其他結構要素或等同物代替或置換,也可以實現適當結果。
因此,其他示例、其他實施例及與發明請求保護範圍等同的內容也屬後述的發明請求保護範圍內。
110:電子設備
120:電子設備
130:電子設備
140:電子設備
150:伺服器
160:伺服器
170:網路
200:電腦裝置
210:記憶體
220:處理器
230:通訊介面
240:輸入輸出介面
250:輸入輸出裝置
300:對話系統
310:索引伺服器
320:應用程式編程介面伺服器
330:聊天機器人
340:使用者
351:第一過程
352:第二過程
353:第三過程
354:第四過程
355:第五過程
356:第六過程
357:第七過程
358:第八過程
359:第九過程
360:第十過程
410~450:步驟
510~560:步驟
610:源圖像
620:第一虛線盒
630:第二虛線盒
640:第三虛線盒
650:反應圖像
圖1爲示出本發明一實施例的網路環境的例子的圖。
圖2爲示出本發明一實施例的電腦裝置的例子的方塊圖。
圖3爲示出本發明一實施例的基於內容的對話系統的例子的圖。
圖4爲示出本發明一實施例的基於內容的對話方法的例子的流程圖。
圖5爲示出本發明一實施例的基於內容的對話方法的另一例子的流程圖。
圖6爲示出在本發明一實施例中的根據姿勢構建索引的過程的例子的圖。
圖7爲示出在本發明一實施例中的連續姿勢的例子的圖。
圖8爲示出在本發明一實施例中的相反姿勢的例子的圖。
無
300:對話系統
310:索引伺服器
320:應用程式編程介面伺服器
330:聊天機器人
340:使用者
351:第一過程
352:第二過程
353:第三過程
354:第四過程
355:第五過程
356:第六過程
357:第七過程
358:第八過程
359:第九過程
360:第十過程
Claims (20)
- 一種基於內容的對話方法,其爲包括至少一個處理器的電腦裝置的基於內容的對話方法,其特徵在於,包括: 接收步驟,透過上述至少一個處理器,接收源內容; 人體姿勢確定步驟,透過上述至少一個處理器,確定所輸入的上述源內容所包含的人體姿勢; 反應姿勢確定步驟,透過上述至少一個處理器,確定與所確定的上述人體姿勢對應的反應姿勢; 反應內容確定步驟,透過上述至少一個處理器,確定包含所確定的上述反應姿勢的反應內容;以及 提供步驟,透過上述至少一個處理器,提供所確定的上述反應內容作爲對於上述源內容的回應。
- 如請求項1所述的基於內容的對話方法,其中, 在接收上述源內容的步驟中,透過在即時通訊服務中在使用者帳號與聊天機器人的人工智慧帳號之間建立的會話,透過上述聊天機器人接收由上述使用者向上述聊天機器人傳輸的內容作爲上述源內容, 在提供所確定的上述反應內容的步驟中,向上述聊天機器人傳輸上述反應內容,以能夠透過上述聊天機器人向上述使用者提供上述反應內容作爲對於上述源內容的回應。
- 如請求項1所述的基於內容的對話方法,其中,還包括: 識別步驟,透過上述至少一個處理器,識別多個內容中的每一個所包含的人體; 轉換步驟,透過上述至少一個處理器,將所識別的上述人體的姿勢轉換成高維向量; 計算步驟,透過上述至少一個處理器,計算對於多個上述內容的多個高維向量之間的相似度;以及 索引步驟,透過上述至少一個處理器,以所計算的上述相似度爲基礎對多個上述內容進行索引。
- 如請求項3所述的基於內容的對話方法,其中,在確定上述人體姿勢的步驟中,透過對於在上述源內容中識別的人體的姿勢的高維向量與所轉換的上述高維向量之間的相似度對上述源內容進行索引,來確定上述人體姿勢。
- 如請求項3所述的基於內容的對話方法,其中,在確定上述反應內容的步驟中,在經過索引的多個上述內容中,將包含所確定的上述反應姿勢的任意內容確定爲上述反應內容。
- 如請求項1所述的基於內容的對話方法,其中, 在確定上述人體姿勢的步驟中,透過根據上述人體姿勢對多個內容進行索引的索引伺服器確定上述源內容所包含的人體姿勢, 上述索引伺服器識別多個上述內容中的每一個所包含的人體,將所識別的上述人體的姿勢轉換成高維向量,計算對於多個上述內容的多個高維向量之間的相似度,以所計算的上述相似度爲基礎對上述內容進行索引。
- 如請求項6所述的基於內容的對話方法,其中, 在確定上述反應內容的步驟中,透過向上述索引伺服器傳輸所確定的上述反應姿勢來從上述索引伺服器接收包含所確定的上述反應姿勢的反應內容, 上述索引伺服器透過在經過索引的多個上述內容中,將包含所確定的上述反應姿勢的任意內容確定爲上述反應內容來提供。
- 如請求項1所述的基於內容的對話方法,其中,還包括反應映射表儲存步驟,在上述反應映射表儲存步驟中,透過上述至少一個處理器,儲存反應映射表,上述反應映射表根據反應方案連結用於上述源內容的第一姿勢和用於上述反應內容的第二姿勢來儲存, 在確定上述反應姿勢的步驟中,透過在上述反應映射表中提取與上述人體姿勢對應的第二姿勢來確定爲上述反應姿勢。
- 如請求項8所述的基於內容的對話方法,其中,上述反應方案包括: 第一反應方案,用於將上述第一姿勢和上述第二姿勢作爲相似的姿勢連結; 第二反應方案,用於將上述第一姿勢和上述第二姿勢作爲連續姿勢連結;以及 第三反應方案,用於將上述第一姿勢和上述第二姿勢作爲相反姿勢連結。
- 如請求項1所述的基於內容的對話方法,其中,還包括如下的學習步驟:透過上述至少一個處理器,將從視訊片段中提取的人體姿勢作為學習資料來以使學習模型輸出與第一姿勢對應的第二姿勢的方式使上述學習模型進行學習, 在確定上述反應姿勢的步驟中,將所確定的上述人體姿勢作爲上述第一姿勢向上述學習模型輸入來將從上述學習模型輸出的上述第二姿勢確定爲上述反應姿勢。
- 如請求項10所述的基於內容的對話方法,其中,在上述學習的步驟中,將在連續的時間戳中對同一人體獲得的多個姿勢作爲用於連續姿勢的學習資料利用,將在同一畫面中對不同的人體獲得的多個姿勢作爲用於相反姿勢的學習資料利用來使上述學習模型進行學習。
- 一種基於內容的對話方法,其爲包括至少一個處理器的電腦裝置的基於內容的對話方法,其特徵在於,包括: 識別步驟,透過上述至少一個處理器,識別多個內容中的每一個所包含的人體; 轉換步驟,透過上述至少一個處理器,將所識別的上述人體的姿勢轉換成高維向量; 計算步驟,透過上述至少一個處理器,計算對於多個上述內容的多個高維向量之間的相似度;以及 索引步驟,透過上述至少一個處理器,基於所計算的上述相似度對多個上述內容進行索引。
- 如請求項12所述的基於內容的對話方法,其中,還包括: 接收步驟,透過上述至少一個處理器,接收源內容; 確定步驟,透過上述至少一個處理器,透過對於在上述源內容中識別的人體的姿勢的高維向量對上述源內容進行索引來確定上述源內容所包含的人體姿勢;以及 提供步驟,透過上述至少一個處理器,提供所確定的上述人體姿勢。
- 如請求項13所述的基於內容的對話方法,其中,還包括: 接收步驟,透過上述至少一個處理器,接收與所提供的上述人體姿勢對應來確定的反應姿勢; 確定步驟,透過上述至少一個處理器,在經過索引的多個上述內容中確定包含所接收的上述反應姿勢的反應內容;以及 提供步驟,透過上述至少一個處理器,提供上述反應內容。
- 一種電腦可讀取記錄媒體,其特徵在於,儲存有電腦程式,上述電腦程式與電腦裝置相結合來在上述電腦裝置中執行如請求項1至14中任一項所述的基於內容的對話方法。
- 一種電腦裝置,其特徵在於, 包括實現爲執行電腦可讀指令的至少一個處理器, 透過上述至少一個處理器,接收源內容,確定所輸入的上述源內容所包含的人體姿勢,確定與所確定的上述人體姿勢對應的反應姿勢,確定包含所確定的上述反應姿勢的反應內容,提供所確定的上述反應內容作爲對於上述源內容的回應。
- 如請求項16所述的電腦裝置,其中, 透過上述至少一個處理器, 爲了接收上述源內容,透過在即時通訊服務中在使用者帳號與聊天機器人的人工智慧帳號之間建立的會話,透過上述聊天機器人接收由上述使用者向上述聊天機器人傳輸的內容作爲上述源內容, 爲了提供上述反應內容,向上述聊天機器人傳輸上述反應內容,以能夠透過上述聊天機器人向上述使用者提供上述反應內容作爲對於上述源內容的回應。
- 如請求項16所述的電腦裝置,其中, 透過上述至少一個處理器, 儲存反應映射表,上述反應映射表根據反應方案連結用於上述源內容的第一姿勢和用於上述反應內容的第二姿勢來儲存, 爲了確定上述反應姿勢,透過在上述反應映射表中提取與上述人體姿勢對應的第二姿勢來確定爲上述反應姿勢。
- 如請求項16所述的電腦裝置,其中, 透過上述至少一個處理器, 將從視訊片段中提取的人體姿勢作為學習資料來以使學習模型輸出與第一姿勢對應的第二姿勢的方式使上述學習模型進行學習, 爲了確定上述反應姿勢,將所確定的上述人體姿勢作爲上述第一姿勢向上述學習模型輸入來將從上述學習模型輸出的上述第二姿勢確定爲上述反應姿勢。
- 如請求項19所述的電腦裝置,其中,透過上述至少一個處理器,將在連續的時間戳中對同一人體獲得的多個姿勢作爲用於連續姿勢的學習資料利用,將在同一畫面中對不同的人體獲得的多個姿勢作爲用於相反姿勢的學習資料利用來使上述學習模型進行學習。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2020-0009352 | 2020-01-23 | ||
KR1020200009352A KR20210095446A (ko) | 2020-01-23 | 2020-01-23 | 인간의 포즈에 따른 컨텐츠 기반 대화 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202129467A true TW202129467A (zh) | 2021-08-01 |
TWI826767B TWI826767B (zh) | 2023-12-21 |
Family
ID=76972617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110102496A TWI826767B (zh) | 2020-01-23 | 2021-01-22 | 基於內容的對話方法、電腦可讀取記錄媒體及電腦裝置 |
Country Status (3)
Country | Link |
---|---|
KR (1) | KR20210095446A (zh) |
CN (1) | CN113191929A (zh) |
TW (1) | TWI826767B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676937B2 (en) * | 2011-05-12 | 2014-03-18 | Jeffrey Alan Rapaport | Social-topical adaptive networking (STAN) system allowing for group based contextual transaction offers and acceptances and hot topic watchdogging |
JP2018126810A (ja) * | 2017-02-06 | 2018-08-16 | 川崎重工業株式会社 | ロボットシステム及びロボット対話方法 |
WO2018209094A1 (en) * | 2017-05-11 | 2018-11-15 | Kodak Alaris Inc. | Method for identifying, ordering, and presenting images according to expressions |
CN107340859B (zh) * | 2017-06-14 | 2021-04-06 | 北京光年无限科技有限公司 | 多模态虚拟机器人的多模态交互方法和系统 |
CN108415561A (zh) * | 2018-02-11 | 2018-08-17 | 北京光年无限科技有限公司 | 基于虚拟人的手势交互方法及系统 |
-
2020
- 2020-01-23 KR KR1020200009352A patent/KR20210095446A/ko not_active Application Discontinuation
-
2021
- 2021-01-21 CN CN202110081199.5A patent/CN113191929A/zh active Pending
- 2021-01-22 TW TW110102496A patent/TWI826767B/zh active
Also Published As
Publication number | Publication date |
---|---|
TWI826767B (zh) | 2023-12-21 |
CN113191929A (zh) | 2021-07-30 |
KR20210095446A (ko) | 2021-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11210836B2 (en) | Applying artificial intelligence to generate motion information | |
US10521946B1 (en) | Processing speech to drive animations on avatars | |
US10732708B1 (en) | Disambiguation of virtual reality information using multi-modal data including speech | |
US10909386B2 (en) | Information push method, information push device and information push system | |
WO2022142006A1 (zh) | 基于语义识别的话术推荐方法、装置、设备及存储介质 | |
US10740802B2 (en) | Systems and methods for gaining knowledge about aspects of social life of a person using visual content associated with that person | |
US11435845B2 (en) | Gesture recognition based on skeletal model vectors | |
WO2021217973A1 (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
CN110765294B (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN111813910A (zh) | 客服问题的更新方法、系统、终端设备及计算机存储介质 | |
Zhou et al. | Sequential data feature selection for human motion recognition via Markov blanket | |
Kim et al. | Human Activity Recognition as Time‐Series Analysis | |
TWI826767B (zh) | 基於內容的對話方法、電腦可讀取記錄媒體及電腦裝置 | |
Tejero-de-Pablos et al. | Flexible human action recognition in depth video sequences using masked joint trajectories | |
Kim et al. | Dynamic arm gesture recognition using spherical angle features and hidden markov models | |
JP2015191471A (ja) | 感情情報推定装置、方法及びプログラム | |
Saha et al. | Gesture recognition from two-person interactions using ensemble decision tree | |
FADHLALLAH | A Deep Learning-based approach for Chatbot: medical assistance a case study | |
Kahlouche et al. | Human Activity Recognition Based on Ensemble Classifier Model | |
Niu et al. | Source Domain Selection for Cross-House Human Activity Recognition with Ambient Sensors | |
Shoumi et al. | Leveraging the Large Language Model for Activity Recognition: A Comprehensive Review | |
CN111131913A (zh) | 基于虚拟现实技术的视频生成方法、装置及存储介质 | |
Agnihotram et al. | Virtual Conversation with Real-Time Prediction of Body Moments/Gestures on Video Streaming Data | |
US20240249557A1 (en) | Systems and methods for determining user intent based on image-captured user actions | |
Bhattacharya | Unobtrusive Analysis of Human Behavior in Task-Based Group Interactions |