TW201820172A - 對話模式分析系統、方法及非暫態電腦可讀取記錄媒體 - Google Patents
對話模式分析系統、方法及非暫態電腦可讀取記錄媒體 Download PDFInfo
- Publication number
- TW201820172A TW201820172A TW105138686A TW105138686A TW201820172A TW 201820172 A TW201820172 A TW 201820172A TW 105138686 A TW105138686 A TW 105138686A TW 105138686 A TW105138686 A TW 105138686A TW 201820172 A TW201820172 A TW 201820172A
- Authority
- TW
- Taiwan
- Prior art keywords
- dialogue
- processor
- matrix
- dialog
- words
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
所揭露之實施例係關於對話模式分析系統、方法及非暫態電腦可讀取記錄媒體。該方法包含:透過處理器接收包含依照時間排序的複數個對話語句的對話資料;透過處理器對對話語句中出現的複數個字詞建構向量字詞分群,以取得字詞間的一字詞排列順序;透過處理器分析對話語句中出現的字詞,以根據字詞排列順序取得基本對話模式矩陣;透過處理器將基本對話模式矩陣進行模糊匹配,以根據基本對話模式矩陣取得對話模式矩陣;透過處理器根據對話模式矩陣偵測對話主題趨勢,以判斷對話資料的主題;以及透過處理器將相應於對話資料的對話模式矩陣與對話主題趨勢輸出至資料庫中。
Description
所揭露之實施例係關於對話模式分析系統、方法及非暫態電腦可讀取記錄媒體,更具體而言,係關於可用以解析連續型對話的對話模式分析系統、方法及非暫態電腦可讀取記錄媒體。
現有傳統的自然語言處理技術中,往往透過語料庫及語言學建構句法樹進行自然語言內容的解析。由於建構句法樹必須透過文法正確性且結構的完整的文句,因此所使用的語料庫大多為句法結構完整的文章。然而在現今社群對話中,句法往往不完整且對話為兩位或以上用戶的聊天紀錄,由傳統語料庫訓練所得的模型其成效不彰。
因此,如何改善現有的自然語言分析方式,以適用於現今社群對話的特性進行語言內容解析,為目前本研究領域的重要議題。
所揭露之實施例係提供對話模式分析系統、方法及非暫態電腦可讀取記錄媒體。
該對話模式分析方法包含透過一處理器接收至少一對話資料,該對話資料包含依照時間排序的複數個對話語句;透過該處理器對該些對話語句中出現的複數個字詞建構向量字詞分群,以取得該些字詞間的一字詞排列順序;透過該處理器分析該些對話語句中出現的該些字詞,以根據該字詞排列順序取得一基本對話模式矩陣;透過該處理器將該基本對話模式矩陣進行模糊匹配,以根據該基本對話模式矩陣取得一對話模式矩陣;透過該處理器根據該對話模式矩陣偵測一對話主題趨勢,以判斷該對話資料的主題;以及透過該處理器將相應於該對話資料的該對話模式矩陣與該對話主題趨勢輸出至一資料庫中。
該對話模式分析系統包含:一儲存裝置,配置以儲存一資料庫以及一電腦可執行指令,其中該資料庫用以儲存複數個對話資料以及該些對話資料各自的一對話模式矩陣與一對話主題趨勢,其中該些對話資料每一者分別包含依照時間排序的複數個對話語句;以及一處理器,電性耦接於該儲存裝置,該處理器配置以執行該電腦可執行指令,俾執行一對話模式分析方法,該對話模式分析方法包含:透過該處理器自該資料庫接收該些對話資料之其中一者;透過該處理器對該對話資料中的該些對話語句中出現的複數個字詞建構向量字詞分 群,以取得該些字詞間的一字詞排列順序;透過該處理器分析該些對話語句中出現的該些字詞,以根據該字詞排列順序取得一基本對話模式矩陣;透過該處理器將該基本對話模式矩陣進行模糊匹配,以根據該基本對話模式矩陣取得該對話模式矩陣;透過該處理器根據該對話模式矩陣偵測該對話主題趨勢,以判斷該對話資料的主題;以及透過該處理器將相應於該對話資料的該對話模式矩陣與該對話主題趨勢輸出至該資料庫中。
該非暫態電腦可讀取記錄媒體儲存一電腦可執行指令,用於使一處理器執行一對話模式分析方法,該對話模式分析方法包含:透過該處理器自該資料庫接收該些對話資料之其中一者;透過該處理器對該對話資料中的該些對話語句中出現的複數個字詞建構向量字詞分群,以取得該些字詞間的一字詞排列順序;透過該處理器分析該些對話語句中出現的該些字詞,以根據該字詞排列順序取得一基本對話模式矩陣;透過該處理器將該基本對話模式矩陣進行模糊匹配,以根據該基本對話模式矩陣取得該對話模式矩陣;透過該處理器根據該對話模式矩陣偵測該對話主題趨勢,以判斷該對話資料的主題;以及透過該處理器將相應於該對話資料的該對話模式矩陣與該對話主題趨勢輸出至該資料庫中。
綜上所述,本案透過解讀對話紀錄,預測後續對話內容,挖掘購物前潛在買家,以進行精準行銷。此外,對話模式分析系統亦可以應用對話引擎,簡化購物中複雜流程,透過與購物系統的自然對話方式實現極簡購物,亦可以透析對話意涵及主題趨勢的解析,協助購物後的重覆問答,實現智慧問 答客服服務。
100‧‧‧對話模式分析系統
120‧‧‧儲存裝置
122‧‧‧資料庫
140‧‧‧處理器
141‧‧‧資料收集模組
143‧‧‧向量字詞分群模組
145‧‧‧對話樣式探勘建模模組
147‧‧‧趨勢偵測樣式比對模組
200‧‧‧對話模式分析方法
S210~S270‧‧‧步驟
CMD‧‧‧電腦可執行指令
UI‧‧‧使用者介面
OM、HM、VM、TM、BM、CM、TestM‧‧‧矩陣
第1圖為根據本揭示內容部分實施例所繪示的一種對話模式分析系統的示意圖。
第2A圖為根據本揭示內容部分實施例所繪示的對話模式分析方法的流程圖。
第2B圖為根據本揭示內容部分實施例所繪示的對話模式分析方法其中步驟的細部流程圖。
第3A圖為根據本揭示內容部分實施例所繪示的原始字詞矩陣的示意圖。
第3B圖為根據本揭示內容部分實施例所繪示的水平共現矩陣的示意圖。
第3C圖為根據本揭示內容部分實施例所繪示的垂直共現矩陣的示意圖。
第3D圖為根據本揭示內容部分實施例所繪示的總和共現關聯矩陣的示意圖。
第4A圖為根據本揭示內容部分實施例所繪示的基本對話模式矩陣的示意圖。
第4B圖為根據本揭示內容部分實施例所繪示的對話模式矩陣的示意圖。
第5圖為根據本案部分實施例所繪示的待測對話模式矩陣的示意圖。
下文係舉實施例配合所附圖式作詳細說明,以更好地理解本案的態樣,但所提供之實施例並非用以限制本揭露所涵蓋的範圍,而結構操作之描述非用以限制其執行之順序,任何由元件重新組合之結構,所產生具有均等功效的裝置,皆為本揭露所涵蓋的範圍。此外,根據業界的標準及慣常做法,圖式僅以輔助說明為目的,並未依照原尺寸作圖,實際上各種特徵的尺寸可任意地增加或減少以便於說明。下述說明中相同元件將以相同之符號標示來進行說明以便於理解。
在全篇說明書與申請專利範圍所使用之用詞(terms),除有特別註明外,通常具有每個用詞使用在此領域中、在此揭露之內容中與特殊內容中的平常意義。某些用以描述本揭露之用詞將於下或在此說明書的別處討論,以提供本領域技術人員在有關本揭露之描述上額外的引導。
此外,在本文中所使用的用詞『包含』、『包括』、『具有』、『含有』等等,均為開放性的用語,即意指『包含但不限於』。此外,本文中所使用之『及/或』,包含相關列舉項目中一或多個項目的任意一個以及其所有組合。
於本文中,當一元件被稱為『連接』或『耦接』時,可指『電性連接』或『電性耦接』。『連接』或『耦接』亦可用以表示二或多個元件間相互搭配操作或互動。此外,雖然本文中使用『第一』、『第二』、…等用語描述不同元件,該用語僅是用以區別以相同技術用語描述的元件或操作。除非 上下文清楚指明,否則該用語並非特別指稱或暗示次序或順位,亦非用以限定本發明。
請參考第1圖。第1圖為根據本揭示內容部分實施例所繪示的一種對話模式分析系統100的示意圖。如第1圖所示,在部分實施例中,對話模式分析系統100包含儲存裝置120以及處理器140。
具體來說,儲存裝置120配置以儲存資料庫122以及電腦可執行指令CMD。資料庫122用以儲存複數個對話資料D1~Dn以及對話資料D1~Dn各自的對話模式矩陣與對話主題趨勢。具體來說,對話資料D1~Dn每一者分別包含依照時間排序的複數個對話語句,其相應的具體操作將在後續段落中搭配圖式進行詳細說明。
此外,如第1圖所示,在部分實施例中,對話模式分析系統100更用以連接至使用者介面UI,使得使用者可根據對話模式分析系統100進行的分析執行後續操作。舉例來說,使用者可利用對話模式分析系統100對社群網站、網路討論區、留言板、即時通訊系統等等不同數位平台上的對話主題進行分析,並將分析結果用於購物前針對不同消費者的精準行銷、購物過程中的簡化購物流程,或是購物後的智慧問答客服等等,以透過解析連續對話的語意內容實現上述操作的簡化或是自動化。在部分實施例中,使用者介面UI可包含網頁、應用程式(App)或是包含對話引擎的其他介面等等各種形式,但本揭示內容並不以此為限。
在部分實施例中,處理器140電性耦接於儲存 裝置120。處理器140配置以執行儲存裝置120內所儲存的電腦可執行指令CMD,俾執行一對話模式分析方法。具體來說,處理器140依據電腦可執行指令CMD執行對話模式分析方法時,是透過處理器140中資料收集模組141、向量字詞分群模組143、對話樣式探勘建模模組145、趨勢偵測樣式比對模組147的協同操作實現針對對話模式的分析。
藉此,處理器140便可將資料訓練和資料解析所需或是所得的模型和資料儲存於資料庫122中,以透過資料庫122與使用者介面200進行互動。為便於說明起見,以下段落將以實施例配合圖式,針對處理器140透過資料收集模組141、向量字詞分群模組143、對話樣式探勘建模模組145、趨勢偵測樣式比對模組147執行對話模式分析方法的步驟進行詳細說明。
請一併參考第2A圖與第2B圖。第2A圖為根據本揭示內容部分實施例所繪示的對話模式分析方法200的流程圖。第2B圖為根據本揭示內容部分實施例所繪示的對話模式分析方法200的步驟S270的細部流程圖。為方便及清楚說明起見,第2A圖、第2B圖中所述的對話模式分析方法200是配合第1圖所示的對話模式分析系統100進行說明,但不以此為限,任何熟習此技藝者,在不脫離本案之精神和範圍內,當可對其作各種更動與潤飾。
如第2A圖所示,在部分實施例中,對話模式分析方法200包含步驟S210、S220、S230、S240、S250、S260以及S270。
首先,在步驟S210中,處理器140透過資料收集模組141接收至少一對話資料D1~Dn。具體來說,對話模式分析系統100可自電子布告欄、討論區和各個社群網站上蒐集社群對話的內容做為對話資料D1~Dn。如先前段落所述,對話資料D1~Dn每一者(如:對話資料D1)包含依照時間排序的複數個對話語句S1~Sm,其中對話語句S1~Sm可為同一個對話討論串中依時序的對話內容。
舉例來說,在某個社群網站中針對化妝品進行討論的討論串中,資料收集模組141蒐集到的對話語句S1~S7依序分別為「甲品牌飾底乳這罐珠光不知道會不會太強烈」、「甲品牌沒有控油喔,純粹就是增加光澤,想要控油就選乙品牌」、「甲品牌還是有控油的效果吧?但不是主打」、「乙品牌主要是治粉刺啦」、「甲品牌感覺沒有很控油耶」、「乙品牌控油效果真的很好,而且不會爆粉刺」、「乙品牌的飾底乳效果最好,會不會粉刺看個人」等七個針對不同品牌的功能和效果所進行的對話單句。
在部分實施例中,資料收集模組141可針對蒐集到的對話語句S1~S7進行字庫建構,以取得對話語句S1~S7中出現的字詞W1~Wx。舉例來說,資料收集模組141可將蒐集到的對話內容進行斷詞,以斷詞內容作為字庫。在部分實施例中,資料收集模組141更可將斷詞後內容去除一些常用字詞,如「的」、「我」一類的常見字後,將剩下的字詞作為字庫。此外,在其他部分實施例中,資料收集模組141亦可根據特定領域蒐集特定用字及領域中慣用字,再搭配社群 對話內容的字詞作為字庫。
舉例來說,根據上述對話語句S1~S7,資料收集模組141可選擇六個字詞W1~W6以建立字庫,其中字詞W1~W6分別為「甲品牌」、「控油」、「乙品牌」、「粉刺」、「飾底乳」、「效果」。
接著,在步驟S220中,處理器140透過向量字詞分群模組143對上述對話語句S1~S7中出現的字詞W1~W6建構向量字詞分群,以取得字詞W1~W6間的字詞排列順序。
具體來說,在將自然語言的句子轉換成向量方式表示的過程中,不同字詞群聚與排列順序會影響後續的比對分析。因此,在步驟S220中,向量字詞分群模組143可取得字詞W1~W6間的字詞排列順序,以利後續操作。
在部分實施例中,步驟S220中取得字詞W1~W8間的字詞排列順序的步驟可進一步細分為步驟S222、S224、S226、S228。
在步驟S222中,向量字詞分群模組143根據字詞W1~W6中相應的兩者同時出現在同一句對話語句S1~S7中的次數建立水平共現矩陣HM。
請一併參考第3A圖與第3B圖,其中第3A圖為根據本揭示內容部分實施例所繪示的原始字詞矩陣OM的示意圖,第3B圖為根據本揭示內容部分實施例所繪示的水平共現矩陣HM的示意圖。如第3A圖所示,分別根據對話語句S1~S7中是否出現相應的字詞W1~W6,便可取得原始字詞矩陣OM,其中OM(x,y)之值若為1,表示對話語句Sx中出現了字 詞Wy。舉例來說,對話語句S1「甲品牌飾底乳這罐珠光不知道會不會太強烈」中出現了字詞W1「甲品牌」、字詞W5「飾底乳」,因此OM(1,1)與OM(1,5)之值為1,該行其餘的OM(1,2)、OM(1,3)、OM(1,4)與OM(1,6)則為0,其餘行以此類推,於此不再贅述。
如第3B圖所示,在水平共現矩陣HM中,HM(x,y)之值代表字詞W1~W6中相應的兩者Wx、Wy同時出現在同一句對話語句S1~S7中的次數。舉例來說,字詞W1「甲品牌」、字詞W2「控油」同時出現在對話語句S2、S3、S5這三句話中,因此HM(1,2)的值為3。相似地,字詞W1「甲品牌」、字詞W3「乙品牌」只同時出現在對話語句S2這一句話中,因此HM(1,3)的值為1,其餘以此類推,於此不再贅述。
藉此,向量字詞分群模組143便可建立水平共現矩陣HM,以代表字詞W1~W6是否容易出現在同一句話當中,以評價字詞W1~W6之間的關聯程度。
接著,在步驟S224中,向量字詞分群模組143根據字詞W1~W6中相應的兩者Wx、Wy分別出現在相鄰距離小於預設距離的對話語句S1~S7中的次數建立垂直共現矩陣VM。請一併參考第3C圖,第3C圖為根據本揭示內容部分實施例所繪示的垂直共現矩陣VM的示意圖。
和水平共現矩陣HM相比,垂直共現矩陣VM代表的是整體對話過程中沿特定方向的一定距離內的不同句子之間,字詞W1~W6是否容易在前後文中接連出現,以評價字詞W1~W6之間的關聯程度。舉例來說,上述距離可根據 實際需求設定為1句話、2句話或是其他任意數值。
換言之,VM(x,y)代表的是字詞Wx、Wy在同一段話中沿特定方向的一定距離內的不同句子中共同出現的次數。
舉例來說,在部分實施例中,特定方向可設定為往下、預設距離可設定為1句話。如此一來,由於相鄰的對話語句S1與S2中分別出現了字詞W1「甲品牌」、字詞W2「控油」,而相鄰的對話語句S2與S3中,先是在對話語句S2出現了字詞W1「甲品牌」,對話語句S3出現了字詞W2「控油」,又在對話語句S2出現了字詞W2「控油」,對話語句S3出現了字詞W1「甲品牌」,最後在相鄰的對話語句S5與S6中分別出現了字詞W1「甲品牌」、字詞W2「控油」,因此字詞W1、W2在對話語句S1~S7中沿下方的距離1以內的不同句子中共同出現的次數為四次,因此VM(1,2)的值為4。
相似地,由於字詞W4「粉刺」和字詞W5「飾底乳」僅在相鄰的對話語句S6與S7出現一次,因此VM(4,5)的值為1,其餘以此類推,於此不再贅述。
如此一來,向量字詞分群模組143便可根據水平共現矩陣HM與垂直共現矩陣VM計算各個字詞W1~W6之間個關聯程度。
具體來說,在步驟S226中,向量字詞分群模組143根據水平共現矩陣HM與垂直共現矩陣VM計算出總和共現關聯矩陣TM。
請一併參考第3D圖,其中第3D圖為根據本揭示 內容部分實施例所繪示的總和共現關聯矩陣TM的示意圖。
在部分實施例中,向量字詞分群模組143可分別將水平共現矩陣HM與垂直共現矩陣VM乘上各自的比重,再將兩者相加以計算出總和共現關聯矩陣TM。在第3D圖所示實施例中,向量字詞分群模組143設定兩者的比重皆為1以計算總和共現關聯矩陣TM,但本案並不以此為限,水平共現矩陣HM與垂直共現矩陣VM各自的比重可根據實際需求進行調整。
最後,在步驟S228中,根據總和共現關聯矩陣TM取得各個字詞W1~W6的向量後,向量字詞分群模組143便可藉由各種分群演算法,根據總和共現關聯矩陣TM取得字詞W1~W6的關聯群聚關係,並對字詞W1~W6進行排序以取得字詞排列順序。
舉例來說,在部分實施例中,分群演算法可根據總和共現關聯矩陣TM將字詞W1~W6分為兩群,其中字詞W1、W2、W3、W6為一群,字詞W4、W5為一群。接著,可分別將群內字詞W1、W2、W3、W6作為完全圖中的頂點,使用最短漢米爾頓路徑將關聯度較高的字詞排在鄰近位置。相似地,群與群之間亦可根據各群各自的質心作為頂點,使用最短漢米爾頓路徑將關聯度較高的群排在鄰近位置。
如此一來,透過適當演算法處理後,便可取得字詞W1~W6的字詞排列順序。舉例來說,將關聯程度較高的字詞排列在鄰近位置後,依序可得新排序後的字詞W1’「控油」、W2’「乙品牌」、W3’「甲品牌」、W4’「效果」、W5’ 「粉刺」、W6’「飾底乳」。
接著,在步驟S230中,處理器140透過對話樣式探勘建模模組145分析對話語句S1中出現的字詞W1’~W6’,以根據字詞排列順序取得基本對話模式矩陣BM。請一併參考第4A圖,第4A圖為根據本揭示內容部分實施例所繪示的基本對話模式矩陣BM的示意圖。
在部分實施例中,在步驟S230中,對話樣式探勘建模模組145將字詞W1~W6根據字詞排列順序重新排序為字詞W1’~W6’後,根據字詞W1’~W6’分別於對話語句S1~S7中出現的位置取得基本對話模式矩陣BM。
如第4A圖所示,分別根據對話語句S1~S7中是否出現相應的經重新排序後的字詞W1’~W6’,便可取得基本對話模式矩陣BM,其中BM(x,y)之值若為1,表示對話語句Sx中出現了字詞Wy’。舉例來說,對話語句S1「甲品牌飾底乳這罐珠光不知道會不會太強烈」中出現了字詞W3’「甲品牌」、字詞W6’「飾底乳」,因此OM(1,3)與OM(1,6)之值為1,該行其餘的OM(1,1)、OM(1,2)、OM(1,4)與OM(1,5)則為0,其餘行以此類推,於此不再贅述。
接著,在步驟S240中,處理器140透過對話樣式探勘建模模組145將基本對話模式矩陣BM進行模糊匹配,以根據基本對話模式矩陣BM取得對話模式矩陣CM。請一併參考第4B圖,第4B圖為根據本揭示內容部分實施例所繪示的對話模式矩陣CM的示意圖。
在部分實施例中,在步驟S240中取得對話模式 矩陣CM的步驟進一步包含步驟S242、S244。
在步驟S242中,對話樣式探勘建模模組145提供一結構元素SE。接著,在步驟S244中,對話樣式探勘建模模組145根據結構元素對基本對話模式矩陣BM進行擴張運算,以計算模糊匹配後的對話模式矩陣CM。
如第4B圖所示,結構元素SE可為[1,1,1]的垂直向量。在部分實施例中,擴張運算B⊕A可表示為:
在上式中,() z 為A的鏡射並平移z個單位。由於進行對話內容檢索時,若採用直接比對方式會有資訊不足的問題,且在對話過程中,前句敘述所使用過的字詞在下一句通常會被省略。因此,對話樣式探勘建模模組145可針對基本對話模式矩陣BM進行形態學的擴張運算達到模糊匹配,獲取更多回覆對話的選擇性,並取得相應的對話模式矩陣CM。
接著,在步驟S250中,處理器140透過趨勢偵測樣式比對模組147,根據對話模式矩陣CM偵測對話主題趨勢,以判斷對話資料D1的主題。舉例來說,在部分實施例中,步驟S250包含計算對話模式矩陣CM的質心座標,以根據質心座標判斷對話資料D1的對話主題趨勢。具體來說,經過上述的關聯性字詞群聚後,對話模式矩陣CM的質心便可表示上述對話中的互動對話主軸。
此外,在部分實施例中,若是在比較對話樣式相似度時,其相應的質心位置迥異,則代表對話主題差異極大。藉此,在資料庫122中尋找最相似的對話內容時,趨勢偵測樣式比對模組147可排除質心位置迥異的點,以節省計算量。
舉例來說,在部分實施例中,透過質心的比對可以快速比對兩段對話內容是否談論相似的對話主題。藉以偵測判斷對話主題。另一方面,若一段對話內容包含兩個以上的主題時,也可以透過偵測數句對話間質心的偏移程度藉以切割不同主題的對話。
具體來說,質心座標可表示為:
其中,m 00表示對話模式矩陣CM的零階動差(Moment),值為1的加總。m 10、m 01分別為兩個維度的一階離散動差,其公式可表示為:
上式中,對話模式矩陣CM的尺寸為M×N,CM(i,j)表示對話模式矩陣CM於(i,j)位置的值,p、q分別為動差的階數。
舉例來說,根據第4B圖中所示的對話模式矩陣 CM,若左上角定義為位置(0,0),則可分別求出:m 00=35
m 10=0×4+1×5+2×5+3×5+4×5+5×6+6×5=110
m 01=0×6+1×6+2×6+3×6+4×5+5×4=76
因此,對話模式矩陣CM的質心位置便為(110/35,76/35)。
接著,在步驟S260中,處理器140便可將相應於對話資料D1的對話模式矩陣CM與對話主題趨勢(即:質點位置)輸出至資料庫122中,以提供之後進行對話解析預測之用。
舉例來說,在部分實施例中,對話模式分析方法200包含步驟S270。在步驟S270中,對話模式分析系統100接受待測對話資料Dtest,並相應預測相應於待測對話資料Dtest的後續對話。
請一併參考第2B圖。如第2B圖所示,具體來說,步驟S270中可包含步驟S272、S274、S276、S278。
在步驟S272中,處理器140透過資料收集模組141接收待測對話資料Dtest,其中待測對話資料Dtest包含依照時間排序的待測對話語句Stest1~Stestm。舉例來說,待測對話資料Dtest中的待測對話語句Stest1~Stest4可分別為「請問甲品牌這罐飾底乳好嗎?」、「控油效果好的是Sofina,VDL控油不是主打」、「使用上VDL好像沒有很控油」、「Sofina控油效果真的很好而且沒有爆粉刺的問題」。
接著,在步驟S274中,處理器140透過向量字詞分群模組143分析待測對話語句Dtest中出現的字詞 W1~Wx,以根據字詞排列順序取得待測對話模式矩陣TestM。值得注意的是,根據字詞排列順序取得待測對話模式矩陣TestM的詳細步驟與先前段落中所述基本對話模式矩陣BM的取得方式相似,故不再於此贅述。請一併參考第5圖,第5圖為根據本案部分實施例所繪示的待測對話模式矩陣TestM的示意圖。
接著,在步驟S276中,處理器140透過趨勢偵測樣式比對模組147計算待測對話模式矩陣TestM與資料庫122中的對話模式矩陣BM之間的相似度。
具體來說,在部分實施例中比較兩個矩陣B1與B2之間的相似度時,可分別計算B1對於B2的相似度SB1B2以及B2對於B1的相似度SB2B1,並取其平均值作為矩陣B1與B2之間的相似度。相似度SB1B2以及相似度SB2B1可分別透過下式表示:SB 1 B 2=P(B 2(i,j)=1|B 1(i,j)=1)
SB 2 B 1=P(B 1(i,j)=1|B 2(i,j)=1)
在上式中,B1(i,j)與B2(i,j)分別為B1與B2於區塊(i,j)位置的值。根據上式,趨勢偵測樣式比對模組147計算待測對話模式矩陣TestM與資料庫122中的對話模式矩陣BM之間的相似度。
值得注意的是,以上採取畫素匹配相似度(pixel matching similarity)的計算方式僅為本案中多實施方式的其中一種釋例,並非用以限制本案。本領域具通常知識者亦可透 過其他各種相似度或關聯性計算方式取得待測對話模式矩陣TestM與對話模式矩陣BM之間的相似度。
最後,在步驟S278中,處理器140透過趨勢偵測樣式比對模組147,便可根據計算所得的相似度輸出相應的對話主題趨勢以預測相應於待測對話資料Dtest的後續對話。舉例來說,當相似度高於一目標值時,趨勢偵測樣式比對模組147便可判斷待測對話資料Dtest的主題與相關內容與此對話模式矩陣BM接近,並據以輸出對話主題趨勢或提供相關資料給對話引擎,以輸出相應內容至使用者介面200。
如此一來,透過以上步驟S210~S270中各個模組的偕同操作,對話模式分析系統100便可透過收集社群對話後進行字詞共現關聯分群以建構對話樣式區塊取代語料庫和語言學的方法。接著,再以對話模糊匹配,對話相似樣式比對及對話主題趨勢偵測等方法進行對話內容及對話主題趨勢的解析,並預測後續對話內容。針對每組對話都個別存下樣式,提供多樣話的對話樣式區塊,能提供較高準確率。
值得注意的是,雖然本文將所公開的方法示出和描述為一系列的步驟或事件,但是應當理解,所示出的這些步驟或事件的順序不應解釋為限制意義。例如,部分步驟可以以不同順序發生和/或與除了本文所示和/或所描述之步驟或事件以外的其他步驟或事件同時發生。另外,實施本文所描述的一個或多個態樣或實施例時,並非所有於此示出的步驟皆為必需。此外,本文中的一個或多個步驟亦可能在一個或多個分離的步驟和/或階段中執行。
本案透過應用上述多個實施例,透過解讀對話紀錄,預測後續對話內容,挖掘購物前潛在買家,以進行精準行銷。此外,對話模式分析系統100亦可以應用對話引擎,簡化購物中複雜流程,透過與購物系統的自然對話方式實現極簡購物,亦可以透析對話意涵及主題趨勢的解析,協助購物後的重覆問答,實現智慧問答客服服務。
雖然本揭示內容已以實施方式揭露如上,然其並非用以限定本揭示內容,任何熟習此技藝者,在不脫離本揭示內容之精神和範圍內,當可作各種更動與潤飾,因此本揭示內容之保護範圍當視後附之申請專利範圍所界定者為準。
Claims (13)
- 一種對話模式分析方法,包含:透過一處理器接收至少一對話資料,該對話資料包含依照時間排序的複數個對話語句;透過該處理器對該些對話語句中出現的複數個字詞建構向量字詞分群,以取得該些字詞間的一字詞排列順序;透過該處理器分析該些對話語句中出現的該些字詞,以根據該字詞排列順序取得一基本對話模式矩陣;透過該處理器將該基本對話模式矩陣進行模糊匹配,以根據該基本對話模式矩陣取得一對話模式矩陣;透過該處理器根據該對話模式矩陣偵測一對話主題趨勢,以判斷該對話資料的主題;以及透過該處理器將相應於該對話資料的該對話模式矩陣與該對話主題趨勢輸出至一資料庫中。
- 如請求項1所述的對話模式分析方法,其中取得該些字詞間的該字詞排列順序的步驟包含:透過該處理器根據該些字詞中相應的兩者同時出現在同一句對話語句中的次數建立一水平共現矩陣;透過該處理器根據該些字詞中相應的兩者分別出現在相鄰距離小於一預設距離的對話語句中的次數建立一垂直共現矩陣;透過該處理器根據該水平共現矩陣與該垂直共現矩陣計算出一總和共現關聯矩陣;以及透過該處理器藉由分群演算法,根據該總和共現關聯矩 陣取得該些字詞的關聯群聚關係,並對該些字詞進行排序以取得該字詞排列順序。
- 如請求項1所述的對話模式分析方法,其中根據該字詞排列順序取得該基本對話模式矩陣的步驟包含:透過該處理器將該些字詞根據該字詞排列順序重新排序後,根據該些字詞分別於該些對話語句中出現的位置取得該基本對話模式矩陣。
- 如請求項3所述的對話模式分析方法,其中根據該基本對話模式矩陣取得該對話模式矩陣的步驟包含:透過該處理器提供一結構元素;以及根據該結構元素對該基本對話模式矩陣進行擴張運算,以計算模糊匹配後的該對話模式矩陣。
- 如請求項1所述的對話模式分析方法,其中根據該對話模式矩陣偵測一對話主題趨勢的步驟包含:計算該對話模式矩陣的一質心座標,以根據該質心座標判斷該對話資料的該對話主題趨勢。
- 如請求項1所述的對話模式分析方法,更包含:透過該處理器接收一待測對話資料,該待測對話資料包含依照時間排序的複數個待測對話語句;透過該處理器分析該些待測對話語句中出現的該些字詞, 以根據該字詞排列順序取得一待測對話模式矩陣;透過該處理器計算該待測對話模式矩陣與該資料庫中的該對話模式矩陣之間的相似度;以及透過該處理器根據計算所得的相似度輸出相應的該對話主題趨勢以預測相應於該待測對話資料的後續對話。
- 一種對話模式分析系統,包含:一儲存裝置,配置以儲存一資料庫以及一電腦可執行指令,其中該資料庫用以儲存複數個對話資料以及該些對話資料各自的一對話模式矩陣與一對話主題趨勢,其中該些對話資料每一者分別包含依照時間排序的複數個對話語句;以及一處理器,電性耦接於該儲存裝置,該處理器配置以執行該電腦可執行指令,俾執行一對話模式分析方法,該對話模式分析方法包含:透過該處理器自該資料庫接收該些對話資料之其中一者;透過該處理器對該對話資料中的該些對話語句中出現的複數個字詞建構向量字詞分群,以取得該些字詞間的一字詞排列順序;透過該處理器分析該些對話語句中出現的該些字詞,以根據該字詞排列順序取得一基本對話模式矩陣;透過該處理器將該基本對話模式矩陣進行模糊匹配,以根據該基本對話模式矩陣取得該對話模式矩陣;透過該處理器根據該對話模式矩陣偵測該對話主題趨勢,以判斷該對話資料的主題;以及 透過該處理器將相應於該對話資料的該對話模式矩陣與該對話主題趨勢輸出至該資料庫中。
- 如請求項7所述的對話模式分析系統,其中該處理器執行的該對話模式方法中取得該些字詞間的該字詞排列順序的步驟包含:透過該處理器根據該些字詞中相應的兩者同時出現在同一句對話語句中的次數建立一水平共現矩陣;透過該處理器根據該些字詞中相應的兩者分別出現在相鄰距離小於一預設距離的對話語句中的次數建立一垂直共現矩陣;透過該處理器根據該水平共現矩陣與該垂直共現矩陣計算出一總和共現關聯矩陣;以及透過該處理器藉由分群演算法,根據該總和共現關聯矩陣取得該些字詞的關聯群聚關係,並對該些字詞進行排序以取得該字詞排列順序。
- 如請求項7所述的對話模式分析系統,其中該處理器執行的該對話模式方法中根據該字詞排列順序取得該基本對話模式矩陣的步驟包含:透過該處理器將該些字詞根據該字詞排列順序重新排序後,根據該些字詞分別於該些對話語句中出現的位置取得該基本對話模式矩陣。
- 如請求項9所述的對話模式分析系統,其中 該處理器執行的該對話模式方法中根據該基本對話模式矩陣取得該對話模式矩陣的步驟包含:透過該處理器提供一結構元素;以及根據該結構元素對該基本對話模式矩陣進行擴張運算,以計算模糊匹配後的該對話模式矩陣。
- 如請求項7所述的對話模式分析系統,其中該處理器執行的該對話模式方法中根據該對話模式矩陣偵測一對話主題趨勢的步驟包含:計算該對話模式矩陣的一質心座標,以根據該質心座標判斷該對話資料的該對話主題趨勢。
- 如請求項7所述的對話模式分析系統,其中該處理器執行的該對話模式方法更包含:透過該處理器接收一待測對話資料,該待測對話資料包含依照時間排序的複數個待測對話語句;透過該處理器分析該些待測對話語句中出現的該些字詞,以根據該字詞排列順序取得一待測對話模式矩陣;透過該處理器計算該待測對話模式矩陣與該資料庫中的該對話模式矩陣之間的相似度;以及透過該處理器根據計算所得的相似度輸出相應的該對話主題趨勢以預測相應於該待測對話資料的後續對話。
- 一種非暫態電腦可讀取記錄媒體,其儲存一電腦可執行指令,用於使一處理器執行一對話模式分析方法, 該對話模式分析方法,包含:透過一處理器接收至少一對話資料,該對話資料包含依照時間排序的複數個對話語句;透過該處理器對該些對話語句中出現的複數個字詞建構向量字詞分群,以取得該些字詞間的一字詞排列順序;透過該處理器分析該些對話語句中出現的該些字詞,以根據該字詞排列順序取得一基本對話模式矩陣;透過該處理器將該基本對話模式矩陣進行模糊匹配,以根據該基本對話模式矩陣取得一對話模式矩陣;透過該處理器根據該對話模式矩陣偵測一對話主題趨勢,以判斷該對話資料的主題;以及透過該處理器將相應於該對話資料的該對話模式矩陣與該對話主題趨勢輸出至一資料庫中。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105138686A TW201820172A (zh) | 2016-11-24 | 2016-11-24 | 對話模式分析系統、方法及非暫態電腦可讀取記錄媒體 |
US15/367,162 US20180143968A1 (en) | 2016-11-24 | 2016-12-01 | System, method and non-transitory computer readable storage medium for conversation analysis |
CN201611095015.6A CN108108347B (zh) | 2016-11-24 | 2016-12-02 | 对话模式分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105138686A TW201820172A (zh) | 2016-11-24 | 2016-11-24 | 對話模式分析系統、方法及非暫態電腦可讀取記錄媒體 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201820172A true TW201820172A (zh) | 2018-06-01 |
Family
ID=62147017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105138686A TW201820172A (zh) | 2016-11-24 | 2016-11-24 | 對話模式分析系統、方法及非暫態電腦可讀取記錄媒體 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180143968A1 (zh) |
CN (1) | CN108108347B (zh) |
TW (1) | TW201820172A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI667580B (zh) * | 2018-10-24 | 2019-08-01 | 大仁科技大學 | 藥局問答對話系統 |
TWI761090B (zh) * | 2021-02-25 | 2022-04-11 | 中華電信股份有限公司 | 對話資料處理系統、其方法及電腦可讀媒介 |
TWI770477B (zh) * | 2019-09-03 | 2022-07-11 | 日商三菱電機股份有限公司 | 資訊處理裝置、儲存媒體、程式產品及資訊處理方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3432155A1 (en) * | 2017-07-17 | 2019-01-23 | Siemens Aktiengesellschaft | Method and system for automatic discovery of topics and trends over time |
CN109727041B (zh) * | 2018-07-03 | 2023-04-18 | 平安科技(深圳)有限公司 | 智能客服多轮问答方法、设备、存储介质及装置 |
US11055494B2 (en) * | 2019-08-09 | 2021-07-06 | Microsoft Technology Licensing, Llc. | Matrix based bot implementation |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7197470B1 (en) * | 2000-10-11 | 2007-03-27 | Buzzmetrics, Ltd. | System and method for collection analysis of electronic discussion methods |
CA2440792A1 (en) * | 2002-09-27 | 2004-03-27 | Mechworks Systems Inc. | A method and system for online condition monitoring of multistage rotary machinery |
CN1219266C (zh) * | 2003-05-23 | 2005-09-14 | 郑方 | 一种实现多路对话的人-机汉语口语对话系统的方法 |
US20060149674A1 (en) * | 2004-12-30 | 2006-07-06 | Mike Cook | System and method for identity-based fraud detection for transactions using a plurality of historical identity records |
US20070100875A1 (en) * | 2005-11-03 | 2007-05-03 | Nec Laboratories America, Inc. | Systems and methods for trend extraction and analysis of dynamic data |
CN103729388A (zh) * | 2012-10-16 | 2014-04-16 | 北京千橡网景科技发展有限公司 | 用于网络用户发表状态的实时热点检测方法 |
-
2016
- 2016-11-24 TW TW105138686A patent/TW201820172A/zh unknown
- 2016-12-01 US US15/367,162 patent/US20180143968A1/en not_active Abandoned
- 2016-12-02 CN CN201611095015.6A patent/CN108108347B/zh active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI667580B (zh) * | 2018-10-24 | 2019-08-01 | 大仁科技大學 | 藥局問答對話系統 |
TWI770477B (zh) * | 2019-09-03 | 2022-07-11 | 日商三菱電機股份有限公司 | 資訊處理裝置、儲存媒體、程式產品及資訊處理方法 |
TWI761090B (zh) * | 2021-02-25 | 2022-04-11 | 中華電信股份有限公司 | 對話資料處理系統、其方法及電腦可讀媒介 |
Also Published As
Publication number | Publication date |
---|---|
CN108108347A (zh) | 2018-06-01 |
US20180143968A1 (en) | 2018-05-24 |
CN108108347B (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201820172A (zh) | 對話模式分析系統、方法及非暫態電腦可讀取記錄媒體 | |
CN109241424B (zh) | 一种推荐方法 | |
Brooks et al. | FeatureInsight: Visual support for error-driven feature ideation in text classification | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
WO2022141861A1 (zh) | 情感分类方法、装置、电子设备及存储介质 | |
CN110209817A (zh) | 文本处理模型的训练方法、装置和文本处理方法 | |
JP4683394B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN110874439B (zh) | 一种基于评论信息的推荐方法 | |
CN108038725A (zh) | 一种基于机器学习的电商产品客户满意度分析方法 | |
CN104778186B (zh) | 将商品对象挂载到标准产品单元的方法及系统 | |
CN106202059A (zh) | 机器翻译方法以及机器翻译装置 | |
CN109543031A (zh) | 一种基于多任务对抗学习的文本分类方法 | |
CN109766431A (zh) | 一种基于词义主题模型的社交网络短文本推荐方法 | |
CN102929860B (zh) | 一种基于上下文语境的中文分句情感极性判别方法 | |
CN107944911A (zh) | 一种基于文本分析的推荐系统的推荐方法 | |
CN106971200A (zh) | 一种基于自适应迁移学习的图像记忆度预测方法 | |
CN109992676B (zh) | 一种跨媒体资源检索方法及检索系统 | |
CN110969023B (zh) | 文本相似度的确定方法及装置 | |
CN110083829A (zh) | 情感极性分析方法及相关装置 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN110494825A (zh) | 带屏幕提示界面的汉字骨架码输入法及系统 | |
CN116894711A (zh) | 商品推荐理由生成方法及其装置、电子设备 | |
CN109471930B (zh) | 一种面向用户情感的情绪板界面设计方法 | |
KR102119083B1 (ko) | 사용자 리뷰 기반 평점 재산정 장치 및 방법, 이를 기록한 기록매체 |