TWI732271B - 人機對話方法、裝置、電子設備及電腦可讀媒體 - Google Patents

人機對話方法、裝置、電子設備及電腦可讀媒體 Download PDF

Info

Publication number
TWI732271B
TWI732271B TW108129270A TW108129270A TWI732271B TW I732271 B TWI732271 B TW I732271B TW 108129270 A TW108129270 A TW 108129270A TW 108129270 A TW108129270 A TW 108129270A TW I732271 B TWI732271 B TW I732271B
Authority
TW
Taiwan
Prior art keywords
sentence
sentences
similarity
score
vector
Prior art date
Application number
TW108129270A
Other languages
English (en)
Other versions
TW202009749A (zh
Inventor
冉邱
周霄
牛成
周傑
Original Assignee
大陸商騰訊科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商騰訊科技(深圳)有限公司 filed Critical 大陸商騰訊科技(深圳)有限公司
Publication of TW202009749A publication Critical patent/TW202009749A/zh
Application granted granted Critical
Publication of TWI732271B publication Critical patent/TWI732271B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申請有關一種人機對話方法、裝置、電子設備及電腦可讀媒體。該方法包括:由用戶的輸入訊息中提取關鍵詞;根據所述關鍵詞確定候選文章;獲取所述候選文章中的多個句子,並確定所述多個句子中每一個句子的評分;以及基於評分結果由所述多個句子中提取部分句子生成返回訊息。本申請的人機對話方法、裝置、電子設備及電腦可讀媒體,能夠使得機器人在人機對話過程中產生具有信息量的回答,輔助用戶與外界訊息進行觀點交流。

Description

人機對話方法、裝置、電子設備及電腦可讀媒體
本申請係有關電腦訊息處理領域,具體而言,特別有關一種人機對話方法、裝置、電子設備及電腦可讀媒體。
聊天機器人(chatterbot)是一個用來模擬人類對話或聊天的程式。目前聊天機器人廣泛運用於各種即時通訊平台,學習教育平台,以及各種訊息服務平台。聊天機器人可基於資料庫中的知識與用戶進行聊天,通常是研發者把自己感興趣的回答放到資料庫中,當一個問題被拋給聊天機器人時,它從資料庫中找到最貼切的答案,回覆給它的聊伴。這種簡單的對話型聊天方式,用戶獲取訊息範圍較窄,逐漸退出市場。
隨著序列資料的神經網路在人工智能與翻譯交流領域的應用,聊天機器人可基於用戶所說的話作為模型的輸入,將模型的輸出的語句作為回覆來進行人機互動。但是這種方式的機器人回覆內容較為空洞,不具有信息量,並沒有實際內容的擴展,用戶實際體驗一般,在實際應用中受到限制。
有鑒於此,本申請提供一種人機對話方法、裝置、電子設備及電腦可讀媒體,能夠使得機器人在人機對話過程中產生具有信息量的回答,輔助用戶與外界訊息進行觀點交流。
本申請的其他特性和優點將透過下面的詳細描述變得清楚,或部分地透過本申請的實踐而瞭解。
根據本申請的一方面,提出一種人機對話方法,該方法包括:由用戶的輸入訊息中提取關鍵詞;根據所述關鍵詞確定候選文章;獲取所述候選文章中的多個句子,並確定所述多個句子中每一個句子的評分;以及基於評分結果由所述多個句子中提取部分句子生成返回訊息。
根據本申請的一方面,提出一種人機對話裝置,該裝置包括:關鍵詞模組,用於由用戶的輸入訊息中提取關鍵詞;文章模組,用於根據所述關鍵詞確定候選文章;評分模組,用於獲取所述候選文章中的多個句子,並確定所述多個句子中每一個句子的評分;以及返回訊息模組,用於基於評分結果由所述多個句子中提取部分句子生成返回訊息。
根據本申請的一方面,提出一種電子設備,該電子設備包括:一個或多個處理器;儲存裝置,用於儲存一個或多個程式,其中當一個或多個程式被一個或多個處理器執行,所述一個或多個處理器實現如上文的方法。
根據本申請的一方面,提出一種電腦可讀媒體,其上儲存有電腦程式,該程式被處理器執行時實現如上文中的方法。
根據本申請的人機對話方法、裝置、電子設備及電腦可讀媒體,能夠使得機器人在人機對話過程中產生具有信息量的回答,輔助用戶與外界訊息進行觀點交流。
應當理解的是,以上的一般描述和後文的細節描述僅是示例性的,並不能限制本申請。
現在將參考圖式更全面地描述示例實施例。然而,示例實施例能夠以多種形式實施,且不應被理解為限於在此闡述的實施例;相反,提供這些實施例使得本申請更全面和完整,並將示例實施例的構思全面地傳達給所屬技術領域具有通常知識者。在圖式中相同的元件標號表示相同或類似的部分,因而省略對它們的重覆描述。
此外,所描述的特徵、結構或特性可以以任何合適的方式結合在一個或更多實施例中。在下面的描述中,提供許多具體細節從而給出對本申請的實施例的充分理解。然而,所屬技術領域具有通常知識者將意識到,沒有特定細節中的一個或更多也可以實踐本申請的技術方案,或者可以採用其它的方法、組件、裝置、步驟等。在其它情況下,不詳細示出或描述習知的方法、裝置、實現或者操作以避免模糊本申請的重點。
圖式中所示的方塊圖僅僅是功能實體,不一定必須與物理上獨立的實體相對應。即,可以採用軟體形式來實現這些功能實體,或在一個或多個硬體模組或積體電路中實現這些功能實體,或在不同網路和/或處理器裝置和/或微控制器裝置中實現這些功能實體。
圖式中所示的流程圖僅是示例性說明,不需包括所有的內容和操作/步驟,也不需按所描述的順序執行。例如,有的操作/步驟還可以分解,而有的操作/步驟可以合併或部分合併,因此實際執行的順序有可能根據實際情況改變。
應理解,雖然本文中可能使用術語第一、第二、第三等來描述各種組件,但這些組件不應受這些術語限制。這些術語乃用以區分一個組件與另一個組件。因此,下文描述的第一組件可稱為第二組件而不偏離本申請概念的教示。如本文中所使用,術語“及/或”包括相關聯的列出項目中的任一個及一或多者的所有組合。
所屬技術領域具有通常知識者可以理解,圖式只是示例實施例的示意圖,圖式中的模組或流程並不一定是實施本申請所必須的,因此不能用於限制本申請的保護範圍。
目前常用於聊天機器人閒聊的技術有基於序列到序列神經網路模型(seq2seq)生成式方法。seq2seq神經網路模型是一種端到端(end-to-end)模型,能夠對序列進行處理,該模型以一個序列作為輸入,以另一個序列作為輸出,常用於機器翻譯和對話領域。而基於seq2seq神經網路模型的生成式方法:首先在大量對話訓練資料上訓練seq2seq模型,然後在用戶與聊天機器人閒聊時,直接將用戶所說的話作為該模型的輸入,然後將該模型的輸出作為對用戶的回覆。
採用基於seq2seq模型生成式方法的缺點是訓練seq2seq模型時需要大量的對話訓練資料,而這些資料由於範圍廣資料量大,使得seq2seq神經網路模型的訓練資料在實際生活中較難獲取。
採用基於seq2seq模型生成式方法的聊天機器人在閒聊時,對用戶的回答空洞,不具有信息量,沒有實際內容,在實際應用中受到限制。例如,當用戶想瞭解外界資訊或者和聊天機器人交流對一些事件觀點或看法的時候,該方法只能簡單地回覆或回避用戶問題,並不能正面回答用戶問題,更不能給出其他有信息量的建設性的觀點。
有鑑於此,本申請提出了一種人機對話方法,以期實現根據用戶的提問,在相關的文章中抽取關鍵句子作為自己的回覆,實現資訊、觀點或看法等的交流的目的。
下面將對本申請的內容進行詳細描述。
第1圖是根據一示例性實施例示出的一種人機對話方法及裝置的系統方塊圖。
如第1圖所示,系統架構100可以包括終端設備101、102、103,網路104和伺服器105。網路104為在終端設備101、102、103和伺服器105之間提供通訊鏈路的媒介。網路104可以包括各種連接類型,例如有線、無線通訊鏈路或者光纖電纜等等。
用戶可以使用終端設備101、102、103透過網路104與伺服器105互動,以接收或發送訊息等。終端設備101、102、103上可以安裝有各種通訊客戶端應用,例如購物類應用、網頁瀏覽器應用、搜索類應用、即時通訊工具、郵箱客戶端、社交平台軟體等。
終端設備101、102、103可以是具有顯示螢幕並且支持網頁瀏覽的各種電子設備,包括但不限於智慧型手機、智能型音箱、平板電腦、膝上型便攜電腦和台式電腦等等。
伺服器105可以是提供各種服務的伺服器,例如對用戶利用終端設備101、102、103所調用的聊天機器人提供後台資料支撐的伺服器。後台資料支撐的伺服器可以對接收到的用戶提問問題進行分析等處理,並將處理結果(例如返回訊息、返回語音等)反饋給終端設備。
終端設備101、102、103可從用戶的語音輸入訊息中提取關鍵詞;終端設備101、102、103還可從用戶的文字輸入訊息中提取關鍵詞。
終端設備101、102、103可從用戶的輸入訊息中提取關鍵詞;終端設備101、102、103可根據所述關鍵詞確定候選文章;終端設備101、102、103可獲取所述候選文章中的多個句子,並確定所述多個句子中每一個句子的評分;終端設備101、102、103可基於評分結果從所述多個句子中提取部分句子生成返回訊息。
終端設備101、102、103可將用戶的輸入訊息轉發至伺服器105中進行處理;伺服器105可從用戶的輸入訊息中提取關鍵詞;伺服器105可根據所述關鍵詞確定候選文章;伺服器105可獲取所述候選文章中的多個句子,並確定所述多個句子中每一個句子的評分;伺服器105可基於評分結果從所述多個句子中提取部分句子生成返回訊息;伺服器105可將所述返回訊息發送至終端設備101、102、103以便響應所述用戶的輸入訊息。
需要說明的是,本申請實施例所提供的人機對話方法可以由伺服器105和/或終端設備101、102、103執行,相應地,人機對話裝置可以設置於伺服器105和/或終端設備101、102、103中。而提供給用戶進行訊息輸入的請求端一般位於終端設備101、102、103中。
根據本申請的人機對話方法及裝置可以應用於聊天機器人相關產品中,如智慧型音箱、即時通訊軟體中的聊天機器人等,主要應用在用戶與聊天機器人閒聊的場景下。本申請的人機對話方法及裝置可以實現新聞概要播報、觀點交流等功能。
在一個應用場景中,瞭解新聞是用戶的常用需求,一般情況下播報完整的新聞會佔用較長時間,會使得用戶失去耐心,降低用戶體驗,這時播報新聞概要就顯得十分必要了。例如,當用戶想瞭解近期的熱點新聞時,可以對聊天機器人說“我想聽下最近的熱點新聞”,或“最近有什麼熱點新聞嗎”等其他表述,本申請的人機對話方法及裝置會從近期的公眾號或官方帳號文章中檢索出幾篇熱點新聞文章,並抽取文章中的幾個關鍵句子作為概要播報給用戶。或者,當用戶想瞭解具體方面如中美貿易戰的新聞時,可以對聊天機器人說“現在中美貿易戰局勢怎樣了”,本申請的人機對話方法及裝置會從所檢索出的該方面最相關的幾篇新聞中抽取關鍵句子,組成概要回覆給用戶。
第2圖是根據一示例性實施例示出的一種人機對話方法的應用場景圖。如第2圖所述的人機對話場景中,用戶可在即時聊天窗口中,或訊息互動平台上與聊天機器人進行對話,用戶可透過文字輸入問題,聊天機器人對用戶問題進行資料處理後,返回文字訊息和/或語音訊息作為用戶提問的響應。
閒聊時,用戶可能會向聊天機器人提出對事情的看法等觀點交流的問題,如“你對這次高考改革怎麼看”,本申請的人機對話方法及裝置根據用戶提問的訊息,搜索相關文章進而組成返回訊息以答覆用戶,用戶可從返回訊息中獲取到最近的高考政策及高考分數等。本申請的人機對話方法及裝置可以使聊天機器人像真人一樣進行直接回答,而不是簡單回覆“很好啊“等類似語句,或者回避用戶提問。針對用戶提出的問題,本申請的人機對話方法及裝置可透過在大量熱點文章中提取出高考改革評論文章,並從中提取出關鍵的評論句子,然後將關鍵評論句子組織成回覆訊息以作為機器人要表達的看法。
第3圖是根據一示例性實施例示出的一種人機對話方法的應用場景圖。如第3圖所述的人機對話場景中,用戶可透過語音輸入終端與聊天機器人進行對話,語音輸入終端可為智慧型音箱或者智慧型機器人等設備。用戶可透過語音提出問題,聊天機器人先將用戶的語音問題轉化為文字訊息,然後再進行資料處理後,返回文字和/或語音訊息作為用戶提問的響應。
再如當用戶問“XXXX這部電影怎樣”,本申請的人機對話方法及裝置可在電影訊息平台中提取相關文章中的關鍵評論句子,然後根據這些句子組成返回訊息以答覆用戶。用戶可以從返回訊息中獲取電影簡介或評價,而不會像基於seq2seq模型生成式方法那樣簡單地回覆“很好看啊”等類似回答。
根據本申請的人機對話方法及裝置,能夠解決習知技術中存在的技術缺陷,本申請的人機對話方法及裝置可以根據用戶的提問,在相關的文章中抽取關鍵句子作為自己的回覆,進而實現用戶觀點與外界資訊、觀點或看法等的交流。
第4圖是根據一示例性實施例示出的一種人機對話方法的流程圖。人機對話方法40至少包括步驟S402至S408。
如第4圖所示,在S402中,由用戶的輸入訊息中提取關鍵詞。可由用戶的語音輸入訊息中提取關鍵詞;或由用戶的文字輸入訊息中提取關鍵詞。
在一個實施例中,由用戶的文字輸入訊息中提取關鍵詞,具體可包括:將所述輸入訊息進行分詞處理,以獲取多個詞彙;確定多個詞彙的詞彙向量;透過餘弦相似度與詞彙向量確定多個詞彙之間的相似度;根據所述相似度確定多個詞彙的重要度;以及依據所述重要度排序確定所述關鍵詞。其中,關鍵詞的數量可為一個或多個,本申請不以此為限。關鍵詞提取的相關內容將在後文第5圖的實施例中進行詳細說明。
在一個實施例中,由用戶的語音輸入訊息中提取關鍵詞,具體可透過智慧型音箱、智慧型機器人或者其他帶有聲音接收功能的音頻設備接收用戶語音輸入的音頻訊息。在獲取音頻資料後對用戶的音頻訊息進行音頻識別,進而獲取用戶輸入訊息中的關鍵詞。還可將用戶的音頻訊息透過音頻識別轉化為文字訊息,進而根據如上實施例中的方法,提取文字訊息中的關鍵詞。
如第4圖所示,在S404中,根據所述關鍵詞確定候選文章。可根據所述關鍵詞在預定平台中進行檢索以確定所述候選文章。例如可由近期的公眾號或官方帳號文章中檢索出幾篇與關鍵詞相關的熱點新聞文章;還可在主流搜尋引擎中對關鍵詞進行搜索,根據檢索出的結果進行排序,根據排序由高至低由檢索結果中確定所述候選文章。其中,候選文章數量可為一個或多個,本申請不以此為限。
如第4圖所示,在S406中,獲取所述候選文章中的多個句子,並確定所述多個句子中每一個句子的評分。可包括:根據所述多個句子中每一個句子在所述文章中的重要度確定第一評分;根據所述多個句子中每一個句子與所述輸入訊息的相似性確定第二評分;根據所述第一評分與所述第二評分確定評分。
在一個實施例中,根據所述多個句子中每一個句子在所述文章中的重要度確定所述第一評分,句子的重要度可透過文本排序算法獲得,具體包括:確定所述多個句子中每一個句子的句子向量;確定所述多個句子的句子向量之間的相似度;基於所述相似度獲取每一個句子在所述文章中的重要度以確定所述第一評分。
在一個實施例中,文本排序算法可為Automatic Summarization(自動文摘算法)中的TextRank(文本抽取法)。TextRank透過把候選文章分割成複數個組成單元(單詞、句子)並建立圖模型,利用投票機制對候選文章中的重要成分進行排序,從而能夠僅利用候選文章本身的訊息對文檔中的每個句子的重要程度進行評分。透過TextRank算法確定句子在文章中的重要度的相關內容將在後文第7圖的實施例中進行詳細說明。
因為TextRank評分只體現對應句子在文章中的語義重要度,沒要考慮與用戶提問的相關性,所以不能直接根據該重要度抽取句子。為此,可用提問中關鍵詞的詞向量加權平均作為用戶提問的向量表示,用各句子向量與該向量之間的餘弦相似度作為句子與用戶提問的相似性的第二評分。
在一個實施例中,根據所述多個句子中每一個句子與所述輸入訊息的相似性確定所述第二評分包括:確定用戶輸入訊息的訊息向量;確定所述多個句子中每一個句子的句子向量;透過餘弦相似度確定訊息向量與每一個句子的句子向量之間的相似性;以及透過所述多個句子中每一個句子的相似性確定所述第二評分。候選文章中的句子與所述輸入訊息之間的相似度計算具體步驟與第7圖中的過程相似;將用戶輸入訊息也作為句子,在將第7圖中將候選文章句子與句子之間的相似性比較,替換為用戶輸入訊息與句子之間的相似性比較即可,本申請在此不再贅述。
在一個實施例中,根據所述第一評分與所述第二評分確定評分。可透過候選文章中,每個句子的重要度與相似性的加權和作為句子的最終評分並進行排序。例如,第一評分為A,第二評分為B,最終的評分C可表示為:
Figure 02_image001
其中,q為權重係數。值的一提的是,q的取值範圍為
Figure 02_image003
;在q取值為1,或0時,總的評分C可由第一評分為A或第二評分為B確定。
如第4圖所示,在S408中,基於評分結果由所述多個句子中提取部分句子生成返回訊息。可將所述多個句子按照評分結果進行排序;以及依序由所述多個句子中提取部分句子生成所述返回訊息。
在一個實施例中,依序由所述多個句子中提取部分句子生成所述返回訊息包括:對所述部分句子進行後處理以生成所述返回訊息。具體可將候選文章的句子進行評分排序(第一評分與第二評分),優選出評分最高的幾個句子組織成回覆,並進行自然語言處理如指代消解(coreference resolution)、摘要首句首部去連詞等,生成便於用戶閱讀理解的文字結果,然後將文字結果返回給用戶。
指代消解是自然語言處理的重要內容,就是在篇章中確定代詞指向哪個名詞短語的問題。在一個實施例中,指代消解首先要構造先行候選錄,然後再從候選中作多選一選擇。具體而言指代消解的方法包括:基於句法的指代消解,以及基於語料庫的方法,還有統計方法,統計機器學習方法等等,本申請中的指代消解過程可透過以上方法中的一種或幾種實現。
根據本申請的人機對話方法,透過檢索用戶問題相關文章,並在相關文章中提取部分語句,生成具有實質內容,包含信息量的返回訊息的方式,能夠使得機器人在人機對話過程中產生具有信息量的回答,輔助用戶與外界訊息進行觀點交流。
在非任務型對話(即閒聊)場景下,用戶向聊天機器人提問時,本申請的人機對話方法,首先透過檢索提取與用戶提問相關的幾篇候選文章,採用文本排序算法計算候選文章中各句子的重要度,再綜合考慮各句子與用戶提問的相關性生成候選文章中各句子的最終評分和排序,最後根據評分在候選文章中抽取幾個關鍵句子組織成摘要返回給用戶作為回答。根據以上內容的描述,本申請的人機對話方法,能夠提取相關文章中的關鍵句子使得聊天機器人的回覆內容包含一定訊息而不空洞。本申請的人機對話方法,在生成返回訊息時,綜合考慮句子在候選文章中的重要度和句子與用戶提問的相關性,能夠獲得既貼近用戶問題,又具有信息量的返回訊息。
應清楚地理解,本申請描述了如何形成和使用特定示例,但本申請的原理不限於這些示例的任何細節。相反,基於本申請公開內容的教導,這些原理能夠應用於許多其它實施例。
在本申請的一種示例性實施例中,還包括:透過詞向量訓練算法訓練文字資料獲取所述詞彙向量。其中,詞向量(Word embedding),是自然語言處理(NLP)中的一組語言建模和特徵學習技術的統稱,在本申請實施例中,詞向量作用就是將自然語言中的字詞轉為電腦可以理解的稠密向量。構建詞向量常用的模型為word2vec模型和GloVe(Global Vectors for word representation)模型。
其中,word2vec模型能訓練大量的語料,並且可以使單詞向量維度較低,能夠捕捉單詞之間的相似性,對單詞使用代數運算就能計算相似的單詞。GloVe模型是word2vec模型之後提出的詞向量訓練模型,GloVe模型word2vec模型的基礎上提出了根據語料中的一些統計訊息輔助進行詞向量構建的想法。也就是說,如果一個詞彙和哪個上下文詞彙在一起的多,那麼這個詞彙與這個上下文詞彙在一起要比與其他詞在一起意義要大,那麼在最終詞向量的確定過程中,會優先考慮這兩個詞彙之間的關聯關係。
基於以上的詞向量模型的特點分析,在本申請的一個實施例中,可透過GloVe算法對公共網路中的新聞資料或者文章資料進行訓練以獲取本申請中所用的詞彙的詞向量。在本申請的一個實施例中,還可透過習知技術中的其他詞向量構建算法獲取本申請中所用的詞彙的詞向量,本申請不以此為限。
第5圖是根據另一示例性實施例示出的一種人機對話方法的流程圖。如第5圖所示的人機對話方法50是對第4圖所示的人機對話方法40中“由用戶的輸入訊息中提取關鍵詞”的詳細描述。
如第5圖所述,在S502中,將所述輸入訊息進行分詞處理,以獲取多個詞彙。如上文所述,用戶輸入的訊息可為音頻或文字形式,當用戶輸入的訊息為音頻時,可先將音頻訊息轉化為文字,然後再進行本實施例中的分詞處理。
在一個實施例中,分詞處理可為對漢字進行中文分詞處理,中文分詞(Chinese Word Segmentation)指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。現有的分詞算法可分為三大類:基於字串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。按照是否與詞性標註過程相結合,又可以分為單純分詞方法和分詞與標註相結合的一體化方法。
在一個實施例中,基於字串匹配的分詞方法,是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字串,則匹配成功(識別出一個詞)。基於理解的分詞方法,是透過讓電腦模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法訊息和語義訊息來處理歧義現象。基於統計的分詞方法,對語料中相鄰共現(co-occurrence)的各個字的組合的頻度進行統計,計算它們的互現訊息。
當然,在用戶輸入的訊息為英文或其他語言訊息時,也可透過其他語言對應的分詞處理方法對用戶輸入訊息進行分詞處理,具體分詞處理的方法不影響本申請後續實施例的處理步驟。在本申請中,可透過以上多種分詞方法中的一種或幾種來對本申請中的輸入訊息進行分詞處理,本申請不以此為限。
在S504中,確定多個詞彙的詞彙向量。可透過GloVe算法對公共網路中的新聞資料或者文章資料進行訓練以獲取本申請中所用的詞彙的詞向量。
在一個實施例中,將透過訓練得到的詞向量為上文分詞處理之後得到的詞彙進行詞向量標註,生成詞彙向量集合。
在S506中,透過餘弦相似度與詞彙向量確定多個詞彙之間的相似度。可用詞向量間的餘弦相似度作為對應詞之間的相似度。餘弦相似度,是透過計算兩個向量的夾角餘弦值來評估他們的相似度。
在一個實施例中,可按照文章中詞彙出現的順序,將多個詞彙進行排序並編號,可由1號詞彙向量作為起始詞彙向量,分別比較1號詞彙向量與其他詞彙向量之間的相似度。在多次遍歷所有的詞彙向量,並將詞彙向量兩兩比較之後,確定他們之間的相似度。
在一個實施例中,將兩個詞彙向量根據其座標值,分別繪製到向量空間中,如最常見的二維空間。計算求得他們的夾角,並得出夾角對應的餘弦值,此餘弦值就可以用來表徵這兩個向量的相似性。例如兩個詞彙向量之間的夾角越小,他們之間的餘弦值越接近於1,則兩個詞彙向量越相似。
在S508中,根據所述相似度確定多個詞彙的重要度。可利用TextRank算法計算各詞的重要度。TextRank算法是利用局部詞彙之間關係(共現窗口)對後續關鍵詞進行排序,直接從文本本身抽取。其主要步驟可如下: (1)構建候選關鍵詞圖G=(V,E),其中V為節點集(詞彙向量集),然後採用共現關係(co-occurrence)構造任兩點之間的邊,即為兩個節點之間存在邊僅當它們對應的詞彙在長度為K的窗口中共現,K表示窗口大小,即最多共現K個單詞。 (2)根據如第7圖所述的步驟和公式,將節點之間邊的權重設置為詞彙向量之間的相似度,透過迭代傳播各節點的權重,直至收斂。具體步驟與方法請參考第7圖以及第7圖對應的實施例,本申請在此不再贅述。 (3)對節點權重進行倒序排序,從而得到最重要的T個詞彙向量,節點的權重即為詞彙向量的重要度。
在S510中,依據所述重要度排序確定所述關鍵詞。可按照重要度由高至低的選取一個或多個詞彙向量,這些詞彙向量對應的詞彙作為本實施例中的關鍵詞。
在一個實施例中,還可由得到最重要的N個單詞,在原始文本中進行標記,若形成相鄰詞組,則組合成多詞關鍵詞。例如,用戶輸入的訊息文本中有句子“我想知道今天的天氣預報”,如果“天氣”和“預報”均屬於候選關鍵詞,則可將“天氣預報”這一組合作為本申請中的關鍵詞。
本申請的人機對話方法,透過TextRank算法對用戶輸入的訊息進行處理,獲取用戶輸入訊息的關鍵詞的方式,能夠準確快速的提取出用戶輸入訊息的關鍵點,有利於後文中的訊息檢索處理。
第6圖是根據另一示例性實施例示出的一種人機對話方法的流程圖。如第6圖所示的人機對話方法60是對第4圖所示的人機對話方法40中“確定所述多個句子中每一個句子的評分”的詳細描述。
如第6圖所示,在S602中,獲取用戶輸入訊息與多個句子。在本實施例中,用戶輸入訊息為文字訊息,或者是將用戶的語音進行轉化得到的文字訊息。多個句子為上文中在待選文章中提取出的句子。
在S604中,確定所述多個句子中每一個句子的句子向量。可透過句子中所包含詞的詞向量來計算句子向量。句子向量可例如透過由句子中包含的詞向量的不同方式的組合得到。句子向量計算方法可包括:
神經詞袋模型(Bag-of-words Network),簡單對文本序列中每個詞嵌入進行平均,將所有的詞進行加總,並將加總之後的結果作為整個序列的表示。
遞歸神經網路模型(Recursive Neural Network),按照一個給定的外部拓撲結構(比如成分句法樹),不斷遞歸得到整個序列的表示。
循環神經網路(Recurrent Neural Network),將文本序列看作時間序列,不斷更新,最後得到整個序列的表示。
卷積神經網路(Convolutional Neural Network),透過多個卷積層和子採樣層,最終得到一個固定長度的向量。
在一個實施例中,本申請透過加權表示的神經詞袋模型,利用詞向量構建句子向量,本部分內容將在第7圖的實施例中進行詳細描述。
在S606中,確定所述多個句子的句子向量之間的相似度。可根據上文所述的方法確定句子向量之間的餘弦相似度,進而透過句子向量間的餘弦相似度作為句子間的語義相似度。
在S608中,基於所述相似度獲取每一個句子在所述文章中的重要度。可根據句子之間的相似度構建相似度矩陣,根據該相似度矩陣,以句子為點,對應的相似度作為邊的權重,構建圖模型。在圖模型的基礎上,PageRank的迭代方法,計算出每個句子的最終重要度。本部分內容將在第7圖的實施例中進行詳細描述。
在一個實施例中,可將重要度作為第一評分。
在S610中,確定用戶輸入訊息的訊息向量。可參照上文中句子向量的生成方式,將用戶輸入訊息作為句子,透過句子中所包含詞的詞向量來計算用戶輸入訊息的訊息向量。
在S612中,確定所述多個句子中每一個句子的句子向量。可參照上文中句子向量的生成方式,透過句子中所包含詞的詞向量來計算句子向量。
在S614中,透過餘弦相似度確定訊息向量與每一個句子的句子向量之間的相似性。可用詞向量間的餘弦相似度作為對應詞之間的相似度。餘弦相似度,是透過計算兩個向量的夾角餘弦值來評估他們的相似度的方法。
在一個實施例中,可將相似度作為第二評分。
在S616中,確定評分。綜合考慮第一評分與第二評分,例如第一評分為A,第二評分為B,最終的評分C可表示為:
Figure 02_image001
其中,q為權重係數。
本申請的人機對話方法,綜合考慮了句子在候選文章中的語義重要度以及用戶提問的內容與候選文章中句子的相關性,進而確定候選文章中句子評分的方式,能夠從多方面、多角度、綜合的對候選文章中的句子進行評分。
第7圖是根據另一示例性實施例示出的一種人機對話方法的流程圖。如第7圖所示的人機對話方法70是對第6圖所示的人機對話方法60中“確定所述多個句子中每一個句子的句子向量”與“基於所述相似度獲取每一個句子在所述文章中的重要度”的詳細描述。
如第7圖所示,在S702中,將句子進行分詞處理獲取多個詞彙。可透過上文所述的多種分詞方法中的一種或幾種來對本申請中的輸入訊息進行分詞處理,本申請不以此為限。
在S704中,確定多個詞彙的詞彙向量。可透過GloVe算法對公共網路中的新聞資料或者文章資料進行訓練以獲取本申請中所用的詞彙的詞向量。
在S706中,確定多個詞彙的詞頻-逆文檔頻率。可透過TF-IDF(term frequency–inverse document frequency)技術確定多個詞彙的詞頻-逆文檔頻率。其中,TF-IDF是一種用於訊息檢索與數據挖掘的常用加權技術。TF是詞頻(Term Frequency),IDF是逆文本頻率指數(Inverse Document Frequency)。
本申請考慮到在句子中每個詞的語義對句子的語義的影響程度不同,而每個詞向量的TF-IDF 值能反應該詞在句子中的重要程度,所以在本實施例中,採用TF-IDF對詞彙向量進行加權,用詞彙向量的加權平均作為句子向量。
在一個實施例中,詞向量的TF-IDF計算方式如下:
Figure 02_image006
Figure 02_image008
Figure 02_image010
透過以上的公式定義確定每一個詞彙向量在待選文章中的詞頻-逆文檔頻率。
在S708中,根據所述詞頻-逆文檔頻率與所述詞彙向量確定句子的句子向量。由於待選文章中句子中每個詞彙的語義對句子的語義的影響程度不同,而每個詞的TF-IDF值能反應該詞的重要程度,在本申請實施例中用TF-IDF
Figure 108129270-A0304-0001
對詞進行加權,用詞向量的加權平均作為句子向量,具體公式如下:
其中,
Figure 02_image014
表示句子s的句子向量,s表示待選文章中的某一個句子,w表示詞,
Figure 02_image016
表示詞w的詞向量,
Figure 02_image018
表示詞w的TF-IDF值。
在S710中,確定所述多個句子的句子向量之間的相似度。可用句子向量的餘弦相似度作為句子間的相似度。
在S712中,基於所述相似度構建相似度矩陣。若待選文章含n個句子,則構建一個
Figure 02_image020
的相似度矩陣,矩陣中元素aij(第i行第j列元素)的值為第i個句子和第j個句子間的相似度。
在S714中,將句子作為節點,將相似度作為邊的權重,基於所述相似度矩陣構建圖模型。
其中,所述相似度矩陣可例如為4*4的矩陣,點集合為(a1 ,a2 ,a3 ,a4 ),對應的邊集合為(a12 ,a13 ,……a34 ):
Figure 02_image022
基於此相似度矩陣所構建的圖模型具有4個節點,可分別為a1 ,a2 ,a3 ,a4 , a1 ,a2 ,a3 ,a4 之間對應的矩陣值作為節點間的邊的權重。由此,圖模型中,a1 ,a2 之間的邊a12 可記為0.3;a1 , a3 之間的邊a13 可記為0.5;a1 , a4 之間的邊a14 可記為0.1;以此類推可為圖模型中的每一個節點與節點之間的邊進行賦值,以構建圖模型。
在S716中,基於所述圖模型透過迭代獲取句子在所述文章中的重要度。可將句子向量之間的餘弦相似度作為句子間的相似度,進而迭代計算確定句子在文章中的重要度。
例如,可以透過下述公式計算句子之間的相似度,本申請不以此為限。
Figure 02_image024
其中,Si 代表的是第i個句子;Sj 代表的是第i個句子;wk 代表的是句子中第k個詞彙;
Figure 02_image026
Figure 02_image028
代表的是句子中詞彙的個數;
Figure 02_image030
代表著同時在Si 和Sj 中出現詞彙。
根據上述公式,對候選文章中的句子進行遍歷迭代計算,以確定句子在所述文章中的相似度。
對於本申請中的圖模型,即有向有權圖G =(V,E),由點集合V(句子)和邊集合E(相似度)組成,E是V×V的子集。圖中任兩點Vi,Vj之間邊的權重為wji ,對於一個給定的點Vi,In(Vi)為指向該點的點集合,Out(Vi)為點Vi指向的點集合。點Vi(句子)的重要度得分定義如下:
Figure 02_image032
其中,ws(Vi)代表的是Vi這個句子的重要度得分,ws(Vj)代表的是Vi句子的重要度得分;
d為阻尼係數,取值範圍為0到1,代表從圖中某一特定點指向其他任意點的概率,可根據經驗值進行設置,可取值為0.85;
Figure 02_image034
代表所有指向Vi(句子)點的點(句子)集合,
Figure 02_image036
代表所有Vi點(句子)指向的點(句子)集合;
wji 與wjk 為Vi,Vj與Vj,Vk的邊的權重。
使用TextRank 算法計算圖中各點的得分時,需要給圖中的點指定任意的初值,並遞歸計算直到收斂,在圖中任意一點的誤差率小於給定的預設值時就可以達到收斂。
在一個實施例中,在迭代計算的過程中,將每個句子的重要度初始化為1。在一個實施例中,判斷收斂的預設值取為0.0001。
本申請的人機對話方法,在抽取用戶輸入訊息的關鍵句子時考慮句子的語義。在傳統TextRank算法中,句子的相似度計算沒有考慮句子的語義,而本申請的人機對話方法用詞頻-逆文檔頻率(TF-IDF)作為詞的權重,用句子中所包含詞的詞向量的加權平均作為句子的向量表示,用該向量來計算句子的相似度。
值得一提的是,本申請中訓練詞向量時採用GloVe模型,此處也可以使用其他詞向量模型如連續詞袋模型CBOW、Skip-Gram等。
本申請中用詞向量的加權平均作為句子的向量表示,本申請的人機對話方法也可以採用其他的句子向量表示方法,如Skip-Thought等方法。
本申請中使用TextRank來計算文章中句子的重要度時,用到了句子向量間的餘弦相似度作為句子間的語義相似度。範數是一種強化了的距離概念,在定義上比距離多了一條數乘的運算法則。在數學上,範數包括向量範數和矩陣範數,向量範數表徵向量空間中向量的大小,矩陣範數表徵矩陣引起變化的大小。在實際使用中,也可以考慮採用向量間的L1或L2範數等其他距離度量來表示該相似度。
本領域技術人員可以理解實現上述實施例的全部或部分步驟被實現為由CPU 執行的電腦程式。在該電腦程式被CPU 執行時,執行本申請提供的上述方法所限定的上述功能。所述的程式可以儲存於一種電腦可讀儲存媒體中,該儲存媒體可以是唯讀儲存器,磁盤或光盤等。
此外,需要注意的是,上述圖式僅是根據本申請示例性實施例的方法所包括的處理的示意性說明,而不是限制目的。可以理解的,上述圖式所示的處理並不表明或限制這些處理的時間順序。另外,也可以理解的,這些處理可以是例如在多個模組中同步或異步執行的。
下述為本申請裝置實施例,可以用於執行本申請方法實施例。對於本申請裝置實施例中未披露的細節,請參照本申請方法實施例。
第8圖是根據一示例性實施例示出的一種人機對話裝置的方塊圖。人機對話裝置80包括:關鍵詞模組802,文章模組804,評分模組806,以及返回訊息模組808。
關鍵詞模組802用於由用戶的輸入訊息中提取關鍵詞;可由用戶的語音輸入訊息中提取關鍵詞;或由用戶的文字輸入訊息中提取關鍵詞。
文章模組804用於根據所述關鍵詞確定候選文章;可根據所述關鍵詞在預定平台中進行檢索以確定所述候選文章。具體可由近期的公眾號或官方帳號文章中檢索出幾篇於關鍵詞相關的熱點新聞文章;還可在主流搜尋引擎中對關鍵詞進行搜索,根據檢索出的結果進行排序,根據排序由高至低由檢索結果中確定所述候選文章。其中,候選文章數量可為一個或多個,本申請不以此為限。
評分模組806用於獲取所述候選文章中的多個句子,並確定所述多個句子中每一個句子的評分;可包括:根據所述多個句子中每一個句子在所述文章中的重要度確定第一評分;根據所述多個句子中每一個句子與所述輸入訊息的相似性確定第二評分;根據所述第一評分與所述第二評分確定評分。
返回訊息模組808用於基於評分結果由所述多個句子中提取部分句子生成返回訊息。可將所述多個句子按照評分結果進行排序;以及依序由所述多個句子中提取部分句子生成所述返回訊息。
根據本申請的人機對話裝置,透過檢索用戶問題相關文章,並在相關文章中提取部分語句,生成具有實質內容,包含信息量的返回訊息的方式,能夠使得機器人在人機對話過程中產生具有信息量的回答,輔助用戶與外界訊息進行觀點交流。
第9圖是根據另一示例性實施例示出的一種人機對話裝置的方塊圖。如第9圖所示的人機對話裝置90,在如第8圖所示的人機對話裝置80的基礎上還包括:詞向量訓練模組902。
詞向量訓練模組902用於透過詞向量訓練算法訓練文字資料獲取所述詞彙向量。在本申請的一個實施例中,可透過GloVe算法對公共網路中的新聞資料或者文章資料進行訓練以獲取本申請中所用的詞彙的詞向量。在本申請的一個實施例中,還可透過習知技術中的其他詞向量構建算法獲取本申請中所用的詞彙的詞向量,本申請不以此為限。
第10圖是根據一示例性實施例示出的一種電子設備的方塊圖。
下面參照第10圖來描述根據本申請的這種實施方式的電子設備1000。第10圖顯示的電子設備1000僅僅是一個示例,不應對本申請實施例的功能和使用範圍帶來任何限制。
如第10圖所示,電子設備1000以通用計算設備的形式表現。電子設備1000的組件可以包括但不限於:至少一個處理單元1010、至少一個儲存單元1020、連接不同系統組件(包括儲存單元1020和處理單元1010)的匯流排1030、顯示單元1040等。
其中,所述儲存單元儲存有程式碼,所述程式碼可以被所述處理單元1010執行,使得所述處理單元1010執行本說明書上述人機對話方法中描述的根據本申請各種示例性實施方式的步驟。例如,所述處理單元1010可以執行如第4圖,第5圖、第6圖以及第7圖中所示的步驟。
所述儲存單元1020可以包括揮發性儲存單元形式的可讀媒體,例如隨機存取記憶體(RAM)10201和/或高速緩存記憶體10202,還可以進一步包括唯讀記憶體(ROM)10203。
所述儲存單元1020還可以包括具有一組(至少一個)程式模組10205的程式/實用工具10204,這樣的程式模組10205包括但不限於:操作系統、一個或者多個應用程式、其它程式模組以及程式資料,這些示例中的每一個或某種組合中可能包括網路環境的實現。
匯流排1030可以為表示幾類匯流排結構中的一種或多種,包括儲存單元匯流排或者儲存單元控制器、週邊匯流排、圖形加速介面卡、處理單元或者使用多種匯流排結構中的任意匯流排結構的局域(Local)匯流排。
電子設備1000也可以與一個或多個外部設備1000’(例如鍵盤、指向設備、藍牙設備等)通訊,還可與一個或者多個使得用戶能與該電子設備1000互動的設備通訊,和/或與使得該電子設備1000能與一個或多個其它計算設備進行通訊的任何設備(例如路由器、調制解調器等等)通訊。這種通訊可以透過輸入/輸出(I/O)連接埠1050進行。並且,電子設備1000還可以透過網路適配器1060與一個或者多個網路(例如區域網路(LAN),廣域網路(WAN)和/或公共網路,例如網際網路)通訊。網路適配器1060可以透過匯流排1030與電子設備1000的其它模組通訊。應當明白,儘管圖中未示出,可以結合電子設備1000使用其它硬體和/或軟體模組,包括但不限於:微程式碼、設備驅動器、冗餘處理單元、外部磁碟驅動陣列、RAID系統、磁帶驅動器以及資料備份儲存系統等。
透過以上的實施方式的描述,所屬技術領域具有通常知識者可以理解,這裡描述的示例實施方式可以透過軟體實現,也可以透過軟體結合必要的硬體的方式來實現。因此,根據本申請實施方式的技術方案可以以軟體產品的形式體現出來,該軟體產品可以儲存在一個非揮發性儲存媒體(可以是CD-ROM,隨身碟,可攜式硬碟等)中或網路上,包括複數指令以使得一台計算設備(可以是個人電腦、伺服器、或者網路設備等)執行根據本申請實施方式的上述方法。
第11圖示意性示出本申請示例性實施例中一種電腦可讀儲存媒體示意圖。
參考第11圖所示,描述了根據本申請的實施方式的用於實現上述方法的程式產品1100,其可以採用唯讀記憶光碟(CD-ROM)並包括程式碼,並可以在終端設備,例如個人電腦上運行。然而,本申請的程式產品不限於此,在本文件中,可讀儲存媒體可以是任何包含或儲存程式的有形媒體,該程式可以被指令執行系統、裝置或者器件使用或者與其結合使用。
上述電腦可讀媒體承載有一個或者多個程式,當上述一個或者多個程式被一個該設備執行時,使得該電腦可讀媒體實現如下功能:由用戶的輸入訊息中提取關鍵詞;根據所述關鍵詞確定候選文章;獲取所述候選文章中的多個句子,並確定所述多個句子中每一個句子的評分;以及基於評分結果由所述多個句子中提取部分句子生成返回訊息。
所屬技術領域具有通常知識者可以理解上述各模組可以按照實施例的描述分佈於裝置中,也可以進行相應變化唯一不同於本實施例的一個或多個裝置中。上述實施例的模組可以合併為一個模組,也可以進一步拆分成多個子模組。
透過以上的實施例的描述,本領域的技術人員可以理解,這裡描述的示例實施例可以透過軟體實現,也可以透過軟體結合必要的硬體的方式來實現。因此,根據本申請實施例的技術方案可以以軟體產品的形式體現出來,該軟體產品可以儲存在一個非揮發性儲存媒體(可以是CD-ROM,隨身碟,可攜式硬碟等)中或網路上,包括複數指令以使得一台計算設備(可以是個人電腦、伺服器、移動終端、或者網路設備等)執行根據本申請實施例的方法。
以上具體地示出和描述了本申請的示例性實施例。可以理解的是,本申請不限於這裡描述的詳細結構、設置方式或實現方法;相反,本申請意圖涵蓋包含在申請專利範圍內的精神和範圍內的各種修改和等效設置。
40、50、60、70‧‧‧人機對話方法 80、90‧‧‧人機對話裝置 101~103‧‧‧終端設備 104‧‧‧網路 105‧‧‧伺服器 802‧‧‧關鍵詞模組 804‧‧‧文章模組 806‧‧‧評分模組 808‧‧‧返回訊息模組 902‧‧‧詞向量訓練模組 1000‧‧‧電子設備 1000’‧‧‧外部設備 1010‧‧‧處理單元 1020‧‧‧儲存單元 1030‧‧‧匯流排 1040‧‧‧顯示單元 1050‧‧‧I/O連接埠 1060‧‧‧網路適配器 1100‧‧‧程式產品 10201‧‧‧高速緩存記憶體 10202‧‧‧隨機存取記憶體 10203‧‧‧唯讀記憶體 10204‧‧‧程式/實用工具 10205‧‧‧程式模組 S402~S408‧‧‧步驟 S502~S510‧‧‧步驟 S602~S616‧‧‧步驟 S702~S716‧‧‧步驟
透過參照圖式詳細描述其示例實施例,本申請的上述和其它目標、特徵及優點將變得更加清楚。下面描述的圖式僅僅是本申請的一些實施例,對於所屬技術領域具有通常知識者來講,在不付出創造性勞動的前提下,還可以根據這些圖式獲得其他的圖式。 [第1圖]是根據一示例性實施例示出的一種人機對話方法及裝置的系統方塊圖。 [第2圖]是根據一示例性實施例示出的一種人機對話方法的應用場景圖。 [第3圖]是根據一示例性實施例示出的一種人機對話方法的應用場景圖。 [第4圖]是根據一示例性實施例示出的一種人機對話方法的流程圖。 [第5圖]是根據另一示例性實施例示出的一種人機對話方法的流程圖。 [第6圖]是根據另一示例性實施例示出的一種人機對話方法的流程圖。 [第7圖]是根據另一示例性實施例示出的一種人機對話方法的流程圖。 [第8圖]是根據一示例性實施例示出的一種人機對話裝置的方塊圖。 [第9圖]是根據另一示例性實施例示出的一種人機對話裝置的方塊圖。 [第10圖]是根據一示例性實施例示出的一種電子設備的方塊圖。 [第11圖]是根據一示例性實施例示出的一種電腦可讀儲存媒體示意圖。
S402~S408‧‧‧步驟

Claims (14)

  1. 一種人機對話方法,包括:由用戶的輸入訊息中提取關鍵詞;根據所述關鍵詞確定候選文章;獲取所述候選文章中的多個句子,並確定所述多個句子中每一個句子的評分;以及基於評分結果由所述多個句子中提取部分句子生成返回訊息,其中由用戶的輸入訊息中提取關鍵詞包括:將所述輸入訊息進行分詞處理,以獲取多個詞彙;確定多個詞彙的詞彙向量;透過餘弦相似度與詞彙向量確定多個詞彙之間的相似度;根據所述相似度確定多個詞彙的重要度;以及依據所述重要度排序確定所述關鍵詞。
  2. 如請求項1所述之方法,其中由用戶的輸入訊息中提取關鍵詞包括:由用戶的語音輸入訊息中提取關鍵詞;或由用戶的文字輸入訊息中提取關鍵詞。
  3. 如請求項1所述之方法,其中根據所述關鍵詞確定候選文章包括:根據所述關鍵詞在預定平台中進行檢索以確定所述候選文章。
  4. 如請求項1所述之方法,其中確定所述多個句子中每一個句子的評分包括:根據所述多個句子中每一個句子在所述文章中的重要度確定第一評分; 根據所述多個句子中每一個句子與所述輸入訊息的相似性確定第二評分;以及根據所述第一評分與所述第二評分確定評分。
  5. 如請求項4所述之方法,其中根據所述多個句子中每一個句子在所述文章中的重要度確定第一評分包括:確定所述多個句子中每一個句子的句子向量;確定所述多個句子的句子向量之間的相似度;以及基於所述相似度獲取每一個句子在所述文章中的重要度以確定所述第一評分。
  6. 如請求項5所述之方法,其中確定所述多個句子中每一個句子的句子向量包括:將句子進行分詞處理獲取多個詞彙;確定多個詞彙的詞彙向量;確定多個詞彙的詞頻-逆文檔頻率;以及根據所述詞頻-逆文檔頻率與所述詞彙向量確定句子的句子向量。
  7. 如請求項5所述之方法,其中基於所述相似度獲取每一個句子在所述文章中的重要度以確定第一評分包括:基於所述相似度構建相似度矩陣;將句子作為節點,將相似度作為邊的權重,基於所述相似度矩陣構建圖模型;基於所述圖模型透過迭代獲取句子在所述文章中的重要度;以及透過所述多個句子中每一個句子的重要度確定所述第一評分。
  8. 如請求項4所述之方法,其中根據所述多個句子中每一個句子與所述輸入訊息的相似性確定第二評分包括: 確定用戶輸入訊息的訊息向量;確定所述多個句子中每一個句子的句子向量;透過餘弦相似度確定訊息向量與每一個句子的句子向量之間的相似性;以及透過所述多個句子中每一個句子的相似性確定所述第二評分。
  9. 如請求項1所述之方法,其中基於評分結果由所述多個句子中提取部分句子生成返回訊息包括:將所述多個句子按照評分結果進行排序;以及依序由所述多個句子中提取部分句子生成所述返回訊息。
  10. 如請求項9所述之方法,其中依序由所述多個句子中提取部分句子生成所述返回訊息包括:對所述部分句子進行自然語言處理以生成所述返回訊息。
  11. 如請求項1或6所述之方法,還包括:透過詞向量訓練算法訓練文字資料獲取所述詞彙向量。
  12. 一種人機對話裝置,包括:關鍵詞模組,用於由用戶的輸入訊息中提取關鍵詞;文章模組,用於根據所述關鍵詞確定候選文章;評分模組,用於獲取所述候選文章中的多個句子,並確定所述多個句子中每一個句子的評分;以及返回訊息模組,用於基於評分結果由所述多個句子中提取部分句子生成返回訊息,其中所述關鍵詞模組用於:將所述輸入訊息進行分詞處理,以獲取多個詞彙;確定多個詞彙的詞彙向量; 透過餘弦相似度與詞彙向量確定多個詞彙之間的相似度;根據所述相似度確定多個詞彙的重要度;以及依據所述重要度排序確定所述關鍵詞。
  13. 一種電子設備,包括:一個或多個處理器;以及儲存裝置,用於儲存一個或多個程式,其中當所述一個或多個程式被所述一個或多個處理器執行,所述一個或多個處理器實現如請求項1至11中任一項所述的方法。
  14. 一種電腦可讀媒體,其上儲存有電腦程式,所述電腦程式被處理器執行時實現如請求項1至11中任一項所述的方法。
TW108129270A 2018-08-29 2019-08-16 人機對話方法、裝置、電子設備及電腦可讀媒體 TWI732271B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810995868.8 2018-08-29
CN201810995868.8A CN109284357B (zh) 2018-08-29 2018-08-29 人机对话方法、装置、电子设备及计算机可读介质

Publications (2)

Publication Number Publication Date
TW202009749A TW202009749A (zh) 2020-03-01
TWI732271B true TWI732271B (zh) 2021-07-01

Family

ID=65184174

Family Applications (1)

Application Number Title Priority Date Filing Date
TW108129270A TWI732271B (zh) 2018-08-29 2019-08-16 人機對話方法、裝置、電子設備及電腦可讀媒體

Country Status (4)

Country Link
US (1) US11775760B2 (zh)
CN (1) CN109284357B (zh)
TW (1) TWI732271B (zh)
WO (1) WO2020042925A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI802459B (zh) * 2022-07-01 2023-05-11 中華電信股份有限公司 基於資料增強推薦問答的系統及方法

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284357B (zh) * 2018-08-29 2022-07-19 腾讯科技(深圳)有限公司 人机对话方法、装置、电子设备及计算机可读介质
CN110188190B (zh) * 2019-04-03 2023-07-14 创新先进技术有限公司 对话解析方法、装置、服务器及可读存储介质
CN110334199A (zh) * 2019-07-09 2019-10-15 北京百度网讯科技有限公司 获得问题答案的方法和装置、电子设备、计算机可读介质
CN110334356B (zh) * 2019-07-15 2023-08-04 腾讯科技(深圳)有限公司 文章质量的确定方法、文章筛选方法、以及相应的装置
CN110414004B (zh) * 2019-07-31 2022-11-18 创新先进技术有限公司 一种核心信息提取的方法和系统
CN110674271B (zh) * 2019-08-27 2023-01-06 腾讯科技(深圳)有限公司 一种问答处理方法及装置
CN110910283A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 生成法律文书的方法、装置、设备和存储介质
US11610588B1 (en) * 2019-10-28 2023-03-21 Meta Platforms, Inc. Generating contextually relevant text transcripts of voice recordings within a message thread
CN111144546B (zh) * 2019-10-31 2024-01-02 平安创科科技(北京)有限公司 评分方法、装置、电子设备及存储介质
CN111177355B (zh) * 2019-12-30 2021-05-28 北京百度网讯科技有限公司 基于搜索数据的人机对话交互方法、装置和电子设备
CN111241242B (zh) * 2020-01-09 2023-05-30 北京百度网讯科技有限公司 目标内容的确定方法、装置、设备及计算机可读存储介质
CN111400450B (zh) * 2020-03-16 2023-02-03 腾讯科技(深圳)有限公司 人机对话方法、装置、设备及计算机可读存储介质
CN111476021B (zh) * 2020-04-07 2023-08-15 抖音视界有限公司 输出信息的方法、装置、电子设备和计算机可读介质
CN111881270B (zh) * 2020-07-01 2024-06-18 北京嘀嘀无限科技发展有限公司 一种智能对话方法和系统
CN111832305B (zh) * 2020-07-03 2023-08-25 北京小鹏汽车有限公司 一种用户意图识别方法、装置、服务器和介质
CN111898375B (zh) * 2020-07-30 2023-12-29 混沌时代(北京)教育科技有限公司 一种基于词向量句子链的文章论点论据自动检测划分方法
CN111931494B (zh) * 2020-08-10 2022-06-28 北京字节跳动网络技术有限公司 用于生成预测信息的方法、装置、电子设备和介质
TWI778404B (zh) * 2020-08-20 2022-09-21 國立高雄大學 程式自動生成系統
US11704497B2 (en) * 2020-09-09 2023-07-18 International Business Machines Corporation Generating and using a sentence model for answer generation
CN112017660B (zh) * 2020-10-30 2021-01-12 北京淇瑀信息科技有限公司 一种智能语音机器人的对话策略构建方法、装置及系统
CN112329422A (zh) * 2020-11-03 2021-02-05 中国平安人寿保险股份有限公司 基于TextRank的摘要获取方法、装置、计算机设备及存储介质
CN112380328B (zh) * 2020-11-11 2024-02-06 广州知图科技有限公司 一种安全应急响应机器人交互方法及系统
CN112559868B (zh) * 2020-12-17 2024-07-19 广州博冠信息科技有限公司 信息召回方法、装置、存储介质及电子设备
TWI806000B (zh) * 2021-02-03 2023-06-21 國立成功大學 基於複雜任務分析的對話方法及系統
CN112905765B (zh) * 2021-02-09 2024-06-18 联想(北京)有限公司 一种信息处理方法及装置
CN113033196B (zh) * 2021-03-19 2023-08-15 北京百度网讯科技有限公司 分词方法、装置、设备及存储介质
US11677692B2 (en) * 2021-09-15 2023-06-13 International Business Machines Corporation Conversational systems content related to external events
CN113869033A (zh) * 2021-09-24 2021-12-31 厦门大学 融入迭代式句对关系预测的图神经网络句子排序方法
CN114090747A (zh) * 2021-10-14 2022-02-25 特斯联科技集团有限公司 基于多重语义匹配的自动问答方法、装置、设备及介质
CN113886708A (zh) * 2021-10-26 2022-01-04 平安银行股份有限公司 基于用户信息的产品推荐方法、装置、设备及存储介质
CN114462384B (zh) * 2022-04-12 2022-07-12 北京大学 一种面向数字对象建模的元数据自动生成装置
CN115470329A (zh) * 2022-08-22 2022-12-13 北京字跳网络技术有限公司 一种对话生成方法、装置、计算机设备及存储介质
CN116628142B (zh) * 2023-07-26 2023-12-01 科大讯飞股份有限公司 知识检索方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW420778B (en) * 1998-05-18 2001-02-01 Inst Information Industry An information retrieval system realized by fuzzy neutral network model
CN105159996A (zh) * 2015-09-07 2015-12-16 百度在线网络技术(北京)有限公司 基于人工智能的深度问答服务提供方法和装置
CN107066633A (zh) * 2017-06-15 2017-08-18 厦门创材健康科技有限公司 基于人机互动的深度学习方法和装置
CN107562774A (zh) * 2017-07-13 2018-01-09 同济大学 小语种词嵌入模型的生成方法、系统及问答方法和系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719129A (zh) * 2009-12-31 2010-06-02 浙江大学 一种采用人工智能技术自动提取关键字的方法
CN102760128A (zh) * 2011-04-26 2012-10-31 华东师范大学 一种基于智能客服机器人交互的电信领域套餐推荐方法
FR3017474A1 (fr) * 2014-02-10 2015-08-14 Commissariat Energie Atomique Saisie assistee de regles dans une base de connaissance
US9317498B2 (en) * 2014-05-23 2016-04-19 Codeq Llc Systems and methods for generating summaries of documents
WO2016121048A1 (ja) * 2015-01-29 2016-08-04 株式会社日立製作所 文章生成装置及び方法
CN105243152B (zh) * 2015-10-26 2018-08-24 同济大学 一种基于图模型的自动文摘方法
CN105653704B (zh) * 2015-12-31 2018-10-12 南京财经大学 自动摘要生成方法及装置
CN105653738B (zh) 2016-03-01 2020-05-22 北京百度网讯科技有限公司 基于人工智能的搜索结果播报方法和装置
US10360265B1 (en) * 2016-08-29 2019-07-23 A9.Com, Inc. Using a voice communications device to answer unstructured questions
CN106446109A (zh) * 2016-09-14 2017-02-22 科大讯飞股份有限公司 语音文件摘要的获取方法和装置
CN107862004A (zh) * 2017-10-24 2018-03-30 科大讯飞股份有限公司 智能排序方法及装置、存储介质、电子设备
CN109284357B (zh) * 2018-08-29 2022-07-19 腾讯科技(深圳)有限公司 人机对话方法、装置、电子设备及计算机可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW420778B (en) * 1998-05-18 2001-02-01 Inst Information Industry An information retrieval system realized by fuzzy neutral network model
CN105159996A (zh) * 2015-09-07 2015-12-16 百度在线网络技术(北京)有限公司 基于人工智能的深度问答服务提供方法和装置
CN107066633A (zh) * 2017-06-15 2017-08-18 厦门创材健康科技有限公司 基于人机互动的深度学习方法和装置
CN107562774A (zh) * 2017-07-13 2018-01-09 同济大学 小语种词嵌入模型的生成方法、系统及问答方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI802459B (zh) * 2022-07-01 2023-05-11 中華電信股份有限公司 基於資料增強推薦問答的系統及方法

Also Published As

Publication number Publication date
US11775760B2 (en) 2023-10-03
CN109284357B (zh) 2022-07-19
US20200401765A1 (en) 2020-12-24
TW202009749A (zh) 2020-03-01
CN109284357A (zh) 2019-01-29
WO2020042925A1 (zh) 2020-03-05

Similar Documents

Publication Publication Date Title
TWI732271B (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
US10176804B2 (en) Analyzing textual data
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
US9373086B1 (en) Crowdsource reasoning process to facilitate question answering
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN109313650B (zh) 在自动聊天中生成响应
WO2017084267A1 (zh) 一种关键词提取方法和装置
CN108538286A (zh) 一种语音识别的方法以及计算机
US20130060769A1 (en) System and method for identifying social media interactions
CN111460132B (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN104933081A (zh) 一种搜索建议提供方法及装置
Lavanya et al. Twitter sentiment analysis using multi-class SVM
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN112818113A (zh) 一种基于异构图网络的文本自动摘要方法
WO2020052061A1 (zh) 用于处理信息的方法和装置
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN113407697A (zh) 深度百科学习的中文医疗问句分类系统
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
Alshammari et al. TAQS: an Arabic question similarity system using transfer learning of BERT with BILSTM
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
CN112182159A (zh) 一种基于语义表示的个性化检索式对话方法和系统
CN116186220A (zh) 信息检索方法、问答处理方法、信息检索装置及系统
Agrawal et al. Comparative analysis of NLP models for Google Meet Transcript summarization
Ma et al. Hybrid answer selection model for non-factoid question answering