TW201935279A

TW201935279A - 資料處理方法、裝置及電子設備

Info

Publication number: TW201935279A
Application number: TW107127416A
Authority: TW
Inventors: 李生; 吳晨; 夏江南
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2017-10-10
Filing date: 2018-08-07
Publication date: 2019-09-01
Also published as: US20190108273A1; WO2019074975A2; WO2019074975A3; CN110020010A

Abstract

本發明實施例提供了一種資料處理方法、裝置及電子設備，其中方法包括：獲取針對應用環境的問題；將所述問題分別輸入到多個不同類型的問答模型中進行處理，生成與各個模型對應的中間答案；基於預設的答案輸出策略，對各個模型生成的中間答案進行處理，生成最終答案並進行輸出。本發明實施例通過綜合利用知識圖譜模型、FAQ模型以及機器閱讀理解模型中的任意多個模型來生成答案，實現了多種模型的優勢互補，克服了由單一模型導致的片面性和誤差，提升了答案的準確率及全面性。

Description

資料處理方法、裝置及電子設備

本發明實施例關於一種資料處理方法、裝置及電子設備，屬於電腦技術領域。

在目前的自動問答技術中，較常見的是FAQ（Frequently Asked Question，常見問題解答）技術，其通過問答對的檢索方式，獲取同目標問題相似的候選問題，並將候選問題的答案作為目標問題的答案進行輸出。對於問答對的檢索方式而言，一方面問答對需要人工進行提煉和歸納總結，非常繁瑣，例如需要將新聞、百科、業務文件中的提問點進行逐個羅列，接著人工編寫回答；另一方面人工往往只能列舉高頻問題，對長尾問答對無法很好覆蓋。　　隨著知識庫的興起和結構化查詢技術的推出，基於知識圖譜的問答檢索方式也逐漸應用到自動問答技術中。基於知識圖譜而自動構建的問答，首先需要進行一整套知識工程方法，例如包括實體檢測、實體連結、屬性填充等，從文字中構建出結構化的知識圖譜，並在知識圖譜基礎上進行問答，整個過程較為繁瑣。　　近年來，隨著深度學習在NLP（Nature Language Processing，自然語言處理）的應用，機器閱讀理解同樣作為自動問答技術的一種技術被逐步採用。機器閱讀理解在一定程度降低了前期的人工提取或整理工作，借助端到端的訓練也降低了多階段處理引入的誤差，但對於用於回答問題的篇章定位，及長篇章帶來的性能影響也會大大降低準確率。　　綜上所述，現有技術中，上述三種自動問答技術均有各自的優缺點，無法滿足日益複雜的自動問答環境的需求。

本發明實施例提供了一種資料處理方法、裝置及電子設備，有效結合多個自動問答模型的特點，實現優勢互補，以應對複雜的自動問答環境。　　為達到上述目的，本發明的實施例採用如下技術方案：　　第一態樣，提供了一種資料處理方法，包括：　　獲取針對應用環境的問題；　　將所述問題分別輸入到多個不同類型的問答模型中進行處理，生成與各個模型對應的中間答案，其中所述多個不同類型的問答模型分別具有符合各自資料形式的模型資料，所述模型資料為結構化資料、半結構化資料以及非結構化資料中的任意多個；　　基於預設的答案輸出策略，對各個模型生成的中間答案進行處理，生成最終答案並進行輸出。　　第二態樣，提供了一種資料處理方法，包括：　　獲取所述應用環境中的第一文字資料，並對所述第一文字資料進行分類處理，提取出結構化資料、半結構化資料以及非結構化資料中的任意多個資料；　　將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。　　第三態樣，提供了一種資料處理裝置，包括：　　問題獲取模組，用於獲取針對應用環境的問題；　　模型處理模組，用於將所述問題分別輸入到多個不同類型的問答模型中進行處理，生成與各個模型對應的中間答案，其中所述多個不同類型的問答模型分別具有符合各自資料形式的模型資料，所述模型資料來自於對所述應用環境的第一文字資料的提取和加工，所述模型資料為結構化資料、半結構化資料以及非結構化資料中的任意多個；答案輸出模組，用於基於預設的答案輸出策略，對各個模型生成的中間答案進行處理，生成最終答案並進行輸出。　　第四態樣，提供了一種資料處理裝置，包括：　　環境文字獲取模組，用於獲取所述應用環境中的第一文字資料，並對所述第一文字資料進行分類處理，提取出結構化資料、半結構化資料以及非結構化資料中的任意多個資料；　　模型資料生成模組，用於將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。　　第五態樣，提供了一種電子設備，包括：　　記憶體，用於儲存程式；　　處理器，耦接至所述記憶體，用於執行所述程式，以用於：　　獲取針對應用環境的問題；　　將所述問題分別輸入到多個不同類型的問答模型中進行處理，生成與各個模型對應的中間答案，其中所述多個不同類型的問答模型分別具有符合各自資料形式的模型資料，所述模型資料為結構化資料、半結構化資料以及非結構化資料中的任意多個；　　基於預設的答案輸出策略，對各個模型生成的中間答案進行處理，生成最終答案並進行輸出。　　第六態樣，提供了一種電子設備，包括：　　記憶體，用於儲存程式；　　處理器，耦接至所述記憶體，用於執行所述程式，以用於：　　獲取所述應用環境中的第一文字資料，並對所述第一文字資料進行分類處理，提取出結構化資料、半結構化資料以及非結構化資料中的任意多個資料；　　將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。　　本發明實施例的資料處理方法、裝置及電子設備，通過綜合利用多個問答模型來生成答案，實現了多種模型的優勢互補，克服了由單一模型導致的片面性和誤差，提升了答案的準確率及全面性上。　　上述說明僅是本發明技術方案的概述，為了能夠更清楚瞭解本發明的技術手段，而可依照說明書的內容予以實施，並且為了讓本發明的上述和其它目的、特徵和優點能夠更明顯易懂，以下特舉本發明的具體實施方式。

下面將參照附圖更詳細地描述本揭露的示例性實施例。雖然附圖中顯示了本揭露的示例性實施例，然而應當理解，可以以各種形式實現本揭露而不應被這裡闡述的實施例所限制。相反，提供這些實施例是為了能夠更透徹地理解本揭露，並且能夠將本揭露的範圍完整的傳達給本領域的技術人員。　　術語解釋：　　FAQ：Frequently Asked Question 常見問題解答　　自動問答技術：自動問答是自然語言處理領域的一個重要方向，意於讓用戶直接用自然語言提問並獲得答案。　　機器閱讀理解：一種自動問答技術，意於讓機器閱讀文字，在理解文字內在含義的基礎上進行自動問答。　　知識圖譜：由知識點相互連接而成的語義網路，常用來進行知識推理和自動問答。　　本發明實施例的技術原理在於將知識圖譜模型、FAQ模型以及機器閱讀理解模型進行有機結合，使各個模型分別處理能發揮其優勢的結構化資料、半結構化資料以及非結構化資料，並通過一定的策略對各個模型輸出的中間答案進行篩選或者評估，選擇出較為較佳的中間答案進行輸出，使得各個模型之間構成優勢互補，從而能夠應對更加複雜的應用環境，也提升了答案的準確率及全面性。　　如圖1所示，其為本發明實施例的資料處理系統的結構示意圖。該系統作為實際的一個示例，其包括雲端的伺服器以及第一終端和第二終端。自動問答的資料處理部分可以設置於雲端的伺服器中，該伺服器與第一終端和第二終端對接，其中第一終端用於向伺服器輸入問題，第二終端用於向伺服器中輸入與應用環境相關的第一文字資料，當然在實際應用中，第一終端和第二終端也可以是同一終端。這裡所說的應用環境是指一個自動問答所針對的資訊範疇，例如應用環境可以一次大會，其中該大會的資料關於大會的議程、參與人員、大會內容等資訊，再例如，應用環境可以是某個歷史古跡的相關資訊等，針對這樣的應用環境來構建自動問答的資料處理系統，從而服務於針對這些應用環境進行提問的用戶。當然，上述的應用環境也可以關於更廣的資訊範圍，相應地，在構建該資料處理系統的過程中，輸入更多的與應用環境相關的第一文字資料即可。　　在伺服器中，資料處理系統包括兩態樣的資料處理功能，具體如下：　　第一態樣：模型資料的準備工作（圖中從下向上的資料過程）　　第二終端向雲端的伺服器輸入與應用環境相關的第一文字資料，伺服器中的資料處理系統對應用環境中的第一文字資料進行分類處理，提取出結構化資料、半結構化資料以及非結構化資料。　　接著，將上述三類資料分別按照適合的問答模型的資料形式要求進行加工，在本發明實施例中，具體可以分配到知識圖譜模型，FAQ模型和機器閱讀理解模型中進行加工處理，生成與各個模型的模型資料，這些模型資料會儲存在於各個模型對應的資料庫中。這些模型資料就是支援後續自動問答的資料基礎。　　第二態樣：針對輸入的問題生成答案（圖中從上向下的過程）　　用戶通過第一終端向雲端的伺服器輸入與應用場景相關的問題。伺服器中的資料處理系統將輸入的問題進行標準化處理後，分別輸入到上述的適合處理結構化資料、半結構化資料以及非結構化資料的問答模型中，在本發明實施例中可以輸入到知識圖譜模型，FAQ模型和機器閱讀理解模型這三類模型中。這裡所說的標準化處理是指不影響語義情況下的一種文字過濾處理，例如將輸入問題的文字進行去空格，繁體變簡體、英文大小寫改變、去掉無意義字元等，使之具有統一規範的格式，能夠適應上述三類模型中。　　接著，上述三類模型分別對輸入的問題進行問題搜索和處理，輸出各自的答案，在本發明實施例中，將各個模型輸出的答案稱為中間答案。資料處理系統根據預設的答案輸出策略，對獲得各個模型輸出的中間答案進行篩選、評估或者融合等處理，以獲得最終答案，並通過第一終端提供給用戶。上面提到的預設的答案輸出策略可以採用如下三種策略：　　貪心策略：所有模型輸出的答案全部作為最終答案輸出。　　最優策略：對各個模型輸出的答案進行基於可信度的評分，輸出分數最高的答案。　　集成策略：選擇返回答案的文字中覆蓋率最高的部分，作為最終的答案輸出，也就是說將各個答案中，重複率最高的部分（相互內容重疊度最高的內容）提取出來形成最終答案。　　通過上述的三種策略，可以根據不同的需要來提供符合用戶需求的最終答案。　　通過本實施例的資料處理系統，綜合利用了知識圖譜模型、FAQ模型以及機器閱讀理解模型來分別基於結構化資料、半結構化資料以及非結構化資料進行針對自動問答的資料處理，充分發揮了各個模型的針對不同類型的資料上的處理優勢，獲取到各個模型產生的中間答案，接著再根據預設的策略，對各個中間答案進行篩選、評估或者融合等處理，從而獲得更為較佳的最終答案進行輸出。這樣的處理系統，克服了現有技術中由單一模型導致的片面性和誤差，提升了答案的準確率及全面性上。　　需要說明的是，在本發明的實施例中，也可以採用知識圖譜模型、FAQ模型以及機器閱讀理解模型中的任意兩個模型來進行綜合處理，其效果相對現有技術而言也是具有積極的技術效果的。為了便於說明，在後續的實施例中，更多是以同時採用三個模型為例對本發明的技術方案進行說明。　　實施例一　　如圖2所示，其為本發明實施例的資料處理方法的流程圖之一，圖中所示的資料處理方法主要關於前面提到的模型資料的準備工作，其包括：　　S101：獲取應用環境中的第一文字資料，並對第一文字資料進行分類處理，提取出結構化資料、半結構化資料以及非結構化資料中的任意多個資料。　　如前面所介紹的，這裡應用環境實際上是一種資訊範疇，自動問答技術往往會針對一個具體的應用環境進行配置和資料處理。以大會的會議手冊這樣的第一文字資料為例，其中的表格類資料（如大會議程等表格）為結構化資料。會議手冊中的常見問題解答（FAQ）為半結構化資料，FAQ資料表現為問題和答案的問題/答案對的形式，問題和答案均由自然語言描述。會議手冊中的描述性文字（如大會簡介、來賓簡介等）為非結構化資料。　　在這樣的應用場景中，會議手冊作為應用環境的第一文字資料登錄，接著將會議手冊中的內容進行分類提取，形成上述的結構化資料、半結構化資料以及非結構化資料。　　再例如，在博物館、藝術館以及旅遊區等場景，參觀遊客通常對場館本身、藝術品以及旅遊區的歷史文化等產生許多問題。在針對博物館、藝術館以及旅遊區這類資訊中，有部分歷史積累的常見問題，例如，門票多少錢、如何購買門票、開關門時間等，這些屬於FAQ資料。同時有很多結構化資訊，例如藝術品本身的名稱、年代、作者等，古建築物的名稱、建造年代等，這些屬於結構化資料。此外，還會搭配描述性文字，例如場館整體介紹、旅遊區的歷史等，這些屬於非結構化資料。　　針對博物館、藝術館以及旅遊區等綜合性場景，也可以借助本發明實施例的混合模型，可將以上三類資料進行統一加工處理，並綜合三種問答模型為遊客提供自動問答服務。　　S102：將結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工，在本實施例中，具體可以將上述的任意多個資料按照知識圖譜模型，FAQ模型以及機器閱讀理解模型中的任意多個模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。　　其中，對於不同類型的資料，三種模型會進行不同的加工處理，具體如下：　　1）針對結構化資料，按照知識圖譜模型的資料形式要求可以進行如下處理：　　將結構化資料加工為基於三元組格式構建的知識庫以及基於屬性建立實體間關係而形成的圖譜結構。這裡的三元組是指實體、屬性以及屬性值，圖譜結構相當於知識庫的索引。通過構建以知識庫為基礎配合圖譜結構的模型資料，在後續的針對問題的搜索時，能夠快速查找到相應的知識點（也就是上述的三元組中的實體）。　　2）針對半結構化資料，按照FAQ模型的資料形式要求可以進行如下處理：　　對半結構化資料中的答案進行文字聚類，獲取半結構化資料中問題的多種表達方式，並基於該問題構建倒排索引，生成具有基於問題構建的倒排索引的問題/答案對。在後續的應用中，可以基於輸入問題利用該倒排索引，確定出與該問題相關的全部答案。　　3）針對非結構化資料，按照機器閱讀理解模型的資料形式要求可以進行如下處理：　　按照主題和/或段落將非結構化資料劃分為多個第二文字資料，並按照主題和/或段落建立索引。通過事先將非結構化資料（例如長篇幅的說明描述性文字）劃分為多個小的文字部分（也就是上述的第二文字資料），這樣在後續針對問題的搜索時，可以先通過主題和/或段落索引，先將答案的範圍縮小到第二文字資料，接著再通過機器閱讀理解來進一步獲取精確的答案，這樣處理能夠明顯提高答案生成效率。　　通過本實施例的資料處理方法，將應用環境中的第一文字資料按照結構化資料、半結構化資料以及非結構化資料進行分類提取，接著按照知識圖譜模型，FAQ模型以及機器閱讀理解模型的資料形式要求進行了預處理，為後續的基於綜合這三種模型的自動問答處理提供了資料基礎。　　實施例二　　如圖3所示，其為本發明實施例的資料處理方法的流程圖之二，圖中所示的資料處理方法主要關於用戶輸入問題後的資料處理過程，該方法可以是基於上述實施例一所構建的模型資料的基礎上進行自動問答的資料處理，該處理過程具體包括：　　S201：獲取針對應用環境的問題。仍然以大會為例，針對一次大會，其中會關於大量的用戶對大會內容及大會周邊相關進行諮詢。例如“大會如何購票？”、“某個演講人的演講主題是什麼？”、“阿裡雲在國內有幾個資料中心？”（例如該大會的內容是關於雲技術的會議）等等。　　在獲取到問題之後，還可以對問題進行標準化處理，使得問題能夠適應知識圖譜模型、FAQ模型以及機器閱讀理解模型中任意多個模型的輸入格式要求。　　S202：將問題分別輸入到多個不同類型的問答模型中進行處理，生成與各個模型對應的中間答案，其中多個不同類型的問答模型分別具有符合各自資料形式的模型資料，模型資料可以如實施例一所介紹的，來自於對應用環境的第一文字資料的提取和加工。上述的模型資料可以為結構化資料、半結構化資料以及非結構化資料中的任意多個。　　在本實施例中，上述的多個不同類型的問答模型可以具體為知識圖譜模型、FAQ模型以及機器閱讀理解模型中的任意多個，知識圖譜模型的模型資料為結構化資料， FAQ模型的模型資料為半結構化資料，機器閱讀理解模型的模型資料為非結構化資料。　　用戶所詢問的問題的答案一般都在前面提到的會議手冊，自動問答技術的應用在於能夠自動高效地找到答案並且輸出給用戶。基於實施例一中針對會議手冊中的內容所進行的分類加工處理，在本實施例中，可以利用不同資料模型的優勢，獲取到更加準確的答案。　　例如，“大會如何購票？” 這個問題的答案一般會存在會議手冊的FAQ中，因此，FAQ模型輸出的答案會更加準確；針對“某個演講人的演講主題是什麼？”這樣的問題，由於各個演講人以及演講主題都會以會議議程的形式儲存於表格中，因此，該部分內容會由知識圖譜覆蓋，所以，基於知識圖譜模型輸出的答案會更加準確；而“阿裡雲在國內有幾個資料中心？”這樣的問題，其答案一般會記錄在會議手冊中的詳細說明中，例如會存在於會議手冊中對於阿裡雲的詳細介紹中，針對這樣的問題，機器閱讀理解模型輸出的答案會更加準確。　　需要說明的是，上述每個模型都可能會存在答案，並且都可能會輸出答案，只不過由於對於不同的問題，可能只有部分模型輸出的答案更加準確，可信度更高。在本發明實施例中，初始輸入的問題會被輸入到各個模型中，接著在匯總各個模型輸出的中間答案後，再確定最終輸出的答案。　　具體地，各個模型基於輸入問題而產生中間答案的處理可以採用如下幾種方式： 1）知識圖譜模型的處理過程　　如前面所說明的，知識圖譜模型的模型資料包括基於三元組格式構建的知識庫以及基於屬性建立實體間關係而形成的圖譜結構。相應地，其產生中間答案的處理過程如下：　　將對問題進行結構化處理，抽取出實體或屬性資訊，輸入到知識圖譜模型中的問題結構化的搜尋引擎進行搜索，獲取與實體對應的屬性或與屬性資訊對應的屬性值，並確定與該屬性或該屬性值對應的知識點作為該知識圖譜模型輸出的中間答案。 2）FAQ模型的處理過程　　如前面所說明的，FAQ模型的模型資料包括具有基於問題構建的倒排索引的問題/答案對。相應地，其產生中間答案的處理過程如下：　　將問題輸入到FAQ模型進行處理，生成基於FAQ模型的答案包括：將問題輸入到FAQ模型中的FAQ問題搜尋引擎進行答案搜索，生成相似問題的答案排序，選擇排名最高的相似問題的答案作為該FAQ模型輸出的中間答案。 3）機器閱讀理解模型的處理過程　　如前面所說明的，機器閱讀理解模型的模型資料包括具有按照主題和/或段落進行索引的多個第二文字資料。相應地，其產生中間答案的處理過程如下：　　將問題輸入到機器閱讀理解模型中的文件搜尋引擎進行搜索，通過主題和/或分段的索引確定與問題相關的第二文字資料，接著將問題作為機器閱讀理解處理的輸入，對該第二文字資料執行機器閱讀處理，生成該機器閱讀理解模型輸出的中間答案。　　S203：基於預設的答案輸出策略，對各個模型生成的中間答案進行處理，生成最終答案並進行輸出。如前面所提到的，答案輸出策略可以採用如下三種策略任意一種或者多種：　　貪心策略：將各個模型生成的多個中間答案直接作為最終答案輸出，這樣的輸出策略能夠給用戶提供豐富和全面的答案。　　最優策略：對各個模型生成的中間答案進行基於可信度的打分，選擇分數最高的中間答案作為最終答案進行輸出，這樣的輸出策略能夠給用戶提供準確率較高的答案，減少冗餘資訊。　　集成策略：對各個模型生成的中間答案的文字內容進行覆蓋率分析，選擇覆蓋率最高的文字內容作為最終答案進行輸出。這樣的輸出策略能夠最大限度的綜合利用各個模型輸出的中間答案。　　通過本實施例的資料處理方法，綜合利用了知識圖譜模型、FAQ模型以及機器閱讀理解模型中的任意多個模型來生成答案，實現了多種模型的優勢互補，最後再通過答案輸出的預設策略，對各個模型輸出的答案進行篩選、評估或者融合等處理，從而獲得更為較佳的最終答案進行輸出，從而克服了現有技術中由單一模型導致的片面性和誤差，提升了答案的準確率及全面性上。　　實施例三　　如圖4所示，其為本發明實施例的資料處理裝置的結構示意圖之一，本實施例的裝置關於模型資料的準備工作的處理，其包括：　　環境文字獲取模組41，用於獲取應用環境中的第一文字資料，並對第一文字資料進行分類處理，提取出結構化資料、半結構化資料以及非結構化資料中的任意多個資料；　　模型資料生成模組42，用於將結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。具體可以為將結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照知識圖譜模型，FAQ模型以及機器閱讀理解模型中的任意多個模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。　　關於本實施例的資料處理裝置所關於的各個功能模組的詳細功能說明以及技術效果等內容在前述實施例中已經進行了充分描述，其內容仍然適用於本實施例，在此不再贅述。　　實施例四　　如圖5所示，其為本發明實施例的資料處理裝置的結構示意圖之二，本實施例的裝置關於用戶輸入問題後在生成答案方面的資料處理，其包括：　　問題獲取模組51，用於獲取針對應用環境的問題；　　模型處理模組52，用於將問題分別輸入到多個不同類型的問答模型中進行處理，生成與各個模型對應的中間答案，其中多個不同類型的問答模型分別具有符合各自資料形式的模型資料，模型資料為結構化資料、半結構化資料以及非結構化資料中的任意多個；其中，多個不同類型的問答模型可以包括知識圖譜模型、FAQ模型以及機器閱讀理解模型中的任意多個，具體地，知識圖譜模型的模型資料為結構化資料， FAQ模型的模型資料為半結構化資料，機器閱讀理解模型的模型資料為非結構化資料；　　答案輸出模組53，用於基於預設的答案輸出策略，對各個模型生成的中間答案進行處理，生成最終答案並進行輸出。　　關於本實施例的資料處理裝置所關於的各個功能模組的詳細功能說明以及技術效果等內容在前述實施例中已經進行了充分描述，其內容仍然適用於本實施例，在此不再贅述。　　實施例五　　前面實施例三描述了發明實施例的資料處理裝置的在模型資料的準備工作方面的功能結構，該裝置的功能可借助一種電子設備實現完成，如圖6所示，其為本發明實施例的電子設備的結構示意圖，具體包括：記憶體610和處理器620。　　記憶體610，用於儲存程式。　　除上述程式之外，記憶體610還可被配置為儲存其它各種資料以支援在電子設備上的操作。這些資料的示例包括用於在電子設備上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，訊息，圖片，視頻等。　　記憶體610可以由任何類型的揮發性或非揮發性存放裝置或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電可抹除可程式設計唯讀記憶體（EEPROM），可抹除可程式設計唯讀記憶體（EPROM），可程式設計唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁片或光碟。　　處理器620，耦接至記憶體610，用於執行記憶體610中的程式，以用於：　　獲取應用環境中的第一文字資料，並對第一文字資料進行分類處理，提取出結構化資料、半結構化資料以及非結構化資料中的任意多個資料；　　將結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。　　其中，將結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工可以包括：將結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照知識圖譜模型，FAQ模型以及機器閱讀理解模型中的任意多個模型的資料形式要求進行加工。　　此外，上述實施例三中的其他功能也可以以程式的形式儲存於記憶體610中並被處理器620讀取執行。詳細的控制處理在實施例三中已經進行詳細說明，其同樣適用於本實施例，在此不再贅述。　　進一步，如圖6所示，電子設備還可以包括：通訊組件630、電源組件640、音訊組件650、顯示器660等其它組件。圖6中僅示意性給出部分組件，並不意味著電子設備只包括圖6所示組件。　　通訊組件630被配置為便於電子設備和其他設備之間有線或無線方式的通訊。電子設備可以存取基於通訊標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通訊組件630經由廣播通道接收來自外部廣播管理系統的廣播訊號或廣播相關資訊。在一個示例性實施例中，通訊組件630還包括近場通訊（NFC）模組，以促進短程通訊。例如，在NFC模組可基於射頻識別（RFID）技術，紅外資料協會（IrDA）技術，超寬頻（UWB）技術，藍芽（BT）技術和其他技術來實現。　　電源組件640，為電子設備的各種組件提供電力。電源組件640可以包括電源管理系統，一個或多個電源，及其他與為電子設備生成、管理和分配電力相關聯的組件。　　音訊組件650被配置為輸出和/或輸入音訊訊號。例如，音訊組件650包括一個麥克風（MIC），當電子設備處於操作模式，如呼叫模式、記錄模式和語音辨識模式時，麥克風被配置為接收外部音訊訊號。所接收的音訊訊號可以被進一步儲存在記憶體610或經由通訊組件630發送。在一些實施例中，音訊組件650還包括一個揚聲器，用於輸出音訊訊號。　　顯示器660包括螢幕，其螢幕可以包括液晶顯示器（LCD）和觸控面板（TP）。如果螢幕包括觸控面板，螢幕可以被實現為觸控式螢幕，以接收來自用戶的輸入訊號。觸控面板包括一個或多個觸控感測器以感測觸控、滑動和觸控面板上的手勢。觸控感測器可以不僅感測觸控或滑動動作的邊界，而且還檢測與觸控或滑動操作相關的持續時間和壓力。　　實施例七　　前面實施例四描述了發明實施例的資料處理裝置的用戶輸入問題後在生成答案方面的資料處理的功能結構，該裝置的功能可借助一種電子設備實現完成，如圖7所示，其為本發明實施例的電子設備的結構示意圖，具體包括：記憶體710和處理器720。　　記憶體710，用於儲存程式。　　除上述程式之外，記憶體710還可被配置為儲存其它各種資料以支援在電子設備上的操作。這些資料的示例包括用於在電子設備上操作的任何應用程式或方法的指令，連絡人資料，電話簿資料，訊息，圖片，視頻等。　　記憶體710可以由任何類型的揮發性或非揮發性存放裝置或者它們的組合實現，如靜態隨機存取記憶體（SRAM），電可抹除可程式設計唯讀記憶體（EEPROM），可抹除可程式設計唯讀記憶體（EPROM），可程式設計唯讀記憶體（PROM），唯讀記憶體（ROM），磁記憶體，快閃記憶體，磁片或光碟。　　處理器720，耦接至記憶體710，用於執行記憶體710中的程式，以用於：　　獲取針對應用環境的問題；　　將問題分別輸入到多個不同類型的問答模型中進行處理，生成與各個模型對應的中間答案，其中多個不同類型的問答模型分別具有符合各自資料形式的模型資料，模型資料為結構化資料、半結構化資料以及非結構化資料中的任意多個，其中，多個不同類型的問答模型可以包括知識圖譜模型、FAQ模型以及機器閱讀理解模型中的任意多個，知識圖譜模型的模型資料為結構化資料，FAQ模型的模型資料為半結構化資料，機器閱讀理解模型的模型資料為非結構化資料。　　基於預設的答案輸出策略，對各個模型生成的中間答案進行處理，生成最終答案並進行輸出。　　此外，上述實施例四中的其他功能也可以以程式的形式儲存於記憶體710中並被處理器720讀取執行。詳細的控制處理在實施例四中已經進行詳細說明，其同樣適用於本實施例，在此不再贅述。　　進一步，如圖7所示，電子設備還可以包括：通訊組件730、電源組件740、音訊組件750、顯示器760等其它組件。圖7中僅示意性給出部分組件，並不意味著電子設備只包括圖7所示組件。　　通訊組件730被配置為便於電子設備和其他設備之間有線或無線方式的通訊。電子設備可以存取基於通訊標準的無線網路，如WiFi，2G或3G，或它們的組合。在一個示例性實施例中，通訊組件730經由廣播通道接收來自外部廣播管理系統的廣播訊號或廣播相關資訊。在一個示例性實施例中，通訊組件730還包括近場通訊（NFC）模組，以促進短程通訊。例如，在NFC模組可基於射頻識別（RFID）技術，紅外資料協會（IrDA）技術，超寬頻（UWB）技術，藍芽（BT）技術和其他技術來實現。　　電源組件740，為電子設備的各種組件提供電力。電源組件740可以包括電源管理系統，一個或多個電源，及其他與為電子設備生成、管理和分配電力相關聯的組件。　　音訊組件750被配置為輸出和/或輸入音訊訊號。例如，音訊組件750包括一個麥克風（MIC），當電子設備處於操作模式，如呼叫模式、記錄模式和語音辨識模式時，麥克風被配置為接收外部音訊訊號。所接收的音訊訊號可以被進一步儲存在記憶體710或經由通訊組件730發送。在一些實施例中，音訊組件750還包括一個揚聲器，用於輸出音訊訊號。　　顯示器760包括螢幕，其螢幕可以包括液晶顯示器（LCD）和觸控面板（TP）。如果螢幕包括觸控面板，螢幕可以被實現為觸控式螢幕，以接收來自用戶的輸入訊號。觸控面板包括一個或多個觸控感測器以感測觸控、滑動和觸控面板上的手勢。觸控感測器可以不僅感測觸控或滑動動作的邊界，而且還檢測與觸控或滑動操作相關的持續時間和壓力。　　本領域普通技術人員可以理解：實現上述各方法實施例的全部或部分步驟可以通過程式指令相關的硬體來完成。前述的程式可以儲存於一電腦可讀取儲存媒體中。該程式在執行時，執行包括上述各方法實施例的步驟；而前述的儲存媒體包括：ROM、RAM、磁碟或者光碟等各種可以儲存程式碼的媒體。　　最後應說明的是：以上各實施例僅用以說明本發明的技術方案，而非對其限制；儘管參照前述各實施例對本發明進行了詳細的說明，本領域的普通技術人員應當理解：其依然可以對前述各實施例所記載的技術方案進行修改，或者對其中部分或者全部技術特徵進行等同替換；而這些修改或者替換，並不使相應技術方案的本質脫離本發明各實施例技術方案的範圍。

S101-S102‧‧‧步驟

S201-S203‧‧‧步驟

41‧‧‧環境文字獲取模組

42‧‧‧模型資料生成模組

51‧‧‧問題獲取模組

52‧‧‧模型處理模組

53‧‧‧答案輸出模組

610‧‧‧記憶體

620‧‧‧處理器

630‧‧‧通訊組件

640‧‧‧電源組件

650‧‧‧音訊組件

660‧‧‧顯示器

710‧‧‧記憶體

720‧‧‧處理器

730‧‧‧通訊組件

740‧‧‧電源組件

750‧‧‧音訊組件

760‧‧‧顯示器

圖1為本發明實施例的資料處理系統的結構示意圖。　　圖2為本發明實施例的資料處理方法的流程圖之一。　　圖3為本發明實施例的資料處理方法的流程圖之二。　　圖4為本發明實施例的資料處理裝置的結構示意圖之一。　　圖5為本發明實施例的資料處理裝置的結構示意圖之二。　　圖6為本發明實施例的電子設備的結構示意圖之一。　　圖7為本發明實施例的電子設備的結構示意圖之二。

Claims

一種資料處理方法，包括：　　獲取針對應用環境的問題；　　將所述問題分別輸入到多個不同類型的問答模型中進行處理，生成與各個模型對應的中間答案，其中所述多個不同類型的問答模型分別具有符合各自資料形式的模型資料，所述模型資料為結構化資料、半結構化資料以及非結構化資料中的任意多個；　　基於預設的答案輸出策略，對各個模型生成的中間答案進行處理，生成最終答案並進行輸出。
根據申請專利範圍第1項所述的方法，其中，所述多個不同類型的問答模型包括知識圖譜模型、FAQ模型以及機器閱讀理解模型中的任意多個，所述知識圖譜模型的模型資料為結構化資料，所述FAQ模型的模型資料為半結構化資料，所述機器閱讀理解模型的模型資料為非結構化資料。
根據申請專利範圍第2項所述的方法，其中，　　所述知識圖譜模型的模型資料包括基於三元組格式構建的知識庫以及基於屬性建立實體間關係而形成的圖譜結構，　　將所述問題輸入到知識圖譜模型進行處理，生成與該知識圖譜模型對應的中間答案包括：將對所述問題進行結構化處理，抽取出實體或屬性資訊，輸入到知識圖譜模型中的問題結構化的搜尋引擎進行搜索，獲取與所述實體對應的屬性或與所述屬性資訊對應的屬性值，並確定與該屬性或該屬性值對應的知識點作為該知識圖譜模型輸出的中間答案；　　和/或，　　所述FAQ模型的模型資料包括具有基於問題構建的倒排索引的問題/答案對，　　將所述問題輸入到FAQ模型進行處理，生成與所述FAQ模型對應的答案包括：將所述問題輸入到FAQ模型中的FAQ問題搜尋引擎進行答案搜索，生成相似問題的答案排序，選擇排名最高的相似問題的答案作為該FAQ模型輸出的中間答案；　　和/或，　　所述機器閱讀理解模型的模型資料包括具有按照主題和/或段落進行索引的多個第二文字資料，　　將所述問題輸入到機器閱讀理解模型進行處理，生成與所述機器閱讀理解模型對應的答案包括：　　將所述問題輸入到機器閱讀理解模型中的文件搜尋引擎進行搜索，通過所述主題和/或分段的索引確定與所述問題相關的第二文字資料，接著將所述問題作為機器閱讀理解處理的輸入，對該第二文字資料執行機器閱讀處理，生成該機器閱讀理解模型輸出的中間答案。
根據申請專利範圍第2項所述的方法，其中，基於預設的答案輸出策略，對各個模型生成的中間答案進行處理，生成最終答案並進行輸出包括：　　將各個模型生成的多個中間答案直接作為最終答案輸出；　　或者，　　對各個模型生成的中間答案進行基於可信度的打分，選擇分數最高的中間答案作為最終答案進行輸出；　　或者，　　對各個模型生成的中間答案的文字內容進行覆蓋率分析，選擇覆蓋率最高的文字內容作為最終答案進行輸出。
根據申請專利範圍第2項所述的方法，其中，在獲取針對應用環境的問題後，還包括：　　對所述問題進行標準化處理，使得所述問題能夠適應所述知識圖譜模型、FAQ模型以及機器閱讀理解模型中任意多個模型的輸入格式要求。
根據申請專利範圍第2項所述的方法，其中，在獲取針對應用環境的問題之前還包括：　　獲取所述應用環境中的第一文字資料，並對所述第一文字資料進行分類處理，提取出結構化資料、半結構化資料以及非結構化資料中的任意多個資料；　　將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照知識圖譜模型，FAQ模型以及機器閱讀理解模型中的任意多個模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。
根據申請專利範圍第6項所述的方法，其中，　　將所述結構化資料按照所述知識圖譜模型的資料形式要求進行加工，生成該知識圖譜模型的模型資料包括：　　將所述結構化資料加工為基於三元組格式構建的知識庫以及基於屬性建立實體間關係而形成的圖譜結構；　　和/或，　　將所述半結構化資料按照所述FAQ模型的資料形式要求進行加工，生成該FAQ模型的模型資料包括：　　對所述半結構化資料中的答案進行文字聚類，獲取所述半結構化資料中問題的多種表達方式，並基於該問題構建倒排索引，生成具有基於問題構建的倒排索引的問題/答案對；　　和/或，　　將所述非結構化資料按照所述機器閱讀理解模型的資料形式要求進行加工，生成該機器閱讀理解模型的模型資料包括：按照主題和/或段落將所述非結構化資料劃分為多個第二文字資料，並按照主題和/或段落建立索引。
根據申請專利範圍第1項所述的方法，其中，　　所述模型資料來自於對所述應用環境的第一文字資料的提取和加工。
一種資料處理方法，包括：　　獲取所述應用環境中的第一文字資料，並對所述第一文字資料進行分類處理，提取出結構化資料、半結構化資料以及非結構化資料中的任意多個資料；　　將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。
根據申請專利範圍第9項所述的方法，其中，所述將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工包括：　　將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照知識圖譜模型，FAQ模型以及機器閱讀理解模型中的任意多個模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。
根據申請專利範圍第10項所述的方法，其中，　　將所述結構化資料按照所述知識圖譜模型的資料形式要求進行加工，生成該知識圖譜模型的模型資料包括：　　將所述結構化資料加工為基於三元組格式構建的知識庫以及基於屬性建立實體間關係而形成的圖譜結構；　　和/或，　　將所述半結構化資料按照所述FAQ模型的資料形式要求進行加工，生成該FAQ模型的模型資料包括：　　對所述半結構化資料中的答案進行文字聚類，獲取所述半結構化資料中問題的多種表達方式，並基於該問題構建倒排索引，生成具有基於問題構建的倒排索引的問題/答案對；　　和/或，　　將所述非結構化資料按照所述機器閱讀理解模型的資料形式要求進行加工，生成該機器閱讀理解模型的模型資料包括：按照主題和/或段落將所述非結構化資料劃分為多個第二文字資料，並按照主題和/或段落建立索引。
一種資料處理裝置，包括：　　問題獲取模組，用於獲取針對應用環境的問題；　　模型處理模組，用於將所述問題分別輸入到多個不同類型的問答模型中進行處理，生成與各個模型對應的中間答案，其中所述多個不同類型的問答模型分別具有符合各自資料形式的模型資料，所述模型資料來自於對所述應用環境的第一文字資料的提取和加工，所述模型資料為結構化資料、半結構化資料以及非結構化資料中的任意多個；　　答案輸出模組，用於基於預設的答案輸出策略，對各個模型生成的中間答案進行處理，生成最終答案並進行輸出。
根據申請專利範圍第12項所述的裝置，其中，所述多個不同類型的問答模型包括知識圖譜模型、FAQ模型以及機器閱讀理解模型中的任意多個，所述知識圖譜模型的模型資料為結構化資料，所述FAQ模型的模型資料為半結構化資料，所述機器閱讀理解模型的模型資料為非結構化資料。
根據申請專利範圍第13項所述的裝置，其中，基於預設的答案輸出策略，對各個模型生成的中間答案進行處理，生成最終答案並進行輸出包括：　　將各個模型生成的多個中間答案直接作為最終答案輸出；　　或者，　　對各個模型生成的中間答案進行基於可信度的打分，選擇分數最高的中間答案作為最終答案進行輸出；　　或者，　　對各個模型生成的中間答案的文字內容進行覆蓋率分析，選擇覆蓋率最高的文字內容作為最終答案進行輸出。
一種資料處理裝置，包括：　　環境文字獲取模組，用於獲取所述應用環境中的第一文字資料，並對所述第一文字資料進行分類處理，提取出結構化資料、半結構化資料以及非結構化資料中的任意多個資料；　　模型資料生成模組，用於將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。
根據申請專利範圍第15項所述的裝置，其中，所述將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工包括：　　將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照知識圖譜模型，FAQ模型以及機器閱讀理解模型中的任意多個模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。
一種電子設備，包括：　　記憶體，用於儲存程式；　　處理器，耦接至所述記憶體，用於執行所述程式，以用於：　　獲取針對應用環境的問題；　　將所述問題分別輸入到多個不同類型的問答模型中進行處理，生成與各個模型對應的中間答案，其中所述多個不同類型的問答模型分別具有符合各自資料形式的模型資料，所述模型資料為結構化資料、半結構化資料以及非結構化資料中的任意多個；　　基於預設的答案輸出策略，對各個模型生成的中間答案進行處理，生成最終答案並進行輸出。
根據申請專利範圍第17項所述的電子設備，其中，包括：　　所述多個不同類型的問答模型包括知識圖譜模型、FAQ模型以及機器閱讀理解模型中的任意多個，所述知識圖譜模型的模型資料為結構化資料，所述FAQ模型的模型資料為半結構化資料，所述機器閱讀理解模型的模型資料為非結構化資料。
一種電子設備，包括：　　記憶體，用於儲存程式；　　處理器，耦接至所述記憶體，用於執行所述程式，以用於：　　獲取所述應用環境中的第一文字資料，並對所述第一文字資料進行分類處理，提取出結構化資料、半結構化資料以及非結構化資料中的任意多個資料；　　將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工，生成各個模型的模型資料並進行儲存。
根據申請專利範圍第19項所述的電子設備，其中，包括：　　所述將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照適合的問答模型的資料形式要求進行加工包括：　　將所述結構化資料、半結構化資料以及非結構化資料中的任意多個資料分別按照知識圖譜模型，FAQ模型以及機器閱讀理解模型中的任意多個模型的資料形式要求進行加工。