TW201439927A

TW201439927A - 提供資訊差距之指示之問答系統

Info

Publication number: TW201439927A
Application number: TW102135894A
Authority: TW
Inventors: Jana H Jenkins; David C Steinmetz; Wlodek W Zadrozny
Original assignee: Ibm
Priority date: 2012-10-25
Filing date: 2013-10-03
Publication date: 2014-10-16
Also published as: CN103778471A; TWI534725B; CN103778471B; US20140120513A1

Abstract

本發明提供一種用於識別電子內容中之資訊差距之機制。此等機制接收待分析之該電子內容且分析該電子內容以識別該電子內容內的主題或問題中之至少一者，以產生與該電子內容相關聯之主題或問題中之至少一者的一集合。此等機制進一步比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫，以在該電子內容中產生一組資訊差距。此外，該等機制將該組資訊差距之一通知輸出至與該電子內容相關聯之一使用者。

Description

提供資訊差距之指示之問答系統

本申請案大體係關於一種改良之資料處理裝置及方法，且更特定言之，係關於用於在問答系統中提供資訊差距之指示之機制。

隨著對諸如網際網路之計算網路之增加的使用，人類當前為來自各種結構化及未結構化來源之可用於人類的資訊量所淹沒及覆蓋。然而，當使用者試圖將其可發現其咸信在搜尋關於各種主體之資訊期間相關之物拼湊在一起時，資訊差距大量存在。為輔助此等搜尋，新近研究已針對產生問答(QA)系統，該等QA系統可提出一輸入問題，分析該輸入問題，並傳回指示對該輸入問題之機率最大答案的結果。QA系統提供用於搜尋若干組大型內容來源(例如，電子文件)的自動化機制，且關於輸入問題來分析該等內容來源以判定對該問題之答案及關於用於回答該輸入問題之答案之準確度的信賴量度(confidence measure)。

一個此QA系統為可購自紐約Armonk之國際商業機器(IBM)公司的Watson^TM系統。Watson^TM系統為進階式自然語言處理、資訊擷取、知識表示與推理及機器學習技術至開域問答領域之應用。Watson^TM系統係基於IBM之DeepQA^TM技術，該DeepQA^TM技術用於假設產生、大量證據收集、分析及計分。DeepQA^TM提出一輸入問題，分析該輸入問題，將該問題分解為若干組成部分，基於經分解之問題及答案來源之初步搜尋結果而產生一或多個假設，基於自證據來源之證據擷取來執行假設及證據計分，執行該一或多個假設之合成，且基於訓練模型來執行最終合併及排序以輸出對該輸入問題之答案連同信賴量度。

各種美國專利申請公開案描述了各種類型之問答系統。美國專利申請公開案第2011/0125734號揭示一種用於基於資料之語料庫來產生問答對之機制。該系統以一組問題開始且接著分析該組內容以提取對彼等問題之答案。美國專利申請公開案第2011/0066587號揭示一種用於將所分析資訊之報告轉換為問題之集合且判定對該問題之集合的答案是否自資訊集得到回答或被駁斥之機制。結果資料被併入至經更新之資訊模型中。

在一說明性實施例中，提供一種在一資料處理系統中的用於識別電子內容中之資訊差距之方法。該方法包含：在資料處理系統中接收待分析之電子內容；及藉由資料處理系統來分析該電子內容以識別該電子內容內之主題或問題中之至少一者以產生與該電子內容相關聯之主題或問題中之至少一者的集合。該方法進一步包含藉由資料處理系統比較該集合與電子內容並且比較該集合與先前所分析之電子內容之語料庫，以在電子內容中產生一組資訊差距。此外，該方法包含藉由資料處理系統將該組資訊差距之通知輸出至與電子內容相關聯之使用者。

在其他說明性實施例中，提供一電腦程式產品，其包含具有電腦可讀程式之一電腦可用或可讀媒體。該電腦可讀程式當在計算器件上執行時使該計算器件執行上文關於該方法說明性實施例所概述之該等操作中之各種操作及該等操作之組合。

在又一說明性實施例中，提供一種系統/裝置。該系統/裝置可包含一或多個處理器及耦接至該一或多個處理器之一記憶體。該記憶體可包含指令，該等指令當由該一或多個處理器執行時使該一或多個處理器執行上文關於該方法說明性實施例所概述之該等操作中之各種操作及該等操作之組合。

本發明之此等及其他特徵及優點將在本發明之實例實施例之以下詳細描述中描述，或將鑒於本發明之實例實施例之以下詳細描述而變得對一般熟習此項技術者顯而易見。

100‧‧‧問/答創建立(QAC)系統/手勢控制系統

102‧‧‧電腦網路

104‧‧‧計算器件

106‧‧‧電子文件/文件

108‧‧‧內容創建立者

200‧‧‧電腦記憶體器件

202‧‧‧處理器

204‧‧‧磁碟儲存機/儲存磁碟

206‧‧‧輸入/輸出器件

208‧‧‧語料庫

210‧‧‧問題

212‧‧‧後設資料

214‧‧‧可檢視內容/文字

216‧‧‧候選問題

218‧‧‧答案

220‧‧‧已驗證問題

222‧‧‧計分臨限值

300‧‧‧用於針對文件之問/答創建立之方法

302‧‧‧匯入

304‧‧‧創建立

306‧‧‧創建立

308‧‧‧呈現

310‧‧‧判定

312‧‧‧儲存

314‧‧‧已驗證文件

316‧‧‧已驗證問題

318‧‧‧已驗證後設資料

320‧‧‧已驗證答案

400‧‧‧用於針對文件之問/答創建立之方法

510‧‧‧額外內容差距檢查(CGC)邏輯

520‧‧‧結構及涵蓋資訊儲存器

當結合隨附圖式來閱讀時，本發明以及其較佳使用模式及另外之目標及優點將藉由參考說明性實施例之以下詳細描述來最佳地理解。

圖1描繪電腦網路中的問/答建立(QAC)系統之一說明性實施例之示意圖；圖2描繪圖1之QAC系統之一實施例之示意圖；圖3描繪用於針對文件之問/答建立之方法的一實施例之流程圖；圖4描繪用於針對文件之問/答建立之方法的一實施例之流程圖；圖5描繪根據一說明性實施例的併有內容差距檢查邏輯之QAC系統之一說明性實施例之實例圖；及圖6描繪概述根據一說明性實施例的用於執行內容差距檢查之一實例操作之流程圖。

說明性實施例提供用於在問答(QA)系統中提供資訊差距之指示的機制。該等說明性實施例可用以通知作者及使用者此等資訊差距，使得可在適當時更新用作用於問答系統之基礎的文件及其他內容來源以解決此等資訊差距。此外，該等說明性實施例之機制可不僅識別關於所提出或輸入至QA系統之問題的資訊差距，而且可識別應在對應的內容來源中具有答案但卻不存在答案的其他問題，且藉此針對尚未提出或輸入至QA系統之問題來識別資訊差距。

如上文所提及，QA系統提供用於基於輸入問題來搜尋若干組大型電子文件或其他內容來源以判定對該輸入問題之可能的答案及對應的信賴量度的自動化工具。IBM之Watson^TM為一個此QA系統。雖然此等QA系統可提供用於判定對輸入問題之答案的自動化工具，但其缺乏之一個功能性為識別資訊差距的能力。當使用者試圖獲得對其問題之「全部答案」時，識別此等差距及開始將遺漏之資訊發信至電子文件或其他資訊來源之作者、建立者或提供者之過程的能力將對該等使用者極為有效力且有幫助。

當針對對問題之答案來搜尋電子文件時，該等說明性實施例提供用於回應於使用者輸入該使用者希望提供答案所針對之問題或回應於內容提供者將新電子文件作為供QA系統使用或用於包括於內容之語料庫(例如，QA系統可操作之電子文件之集合)中的內容來源提供來識別資訊差距的機制。可結合QA系統來實施該等說明性實施例(例如，作為QA系統之擴展，其提供可與QA系統之其他功能並行實施之額外功能性)。舉例而言，該等說明性實施例可用以擴展可購自IBM公司之Watson^TM QA系統的功能性。

該等說明性實施例可與QA系統一致地操作使得QA系統不僅掃描內容之語料庫(例如，可用於QA系統的電子文件之集合)中的可用內容，尋找對問題的答案，而且可註明並確認QA系統找到或未找到對所輸入或識別之問題(例如，由內容建立者所建立的問題之集合，尤其對於技術及科學領域)的答案。若QA系統正期望基於對內容之若干部分(例如，標題、簡短描述、後設資料或對內容內之問題之答案的其他指示)的分析來找到問題的答案，且QA系統無法找到該資訊以提供對內容中之問題的答案，則QA系統已識別準確度、資訊品質或資訊差距問題。實施該等說明性實施例中之一或多者的機制之QA系統可將關於準確度、資訊品質或資訊差距問題之此資訊提供回至內容作者、擁有者或提供者以提示彼等人增添額外內容以提供對問題的答案、重寫用以判定應存在答案的內容之該等部分或類似者。

如熟習此項技術者應瞭解，本發明之態樣可體現為系統、方法或電腦程式產品。因此，本發明之態樣可採用完全硬體實施例、完全軟體實施例(包括韌體、常駐軟體、微碼等)或組合軟體與硬體態樣之實施例的形式，該等實施例在本文中皆可通稱為「電路」、「模組」或「系統」。此外，本發明之態樣可採用電腦程式產品的形式，電腦程式產品體現於具有體現於其上之電腦可用程式碼之任何一或多個電腦可讀媒體中。

可利用一或多個電腦可讀媒體之任何組合。電腦可讀媒體可為電腦可讀信號媒體或電腦可讀儲存媒體。電腦可讀儲存媒體可為(例如，但不限於)電子、磁性、光學、電磁、紅外線或半導體系統、裝置、器件或前述者之任何合適組合。電腦可讀儲存媒體之更特定實例(非詳盡清單)將包括以下各者：具有一或多個導線之電連接件、攜帶型電腦磁片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除可程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、攜帶型緊密光碟唯讀記憶體(CDROM)、光學儲存器件、磁性儲存器件或前述各者之任何合適組合。在本文件之上下文中，電腦可讀儲存媒體可為可含有或儲存供指令執行系統、裝置或器件使用或結合指令執行系統、裝置或器件而使用之程式的任何有形媒體。

電腦可讀信號媒體可包括經傳播之資料信號，該經傳播之資料信號具有體現於其中(例如，在基頻中或作為載波之一部分)之電腦可讀程式碼。此經傳播之信號可採用多種形式中之任一者，包括(但不限於)電磁形式、光學形式或其任何合適組合。電腦可讀信號媒體可為並非電腦可讀儲存媒體且可傳達、傳播或輸送供指令執行系統、裝置或器件使用或結合指令執行系統、裝置或器件而使用之程式的任何電腦可讀媒體。

可使用任何適當媒體來傳輸體現於電腦可讀媒體上之電腦程式碼，該任何適當媒體包括(但不限於)無線、有線、光纖纜線、射頻(RF)等或其任何合適組合。

可以一或多種程式設計語言之任何組合來撰寫用於進行本發明之態樣之操作的電腦程式碼，該一或多種程式設計語言包括諸如Java^TM、Smalltalk、C++或類似者之物件導向式程式設計語言及諸如「C」程式設計語言或類似程式設計語言之習知程序性程式設計語言。程式碼可完全在使用者電腦上執行，部分地在使用者電腦上執行，作為獨立套裝軟體而執行，部分地在使用者電腦上執行且部分地在遠端電腦上執行，或完全在遠端電腦或伺服器上執行。在完全在遠端電腦或伺服器上執行的情況中，遠端電腦可經由任一類型之網路(包括區域網路(LAN)或廣域網路(WAN))連接至使用者之電腦，或可進行至外部電腦之連接(例如，使用網際網路服務提供者，經由網際網路)。

下文參看根據本發明之說明性實施例之方法、裝置(系統)及電腦程式產品的流程圖說明及/或方塊圖來描述本發明之態樣。應理解，可由電腦程式指令來實施該等流程圖說明及/或方塊圖之每一方塊及該等流程圖說明及/或方塊圖中之方塊的組合。可將此等電腦程式指令提供至通用電腦、專用電腦或其他可程式化資料處理裝置之處理器以產生一機器，使得經由該電腦或其他可程式化資料處理裝置之處理器執行的指令建置用於實施在該或該等流程圖及/或方塊圖區塊中所指定之功能/動作之構件。

亦可將此等電腦程式指令儲存於一電腦可讀媒體中，電腦可讀媒體可指導電腦、其他可程式化資料處理裝置或其他器件以特定方式發揮作用，使得儲存於該電腦可讀媒體中之指令產生一製造物件，該製造物件包括實施在該或該等流程圖及/或方塊圖方塊中所指定之功能/動作之指令。

亦可將該等電腦程式指令載入至電腦、其他可程式化資料處理裝置或其他器件上以使一系列操作步驟在該電腦、其他可程式化裝置或其他器件上執行以產生一電腦實施之處理程序，使得在該電腦或其他可程式化裝置上執行之指令提供用於實施在該或該等流程圖及/或方塊圖方塊中所指定之功能/動作的處理程序。

諸圖中之流程圖及方塊圖說明根據本發明之各種實施例的系統、方法及電腦程式產品之可能實施的架構、功能性及操作。就此而言，流程圖或方塊圖中之每一方塊可表示程式碼之一模組、區段或部分，其包含用於實施指定之邏輯功能的一或多個可執行指令。亦應注意，在一些替代實施中，區塊中所提到之功能可不以諸圖中所提到之次序發生。舉例而言，取決於所涉及之功能性，連續展示之兩個區塊實際上可實質上同時執行，或該等區塊有時可以相反次序執行。亦應注意，可藉由執行指定之功能或動作的基於專用硬體之系統或專用硬體與電腦指令之組合來實施方塊圖及/或流程圖說明之每一方塊及方塊圖及/或流程圖說明中的方塊之組合。

因此，可在許多不同類型之資料處理環境中利用說明性實施例。為了提供用於說明性實施例之特定元件及功能性之描述的上下文，此後提供圖1及圖2作為可實施說明性實施例之態樣的實例環境。應瞭解，圖1及圖2僅為實例且並不意欲聲稱或暗示關於可實施本發明之態樣或實施例之環境的任何限制。可在不脫離本發明之精神及範疇的情況下進行對所描繪環境之許多修改。

圖1至圖4係針對描述可實施說明性實施例之機制所憑藉的實例問答建立(QAC)系統、方法及電腦程式產品。如下文將予以更詳細論述，該等說明性實施例可整合於此等QAC機制中且可擴增及擴展此等QAC機制之功能性。因此，在描述說明性實施例之機制如何被整合於此問答建立中並擴增此問答建立之前首先理解可如何實施問答建立係重要的。應瞭解，圖1至圖4中所描述之QAC機制僅為實例且並不意欲陳述或暗示關於可實施說明性實施例所藉的QAC機制之類型之任何限制。可在不脫離本發明之精神及範疇的情況下在本發明之各種實施例中實施對圖1至圖4中所示之實例QAC系統的許多修改。

QAC機制藉由自資料(或內容)之語料庫存取資訊、分析該資訊且接著基於此資料之分析產生答案結果來操作。自資料之語料庫存取資訊通常包括：資料庫詢問，其回答關於在結構記錄之集合中之物的問題；及搜尋，其回應於對未結構化資料(文字、標記語言等)之集合的詢問來傳遞文件連結之集合。習知問答系統能夠基於資料之語料庫來產生問答對、針對資料之語料庫來驗證對問題之集合的答案、使用資料之語料庫來校正數位文字中之錯誤及自潛在答案之集區來選擇問題的答案。然而，此等系統可能不能夠提出並插入先前尚未結合資料之語料庫指定之新問題。又，此等系統可不根據資料之語料庫之內容來證實問題。

內容建立者(諸如，文章作者)可在撰寫內容之前判定產品、解決方案及服務之用例。因此，內容建立者可知道在由內容陳述之特定主題中該內容意欲回答何問題。在文件語料庫之每一文件中將問題歸類(諸如，依據與問題相關聯的角色、資訊類型、任務或類似者)可允許系統更快速且有效率地識別含有與一特定詢問有關之內容的文件。內容亦可回答內容建立者未預期可適用於內容使用者的其他問題。可由內容建立者來驗證問題及答案以在一給定文件之內容中含有。此等能力對QAC系統之改良之準確度、系統效能、機器學習及信賴有影響。

圖1描繪電腦網路102中之問/答建立(QAC)系統100之一說明性實施例之示意圖。可結合本文中所描述之原理使用之問/答產生的一實例係描述於美國專利申請公開案第2011/0125734號中，該案被以引用的方式全部併入本文中。QAC系統100可包括一連接至電腦網路102之計算器件104。網路102可包括彼此通信且與其他器件或組件通信的多個計算器件104。QAC系統100及網路102可實現用於一或多個內容使用者之問/答(QA)產生功能性。可將QAC系統100之其他實施例與除本文中所描繪之組件、系統、子系統及/或器件之外的組件、系統、子系統及/或器件一起使用。

QAC系統100可經組態以自各種來源接收輸入。舉例而言，QAC系統100可自網路102、電子文件106或其他資料之語料庫、內容建立者108、內容使用者及其他可能之輸入來源接收輸入。在一實施例中，可經由網路102來投送至QAC系統100之輸入中的一些或全部。網路102上之各種計算器件104可包括用於內容建立者及內容使用者之存取點。該等計算器件104中之一些計算器件可包括用於儲存資料之語料庫之資料庫的器件。在各種實施例中，網路102可包括本端網路連接及遠端連接，使得QAC系統100可在包括本端及全球(例如，網際網路)之任何大小的環境中操作。

在一實施例中，內容建立者在文件106中建立內容以供與QAC系統100一起使用。文件106可包括任何檔案、文字、文章或資料來源以供在QAC系統100中使用。內容使用者可經由網路連接或至網路102之網際網路連接來存取QAC系統100，且可將可由資料之語料庫中之內容回答的問題輸入至QAC系統100。在一實施例中，可使用自然語言來形成問題。QAC系統100可解譯問題並提供對內容使用者之回應，該回應含有對該問題之一或多個答案。在一些實施例中，QAC系統100可在一排列之答案清單中提供對內容使用者之回應。

圖2描繪圖1之QAC系統100的一實施例之示意圖。所描繪之QAC系統100包括下文更詳細地描述之各種組件，該等組件能夠執行本文中所描述之功能及操作。在一實施例中，將QAC系統100之組件中之至少一些組件實施於電腦系統中。舉例而言，QAC系統100之一或多個組件的功能性可由儲存於電腦記憶體器件200上之電腦程式指令來實施且由諸如CPU之處理器件來執行。QAC系統100可包括其他組件(諸如，磁碟儲存機204及輸入/輸出器件206)及來自語料庫208之至少一文件106。手勢控制系統100之組件中的一些或全部組件可儲存於單一計算器件104上或儲存於計算器件104之網路(包括無線通信網路)上。QAC系統100可包括比本文中所描繪之組件或子系統多或少的組件或子系統。在一些實施例中，QAC系統100可用以實施如圖4中所描繪的本文中所描述之方法。

在一實施例中，QAC系統100包括至少一計算器件104，該至少一計算器件104具有用於結合QAC系統100來執行本文中所描述之操作的一處理器202。該處理器202可包括單一處理器件或多個處理器件。處理器202可在網路上具有在不同計算器件104中之多個處理器件使得可由一或多個計算器件104來執行本文中所描述之操作。處理器202連接至記憶體器件且與記憶體器件通信。在一些實施例中，處理器202可儲存及存取記憶體器件200上之資料以用於執行本文中所描述之操作。處理器202亦可連接至儲存磁碟204，該儲存磁碟204可用於資料儲存，例如，用於儲存來自記憶體器件200之資料、在由處理器202執行之操作中所使用的資料及用於執行本文中所描述之操作的軟體。

在一實施例中，QAC系統100匯入文件106。電子文件106可為資料或內容之較大語料庫208之部分，該語料庫208可含有與一特定主題或多種主題有關之電子文件106。資料之語料庫208可包括任何數目個文件106且可儲存於相對於QAC系統100之任何位置中。QAC系統100 可能夠匯入在資料之語料庫208中之文件106中的任何者以供處理器202處理。處理器202可與記憶體器件200通信以在語料庫208正被處理時儲存資料。

文件106可包括由內容建立者在建立內容時所產生的一組問題210。當內容建立者在文件106中建立內容時，內容建立者可判定可由該內容回答或針對該內容之特定用例的一或多個問題。可建立該內容，意圖為回答特定問題。舉例而言，可藉由將該組問題210插入至可檢視內容/文字214中或插入於與文件106相關聯之後設資料212中而將此等問題插入至內容中。在一些實施例中，可在文件106中之清單中顯示可檢視文字214中所示之該組問題210，使得內容使用者可容易看見由文件106回答之特定問題。

可由處理器202來偵測由內容建立者在建立內容時所建立的該組問題210。處理器202可另外自文件106中之內容建立一或多個候選問題216。該等候選問題216包括由文件106回答但可能尚未由內容建立者鍵入或預期之問題。處理器202亦可試圖回答由內容建立者所建立的該組問題210及自文件106提取之候選問題216，「經提取」意謂未由內容建立者明確指定但乃基於內容之分析而產生的問題。

在一實施例中，處理器202判定由文件106之內容回答該等問題中之一或多者且列出或另外標記在文件106中回答之問題。QAC系統100亦可試圖針對候選問題216提供答案218。在一實施例中，QAC系統100在建立候選問題216之前回答218由內容建立者所建立之該組問題210。在另一實施例中，QAC系統100同時回答218該等問題及候選問題216。

QAC系統100可對由系統產生之問題/答案對計分。在此實施例中，保留符合計分臨限值之問題/答案對，且放棄不符合計分臨限值222之問題/答案對。在一實施例中，QAC系統100獨立地對問題及答案計分，使得由系統100產生之被保留的問題符合問題計分臨限值，且由系統100找到之被保留的答案符合答案計分臨限值。在另一實施例中，根據問題/答案計分臨限值來對每一問題/答案對計分。

在建立候選問題216之後，QAC系統100可向內容建立者呈現該等問題及候選問題216以用於手動使用者驗證。內容建立者可驗證該等問題及候選問題216以用於達成準確度及與文件106之內容的相關度。內容建立者亦可驗證候選問題216措辭恰當且容易理解。若該等問題含有不準確度或措辭不恰當，則內容建立者可相應地修正該內容。已得到驗證或修正的該等問題及候選問題216可接著作為已驗證問題而被儲存於文件106之內容中(儲存於可檢視文字214中或儲存於後設資料212中或儲存於兩者中)。

圖3描繪用於針對文件106之問/答建立之方法300的一實施例之流程圖。雖然結合圖1之QAC系統100來描述方法300，但可結合任一類型之QAC系統100來使用方法300。

在一實施例中，QAC系統100自資料之語料庫208匯入302一或多個電子文件106。此可包括自外部來源(諸如，本端或遠端計算器件104中之儲存器件)擷取文件106。可處理該等文件106使得QAC系統100能夠解譯每一文件106之內容。此可包括剖析文件106之內容以識別在文件106及內容之其他元素中(諸如，在與文件106相關聯之後設資料中)所找到的問題、在文件106之內容中所列出的問題或類似者。系統100可使用文件標記來剖析文件以識別問題。舉例而言，若文件呈可延伸性標記語言(XML)格式，則該等文件之部分可具有XML問題標籤。在此實施例中，XML剖析器可用以找到適當之文件部分。在另一實施例中，使用原生語言處理(NLP)技術來剖析文件以找到問題。舉例而言，NLP技術可包括找到句界限及查看以問題標記或其他方法結束之句子。舉例而言，QAC系統100可使用語言處理技術將文件106剖析為句子及片語。

在一實施例中，內容建立者建立304文件106之後設資料212，該後設資料212可含有與文件106有關之資訊，諸如，檔案資訊、搜尋標籤、由內容建立者建立之問題及其他資訊。在一些實施例中，後設資料212可已儲存於文件106中，且可根據由QAC系統100所執行之操作來修改後設資料212。由於後設資料212與文件內容一起儲存，因此即使當內容使用者開啟文件106時可能看不見後設資料212，仍可經由經組態以對資料之語料庫208執行搜尋的搜尋引擎來搜尋由內容建立者建立之問題。因此，後設資料212可包括由內容來回答而不弄亂文件106的任何數目個問題。

若適用，內容建立者可基於內容來建立306更多問題。QAC系統100亦基於內容來產生內容建立者可能尚未鍵入之候選問題216。可使用經設計以解譯文件106之內容及產生候選問題216的語言處理技術來建立候選問題216，使得使用自然語言來形成該等候選問題216。

當QAC系統100建立候選問題216時或當內容建立者將問題鍵入至文件106中時，QAC系統100亦可在內容中確定該等問題之位置並使用語言處理技術來回答該等問題。在一實施例中，此過程包括列出QAC系統100能夠在後設資料212中確定答案218之位置的問題及候選問題216。QAC系統100亦可檢查資料之語料庫208或另一語料庫208以用於比較該等問題及候選問題216與其他內容，其可允許QAC系統100判定用以形成問題或答案218之更好方式。提供對來自語料庫之問題的答案之實例描述於美國專利申請公開案第2009/0287678號及美國專利申請公開案第2009/0292687號中，該等專利申請公開案被以引用的方式全部併入本文中。

可接著在介面上向內容建立者呈現308該等問題、候選問題216及答案218以用於驗證。在一些實施例中，亦可呈現文件文字及後設資料212以用於驗證。介面可經組態以自內容建立者接收手動輸入以用於該等問題、候選問題216及答案218之使用者驗證。舉例而言，內容建立者可查看由QAC系統100置放於後設資料212中之問題及答案218的清單以驗證該等問題與適當答案218成對及在文件106之內容中找到該等問題-答案對。內容建立者亦可驗證由QAC系統100置放於後設資料212中之候選問題216及答案218的清單正確成對，及在文件106之內容中找到該等候選問題-答案對。內容建立者亦可分析該等問題或候選問題216以驗證正確之標點、語法、術語及其他特性以改良該等問題或候選問題216，以供內容使用者搜尋及/或檢視。在一實施例中，內容建立者可藉由增添項、增添內容所回答218之明確問題或問題模板、增添內容不作回答之明確問題或問題模板或其他修正來修正措辭欠佳或不準確之問題及候選問題216或內容。問題模板可適用於允許內容建立者針對各種主題而使用相同之基本格式來建立問題，其可允許在不同內容當中達成均一性。將內容不作回答的問題增添至文件106可藉由自搜尋結果消除不可適用於特定搜尋的內容來改良QAC系統100之搜尋準確度。

在內容建立者已修正內容、問題、候選問題216及答案218之後，QAC系統100可判定310內容是否結束被處理。若QAC系統100判定內容已結束被處理，則QAC系統100可接著將已驗證文件314、已驗證問題316、已驗證後設資料318及已驗證答案320儲存312於其上儲存了資料之語料庫208的資料儲存器中。若QAC系統100判定內容未結束被處理(例如，若QAC系統100判定可使用額外問題)，則QAC系統100可再次執行該等步驟中之一些或所有步驟。在一實施例中，QAC系統100使用已驗證文件及/或已驗證問題來建立新後設資料212。因此，內容建立者或QAC系統100可分別建立額外問題或候選問題216。在一實施例中，QAC系統100經組態以接收來自內容使用者之回饋。當 QAC系統100接收來自內容使用者之回饋時，QAC系統100可向內容建立者報告回饋，且內容建立者可基於該回饋來產生新問題或修正當前問題。

圖4描繪用於針對文件106之問/答建立之方法400的一實施例之流程圖。雖然結合圖1之QAC系統100來描述方法400，但可結合任一QAC系統100來使用方法400。

QAC系統100基於具有一組問題210之文件106的內容來匯入405該文件106。該內容可為任何內容，例如，針對回答關於一特定主題或一系列主題之問題的內容。在一實施例中，內容建立者在內容頂部或在文件106之某一其他位置中列出該組問題210並對其進行歸類。該歸類可基於問題之內容、問題之風格或任何其他歸類技術，且可基於各種已建置之類別(諸如，角色、資訊類型、所描述之任務及類似者)來對內容進行歸類。可藉由掃描文件106之可檢視內容214或與文件106相關聯之後設資料212來獲得該組問題210。可由內容建立者在建立內容時來建立該組問題210。在一實施例中，QAC系統100基於文件106中之內容自動地建立410至少一建議之問題或候選問題216。候選問題216可為內容建立者未預期到之問題。可藉由使用語言處理技術處理內容以剖析並解譯該內容來建立候選問題216。系統100可偵測文件106之內容中的型樣(該型樣對於文件106所屬之語料庫208中的其他內容係共同的)，且可基於該型樣來建立候選問題216。

QAC系統100亦使用文件106中之內容來自動地產生415對於該組問題210及候選問題216之答案218。QAC系統100可於在建立該組問題210及該等候選問題216之後的任何時間產生對於該等問題及該等候選問題216之答案218。在一些實施例中，可在不同於產生對於該等候選問題216之答案的操作期間產生對於該組問題210之答案218。在其他實施例中，可在同一操作中產生對於該組問題210與該等候選問題216 兩者之答案218。

QAC系統100接著向內容建立者呈現420該組問題210、候選問題216及對於該組問題210及該等候選問題216之答案218以用於達成準確度之使用者驗證。在一實施例中，內容建立者亦針對對文件106之內容的適用性來驗證該等問題及候選問題216。內容建立者可驗證內容實際上含有該等問題、候選問題216及各別答案218中所含有之資訊。內容建立者亦可驗證對應的問題及候選問題216之答案218含有準確資訊。內容建立者亦可結合QAC系統100來驗證在文件106中或由QAC系統100產生之任何資料措辭恰當。

一組已驗證問題220可接著儲存425於文件106中。該組已驗證問題220可包括來自該組問題210及候選問題216之至少一已驗證問題。QAC系統100用來自該組問題210及候選問題216之由內容建立者判定為準確的問題來填充該組已驗證問題220。在一實施例中，該等問題、候選問題216、答案218及由內容建立者驗證之內容中的任一者被儲存於文件106中(例如，儲存於資料庫之資料儲存器中)。

在一實施例中，QAC系統100亦經組態以接收來自內容使用者的與文件106有關之回饋。系統100可接收來自內容建立者之輸入以建立對應於文件106中之內容且基於回饋的新問題。系統100可接著使用文件106中之內容來自動地產生對於新問題之答案218。內容建立者亦可修正來自該組問題210及候選問題216之至少一問題以正確地反映文件106中之內容。該修正可基於內容建立者自己對該等問題及候選問題216之驗證或來自內容使用者之回饋。雖然可結合QAC系統100來使用該方法之其他實施例，但下文展示結合如本文中所描述之QAC系統100使用的該方法之一實施例：

1.內容建立者判定用例。

2.建立內容。

3.內容建立者在內容主題之頂部列出在內容中回答之問題並對其進行歸類。

4.系統掃描文件之標題及問題清單。

5.系統基於問題清單來確定一問題的位置及確定對該問題之答案的位置。

6.系統列出可基於文件/內容回答之問題。

7.系統列出有可能被建立之候選問題。

8.系統檢查內容/文件所屬之語料庫以查看語料庫中之其他內容如何回答相同問題。

9.內容建立者(例如)藉由增添項、增添內容所回答之明確問題/問題模板或增添內容不回答之明確問題/問題模板來修正內容。

遵循上文所描述之方法之步驟的一實例包括：

1.用例包括「將文件匯入至需求項目中」。

2.內容為可經由文件搜尋存取之文件。

3.內容建立者(文件作者)在文件頂部建立得到回答之問題：

a.「如何將文件匯入至需求項目中？」

b.「如何將<特定文件類型>加入至需求項目中？」

4.系統檢查到來自步驟3之問題包括於文件或對應於文件之問題清單中。

5.系統使用文件內容來回答問題。舉例而言，在文件標題中存在針對問題(a)之完美匹配，且可存在針對問題(b)之條件匹配。

6.系統列出由內容回答之其他問題。此等問題可包括尚未列出之問題，其可基於用於語料庫(或其他來源)之由系統在文件中偵測到的共同型樣。

a.舉例而言，系統基於以下文件內容而傳回問題「「內容經轉換為富含文字格式」與「上載檔案之過程」之間的差異是什麼？」： b.「當您匯入文件時，內容經轉換為富含文字格式。此不同於上載檔案之過程。」

7.系統亦建議可由文件回答之候選問題。舉例而言，候選問題可基於文件中之字的接近性。因此，系統可偵測「匯入物」與描述文件類型之字的接近性。一些自然語言處理可用以避免錯誤。舉例而言，若內容含有「系統當前不支援.avi或其他電影內容之匯入」，則系統可偵測否定陳述式。在此警誡之情況下，對於內容而言：

a.「您可匯入此等文件類型：

<文件類型1>

<文件類型2>

<文件類型3>」

b.系統產生3個問題：

i.「如何匯入<文件類型1>？」

ii.「如何匯入<如何匯入2>？」

iii.「如何匯入<如何匯入3>？」

8.系統檢查到在特定文件所屬之語料庫中的其他文件回答候選問題。

9.作者調整問題清單。舉例而言，對於(4)(a)中所列出之問題而言，作者將問題改變為「「匯入文件」與「上載檔案之過程」之間的差異是什麼？」，此係因為由系統產生之原始問題基於文件內容而不準確。作者可調整先前由作者建立或由系統產生之問題中之任何者。在一實施例中，藉由充分利用具有針對替代例之正規表達式的使用者介面或藉由檢查清單來達成編輯。

如上文所提及，QAC系統可判定文件之內容之間的關係且在內容之語料庫(例如，問答建立系統操作的電子文件之集合)中關聯在與文件相關聯之標頭或後設資訊中所指定之問題。本發明亦提供用於在由問答建立(QAC)系統所使用的內容之語料庫之內容(例如，電子文件)中識別資訊差距的機制。本發明之此等額外機制將使用QAC系統所搜集的關於電子文件中之問題及答案的資訊與自內容分析機制(諸如，包括自然語言處理、關鍵字提取、文字型樣匹配或類似者之文字分析引擎，及後設資料分析(例如，後設資料標籤分析))所搜集之資訊組合，以識別電子文件之實際內容涵蓋、基於各種分析之結果的期望內容涵蓋及期望內容涵蓋與實際內容涵蓋之間的差異(其指示在電子文件之內容中的潛在資訊差距)。此可不僅以個別電子文件為基礎來完成，而且可跨越內容之語料庫來完成，如下文將描述。

如圖5中所示，在該等說明性實施例之此等額外機制的情況下，額外內容差距檢查(CGC)邏輯510被提供於處理器202中。CGC邏輯510利用結構及涵蓋資訊儲存器520輔助用於在電子文件或內容中識別資訊差距之CGC邏輯510操作。CGC邏輯510可與處理器202之關於問答建立的操作(如先前在上文參看圖1至圖4所描述)並行起作用或對處理器202之操作的結果起作用。在於內容之一部分(例如，電子文件)中識別資訊差距過程中，CGC邏輯510利用對內容之該部分的分析及來自結構及涵蓋資訊儲存器520之結構及涵蓋資訊判定QAC系統500期望在內容中找到答案之問題及在內容中所找到之主題的涵蓋範圍。CGC邏輯510可接著判定在內容中是否存在各種類型之資訊差距及內容是否提供其中所含有之主題的充分涵蓋，且可向內容作者、使用者、提供者或類似者報告此等結果，使得可執行內容之適當修改。

更特定言之，CGC邏輯510可利用先前在上文參看圖1至圖4所描述之QAC系統識別及提取內容中之問題及主題(QT)，亦即，產生問題及產生識別在電子文件之內容中所陳述之主題的主題分類，如可自自然語言分析、關鍵字及片語識別或類似者所判定。結果，產生問題及主題(QT)資料之集合。根據指定電子文件之結構標籤、部分識別符或類似者(其將被用作待分析以用於此QT資料產生的文件之部分之指示符)之CGC邏輯510之組態，可識別及自與內容、內容之特定部分(諸如，標題、概要、摘要等)相關聯之後設資料來提取此QT資料。

針對各種類型之資訊差距而使用來自結構及涵蓋資訊儲存器520之結構及涵蓋資訊，對照內容及內容之語料庫來檢查QT資料。結構及涵蓋資訊儲存器520提供關於內容之結構之資訊，例如，指定識別內容之結構化部分之標籤的後設資料，諸如，「/標題」、「/摘要」、「/影像」或類似者。結構及涵蓋資訊儲存器520可進一步指定內容中所包括之物，例如，由內容回答之問題、內容之主題、內容之分類及類似者。結構及涵蓋資訊儲存器520可為一單獨之資料結構或可與內容自身整合。在下文之描述中，應瞭解，對內容或電子文件之「後設資料」的參考係關於可為結構及涵蓋資訊儲存器520之部分的此後設資料。

此外，在下文關於分析內容或電子文件之後設資料來描述功能的情況下，應瞭解，可由CGC邏輯510對未使用結構及涵蓋資訊儲存器520中之資訊結構化的內容及/或電子文件執行替代分析。雖然此分析可較複雜，但CGC邏輯510可組態有用於使用型樣匹配、關鍵字匹配、影像分析或用於自未結構化內容提取資訊之任何已知分析技術來對未結構化之內容執行此分析的演算法及邏輯。

可由CGC邏輯510基於QAC邏輯之操作及另外內容及後設資料分析識別的資訊差距之類型之實例包括(但不限於)以下類型之資訊差距：不匹配容器內容指示之部分內容；邏輯上相關之操作的不完整涵蓋；針對類似任務不一致地列出之先決條件；可連結但未連結的具有類似內容之主題；主題類型及內容(概念、任務、參考)的不一致性；術語及首字母縮略詞之遺漏且不一致定義；及在影像中而非替代文字中潛在地傳達的遺漏之資訊。

關於不匹配容器內容指示之部分內容，意謂總體上針對內容所識別之主題或容器之母部分可或可不由內容之子部分匹配。舉例而言，若容器內容主題為「匯入一文件」，但內容之子部分係針對「將圖片格式化」而無匯入文件之任何論述，則可將該等主題視為足夠不同，使得存在資訊差距。可以許多不同方式來執行此主題識別，該等方式包括自然語言處理(NLP)分析、關鍵字或關鍵片語提取演算法或類似者。可接著比較所得主題以判定與各種容器相關聯之主題與子部分之間的任何對應性或不對應性。

關於邏輯上相關之操作的不完整涵蓋，意謂內容之一部分可參考一些問題/主題但未提及，或提供相關主題(諸如主題/子主題、反義詞、同義詞或類似者)之充分涵蓋。因此，CGC邏輯510可經組態以具有相關主題/子主題、同義詞、反義詞及類似者之清單。因此，當在內容中識別一主題、關鍵字、關鍵片語或術語時，可進行關於在CGC邏輯510中所列出之相關主題、關鍵字、關鍵片語或術語是否存在於文件之內容中的判定。基於此判定，可進行關於是否存在資訊差距之判定，例如，當該相關主題、關鍵字、關鍵片語或術語不存在於文件之內容內時，可存在資訊差距。

關於針對類似任務不一致地列出之先決條件，意謂內容可在該內容之不同部分中陳述任務及其先決條件。CGC邏輯510可經組態以判定在針對類似任務所陳述之先決條件之間是否存在任何不一致性，在該狀況下，可存在資訊差距。舉例而言，可將一任務描述為在文件之一部分中具有A及B之先決條件且在另一部分中可將先決條件指定為係A、C及D。因此，在文件中存在不一致性及潛在資訊差距。

關於具有類似內容之可連結但未連結的主題，CGC邏輯510可經組態以識別主題何時在內容中獨立地陳述但其為相關的且未藉由參考其他主題而連結。舉例而言，CGC邏輯510可組態有經連結之主題(類似於上文之反義詞、同義詞及類似者)之清單，使得即使該等主題皆存在於文件中，若其不具有對彼此之任何參考或至彼此之特定超文字連結，則CGC邏輯510仍可將此等情形識別為潛在資訊差距。

關於主題類型之不一致性，CGC邏輯510可經組態以識別在文件中(諸如，在後設資料或文件之標頭部分中)對主題之所陳述之分類何時與在文件之內容內對該主題之處理不一致。作為此問題之一實例，若主題之類型經指示(諸如，藉由後設資料)為主題之「概念」類型，但針對此主題之文件之內容包括程序，則內容將暗示該主題實際上為任務而非概念。

關於術語及首字母縮略詞之遺漏且不一致定義，CGC邏輯510可判定何時利用應具有但卻不具有對應的描述之術語，及何時使用首字母縮略詞，但首字母縮略詞之長形式卻未呈現於內容中。可以許多不同方式來進行對需要描述之術語的識別，該等方式其中包括(例如)使用應具有對應的定義之術語的清單。可執行包括使用電子詞典來識別內容中之術語(不存在該等術語之對應的詞典定義)的較複雜分析。關於首字母縮略詞之使用，可剖析文件之內容以基於與首字母縮略詞相關聯之文字型樣(為不可辨識之字、皆為大寫或類似者之術語)來識別首字母縮略詞之存在，且可分析在首字母縮略詞前及/或後之句子結構以判定首字母縮略詞之對應的擴展是否存在或是否已先前呈現於文件中。

關於在影像中潛在地傳達但未在替代文字中提供的遺漏之資訊，CGC邏輯510可經組態以識別內容中之影像且判定此等影像是否具有描述影像之對應的替代文字。亦即，可分析文件之內容以判定資料之型樣是否對應於指示影像之型樣、對文件之代碼中之特定檔案類型(例如，BMP、JPG等)的參考或類似者，以識別文件中之影像。亦可分析文件之資料及/或寫碼以判定是否存在與所識別之影像相關聯的任何後設資料、文字描述或類似者(諸如，經由寫碼中之標籤、密切接近影像之描述或類似者)。若非如此，則可存在資訊差距。

另外，當主題之內容經旗標表示為不完整時，CGC邏輯510可識別呈遺漏或不完整之替代文字之形式的特定可能資訊差距。換言之，關於主題之資訊差距的回饋可將影像指向為問題之可能來源。

因此，可由CGC邏輯510來識別各種類型之潛在資訊差距。此等僅為實例。CGC邏輯510可經組態以識別除本文中所描述之資訊差距類型之外或代替本文中所描述之資訊差距類型的其他類型之資訊差距。可基於儲存於結構及涵蓋資訊儲存器520中之資訊來執行CGC邏輯510之此組態。此資訊可呈具有條件及相關動作(例如，識別特定類型之資訊差距的條件及用以記錄或以其他方式報告潛在資訊差距之動作)之規則的形式。

亦對照內容及內容之語料庫來檢查QT資料，以判定QT資料是否更好地涵蓋於語料庫中或需要語料庫之隱含知識。亦即，可將QT資料作為語料庫之問題集對待，且進行關於語料庫是否給出比內容高的計分答案(此指示在語料庫中存在比內容中之涵蓋好的涵蓋)之判定。產生文件及語料庫之此等計分的一方式為使用答案之計分，且若該等計分低於一臨限計分值，則判定存在資訊差距。可在不脫離說明性實施例之精神及範疇的情況下使用用於對問題之答案計分的任何合適機制。

此外，可將QT之元素分解為子元素qt1及qt2，其中qt1係自內容回答且qt2係自語料庫回答。在此狀況下，此指示潛在地需要語料庫之某一隱性知識。

將此等操作之結果發送至內容作者、使用者或提供者以輔助內容提供者識別待對內容、內容之結構或類似者所作的修正。亦即，可提供資訊中之特定差距之指示，且可將關於語料庫或內容是否針對特定問題提供更好之答案來源或是否需要語料庫之隱含知識的指示提供至內容提供者。由於此資訊被報告回給內容作者、使用者或提供者，因此內容可加以修改且可針對經修改之內容來重複該過程。舉例而言，若報告回給內容作者、使用者或提供者之資訊指示在關於安裝程式之資訊中存在差距，則內容提供者可將一部分增添至內容以解決此主題，且因此將答案提供至期望由內容回答之問題。若報告回之資訊指示存在內容中所期望之語料庫之隱含知識，則內容作者可修改內容以使此知識在內容中明顯，且增添至內容之語料庫中之其他資訊來源的連結，或類似者。可在不脫離說明性實施例之精神及範疇的情況下進行基於指定之資訊差距及內容之涵蓋的其他修改。

如上文所提及，CGC邏輯510可使用由QAC系統所識別之問題及主題且另外使用儲存於結構及涵蓋儲存器520中之結構及涵蓋概念的知識識別資訊中之差距以及內容及內容之語料庫關於此等問題及主題之涵蓋範疇。因此，結構及涵蓋資訊儲存器520儲存用於在判定內容之結構及內容關於問題及主題之涵蓋過程中組態CGC邏輯510的資訊。可以具有條件及相關聯之動作(例如，若存在第一主題且不存在相關主題，則動作可為將內容之此部分、此主題或類似者標記或記錄為具有潛在資訊差距及資訊差距之類型)之規則的形式來呈現此資訊。當判定問題及對應的問題時，總體上此資訊可不僅由CGC邏輯510使用，且亦由QAC系統使用。出於解釋此結構及涵蓋資訊在判定可能之資訊差距過程中之用途之目的，考慮內容之一部分，其中QAC系統已識別主題之以下子集：

1.匯入及匯出檔案

1a.將文件匯入至需求項目中

1b.自假影建立PDF及微軟字文件

1c.將CSV檔案匯入至需求項目中

1d.建立CSV檔案

1e.將需求假影匯出至CSV檔案

結構及涵蓋資訊儲存器520可儲存用於組態CGC邏輯510以識別內容之若干部分與內容內之主題之間的關係之任何結構及/或涵蓋資訊。舉例而言，結構及涵蓋資訊儲存器520儲存關於母至子階層結構之資訊、完整性資訊、先決條件資訊、任務及概念資訊、首字母縮略詞及術語資訊及共同共用之值資訊。關於母至子階層結構，在一說明性實施例中，此資訊向CGC邏輯510提供內容之架構概念(諸如母、子及同層級主題應涵蓋相關且子主題通常因比母主題更具特定性而詳述母主題之資訊的概念)的知識。相關主題及母/子主題關聯性可在提供至CGC邏輯510之主題清單中特定地識別或否則經由對內容之語料庫的分析來識別，例如，若發現特定主題及子主題相對於彼此而存在於內容之語料庫中超過一臨限時間量(例如，超過此等主題/子主題存在、該等主題/子主題在同一文件內或在同一文件或相關文件中位於彼此之臨限距離內X%的時間)，則可認為此等主題/子主題彼此相關且可關於相關之主題/子主題之間的母/子關係來執行類似分析。

基於CGC邏輯510之此組態及來自正分析之內容的已識別QT資料，CGC邏輯510可分析母主題及子主題以判定此等母主題、子主題及同層級主題是否涵蓋相關且子主題詳述母主題的資訊。因此，CGC邏輯510可基於QT資料來判定子主題或同層級主題是否係針對與母主題不相關之主題。若其不相關，則可依據子主題或同層級主題之母主題來判定存在資訊差距。此外，若不存在期望之子主題或同層級主題，則亦可判定在文件之子主題/同層級主題中存在資訊差距。

舉例而言，假定在以上之實例中CGC邏輯510找到主題「匯入及匯出檔案」，伴有涵蓋內容中之匯入及匯出的簡短描述。基於此，CGC邏輯510公佈關於匯入及匯出檔案或文件至主題集(諸如，上文所提及之QT資料)中的資訊，伴有與其相關聯之強大信賴量度。該信賴量度為與文件相關聯之計分之一實例且可使用各種計分方法基於對文件之內容的分析(例如，針對文件中主題被參考的地方而給出各種計分值；基於文件中此等主題被參考的地方來對此等計分值加權；主題被參考的頻率；相關之主題/子主題在文件中被參考的方式、地方及頻率等)而產生。

CGC邏輯510分析子主題且找到具有一致地提及匯入及匯出檔案的內容之標題及標註之步驟，亦即，在以上之實例中的子主題指代文件/檔案之匯出及/或匯入。結果，CGC邏輯510判定指示符係良好的：主題集(文件之QT資料)包括匹配母(或容器)主題之期望的內容。若此等主題中之任一者遺漏，則此為資訊差距之指示。

不完整資訊向CGC邏輯510提供諸如反義詞、同義詞、相關術語或類似者的相關之主題的知識。舉例而言，不完整資訊向CGC邏輯510提供主題「匯出」為「匯入」之反義詞的知識，使得若CGC邏輯510在內容中找到匯出主題，則CGC邏輯510期望在內容中之附近找到「匯入」主題。類似地，「安裝」及「解除安裝」之主題已知為相關主題。因此，若CGC邏輯510找到一個主題但非相關主題，則此指示可能之資訊差距。CGC邏輯510之組態資訊中的不完整資訊可提供此等術語及其反義詞、同義詞、相關術語或類似者之清單。

先決條件資訊向CGC邏輯510提供內容中所指定之一任務歸因於內容之類似性何時可能應用於另一任務的知識。亦即，QAC系統經組態以識別具有類似內容的任務，且CGC邏輯510可判定具有類似之內容的此等任務可或可不具有在與此等任務相關聯之內容或後設資料中所指定的相關聯之先決條件。可藉由分析與內容相關聯之後設資料來進行任務之識別，該後設資料具有指定主題之標籤。此等後設資料標籤可進一步包括特定任務之一或多個表示，可由CGC邏輯510比較該一或多個表示以識別被認為係具有類似內容之任務的匹配任務指明。類似地，後設資料可進一步包括指定對應的任務之先決條件的任務先決條件標籤。當然，如上文所提到，一些內容可不使用用於指明內容或電子文件之特定部分的後設資料或標籤來結構化，在該狀況下，可執行內容之分析以識別指示任務、先決條件及類似者的資訊之型樣，例如，所列舉之清單指示任務，術語「先決條件」或「所需」或「在......之前」或類似者可指示先決條件等。

因此，關於不一致描述之先決條件，例如，可存在與使用Microsoft Word^TM字處理程式相關聯之並行主題。一個主題可關於將Word^TM文件匯入至需求項目中，且另一主題可關於將需求項目假影匯出至Word^TM文件。在第一主題中，可列出吾人必須使用Microsoft Word^TM 2003或後來版本的先決條件。然而，在第二主題中可不包括此先決條件。CGC邏輯510可識別此等相關之任務及在一者而非另一者中存在先決條件的彼事實。結果，CGC邏輯510可將此用旗標表示為應向內容識別者、作者或提供者識別的潛在資訊差距。

結構及涵蓋資訊520中之主題類型及結構資訊向CGC邏輯510提供主題類型(例如，概念、任務、參考等)之知識，且允許CGC邏輯510使用主題後設資料及標題構造來追蹤此指明。舉例而言，文件自身可具有後設資料、標籤或識別主題類型(例如，/概念或/任務或類似者之後設資料標籤)可包括於文件中以將文件之若干部分識別為與一主題類型相關聯之的其他內容/結構資訊。舉先前所呈現之實例，主題可包括後設資料術語「/任務」且使用標題「將CSV檔案匯入至需求項目中」。簡短描述或主題介紹可屬於「吾人可將來自您的檔案系統之逗號分離值(CSV)檔案的內容匯入至需求項目以使其可用於其他使用者」的類型。所有此等線索指示一任務主題。程序及步驟將亦期望在主題之主體中。

任務及概念資訊向CGC邏輯510提供對於任務主題而言CGC邏輯510期望標題、簡短描述及步驟介紹將皆描述一類似之任務的資訊。此外，任務及概念資訊通知CGC邏輯510，任務主題標題應以動名詞開始且概念標題使用名詞或名詞片語。因此，舉例而言，若CGC邏輯510發現內容具有非常不同於標題及步驟介紹的簡短描述，則可識別資訊中之差距。此外，若CGC邏輯510找到標籤表示為「概念」但具有動名詞標題(諸如「建立CSV檔案(Creating CSV files)」)之主題，則亦可識別資訊中之差距。因此，後設資料標籤為主題類型之指示符，且存在皆提供關於文件之結構及內容之線索的其他線索，諸如，標題構造、簡短描述或主題介紹及主題主體內容(諸如，用於任務或參考主題中之高度結構化文字的程序)。一特定主題之任何失調(具有失配)將指示可能之資訊差距。因此，CGC邏輯510可分析任務主題標題、概念主題及類似者以查看其是否符合在CGC邏輯510之任務及概念資訊組態中所闡述之要求。

因此，可由CGC邏輯510使用此結構及涵蓋資訊儲存器520以對照內容及內容之語料庫執行QT檢查以識別資訊差距及判定內容或內容之語料庫是否具有更好之涵蓋及是否存在內容中所要求之問題之隱含知識。舉例而言，當判定在內容中是否存在資訊差距時，CGC邏輯510可判定(考慮主題及其上下文)使用者將期望在內容中找到何資訊及何資訊遺漏或不一致。作為一實例，若文件之主題為程序，則CGC邏輯510將期望在內容中提及「步驟」。包含動作動詞(自剖析內容而判定)、詞語「如下」及清單元件標記<：li.>之清單的型樣可與步驟相關聯。該等型樣中之一些型樣可如上文預定義，其他型樣則可自具有問題及答案之資料的語料庫獲悉，其中該等問題為「吾人如何進行......」。作為另一實例，若主題為問題(如在FAQ標題中)，則CGC邏輯510將期望答案含有對該問題之最佳答案(具有作為正確答案之信賴計分的答案)。

關於判定最佳涵蓋，CGC邏輯510可針對內容中所提供之資訊來判定該資訊是否經適當地結構化及定類型。舉例而言，CGC邏輯510可能夠存取框(亦即，典型謂語引數結構)，該等框可自類似於FrameNet之資源及自稜鏡類資源提供。因此，CGC邏輯510可評估內容以判定當容器指示符使用動詞(例如，「匯入」、「建立」等)時滿足此等謂語引數結構框，且可判定在期望之框與內容之間存在多少重疊。臨限重疊值可用以用旗標表示具有遺漏之框或框元件的內容。舉例而言，動詞「上載」及「匯入」可具有為「上載/匯入DOCUMENT/FILE」的類似之框引數。因此，解釋匯入之文件潛在地可解釋關於上載之問題。該等文件是否確實回答此等問題及該等文件確實回答此等問題的良好程度由整個QAC系統來判定，如先前在上文所描述。

作為最佳涵蓋判定之部分，CGC邏輯510亦可判定在內容中存在語義相關之術語的時間。若在內容中存在一術語且在內容中不存在該術語之語義相關之術語，則可識別資訊差距之判定。舉例而言，若內容包含術語「匯入」，但不含有關於「匯出」之資訊，則可在內容中用旗標表示資訊差距。

圖6為概述根據一說明性實施例的用於執行內容差距檢查之一實例操作之流程圖。舉例而言，可由圖5中之CGC邏輯510(例如)結合先前關於圖1至圖4所描述之由QAC系統進行的對問題、答案及主題之識別來實施圖6中所概述之操作。

如圖6中所示，操作開始接收待由內容差距檢查邏輯處理之內容 (例如，電子文件或類似者)(步驟610)。針對所提取之主題及問題來分析內容(諸如，以上文關於圖1至圖4所描述之方式)，以產生問題及主題之集合(亦即，QT資料)(步驟620)。針對內容差距檢查邏輯經組態以識別之資訊差距而對照內容及內容之語料庫來檢查QT資料(步驟630)。亦對照內容及內容之語料庫來檢查QT資料，以識別QT資料在語料庫中是否比在內容中更好地涵蓋，或在內容中需要語料庫之隱含知識(步驟640)。將步驟630及640之結果記錄及/或發送至內容作者、使用者或提供者以通知作者、使用者或提供者所識別之潛在資訊差距及主題涵蓋問題(步驟650)。該操作接著終止。應瞭解，可關於向內容差距檢查邏輯呈現之額外內容來重複此過程。另外，內容作者、使用者或提供者可修改其內容並將其重新提交給內容差距檢查邏輯以重新檢查。

因此，說明性實施例提供用於不僅識別內容內之問題及答案而且可判定內容中之資訊差距及關於內容中之所識別主題之涵蓋問題的機制。結果，可通知內容作者、使用者及提供者此等資訊差距及內容問題，使得其可修改其內容以解決任何此等資訊差距及/或涵蓋問題以提供更好及更全面之內容。

如上文所提到，應瞭解，說明性實施例可採用完全硬體實施例、完全軟體實施例或含有硬體元件與軟體元件兩者之實施例的形式。在一實例實施例中，說明性實施例之機制係以軟體或程式碼實施，該軟體或程式碼包括(但不限於)韌體、常駐軟體、微碼等。

適合於儲存及/或執行程式碼之資料處理系統將包括直接或經由系統匯流排間接地耦接至記憶體元件之至少一個處理器。記憶體元件可包括在程式碼之實際執行期間所使用之本端記憶體、大容量儲存器及快取記憶體，快取記憶體提供至少某一程式碼之暫時儲存，以便減少在執行期間必須自大容量儲存器擷取程式碼的次數。

輸入/輸出或I/O器件(包括但不限於鍵盤、顯示器、指標器件等)可直接抑或經由介入之I/O控制器耦接至系統。網路配接器亦可耦接至系統以使資料處理系統能夠經由介入之私用或公用網路變得耦接至其他資料處理系統或遠端印表機或儲存器件。數據機、電纜數據機及乙太網路卡僅為當前可用類型之網路配接器中的少數幾種。

已出於說明及描述之目的呈現本發明之描述，且本發明之描述並不意欲為詳盡的或將本發明限制於所揭示之形式中。許多修改及變化將對一般熟習此項技術者顯而易見。選擇並描述實施例以便最佳地解釋本發明之原理、實際應用，且使其他一般熟習此項技術者能夠針對具有如適合於所預期之特定用途之各種修改的各種實施例來理解本發明。

Claims

一種在一資料處理系統中的用於識別電子內容中之資訊差距之方法，其包含：在該資料處理系統中接收待分析之該電子內容；藉由該資料處理系統來分析該電子內容以識別該電子內容內之主題或問題中之至少一者，以產生與該電子內容相關聯之主題或問題中之至少一者的一集合；藉由該資料處理系統比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫，以在該電子內容中產生一組資訊差距；及藉由該資料處理系統將該組資訊差距之一通知輸出至與該電子內容相關聯之一使用者。
如請求項1之方法，其中若該先前所分析之電子內容針對該集合中之一問題提供的一計分答案高於針對對該電子內容中之該問題之一答案的一計分，則偵測到一資訊差距。
如請求項1之方法，其中該組資訊差距係選自由以下各者組成之群：不匹配容器內容指示之部分內容；邏輯上相關之操作之不完整涵蓋；針對類似任務不一致地列出之先決條件；具有類似內容之可連結但未連結之主題；主題類型及內容之不一致性；以及術語及首字母縮略詞之遺漏及不一致定義。
如請求項1之方法，其中比較包含：判定該集合含有具有來自該先前所分析之電子內容之一較高計分答案的問題之一第一子集及具有來自該電子內容之一較高計分答案的問題之一第二子集，以產生潛在地需要該先前所分析之電子內容之隱含知識以理解該電子內容的一指示。
如請求項1之方法，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：比較該電子內容之一母主題與一子主題或一同層級主題中之至少一者，以判定一子主題或同層級主題中之該至少一者是否與該母主題相關；回應於一子主題或同層級主題中之該至少一者不與該母主題相關的一判定，判定存在一主題失配資訊差距；及回應於存在一主題失配資訊差距的一判定，將該主題失配資訊差距之一識別符增添至該組資訊差距。
如請求項1之方法，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：比較在該電子內容內所找到之主題與一相關主題清單；判定在該相關主題清單中之對應於在該電子內容內所找到之該等主題的一相關主題是否亦存在於該電子內容中；回應於該相關主題不存在於該電子內容中之一判定，判定在該電子內容中存在一相關主題資訊差距；及回應於存在一相關主題資訊差距之一判定，將該相關主題資訊差距之一識別符增添至該組資訊差距。
如請求項1之方法，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：相互比較作為該電子內容中之該等所識別主題之部分的在該電子內容內所找到之任務主題，以識別該電子內容中之相關任務主題；判定該等任務主題中之一或多者是否包含一先決條件；判定該電子內容中之一或多個相關任務主題是否不包含該先前條件以識別一先決條件資訊差距；及回應於存在一先決條件資訊差距之一判定，將該先決條件資訊差距之一識別符增添至該組資訊差距。
如請求項1之方法，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：相互比較作為該電子內容中之該等所識別主題之部分的在該電子內容內所找到之主題，以識別應在該電子內容內連結但未連結的相關主題；判定該電子文件中之一或多個相關主題在該電子內容內是否未連結以識別一連結之主題資訊差距；及回應於存在一連結之主題資訊差距的一判定，將該連結主題資訊差距之一識別符增添至該組資訊差距。
如請求項1之方法，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：相互比較作為該電子內容中之該等所識別主題之部分的在該電子內容內所找到之主題，以識別被分類為不同類型之主題的類似主題；判定該電子內容中之一或多個類似主題是否經指定為具有一不同主題類型以識別一主題類型不一致資訊差距；及回應於存在一主題類型不一致資訊差距之一判定，將該主題類型不一致資訊差距之一識別符增添至該組資訊差距。
如請求項1之方法，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：比較作為該電子內容中之該等所識別主題之部分的在該電子內容內所找到之主題中之術語與該電子內容中的此等術語之每一不一致或遺漏之定義；判定是否存在在該電子文件之主題中之術語之一或多個不一致或遺漏之定義以識別一定義資訊差距；及回應於存在一定義資訊差距之一判定，將該定義資訊差距之一識別符增添至該組資訊差距。
如請求項10之方法，其中該等術語為首字母縮略詞。
如請求項1之方法，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：識別該電子內容內之影像；判定是否存在與相關聯於該等影像之替代文字相關聯的一資訊差距以藉此識別一影像資訊差距；及回應於存在一影像資訊差距之一判定，將該影像資訊差距之一識別符增添至該組資訊差距。
一種用於識別電子內容中之資訊差距之電腦程式產品，其包含具有儲存於其中之一電腦可讀程式的一電腦可讀儲存媒體，其中該電腦可讀程式當在一計算器件上執行時使該計算器件：接收待分析之電子內容；分析該電子內容以識別該電子內容內之主題或問題中之至少一者，以產生與該電子內容相關聯之主題或問題中之至少一者的一集合；比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫，以在該電子內容中產生一組資訊差距；及將該組資訊差距之一通知輸出至與該電子內容相關聯之一使用者。
如請求項13之電腦程式產品，其中若該先前所分析之電子內容針對該集合中之一問題提供的一計分答案高於針對對該電子內容中之該問題之一答案的一計分，則偵測到一資訊差距。
如請求項13之電腦程式產品，其中該組資訊差距係選自由以下各者組成之群：不匹配容器內容指示之部分內容；邏輯上相關之操作之不完整涵蓋；針對類似任務不一致地列出之先決條件；具有類似內容之可連結但未連結之主題；主題類型及內容之不一致性；以及術語及首字母縮略詞之遺漏及不一致定義。
如請求項13之電腦程式產品，其中比較包含：判定該集合含有具有來自該先前所分析之電子內容之一較高計分答案的問題之一第一子集及具有來自該電子內容之一較高計分答案的問題之一第二子集，以產生潛在地需要該先前所分析之電子內容之隱含知識以理解該電子內容的一指示。
如請求項13之電腦程式產品，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：比較該電子內容之一母主題與一子主題或一同層級主題中之至少一者，以判定一子主題或同層級主題中之該至少一者是否與該母主題相關；回應於一子主題或同層級主題中之該至少一者不與該母主題相關的一判定，判定存在一主題失配資訊差距；及回應於存在一主題失配資訊差距的一判定，將該主題失配資訊差距之一識別符增添至該組資訊差距。
如請求項13之電腦程式產品，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：比較在該電子內容內所找到之主題與一相關主題清單；判定在該相關主題清單中之對應於在該電子內容內所找到之該等主題的一相關主題是否亦存在於該電子內容中；回應於該相關主題不存在於該電子內容中之一判定，判定在該電子內容中存在一相關主題資訊差距；及回應於存在一相關主題資訊差距之一判定，將該相關主題資訊差距之一識別符增添至該組資訊差距。
如請求項13之電腦程式產品，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：相互比較作為該電子內容中之該等所識別主題之部分的在該電子內容內所找到之任務主題，以識別該電子內容中之相關任務主題；判定該等任務主題中之一或多者是否包含一先決條件；判定該電子內容中之一或多個相關任務主題是否不包含該先前條件以識別一先決條件資訊差距；及回應於存在一先決條件資訊差距之一判定，將該先決條件資訊差距之一識別符增添至該組資訊差距。
如請求項13之電腦程式產品，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：相互比較作為該電子內容中之該等所識別主題之部分的在該電子內容內所找到之主題，以識別應在該電子內容內連結但未連結的相關主題；判定該電子文件中之一或多個相關主題在該電子內容內是否未連結以識別一連結之主題資訊差距；及回應於存在一連結之主題資訊差距的一判定，將該連結主題資訊差距之一識別符增添至該組資訊差距。
如請求項13之電腦程式產品，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：相互比較作為該電子內容中之該等所識別主題之部分的在該電子內容內所找到之主題，以識別被分類為不同類型之主題的類似主題；判定該電子內容中之一或多個類似主題是否經指定為具有一不同主題類型以識別一主題類型不一致資訊差距；及回應於存在一主題類型不一致資訊差距之一判定，將該主題類型不一致資訊差距之一識別符增添至該組資訊差距。
如請求項13之電腦程式產品，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：比較作為該電子內容中之該等所識別主題之部分的在該電子內容內所找到之主題中之術語與該電子內容中的此等術語之每一不一致或遺漏之定義；判定是否存在在該電子文件之主題中之術語之一或多個不一致或遺漏之定義以識別一定義資訊差距；及回應於存在一定義資訊差距之一判定，將該定義資訊差距之一識別符增添至該組資訊差距。
如請求項22之電腦程式產品，其中該等術語為首字母縮略詞。
如請求項13之電腦程式產品，其中比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫以在該電子內容中產生一組資訊差距包含：識別該電子內容內之影像；判定是否存在與相關聯於該等影像之替代文字相關聯的一資訊差距以藉此識別一影像資訊差距；及回應於存在一影像資訊差距之一判定，將該影像資訊差距之一識別符增添至該組資訊差距。
一種用於識別電子內容中之資訊差距之裝置，其包含：一處理器；及耦接至該處理器之一記憶體，其中該記憶體包含指令，該等指令當由該處理器執行時使該處理器：接收待分析之電子內容；分析該電子內容以識別該電子內容內之主題或問題中之至少一者，以產生與該電子內容相關聯之主題或問題中之至少一者的一集合；比較該集合與該電子內容並且比較該集合與先前所分析之電子內容之一語料庫，以在該電子內容中產生一組資訊差距；及將該組資訊差距之一通知輸出至與該電子內容相關聯之一使用者。