TW202334839A - 用於問題回答過程的上下文澄清和消歧 - Google Patents
用於問題回答過程的上下文澄清和消歧 Download PDFInfo
- Publication number
- TW202334839A TW202334839A TW111149453A TW111149453A TW202334839A TW 202334839 A TW202334839 A TW 202334839A TW 111149453 A TW111149453 A TW 111149453A TW 111149453 A TW111149453 A TW 111149453A TW 202334839 A TW202334839 A TW 202334839A
- Authority
- TW
- Taiwan
- Prior art keywords
- matches
- data
- information
- query
- content
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 156
- 230000008569 process Effects 0.000 title claims description 79
- 238000005352 clarification Methods 0.000 title claims description 8
- 230000009466 transformation Effects 0.000 claims description 75
- 239000013598 vector Substances 0.000 claims description 63
- 230000004044 response Effects 0.000 claims description 43
- 238000004891 communication Methods 0.000 claims description 28
- 238000000844 transformation Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 12
- 238000003058 natural language processing Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 94
- 239000003795 chemical substances by application Substances 0.000 description 45
- 230000037406 food intake Effects 0.000 description 23
- 230000000875 corresponding effect Effects 0.000 description 20
- 230000002452 interceptive effect Effects 0.000 description 18
- 238000012549 training Methods 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 13
- 230000003190 augmentative effect Effects 0.000 description 12
- 239000000463 material Substances 0.000 description 10
- 230000001131 transforming effect Effects 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 10
- 238000007726 management method Methods 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013140 knowledge distillation Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008846 dynamic interplay Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明揭示了方法、系統、裝置、設備、媒體及其他實施方案,其包括一種方法,該方法包括:接收代表與一或多個源文件的源內容相關的一問題的查詢資料;及導致對保持與該一或多個源文件相關的資料部分的一資料存放庫之一搜索以判定該查詢資料與該等資料部分之間的多個匹配之一集合。該方法另外包括:識別與多個匹配之該集合相關聯的一或多個概念,其中該等所識別概念中之至少一者與該多個匹配中之至少一些相關聯且包括與該多個匹配中之彼等一些相關聯的不同的各別值;獲得與該等所識別概念中之該至少一者相關的消岐資訊;及基於該所獲得消岐資訊選擇該多個匹配中之至少一者。
Description
相關申請案之交互參照
本申請案主張2021年12月23日申請之美國臨時申請案第63/293,343號的優先權,該案之內容以引用方式併入本文中。
本發明係關於用於產生對使用者提交之查詢的回應的問題回答系統,且特定而言係關於用於經由判定消岐資訊來促進對查詢的相關答案的識別的方法。
電腦使用者常常可以存取海量資料,不論是經由公用網路(諸如網際網路)還是私有網路可存取的資料,使用者可搜索資料以找到對關於某個主題或問題的特定或一般查詢的答案或資訊。例如,組織常常收集大量文件以用作資訊存放庫,該資訊庫管理組織的雇員可存取且執行搜索的技術資訊。例如,公司可具有大的人力資源文件庫,該等文件以有望一致的方式共同定義公司的HR政策及程序。使用者(諸如公司雇員)可搜索文件集合以回答諸如「我有權要求多長的休假時間?」的問題。
根據所提交查詢的專屬性等級,問題回答系統可產生大量搜索結果(即使當Q-A系統執行某種初始篩選以消除不滿足最小相關性準則的回應時)。於是可能給使用者呈現數量龐大的可能的答案,答案的實際相關性及對所提交查詢的回應性僅可藉由讀完該等答案(不論是藉由閱讀呈現在搜索結果使用者介面上的短片段或總結還是存取與結果相關聯的基礎文件)來確定。
本揭露係關於一種問題回答系統,該問題回答系統經組態以:識別與該問題回答系統傳回之答案結果相關聯的概念(描述內容的摘要、元資料資訊、實體識別符資訊等),且判定消岐資訊以經由鑒於該消岐資訊消除被認為相關性比傳回答案中之其他者低的答案來幫助削減答案數。消岐資訊可基於由問題回答系統處理之可用的上下文資訊(實體名稱、針對所攝入內容段導出的抽象概念等)自動產生,或者可經由問題回答系統所促進的動態互動獲得,問題回答系統基於由Q-A系統識別的概念致使使用者提供額外資訊,額外資訊可用於對可用答案進行消岐且移除相關性較低的答案。
相關概念的識別可由Q-A系統基於與回應於查詢而產生的答案結果相關聯的上下文資訊(例如,在初始攝入源文件且將其處理成Q-A可搜索內容期間保留的上下文資訊),且基於其他可用的上下文資訊(例如,與使用者相關聯的資訊、與先前提交的查詢相關的資訊等)執行。概念的識別可經由學習機實施,該學習機經組態以自搜索結果(或其部分)識別/提煉概念。如下文將更詳細地論述,當兩個答案被判定為與相同或類似的概念相關聯、但是具有不同的(衝突性)概念值時,彼等兩個答案可被認為有歧義(且因此需要消岐以便解決現有歧義)。
有利地,本文中描述的所提議的方法及解決方案避免了用詳盡的元資料集填入可搜索內容的需要,該元資料集捕獲可能的上下文之大宇宙,可針對該等上下文使用或搜索內容(因為此種擴展性上下文資訊太難得到,且難以預測那些資訊片段將最終用於消岐)。所提議的方法及解決方案實施包括在搜索階段之後的消岐階段的高效構架(以執行對先前攝入的內容之查詢)。
因此,在一些變型中,提供一種方法,該方法包括:在本端裝置處自遠端裝置接收代表與一或多個源文件的源內容相關的問題的查詢資料;及導致對保持與一或多個源文件相關的資料部分的資料存放庫之搜索以判定查詢資料與保持在資料存放庫處的資料部分之間的多個匹配之集合。該方法另外包括:識別與多個匹配之集合相關聯的一或多個概念,一或多個所識別概念中之至少一者與多個匹配中之至少一些相關聯且包括與多個匹配中之至少一些相關聯的不同的各別值;獲得與一或多個所識別概念中之至少一者相關的消岐資訊;及基於與一或多個所識別概念中之至少一者相關的所獲得消岐資訊選擇多個匹配中之至少一者。
該方法之實施例可包括本揭露中描述的特徵中之至少一些,該等特徵包括以下特徵中之一或多者。
獲得消岐資訊可包括獲得針對關於源內容執行的近期查詢異動的查詢上下文資訊,且選擇多個匹配中之至少一者可包括至少部分地基於針對關於源內容執行的近期查詢異動的查詢上下文資訊選擇多個匹配中之至少一者。
獲得消岐資訊可包括產生提示資料以提示使用者提供澄清資訊,且選擇多個匹配中之至少一者可包括至少部分地基於由使用者回應於所產生提示資料而提供的澄清資訊選擇多個匹配中之至少一者。
產生提示資料以提示使用者提供澄清資訊可包括基於例如以下中之一或多者自動產生輸出提示:產生具有可選擇項目的列表,該等可選擇項目對應於針對一或多個上下文類別的不同值;將自然語言處理應用於所識別的多個匹配以產生具有可選擇項目的列表的提示,使用者將自該列表選擇可選擇項目中之一或多者;及/或自預定提示之集合選擇一或多個項目。
選擇多個匹配中之至少一者可包括基於由使用者提供的澄清資訊排除多個匹配中之一或多者。在此類實施例中,該方法可進一步包括:基於未自所識別匹配之集合排除的匹配反覆地產生細化提示資料,以提示使用者反覆地提供進一步澄清資訊以自所識別的多個匹配識別最佳匹配。
產生提示資料可包括呈現地圖的圖形表示以提示使用者指示地理位置,且至少部分地基於澄清資訊選擇多個匹配中之至少一者可包括回應於多個匹配中之經判定為與由使用者指示的地理位置相關的至少一者而選擇多個匹配中之至少一者。
多個匹配中之每一者可與內容上下文資訊相關聯,該內容上下文資訊可與保持在資料存放庫處的資料部分相關聯。識別與多個匹配相關聯的一或多個概念可包括至少部分地基於與多個匹配中之每一者相關聯的內容上下文資訊識別一或多個概念。
與各別資料部分相關聯的內容上下文資訊可藉由例如以下中之一或多者產生:a)將一或多種預處理應用於一或多個源文件以產生代表一或多個源文件的結構及內容的文件上下文資訊,且基於上下文資訊變換一或多個源文件以產生一或多個問題與答案可搜索文件;b)將一或多個源文件分段成複數個文件段,針對複數個文件段中之至少一個段識別至少一個段描述符,至少一個段描述符包含與至少一個段相關聯的至少一個實體、與至少一個段相關聯的至少一個任務或與至少一個段相關聯的主題描述符中之一或多者,且用至少一個描述符給至少一個段加標籤;及/或c)向資料部分中之一或多者添加使用者注解。
針對多個匹配中之每一者的內容上下文資訊可包括代表針對複數個上下文類別的值的資料,且識別與多個匹配相關聯的一或多個概念可包括判定多個匹配中之至少兩者是否與針對來自複數個上下文類別之特定上下文類別的不同值相關聯。
導致對資料存放庫之搜索以判定查詢資料與保持在資料存放庫處的資料部分之間的匹配之集合可包括將匹配之集合中的匹配配置成群組,該等群組各自共享複數個上下文類別中之一或多者。
查詢資料可包括查詢上下文資料,且導致對資料存放庫之搜索以判定匹配之集合可包括導致對資料存放庫之搜索以識別與包括在查詢資料中的查詢上下文資料相關聯的資料部分。
查詢上下文資料可包括由使用者經由地圖的圖形表示指定的地理位置資料,且至少部分地基於消岐資訊選擇多個匹配中之至少一者可包括導致對資料存放庫之搜索以識別與由使用者指定的地理位置資料相關的資料部分。
查詢上下文資料可包括指定來自複數個上下文類別之一或多個類別的類別資料,且導致對資料存放庫之搜索可包括導致對資料存放庫之搜索以識別與在查詢上下文資料中指定的來自複數個上下文類別之所指定的一或多個類別相關聯的匹配。
保持在資料存放庫處的資料部分可包括根據一或多個內容變換程序變換的源內容的經變換部分,且導致對保持資料部分的資料存放庫之搜索可包括將查詢資料變換成與經變換源內容相容的經變換查詢資料,且搜索保持在資料存放庫處的經變換內容以識別經變換內容中根據一或多種準則與經變換查詢資料匹配的一或多個候選部分。
源內容的經變換部分可包括根據來自變換器之雙向編碼器表示(Bidirectional Encoder Representations from Transformers,BERT)處理來變換的資料部分。
一或多個變換可包括例如以下中之一或多者:粗略線性化變換,用於產生代表源內容的複數個文件段的內容之粗略數值向量;或精細細節變換,用於產生代表複數個文件段的內容之經精細細節變換的內容記錄。
獲得與一或多個所識別概念中之至少一者相關的消岐資訊可包括根據例如以下中之一者獲得消岐資訊:i)第一消岐政策,其指定選自一或多個所識別概念的多個概念的預定次序,針對該等概念判定多個匹配與各別多個概念的相關性;ii)第二消岐政策,用於自一或多個所識別概念選擇概念,該概念最佳化目標函數以降低多個匹配當中的歧義等級;及/或iii)第三消岐政策,用於視覺提示使用者進行與一或多個所識別概念相關的回饋以便選擇多個匹配中之至少一者。
在一些變型中,提供一種系統,該系統包括:通信單元,其經組態以自遠端裝置接收代表與一或多個源文件的源內容相關的問題的查詢資料;及控制器,其電耦接至通信單元。控制器經組態以:導致對保持與一或多個源文件相關的資料部分的資料存放庫之搜索以判定查詢資料與保持在資料存放庫處的資料部分之間的多個匹配之集合;識別與多個匹配相關聯的一或多個概念,一或多個所識別概念中之至少一者與多個匹配中之至少一些相關聯且包括與多個匹配中之至少一些相關聯的不同的各別值;獲得與一或多個所識別概念中之至少一者相關的消岐資訊;且基於與一或多個所識別概念中之至少一者相關的所獲得消岐資訊選擇多個匹配中之至少一者。
在一些變型中,提供一種非暫時性電腦可讀媒體,該非暫時性電腦可讀媒體程式化有指令,該等指令可在計算系統的一或多個處理器上執行以:在本端裝置處自遠端裝置接收代表與一或多個源文件的源內容相關的問題的查詢資料;且導致對保持與一或多個源文件相關的資料部分的資料存放庫之搜索以判定查詢資料與保持在資料存放庫處的資料部分之間的多個匹配之集合。該等指令進一步致使計算系統:識別與多個匹配相關聯的一或多個概念,一或多個所識別概念中之至少一者與多個匹配中之至少一些相關聯且包括與多個匹配中之至少一些相關聯的不同的各別值;獲得與一或多個所識別概念中之至少一者相關的消岐資訊;且基於與一或多個所識別概念中之至少一者相關的所獲得消岐資訊選擇多個匹配中之至少一者。
以上系統及/或電腦可讀媒體之實施例可包括本揭露中描述的特徵中之至少一些,且可與方法之任何其他實施例、變型或特徵進行組合。
本發明之其他特徵及優點自以下描述及申請專利範圍顯而易知。
揭示了用於問題與答案系統(亦稱為問題回答系統或Q-A系統)的實施方案,該問題與答案系統動態判定用於評估查詢/搜索結果的相關性的消岐資訊,且基於所判定消岐資訊選擇或排除搜索結果。消岐資訊可經由用於向使用者徵求回饋的互動式過程(視覺/圖形、文字及/或口說互動)判定,該回饋可解決針對特定查詢產生的多個答案(或答案群組/叢集)之間的結果歧義,及/或經由獲取與查詢及/或回應於查詢而產生的各種答案相關的上下文資訊來判定。
本文中提議之解決方案及方法包括藉由向非結構化內容添加元資料以指示資訊相關的上下文開始的過程。例如,針對HR資料,可能需要雇員的身份及雇員居住的狀態來回答關於病假的特定問題。此資訊可能隱含在例如URL或檔案的路徑中。其可能與回答問題的文字分開,例如,在文件標題或節標頭中。其亦可基於由內容管理者提供的指導自文件內容提取。當使用者問了一個問題且答案已傳回時,收集來自有效答案的上下文資訊。在一些實例中,實施方案可判定(例如,解決上下文元素的值之間的衝突的)什麼資訊(若可用)可能將答案消岐,且可詢問使用者以判定此種資訊,使得答案經更特定地選擇成與使用者那時的需要相關。消岐查詢(或問題)可為:使用者被要求自其中選擇一或多個的(視覺呈現的)多個值之集合,由系統自動產生的問題,或自已經針對該領域形成的集合選擇的問題。此種互動式地向使用者提供自有效答案本身之集合收集的消岐查詢之集合的方法高效地向使用者傳達了得到最佳答案需要什麼資訊。
所提議方法可被視為混合互動式系統,該系統對與對內容本身的非結構化Q-A搜索相關聯的方法與結構化搜索進行組合,使用對話來引導對與內容相關聯的元資料的搜索,以便達成更佳及相關性更高的結果。此等方法部分地藉由以下來達成搜索結果的動態消岐的技術解決方案:向非結構化資料添加結構化元資料,藉由檢查有效回應之集合中的元資料來判定所需的上下文資訊(抽象概念或類別),及使用此元資料來指導澄清對話以讓使用者得到對使用者的問題的相關性最高的回應。
因此,所提議方法包括:在本端裝置處自遠端裝置接收代表與一或多個源文件的源內容相關的問題的查詢資料;及導致對保持與一或多個源文件相關的資料部分的資料存放庫之搜索以判定查詢資料與保持在資料存放庫處的資料部分之間的多個匹配之集合。該方法進一步包括:識別與多個匹配相關聯的一或多個概念,其中一或多個所識別概念中之至少一者與多個匹配中之至少一些相關聯且包括與多個匹配中之至少一些相關聯的不同的各別值;獲得與一或多個所識別概念中之至少一者相關的消岐資訊;及基於與一或多個所識別概念中之至少一者相關的所獲得消岐資訊選擇多個匹配中之至少一者。如所述,消岐資訊可基於可用的上下文資訊來判定,包括與查詢本身或與先前提交的查詢相關聯的上下文資訊,依靠時間上鄰近的查詢或空間上鄰近的查詢(例如,自相同終端提交的查詢)之間的相關性,等等。亦如所述,消岐資訊可藉由與使用者互動以提示使用者提供澄清資訊(例如,藉由給使用者呈現具有可選擇選項的列表)來判定。然後可使用澄清資訊來選擇或排除對查詢的多個所產生答案中之一或多者,且可將過程反覆地應用於細化答案集,直至將初始答案集篩選至某臨限數目個答案(例如,一個答案、兩個答案或任何其他數目個答案)。
本文中描述的方法及解決方案可在具有搜索能力(呈問題與答案的形式或其他)的任何計算構架上實施。僅為了說明而不是為了限制,將關於第1圖中描繪之架構論述本發明之方法及解決方案的一些示例性實施例,且將在下文更詳細地論述該架構。用於示出動態消岐方法之實施例的示例性Q-A構架的論述隨後將後續接著對(參考第2圖及第4圖提供的)動態消岐方法的更詳細論述。
示例性問題與答案系統架構
參考第1圖,提供了用於文件處理及回應產生的示例性系統100的圖。標題為「DOCUMENT PROCESSING AND RESPONSE GENERATION SYSTEM」的國際申請案第PCT/US2021/039145號中提供了關於系統100的進一步細節,該案之內容以全文引用的方式併入本文中。
系統100經組態以攝入源文件(例如,顧客的大容量文件庫,或諸如電子郵件資料、協同平台資料等資料的其他存放庫),以將文件變換成表示自源文件至可搜索所得物件(所得經變換)文件的映射之文件物件(稱為文件物件模型或DOM文件)。彼等文件物件可儲存於DOM存放庫(亦稱為知識提煉或KD存放庫)中。與提供該文件庫的顧客相關聯的使用者(例如,顧客的雇員)隨後可提交查詢(例如,自然語言查詢,諸如「年資為2年的雇員一年有多少天休假?」),系統100處理該查詢,且在另外無法自用於常見問題之快取記憶體獲得快速回答的情形中,將該查詢處理並變換成與所攝入文件的格式相容的格式以識別所攝入文件中之一或多者中可能含有對使用者的查詢的答案之部分。系統隨後向使用者傳回輸出資料,輸出資料包括例如指向源文件(對應於所識別的一或多個所攝入文件)中之一或多者內的位置的指標,使用者隨後可直接存取該一或多者以擷取對查詢的答案。或者,或另外,在一些實施例中,輸出可包括對使用者的查詢的答案及/或含有答案的文件之一部分(例如,段落)。有利地,傳回至使用者的輸出不需要(但是在一些實例中,必要時,該輸出可能)包括使用者所尋找的特定資訊,而是僅包括指向儲存於安全地點中的源文件之一部分的指標,未經授權來存取該源文件的各方不能存取該源文件。此種答案判定方法因此增強了傳輸敏感資訊(例如,機密的或私密的)的安全性特徵。如本文所論述,在查詢產生多個答案(其中一些可具有衝突值)的情形中,輸出可包括動態產生的提示,該等提示要求使用者提供回饋以解決所傳回答案中的歧義。
在一些實施例中,搜索文件物件存放庫以找到對查詢的答案通常包括兩個操作:(1)第一,執行稱為快速搜索或快速匹配(Fast Match,FM)過程的過程,及(2)快速匹配過程隨後後續接著稱為詳細搜索或詳細匹配(Detailed-Match,DM)過程(本文中亦稱為「精細細節」搜索)的過程。FM過程及DM過程都可基於BERT (來自變換器之雙向編碼器表示)模型。在FM情況下,模型產生(在一些實施方案中)例如針對查詢的一個向量及針對一個段落(例如,可能亦包括上下文資料的200字的視窗)的一個向量。在DM中,每個查詢或每個段落通常有多個向量,與例如查詢或段落中的字或子字的數目成比例。
應注意,在一些實施例中,查詢及/或源文件的變換可在顧客的網路處執行,其中經變換查詢及/或經變換內容隨後被傳達給中央伺服器。此類實施例可改良跨網路傳達敏感資料的私密性及安全性,因為所得向量(經由內容或查詢資料的變換導出)係在顧客(客戶)的安全空間中產生,且因此唯有所得經變換向量(而不是實際內容或查詢資料)在集中式雲端伺服器處可用或存在。在客戶的裝置處對內容或查詢的變換可充當應用於被變換的資料的一種類型的加密,且將因此導致安全的處理,該處理保護資料免受伺服器雲端上的攻擊。在一些實施例中,在客戶的網路處被變換的資料可另外經加密以提供客戶的資料(該資料為源資料或查詢資料)的進一步增強的安全傳達。
如第1圖中所描繪,系統100通常包括與顧客的網路150a (其係在示例性系統100中存取文件處理代理器110的
n個顧客網路/系統的網路)通信的文件處理代理器110 (其可為基於AI的代理器)。文件處理代理器110可實施為獨立的遠端伺服器,該遠端伺服器服務於多個顧客,例如顧客系統150a及150n,且可經由網路通信(網路係私有網路或諸如網際網路之公用網路)與此類顧客通信。與顧客的單元的通信經由包含一或多個通信介面(諸如伺服器介面120、管理介面125、具有歧義解析器的互動式使用者查詢介面130及/或專家介面132,在第1圖中示意性地表示所有該等介面)的通信單元來實現,該通信單元通常將包括通信模組(例如,用於有線網路通信及/或用於無線網路通信的收發器,其中此類收發器根據各種適當類型之通信協定來組態)。或者,文件處理代理器110可不需要位於遠端位置處,而是可為顧客網路內的專用節點(例如,其可實施為在顧客的一或多個基於處理器的裝置中之一者上運行的過程,或者可為與邏輯本端節點實施於同一計算裝置上的邏輯遠端節點;應注意,術語「遠端裝置」可指代顧客站台,而「本端裝置」可指代文件處理代理器110,反之亦然)。代理器110在顧客的網路(諸如顧客網路150a-n中之任一者)外執行的配置可改良資料安全性,但是私密運行的成本可能更高。
另外在其他替代性實施例中,系統之一些部分(例如,經組態以對源文件及/或由使用者提交之查詢執行預處理及向量化(參數化)操作的攝入單元可位於顧客的網路的防火牆內,而所攝入文件的儲存器(及可選地,用於搜索所攝入內容的搜索引擎)可位於顧客的網路的防火牆外(例如,集中式雲端伺服器上))。在此類替代性實施例中,發送至雲端伺服器(例如,以在集中位置處執行搜索)的資料可能已經處理成經編碼的(所攝入)內容(例如,經由向量處理,該向量處理可經由例如應用於固定大小的輸入段之粗略變換,及/或應用於比粗略變換器所處理的部分小的部分之精細細節數值變換來實施),該經編碼的內容係未經授權來利用資料的第三方不能理解的,因此向將要使用系統100來處理的資料添加另一種私密性及安全性保護措施。在此等替代性實施例中,輸入查詢的處理的初始部分亦可在顧客網路的防火牆內處理。除了在客戶的防火牆內執行(源內容及/或查詢的)變換之外,此種經變換資料在傳輸至文件處理代理器110之前可(使用對稱或不對稱的加密密鑰)進一步進行加密,因此增加針對顧客的網路與集中式文件處理代理器(其服務於多個顧客)之間的通信實現的安全性/私密性等級。
示例性顧客網路150a可為一組分散的站台,可能具有可由管理者(自站台152)控制的專用安全閘道器(藉由防火牆及/或其他安全性措施)進行保護。顧客通常已經積聚了大量電子文件(包括例如與顧客的操作相關的技術文件、諸如人力資源文件的管理文件及呈電子形式的所有其他類型的書面文件)。文件配置於文件庫160(文件庫可為顧客網路150a的計算的一部分)中,且可由各種授權使用者在網路150a內的使用者站台154a-c處存取且由管理者(經由管理者站台154)存取。任何數目個站台可部署於任何特定顧客網路/系統中。管理者站台152可藉由控制特權及以其他方式管理文件(例如,對庫160內的特定文件的存取、對內容的管理以隱藏不符合私密性要求的部分等)來控制對庫160中的文件的存取。如下文將更詳細地論述,除了庫160 (含有與在網路上操作的實體之操作相關的文件)之外,其他資料或資訊源可自顧客所採用的各種應用程式(例如,電子郵件應用程式、諸如Slack的聊天應用程式、諸如Salesforce的顧客關係應用程式等)獲得以經由本文中描述的文件處理實施方案進行處理。
管理者站台152經組態以經由例如管理介面125與文件處理代理器110通信。除了其他功能,管理者可給文件處理代理器110提供識別源文件在保持複數個源文件的存放庫(庫) 160中的位置之資訊,控制文件處理代理器110關於顧客網路150a的功能性的組態及操作,審查由代理器110產生的資料(例如,無視某些答案),給文件處理代理器110提供訓練資料等。站台152與管理介面125之間的通信可基於任何通信技術或協定來建立。為了增強安全性特徵,文件處理代理器110與管理者站台152之間的通信可包括鑑認及/或加密資料(例如,使用提供給文件處理代理器110及管理者站台152的對稱或不對稱的加密密鑰)。使用在管理者站台152與介面120及125之間建立的通信鏈路,管理者提供文件處理代理器110存取文件庫所必需的資訊。例如,管理者站台可發送訊息,該訊息給文件處理代理器110提供文件庫160的網路位址(及/或代理器110要存取及處理的庫內的文件的識別碼)。管理者站台繼而可接收加密密鑰(例如,私密對稱密鑰,或對應於代理器110所使用的私密不對稱密鑰的公開密鑰),該加密密鑰將用於對要傳送至代理器110的文件的內容進行加密。管理者站台152與管理介面125(或諸如介面120及130的其他介面中之任一者,管理者可與該等介面通信)之間的通信亦可用於建立其他組態設定,該等設定控制顧客網路150a與文件處理代理器110之間的資料及資訊交換,如下文將更詳細地描述。
一旦已經給文件處理代理器提供文件庫160的位置(例如,表示為網路位址)及控制顧客網路150a與代理器110之間的資料傳輸的通信特徵,代理器110就可開始自存放庫(庫) 160接收文件的資料傳輸。管理者站台152可控制所發送內容,且對要發送至文件處理代理器110的文件執行某種傳輸前處理,該處理包括移除敏感內容(例如,私密細節)、對內容進行加密(例如,使用對應於代理器110處的私密密鑰的公開密鑰)、鑑認要傳輸的資料等。文件處理代理器110經由伺服器介面120接收自顧客網路150a傳輸的資料,且對所接收資料執行資料預處理,該處理包括資料鑑認及/或解密、格式變換(若需要)等。伺服器介面120隨後將對應於自文件庫160發送的文件的資料(經受由介面120執行的任何預處理)傳遞至文件攝入引擎126,該文件攝入引擎處理所接收文件以將其變換(轉換)成表示,該表示允許判定及產生對網路150a的使用者所提供之查詢的答案。通常,在應用變換之前,將源文件分段成多個部分(例如,200字的部分,或任何其他基於字的段),其中分段係根據用於將來自文件的各部分的內容連接成離散段的各種規則來執行。預處理(即,預變換)規則的實例為,使用固定或可變長度的滑動視窗來建構段,這對在滑動視窗所捕獲的內容前面的一或多個標頭進行組合,且因此產生一或多個標頭與視窗所捕獲的內容之間的上下文關聯。此種規則確保對段執行的變換將重要的上下文資訊與定位成與被處理的段相遠隔(例如,在源文件中相隔更遠)的內容進行組合。
在將源文件分段及/或執行其他類型的預處理(如下文將更詳細地描述)之後,文件攝入引擎126經組態以將一或多種類型的變換應用於文件段以將段變換成可搜索段(例如,問題與答案可搜索段)。可應用於段的一種類型的變換係基於將通常包含多個字/符記之固定大小(或大體上固定大小)的段變換成數值向量以便實施快速搜索過程。此種搜索通常為粗略搜索,因為其通常(回應於使用者提交之查詢而)傳回相對高的數目個結果(命中),因為搜索係基於匹配由包含相對大的數目個字(符記或特徵)之輸入資料產生的向量,且因此,可由此種變換達成的解析度低於由變換更小的段達成的解析度。因此,基於粗略向量變換的結果所提供之經變換內容的文字意義的表示不如應用於更小的段之其他變換準確。另一方面,顧名思義,快速搜索可相對快地執行,且因此可用於將(對所提交查詢之)可能的答案的可能的候選者挑選至隨後可更仔細地搜索(可能經由基於另一種類型的變換的搜索)的大小或數目。攝入引擎可應用的另一種變換為用於產生精細細節向量變換的變換,該等精細細節向量變換可用於更窄地精準確定具有一些文字段(例如,段落)特定答案字序列的答案的位置。通常,被應用精細細節變換的文件段可為比快速搜索段(其通常具有固定大小,例如200個字,且因此通常不能精準確定答案(若答案存在)在段內的確切位置)更精細的粒度(解析度)。
更具體而言,將快速搜索變換(例如,經由神經網路、篩選器等)應用於段以產生向量,該等向量具有基於文件段的內容且因此代表該內容的值。如下文將更詳細地論述,文件攝入引擎126可應用若干方法以根據快速搜索變換來變換資料。在一個實例中,可將代表內容的資料變換成向量表示(例如,固定大小向量或可變大小向量)。因此,在此實例中,變換將文字內容變換成數字值的向量,其可能或可能不與元資料(例如,基於文字的元資料,其提供可用於進一步處理的額外資訊)或其他上下文資訊相關聯。所得經變換向量可代表與已變換的輸入段相關聯的可能的問題及答案。產生代表輸入(包括上下文關係)的內容的此種向量值的變換之實例為來自變換器之雙向編碼器表示(Bidirectional Encoder Representations from Transformers,BERT)。
針對由文件攝入引擎126執行之精細細節變換,通常將源資料(例如,根據一或多種規則或準則自源文件分段的基於文字的部分,其中經分段部分的大小通常小於用於快速搜索變換的源段)變換成多個經向量化的(數值/參數化的)經變換內容。精細細節變換亦可根據BERT來實施。由文件攝入引擎126進行的處理可包括判定至少一些基於語言的資訊的自然語言預處理,諸如偵測及記錄已命名實體(例如,人名及公司名)在文件中的位置、將結構化資料(諸如表)擴展成可搜索形式的等效文字、將資訊轉換成知識表示(諸如預定義的訊框結構)、提取語意意義等。在一些實施例中,可將所得經精細細節變換的資料與被變換的原始內容以及所導出的或所提供的元資料進行組合(儘管此種元資料並非關鍵的,但是它可促進針對文件的智能搜索及問題回答的執行)。在一些實例中,可用可能與源段相關的自動問題進一步擴增經變換內容及源段的組合,使得對此等所產生問題與特定段(或在包括全部源內容及對應的經變換內容之完整文件中的特定位置中)或與特定資訊欄位進行組合。在處理來自使用者的問題時,使用者的問題與此類自動產生的問題之間的相似性可用於藉由傳回資訊(例如,指標或實際的使用者可理解的內容)來回答使用者的問題。
繼續參考第1圖,由文件攝入引擎126產生的所攝入內容儲存於文件物件模型(document object model,DOM)存放庫140中。存放庫140通常在可自存放庫140與文件處理代理器110的其他模組/單元之間的多個存取/介接點存取的一或多個資料儲存裝置(分散的,或在單個本端位置處可用)上實施。在第1圖的圖中,存放庫140被描繪為具有兩個存取點,其中一個存取點為攝入引擎126與存放庫140之間的單向鏈路(即,用於允許將內容自引擎126寫入至DOM存放庫140中的鏈路)及連接至查詢處理模組136的雙向存取點,該查詢處理模組向DOM存放庫140提供查詢資料(以便搜索儲存於存放庫中的DOM記錄)且接收轉發至提交查詢的使用者的搜索結果(可選地,在某種進一步處理之後,該處理可能包括經由與使用者的互動式反覆交換進行的消岐處理)。在一些實施例中,對存放庫的存取點可實施為連接至經組態以執行查詢處理及文件攝入操作之模組的單個點。
DOM存放庫140經組態以(結合文件攝入引擎126及/或查詢處理模組136)儲存、管理及搜索DOM記錄142a-n。DOM記錄的內容通常取決於由文件攝入引擎126執行的變換。DOM記錄可包括與特定源文件或源文件部分相關聯的資料項。例如,一個DOM記錄可為項目之集合,該集合包括:源文件的原始部分、針對該源文件部分的元資料、與該源文件部分相關聯的上下文資訊、由應用於源文件的原始部分的一或多個固定大小(或大體上固定大小)的段之變換產生的對應的粗略向量(以促進快速搜索過程)、由經變換的精細細節產生的對應的所得經精細細節變換的內容(以促進更準確且細化的文字搜索)等。因此,若變換產生了代表段的文字內容的值的向量,則該向量儲存於存放庫中,可能與(添加或嵌入至向量中的)元資料相關聯及/或與原始內容相關聯(在保留實際的原始文字內容的情形中;在一些實施例中,出於安全性或私密性原因,源內容可在其攝入時被丟棄,或者可能僅在顧客的地點處可用)。與經變換內容相關聯的元資料可包括:與原始源內容相關聯的上下文資訊,及指示產生了經變換內容的源內容在大的源文件內的位置或定位之文件位置資訊。此種文件位置資訊可以指向儲存於顧客網路中的源文件之記憶體位置(或記憶體偏移位置)的指標資訊的形式提供,即,使得當指標資訊傳回至請求使用者時,它可用於定位可找到構成對使用者的查詢的答案之相關內容的記憶體位置。
儲存於存放庫140中的經變換內容(其可包括由應用於經分段內容的各種變換產生的若干經變換內容項)、元資料及/或源內容可共同定義統一記錄結構,其中經變換內容、元資料及/或原始源內容中之每一者係統一記錄結構的欄位或段。當個別記錄對應於更大的源文件之離散文件段時,可使該等記錄彼此關聯(例如,藉由將其依序配置,或者經由邏輯或實際鏈路/指標)以定義更大的文件部分(例如,特定文件的章),或定義被分段及攝入的整個原始文件。
如第1圖中進一步展示,文件處理代理器110進一步包括查詢單元(亦稱為查詢堆疊),該查詢單元經組態以接收輸入(代表來自一或多個使用者的查詢的資料,使用者經授權以提交關於配置於DOM存放庫140中的所攝入文件中之至少一些的查詢),且繼而提供傳回至起始使用者的輸出資料。查詢堆疊包括於查詢處理模組136 (亦稱為查詢引擎)通信的具有歧義解析器的互動式使用者查詢介面130 (其可類似於伺服器介面120,或者使用與伺服器介面120相同的硬體及軟體來實施)。如下文將更詳細地論述,查詢處理模組可包括變換引擎以將類似變換應用於使用者提供的查詢,以產生與保持在DOM存放庫140內的DOM記錄142a-n中的經變換內容相容的經變換查詢資料。經變換查詢可包括:可用於在存放庫140中搜索經數值向量變換的內容的經粗略數值向量型變換的資料、經精細細節變換的查詢(可用於在存放庫140中搜索格式類似的經精細細節變換的內容),或可能已經用於攝入源文件的任何其他經變換格式。如下文經進一步論述(參考第2圖),具有歧義解析器的互動式介面130經組態以:不僅接收及處理來自使用者的查詢資料且將查詢輸出提供回給使用者,而且(獨立地或與代理器110的其他模組相結合)判定消岐資訊。該消岐資訊可包括(與查詢一起)最初提供的消岐資訊以幫助進行對由代理器110管理的可搜索內容(在DOM存放庫140中或快取記憶體135中)執行的初始搜索/匹配操作(例如,前置篩選操作)。消岐資訊亦可包括動態產生的後置篩選消岐資訊,該資訊被呈現給使用者以請求使用者提供澄清資訊來解決存在於查詢結果中之兩者或更多者中的歧義。例如,當兩個答案與相同或類似的概念/資訊類別(其係實體名稱、相關聯的上下文資訊,或使用自然語言處理或學習粗略實施方案導出的某種抽象概念)相關聯,但是具有不同的概念/類別值時,可向使用者提供中間輸出(例如,作為視覺消岐提示或音訊消岐提示),該中間輸出請求使用者提供指定所識別概念中之哪一者與使用者的查詢的相關性更高之澄清資訊。然後使用使用者傳回的消岐資訊來:選擇初始匹配中之一或多者(且可消除一些其他匹配),及/或對初始或剩餘匹配進行排序(基於使用自使用者傳回的輸入來判定之計算出的相關性)。
在存放庫140包括多種類型的經變換源內容的實施例中,對存放庫140的搜索可實施為多分叉搜索。例如,因為粗略數值向量表示通常更緊湊且更容易搜索(但是可能不如經精細細節變換的表示準確,無論經精細細節變換的表示係由BERT型變換還是某種其他變換達成),用於判定對所提交查詢的答案的搜索之第一分叉可為:將查詢資料轉換成粗略向量表示,且使用該第一經變換查詢表示來在存放庫140中搜索(例如,根據某種接近度準則,該準則可表示經變換向量查詢資料與經變換向量所攝入內容資料之間的距離或差異)與查詢資料的粗略數值型變換匹配的記錄。此種類型的初始搜索可稱為快速搜索。搜索的結果可導致識別一或多個答案候選者(例如,識別可能含有回應於由使用者提交的查詢的答案字序列之1000個或任何其他數目個可能的段)。然後可使用所識別的第一批可能結果來藉由以下操作執行搜索的第二階段:將查詢轉換成經精細細節變換的查詢,及搜索與在搜索過程的第一階段中識別之搜索結果相關聯的經精細細節變換的內容。此搜索階段可稱為詳細搜索或細粒度搜索。應注意,在一些實施例中,可使用快速搜索來識別與源內容的所識別候選者相關聯的原始部分,且然後可將彼等所識別部分變換成精細細節變換內容。在此類實施例中,存放庫140不需要保持經精細細節變換的內容,而是基於哪些部分已經由快速搜索識別為可能含有對查詢的答案來進行源內容的變換。在替代性實例中,可直接在全部經精細細節變換的內容記錄上執行對查詢的答案的搜索,而無需首先經由對經快速搜索的經變換內容記錄的快速搜索來識別源內容之可能的候選部分。
因此,在一些實施例中,查詢堆疊(例如,查詢處理模組136)經組態以將查詢資料變換成與經變換源內容相容(例如,與DOM存放庫140中的經變換內容記錄中之一或多者相容)的經變換查詢資料。例如,快速搜索相容變換可為應用於全部查詢資料(例如,自然語言問題)以產生單個向量結果之粗略BERT型變換(例如,使用學習引擎,該學習引擎實施的經訓練學習模型與用於由源資料產生可搜索的經變換內容的模型相同或類似)。查詢處理模組可例如開始快速搜索過程,在此過程中查詢處理模組識別經變換源內容(利用由粗略變換產生的各別數值向量)中根據第一準則與經變換查詢資料匹配的一或多個候選部分。例如,匹配操作可基於某種接近度或相似性準則,該準則對應於計算出的經向量變換的查詢資料與存放庫140中的各種經向量變換的內容記錄之間的某種計算出的距離量度。如本文所描述,在一些實施例中,經變換內容可包括對應於使用者可能問到之可能的問題的向量,源內容提供對該等問題的可能的答案。快速搜索因此可在一些實施例中對經變換查詢結果(通常為所得向量記錄)與代表可關於源內容問到的可能的問題的可搜索向量記錄進行比較,彼等可搜索向量係由源內容產生。
查詢處理模組136可進一步經組態以自對應於基於其經粗略變換的向量來識別之一或多個候選部分的一或多個經精細細節變換的內容記錄判定根據第二準則(例如,某種其他接近度或相似性量度,或關於粗略變換資料所應用的相同準則)與查詢資料的經精細細節變換的資料匹配之至少一個經精細細節變換的內容記錄。或者,在未執行快速搜索的實施例中,查詢處理模組136可經組態以識別經變換源內容中具有根據第二準則與經變換查詢資料匹配之各別經精細細節變換的內容記錄的一或多個候選部分。
在一些實施例中,介面130及/或查詢處理模組可耦接至查詢快取記憶體135及問題產生單元(其可為查詢處理模組136之一部分或查詢快取記憶體135之一部分,或者可為單獨的單元)。查詢快取記憶體135儲存對應於頻繁問到的問題的答案/內容以及其他。此類答案/內容可包括先前回應於先前提交的查詢而自DOM文件(及/或自其對應的原始源內容)擷取之內容。與此類快取答案相關聯的計數器可追蹤已經提交及/或擷取特定問題及答案的頻率。快取記憶體135亦可經組態以丟棄在某個參考(臨限)時間間隔內未被請求的快取內容。答案快取記憶體中的內容亦可能已經由預料到一些可能的問題的管理者(例如,經由管理介面125自諸如站台152的站台操作)儲存,顧客系統(網路) 150a預期會提交該等問題或無視可能已經自DOM存放庫140擷取的內容(例如,基於來自使用者的後續回饋被判定為不準確或不回應於所提交查詢的內容)。因此,在一些實施例中,查詢堆疊經組態以:判定所接收查詢資料是否與預定問題(其可儲存於答案快取記憶體中)中之一者匹配,且回應於判定所接收查詢資料與預定問題中之一者匹配而基於一或多個答案資料記錄(可能儲存於答案快取記憶體內)產生輸出資料。在一些實施例中,查詢資料與儲存於快取記憶體中的過去的問題及相關聯的答案之匹配可藉由以下操作來執行:計算基於問題與其答案的組合的得分,及對計算出的得分進行排序以識別一或多個可能匹配的候選者。
查詢處理模組亦可包括問題產生引擎,該問題產生引擎可判定(例如,基於經訓練學習引擎及/或使用問題資料存放庫)經由查詢資料提交的一或多個問題的後續或相關問題。後續問題可藉由對所提交查詢進行釋義(例如,使用例如經訓練學習引擎對所提交查詢進行變換及/或正規化以修改所提交問題)來產生。在一些實施例中,可(由單獨的模組)處理針對所提交查詢(例如,基於經由查詢處理模組136自DOM存放庫140擷取的內容)判定的答案資料以自答案制定另外的問題。然後可向查詢處理模組再次提交此類導出的問題以擷取後續答案。此過程可反覆地重複高達預定次數。在一些情形中,儲存於DOM存放庫140中的內容可使多個問題(以在文件攝入階段期間應用的任何變換格式表示)與源文件的每個經處理段相關聯。如所述,經變換內容的產生針對每個經處理段可包括:代表與經處理段相關聯的問題的資料、元資料,及可在經變換格式及/或原始源內容中提供的內容。因此,在提交查詢(通常以例如根據粗略BERT型或精細BERT型變換計算出的經變換格式)時,將識別至少一個DOM記錄/元素。該搜索結果可能與多個問題相關聯,包括可能已經導致所識別結果與所提交查詢之間的匹配的問題。額外問題(即,除了與查詢匹配的問題)中之一或多者可用作要再次提交之單獨查詢以便進行搜索以識別與使用者提交的原始查詢相關的額外內容。
如第1圖中進一步展示,對查詢的答案的判定可由使用者經由在站台154a與介面130之間建立的鏈路170 (如關於經建立以傳遞供攝入的源文件的鏈路所述,鏈路可基於任何類型的通信技術或協定,包括有線及無線通信協定)提交查詢172起始。查詢172可為使用者提交的實際的未處理問題,或者可經部分或全部變換(例如,出於說明性及安全性原因)。例如,站台154a可應用與攝入引擎126所應用的變換相稱的變換(在此情況下,在查詢堆疊處執行類似的變換可變得不必要)。或者,或另外,可對查詢172執行鑑認及加密處理。查詢(問題資料)172被傳輸至文件處理代理器110,且在使用者查詢介面130處被接收。在接收到查詢時,可對適當答案在預定答案的快取記憶體135中是否可獲得進行判定。若存在預定的問題與答案(例如,查詢資料與一或多個預定問題匹配),則使用預定答案中之一或多者來產生經由鏈路170(或經由某種其他鏈路)傳回至使用者的輸出資料(示出為輸出資料174)。
通常,查詢資料由查詢堆疊變換成經變換查詢資料(若查詢資料在站台154a處還未變換)。經變換資料可以與儲存於DOM存放庫140中的經變換源內容的格式化相容的一或多種變換格式提供查詢。在一些實施例中,查詢資料亦可用於產生一或多個額外問題(例如,後續問題,或與使用者提交的原始查詢相關的問題)。在對查詢的答案可自答案快取記憶體獲得的情形中,該答案本身可用作產生可能與快取答案相關的另外一或多個問題的基礎。查詢或經變換查詢用於經由查詢處理模組136搜索DOM存放庫140。如所述,搜索可根據用於在DOM存放庫140中儲存資料的多種變換格式作為多分叉過程來執行。
回應於所提交查詢而產生的輸出通常包括指向在顧客網路150a處可用的源內容的指標。因為儲存於存放庫140中的資料係基於在顧客網路處可用的文件庫處保持的源文件攝入的,且因為源文件可能並未以其原始形式儲存於文件處理代理器110處(例如,出於安全性原因,為了保護敏感資料免受損害),所以傳回至使用者的輸出不要求將實際答案資料發送回至使用者。相反,作為查詢的輸出所傳回的指標可識別答案的位址或位置,其中適當的文件在使用者的網路150處可供使用者獲得。例如,在第1圖之所示出實例中,輸出資料被展示為指向答案在(連同文件162b-d儲存於庫160中的)文件162a中的特定位置之指標。此種指標因此可包括表示文件162a的資料,例如,文件的開頭所在的網路位址或記憶體位置,及文件的部分的特定位置(例如,自文件162a的開始位置的開頭的相對偏移,或者所識別部分的起點所在的實際位址或記憶體位置),該(等)部分表示對使用者在站台154a處問到的問題的答案。在輸出資料中提供的指標資料可能已包括在DOM記錄的元資料欄位中,該DOM記錄包括(例如,由查詢處理模組136)判定為(根據一或多種所應用的匹配準則)與使用者提交的查詢匹配之經變換內容資料。在一些實施例中,除了指標資料之外或代替指標資料,輸出資料可包括對應於經變換內容的至少一個部分的源內容的至少一部分及/或對應於經變換內容的至少一個部分的源內容的總結。
用於處理多答案搜索結果的消岐資訊
如關於第1圖所論述,向文件處理代理器110提交查詢(例如,經由介面130),回應於查詢,文件處理代理器110將傳回匹配之集合。通常,所傳回匹配滿足一或多種相關性或匹配準則,但是匹配之集合可包括經判定為回應於查詢的多個答案,例如,因為查詢不夠特定,且因此發現來自儲存於DOM存放庫140中的內容的多個答案滿足在對DOM存放庫140的搜索期間應用的一或多種匹配準則。例如,在使用多個不同的計算系統之公司的技術電子文件中搜索的查詢「我怎麼安裝瀏覽器?」可找到數十個不同的答案,該等答案與可安裝在該公司所使用之不同的可用計算平台及作業系統上的不同瀏覽器相關。因此,查詢產生多個答案(例如,與在諸如Mac
TM系統或基於Windows
TM的系統之不同計算系統上安裝Chrome
TM瀏覽器相關的答案、與在不同計算系統上安裝Explorer
TM相關的答案等),該等答案係針對大體上相同的概念(即,安裝瀏覽器的概念)且具有不同的可能合理的答案(即,與大體上相同的概念相關聯的不同值)。類似地,對諸如「我的膝上型電腦的電池壽命是多少?」之查詢的答案取決於膝上型電腦品牌、型號及還未指定的其他技術細節,且因此映射至多個可能的答案,該等答案提供關於不同類型的電腦的電池壽命的資訊。針對查詢的所得多個答案在提交查詢的使用者在搜索什麼方面產生歧義,需要更多的專屬性及消岐來解決該歧義。
因此,本文中描述的解決方案及方法解決了自大的非結構化資料回答問題的難題。每個問題都有可能傳回許多有效答案,且因此需要額外資訊以便對問題進行消岐且自該組有效的一或多個答案進行選擇(及/或對答案進行排序)。可經由與使用者的互動對話收集此額外資訊。所提議的解決方案有若干部分,包括:
1) 判定需要什麼資訊以便在對相同問題的不同的有效答案之間進行消岐;
2) 使該資訊與內容中答案出現的適當位置相關聯;
3) 當詢問問題時,判定需要什麼上下文資訊以便在對該問題的不同答案之間進行消岐;
4) 判定如何向使用者互動式地徵求資訊;
5) 基於所提供的上下文資訊選擇相關答案。
在一些實施例中,聊天機器人技術可藉由提供工具來設計對話,使得澄清問題被設計至對話流程中來解決消岐問題。根據對一個問題的答案,當已經收集所有上下文資訊時,使用者可能被問到另一個問題或被提供答案。此方法依靠將感興趣的問題正確地分類,這需要基於示例性問題來建構模型、設計提示來引導所需實體,及對答案授權。本文中提議的解決方案使獲得消岐資訊的操作中之許多操作自動化。
因此,參考第2圖,展示了用於判定供查詢程序之執行期間使用的消岐資訊的構架的流程圖200。流程圖200示出在類似於關於第1圖所示出的計算構架的計算構架中之操作。然而,可在其他計算構架及組態上執行類似的消岐資訊判定過程。流程圖200包括若干部分,該等若干部分對應於所提議構架之單獨的功能性及階段。在框210內描繪的第一處理階段/部分包括經組態以向非結構化內容添加結構的處理。與框210相關聯的處理可基於類似於第1圖的文件處理代理器110之實施方案的實施方案來實施。在方塊212中,顧客(例如,實體或組織)提供資訊(包括非結構化資訊,諸如要處理及轉換成可搜索文件的文件)及結構化資訊。例如,在方塊212中,在管理者站台(諸如站台152)與處理代理器(諸如第1圖的處理代理器110)之間建立通信鏈路。經由管理者站台進行互動的管理者可(經由管理介面,諸如第1圖的介面125,該介面實施與遠端或本端計算系統的連接性)給文件處理代理器提供識別源文件在保持複數個源文件的存放庫(諸如第1圖的文件庫160)中的位置的資訊,控制文件處理代理器110關於顧客的網路的功能性的組態及操作。關於要處理的文件的資訊可呈網路位址及用於存取文件存放庫的存取資訊的形式。或者,資訊可包括實際內容(原始的,或以某種形式經變換)。管理者站台與管理介面125之間的通信可基於任何通信技術或協定來建立,且可包括鑑認及/或加密資料。例如,管理者站台可發送訊息,該訊息給文件處理代理器110提供文件庫160的網路位址(及/或代理器110要存取及處理的庫內的文件的識別碼)。
顧客提供的資訊亦可針對其他內容源提供,無論在顧客網路150a內還是其他地方,其他內容源包括:a)儲存於協作系統中的資料,協作系統諸如Slack、MS Teams、MS productivity Suite (Office 360)、Google G-Suite及類似者(儲存指定的發送者與接收者之間的電子郵件通信的傳統電子郵件伺服器亦可經處理以捕獲相關資料),b)儲存於諸如SalesForce、ServiceNow等企業SaaS應用程式內的資料,c)不同網站及不同網路應用程式的網頁內的資料,該等網路應用程式為面向顧客的網路、面向雇員的網路應用程式等。
一旦接收到顧客提供的資訊,就在方塊214處使用例如類似於第1圖的文件攝入引擎126的系統對所接收資料(例如,源文件)執行攝入處理。如所論述,攝入處理可包括應用於源文件的預處理(包括分段及上下文資訊識別),後續接著將經預處理文件變換成可搜索(例如,Q-A可搜索)內容。由方塊214產生的所攝入內容隨後儲存為DOM (文件物件模型)物件庫(示出為KD(知識提煉)存放庫216)的一部分。在方塊212中接收到的顧客提供的資訊亦可用於產生資訊的索引表(在方塊218處)。索引表可包括一或多個可識別概念或實體(人、場所或其他可命名概念)以隨後輔助基於實體/概念的查詢以及隨後判定的搜索結果(回應於未來的查詢)的配置及排序。索引表資料可使用學習粗略或者(或另外)使用自然語言過程(在方塊218處或在自然語言理解方塊222處實施)導出。自然語言過程可使用本體論自輸入資料(例如,在此情況下,使用者提供的資訊)辨識及導出語意及語法資訊。因此,在一些實施例中,概念識別處理中之至少一些可在攝入時間期間執行。即,與所攝入內容段相關的概念的判定係在提交任何查詢之前進行,且通常針對大部分或所有所攝入內容段執行。或者,與所攝入內容段相關聯的概念的判定可在進行搜索以產生N個最佳結果之後進行。例如,僅基於例如查詢向量表示與內容段的向量表示之間的接近度/鄰近度準則及/或查詢的語意意義與關聯於所攝入內容段的語意意義之間的接近度來識別的概念之抽象化。
方塊214處的攝入過程可包括對內容執行的各種預處理操作,例如,以將源文件劃分成可管理大小的段,同時保留儘可能多的相關上下文資訊。因此,文件攝入引擎經組態以:接收源文件,將一或多種預處理應用於源文件以產生代表源文件的結構及內容的上下文資訊,且基於上下文資訊對源文件進行變換以產生問題與答案可搜索文件。
文件的攝入可基於特定資料源及/或基於所要或預期的資訊呈現(例如,作為對使用者提交的查詢資料的回覆而傳回的回應資料之呈現)。例如,在資料源(內容)係來自某種專業化應用程式(Salesforce、Slack等)的情況下,源內容的攝入可經組態以執行特定源所需的專業化或專用預處理,例如,將聊天資料或配置於專業化格式記錄(諸如Salesforce的記錄)中的資料轉換成更有利於應用於源內容之經分段部分的變換的白話文或某種其他格式。
在一些實施例中,文件攝入可基於(或者可考慮到)要呈現回應資料的特定方式。考慮用於達成資料呈現的方式的以下三個實例。在第一示例性方法中,根據基於API的方法論來呈現資料,例如,除了提供給不同格式類型(諸如HTML、PDF、Word文件等)的呈現程式的位置(諸如答案片段之頁編號或開始/結束位置)之外,包括答案/段落。呈現程式可實施為巨集指令或外掛程式/擴展,其允許在文件中定位答案片段及段落,以及執行所呈現段之特殊處理(例如,藉由加粗或反白顯示該等段的資料的部分等)。用於呈現對資料的回應的另一種示例性方法為,在文件處理階段期間(例如,經由攝入引擎)保留文件中作為呈現的候選者的段之螢幕擷取畫面(例如,有效地預呈現輸出內容)。在經識別為回應於查詢的資料的後續呈現期間,客戶端應用程式可選取擁有該片段/段落的最適當的螢幕擷取畫面。在用於呈現查詢結果的第三種方法中,在產生適合於呈現的分段之後,將可以不同格式(例如,作為Word文件、html等)獲得的經處理文件的每個段轉換成包括該段的PDF文件格式(具有至擷取段的適當連接,其中達成各段之間的一對一映射且經由API將答案片段的開始/結束位置傳遞至常見的PDF呈現程式),這允許定位及反白顯示答案片段。
預處理程序的一個實例為,將源文件的源內容分段成多個文件段。此種分段可根據階層規則執行,階層規則使源文件的一個部分與源內容的一或多個其他部分在語意上相關聯。例如,可將固定或可變大小(例如,200個字)的滑動視窗應用於源內容以產生要對其應用內容變換之可管理大小的段。然而,當分段成小塊時,內容段可能會丟失重要的上下文資訊,針對更大大小的段,該上下文資料本來係可用的。例如,在文件的一節中間的段落可能(獨立地)不包括重要的上下文資訊,諸如節標頭、該段落相對於該節中更早的段落之位置、與未由特定段捕獲的其他段落相關聯的字體大小(例如,當目前段落為注腳時)等。因此,在一些實施例中,可對上下文資訊(例如,節標頭、章標頭、文件標題、位置、字體類型及大小等)與文件段中之一或多者進行組合。在提供示例性文件攝入程序300的圖之第3圖中示出此預處理程序,該文件攝入程序具有預處理以提取上下文資訊。在第3圖中,源內容310 (其可為源文件的一部分)已經分段成段320a-n。每個段具有其自己的個別經分段內容(由將分段視窗應用於源內容產生),該經分段內容與關聯於每個段的上下文資訊(其可為文字資訊、數值資訊或兩者)進行組合。如可看出,上下文資訊中之至少一些,即,文件識別碼(「文件a」)、章資訊(第S章)及標頭資訊(第x節),係第3圖中示出的段所共有的。這允許隨後應用於段的變換保留上下文資訊中之至少一些,且因此保留被變換的段與主題的一些相關性。
在一些實例中,為了簡化分段過程(以便促進更高效的搜索及擷取),可將源文件分段以在依序文件段(不包括單獨添加至每個段的上下文資訊)之間產生重疊。因此,例如在段係由(恆定的或可變的)某種特定大小的視窗產生的情形中,視窗可自一個位置向下一個位置偏移達視窗大小的某個預定分率(例如,¾,針對200字的視窗,其將為150個字)。由於分率偏移,應用於重疊段的變換(例如,BERT型變換的向量化)在該等段之間產生某種相關性,這將保留連續段之間的相關性以便進行後續Q-A搜索。在一些實施例中,可將標頭資訊(及其他上下文資訊)直接添加至經分割段。或者,可將標頭及上下文資訊變換成向量,然後將該等向量添加至由應用於藉由滑動視窗提取之內容的變換操作產生的向量,或者可將標頭及上下文資訊與藉由視窗提取之內容進行組合,然後將變換應用於所得組合資料。藉由使相鄰的段彼此關聯(例如,經由視窗在文件上的分率偏移以形成該等段),用於對頂部段落及相關聯片段進行擷取及呈現處理的相關段落的識別(回應於所提交查詢)得到改良。
可在源文件的分段期間應用的另一種預處理與表資訊的處理相關(即,當原始內容配置於表或網格中時)。此種預處理用於將配置於表(或其他類型的資料結構)中的結構化資料擴展成諸如等效文字的可搜索形式。例如,在將源文件的一部分識別為多單元表時,產生替代部分來替換多單元表,其中多個替代部分中之每一者包括各別子部分內容資料及與多單元表相關聯的上下文資訊。預處理的額外實例包括用於基於例如a)由使用者回應於與呈現給使用者之源文件相關的一或多個問題提供的資訊,b)問題與答案對之一或多個地表實況樣本,來使上下文資訊與源文件的一或多個部分相關聯的程序。
在一些實例中,上下文資訊可能並非明確地由段包括,而是可能需要被發現且作為擴增的資訊(在此情況下,擴增的上下文資訊)由文件段包括。例如,實體發現(判定文件中所提及的相關實體的身份)可用於幫助在推斷期間使搜索(快速匹配(fast-match,FM)搜索或詳細匹配(detailed match,DM)搜索)加速,且用於改良搜索準確性且產生改良的方案。
考慮以下示例性實施方案:
• 關於與搜索單元相關聯的固有實體對每個搜索單元(例如,200字的視窗、段落、文件等)進行分析,且亦關於與特定任務的實體(例如,HR、作者、組織等)相關聯的元資料對每個搜索單元進行分析。
• 用適當的固有實體及元資料實體給每個搜索單元加標籤。
• 在搜索期間,可使用不同的試探法,這可藉由將此等搜索單元中之許多者識別為與手邊的查詢無關來將其消除。例如,在一種使用情況下,在以較高的可信度將使用者的問題判定為與某個特定主題相關的情況下(例如,因為使用者明確識別該主題,例如,敘述「我有一個財務問題」的問題,或者因為可經由規則或分類引擎推斷該主題與特定主題相關),可自進一步考慮消除所有文件/文件物件,且不需要回應於所提交查詢而搜索彼等文件。
• 此種篩選的副產物係加速FM及DM搜索。另外,來自不相關類別的潛在答案單元不會產生誤認錯誤,且因此這有助於改良搜索的準確性。
關於與使用者的搜索相關的特定實體(或多個實體)的資訊亦可用於產生更準確的額外問題(例如,以判定不同的方式來對輸入查詢進行釋義,使得可產生額外的可能的問題-答案對),且亦用於提供額外上下文,該上下文可用於搜索資料(其可為經變換形式的DOM物件或使用者可讀資料格式化)的存放庫。
如下文將更詳細地論述,在提交查詢以自所攝入內容資料庫(例如,第1圖的DOM庫/存放庫140)識別相關匹配期間,可(自動地或經由使用者的直接輸入)獲得上下文資訊以改良所傳回匹配的品質。例如,實體上下文資訊亦可包括關於特定項目(例如,不同的產品品牌)的資訊及提供額外上下文資訊來細化搜索且改良輸出結果的元素。
在一些實施例中,文件處理(例如,分段)可作為兩個單獨的任務執行。在一個處理任務中,可將源文件正確地分段且組織成具有額外擴增的小塊,例如段落(例如,可將表示節的標頭的向量序列附加至該節中的每個段落的向量)。此等擴增用於改良擷取準確性。在並行任務中,以最適合於呈現目的的方式將文件分段。需要使兩個不同的所得分段輸出彼此關聯,使得當在擷取處理期間識別了頂部段落及相關聯的答案片段時,但是呈現給使用者的係與所識別答案片段相關聯的呈現內容(而不是所識別答案片段)。換言之,系統可攝入特定段落以促進搜索操作,且單獨攝入該特定段落以促進呈現操作。在此實例中,在由於使查詢匹配於可搜索的所攝入內容而識別段落時,輸出與所識別段落相關聯的呈現內容。
在將源文件分段成多個段後,可將每個段提供至一或多個內容變換(或變換器) 330a-m,該或該等內容變換將該段(內容,及可選地上下文資訊,儘管在一些實施例中,可保留上下文資訊而不對其進行變換)變換成與問題及答案相關聯的所得經變換內容,該(等)問題及該(等)答案與各別段的原始內容相關。在第3圖的實例中,展示了
m個變換,每個變換應用於該等段中之任一者(諸如段320j)。儘管展示同一段(例如段320j)被提供至變換中之每一者,但是在一些實施例中,可應用不同的分段程序以獲得不同大小及組態的段,如個別變換中之每一者可能需要的(例如,粗略快速搜索變換330a可經組態以應用於第一段大小的段,而精細細節變換330b可經組態以應用於第二不同大小的段(例如,若干個字的字串))。
如上所述,可應用的變換的實例為快速搜索(亦稱為快速匹配或粗略搜索)變換,此變換係基於將輸入資料的固定大小的(且通常為大的)段變換成向量(向量同樣可能但是未必必須為統一維度)。所得經變換向量可代表與已變換的輸入段相關聯的可能的問題及答案。所得向量通常提供起點以使需要更徹底地搜索(例如,使用根據另一種更細粒度的變換來變換的內容)的可能的文件物件之數目變窄。例如,在基於快速搜索變換結果與轉換成與經快速搜索變換的內容相容的表示之查詢資料之間的匹配來搜索經變換內容存放庫(例如,DOM存放庫140)時,所得搜索可產生例如1000個潛在候選者(或任何其他數目個候選者)。隨後可對與藉由搜索快速搜索變換內容來識別的候選者相對應的經變換內容物件執行更細化的內容匹配。可根據BERT方法實施快速搜索(粗略)變換。第3圖中示出為由變換單元/模組330b執行的另一種變換為精細細節變換,此變換在第3圖的實例中亦基於來自變換器之雙向編碼器表示(Bidirectional Encoder Representations from Transformers,BERT)方法。
在BERT方法下,當接收到查詢時,可藉由以下操作(可能自可能更早已經使用例如快速搜索處理來識別的一組物件)快速識別文件中的相關序列:識別文件的可能含有答案的一部分(例如,段落),及識別文件的含有特定答案的該部分中的字的跨度。在一些實例中,在BERT方法下,在基於自我注意力的網路中將問題及答案序連(例如使用WordPiece嵌入用合適的標記將其符記化,該等標記將問題及答案分開)且一起處理。網路的輸出指示答案的每個可能的開始位置之得分及答案的每個可能的結束位置之得分,其中答案的跨度的總得分係答案的對應的開始位置及結束位置之總和。即,在經由許多層(後續接著決策層及分段器邏輯)將段落的嵌入式向量及查詢混合在一起的情況下使用自我注意力方法,以提供高效方法來判定問題是否可由段落回答,且若如此,則判定答案的跨度在該段落中確切地位於何處。
在BERT型方法中,可首先在隱蔽語言模型任務上訓練網路,在此任務中,自輸入省略字且由該網路藉由輸出層預測字,這提供在詞匯表的字上的概率分佈。在隱蔽語言模型任務上訓練網路後,移除輸出層,且在問題回答任務的情況下,添加一層以產生開始、結束及可信度輸出,且針對目標領域在監督式訓練資料上進一步訓練網路(例如,使用史丹福問題回答資料集或SQuAD)。在針對目標域訓練網路來進行問題回答後,可使用進一步訓練來使網路適於新的領域。用於BERT的另一種訓練策略係下一句預測,其中訓練學習引擎來判定兩個輸入段(例如,此類段可為文字源的相鄰句子)中之哪一者係兩個段中之第一者。在訓練該模型時,可藉由使用試圖最小化組合損失函數的最佳化程序對隱蔽語言訓練程序及下一句訓練程序兩者進行組合。或者,或另外,可單獨地或結合用於BERT的前述訓練策略中之一者來使用其他訓練策略(來達成上下文辨識/理解)。
在基於BERT方法的示例性實施例中,可使用稱為雙腿BERT方法的實施方案,其中查詢的大部分處理係與可在其中找到對查詢的答案之文件部分(例如,段落)的處理分開的。通常,在雙腿BERT方法中,神經網路架構具有兩條「腿」,其中一條腿用於處理查詢,一條腿用於處理段落,且兩條腿的輸出係查詢的字及段落的字之嵌入/編碼序列。將此等序列傳遞至問題回答網路。使用此方法來預先計算段落的BERT嵌入序列且當查詢可用時完成問題回答計算的特定方式。有利地,因為段落的大部分處理係在接收到查詢之前執行,所以與使用繼而將查詢及每個段落序連且一起處理的網路相比,計算對查詢的回應有更少的延遲。段落通常比查詢長得多(例如,200-300個字對6-10個字),且因此預處理特別有效。當針對相同段落應用成功查詢時,可減少計算的總量,因為可針對每個查詢再使用段落腿的輸出。低延時及減少的總計算在基於伺服器的解決方案中亦可為有利的。如所述,在本文中描述的實施方案中,源文件的BERT型處理產生經變換內容,經變換內容通常儲存於存放庫(諸如第1圖的DOM存放庫140)中。同樣可保留由其產生經BERT型變換的內容之基礎文件,且使其與所得經變換內容相關聯(並且與經由氣體變換獲得的對應的經變換內容相關聯)。
在一些實施例中,BERT型變換器(例如,用於快速、粗略變換,及/或用於精細細節變換)可根據基於編碼器的組態來實施。例如,BERT型變換器結構可包括多個堆疊式編碼器單元,其中輸入編碼器單元接收及處理整個輸入序列(例如,句子)。藉由處理整個輸入句子,BERT型實施方案可處理及學習個別部分(例如,輸入句子中的字)之間的上下文關係。編碼器層可由一或多個自我注意力頭(例如,經組態以判定不同部分(例如,輸入資料的句子中的字)之間的關係)後續接著前饋網路來實現。編碼器實施方案中的不同層的輸出可針對正規化層以正確地組態所得輸出以供後續層進一步處理。
應注意,在一些實施例中,可將快速搜索向量變換(將段變換成緊湊大小的數值向量)應用於文字的符記化版本(例如,可能已經執行某種變換,諸如經由BERT過程達成的變換,以產生中間(例如,符記化)內容,隨後將快速搜索變換應用於該中間內容)。
變換模組(快速搜索、BERT型或人或其他類型的變換)可經由神經網路實施,神經網路已經預先訓練來產生與問題-答案對相關聯的經變換內容。其他變換實施方案可使用篩選器及演算法變換來實現。神經網路實施方案的訓練可利用問題-答案地表實況之大的訓練樣本來達成,或者可能已經由使用系統100來管理其文件庫的顧客在內部/私下開發出。
回到第2圖,在一些實施例中,部分1處理210可經組態以判定(例如,使用攝入過程方塊214)資料中的歧義的維度(這可作為例如由類似於文件攝入引擎126的攝入引擎實現之文件攝入操作的一部分執行)。維度可呈具有多個值的類別的形式。此等維度可來自知識工作者或者可自使用一或多種概念本體論來分析資料學習到(例如,使用學習機實施方案)。例如,段的源內容與相關聯的元資料(例如,提供關於所分析段與特定概念的相關性的上下文資訊之元資料,諸如文件標題、節標頭等)相結合。根據所要的實施方案及訓練資料及本體論之可用性,概念本體論可按需要為特定的或粗略的。列,在上文論述的提交了查詢「我怎麼安裝瀏覽器?」的實例中,攝入時間(或者查詢時間)分析可將瀏覽器識別為在可搜索內容存放庫內(在DOM存放庫或某種其他資料庫或可搜索內容存放庫中)可搜索到的先前學習的概念(用參數或用文字表示)。此類維度(亦稱為概念)可制定為一組類別/值元組。概念相關上下文資訊(呈元資料的形式)將元資料附接至內容,從而指示段落在何處特定於類別/值對。若內容中被識別為對查詢的可能答案的兩個段落具有與相同類別及不同值相關聯的元資料,則該等段落沿著特定維度有歧義。可使用諸如以下技術給內容加注解:自段落或標頭中的文字提取實體;自標題、位置及關於檔案的其他資料收集資訊;或收集已經由內容擁有者或給資料加注解的其他人添加的標籤。概念識別分析亦可將代表所識別概念與被分析的段之間的相關性或關聯的值指派給該概念。例如,源內容段可與對文件與基於Windows
TM的計算裝置相關的標頭或文件標題指示相關聯。針對被分析的特定段,隨後可給「瀏覽器」概念指派指示「瀏覽器」概念與基於Windows
TM的計算裝置相關的值。
第2圖中描繪的構架的第二部分包括使用者提交查詢及對非結構化搜索的結果的分析。在第二部分(部分2)中,可執行標準搜索技術,該等技術隨後基於將一或多種匹配準則應用於查詢或其表示(例如,基於與應用於源文件的變換類似的源查詢內容變換之所攝入表示)及由系統200管理之可搜索內容來傳回對問題的一組有效答案。在第2圖的過程的此部分中,收集與所識別/匹配的答案相關聯的元資料,且將答案連同一組類別/概念及針對每個類別/概念找到的值一起傳回。如所述,概念/類別可能已經在攝入時間期間或在查詢時間期間導出。具有帶有不同值的答案的類別沿著類別的維度有歧義。應注意,概念/類別可能已經在攝入過程期間計算出(如上所述),或者可能在擷取該組可能的有效答案之後計算出(即,類別(概念)及值元組的計算可在搜索時間執行,且可以與上述方式類似的方式執行)。在搜索時間期間判定與答案匹配相關聯的概念具有以下優點:僅需要針對有限的一組答案(即,
N個最佳答案)判定概念,而不是必須針對每個所攝入內容段判定概念,因而提供計算效率(關於在針對被攝入的所有內容段導出抽象概念的情況下本來可能需要的計算努力)。
如所示出,使用者經由使用者介面230提供呈問題形式或者作為更結構化的搜索查詢(例如,藉由指定特定欄位的搜索項/值)的查詢輸入。使用者介面230可包括使用者直接與之互動的使用者側介面(例如,實施為API或實施為基於瀏覽器的實施方案的圖形介面、基於語音的介面等),使用者側介面與伺服器側介面通信(例如,在使用服務於多個客戶端的中央文件代理器的實施方案中),伺服器側介面諸如在使用者的裝置上運行的使用者輸入的第1圖中描繪的介面130,該介面與通信模組通信以接收及處理來自使用者的輸入。可選地可在例如自然語言理解方塊222處處理查詢資料(由方塊220表示)以提取實體資訊,包括判定與查詢資料相關的實體資訊/概念(例如,根據用於對在方塊212處導出的顧客提供的資訊執行NLP之類似本體論),針對查詢資料執行的搜索操作係基於該等實體資訊/概念來執行。例如,針對查詢判定的實體資訊及可能的概念可用於進行搜索以識別(根據一或多種預定的匹配準則)與查詢的內容及/或所判定概念及查詢及所攝入內容段的元資料匹配的答案(例如,基於查詢及所攝入內容段的向量表示)。實體資訊及所判定概念亦可用於判定匹配的程度或等級(根據在查詢資料與可搜索內容之間的使用的匹配準則)。包括自查詢資料導出的相關概念/類別以及與查詢或使用者相關聯的其他上下文資料(包括位置資訊、與所提交查詢或使用者相關聯的個人及裝置資訊等)之所提取實體資訊被收集且與由對話上下文方塊224表示的對話上下文資料一起包括。隨著更多的上下文資訊在查詢的執行期間變得可用,且隨著搜索結果被反覆地細化,可動態更新對話上下文方塊。
隨後將查詢資料變換成與經變換源內容相容(例如,與KD 216存放庫中的經變換內容記錄中之一或多者相容)的經處理查詢資料(由方塊226表示)。經處理查詢資料因此包括所得經變換向量,且亦可包括發現的索引類型及值(基於在方塊222中執行的NLP操作,且基於經執行來判定相關概念及與查詢資料相關聯的上下文資料之其他發現過程導出)。
經處理查詢資料隨後用於例如根據與查詢處理模組136所執行的處理類似的內容搜索/匹配處理來搜索可搜索內容存放庫。例如,且如QA匹配方塊240所示出,對可搜索內容與查詢向量(查詢資料可能已經變換成多個向量,例如,一個用於快速(粗略)搜索,一個用於詳細搜索等)進行比較以識別由對源內容執行的攝入處理(例如,預處理及BERT型變換)產生的內容向量,源內容對應於源文件的段落/摘錄。在搜索源文件的可搜索內容時,QA匹配方塊240可應用一或多種匹配準則來識別有效的搜索結果。例如,可能需要查詢向量與可搜索內容向量之間的距離足夠接近(即,向量距離需要低於某個臨限值)。可使用(針對查詢及針對內容的)經變換向量之間的其他匹配或接近度準則。在識別有效的搜索結果時可能需要滿足的其他匹配準則可包括其中需要上下文查詢資料與關聯於所識別內容記錄的上下文資訊之間的某種鄰近度的準則。例如,除了滿足查詢向量與內容向量之間的向量接近度準則之外,匹配過程亦可需要查詢及內容記錄共享相同或類似的實體資訊(或概念/類別識別符)。可能進一步需要額外的匹配準則。
在由方塊240進行搜索/匹配過程之後,識別
N個最佳匹配且將其提供為中間結果輸出242。搜索結果可包括向量或參數值(與所識別/匹配的記錄相關聯)、與向量/參數表示(由應用於經分段內容的變換產生)相關聯的源內容段落/段、上下文資訊(包括實體識別符、針對相關聯內容判定的概念/類別)等。如所述,識別多個有效的結果記錄(即,針對
N> 1的情形)可指示搜索的結果中存在歧義,這可能因為搜索不夠特定,因此產生多個合理的答案。可處理搜索結果輸出242 (以例如經由本文中描述的消岐處理及/或基於其他技術對其進行篩選)以產生一組經篩選的答案(示意性地描繪為方塊244),隨後可將該組答案作為輸出提供給使用者。
所識別匹配中的歧義的判定由查詢歧義偵測器250執行。在一些實施例中,判定回應於查詢而產生的結果/答案中之兩者或更多者可藉由以下操作執行:識別與彼等兩個或更多個結果/答案相關聯的一或多個概念(例如,藉由處理階段210所實施的學習機將概念本體論應用於被分析的源內容,及/或藉由構架200的自然語言理解方塊222),及判定一或多個所識別概念中之至少一者與多個匹配中之至少一些的不同的各別值相關聯。在查詢「我怎麼安裝瀏覽器?」的實例中,兩個可能的答案(各自與「安裝瀏覽器」的概念相關聯)可具有針對所識別概念的不同值,其中彼等不同值對應於例如與基於Mac
TM的計算系統相關的答案及與基於Windows
TM的系統相關的答案。在一些實施例中,多個答案的存在可能未必被認為會產生歧義。例如,第2圖的構架可經組態以僅在匹配數超過特定答案臨限值的情況下偵測到歧義條件。另一方面,若搜索傳回的匹配比答案臨限數少,則可允許使用者考慮所有找到的匹配。
多個匹配中之一些可與不同概念/類別相關聯,在此情況下,彼等多個匹配之間將未必存在歧義(例如,因為未必存在由該等匹配中之一些共享的共同維度,其中此類匹配具有針對共享概念的不同(衝突)值)。在彼等情況下,構架200可給使用者提供匹配中之一些或全部,或試圖藉由自使用者獲得消岐資訊以判定使用者感興趣的特定概念(例如,藉由向使用者呈現與針對該等匹配判定之多個概念中之至少一些相關的使用者視覺提示)來消除答案中之一些。
在消岐處理期間,在消除匹配中之一些之後,可藉由識別另一(次級)概念進一步對經細化(消岐)的匹配集進行消岐,剩餘答案中之一些共享該另一概念,且該另一概念與針對該其他所識別概念的不同(即,衝突)概念值相關聯。例如,在「我怎麼安裝瀏覽器?」查詢的情況下,第一消岐反覆可消除基於Mac
TM的計算裝置,但是仍將留下與基於Windows
TM的瀏覽器安裝相關的大量可能的答案。在本文中描述的方法下,可針對剩餘答案識別第二概念(例如,作業系統版本號),且將用另一請求來提示使用者指定要在上面安裝瀏覽器的作業系統的版本號。
在一些實施例中,可針對一組特定匹配識別多個消岐概念,且隨後提示使用者提供針對所識別概念中之全部(或一些)的澄清資訊。例如,在初始消岐反覆中,可要求使用者(為了對瀏覽器安裝查詢進行消岐)提供作業系統、版本號及使用者的裝置的硬體資訊。當提示使用者提供對多個消岐概念的回應時,使用者未必需要提供針對所有所提示概念的回應,而是可提供針對比所提示概念少的概念的回應資料。使用者所提供的任何回應資料可執行某種等級的消岐,因此減少匹配之集合的資訊熵中之一些(例如,以消除鑒於使用者的回應資料被認為不相關的一或多個匹配)。使用者亦可決定放棄任何消岐處理,且直接給使用者提供所有傳回的匹配。
獲得消岐資訊(例如,藉由查詢歧義偵測器250,或藉由構架200的某個其他組件/過程)可經由若干方式完成。在一些實施例中,消岐資訊可基於可用的上下文資訊。此種上下文資訊可包括與近期查詢異動相關聯的資訊,該資訊包括關於由提交當前異動的使用者提交的近期查詢的上下文資訊。例如,若使用者先前已經提交尋求關於基於Windows
TM的系統的技術資訊的查詢,則構架200可因此(在選擇或排序由當前查詢產生的答案時)對與基於Windows的系統相關的彼等答案加權更重(例如,回應於查詢「我怎麼安裝瀏覽器?」對與在基於Windows的系統上安裝瀏覽器相關的答案加權更重)。
其他立即可用的上下文資訊(即,不需要向使用者徵求進一步資訊)可包括在使用者已經提交查詢時捕獲的任何其他資訊,包括使用者的位置資訊,及指示使用者在考慮什麼(例如,使用者當前在看什麼)的資訊,基於該資訊可進行上下文推斷以選擇所產生的多個答案中之一或多者。可用於(在針對查詢的匹配過程期間或在識別查詢結果之後)對匹配進行消岐的位置相關上下文資訊的另一實例係使用基於地圖的資訊。在一些實施例中,可在視覺消岐介面(該介面呈現提示以徵求使用者對所識別概念的回應)旁邊或與該介面分開提供(地理區域的)互動式地圖呈現。可回應於匹配的消岐維度中之一者係位置的消岐維度(例如,結果包括基於位置的實體資料,或者概念識別處理判定與結果相關的概念係位置的概念)的判定而呈現地圖。或者,可回應於特定使用者選擇包括與互動式介面一起呈現的地圖而顯示地圖,互動式介面用於提交查詢及對結果進行消岐。使用者隨後可使用地圖來放大或縮小,或者選擇地圖上的特定位置,從而指示與所傳回匹配的地理或位置維度相關的位置值。基於經由地圖呈現促進的選擇,構架200 (且更特定而言,第2圖的互動過程方塊252)可選擇匹配中之一或多者,該一或多者的位置維度值(基於應用接近度或鄰近度準則)接近使用者在地圖視覺上的選擇所指示的位置值。例如,回應於在紐約市區域的地圖上的選擇,將選擇具有在距紐約市區域的某個預定半徑內的上下文/實體值或者位置相關概念值的匹配(且可能根據彼等位置值與使用者的選擇所指示的值的接近度進行排序)。
在將可用的上下文資訊併入至消岐處理中的另一實例中,考慮使用者與配備有攝影機(及/或其他類型的感測器)的擴增實境系統互動的情形。在此種系統中,攝影機中之一或多者將指向使用者正在看的位置。感測器裝置所捕獲的場景中的資訊(例如,影像資料,該資料可由例如學習機處理以識別在場景中出現的物件及物品)可用於提供同時由使用者起始的查詢的上下文資訊。例如,若使用者向下看(且擴增實境系統的攝影機類似地沿循使用者的頭的方向或定向以指向使用者正在看的場景),看見他的/她的手機的MagSafe充電器(用於無線充電),且詢問「我怎麼給我的手機充電?」,則Q-A系統(例如,基於本文中描述的實施方案)將識別的針對此問題的答案(由對DOM存放庫的搜索產生)不同於在使用者向下看且看見汽車的情況下將識別的答案。在此情況中,擴增實境系統的感測器用於判定(或發現)上下文資訊(例如,使用者與MagSafe充電器的鄰近度對與汽車的鄰近度),該上下文資訊可用於篩選已經產生的答案,或甚至將(在方塊240處執行的)搜索僅限於所判定上下文。
在一些實施例中,感測器裝置(在此情況中為攝影機)的定向、定位及/或位置(如可基於定位技術使用衛星或陸基信號分析來判定)本身可提供與自匹配之集合選擇答案、或搜索存放庫資料、或回應於消岐提示而提供回饋相關的重要的上下文資訊。例如,使攝影機指向向下的方向可暗示經由查詢尋求的資訊與位置接近地面的物件相關。在另一實例中,感測器裝置的位置可用於將搜索限制於與感測器裝置的特定地理位置具有相關性的答案(例如,以判定與使用者所在的特定會議室相關的細節)。因此,可修改(或限制)諸如「我怎麼開啟視訊會議攝影機?」之查詢以(例如,自公司儲存的相關手冊或其他源文件)搜索針對位於提出查詢的使用者所在的特定會議室內的視訊攝影機的答案。
可結合本文中描述的文件處理(例如,Q-A型處理)實施方案使用擴增實境系統(或配備有感測器的其他類型的系統)的另一實例涉及可能裝有串流傳輸身體攝影機(或硬帽攝影機)的工廠工人可提出查詢問題的情形,該等問題可由自所捕獲視訊串流提取的上下文資訊進行修改。使用者在一種情形中可詢問關於「機器」的功能性或操作的資訊或者關於特定「產品」的資訊。使用者攜帶的裝置所捕獲的影像或視訊可識別機器的特定品牌或型號,且當使用者詢問關於機器的操作的某種特定資訊時,經由擴增實境感測器識別的特定型號可用於將搜索限制於與所識別的特定機器型號相關的文件(例如,使用者手冊)。因此,由攝影機進行的串流傳輸在適於輔助工廠工人的擴增實境系統中使用時可用於修改查詢(例如,尋求關於「機器」的資訊)以考慮根據由攝影機(結合學習機使用以識別場景中的物件及物品)產生的視訊串流來識別的特定器械。在與工廠工人(或技術員)場景相關的另一實例中,使用者可(例如,經由基於語音的介面,諸如在使用者攜帶的行動裝置上操作AI輔助app)提出詢問線束的連接性的查詢。可修改(或限制)查詢以搜索可特定於在場景的所捕獲影像(或視訊)中出現的線束的答案,可自該影像識別特定型號或類型的束。
所捕獲的基於影像的資料可在上下文發現過程中使用或用於執行消岐的又一實例係當場景包括可辨識碼(諸如QR碼、條碼等)時,該等可辨識碼可經解碼以自其提取有意義的上下文資訊。例如,在以上線束實例中,線束可包括帶有QR碼或條碼的標籤,該QR碼或條碼在由使用者攜帶的影像捕獲裝置捕獲時可被自動解碼。將修改(或以某種方式限制)隨後由使用者關於線束提出的查詢,使得獲得的答案與在上下文發現期間識別的QR或條碼相關。
應注意,本文中描述的示例性系統(例如,擴增實境系統)中之一些可使用擴增實境護目鏡(眼鏡)來實施,而其他系統可使用安裝在智慧型手機上的攝影機來實施,使用者移動智慧型手機以使攝影機指向相關場景的方向。此種基於手機的擴增實境系統的一些實施例亦可包括人工智能(Artificial Intelligence,AI)輔助app (例如,Siri、Alexa、Cortana等),使用者可經由該app提供他的/她的查詢,基於由擴增實境系統判定的上下文資訊修改該等查詢。亦應注意,可使用其他類型的混合模式輸入源來制定查詢(在搜索Q-A資料存放庫的過程中),該等輸入源對來自文字輸入源、語音捕獲源、影像捕獲源等中之一或多者的輸入進行組合。
如所述,(例如,除了使用可用的上下文資訊之外,或當可用的上下文資訊未將所傳回匹配充分消除至可管理等級時)用於獲得消岐資訊的另一種方法係與使用者動態地互動以向使用者徵求所需消岐資訊來輔助自初始或剩餘答案選擇答案中之一或多者。如第2圖所示出,在(250處)判定針對查詢的一組匹配中的歧義時,執行視覺互動過程以例如針對與一組當前答案匹配相關聯的有歧義的類別或概念中之一或多者判定哪個值(其係實體值或包括在答案中的資訊的某種抽象化)匹配使用者所尋找的值。這可例如藉由以下操作達成:
a) 向使用者呈現該組值及一般提示「請自以下進行選擇:」(「視覺形式對話」);
b) 使用自然語言產生技術來產生適當的提示(例如,基於與產生歧義之可能的答案相關聯的所識別概念)。例如,為了在與相同的(或大體上類似的)概念或類別相關聯、但是具有不同值的兩個答案之間進行消岐,視覺互動過程可向使用者產生問題,該問題要求使用者提供關於消岐概念的更多專屬性。針對產生與瀏覽器安裝概念相關聯的兩個可能的答案匹配(一個針對基於Mac
TM的計算系統,一個針對基於Windows
TM的系統)之示例性查詢「我怎麼安裝瀏覽器?」,對使用者的互動訊息可詢問使用者「你需要對哪個計算系統[或作業系統]安裝瀏覽器?」或者,對使用者的訊息可列出不同的計算系統,且要求使用者指定使用者需要針對哪個系統的資訊。在有多個概念/類別在該組匹配中識別出的實施例中,消岐過程可尋求獲得針對多個匹配判定的最常見的概念之消岐資訊。或者,可使用用於識別要消岐的可能概念或類別的其他準則或政策,例如,識別在各種答案之間最突出地進行區分(即,具有最大的消岐作用或最高的資訊增益,以消除最多的答案)的概念、實體類型或類別。
c) 自已經例如針對相關領域中的聊天機器人提前寫好的提示之列表進行選擇;及
d) 繼續與使用者互動,直至解決歧義中之至少一些(例如,達到某臨限數目個答案,或者在一些實例中解決所有歧義)為止。
因此,由互動方塊252 (其可實施視覺介面、音訊介面等)實施的動態互動過程經組態以:產生輸出資料來提示使用者提供澄清資訊,且至少部分地基於由使用者回應於所產生提示而提供的澄清資訊選擇多個匹配中之至少一者。經組態以產生輸出資料來提示使用者提供澄清資訊的互動過程經組態以基於例如以下中之一或多者自動產生輸出提示:產生具有可選擇項目的列表,該等可選擇項目對應於針對一或多個上下文類別的不同值;將自然語言處理應用於所識別的多個匹配以產生具有可選擇項目的列表的提示,使用者將自該列表選擇可選擇項目中之一或多者;及/或自預定提示之集合選擇一或多個項目。
互動式消岐過程(結合可部分地在第2圖的方塊250處實施的查詢歧義偵測過程)可經組態以基於由使用者提供的澄清資訊排除多個匹配中之一或多者。可重複此過程,直至藉由以下操作解決歧義中之一些或全部為止:基於未自所識別匹配之集合排除的匹配反覆地產生細化輸出資料,以提示使用者反覆地提供進一步澄清資訊以自所識別的多個匹配識別最佳匹配。使用者經由互動過程(由第2圖的資料方塊254表示)提供的資料隨後用於篩選內容以提供相關性最高的答案。
在一些實施例中,使用者的額外互動輸入可包括對呈現給使用者的匹配(作為一組中間匹配或一組經消岐匹配,經由第2圖中描繪之向使用者發送答案的過程256呈現為顯示資料258)中之一者的特定選擇,這可導致進一步消除所顯示匹配中之一些,這些匹配針對與所選匹配相關聯的概念具有衝突的概念值。對特定匹配的選擇亦可導致對所顯示匹配的重新排序。例如,識別與最常見地與其他所顯示匹配共享的使用者選擇的匹配相關聯的概念。可重新定序或重新排序所呈現匹配,使得針對所識別概念的概念值最接近(以語意或數值的方式)所選匹配的概念值之匹配比針對所識別概念的概念值最遠的匹配排序更高。
可根據若干可能的政策中之一者執行消岐過程。此類政策包括:i)已經預先指定的政策,即,預先指定了要對什麼消岐及次序,ii)試圖例如在使用降低最大熵量之目標函數的有歧義的概念當中最佳化目標函數的政策,或iii)實施視覺顯示多個概念且讓使用者決定使用者認為更重要的概念的政策。在一些情形中,在查詢的不同執行點可利用不同的政策。例如,最初在提交查詢時,構架200可自動尋求評估哪個上下文資訊(實體識別符、抽象概念等)可能最有用。例如,「作者」上下文可能未給出很多可用於對答案進行邏輯配置或用於消除答案的資訊。另一方面,「作業系統」可以60:40的比率劃分初始所產生答案。僅在選擇了相關性最高的上下文資訊(若可用)之後,才可在是/否問題或更開放式的問題、字雲(大小=消岐的潛在重要性)等中詢問使用者。因此,在此類情形中,在處理查詢答案的第一階段,可首先應用試圖最佳化目標函數以減少最初傳回的匹配的資訊熵的政策(例如,以上的政策類型(ii))。在已經應用目標函數政策之後,可應用實施多個概念的視覺顯示以關於細化匹配集向使用者徵求消岐資訊的政策。
應注意,當回應於所產生訊息(來自互動過程252)而提示使用者提供選擇/澄清資料時,將匹配集設定為「後置篩選」以便產生細化匹配集(其中已基於澄清資料消除先前匹配中之一些)。當原始查詢本身包括消岐資料(例如,指定一或多個概念或類別的先驗值)時,可基於初始提供的消岐資料產生(在輸出242方塊中提供的)匹配列表,且所得匹配集被稱為已經「前置篩選」。如本文所描述,用於後置篩選實施方案的消岐過程、技術及操作中之至少一些亦可針對前置篩選操作來實施。
接下來參考第4圖,展示用於問題回答過程的上下文澄清和消歧的示例性程序400的流程圖。程序包括在本端裝置(例如,第1圖的文件處理代理器110)處自遠端裝置(例如,顧客站台,其可實體上實施於與本端裝置相同的計算系統上,但是可為邏輯上相異的單元)接收410代表與一或多個源文件的源內容相關的問題的查詢資料。程序400進一步包括導致對保持與一或多個源文件相關的資料部分的資料存放庫(例如,第1圖的存放庫140或第2圖的KD存放庫216)之搜索420 (例如,藉由第三方搜索引擎,或藉由本端可用的內建式搜索引擎)以判定查詢資料與保持在資料存放庫處的資料部分之間的多個匹配之集合。在一些實施例中,保持在資料存放庫處的資料部分可包括根據一或多個內容變換程序變換的源內容的經變換部分。在此類實施例中,導致對保持資料部分的資料存放庫之搜索可包括:將查詢資料變換成與經變換源內容相容的經變換查詢資料,及導致對保持在資料存放庫處的經變換內容之搜索以識別經變換源內容中根據一或多種準則與經變換查詢資料匹配的一或多個候選部分。源內容的經變換部分包括根據來自變換器之雙向編碼器表示(Bidirectional Encoder Representations from Transformers,BERT)處理來變換的資料部分。在一些實例中,一或多個變換可包括例如以下中之一或多者:粗略線性化變換,用於產生代表源內容的複數個文件段的內容之粗略數值向量;或精細細節變換,用於產生代表複數個文件段的內容之經精細細節變換的內容記錄。
如第4圖中進一步示出,程序400進一步包括識別430與多個匹配相關聯的一或多個概念(例如,如基於在學習機及/或各種自然語言處理程序中使用的本體論判定之主題的抽象類別、可辨識實體及其語意等效物/同義詞等)一或多個概念,其中一或多個所識別概念中之至少一者與多個匹配中之至少一些相關聯且包括與多個匹配中之至少一些相關聯的不同的各別值。應注意,在一些實施例中,識別操作可沿循匹配集包括多個匹配的初始判定。
回應於匹配集包括多個匹配的初始判定,程序400另外包括:獲得440與一或多個所識別概念中之至少一者相關的消岐資訊;及基於與一或多個所識別概念中之至少一者相關的所獲得消岐資訊選擇450多個匹配中之至少一者。
在一些實例中,獲得消岐資訊可包括獲得針對關於源內容執行的近期查詢異動的查詢上下文資訊。在此類實例中,選擇多個匹配中之至少一者可包括至少部分地基於針對關於源內容執行的近期查詢異動的查詢上下文資訊選擇多個匹配中之至少一者。
在一些實施例中,獲得消岐資訊可包括產生提示資料以提示使用者提供澄清資訊。在此類實施例中,選擇多個匹配中之至少一者可包括至少部分地基於由使用者回應於所產生提示資料而提供的澄清資訊選擇多個匹配中之至少一者。產生提示資料以提示使用者提供澄清資訊可包括基於例如以下中之一或多者自動產生輸出提示:產生具有可選擇項目的列表,該等可選擇項目對應於針對一或多個上下文類別的不同值;將自然語言處理應用於所識別的多個匹配以產生具有可選擇項目的列表的提示,使用者將自該列表選擇可選擇項目中之一或多者;及/或自預定提示之集合選擇一或多個項目。選擇多個匹配中之至少一者可包括基於由使用者提供的澄清資訊排除多個匹配中之一或多者。在此類實施例中,程序400可進一步包括:基於未自所識別匹配之集合排除的匹配反覆地產生細化提示資料,以提示使用者反覆地提供進一步澄清資訊以自所識別的多個匹配識別最佳匹配。產生提示資料可包括呈現地圖的圖形表示以提示使用者指示地理位置,且至少部分地基於澄清資訊選擇多個匹配中之至少一者可包括回應於多個匹配中之經判定為與由使用者指示的地理位置相關的至少一者而選擇多個匹配中之至少一者。
在一些實施例中,多個匹配中之每一者可與內容上下文資訊相關聯,該內容上下文資訊可與保持在資料存放庫處的資料部分相關聯。在此類實施例中,識別與多個匹配相關聯的一或多個概念可包括至少部分地基於與多個匹配中之每一者相關聯的內容上下文資訊識別一或多個概念。與各別資料部分相關聯的內容上下文資訊可藉由例如以下中之一或多者產生:a)將一或多種預處理應用於一或多個源文件以產生代表一或多個源文件的結構及內容的文件上下文資訊,且基於上下文資訊變換一或多個源文件以產生一或多個問題與答案可搜索文件;b)將一或多個源文件分段成複數個文件段,針對複數個文件段中之至少一個段識別至少一個段描述符,至少一個段描述符包含與至少一個段相關聯的至少一個實體、與至少一個段相關聯的至少一個任務或與至少一個段相關聯的主題描述符中之一或多者,且用至少一個描述符給至少一個段加標籤;及/或c)向資料部分中之一或多者添加使用者注解。針對多個匹配中之每一者的內容上下文資訊可包括代表針對複數個上下文類別的值的資料,且識別與多個匹配相關聯的一或多個概念可包括判定多個匹配中之至少兩者是否與針對來自複數個上下文類別之特定上下文類別的不同值相關聯。在此類實例中,搜索資料存放庫以判定查詢資料與保持在資料存放庫處的資料部分之間的匹配之集合可包括將匹配之集合中的匹配配置成群組,該等群組各自共享複數個上下文類別中之一或多者。
在一些實例中,查詢資料可包括查詢上下文資料,且導致對資料存放庫之搜索以判定匹配之集合可包括導致對資料存放庫之搜索以識別與包括在查詢資料中的查詢上下文資料相關聯的資料部分。這被稱為前置篩選操作,其中上下文資料(包括例如抽象概念、實體識別符(名稱、位置、物品)、位置資料及關於查詢、提交查詢的使用者、經由其提交查詢的站台等的其他可用資料)可用於輔助搜索以判定相關性更高的搜索結果。查詢上下文資料可包括由使用者經由地圖的圖形表示指定的地理位置資料,且至少部分地基於消岐資訊選擇多個匹配中之至少一者可包括導致對資料存放庫之搜索以識別與由使用者指定的地理位置資料相關的資料部分。查詢上下文資料可包括指定來自複數個上下文類別之一或多個類別的類別資料,且導致對資料存放庫之搜索可包括導致對資料存放庫之搜索以識別與在查詢上下文資料中指定的來自複數個上下文類別之所指定的一或多個類別相關聯的匹配。
獲得與一或多個所識別概念中之至少一者相關的消岐資訊可包括根據例如以下中之一者獲得消岐資訊:i)第一消岐政策,其指定選自一或多個所識別概念的多個概念的預定次序,針對該等概念判定多個匹配與各別多個概念的相關性;ii)第二消岐政策,用於自一或多個所識別概念選擇概念,該概念最佳化目標函數以降低多個匹配當中的歧義等級;或iii)第三消岐政策,用於視覺提示使用者進行與一或多個所識別概念相關的回饋以便選擇多個匹配中之至少一者。
在基於學習機的實施方案中,可使用不同類型的學習架構、組態及/或實施方法。學習機的實例包括神經網路,神經網路包括卷積神經網路(convolutional neural network,CNN)、前饋神經網路、遞歸神經網路(recurrent neural network,RNN)等。前饋網路包括具有至輸入資料的一或多個部分的連接的一或多個節點層(「神經元」或「學習要素」)。在前饋網路中,輸入及節點層的連接性使得輸入資料及中間資料在向前的方向上朝向網路的輸出傳播。前饋網路的組態/結構中通常沒有回饋迴路或循環。卷積層允許網路藉由向資料的子部分應用相同的習得變換來高效地學習特徵。可使用的學習引擎方法/架構的其他實例包括:產生自動編碼器及使用網路之緻密層來與未來的概率相關(即使經由支持向量機),建構指示來自資料的特定輸出的迴歸或分類神經網路模型(基於反映類似的記錄與要識別的輸出之間的相關性的訓練)等。
神經網路(及用於實現本文中描述的各種程序及操作的其他網路組態及實施方案)可實施於任何計算平台上,任何計算平台包括包含一或多個微處理器、微控制器及/或提供處理功能性以及其他計算及控制功能性的數位信號處理器的計算平台。計算平台可包括一或多個CPU、一或多個圖形處理單元(GPU,諸如 NVIDIA GPU,其可根據例如CUDA C平台進行程式化),且亦可包括特殊用途邏輯電路系統,例如FPGA (場可程式化閘陣列)、ASIC (特殊應用積體電路)、DSP處理器、加速處理單元(accelerated processing unit,APU)、應用處理器、客制化專用電路系統等,以至少部分地實施本文中描述的神經網路、過程及方法的過程及功能性。用於實施神經網路的計算平台通常亦包括用於儲存資料及軟體指令的記憶體,軟體指令用於在裝置內執行程式化的功能性。一般而言,電腦可存取的儲存媒體可包括在使用期間可由電腦存取以將指令及/或資料提供給電腦的任何非暫時性儲存媒體。例如,電腦可存取的儲存媒體可包括諸如磁性或光學碟片及半導體(固態)記憶體、DRAM、SRAM等儲存媒體。
經由使用本文中描述的神經網路來實施的各種學習過程可使用TensorFlow (一種用於諸如神經網路之機器學習應用的開源軟體庫)進行組態或程式化。可採用的其他程式化平台包括keras (一種開源神經網路庫)建構塊、NumPy (一種可用於實現模組來處理陣列的開源程式化庫)建構塊等。
除非另外定義,否則本文所使用之所有技術及科學術語均具有與通常或習知所理解的意義相同的意義。如本文所使用,冠詞「一個/種(a/an)」指代該冠詞之語法對象中之一者或一者以上(即,至少一者)。舉例而言,「一要素」意謂一個要素或一個以上的要素。如本文所使用,「約」及/或「大約」在指代諸如數量、持續時間等可量測值時,包含自指定值的±20%或±10%、±5%或+0.1%的變化,因為此類變化在本文中描述的系統、裝置、電路、方法及其他實施方案的上下文中係適當的。如本文所使用,「大體上」在指代諸如數量、持續時間、實體屬性(諸如頻率)等可量測值時,亦包含自指定值的±20%或±10%、±5%或+0.1%的變化,因為此類變化在本文中描述的系統、裝置、電路、方法及其他實施方案的上下文中係適當的。
如本文(包括申請專利範圍中)所使用,如在前面帶有「中之至少一者」或「中之一或多者」的項目列表中使用的「或」指示間斷的列表,使得例如「A、B或C中之至少一者」的列表意謂A或B或C或AB或AC或BC或ABC (即,A及B及C),或具有一個以上的特徵的組合(例如,AA、AAB、ABBC等)。此外,如本文所使用,除非另外敘述,否則對功能或操作係「基於」項目或條件的敘述意謂該功能或操作係基於所述項目或條件且可基於除了所述項目或條件之外的一或多個項目及/或條件。
儘管本文中已詳細地揭示特定實施例,但是這僅出於說明的目的以舉例的方式進行,且不意欲限制本發明的範疇,本發明的範疇由所附申請專利範圍的範疇定義。本文中描述的所揭示實施例的特徵中之任一者可在本發明的範疇內彼此組合、重新配置等,以產生更多實施例。一些其他態樣、優點及修改在以下提供的申請專利範圍的範疇內。所呈現的申請專利範圍代表本文中揭示的實施例及特徵中之至少一些。亦涵蓋其他未主張的實施例及特徵。
100:系統
110:文件處理代理器
120:伺服器介面
125:管理介面
126:文件攝入引擎
130:具有歧義解析器的互動式使用者查詢介面
132:專家介面
135:快取記憶體
136:查詢處理模組
140:DOM存放庫
142a-n:DOM記錄
150a-n:顧客網路
152:管理者站台
154a-c:使用者站台
160:文件庫
162a-d:文件
170:鏈路
172:查詢
174:輸出資料
200:構架
210:框
212,214,218,220,222,224,226,240,242,244,250,252,254:方塊
216:KD存放庫
230:使用者介面
256:過程
258:顯示資料
300:文件攝入程序
310:源內容
320a-n:段
330a-m:變換
400:方法
410,420,430,440,440,450:步驟
現將參看以下圖式詳細地描述此等及其他態樣。
第1圖係示例性問題與答案文件處理及回應產生系統的圖。
第2圖係用於判定供查詢執行期間使用的消岐資訊(用於Q-A系統)的構架的流程圖。
第3圖係示例性文件攝入程序的圖。
第4圖係用於問題回答過程的上下文澄清和消歧的程序的流程圖。
在各個圖式中,相同參考符號指示相同元件。
國內寄存資訊(請依寄存機構、日期、號碼順序註記)
無
國外寄存資訊(請依寄存國家、機構、日期、號碼順序註記)
無
400:方法
410,420,430,440,440,450:步驟
Claims (30)
- 一種方法,該方法包含以下步驟: 在一本端裝置處自一遠端裝置接收代表與一或多個源文件的源內容相關的一問題的查詢資料; 導致對保持與該一或多個源文件相關的資料部分的一資料存放庫之一搜索以判定該查詢資料與保持在該資料存放庫處的該等資料部分之間的多個匹配之一集合; 識別與多個匹配之該集合相關聯的一或多個概念,該一或多個所識別概念中之至少一者與該多個匹配中之至少一些相關聯且包括與該多個匹配中之該至少一些相關聯的不同的各別值; 獲得與該一或多個所識別概念中之該至少一者相關的消岐資訊;及 基於與該一或多個所識別概念中之該至少一者相關的該所獲得消岐資訊選擇該多個匹配中之至少一者。
- 如請求項1所述之方法,其中獲得該消岐資訊之步驟包含以下步驟:獲得針對關於該源內容執行的近期查詢異動的查詢上下文資訊; 且其中選擇該多個匹配中之至少一者之步驟包含以下步驟:至少部分地基於針對關於該源內容執行的該等近期查詢異動的該查詢上下文資訊選擇該多個匹配中之至少一者。
- 如請求項1所述之方法,其中獲得該消岐資訊之步驟包含以下步驟:產生提示資料以提示一使用者提供澄清資訊; 且其中選擇該多個匹配中之至少一者之步驟包含以下步驟:至少部分地基於由該使用者回應於該所產生提示資料而提供的該澄清資訊選擇該多個匹配中之至少一者。
- 如請求項3所述之方法,其中產生該提示資料以提示該使用者提供該澄清資訊之步驟包含以下步驟:基於以下中之一或多者自動產生一輸出提示: 產生具有可選擇項目的一列表,該等可選擇項目對應於針對一或多個上下文類別的不同值; 將自然語言處理應用於所識別的該多個匹配以產生具有可選擇項目的一列表的一提示,該使用者將自該列表選擇該等可選擇項目中之一或多者;或 自預定提示之一集合選擇一或多個項目。
- 如請求項3所述之方法,其中選擇該多個匹配中之至少一者之步驟包含以下步驟:基於由該使用者提供的該澄清資訊排除該多個匹配中之一或多者; 其中該方法進一步包括以下步驟:基於未自所識別匹配之該集合排除的匹配反覆地產生細化提示資料,以提示該使用者反覆地提供進一步澄清資訊以自所識別的該多個匹配識別一最佳匹配。
- 如請求項3所述之方法,其中產生該提示資料之步驟包含以下步驟:呈現一地圖的一圖形表示以提示該使用者指示一地理位置; 且其中至少部分地基於該澄清資訊選擇該多個匹配中之該至少一者之步驟包含以下步驟:回應於該多個匹配中之經判定為與由該使用者指示的該地理位置相關的該至少一者而選擇該多個匹配中之該至少一者。
- 如請求項1所述之方法,其中多個匹配中之每一者與內容上下文資訊相關聯,該內容上下文資訊與保持在該資料存放庫處的該等資料部分相關聯; 其中識別與該多個匹配相關聯的該一或多個概念之步驟包含以下步驟:至少部分地基於與該多個匹配中之每一者相關聯的該內容上下文資訊識別該一或多個概念。
- 如請求項7所述之方法,其中與該等各別資料部分相關聯的該內容上下文資訊係藉由例如以下中之一或多者產生: a) 將一或多種預處理應用於該一或多個源文件以產生代表該一或多個源文件的一結構及內容的文件上下文資訊,且基於該上下文資訊變換該一或多個源文件以產生一或多個問題與答案可搜索文件; b) 將該一或多個源文件分段成複數個文件段,針對該複數個文件段中之至少一個段識別至少一個段描述符,該至少一個段描述符包含與該至少一個段相關聯的至少一個實體、與該至少一個段相關聯的至少一個任務或與該至少一個段相關聯的主題描述符中之一或多者,且用該至少一個描述符給該至少一個段加標籤;或 c) 向該等資料部分中之一或多者添加使用者注解。
- 如請求項7所述之方法,其中針對該多個匹配中之每一者的該內容上下文資訊包括代表針對複數個上下文類別的值的資料; 且其中識別與該多個匹配相關聯的該一或多個概念之步驟包含以下步驟: 判定該多個匹配中之至少兩者是否與針對來自該複數個上下文類別之一特定上下文類別的不同值相關聯。
- 如請求項9所述之方法,其中導致對該資料存放庫之該搜索以判定該查詢資料與保持在該資料存放庫處的該等資料部分之間的匹配之該集合之步驟包含以下步驟: 將匹配之該集合中的該等匹配配置成群組,該等群組各自共享該複數個上下文類別中之一或多者。
- 如請求項7所述之方法,其中該查詢資料包含查詢上下文資料; 且其中導致對該資料存放庫之該搜索以判定匹配之該集合之步驟包含以下步驟:導致對該資料存放庫之該搜索以識別與包括在該查詢資料中的該查詢上下文資料相關聯的資料部分。
- 如請求項11所述之方法,其中該查詢上下文資料包含由一使用者經由一地圖的一圖形表示指定的地理位置資料; 且其中至少部分地基於該消岐資訊選擇該多個匹配中之至少一者之步驟包含以下步驟:導致對該資料存放庫之該搜索以識別與由該使用者指定的該地理位置資料相關的資料部分。
- 如請求項11所述之方法,其中該查詢上下文資料包括指定來自複數個上下文類別之一或多個類別的類別資料; 且其中導致對該資料存放庫之該搜索之步驟包含以下步驟:導致對該資料存放庫之該搜索以識別與在該查詢上下文資料中指定的來自該複數個上下文類別之所指定的該一或多個類別相關聯的匹配。
- 如請求項1所述之方法,其中保持在該資料存放庫處的該等資料部分包含根據一或多個內容變換程序變換的該源內容的經變換部分,且其中導致對保持該等資料部分的該資料存放庫之該搜索之步驟包含以下步驟: 將該查詢資料變換成與該經變換源內容相容的經變換查詢資料;及 搜索保持在該資料存放庫處的該經變換內容以識別該經變換內容中根據一或多種準則與該經變換查詢資料匹配的一或多個候選部分。
- 如請求項14所述之方法,其中該源內容的該等經變換部分包括根據來自變換器之雙向編碼器表示(BERT)處理來變換的資料部分。
- 如請求項14所述之方法,其中該一或多個變換可包含以下中之一或多者:一粗略線性化變換,用於產生代表該源內容的複數個文件段的內容之粗略數值向量;或一精細細節變換,用於產生代表該複數個文件段的該內容之經精細細節變換的內容記錄。
- 如請求項1所述之方法,其中獲得與該一或多個所識別概念中之該至少一者相關的該消岐資訊之步驟包含以下步驟: 根據以下中之一者獲得該消岐資訊: i) 一第一消岐政策,其指定選自該一或多個所識別概念的多個概念的一預定次序,針對該等概念判定該多個匹配與該各別多個概念的相關性; ii) 一第二消岐政策,用於自該一或多個所識別概念選擇一概念,該概念最佳化一目標函數以降低該多個匹配當中的歧義等級;或 iii) 一第三消岐政策,用於視覺提示一使用者進行與該一或多個所識別概念相關的回饋以便選擇該多個匹配中之該至少一者。
- 一種系統,該系統包含: 一通信單元,該通信單元經組態以在一本端裝置處自一遠端裝置接收代表與一或多個源文件的源內容相關的一問題的查詢資料;及 一控制器,該控制器電耦接至該通信單元,該控制器經組態以: 導致對保持與該一或多個源文件相關的資料部分的一資料存放庫之一搜索以判定該查詢資料與保持在該資料存放庫處的該等資料部分之間的多個匹配之一集合; 識別與該多個匹配相關聯的一或多個概念,該一或多個所識別概念中之至少一者與該多個匹配中之至少一些相關聯且包括與該多個匹配中之該至少一些相關聯的不同的各別值; 獲得與該一或多個所識別概念中之該至少一者相關的消岐資訊;且 基於與該一或多個所識別概念中之該至少一者相關的該所獲得消岐資訊選擇該多個匹配中之至少一者。
- 如請求項18所述之系統,其中經組態以獲得該消岐資訊的該控制器經組態以獲得針對關於該源內容執行的近期查詢異動的查詢上下文資訊; 且其中經組態以選擇該多個匹配中之至少一者的該控制器經組態以至少部分地基於針對關於該源內容執行的該等近期查詢異動的該查詢上下文資訊選擇該多個匹配中之至少一者。
- 如請求項18所述之系統,其中經組態以獲得該消岐資訊的該控制器經組態以產生提示資料以提示一使用者提供澄清資訊; 且其中經組態以選擇該多個匹配中之至少一者的該控制器經組態以至少部分地基於由該使用者回應於該所產生提示資料而提供的該澄清資訊選擇該多個匹配中之至少一者。
- 如請求項20所述之系統,其中經組態以產生該提示資料以提示該使用者提供該澄清資訊的該控制器經組態以基於以下中之一或多者自動產生一輸出提示: 產生具有可選擇項目的一列表,該等可選擇項目對應於針對一或多個上下文類別的不同值; 將自然語言處理應用於所識別的該多個匹配以產生具有可選擇項目的一列表的一提示,該使用者將自該列表選擇該等可選擇項目中之一或多者;或 自預定提示之一集合選擇一或多個項目。
- 如請求項20所述之系統,其中經組態以選擇該多個匹配中之至少一者的該控制器經組態以基於由該使用者提供的該澄清資訊排除該多個匹配中之一或多者; 其中該控制器進一步經組態以基於未自所識別匹配之該集合排除的匹配反覆地產生細化提示資料,以提示該使用者反覆地提供進一步澄清資訊以自所識別的該多個匹配識別一最佳匹配。
- 如請求項20所述之系統,其中經組態以產生該提示資料的該控制器經組態以呈現一地圖的一圖形表示以提示該使用者指示一地理位置; 且其中經組態以至少部分地基於該澄清資訊選擇該多個匹配中之該至少一者的該控制器經組態以回應於該多個匹配中之經判定為與由該使用者指示的該地理位置相關的該至少一者而選擇該多個匹配中之該至少一者。
- 如請求項18所述之系統,其中多個匹配中之每一者與內容上下文資訊相關聯,該內容上下文資訊與保持在該資料存放庫處的該等資料部分相關聯; 其中經組態以識別與該多個匹配相關聯的該一或多個概念的該控制器經組態以至少部分地基於與該多個匹配中之每一者相關聯的該內容上下文資訊識別該一或多個概念。
- 如請求項24所述之系統,其中與該等各別資料部分相關聯的該內容上下文資訊係藉由例如以下中之一或多者產生: a) 將一或多種預處理應用於該一或多個源文件以產生代表該一或多個源文件的一結構及內容的文件上下文資訊,且基於該上下文資訊變換該一或多個源文件以產生一或多個問題與答案可搜索文件; b) 將該一或多個源文件分段成複數個文件段,針對該複數個文件段中之至少一個段識別至少一個段描述符,該至少一個段描述符包含與該至少一個段相關聯的至少一個實體、與該至少一個段相關聯的至少一個任務或與該至少一個段相關聯的主題描述符中之一或多者,且用該至少一個描述符給該至少一個段加標籤;或 c) 向該等資料部分中之一或多者添加使用者注解。
- 如請求項24所述之系統,其中針對該多個匹配中之每一者的該內容上下文資訊包括代表針對複數個上下文類別的值的資料; 且其中經組態以識別與該多個匹配相關聯的該一或多個概念的該控制器經組態以: 判定該多個匹配中之至少兩者是否與針對來自該複數個上下文類別之一特定上下文類別的不同值相關聯。
- 如請求項26所述之系統,其中經組態以導致對該資料存放庫之該搜索以判定該查詢資料與保持在該資料存放庫處的該等資料部分之間的匹配之該集合的該控制器經組態以: 將匹配之該集合中的該等匹配配置成群組,該等群組各自共享該複數個上下文類別中之一或多者。
- 如請求項24所述之系統,其中該查詢資料包含查詢上下文資料; 且其中經組態以導致對該資料存放庫之該搜索以判定匹配之該集合的該控制器經組態以導致對該資料存放庫之該搜索以識別與包括在該查詢資料中的該查詢上下文資料相關聯的資料部分。
- 如請求項18所述之系統,其中經組態以獲得與該一或多個所識別概念中之該至少一者相關的該消岐資訊的該控制器經組態以: 根據以下中之一者獲得該消岐資訊: i) 一第一消岐政策,其指定選自該一或多個所識別概念的多個概念的一預定次序,針對該等概念判定該多個匹配與該各別多個概念的相關性; ii) 一第二消岐政策,用於自該一或多個所識別概念選擇一概念,該概念最佳化一目標函數以降低該多個匹配當中的歧義等級;或 iii) 一第三消岐政策,用於視覺提示一使用者進行與該一或多個所識別概念相關的回饋以便選擇該多個匹配中之該至少一者。
- 一種非暫時性電腦可讀儲存媒體,該非暫時性電腦可讀儲存媒體程式化有指令,該等指令可在一計算系統的一或多個處理器上執行以: 在一本端裝置處自一遠端裝置接收代表與一或多個源文件的源內容相關的一問題的查詢資料; 導致對保持與該一或多個源文件相關的資料部分的一資料存放庫之一搜索以判定該查詢資料與保持在該資料存放庫處的該等資料部分之間的多個匹配之一集合; 識別與該多個匹配相關聯的一或多個概念,該一或多個所識別概念中之至少一者與該多個匹配中之至少一些相關聯且包括與該多個匹配中之該至少一些相關聯的不同的各別值; 獲得與該一或多個所識別概念中之該至少一者相關的消岐資訊;且 基於與該一或多個所識別概念中之該至少一者相關的該所獲得消岐資訊選擇該多個匹配中之至少一者。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163293343P | 2021-12-23 | 2021-12-23 | |
US63/293,343 | 2021-12-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202334839A true TW202334839A (zh) | 2023-09-01 |
Family
ID=86897815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW111149453A TW202334839A (zh) | 2021-12-23 | 2022-12-22 | 用於問題回答過程的上下文澄清和消歧 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230205824A1 (zh) |
CA (1) | CA3242250A1 (zh) |
TW (1) | TW202334839A (zh) |
WO (1) | WO2023122051A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434517B (zh) * | 2020-11-09 | 2023-08-04 | 西安交通大学 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
US20230316001A1 (en) * | 2022-03-29 | 2023-10-05 | Robert Bosch Gmbh | System and method with entity type clarification for fine-grained factual knowledge retrieval |
EP4328779A1 (en) * | 2022-08-26 | 2024-02-28 | Siemens Healthineers AG | Structuring data for privacy risks assessments |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2613782A1 (en) * | 2005-06-28 | 2007-01-04 | Metacarta, Inc. | User interface for geographic search |
US8332426B2 (en) * | 2010-11-23 | 2012-12-11 | Microsoft Corporation | Indentifying referring expressions for concepts |
US8364672B2 (en) * | 2010-11-23 | 2013-01-29 | Microsoft Corporation | Concept disambiguation via search engine search results |
US20120158685A1 (en) * | 2010-12-16 | 2012-06-21 | Microsoft Corporation | Modeling Intent and Ranking Search Results Using Activity-based Context |
US9323833B2 (en) * | 2011-02-07 | 2016-04-26 | Microsoft Technology Licensing, Llc | Relevant online search for long queries |
US8700544B2 (en) * | 2011-06-17 | 2014-04-15 | Microsoft Corporation | Functionality for personalizing search results |
US9665643B2 (en) * | 2011-12-30 | 2017-05-30 | Microsoft Technology Licensing, Llc | Knowledge-based entity detection and disambiguation |
US10838995B2 (en) * | 2014-05-16 | 2020-11-17 | Microsoft Technology Licensing, Llc | Generating distinct entity names to facilitate entity disambiguation |
US10496691B1 (en) * | 2015-09-08 | 2019-12-03 | Google Llc | Clustering search results |
US10289625B2 (en) * | 2016-09-15 | 2019-05-14 | Google Llc | Providing context facts |
KR102447713B1 (ko) * | 2018-12-03 | 2022-09-26 | 가부시키가이샤 에네오스 마테리아루 | 중합체 조성물 및 그의 제조 방법, 가교체 및 그의 제조 방법, 그리고 타이어 |
-
2022
- 2022-12-19 US US18/083,733 patent/US20230205824A1/en active Pending
- 2022-12-20 WO PCT/US2022/053437 patent/WO2023122051A1/en active Application Filing
- 2022-12-20 CA CA3242250A patent/CA3242250A1/en active Pending
- 2022-12-22 TW TW111149453A patent/TW202334839A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023122051A1 (en) | 2023-06-29 |
US20230205824A1 (en) | 2023-06-29 |
CA3242250A1 (en) | 2023-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11593364B2 (en) | Systems and methods for question-and-answer searching using a cache | |
US10878009B2 (en) | Translating natural language utterances to keyword search queries | |
TW202334839A (zh) | 用於問題回答過程的上下文澄清和消歧 | |
JP6014725B2 (ja) | 単文/複文構造の自然言語クエリに対する検索および情報提供方法並びにシステム | |
US8126897B2 (en) | Unified inverted index for video passage retrieval | |
US9940354B2 (en) | Providing answers to questions having both rankable and probabilistic components | |
US20240265041A1 (en) | Methods and Systems for Improved Document Processing and Information Retrieval | |
US20240012842A1 (en) | Supervised Summarization and Structuring of Unstructured Documents | |
US11960514B1 (en) | Interactive conversation assistance using semantic search and generative AI | |
US20160299972A1 (en) | Providing app store search results | |
US12087278B2 (en) | Disfluency removal using machine learning | |
KR20200136636A (ko) | 형태소 기반 ai 챗봇 및 그의 문장의도 결정 방법 | |
KR100844265B1 (ko) | 시멘틱 웹을 이용한 목적지 검색 서비스 제공 방법 및시스템 | |
KR101602342B1 (ko) | 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템 | |
KR20080049428A (ko) | 질의어 분석을 이용한 유사 검색 서비스 제공 방법 및 장치 | |
KR20240144131A (ko) | 질의 응답 과정에 대한 문맥 설명 및 명확화 | |
Khan | Processing big data with natural semantics and natural language understanding using brain-like approach | |
US9244921B2 (en) | Altering relevancy of a document and/or a search query | |
KR101836420B1 (ko) | 히스토리 탐색을 위한 인덱싱 | |
KR20230068092A (ko) | 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템 | |
Carnaz et al. | Extracting and Representing Entities from Open Sources of Information in the Agatha Project | |
CN117520608A (zh) | 数据操作方法、装置、设备和介质 | |
JP2008140272A (ja) | 検索実行装置、検索システム、検索方法、検索プログラム | |
KR20080049429A (ko) | 이동통신 네트워크 환경에서 목적지 검색 방법 및 장치 |