TW201502814A

TW201502814A - 資訊檢索系統及方法

Info

Publication number: TW201502814A
Application number: TW102112280A
Authority: TW
Inventors: Chung-I Lee; De-Yi Xie; Shuai-Jun Tao; zhi-qiang Yi; Jun-Chao Yao
Original assignee: Hon Hai Prec Ind Co Ltd
Priority date: 2013-04-08
Filing date: 2013-04-08
Publication date: 2015-01-16

Abstract

一種資訊檢索系統，包括：切分模組，用於將文檔資料庫中的文檔切分成多個文檔區塊；接收模組，用於接收輸入資訊，並確定該輸入資訊所在的文檔區塊；確定模組，用於確定所述文檔資料庫的所有文檔中與所述確定的文檔區塊相同的文檔區塊為待檢索區塊；檢索模組，用於在所述文檔資料庫中的待檢索區塊中檢索該輸入資訊，並獲取多個檢索到的文檔；計算模組，用於確定每個檢索到的文檔的權值；及輸出模組，用於根據所計算的權值的高低對檢索到的文檔進行排序。本發明還提供一種資訊檢索方法。

Description

資訊檢索系統及方法

本發明涉及檢索技術，尤其涉及一種資訊檢索系統及方法。

檢索技術可以幫助用戶從龐大的信息量中尋找自己需要的資訊，然而，隨著檢索技術的發展，檢索得到的相關資訊的數量也越來越多。雖然目前的檢索技術能夠根據用戶輸入的檢索關鍵字回饋相關的資訊，然而卻欠缺針對特定文檔（例如，專利文檔）的多個指定文檔區塊（例如，專利文檔中的多個組成部分，說明書、申請專利範圍等文檔區塊）內進行相關資訊的檢索。也就是說，用戶無法快速在所需的特定文檔區塊內進行所需資訊的檢索。

進一步地，現有的檢索技術未能與編輯軟體相結合，無法在用戶輸入資訊時自動對該輸入資訊進行檢索並提示用戶檢索結果。

此外，部分特定文檔具有多個關聯的文檔也是可供用戶進行檢索參考的，現有檢索技術僅能對用戶輸入的關鍵字進行檢索，但無法提供檢索到的文檔的關聯文檔。例如前述的專利文檔會對應多個官方意見書（例如，經濟部智慧財產局所發出的審查意見通知函）及相關的引證文檔，若利用現有檢索技術，用戶無法藉由檢索到的專利文檔快速獲取相關的官方意見書及所引用的引證文檔。

鑒於以上內容，有必要提供一種資訊檢索系統及方法，可根據用戶的檢索需求在文檔資料庫中文檔的多個文檔區塊進行指定檢索。

進一步地，還有必要提供一種資訊檢索系統及方法，可將文字編輯軟體與檢索技術進行結合，以根據接收的輸入資訊進行即時檢索。

此外，還有必要提供一種資訊檢索系統及方法，可提供檢索到文檔的關聯文檔供用戶進行參考。

一種資訊檢索方法，應用於伺服器，所述伺服器包括儲存裝置，所述儲存裝置包括儲存多個文檔的文檔資料庫，該方法包括：根據預設切分參數將所述文檔資料庫中的文檔切分成多個文檔區塊；接收輸入資訊，並確定該輸入資訊所在的文檔區塊；確定所述文檔資料庫的所有文檔中與所述確定的文檔區塊相同的文檔區塊為待檢索區塊；利用預設的檢索方法在所述文檔資料庫中的待檢索區塊中檢索該輸入資訊；獲取多個檢索到的文檔；確定每個檢索到的文檔的權值；及根據所計算的權值的高低對檢索到的文檔進行排序。

一種資訊檢索系統，應用於伺服器，所述伺服器包括儲存裝置，所述儲存裝置包括儲存多個文檔的文檔資料庫，該系統包括：切分模組，用於根據預設切分參數將所述文檔資料庫中的文檔切分成多個文檔區塊；接收模組，用於接收輸入資訊，並確定該輸入資訊所在的文檔區塊；確定模組，用於確定所述文檔資料庫的所有文檔中與所述確定的文檔區塊相同的文檔區塊為待檢索區塊；檢索模組，用於利用預設的檢索方法在所述文檔資料庫中的待檢索區塊中檢索該輸入資訊，並獲取多個檢索到的文檔；計算模組，用於確定每個檢索到的文檔的權值；及輸出模組，用於根據所計算的權值的高低對檢索到的文檔進行排序。

相較於習知技術，所述的資訊檢索系統及方法，可實現對文檔進行分區塊檢索。所述的資訊檢索系統及方法根據用戶的檢索需求在文檔資料庫中文檔的多個文檔區塊進行指定檢索，還可將文字編輯軟體與檢索技術進行結合，以根據接收的輸入資訊進行即時檢索，以及提供檢索到文檔的關聯文檔供用戶進行參考。

1‧‧‧伺服器

10‧‧‧資訊檢索系統

100‧‧‧切分模組

101‧‧‧接收模組

102‧‧‧確定模組

103‧‧‧檢索模組

104‧‧‧計算模組

105‧‧‧輸出模組

106‧‧‧文字編輯器

107‧‧‧關聯模組

11‧‧‧處理器

12‧‧‧儲存裝置

120‧‧‧文檔資料庫

122‧‧‧參考資料庫

124‧‧‧專業術語詞庫

126‧‧‧同義詞詞庫

128‧‧‧過濾詞庫

2‧‧‧電子裝置

3‧‧‧網路

圖1是本發明資訊檢索系統的較佳實施方式的運行環境圖。

圖2是本發明資訊檢索系統的較佳實施方式的硬體架構圖。

圖3是本發明資訊檢索系統的較佳實施方式的功能模組圖。

圖4是本發明資訊檢索系統的權值計算第一示意圖。

圖5是本發明資訊檢索系統的權值計算第二示意圖。

圖6是本發明資訊檢索系統的文檔權值表示意圖。

圖7是本發明資訊檢索系統的關聯資訊示意圖。

圖8是本發明資訊檢索系統的檢索清單示意圖。

圖9是本發明資訊檢索方法的較佳實施方式的流程圖。

圖10是本發明資訊檢索方法的較佳實施方式的流程圖中步驟S8的細化流程圖。

圖11是本發明資訊檢索方法的較佳實施方式的流程圖中步驟S12的細化流程圖。

如圖1所示，是本發明資訊檢索系統的較佳實施方式的運行環境圖。如圖2所示，是本發明資訊檢索系統的較佳實施方式的硬體架構圖。下文結合圖1、圖2進行說明。

所述的資訊檢索系統10應用於伺服器1中，所述的伺服器1可以是電腦、電腦主機等裝置。多個用戶可以利用電子裝置2與網路3的連接來訪問所述資訊檢索系統10，實現對所需資訊的檢索及對檢索結果的優化處理。所述的電子裝置2可以是手機、電腦、筆記本電腦、個人數位助理、平板電腦等裝置。所述的網路3可以是網際網路（Internet）或者是內部網（Intranet）。

所述的資訊檢索系統10用於將預先儲存的多個文檔進行切分以獲取多個文檔區塊，接收用戶的輸入資訊，根據用戶的檢索需求確定待檢索的文檔區塊（下文簡稱為“待檢索區塊”），並在該待檢索區塊檢索該輸入資訊，以及對檢索結果進行優化並回饋給用戶。

在不同的實施方式中，所述的資訊檢索系統10還用於提供一個文字編輯器供用戶輸入需要生成文檔的相關資訊，並根據該輸入資訊進行如上文所述的檢索，及/或針對檢索到的文檔進行更進一步的關聯資訊檢索，包括提供該檢索到的文檔的關聯文檔，具體細節將在下文進行詳細描述。

所述的伺服器1包括處理器11以及儲存裝置12。所述處理器11用於執行所述資訊檢索系統10以及所述伺服器1內安裝的各類軟體，例如作業系統等。所述儲存裝置12可以是硬碟，或者其他類型的儲存卡或儲存設備。所述的儲存裝置12用於儲存各類資料，例如，文檔、影像、操作日誌等資訊。

所述的儲存裝置12包括，但不限於：文檔資料庫120、參考資料庫122、專業術語詞庫124、同義詞詞庫126及過濾詞庫128。

所述的文檔資料庫120用於儲存多個文檔供用戶進行檢索，所述多個文檔可以是專利文檔、論文、期刊等類型的文檔。

所述的參考資料庫122用於儲存與所述文檔資料庫120中的文檔的相關聯的參考文檔。例如，所述參考文檔可以是專利文檔相對應的官方意見通知書、引用的引證文檔、論文的考核意見及論文所引用的文獻等。

所述的專業術語詞庫124用於儲存預先儲存的專業術語，以提取用戶輸入的檢索資訊中的專業術語。

所述的同義詞詞庫126用於儲存多組同義詞，以便於對用戶輸入的檢索資訊進行語意的擴充，實現擴大檢索的範圍。

所述的過濾詞庫128用於儲存預設的字詞符號以實現對用戶輸入的檢索資訊進行過濾，避免非必要字詞符號對檢索結果的影響。

此外，在其他實施方式中，所述的儲存裝置12還可進一步包括其他類型的資料庫以實現對檢索過程中的優化處理。

如圖3所示，是本發明資訊檢索系統的較佳實施方式的功能模組圖。在本實施方式中，所述資訊檢索系統10包括多個功能模組，分別是：切分模組100、接收模組101、確定模組102、檢索模組103、計算模組104以及輸出模組105。

所述的切分模組100用於根據預設切分參數將所述文檔資料庫120中的文檔切分成多個文檔區塊。所述預設切分參數包括，但不限於：依預設關鍵字切分、依範本切分、依段落切分、依選擇內容切分。

例如，假設所述文檔資料庫120中儲存的文檔是專利文檔，所述的多個文檔區塊可以包括，但不限於：發明摘要、申請專利範圍、說明書、說明書圖式。

在其他實施方式中，所述的切分模組100還用於對所述多個文檔區塊進行等級劃分。例如，當所述文檔為專利文檔時，將申請專利範圍作為等級最高的文檔區塊，其次是說明書，說明書圖式、發明摘要等。

此外，在其他實施方式中，所述的切分模組100還用於在每個文檔區塊內進一步劃分子區塊，並設置每個子區塊的等級。例如，將專利文檔中的申請專利範圍文檔區塊劃分為獨立申請專利範圍子區塊及附屬申請專利範圍子區塊，將說明書文檔區塊劃分為技術領域、先前技術、發明內容、圖式簡單說明及實施方式等子區塊。

此外，所述的切分模組100進一步用於設置區塊、子區塊的識別標誌，例如將上述的“申請專利範圍”、“實施方式”等設置為區塊、子區塊的識別標誌。

所述的接收模組101用於接收輸入資訊，並確定該輸入資訊所在的文檔區塊。例如，所述的資訊檢索系統10可以提供一個用戶介面供用戶輸入待檢索的資訊。

此外，在其他實施方式中，所述的資訊檢索系統10還可進一步提供文字編輯器106，用於接收所述輸入資訊並輸出後續檢索到的文檔的資訊，所述文字編輯器106提供一個包括多個文檔區塊的顯示介面。例如，用戶可以開啟該文字編輯器106以進行文檔的撰寫（例如，撰寫一份專利申請的說明書），在用戶往所述文字編輯器106輸入資訊時，所述的資訊檢索系統10會提供一個同步資訊檢索功能，並在用戶輸入資訊時偵測到該同步資訊檢索功能被開啟時，所述的接收模組101接收該輸入的資訊，並確定該輸入資訊所在的文檔區塊。

所述的確定模組102用於確定所述文檔資料庫120中的所有文檔中與所述確定的文檔區塊相同的文檔區塊為待檢索區塊。例如，該輸入資訊所在的文檔區塊是申請專利範圍，所述的確定模組102確定所述文檔資料庫120中所有文檔中的申請專利範圍為待檢索區塊。

在第一實施方式中，如上文所述，所述的確定模組102將所述文檔資料庫120中的所有文檔中與所述確定的文檔區塊相同的文檔區塊確定為待檢索區塊。在第二實施方式中，所述的切分模組100將所述多個文檔區塊進行等級劃分，所述的接收模組101確定所述輸入資訊所在文檔區塊的所處等級，然後，所述的確定模組102確定所述文檔資料庫的所有文檔中處於所確定的等級的一個或多個文檔區塊為待檢索區塊。

所述的檢索模組103用於利用預設的檢索方法在所述文檔資料庫120中的待檢索區塊中檢索該輸入資訊。例如，所述預設的檢索方法包括，但不限於：字串匹配法、同義詞擴展法、專業術語提取法中的一種或多種方法的結合。所述的字串匹配法包括正向最大匹配法、逆向最大匹配法、雙向最大匹配法。

所述的檢索模組103藉由如下的一種或多種方式的結合對輸入資訊進行檢索：利用所述專業術語詞庫124提取該輸入資訊中的關鍵字；利用所述同義詞詞庫126對該提取的關鍵字進行同義詞擴展並得到擴展後的關鍵字；利用所述過濾詞庫128對該擴展後的關鍵字進行過濾；及利用字串匹配法在所述待檢索區塊中檢索該過濾後的關鍵字。上述方式的執行順序可以根據檢索需求進行調整，實際應用中並不局限於此。此外，實際應用中還可加入更多其他的方式以使得檢索結果更為精確。

所述的檢索模組103獲取多個檢索到的文檔。

所述的計算模組104用於確定每個檢索到的文檔的權值。例如，在本實施方式中，所述的計算模組104可以藉由如下方式確定每個檢索到的文檔的權值：將每個檢索到的文檔中與所述最大字串中的相同字元作為匹配值，並確定該匹配值的字元數。

在該過濾後的關鍵字中包括一個最大字串時，所述的計算模組104根據每個檢索到的文檔的匹配值的字元數確定每個檢索到的文檔的權值。

在該過濾後的關鍵字中包括多個最大字串時，所述的計算模組104判斷該多個最大字串是否對應有相同的檢索到的文檔，並在該多個最大字串沒有對應相同的檢索到的文檔時，根據每個檢索到的文檔的匹配值的字元數確定每個檢索到的文檔的權值。

在該多個最大字串對應有相同的檢索到的文檔時，所述的計算模組104判斷該相同的檢索到的文檔對應的不同最大字串的匹配值是否相同。在該相同的檢索到的文檔對應的不同最大字串的匹配值相同時，所述的計算模組104確定該匹配值的字元數作為該相同的檢索到的文檔的權值。在該相同的檢索到的文檔對應的不同最大字串的匹配值不相同時，所述的計算模組104將該不相同的多個匹配值的字元數進行加總，並將該加總後的值的字元數作為該相同的檢索到的文檔的權值。

此外，在其他實施方式中，所述的計算模組104還用於在該相同的檢索到的文檔對應的不同最大字串的匹配值不相同時，進一步判斷相同的檢索到的文檔所對應的匹配值是否相似。若相似，所述的計算模組104可以選擇保留其中字元數較多的匹配值，並將該保留匹配值的字元數作為該檢索到的文檔的權值，及捨棄其中字元數較少的匹配值。下文將舉例進行說明。其中，對匹配值的相似度的確認可判斷兩個或多個匹配值之間的差異字元是否具有實質意義，還是僅為連接詞等，也可藉由設置特定詞庫，當該差異字元為特定詞庫中的字元時，確定該差異字元可以忽略，並判斷該多個匹配值相似。此外，還可根據現有技術進行確定。

例如，假設輸入的關鍵字是“滑軌固定結構將一滑軌固定於機架上”，經過上述模組的處理後得到的過濾後的關鍵字是“滑軌固定結構滑軌固定於機架”，並確定包括兩個最大字串，分別是“滑軌固定結構”和“滑軌固定於機架”。參考如圖4所示的權值計算第一示意圖以及圖5所示的權值計算第二示意圖，針對第一個最大字串可檢索到三個文檔：A、B、C，針對第二個最大字串可檢索到三個文檔：B、C、D。

其中，針對第一個最大字串，文檔A的匹配值是“滑軌固”，所述的計算模組104可確定文檔A的權值是3；文檔B的匹配值是“滑軌固定”，所述的計算模組104可確定文檔B的權值是4；文檔C的匹配值是“滑軌固定結”，所述的計算模組104可確定文檔C的權值是5。

針對第二個最大字串，文檔B的匹配值是“滑軌固定於”，所述的計算模組104可確定文檔B的權值是5；文檔D的匹配值是“滑軌固定於機”，所述的計算模組104可確定文檔D的權值是6；文檔C的匹配值是“滑軌固定於機架”，所述的計算模組104可確定文檔C的權值是7。

參考如圖6所示的文檔權值表示意圖可知，由於文檔C所對應的兩個匹配值不相同也不相似，則所述的計算模組104可確定文檔C的權值為上述兩個匹配值的總和，即5+7=12。由於文檔A所對應的兩個匹配值相同，則所述的計算模組104可確定文檔C的權值即為該匹配值的字元數，即3。由於文檔B所對應的兩個匹配值不相同但認定為相似（例如，認定其中存在差異的字元“於”為可忽略的字元），則所述的計算模組104可確定文檔C的權值為具有較多字元的匹配值“滑軌固定於“的字元數，即5。

所述的輸出模組105用於根據所計算的權值的高低對檢索到的文檔進行排序，然後輸出該排序後的檢索結果。所述檢索結果可以是包括多個檢索到的文檔的清單，並且每個檢索文檔具備超鏈結，在點擊後，可開啟相關檢索到的文檔的原文。所述檢索結果還可以用其他形式進行展現。

此外，在其他實施方式中，所述的輸出模組105還用於在權值相同時，依據所述匹配值所處區塊及/或子區塊的等級確定該檢索到的文檔的排序。例如，所述的輸出模組105判斷相同匹配值位於檢索到的不同文檔的子區塊中的等級來確定排序的順序。

此外，在其他實施方式中，所述的資訊檢索系統10還包括關聯模組107，用於從多個檢索到的文檔中選擇至少一個文檔，在所述參考資料庫122中檢索該選擇的文檔的關聯文檔，例如，假設該選擇的文檔是專利文檔，關聯文檔是該專利文檔對應的官方意見書及官方意見書中引用的引證文檔。

所述關聯模組107還用於從所述官方意見書中提取該選擇的文檔中被駁申請專利範圍的項數、被駁的法律條款以及引證文檔，及確定該選擇的文檔的駁回資訊，該駁回資訊包括被駁申請專利範圍的項數、被駁的法律條款及/或引證文檔。所述關聯模組107將上述駁回資訊確定為該選擇的文檔的關聯資訊。

參考如圖7所示的關聯資訊示意圖，文檔C（專利號為TW 11111）包括9個申請專利範圍，其中申請專利範圍1-4和9被認定為不滿足專利法第22條第2項的規定，引用的引證文檔是TW 22222和公知常識，申請專利範圍5-8被認定為不滿足專利法第22條第2項的規定，引用的引證文檔是TW 22222和TW 33333。

所述的輸出模組105進一步用於將上文所述的檢索結果與相應的關聯資訊進行結合及輸出，可參考如圖8所示的檢索清單示意圖。

如圖9所示，是本發明資訊檢索方法的較佳實施方式的流程圖。首先，步驟S2，所述的切分模組100根據預設切分參數將所述文檔資料庫120中的文檔切分成多個文檔區塊。所述預設切分參數包括，但不限於：依預設關鍵字切分、依範本切分、依段落切分、依選擇內容切分。

步驟S4，所述的接收模組101接收輸入資訊，並確定該輸入資訊所在的文檔區塊。

步驟S6，所述的確定模組102確定所述文檔資料庫120中的所有文檔中與所述確定的文檔區塊相同的文檔區塊為待檢索區塊。

步驟S8，所述的檢索模組103利用預設的檢索方法在所述文檔資料庫120中的待檢索區塊中檢索該輸入資訊。具體細化步驟可參考圖10所示。

步驟S10，所述的檢索模組103獲取多個檢索到的文檔。

步驟S12，所述的計算模組104確定每個檢索到的文檔的權值。具體細化步驟可參考圖11所示。

步驟S14，所述的輸出模組105根據所計算的權值的高低對檢索到的文檔進行排序。

步驟S16，所述的輸出模組105輸出該排序後的檢索結果，然後，結束本流程。

如圖10所示，是本發明資訊檢索方法的較佳實施方式的流程圖中步驟S8的細化流程圖。

步驟S80，所述的檢索模組103利用所述專業術語詞庫124提取該輸入資訊中的關鍵字。

步驟S82，所述的檢索模組103利用所述同義詞詞庫126對該提取的關鍵字進行同義詞擴展並得到擴展後的關鍵字。

步驟S84，所述的檢索模組103利用所述過濾詞庫128對該擴展後的關鍵字進行過濾。

步驟S86，所述的檢索模組103利用字串匹配法在所述待檢索區塊中檢索該過濾後的關鍵字，然後，結束本流程。

如圖11所示，是本發明資訊檢索方法的較佳實施方式的流程圖中步驟S12的細化流程圖。

首先，步驟S120，所述的計算模組104將每個檢索到的文檔中與所述最大字串中的相同字元作為匹配值。

步驟S122，所述的計算模組104確定每個檢索到的文檔的匹配值的字元數。

步驟S124，所述的計算模組104判斷過濾後的關鍵字中包括一個還是多個最大字串。若包括一個最大字串，執行步驟S126；如包括多個最大字串，則執行步驟S128。

步驟S126，所述的計算模組104根據每個檢索到的文檔的匹配值的字元數確定每個檢索到的文檔的權值。

步驟S128，所述的計算模組104判斷該多個最大字串是否對應有相同的檢索到的文檔。若該多個最大字串對應有相同的檢索到的文檔，執行步驟S130；若該多個最大字串沒有對應相同的檢索到的文檔，執行步驟S126。

步驟S130，所述的計算模組104判斷該相同的檢索到的文檔對應的不同最大字串的匹配值是否相同。在該相同的檢索到的文檔對應的不同最大字串的匹配值相同時，執行步驟S134；在該相同的檢索到的文檔對應的不同最大字串的匹配值不同時，執行步驟S132。

步驟S132，所述的計算模組104所述的計算模組104將該不相同的多個匹配值的字元數進行加總，並將該加總後的值的字元數作為該相同的檢索到的文檔的權值，然後，結束本流程。

步驟S134，所述的計算模組104所述的計算模組104確定該匹配值的字元數作為該相同的檢索到的文檔的權值，然後，結束本流程。

最後應說明的是，以上實施方式僅用以說明本發明的技術方案而非限制，儘管參照較佳實施方式對本發明進行了詳細說明，本領域的普通技術人員應當理解，可以對本發明的技術方案進行修改或等同替換，而不脫離本發明技術方案的精神和範圍。

無