TWI682286B

TWI682286B - 利用文字解析結果與自然語言輸入的文件搜尋系統

Info

Publication number: TWI682286B
Application number: TW107130696A
Authority: TW
Inventors: 劉秉錦; 林鼎超; 林庭箴
Original assignee: 愛酷智能科技股份有限公司
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2020-01-11
Also published as: TW202011219A

Abstract

本發明揭露一種利用文字解析結果與自然語言輸入的文件搜尋系統。該系統包含：一關鍵字擷取單元、一資料庫模組、一網路平台通聯單元、一語句解析單元、一檔案列表提供單元及一語句學習單元。本發明可針對儲存檔案進行關鍵字解析以強化搜尋速度，也可以透過於雲端平台接收使用者輸入含有關鍵字的自然語法進行文件搜尋，進而便利使用者搜尋檔案及節省獲得相關檔案的時間。

Description

利用文字解析結果與自然語言輸入的文件搜尋系統

本發明關於一種文件搜尋系統，特別是一種利用文字解析結果與自然語言輸入的文件搜尋系統。

在傳統的資訊檔案管理作業中，一般的檔案儲存方式都會依照檔案的屬性（比如文字檔、圖檔或影音檔）、特性（比如內容主題或生成時間）、檔名等分類，分別儲存於相對應的資料夾中，所有的資料夾以一個樹狀結構呈現，以方便使用者存取檔案。在這種架構下，只要掌握檔案名稱或資料夾屬性，要尋找特定檔案十分方便。

當資料是在網路上開放存取時，除非給定特定URL，若要找尋特定檔案或是與某個主題有關的檔案，搜尋時間會變得相當漫長。一來，這跟使用者不熟悉檔案儲存架構有關；二來，搜尋關鍵字需要進一步用來比對所有的檔案（名稱或metadata），這也需耗時間；最後，網路上可能會有許多使用者同時使用檔案存取服務功能，資料的處理也造成延遲。因此，如果要減少因前述原因造成的時間拖延，需要一種好的文件搜尋系統。

以Google關鍵字查詢為例，這是一種可以透過關鍵字在網路上所有的網頁資料中，找尋並提供相關網頁連結的技術。由於一個網頁所在的形式也是某個儲存設備的中的檔案夾或檔案，這種查詢方式也可以用作建立前述文件搜尋系統的參考。Google關鍵字查詢的搜尋引擎其實主要在做兩件事情，分別是爬行網站（crawling）與建立網站索引（index），並使用網頁相關性去排序／排名這些搜尋結果網頁。搜尋引擎工作的原理是搜尋索引頁面，而不是瀏覽網站全部的資料庫內容。搜尋引擎利用資料探勘爬蟲（一種軟體），來爬行使用者輸入的關鍵字，並且根據頁面的關鍵字、內容的關鍵字與網站相關性，提供用戶相關的網頁連結。整個過程可以不到半秒鐘。因此，理論上，只要針對一個雲端資料庫中儲存的檔案建立相對應的關鍵字資料，透過接受到的關鍵字，便能很快地找到想要的資料。

另一方面，當使用者透過雲端特定或不特定的平台進行關鍵字尋找檔案時，有時該關鍵字並不能確定能找尋到所有相關的檔案。比如使用者輸入「facebook」或「我要facebook」，可能是要尋找與facebook相關的檔案；然而，檔案來源是以檔名、內容還是metadata判斷，語焉不詳。此外，如果檔案中有關鍵字「臉書」的，要不要也一起提供給使用者呢?

針對以上的需求，人們需要一種文件搜尋系統，該文件搜尋系統能針對儲存檔案進行關鍵字解析以強化搜尋速度，也可以透過於雲端平台接收使用者輸入含有關鍵字的自然語法進行文件搜尋，以便利使用者搜尋檔案及節省獲得相關檔案的時間。

本段文字提取和編譯本發明的某些特點。其它特點將被揭露於後續段落中。其目的在涵蓋附加的申請專利範圍之精神和範圍中，各式的修改和類似的排列。

本發明的目的在於提供一種利用文字解析結果與自然語言輸入的文件搜尋系統，以針對儲存檔案進行關鍵字解析來強化搜尋速度，也可以透過於雲端平台接收使用者輸入含有關鍵字的自然語法進行文件搜尋，以便利使用者搜尋檔案及節省獲得相關檔案的時間。該系統包含：一關鍵字擷取單元，用以從含有文字資訊的檔案中取得該文字資訊的對應的字元編碼，並從該字元編碼中擷取至少一檔案名詞關鍵字；一資料庫模組，包含：一檔案資料庫，儲存複數個檔案；一名詞關鍵字資料庫，儲存複數個名詞關鍵字；及一檔案關鍵字連結資料庫，儲存該檔案資料庫中每一檔案與自該關鍵字擷取單元擷取的至少一檔案名詞關鍵字的一對照表，其中該對照表另記註該檔案對照的所有檔案名詞關鍵字的關鍵字來源；一網路平台通聯單元，運作以通過網路與一網路平台伺服器連接、接收來自該網路平台伺服器上運行的網路平台的用戶以自然語言輸入的一查詢詞句，及發送針對該查詢詞句的一檔案列表或一引導語句給該網路平台伺服器，以傳送給該用戶；一語句解析單元，用以從該查詢詞句中擷取至少一查詢名詞關鍵字及對應的關鍵字來源，及當缺少該關鍵字來源時，透過該網路平台通聯單元發出該引導語句以獲取該關鍵字來源；及一檔案列表提供單元，用以將該查詢名詞關鍵字及該關鍵字來源對該對照表進行查詢、整理所有符合的檔案的檔名於該檔案列表中，及透過該網路平台通聯單元發出該檔案列表。該關鍵字擷取單元擷取的至少一檔案名詞關鍵字及該語句解析單元擷取的至少一查詢名詞關鍵字來自該名詞關鍵字資料庫。

利用文字解析結果與自然語言輸入的文件搜尋系統可進一步包含一語句學習單元，用以透過一機器學習演算法，學習獲得該查詢詞句除去該查詢名詞關鍵字及該關鍵字來源後，剩餘文字的複數個等效文字組合，並利用該些等效文字組合協助查詢名詞關鍵字、關鍵字來源或／及查詢詞句語意之判定。

最好，該機器學習演算法可為TF-IDF演算法。

在一實施例中，該名詞關鍵字資料庫可進一步儲存每一名詞關鍵字的對應同義名詞關鍵字。當該語句解析單元擷取到某一查詢名詞關鍵字時，該檔案列表提供單元會以該查詢名詞關鍵字、該查詢名詞關鍵字的同義名詞關鍵字與該關鍵字來源對該對照表進行查詢、整理所有符合的檔案的檔名於該檔案列表中，並透過該網路平台通聯單元發出該檔案列表。

依照本發明，文字資訊型態可為字元編碼、文字圖像，或具有嵌入文字圖像物件的檔案。文字圖像與具有嵌入文字圖像物件的檔案利用光學文字辨識技術（Optical Character Recognition，OCR）轉換為對應的字元編碼。檔案的格式可為可攜式文件格式（Portable Document Format，PDF）、Power Point檔案格式、Power Point檔案兼容格式、Word檔案格式、Word檔案兼容格式、Excel檔案格式，或Excel檔案兼容格式。該關鍵字來源可為檔名、檔案內容，或檔案元資料（Metadata）。

查詢名詞關鍵字及關鍵字來源的擷取方法可包含步驟：(a)將查詢詞句依字詞分斷；(b)將分段後的字詞給予詞性；(c)將屬於名詞類，又出現於名詞關鍵字資料庫的字詞歸類成查詢名詞關鍵字；及(d)將屬於名詞類，又與複數個預設的關鍵字來源的同義詞相同的字詞歸類成關鍵字來源。

該名詞關鍵字可來源於中華民國中央研究院中文句結構樹資料庫。

本發明利用關鍵字擷取單元來將檔案名詞關鍵字自檔案中找出，以便建立檔案與檔案名詞關鍵字的關聯，同時語句解析單元與檔案列表提供單元可藉由分析用戶端的查詢詞句，精準快速地找出對應該查詢詞句中的查詢名詞關鍵字的檔案，並將所有檔案以列表方式，呈現在用戶端。如此可滿足強化搜尋速度，及於雲端平台接收用戶輸入含有關鍵字的自然語法進行文件搜尋的需求，進而便利用戶搜尋檔案及節省獲得相關檔案的時間。

本發明將藉由參照下列的實施方式而更具體地描述。

請見圖1，該圖說明依照本發明實施例的一種利用文字解析結果與自然語言輸入的文件搜尋系統（以下簡稱系統）之元件與運作方式。該系統可以架設於一伺服器10上，進而透過一網路20與至少一個網路平台伺服器30訊息連接。本發明所揭露的系統包含了一關鍵字擷取單元110、一資料庫模組120、一網路平台通聯單元130、一語句解析單元140、一檔案列表提供單元150及一語句學習單元160。以下分別介紹各元件的功能與互動作用方式。

關鍵字擷取單元110可來從含有文字資訊的檔案中取得該文字資訊的對應的字元編碼，並從該字元編碼中擷取至少一檔案名詞關鍵字。本系統的一個方面是要掌控所有存在資料庫模組120的檔案中的關鍵字，以便能夠快速找到用戶想要資料相關的檔案（文字檔、圖檔或嵌有圖檔的其它檔案）。因此，關鍵字擷取單元110就是用來”深入了解”一個檔案中有哪些關鍵字。這裡，檔案含有的文字資訊，其型態可以是就是字元編碼本身，該字元編碼可以是但不限於ASCII、ISO/IEC 646、ISO/IEC 646、DOS字元集、Windows字元集、Big5、CNS 11643、ISO/IEC 2022、GB 2312、EUC、Unicode、UTF-8等。這些字元編碼可將特定地區文字、所有已知文字與部分文字圖像以特殊碼來呈現。在世界上所有的電子文件編輯器中，都有可能使用前述至少一者來表達使用者編輯的文字。因此，文字資訊內容上會是一連串的單字，其就有可能以一種字元編碼來呈現。此外，文字資訊也可能是一個文字圖像，最簡單的說明就是一張拍攝書本某頁的照片，該照片一定有那一頁的文字。對於文字圖像，關鍵字擷取單元110可利用光學文字辨識技術（Optical Character Recognition，OCR），將之轉換為對應的字元編碼。當然，OCR的技術已行之多年，相關的軟體或硬體可以與進入關鍵字擷取單元110整合，或是當作支援模組而在關鍵字擷取單元110外部進行作業。文字資訊更可能是嵌入文字圖像物件的檔案，該嵌入文字圖像物件的檔案比如嵌有前述照片的word檔或pdf檔。當然，這種檔案內嵌的文字圖像物件中的文字資訊，也可以藉由OCR技術來取得。

檔案的格式可以有多種，比如可攜式文件格式（Portable Document Format，PDF）、Power Point檔案格式、Power Point檔案兼容格式、Word檔案格式、Word檔案兼容格式、Excel檔案格式，及Excel檔案兼容格式。前述的xx檔案兼容格式指的是一檔案格式可以兩者以上的編輯器開啟，而某一編輯器可將該檔案格式轉為另一特定檔案格式，該特定檔案格式即為檔案兼容格式。舉例而言，OpenOffice下的Writer可以與Microsoft Office的Word同時開啟與編輯Word檔案格式，但Writer又可將該檔案儲存為其特定副檔名的”.odt”檔案格式，odt檔案格式就是一種Word檔案兼容格式。

由於前述的字元編碼中攜帶著許多文字，關鍵字擷取單元110便可從字元編碼中擷取至少一檔案名詞關鍵字。這裡，擷取的至少一檔案名詞關鍵字預設於資料庫模組120中，因而藉由比對文字資訊內容，就很容易找到檔案名詞關鍵字。所謂「名詞關鍵字」，意思是關鍵字的詞性是名詞。為了對檔案名詞關鍵字擷取有較佳的理解，請見圖3，該圖繪示一word檔案內容，其文字內容顯示於該圖上半部，下半部以虛線框包圍的文字為檔名資料與檔案元資料（Metadata），後二者在打開word檔是看不到的，只有藉由檔案總管才能找到。文字內容中以實線框框住的文字便是該word檔的檔案名詞關鍵字，比如Facebook、文章、新聞、臉書、原始碼、朋友、說明、操作方式與版本。其它像是一篇、解碼、顯示、關心、簡單等文字，因為不屬於名詞，不會被截取。然而，「緯工邦」這名詞是一個部落格主的名字，雖然是名詞，但因不常使用或不具知名度的緣故，資料庫模組120中沒有將它列為名詞關鍵字，因而也不會被擷取。反之，如果該部落格主將來成名了，這名字如同facebook常被使用，資料庫模組120就有可能將它列為名詞關鍵字，讓關鍵字擷取單元110擷取為檔案名詞關鍵字。

資料庫模組120包含了數個資料庫：一檔案資料庫121、一名詞關鍵字資料庫122與一檔案關鍵字連結資料庫123。檔案資料庫121儲存許多個前述的檔案，名詞關鍵字資料庫122則是儲存前述所有的名詞關鍵字（不僅僅限制於來自單一檔案中的”檔案”名詞關鍵字）。名詞關鍵字的來源有很多。在本實施例中，名詞關鍵字的來源為中華民國中央研究院中文句結構樹資料庫。檔案關鍵字連結資料庫123儲存了檔案資料庫121中每一檔案與自該關鍵字擷取單元110擷取的至少一檔案名詞關鍵字的一對照表。以前一個例子來說明。假設該word檔檔名為”10244852.doc”，儲存於檔案資料庫121中。那麼，對照表的一欄內容就是「10244852.doc」à「Facebook；文章；新聞；臉書；原始碼；朋友；說明；操作方式；版本」，其中”à”表示連結關係，也就是說與”10244852.doc”檔相關的檔案名詞關鍵字有Facebook、文章、新聞、臉書、原始碼、朋友、說明、操作方式與版本。

依照本發明，前述的對照表可另記註檔案對照的所有檔案名詞關鍵字的關鍵字來源。這裡，關鍵字來源指的是檔案名詞關鍵字是在哪裡找到的。在本實施例中，關鍵字來源可以是檔名、檔案內容，或檔案元資料。這三者的關係已於圖3中說明，此處不再贅述。

網路平台通聯單元130運作以通過網路20與網路平台伺服器30連接。此外，該網路平台通聯單元130亦可接收來自網路平台伺服器30上運行的網路平台300的用戶以自然語言輸入的一查詢詞句。為了方便說明，用戶可以一桌上型電腦410或一智慧型手機420，硬體上與網路平台伺服器30相連，登錄或連結上網路平台300，進而與本系統的網路平台通聯單元130連接。這裡，網路平台300指的是各種透過網路傳播或互連資訊的服務平台。實作上，網路平台300可能是一個部落格網頁服務平台，網路平台通聯單元130就可透過WEB格式，以特定javascript程式碼驅動客戶端，如桌上型電腦410的瀏覽器。網路平台300也可能是社群或通訊軟體平台，比如LINE、facebook等，網路平台通聯單元130與該些網路平台300的連接可以通過其公開或授權的API。因而，網路平台通聯單元130可進行讓用戶以自然語言輸入查詢詞句。

自然語言，就是一般人可以使用的語言，沒有特定格式，但有可能因為個人語言使用的特色，造成判讀的困難。查詢詞句指的是用戶想要找檔案而發出的所有文字資訊，可包括單一的”名詞”與較長的”句子”。查詢詞句的幾個例子如圖5所示，以下的說明會深入解說之。網路平台通聯單元130在該查詢詞句為後續處理完成後，送針對該查詢詞句的一檔案列表給該網路平台伺服器30，藉以透過網路平台300傳送給傳送查詢詞句的用戶。如果系統對該查詢詞句的語意不明，發送的資料便改為一引導語句。檔案列表與引導語句將於下方說明。

語句解析單元140可以從前述的查詢詞句中擷取至少一查詢名詞關鍵字及對應的關鍵字來源。查詢名詞關鍵字及關鍵字來源的擷取方法之流程請參見圖2，其步驟為首先將查詢詞句依字詞分斷（S01）。舉例來說，如果一個查詢詞句為「我想找關於蝴蝶相關的檔案」，依字詞分段便會成為「我／想找／關於／蝴蝶／相關的／檔案」。接著，將分段後的字詞給予詞性（S02）。附上詞性的分段查詢詞句便成為「我（代名詞）／想找（動詞）／關於（介係詞）／蝴蝶（名詞）／相關的（形容詞）／檔案（名詞）」。第三步驟：將屬於名詞類，又出現於名詞關鍵字資料庫122的字詞歸類成查詢名詞關鍵字（S03）。在本例中，符合的有「蝴蝶」與「檔案」，但未必都能歸類成查詢名詞關鍵字。最後，將屬於名詞類，又與複數個預設的關鍵字來源的同義詞相同的字詞歸類成關鍵字來源（S04）。如上所述，關鍵字來源可以是檔名、檔案內容與檔案元資料，而每一者都有同義字。比如檔案內容的預設同義字可以包含檔案、file與content。因此，步驟S03中找的「檔案」，會被視為要尋找的標的，即關鍵字來源。因此，擷取的查詢名詞關鍵字為「蝴蝶」，關鍵字來源為「檔案」，也就是到所有檔案的檔案內容中，找有「蝴蝶」字樣的，並將該檔案標示出來。

請復見圖5。圖5表中每個欄位表示一種查詢詞句類型。為了方便說明，查詢名詞關鍵字下方加上底線，關鍵字來源以粗斜體表示。第一欄的類型只有單一一個名詞。很明顯，該名詞就是查詢名詞關鍵字。只是此時缺少關鍵字來源，查詢到的檔案量會太大，語句解析單元140便可透過網路平台通聯單元130發出該引導語句以獲取關鍵字來源。第二欄「有臉書的相關資料嗎?」點出了查詢名詞關鍵字是「臉書」，但「相關資料」不知是哪一種關鍵字來源，最好還是需要發出引導語句來確認關鍵字來源。第三欄的查詢詞句很清楚地陳述，因此可知「facebook」是查詢名詞關鍵字，「檔案」（即檔案內容）是關鍵字來源。第四欄用布林語法進行聯集，可以找「臉書」或「facebook」的查詢名詞關鍵字，但關鍵字來源不詳。第五欄用空格連接兩個名詞，這裡的關係可以是交集，也可以是聯集，由語句解析單元140來定義。同樣地，關鍵字來源不詳。第六欄指定用查詢名詞關鍵字「臉書」來找關鍵字來源「檔案內容」，及用查詢名詞關鍵字「facebook」來找關鍵字來源「檔名」。由於content與filename都是對應關鍵字來源的同義字，所以語句解析單元140也可以處理。第六欄使用了nor的布林語法，旨在要檔案內容中有「facebook」的檔案，但不能是excel檔案。由於可以擷取到查詢名詞關鍵字與關鍵字來源，語句解析單元140也可以處理這樣的查詢詞句。最後一欄中的「檔案」，指的可以是查詢名詞關鍵字，也可以是關鍵字來源。語句解析單元140優先處理查詢名詞關鍵字，所以「檔案」二字會被視作查詢名詞關鍵字，一個相應的引導語句會被發給傳來該查詢詞句的用戶。要注意的是，關鍵字擷取單元110擷取的至少一檔案名詞關鍵字，與語句解析單元140擷取的至少一查詢名詞關鍵字一樣，來自名詞關鍵字資料庫122。

檔案列表提供單元150用以將查詢名詞關鍵字及關鍵字來源對前述的對照表進行查詢、整理所有符合的檔案的檔名於該檔案列表中，及透過網路平台通聯單元130發出該檔案列表。為了對檔案列表提供單元150的作用有較清楚的理解，請見圖4，該圖繪示LINE的介面操作態樣。智慧型手機420的用戶透過LINE，與本系統的連接。利用LINE的API串接，用戶可以與本系統以”聊天”的方式找他想要的資料（檔案）。首先，用戶發出了「有 facebook 的資料嗎?」的查詢詞句。很明顯，查詢詞句中缺了關鍵字來源，語句解析單元140便發出了「請問是與 facebook 相關的檔案內容、檔名還是元資料?」的引導語句，請用戶決定。用戶確定了是內容（檔案內容的同義字）後，檔案列表提供單元150便可進行查表動作，將所有檔案以一個檔案列表發給該用戶。檔案列表可能很長，會分批發出。用戶可以點擊它想要的檔案名稱，此時相對應的檔案便會透過LINE發給他。

語句學習單元160用以透過一機器學習演算法，學習獲得該查詢詞句除去該查詢名詞關鍵字及該關鍵字來源後，剩餘文字的複數個等效文字組合，並利用該些等效文字組合協助查詢名詞關鍵字、關鍵字來源或／及查詢詞句語意之判定。請復見圖5，第一欄到第六欄都是要找facebook查詢名詞關鍵字的自然語言。扣除掉了查詢名詞關鍵字及關鍵字來源（如果有的話），會剩下「」（空集合）、「有的相關資料嗎?」、「我要的」、「 or 」、「」（空格）及「 in as 」，這些都是有意願要查詢的等效文字組合。藉由台除該些等效文字組合，其呈現的就更可能是想要的查詢名詞關鍵字及關鍵字來源。圖5第七欄的語意有剔除某些查詢內容的意思，該查詢詞句除去該查詢名詞關鍵字及該關鍵字來源後的剩餘文字，可另列一組等效文字組合。如此依照用戶語意細分多個等效文字組合，便更能有效了解客戶的真實意圖。此外，實作中，前述的機器學習演算法可採用TF-IDF演算法。

在另一實施例中，名詞關鍵字資料庫122可進一步儲存每一名詞關鍵字的對應同義名詞關鍵字。這樣的作法是讓客戶下單一查詢名詞關鍵字時，可尋找更多相關的關鍵字。比如當查詢名詞關鍵字是「臉書」時，對應同義名詞關鍵字「facebook」也會被使用來搜尋。在這種情形下，當語句解析單元140擷取到某一查詢名詞關鍵字時，檔案列表提供單元150會以查詢名詞關鍵字、查詢名詞關鍵字的同義名詞關鍵字與關鍵字來源，對該對照表進行查詢、整理所有符合的檔案的檔名於該檔案列表中，並透過網路平台通聯單元130發出該檔案列表。當然，可以先詢問用戶要不要接受這樣的作法再進行。

雖然本發明已以實施方式揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

10‧‧‧伺服器

110‧‧‧關鍵字擷取單元

120‧‧‧資料庫模組

121‧‧‧檔案資料庫

122‧‧‧名詞關鍵字資料庫

123‧‧‧檔案關鍵字連結資料庫

130‧‧‧網路平台通聯單元

140‧‧‧語句解析單元

150‧‧‧檔案列表提供單元

160‧‧‧語句學習單元

20‧‧‧網路

30‧‧‧網路平台伺服器

300‧‧‧網路平台

410‧‧‧桌上型電腦

420‧‧‧智慧型手機

圖1說明依照本發明實施例的一種利用文字解析結果與自然語言輸入的文件搜尋系統之元件與運作方式；圖2為名詞關鍵字及關鍵字來源的擷取方法步驟流程圖；圖3繪示一檔案內容；圖4繪示一社交APP介面操作態樣；及圖5為用於說明查詢詞句的列表。