TWI818713B

TWI818713B - 用於自動地將用語指派至文本文件之電腦實施方法、電腦程式產品及電腦系統

Info

Publication number: TWI818713B
Application number: TW111133642A
Authority: TW
Inventors: 顏尼克賽雷特; 亞歷山卓朗; 羅伯特克恩; 古德倫考夫曼
Original assignee: 美商萬國商業機器公司
Priority date: 2021-12-13
Filing date: 2022-09-06
Publication date: 2023-10-11
Also published as: WO2023110580A1; US20230186023A1; TW202324139A

Abstract

本發明提供一種方法，在該方法中，一處理器接收一非結構化文本文件。一處理器自該非結構化文本文件提取至少一個無法辨識符記。一處理器識別一預定義資料源集中之至少一個結構化資料元素，其中該至少一個結構化資料元素與來自該非結構化文本文件之該至少一個所提取之無法辨識符記相關。一處理器使與該所識別之至少一個結構化資料元素相關聯的一標籤與該非結構化文本文件相關。

Description

用於自動地將用語指派至文本文件之電腦實施方法、電腦程式產品及電腦系統

本發明係關於一種用於標記文件之電腦實施方法，且更特別地，係關於一種用於標記非結構化文本文件之電腦實施方法。

商業領導者愈來愈認識到企業資料係驅動企業轉型及數位化之關鍵成分之一。此不僅對於員工賦權係必要的且對於更好的企業分析亦係必要的，且為機器學習及人工智慧驅動企業應用程式之基礎。另一方面，企業儲存及技術管理比其想像更多的資料。不使用此資料的問題之一可在於「公司不知曉其知曉什麼」，此意謂過多資料--通常呈非結構化資料之形式--被簡單地儲存而未參考商業環境。

資料資產之自動商業分類及用語指派可為企業目錄之關鍵功能性及使用此等蓋鎖(cover lock)之企業的關鍵問題。隨著資料湖之出現，公司強烈需要自動化程序來發現、編目資料湖中之資料資產及/或將該等資料資產分類至目錄資料中，使得分析者可容易地發現此等資料資產以供再使用。為了可搜尋，需要將經編目資產進行分類且使其與相關商業用語(例如，如特定公司之商業詞彙表中所定義)相關聯。相同用語對不同企業可能具有不同含義。因此，組織特定分類可具有較高價值。不言而喻，在將資料資產添加至目錄中時理想地發生商業用語至資料資產之自動指派。

用語指派程序之當前已知技術僅集中於結構化資料。一些先前技術使用結構化資料集中所含有之資料的元資料，以便對資料集之欄位進行恰當地分類，將適當用語指派至該等欄位，且基於欄位級(field-level)結果將用語作為整體指派至資料集。

實際上，幾乎所有此等分類技術將均不適用於非結構化文件，此係因為缺乏結構及缺乏元資料使得彼等分類技術無法使用。另一方面，通常認為，非結構化文件(諸如，自由文本文件，例如電子郵件及報告)表示可能可在資料湖中獲得之最大量的資料集。此等非結構化文件為未使用源，其可適用於分析任務或作為基於企業特定機器學習之應用程式的訓練資料的基礎。然而，歸因於缺乏用語指派，此等源可能極難發現。

在此上下文中，已公開一些文件：美國專利第9,672,278B1號揭示經組態以實施用於包含非結構化文本資料之文件的叢集標記系統的處理平台。叢集標記系統包含叢集模組及觀測模組。叢集模組可實施主題模型產生器，且經組態以至少部分地基於使用由主題模型產生器提供之至少一個主題模型自非結構化文本資料識別之一或多個主題而將該等文件中之各者指派至複數個叢集中之一或多者。另外，歐洲專利申請案3,591,539 A1揭示非結構化文本之電腦化自動處理，以提取所提取文本可鏈接或歸屬的行為技術資料位元。接收非結構化文本，且用元資料標籤富集該文本內之文本段。機器學習系統經訓練且用於解析文本段及元資料標籤之特徵值以對文本進行分類且自非結構化文本產生結構化文本。

然而，問題仍在於現有技術集中於文本自身，且無法在企業特定上下文之有意義用語之上下文中標記文本。此外，現有技術通常需要較長文本以應用統計模型來提取用語以進行分類。

因此，可能需要對非結構化文件進行更好地分類及/或標記，以便在更廣泛企業上下文中利用非結構化資料之內容。

根據本發明之一個態樣，可提供一種電腦實施方法。該方法可包含：接收一非結構化文本文件；自該非結構化文本文件提取至少一個無法辨識符記；識別一預定義資料源集中之至少一個結構化資料元素，其中該至少一個結構化資料元素與來自該非結構化文本文件之該至少一個所提取之無法辨識符記相關；及使與該所識別之至少一個結構化資料元素相關聯的一標籤與該非結構化文本文件相關。

根據本發明的另一態樣，可提供一種電腦系統。該系統可包含一或多個電腦處理器、一或多個電腦可讀儲存媒體及共同地儲存於該一或多個電腦可讀儲存媒體上以供該一或多個電腦處理器中之至少一者執行的程式指令。該等程式指令可包含用以進行以下操作之程式指令：接收一非結構化文本文件；自該非結構化文本文件提取至少一個無法辨識符記；識別一預定義資料源集中之至少一個結構化資料元素，其中該至少一個結構化資料元素與來自該非結構化文本文件之該至少一個所提取之無法辨識符記相關；及使與該所識別之至少一個結構化資料元素相關聯的一標籤與該非結構化文本文件相關。

根據本發明之另一態樣，可提供一種電腦程式產品。該電腦程式產品可包含一或多個電腦可讀儲存媒體及共同地儲存於該一或多個電腦可讀儲存媒體上之程式指令。該等程式指令可包含用以進行以下操作之程式指令：接收一非結構化文本文件；自該非結構化文本文件提取至少一個無法辨識符記；識別一預定義資料源集中之至少一個結構化資料元素，其中該至少一個結構化資料元素與來自該非結構化文本文件之該至少一個所提取之無法辨識符記相關；及使與該所識別之至少一個結構化資料元素相關聯的一標籤與該非結構化文本文件相關。

所提議之電腦實施方法可提供多個優點、技術效應、貢獻及/或改良：此處提議之概念集中於企業資料管理之迫切需要中之一者，即，集中於與非結構化文本文件相關之一般概念。該概念不僅依賴於實現用語之統計分析的較長文本，且將具有非結構化文本文件。替代地，針對源自聊天條目、經交換電子郵件、「僅關鍵字」演示、博客或其他之小文本片段(snippet)，亦可成功地實施所提議概念。

藉此，呈已知結構化資料之形式的現有知識可成功地用於標記非結構化文本文件。組織可維持複數個不同資料定義--自結構化(例如，合法)文件(或其他元資料)中之類似用語定義開始，諸如公司之年度報告至資料庫元資料--其皆可用於此處所提議之概念。為了成功地實施所提議概念，無需維持新的用語目錄或其他目錄。因此，可再使用或利用現有資料來橋接已存在之結構化資料與新引入之非結構化文本文件之間的間隙。

在另一有利態樣下，可利用以下事實：通常已恰當地標記結構化資料，使得其可相對於資料管控及保護規則而用於報告、ML應用程式、分析及資料科學項目中，且亦用於新的非結構化文本文件之標記。因此，可自動地遵循一致標記策略，此係因為價值及知識可更多地存在於彼等結構化資料之標記中，而非存在於結構化資料自身中。

且應提及另一有利態樣：在未對非結構化資料進行恰當分類及/或標記之情況下，彼等資料通常無法不受控制地使用，此係因為可存在其可能包含敏感資訊或私密資訊破解資料之風險。因此，結構化資料之標記可為解鎖彼等新類型之資料的關鍵，以用於公司中應用資料管控規則所需之任何類型之使用。

因此，所提議之技術方法可將組織中之大量受管理非結構化資料變成人類使用者之額外有價值的洞察源或作為機器學習訓練技術之基礎，以增強傳統交易應用程式或解決新機會之彼等應用程式。

在下文中，將描述適用於該方法以及該系統之本發明概念的額外實施例。

根據該方法之實施例，自該非結構化文本文件提取至少一個無法辨識符記亦可包含判定自然語言元素及--特別地，至少一個--非自然語言元素。藉此，自然語言元素可為屬於自然--特別地，面向人類及可理解的--語言之語言元素或符記，如名詞、動詞、形容詞、副詞等。非自然語言元素可最終在所接收文件之非結構化文本與通常用於組織之其他區域中之更結構化用語之間構建橋樑。自然語言之實例可為英語、德語、法語、意大利語、西班牙語等。

根據進一步發展的實施例，該方法亦可包含將該等非自然語言符記分組至具有類似特性(亦即，類似格式或類似結構)之符記群組中。當然，僅在可在非結構化文本文件中發現超過一個非自然語言符記之情況下，分組可為可能的。否則，可跳過此方法步驟。此等非自然語言符記之實例可為例如公司中所使用之產品編號、生產機器之識別符、資產編號、物聯網(IoT)裝置之識別符，或類似者。此排序資訊之共同點可為按字母字元、數位及其他非字母字元(如逗號、連字符等)分組的可比較字元序列。

根據該方法之有利實施例，識別該至少一個結構化資料元素可包含包含以下之群組中之至少一者：(i)在該預定義資料源集中搜尋至少一個資料元素--亦即，一用語，一潛在標籤，其中該至少一個資料元素可包含該等所提取之非自然語言符記中之至少一者作為一值；及(ii)在該預定義資料源集中搜尋至少一個資料元素，其中該至少一個資料元素可包含該等所提取之自然語言符記中之至少一者作為元資料--特別地，一名稱、一描述、一欄名或類似者。若非自然語言符記可將橋之末端中之一者自非結構化文本構建成典型及結構化公司用語，則至少一個資料元素可形成橋之第二末端。

根據實施例，該方法亦可包含基於該資料元素中之該至少一個無法辨識符記及已辨識符記--亦即，已自已發現的該非結構化文本文件提取之所有已辨識符記--之數目及該等所提取符記之特定性來判定一匹配分數值。此匹配分數值可為表達在資料元素中頻繁地發現彼等符記以及在其他資料元素中實際上很少發現彼等符記之良好度量。因此，資料元素中之匹配數目愈高，且其他資料元素中之匹配數目愈低，匹配分數值愈高。

根據另一實施例，該方法亦可包含選擇具有最高分數值之該資料元素作為該非結構化文本文件之該標籤。以此方式，可識別非結構化文本文件之良好表徵用語。其可自動地用作非結構化文本文件之一個分類準則或其可能需要來自人類操作員之確認。

根據該方法之另一實施例，識別至少一個結構化資料元素包含：(i)產生包含該等所提取之非自然語言符記作為值之一結構化資料元素；(ii)判定該所產生資料元素之域特性；及/或(iii)在一預定義資料源集中搜尋共用相同域特性之該等結構化資料元素。作為第一選項(i)之實例，吾人可想像產生資料集，其中行可表示無法辨識符記之一個群組，且其中此等行之值為無法辨識符記。第二選項(ii)之實例為判定匹配該等值之資料類別，或儘可能判定為所有值所共有之格式或模式。

根據該方法之另一有利實施例，使與該所識別之至少一個結構化資料元素相關聯的該標籤與該非結構化文本文件相關亦可包含輸出該相關標籤作為該非結構化文本文件之標籤建議(例如，經由一I/O裝置輸出至人類操作員)，及接收確認該標籤建議作為該非結構化文本文件之該確認標籤的一確認信號--例如，亦來自人類操作員。此可防護安全程序，以免為非結構化文本產生無意義標籤。最後，標記程序之品質可進一步增加。

根據該方法之另一實施例，該預定義資料源集可為來自由以下組成之群組的至少一個選擇：略舉幾例，一資料庫表--特別地，一關連式資料庫(例如，列定向的)、一柱狀資料庫；以及DB之元資料--一資料詞典、一資料目錄(特別地，商業用語目錄)；一檔案系統中之一結構化檔案--特別地，使用XML、JSON、YAML或類似者之格式；或任何其他非SQL資料庫；一或圖形資料庫。因此，預先指派之資料源集可包含組織內部以及外部之資料定義的集合。最後，亦有可能在網際網路上搜尋非結構化文本文件之正確標記。

根據該方法之一個實施例，該選定標籤可基於自該非結構化文本文件提取之上下文而進一步分級--亦即，可謂在一第二維度上分級。此可包括關鍵片語、來自預規範之用語或自非結構化文本文件提取之其他統計用語。

根據另一實施例，該方法亦可包含依據與該等資料元素中之各者相關聯的該搜尋分數值來對該等資料元素進行排序，且僅保留一搜尋分數值高於一搜尋分數臨限值之彼等資料元素。此可為降低所提議概念之計算效率的良好方法。

100:電腦實施方法

102:步驟

104:步驟

106:步驟

108:步驟

200:第一部分

202:非結構化文字文件

204:非結構化文字文件

205:非結構化文字文件

206:提取

208:已知符記

210:未知符記

212:叢集

214:相關符記群組

216:詞庫

300:第二部分

302:表

304:資料源

306:搜尋

308:步驟

400:流程圖

402:預備步驟

404:步驟

406:步驟

408:步驟

410:步驟

412:步驟

414:步驟

416:步驟

418:步驟

500:文字標記系統

502:處理器

504:記憶體

506:接收器

508:提取模組

510:識別單元

512:關係模組

514:匯流排系統

600:計算系統/電腦系統/伺服器

602:處理器/處理單元

604:系統記憶體

606:匯流排

608:隨機存取記憶體

610:快取記憶體

612:儲存系統

614:輸入/輸出介面

616:程式模組

618:外部裝置

620:顯示器

622:網路配接器

A:替代路徑

B:路徑

應注意，參考不同主題來描述本發明之實施例。特別地，一些實施例係參考方法類型申請專利範圍而描述，而其他實施例參考設備類型申請專利範圍而描述。然而，熟習此項技術者將自上文及以下描述得知，除非另外通知，否則除屬於一種類型之主題之特徵的任何組合以外，與不同主題相關之特徵之間(特別地，方法類型申請專利範圍之特徵與設備類型申請專利範圍之特徵之間)的任何組合亦被認為揭示於此文件內。

上文所定義之態樣及本發明之另外態樣自下文待描述之實施例的實例顯而易見且參考本發明不受限制之實施例之實例解釋。

將僅藉助於實例且參考以下圖式來描述本發明之較佳實施例：圖1展示用於標記非結構化文本文件之發明性電腦實施方法之實施例的流程圖。

圖2展示本發明之實施例之流程的第一部分。

圖3展示本發明之實施例之流程的第二部分。

圖4展示接近本發明之實施例的更多實施方案之流程圖。

圖5展示用於標記非結構化文本文件之發明性文本標記系統之實施例的方塊圖。

圖6展示根據本發明之實施例的包含根據圖5之系統的計算系統之實施例。

在此描述之上下文中，可使用以下慣例、用語及/或表述。

用語『非結構化文本文件』可表示任何長度之簡單文本。其可縮短至僅包含一對字組之較短長度的片語。在另一端，非結構化文本文件可為執行概述、完整報告或書籍。通常，可假定可處理段落或論文之長度。子用語『非結構化』可表示自然語言文本可描述為在結構化記錄意義上未經結構化之非結構化或半結構化資料的資訊技術(IT)視角。然而，亦可假定自然語言規則可適用於文本，使得該文本在基礎人類語言之意義上經結構化。

在標度之另一端，非結構化文本文件在技術上亦可表示可包含於例如檔案系統之同一文件庫或資料庫表之同一行中的相同類型之文件的集合。

通常，按群組而非個別地分析文本文件。舉例而言，文件庫可包含許多短文件，各自表示支援票之自由文本描述。彼等文件有可能共用所有相同標籤。若該等文件極短，則逐一地分析該等文件可為緩慢的且並非為真正的結論。但將文件群組視為一個文件--在彼情況下，對含有文件群組之文件庫進行分析--可產生可如本發明中所描述進行分組之更多符記。

用語『標記』在此處可表示用語--或短片語--可與文本文件相關聯。文本文件亦可表示為非結構化文本文件。應將用於文本之標籤假定為與文本文件之內容相關的有意義標籤。其亦可視為描述文本文件之元資料的首行標題、中心詞或內容。與文本文件相關聯之用語可接著表示為『標籤』。自更一般視角來看，標記亦可意謂新的元資料段與文件相關聯。彼可為例如資料私密或商業分類，與在使用此資料時需要遵守之管控策略之關聯等。

用語『無法辨識符記』可表示文本文件中可能不與自然語言表達相關聯之用語。此無法辨識符記之簡單實例可為技術產品之服務手冊中的產品編號或零件編號。

用語『結構化資料元素』--或簡言之，資料元素--可表示在例如資料庫之結構化記錄意義上結構化的資料元素。因此，結構化資料元素可為來自資料庫表、資料庫表名稱、企業目錄之元素、資料詞典或類似者之任何元素。其可例如為呈例如產品金鑰或自然語言用語中之產品描述之形式的產品目錄的零件編號。

用語『預定義資料源集』可表示與例如企業或企業群組中所使用之資料的描述(例如，資料交換格式)相關的任何文件或資料源。其可係關於資料目錄、參考資料或所使用之任何其他形式的資料描述。此等資料描述可為企業特定的，或其可為針對例如行業垂直的標準化。然而，在特定實施例中且在較廣泛意義上，可經由網際網路獲得之資料定義亦可為預定義資料源集之部分。

用語『自然語言元素』可表示存在於人類可理解自然語言中之任何表達，如名詞、動詞、形容詞、副詞、介詞等。

用語『非自然語言元素』可表示非結構化文本文件中無法表徵為自然語言元素之任何用語。因此，非自然語言元素係在傳統地定義為特定語言之詞彙的用語之範疇外的某物。

用語『元資料』可表示描述其他資料之資料。

用語『匹配分數值』可表示整數或真實值(在數學意義上)，其表達標籤可與待標記之文本文件相關的良好程度，或更特別地，無法辨識符記與在資料源中發現之用語的匹配之良好程度。亦可注意，每當可發現非自然語言用語時，匹配分數值可增加。

用語『特定性』可表示所發現用語針對某一表達之可能特定程度及針對其他表達的不利程度，亦即，在不同源之搜尋中可發現該用語之正向計數愈多且針對其他用語可產生的計數愈少，所發現用語針對某一表達可能愈特定。換言之，用語『特定性』可描述不存在用語之非特定用語的條件指代用語之「黃金標準」。

用語『域特性』可表示用語之某些屬性，使得其可與匹配該等值之資料類別相關，或判定為所有值所共有之格式或模式。概括地說，域特性可表示屬於相同域--亦即，表示真實世界中之相同類型之實體--之不同值或符記可共用的共同性質。舉例而言，不同電話號碼具有共同特性，即其具有相同格式，亦即，以某一方式分隔的特定數目個數位。不同郵遞位址可具有共同特性，即其共用相同之常用字，如街道、大道等。將期望的係，共用相同域特性之不同符記群組或值有可能共用相同域且需要共同標籤。

在下文中，將給出圖式之詳細描述。圖式中之所有指令均為示意性的。首先，給出用於標記非結構化文本文件之發明性電腦實施方法之實施例的方塊圖。隨後，將描述其他實施例以及用於標記非結構化文本文件之文本標記系統之實施例。

圖1展示用於標記非結構化文本文件之電腦實施方法100之實施例的流程圖。程序接收102非結構化文本文件。非結構化文本文件可為「裸的」，其未經標記及/或未指派至某一類別。基本上，不存在與文件之內容相關之資訊。

方法100進一步包含以下程序：自非結構化文本文件提取104至少一個無法辨識符記--例如，數字、字母及數字串，其均係關於相同通用構造根(general construction root)；程序識別106預定義資料源集中之至少一個結構化資料元素--通常，例如來自資料庫表之表達、資料庫表名稱、企業目錄之元素、資料詞典或相當者，其中至少一個結構化資料元素與來自非結構化文本文件之至少一個所提取之無法辨識符記相關；且程序使與所識別之至少一個結構化資料元素相關聯的標籤--特別地，任何形式之人類可讀字組或片語或短表達--與非結構化文本文件相關108。

圖2展示本發明之實施例之流程的第一部分200。程序流程以引入非結構化文本文件202、204、205開始，程序自該等非結構化文本文件提取206已知符記208及未知符記210。程序將未知符記叢集212至相關符記群組214中。已知符記208通常係關於名詞、動詞、形容詞等，亦即，人類可理解自然語言之已知表達。亦可將已知符記208饋送至詞庫216以識別此等字組之同義詞。接著在下一圖式上繼續進行該程序流程。

圖3展示所提議概念之實施例之流程的第二部分300。程序使用(路徑「B」)未知符記之各用語--或與符記群組214相關之廣義域用語(比較圖2)--使用例如用於匹配程序之分類器來搜尋306一或多個已知資料源304中之匹配表達(例如，在例示性地展示為表302之結構化資料中) (其他方法亦可為可適用的)。

若不成功，則程序可使用替代路徑「A」，使用已知資料源304以及或連同使用匹配分數值及特定性值之相關索引及其他元資料來搜尋308最佳相關表。接著提議此等用語作為非結構化文件之標籤候選者。在一些實施例中，標籤候選者可能需要由人類操作員(未展示)確認。

圖4展示本發明之實施例的更詳細實施方案之流程圖400。首先，作為預備步驟402，程序為結構化資料集編索引且提取元資料。程序自非結構化文本資料--亦即，待分析之文本--提取404已知及未知符記。

程序使用所提取之已知符記中之一者來搜尋--亦即，查詢406--資料集之所產生索引，且可產生搜尋分數值，例如，搜尋分數值可能隨著可更頻繁地發現所提取之未知符記而增加。

此外，程序可將未知符記叢集408至具有相當或類似格式之符記群組中，亦即，結構之格式可遵循相同構造規則。作為簡單實例：兩個字母之後為10個數位，之後為另一字母。

程序判定410各符記群組之域特性--亦即，共同格式、共同重複字組或字元群組，或共同匹配資料類別(在一個實施例中，分類器可用於此)。程序查詢412包含具有類似域特性之行的資料集，且相應地增加搜尋分數。此外，程序查詢414含有值符記中之任一者的資料集，且相應地增加搜尋分數。

使用所描述之一般技術，吾人可避免其他特性當中僅一個特性可用於識別共用相同域之行(其可為使用簡單分類器時之情況)。若符記群組均具有相同的非常之特定格式(例如，類似於具有一組電話號碼或合同號碼的格式)，則發現含有具有相同的非常之特定格式之值的行可足以創建非結構化文件與含有該行的資料集之間的關係。

程序依據相關搜尋分數值對資料集進行排序416，且保留的彼等資料集具有高於預定義臨限值之搜尋分數值。程序創建418經分析文本文件之新用語--亦即，標籤--建議。藉此，使用與所識別之相關結構化資料集相關聯的相同用語。

圖5展示用於標記非結構化文本文件之文本標記系統500之實施例的方塊圖。系統500包含處理器502及以通信方式耦接至處理器502之記憶體504，其中記憶體504儲存程式碼部分，該等程式碼部分在執行時使得處理器502能夠：接收(特別地，藉由接收器506)非結構化文本文件；自非結構化文本文件提取(特別地，藉由提取模組508)至少一個無法辨識符記；識別(特別地，藉由識別單元510)預定義資料源集中之至少一個結構化資料元素，其中至少一個結構化資料元素與來自非結構化文本文件之至少一個所提取之無法辨識符記相關；及使與所識別之至少一個結構化資料元素相關聯的標籤與非結構化文本文件相關(特別地，藉由關係模組512)。

亦應提及，所有功能單元、模組及功能區塊--特別地，處理器502、記憶體504、接收器506、提取模組508、識別單元510及關係模組512--可以通信方式彼此耦接以用於以選定1：1方式進行信號或訊息交換。替代地，功能單元、模組及功能區塊可鏈接至系統內部匯流排系統514以用於進行選擇性信號或訊息交換。

本發明之實施例可連同幾乎任何類型之電腦一起實施，而不考慮平台適合於儲存及/或執行程式碼。作為實例，圖6展示適合於執行與所提議方法相關的程式碼之計算系統600。

計算系統600僅為合適電腦系統之一個實例，且並不意欲表明關於本文中所描述的本發明之實施例之使用或功能性的範疇之任何限制，不管電腦系統600是否能夠實施及/或執行上文所闡述之功能性中之任一者。在電腦系統600中，存在可與眾多其他通用或專用計算系統環境或組態一起操作之組件。可能適合與電腦系統/伺服器600一起使用之熟知計算系統、環境及/或組態之實例包括但不限於：個人電腦系統、伺服器電腦系統、精簡型用戶端、複雜型用戶端、手持型或膝上型電腦裝置、多處理器系統、基於微處理器之系統、機上盒、可程式化消費型電子裝置、網路PC、小型電腦系統、大型電腦系統及包括以上系統或裝置中之任一者的分散式雲端計算環境，及類似者。可在正由電腦系統600執行之電腦系統可執行指令(諸如，程式模組)之一般上下文中描述電腦系統/伺服器600。大體而言，程式模組可包括執行特定任務或實施特定抽象資料類型之常式、程式、物件、組件、邏輯、資料結構等。可在分散式雲端計算環境中實踐電腦系統/伺服器600，其中由經由通信網路而鏈接之遠端處理裝置執行任務。在分散式雲端計算環境中，程式模組可位於包括記憶體儲存裝置之本端及遠端電腦系統儲存媒體兩者中。

如圖式中所展示，電腦系統/伺服器600以通用計算裝置之形式展示。電腦系統/伺服器600之組件可包括但不限於一或多個處理器或處理單元602、系統記憶體604及匯流排606，該匯流排606將包括系統記憶體604之各種系統組件耦接至處理器602。匯流排606表示若干類型之匯流排結構中之任一者的一或多者，包括記憶體匯流排或記憶體控制器、周邊匯流排、加速圖形埠及使用各種匯流排架構中之任一者的處理器或區域匯流排。藉助於實例而非限制，此等架構包括工業標準架構(ISA)匯流排、微通道架構(MCA)匯流排、增強型ISA(EISA)匯流排、視訊電子產品標準協會(VESA)區域匯流排及周邊組件互連(PCI)匯流排。電腦系統/伺服器600通常包括多種電腦系統可讀媒體。此媒體可為可由電腦系統/伺服器600存取之任何可用媒體，且其包括揮發性及非揮發性媒體、移除式及不可移除式媒體兩者。

系統記憶體604可包括呈揮發性記憶體，諸如隨機存取記憶體(RAM)608及/或快取記憶體610之形式的電腦系統可讀媒體。電腦系統/伺服器600可進一步包括其他移除式及不可移除式、揮發性/非揮發性電腦系統儲存媒體。僅藉助於實例，可提供儲存系統612以用於自不可移除式、非揮發性磁性媒體(未展示且通常稱作『硬碟機』)讀取及寫入至該磁性媒體。儘管未展示，但可提供用於自移除式、非揮發性磁碟(例如，『軟碟』)讀取及寫入至該磁碟之磁碟機，及用於自移除式、非揮發性光碟(諸如，CD-ROM、DVD-ROM或其他光學媒體)讀取及寫入至該光碟之光碟機。在此等情況下，各者可藉由一或多個資料媒體介面連接至匯流排606。如下文將進一步描繪及描述，記憶體604可包括具有經組態以進行本發明之實施例之功能的程式模組之集合(例如，中之至少一者)的至少一個程式產品。

藉助於實例而非限制，可將具有程式模組616之集合(中之至少一者)之程式/公用程式，以及作業系統、一或多個應用程式、其他程式模組及程式資料儲存於記憶體604中。作業系統、一或多個應用程式、其他程式模組及程式資料或其某一組合中之各者可包括網路連接環境之實施。程式模組616通常進行如本文中所描述之本發明之實施例的功能及/或方法。

電腦系統/伺服器600亦可與以下通信：諸如鍵盤、指標裝置之一或多個外部裝置618、顯示器620等；使使用者能夠與電腦系統/伺服器600互動之一或多個裝置；及/或使電腦系統/伺服器600能夠與一或多個其他計算裝置通信之任何裝置(例如，網路卡、數據機等)。此通信可經由輸入/輸出(I/O)介面614發生。再又，電腦系統/伺服器600可經由網路配接器622與諸如區域網路(LAN)、通用廣域網路(WAN)及/或公用網路(例如，網際網路)之一或多個網路通信。如所描繪，網路配接器622可經由匯流排606與電腦系統/伺服器600之其他組件通信。應理解，儘管未展示，但可結合電腦系統/伺服器600使用其他硬體及/或軟體組件。實例包括但不限於：微碼、裝置驅動程式、冗餘處理單元、外部磁碟機陣列、RAID系統、磁帶機及資料存檔儲存系統等。

另外，用於標記非結構化文本文件之文本標記系統500可附接至匯流排系統514。

已出於說明目的呈現本發明之各種實施例之描述，但該描述並不意欲為詳盡的或限於所揭示之實施例。在不脫離所描述實施例之範疇及精神之情況下，許多修改及變化對一般熟習此項技術者而言將顯而易見。本文中所使用之用語經選擇以最佳解釋實施例之原理、實際應用程式或對市場中發現之技術的技術改良，或使得其他一般熟習此項技術者能夠理解本文中所揭示之實施例。

本發明可為在任何可能之技術細節整合層級處的系統、方法及/或電腦程式產品。電腦程式產品可包括電腦可讀儲存媒體，其上有電腦可讀程式指令以使處理器進行本發明之態樣。

電腦可讀儲存媒體可為有形裝置，其可保持及儲存指令以供指令執行裝置使用。電腦可讀儲存媒體可為例如但不限於電子儲存裝置、磁性儲存裝置、光學儲存裝置、電磁儲存裝置、半導體儲存裝置或前述之任何合適組合。電腦可讀儲存媒體之更特定實例之非詳盡清單包括以下：攜帶型電腦磁片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可擦除可程式化唯讀記憶體(EPROM或快閃記憶體)、靜態隨機存取記憶體(SRAM)、攜帶型緊密光碟唯讀記憶體(CD-ROM)、數位化通用光碟(DVD)、記憶棒、軟磁碟、機械編碼裝置(諸如，其上記錄有指令之凹槽中之打孔卡片或凸起結構)及前述之任何合適組合。如本文中所使用，不將電腦可讀儲存媒體本身理解為暫時信號，諸如無線電波或其他自由傳播之電磁波、經由波導或其他傳輸媒體傳播之電磁波(例如，經由光纖電纜傳遞之光脈衝)，或經由導線傳輸之電信號。

本文中所描述之電腦可讀程式指令可自電腦可讀儲存媒體下載至各別計算/處理裝置或經由網路(例如，網際網路、區域網路、廣域網路及/或無線網路)下載至外部電腦或外部儲存裝置。網路可包含銅傳輸電纜、光傳輸光纖、無線傳輸、路由器、防火牆、交換器、閘道器電腦及/或邊緣伺服器。各計算/處理裝置中之網路配接卡或網路介面自網路接收電腦可讀程式指令且轉遞電腦可讀程式指令以用於儲存於各別計算/處理裝置內之電腦可讀儲存媒體中。

用於進行本發明之操作之電腦可讀程式指令可為以一或多種程式設計語言之任何組合撰寫之組譯程式指令、指令集合架構(ISA)指令、機器指令、機器相關指令、微碼、韌體指令、狀態設定資料、積體電路系統之組態資料或原始程式碼或目標程式碼，該一或多種程式設計語言包括諸如Smalltalk、C++或類似者之物件導向式程式設計語言，及諸如「C」程式設計語言或類似程式設計語言之程序性程式設計語言。電腦可讀程式指令可完全在使用者之電腦上、部分在使用者之電腦上、作為獨立套裝軟體(software package)、部分在使用者之電腦上且部分在遠端電腦上或完全在遠端電腦或伺服器上執行。在後一種情境中，遠端電腦可經由任何類型之網路(包括區域網路(LAN)或廣域網路(WAN))連接至使用者之電腦，或可連接至外部電腦(例如，使用網際網路服務提供者經由網際網路)。在一些實施例中，電子電路系統(包括，例如可程式化邏輯電路系統、場可程式化閘陣列(FPGA)或可程式化邏輯陣列(PLA))可藉由利用電腦可讀程式指令之狀態資訊來個性化電子電路系統而執行電腦可讀程式指令，以便執行本發明之態樣。

本文中參考根據本發明之實施例之方法、設備(系統)及電腦程式產品之流程圖說明及/或方塊圖來描述本發明之態樣。將理解，可藉由電腦可讀程式指令來實施流程圖說明及/或方塊圖中之各區塊及流程圖說明及/或方塊圖中之區塊的組合。

可將此等電腦可讀程式指令提供至電腦或其他可程式化資料處理設備之處理器以產生機器，使得經由該電腦或其他可程式化資料處理設備之處理器執行之指令建立用於實施一或多個流程圖及/或方塊圖區塊中所指定之功能/動作之手段。亦可將此等電腦可讀程式指令儲存於電腦可讀儲存媒體中，該等指令可指導電腦、可程式化資料處理設備及/或其他裝置以特定方式起作用，使得其中儲存有指令之電腦可讀儲存媒體包含製品，該製品包括實施一或多個流程圖及/或方塊圖區塊中所指定之功能/動作之態樣的指令。

電腦可讀程式指令亦可載入至電腦、其他可程式化資料處理設備或其他裝置上，以使一系列操作步驟在該電腦、其他可程式化設備或其他裝置上執行以產生電腦實施之程序，使得在該電腦、其他可程式化設備或其他裝置上執行之指令實施一或多個流程圖及/或方塊圖區塊中所指定之功能/動作。

圖式中之流程圖及方塊圖說明根據本發明之各種實施例的系統、方法及電腦程式產品的可能實施的架構、功能性及操作。就此而言，流程圖或方塊圖中之各區塊可表示指令之模組、區段或部分，其包含用於實施經指定邏輯功能之一或多個可執行指令。在一些替代實施中，區塊中所指出的功能可不按圖式中所指出的次序發生。舉例而言，連續展示的兩個區塊實際上可實現為一個步驟，同時、實質上同時、以部分或完全在時間上重疊之方式執行，或該等區塊有時可以相反次序執行，此取決於所涉及之功能性。亦將注意，可藉由執行經指定功能或動作或執行專用硬體及電腦指令之組合的基於專用硬體之系統來實施方塊圖及/或流程圖說明之各區塊，及方塊圖及/或流程圖說明中之區塊之組合。

已出於說明目的呈現本發明之各種實施例之描述，但該描述並不意欲為詳盡的或限於所揭示之實施例。在不脫離本發明之範疇及精神的情況下，許多修改及變化對一般熟習此項技術者而言將顯而易見。本文中所使用之用語經選擇以最佳解釋實施例之原理、實際應用程式或對市場中發現之技術的技術改良，或使得其他一般熟習此項技術者能夠理解本文中所揭示之實施例。

最後，發明性概念可藉由以下條項概述：

條項1.一種電腦實施方法，其包含：由一或多個處理器接收非結構化文本文件；由一或多個處理器自非結構化文本文件提取至少一個無法辨識符記；由一或多個處理器識別預定義資料源集中之至少一個結構化資料元素，其中至少一個結構化資料元素與來自非結構化文本文件之至少一個所提取之無法辨識符記相關；及由一或多個處理器使與所識別之至少一個結構化資料元素相關聯的標籤與非結構化文本文件相關。

條項2.如條項1之電腦實施方法，其中自非結構化文本文件提取至少一個無法辨識符記進一步包含由一或多個處理器判定自然語言元素及非自然語言元素。

條項3.如條項2之電腦實施方法，其進一步包含由一或多個處理器將非自然語言符記分組至具有類似特性之符記群組中。

條項4.如前述條項中任一項之電腦實施方法，其中識別至少一個結構化資料元素包含在預定義資料源集中搜尋至少一個資料元素，至少一個資料元素包含來自由以下組成之群組的選擇：所提取之非自然語言符記中之至少一者的值，及所提取之自然語言符記中之至少一者的元資料。

條項5.如條項4之電腦實施方法，其進一步包含：由一或多個處理器基於資料元素中之至少一個無法辨識符記及已自已發現的非結構化文本文件提取之已辨識符記之數目，及所提取符記之特定性來判定匹配分數值。

條項6.如條項5之電腦實施方法，其進一步包含由一或多個處理器選擇具有最高分數值之資料元素作為用於非結構化文本文件之標籤。

條項7.如前述條項中任一項之電腦實施方法，其中識別至少一個結構化資料元素包含來自由以下組成之群組的選擇：(i)由一或多個處理器產生包含所提取之非自然語言符記作為值之結構化資料元素；(ii)由一或多個處理器判定所產生資料元素之域特性；及(iii)由一或多個處理器在預定義資料源集中搜尋共用相同域特性之結構化資料元素。

條項8.如前述條項中任一項之電腦實施方法，其中使與所識別之至少一個結構化資料元素相關聯的標籤與非結構化文本文件相關進一步包含：由一或多個處理器輸出相關標記作為非結構化文本文件之標籤建議；及由一或多個處理器接收確認標籤建議作為非結構化文本文件之確認標籤的確認信號。

條項9.如前述條項中任一項之電腦實施方法，其中預定義資料源集係選自由以下組成之群組：資料庫表、資料詞典及資料目錄、檔案系統中之結構化檔案、非SQL資料庫及圖形資料庫。

條項10.如條項6之電腦實施方法，其中選定標籤基於自非結構化文本文件提取之上下文而進一步分級。

條項11.如條項6之電腦實施方法，其進一步包含由一或多個處理器依據與資料元素中之各者相關聯的搜尋分數值來對該等資料元素進行排序，且僅保留搜尋分數值高於搜尋分數臨限值之資料元素。

條項12.一種電腦程式產品，其包含：一或多個電腦可讀儲存媒體及共同地儲存於一或多個電腦可讀儲存媒體上之程式指令，該等程式指令包含：接收非結構化文本文件之程式指令；自非結構化文本文件提取至少一個無法辨識符記之程式指令；識別預定義資料源集中之至少一個結構化資料元素的程式指令，其中至少一個結構化資料元素與來自非結構化文本文件之至少一個所提取之無法辨識符記相關；及使與所識別之至少一個結構化資料元素相關聯的標籤與非結構化文本文件相關之程式指令。

條項13.如條項12之電腦程式產品，其中自非結構化文本文件提取至少一個無法辨識符記之程式指令進一步包含：共同地儲存於一或多個電腦可讀儲存媒體上用以判定自然語言元素及非自然語言元素之程式指令。

條項14.如條項13之電腦程式產品，其進一步包含共同地儲存於一或多個電腦可讀儲存媒體上用以將非自然語言符記分組至具有類似特性之符記群組中之程式指令。

條項15.如條項12至14中任一項之電腦程式產品，其中識別至少一個結構化資料元素之程式指令包含在預定義資料源集中搜尋至少一個資料元素之程式指令，至少一個資料元素包含來自由以下組成之群組的選擇：所提取之非自然語言符記中之至少一者的值，及所提取之自然語言符記中之至少一者的元資料。

條項16.如條項15之電腦程式產品，其進一步包含：共同地儲存於一或多個電腦可讀儲存媒體上用以基於資料元素中之至少一個無法辨識符記及已自已發現的非結構化文本文件提取之已辨識符記之數目，及所提取符記之特定性來判定匹配分數值的程式指令。

條項17.如條項16之電腦程式產品，其進一步包含：共同儲存於一或多個電腦可讀儲存媒體上用以選擇具有最高分數值之資料元素作為非結構化文本文件之標籤的程式指令。

條項18.如條項12至17中任一項之電腦程式產品，其中識別至少一個結構化資料元素之程式指令包含來自由以下組成之群組的選擇：(i)產生包含所提取之非自然語言符記作為值之結構化資料元素的程式指令；(ii)判定所產生資料元素之域特性的程式指令；及(iii)在預定義資料源集中搜尋共用相同域特性之結構化資料元素的程式指令。

條項19.如條項12至18中任一項之電腦程式產品，其中使與所識別之至少一個結構化資料元素相關聯的標籤與非結構化文本文件相關之程式指令進一步包含：共同地儲存於一或多個電腦可讀儲存媒體上用以輸出相關標籤作為非結構化文本文件之標籤建議的程式指令；及共同地儲存於一或多個電腦可讀儲存媒體上用以接收確認標籤建議作為非結構化文本文件之確認標籤的確認信號之程式指令。

條項20.一種電腦系統，其包含：一或多個電腦處理器、一或多個電腦可讀儲存媒體及共同地儲存於一或多個電腦可讀儲存媒體上以供一或多個電腦處理器中之至少一者執行的程式指令，該等程式指令包含：接收非結構化文本文件之程式指令；自非結構化文本文件提取至少一個無法辨識符記之程式指令；識別預定義資料源集中之至少一個結構化資料元素的程式指令，其中至少一個結構化資料元素與來自非結構化文本文件之至少一個所提取之無法辨識符記相關；及使與所識別之至少一個結構化資料元素相關聯的標籤與非結構化文本文件相關之程式指令。

100:電腦實施方法

102:步驟

104:步驟

106:步驟

108:步驟

Claims

一種電腦實施方法，其包含：由一或多個處理器接收一非結構化文本文件；由一或多個處理器自該非結構化文本文件提取至少一個無法辨識符記；由一或多個處理器識別一預定義資料源集中之至少一個結構化資料元素，其中該至少一個結構化資料元素與來自該非結構化文本文件之該至少一個所提取之無法辨識符記相關，其中識別該至少一個結構化資料元素包含在該預定義資料源集中搜尋至少一個資料元素，該至少一個資料元素包含來自由以下組成之群組的一選擇：所提取之非自然語言符記中之至少一者，及所提取之自然語言符記中之至少一者的元資料；由一或多個處理器使與該所識別之至少一個結構化資料元素相關聯的一標籤與該非結構化文本文件相關；及由一或多個處理器基於該資料元素中之該至少一個無法辨識符記及已自已發現的該非結構化文本文件提取之已辨識符記之一數目，及該等所提取符記之一特定性來判定一匹配分數值。
如請求項1之電腦實施方法，其中自該非結構化文本文件提取該至少一個無法辨識符記進一步包含：由一或多個處理器判定自然語言元素及非自然語言元素。
如請求項2之電腦實施方法，其進一步包含：由一或多個處理器將非自然語言符記分組至具有類似特性之符記群組中。
如請求項1之電腦實施方法，其進一步包含：由一或多個處理器選擇具有一最高分數值之該資料元素作為該非結構化文本文件之該標籤。
如請求項1之電腦實施方法，其中識別該至少一個結構化資料元素包含來自由以下組成之群組的一選擇：(i)由一或多個處理器產生包含所提取之非自然語言符記作為值之一結構化資料元素；(ii)由一或多個處理器判定該所產生資料元素之域特性；及(iii)由一或多個處理器在一預定義資料源集中搜尋共用相同域特性之該等結構化資料元素。
如請求項1之電腦實施方法，其中使與該所識別之至少一個結構化資料元素相關聯的該標籤與該非結構化文本文件相關進一步包含：由一或多個處理器輸出該相關標籤作為該非結構化文本文件之一標籤建議；及由一或多個處理器接收確認該標籤建議作為該非結構化文本文件之確認標籤的一確認信號。
如請求項1之電腦實施方法，其中該預定義資料源集係選自由以下組成之群組：一資料庫表、一資料詞典及一資料目錄、一檔案系統中之一結構化檔案、一非結構化查詢語言(SQL)資料庫及一圖形資料庫。
如請求項4之電腦實施方法，其中經選擇之該標籤基於自該非結構化文本文件提取之上下文而進一步分級。
如請求項4之電腦實施方法，其進一步包含：由一或多個處理器依據與該等資料元素中之各者相關聯的一搜尋分數值對該等資料元素進行排序，且僅保留該搜尋分數值高於一搜尋分數臨限值之該等資料元素。
一種電腦程式產品，其包含：一或多個電腦可讀儲存媒體及共同地儲存於該一或多個電腦可讀儲存媒體上之程式指令，該等程式指令包含：接收一非結構化文本文件之程式指令；自該非結構化文本文件提取至少一個無法辨識符記之程式指令，其中識別該至少一個結構化資料元素之程式指令包含在該預定義資料源集中搜尋至少一個資料元素之程式指令，該至少一個資料元素包含來自由以下組成之群組的一選擇：所提取之非自然語言符記中之至少一者，及所提取之自然語言符記中之至少一者的元資料；識別一預定義資料源集中之至少一個結構化資料元素的程式指令，其中該至少一個結構化資料元素與來自該非結構化文本文件之該至少一個所提取之無法辨識符記相關；使與該所識別之至少一個結構化資料元素相關聯的一標籤與該非結構化文本文件相關之程式指令；及用以基於該資料元素中之該至少一個無法辨識符記及已自已發現的該非結構化文本文件提取之已辨識符記之一數目，及該等所提取符記之一特定性來判定一匹配分數值的程式指令。
如請求項10之電腦程式產品，其中自該非結構化文本文件提取該至少一個無法辨識符記之程式指令進一步包含：共同地儲存於一或多個電腦可讀儲存媒體上用以判定自然語言元素及非自然語言元素之程式指令。
如請求項11之電腦程式產品，其進一步包含：共同地儲存於該一或多個電腦可讀儲存媒體上用以將非自然語言符記分組至具有類似特性之符記群組中之程式指令。
如請求項10之電腦程式產品，其進一步包含：共同儲存於一或多個電腦可讀儲存媒體上用以選擇具有一最高分數值之該資料元素作為該非結構化文本文件之該標籤的程式指令。
如請求項10之電腦程式產品，其中識別該至少一個結構化資料元素之程式指令包含來自由以下組成之群組的一選擇：(i)產生包含所提取之非自然語言符記作為值之一結構化資料元素的程式指令；(ii)判定該所產生資料元素之域特性的程式指令；及(iii)在一預定義資料源集中搜尋共用相同域特性之該等結構化資料元素的程式指令。
如請求項10之電腦程式產品，其中使與該所識別之至少一個結構化資料元素相關聯的該標籤與該非結構化文本文件相關之程式指令進一步包含：共同地儲存於該一或多個電腦可讀儲存媒體上用以輸出該相關標籤作為該非結構化文本文件之一標籤建議的程式指令；及共同地儲存於該一或多個電腦可讀儲存媒體上用以接收確認該標籤建議作為該非結構化文本文件之確認標籤的一確認信號之程式指令。
一種電腦系統，其包含：一或多個電腦處理器、一或多個電腦可讀儲存媒體及共同地儲存於該一或多個電腦可讀儲存媒體上以供該一或多個電腦處理器中之至少一者執行的程式指令，該等程式指令包含：接收一非結構化文本文件之程式指令；自該非結構化文本文件提取至少一個無法辨識符記之程式指令；識別一預定義資料源集中之至少一個結構化資料元素的程式指令，其中該至少一個結構化資料元素與來自該非結構化文本文件之該至少一個所提取之無法辨識符記相關，其中識別該至少一個結構化資料元素包含在該預定義資料源集中搜尋至少一個資料元素，該至少一個資料元素包含來自由以下組成之群組的一選擇：所提取之非自然語言符記中之至少一者，及所提取之自然語言符記中之至少一者的元資料；使與該所識別之至少一個結構化資料元素相關聯的一標籤與該非結構化文本文件相關之程式指令；及用以基於該資料元素中之該至少一個無法辨識符記及已自已發現的該非結構化文本文件提取之已辨識符記之一數目，及該等所提取符記之一特定性來判定一匹配分數值的程式指令。