TWI787651B

TWI787651B - 文字區段標籤方法與系統

Info

Publication number: TWI787651B
Application number: TW109131932A
Authority: TW
Inventors: 趙式隆; 林奕辰; 沈昇勳; 林子雋; 黃世丞; 劉穎立
Original assignee: 洽吧智能股份有限公司
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-12-21
Also published as: TW202213178A

Abstract

一種文字區段標籤方法與系統，該方法包括下述步驟。匯入一待識別文件，待識別文件包括多個文字影像。辨識出至少一文字區段，並將文字區段中的文字影像轉換為可編輯文字。衡量該文字區段與待識別文件間的至少一第一關聯資訊，並將可編輯文字與第一關聯資訊轉為一第一特徵矩陣。衡量各個文字區段與其他文字區段的一第二關聯資訊，並藉由第二關聯資訊將第一特徵矩陣轉換為第二特徵矩陣。將第二特徵矩陣轉換為代表著信心水準的第三特徵矩陣。將第三特徵矩陣轉換為一維矩陣，一維矩陣的每一元素代表每一文字區段所對應的一標籤代碼。於標籤庫尋找標籤代碼所對應的標籤，並賦予每一文字區段所對應的標籤。

Description

文字區段標籤方法與系統

本發明是指一種標籤方法與系統，特別是指一種文字區段標籤方法與系統。

目前，為了有效提高紙本診斷書或相關單據輸入時的效率，在輸入該診斷書或該相關單據的作業過程中會使用OCR(Optical Character Recognition，光學字元識別)技術，以將該診斷書或該相關單據中的文字影像自動轉換為可編輯文字。然而，在轉換成可編輯文字後，仍需要人工將這些可編輯文字輸入到資料庫的相應欄位中。舉例來說，紙本診斷書上的“醫療財團法人XX紀念醫院”在轉換成可編輯字元後，仍須人工將其輸入到資料庫的“醫院名稱”這個欄位中。這樣一來，還是會有一定的人工成本且更增加錯誤的機會。

因此，如何將OCR轉換而成的可編輯字元自動填入到資料庫的相應欄位中，便是值得本領域具有通常知識者去思量地。

本發明之目的在於提供一文字區段標籤方法，本發明之文字區段標籤方法能將OCR轉換而成的可編輯字元的各文字區段賦予所對應的標籤，以使資料庫相關處理軟體後續能根據各文字區段所對應的標籤，將正確的資料自動填入到資料庫的相應欄位中。

本發明之文字區段標籤方法包括以下步驟：首先，匯入一待識別文件，待識別文件包括多個文字影像。之後，辨識出至少一文字區段，文字區段包括至少一上述文字影像。之後，將文字區段中的文字影像轉換為一可編輯文字。之後，衡量該文字區段與待識別文件間的至少一第一關聯資訊。之後，將可編輯文字與第一關聯資訊轉為一第一特徵矩陣。之後，衡量各個文字區段與其他文字區段的一第二關聯資訊。之後，藉由該第二關聯資訊將第一特徵矩陣轉換為一第二特徵矩陣。之後，將第二特徵矩陣轉換為代表著信心水準一第三特徵矩陣。之後，將第三特徵矩陣轉換為一一維矩陣，一維矩陣的每一元素代表每一文字區段所對應的一標籤代碼。之後，於一標籤庫尋找標籤代碼所對應的一標籤，並賦予每一文字區段所對應的標籤。

如上述之文字區段標籤方法，其中，第一關聯資訊包括以下資訊的至少其中之一：文字區段於該待識別文件中所佔的面積比例；文字區段的長寬比；或文字區段於該待識別文件中的位置。

如上述之文字區段標籤方法，其中，是藉由一圖像神經網路模型衡量各個文字區段與其他文字區段的該第二關聯資訊。

如上述之文字區段標籤方法，其中，每一文字區段是對應到多個標籤，且這些標籤彼此間具有階層關係。

如上述之文字區段標籤方法，其中，是藉由Softmax函數將該第二特徵矩陣轉換為代表著信心水準的該第三特徵矩陣。

如上述之文字區段標籤方法，其中該第一特徵矩陣、該第二特徵矩陣、與該第三特徵矩陣皆為二維矩陣。

本發明另一個目的在於提供一文字區段標籤系統，本發明之文字區段標籤系統能將OCR轉換而成的可編輯字元自動填入到資料庫的相應欄位中。

本發明之文字區段標籤系統是連接到一輸入裝置，輸入裝置接受一待識別文件，待識別文件包括多個文字影像，文字區段標籤系統包括一文字影像識別模組、一語言處理模組、一文字區段關係分析模組、一信心轉換模組、一標籤庫、及一標籤輸出模組。其中，文字影像識別模組連接到輸入裝置以接受該待識別文件，文字影像識別模組辨識出該待識別文件中至少一文字區段，文字區段包括至少一上述文字影像，且文字影像識別模組將文字區段中的文字影像轉換為一可編輯文字。此外，語言處理模組與文字影像識別模組相連接，語言處理模組衡量該文字區段與待識別文件間的至少一第一關聯資訊，並將可編輯文字與第一關聯資訊轉為一第一特徵矩陣。另外，文字區段關係分析模組與該語言處理模組相連接，文字區段關係分析模組衡量各個文字區段與其他文字區段的一第二關聯資訊，藉由第二關聯資訊將第一特徵矩陣轉換為一第二特徵矩陣。此外，信心轉換模組與文字區段關係分析模組相連接，信心轉換模組將第二特徵矩陣轉換為代表著信心水準一第三特徵矩陣。標籤庫是儲存有多個標籤。標籤輸出模組與信心轉換模組及該標籤庫相連接，標籤輸出模組將第三特徵矩陣轉換為一一維矩陣，一維矩陣的每一元素代表每一文字區段所對應的一標籤代碼，且標籤輸出模組是根據該標籤代碼於一標籤庫尋找所對應的一標籤，並賦予每一文字區段所對應的標籤。

如上述之文字區段標籤系統，其中第一關聯資訊包括以下資訊的至少其中之一：文字區段於該文件中所佔的面積比例；文字區段的長寬比；或文字區段的位置。

如上述之文字區段標籤系統，其中文字影像識別模組、語言處理模組、該文字區段關係分析模組、信心轉換模組、與標籤輸出模組皆包括至少一神經網路模型。

如上述之文字區段標籤系統，其中文字區段關係分析模組是藉由一圖像神經網路模型衡量各個文字區段與其他文字區段的第二關聯資訊。

為讓本之上述特徵和優點能更明顯易懂，下文特舉較佳實施例，並配合所附圖式，作詳細說明如下。

S210~S290:流程圖符號

10:輸入裝置

20:資料庫

100:文字區段標籤系統

102:伺服端

110:文字影像識別模組

120:語言處理模組

130:文字區段關係分析模組

140:信心轉換模組

150:標籤庫

160:標籤輸出模組

80:待識別文件

81:文字區段

下文將根據附圖來描述各種實施例，所述附圖是用來說明而不是用以任何方式來限制範圍，其中相似的標號表示相似的組件，並且其中：

圖1所繪示為本發明之文字區段標籤系統的實施例。

圖2A至圖2D所繪示為待識別文件與其隨處理過程所呈現之變化的其中一實施例。

圖3所繪示為本發明之文字區段標籤方法的實施例。

圖4A所繪示為第一特徵矩陣的示意圖。

圖4B所繪示為第二特徵矩陣的示意圖。

圖4C所繪示為第三特徵矩陣的示意圖。

圖4D所繪示為一維矩陣的示意圖。

參照本文闡述的詳細內容和附圖說明是最好理解本發明。下面參照附圖會討論各種實施例。然而，本領域技術人員將容易理解，這裡關於附圖給出的詳細描述僅僅是為了解釋的目的，因為這些方法和系統可超出所描述的實施例。例如，所給出的教導和特定應用的需求可能產生多種可選的和合適的方法來實現在此描述的任何細節的功能。因此，任何方法可延伸超出所描述和示出的以下實施例中的特定實施選擇範圍。

在說明書及後續的申請專利範圍當中使用了某些詞彙來指稱特定的元件。所屬領域中具有通常知識者應可理解，硬體製造商可能會用不同的名詞來稱呼同樣的元件。本說明書及後續的申請專利範圍並不以名稱的差異來作為區分元件的方式，而是以元件在功能上的差異來作為區分的準則。在通篇說明書及後續的請求項當中所提及的「包含」係為一開放式的用語，故應解釋成「包含但不限定於」。另外，「耦接」一詞在此係包含任何直接及間接的電氣連接手段。因此，若文中描述一第一裝置耦接於一第二裝置，則代表該第一裝置可直接電氣連接於該第二裝置，或透過其他裝置或連接手段間接地電氣連接至該第二裝置。

請參閱圖1，圖1所繪示為本發明之文字區段標籤系統的實施例。文字區段標籤系統100包括一文字影像識別模組110、一語言處理模組120、一文字區段關係分析模組130、一信心轉換模組140、一標籤庫150、與一標籤輸出模組160，其中文字區段標籤系統100還電性連接到一輸入裝置10，此輸入裝置10例如為一掃描裝置、一數位相機、或一具有拍照功能的智慧型手機。藉由此輸入裝置10，可將一待識別文件(如圖2A)匯入到文字區段標籤系統100中。在本實施例中，文字影像識別模組110、語言處理模組120、文字區段關係分析模組130、信心轉換模組140、標籤庫150、與標籤輸出模組160是設置於伺服端102，該伺服端102例如是由一台或多台伺服器所組成。

另外，也請參照圖2A，圖2A所繪示為待識別文件的其中一實施例，在本實施例中待識別文件為醫療費用收據。從圖2A可知，此待識別文件80包括多個文字，而當待識別文件80的影像被輸入裝置10捕捉後，待識別文件80上的文字當然也是以影像的方式存在的，也就是說由輸入裝置10匯入到文字區段標籤系統100的待識別文件上的文字是無法編輯的，以下將這些文字稱為文字影像。

此外，請同時參照圖3，圖3所繪示為本發明之文字區段標籤方法的實施例。首先，實施步驟S210，匯入如圖2A的待識別文件，其詳細流程已如上文所述，在此不再贅述。接著，實施步驟S220，辨識出待識別文件80中的文字區段81。在圖2B中，文字區段81是由虛線所框出來的區域，文字區段81例如是由文字影像識別模組110識別出來。由圖2B可清楚得知，文字區段81是將待識別文件80上的文字影像選取出來，尤其是將集合在一起的文字以一個區段的方式選取出來。之後，實施步驟S230，藉由文字影像識別模組110將文字區段81中的文字影像轉換為可編輯字元。也就是說，原本由輸入裝置10所匯入的待識別文件的影像，其上的文字影像是無法編輯的，然而文字影像識別模組110可將這些文字影像轉換為可編輯文字，其例如是採用OCR(Optical Character Recognition，光學字元識別)的技術。然而，若單純採用OCR的技術，在待識別文件上的字元影像模糊不清或是被髒污附著時，便可能發生判別錯誤的情形。此時，便可採用例如台灣專利申請號107145984所揭露的技術對發生判別錯誤的情形進行修正。在此，文字影像識別模組110可包括遞歸神經網路(Recurrent Neural Network)、長短期記憶模型(Long Short-Term Memory)或是卷積神經網路(Convolutional Neural Network)等神經網路模型。

之後，實施步驟S240，可藉由語言處理模組120衡量文字區段81與待識別文件80間的至少一第一關聯資訊。詳細來說，第一關聯資訊是指文字區段81與待識別文件80間的相對關係；例如：文字區段81於該待識別文件80中所佔的面積比例、文字區段81的長寬比、文字區段81於該待識別文件80中的位置(例如：座標)。然後，實施步驟S250，將文字區段81中的可編輯文字與第一關聯資訊轉為一第一特徵矩陣。請同時參照圖4A，圖4A所繪示為第一特徵矩陣的示意圖。從圖4A可知，第一特徵矩陣為N x F的二維矩陣，也就是說具有N列和F行的二維矩陣。其中，N的列數是代表於該待識別文件80中文字區段81的數量，F則代表每一個文字區段81所對應的參數。從圖4A可知，F所代表的參數可由文字資訊與第一關聯資訊所構成，在本實施例中第n行前的元素用以表示文字資訊。文字資訊是由文字區段81的可編輯文字轉換而成，其例如是使用詞嵌入(word embedding)的技術轉換而成的向量。在第一特徵矩陣中，第一關聯資訊則是用數值來表示，並將其加入於文字資訊的後方，在本實施例是用第n+1行後的元素來進行表示。舉例來說，若文字區段81於該待識別文件80中所佔的面積比例為10.53%，則可表為0.1053。或者，若是文字區段81的長寬比為4：1，則可表為0.2。又或者，文字區段81的座標資訊為(20,31)且整張文件的大小為(1000,800)，則座標資訊經正規化可表為(0.02,0.03875)。這樣一來，此第一關聯資訊可表為[0.1053,0.2,0.02,0.03875]。

再來，實施步驟S260，可藉由文字區段關係分析模組130衡量各個文字區段81與其他文字區段81的一第二關聯資訊。請同時參照圖2C，若將每一個文字區段81與其他文字區段81間都畫有一線段(在圖2C中並未畫出全部的線段，而僅是示意)，則線段的數量將有N²個(其中N為文字區段81的數量)，此圖形即為數學上的完全圖(Complete Graph)。也就是說，若第二關聯資訊在圖中以文字區段81與其他文字區段81間的線段來表示，則可很清楚得知第二關聯資訊的數量為N²個。舉例來說，若待識別文件80中的文字區段81有20個，則第二關聯資訊的數量為20²個，意即400個。在本實施例中，由於文字區段81與文字區段81之間的關係(意即：第二關聯資訊)可用一完全圖(Complete Graph)來進行表示，故藉由圖像神經網路(Graph Neural Network)的模型來衡量第二關聯資訊。也就是說，文字區段關係分析模組130可包括圖像神經網路的模型。藉由圖像神經網路的模型，文字區段81與文字區段81之間可交換重要的資訊，讓文字區段81與文字區段81之間的關係能用數值來進行表示。

舉例來說，當「健保」這個文字區段81與左側「身份」的文字區段81間的第二關聯資訊可能就用代表關聯性較高的數值來表示。更具體來說，「身份」的數值化向量就會提供給「健保」這個文字區段81較多的向量資訊，例如將「身份」這個文字區段81的數值化向量加在「健保」這個文字區段81的後方，或者將「身份」這個文字區段81的數值化向量乘以一個較大的權重後加在「健保」這個文字區段81的後方；另外，「醫療費用收據」這個文字區段81與「健保」這個文字區段81之間的關聯性可能較低，故「醫療費用收據」這個文字區段81的數值化向量乘以一個較小的權重後加在「健保」這個文字區段81的後方。也因此，在經由步驟S260後，第一特徵矩陣會轉換為如圖4B所示的第二特徵矩陣，而第二特徵矩陣為N x F2的二維矩陣。其中，N是代表於該待識別文件80中文字區段81的數量，F2則代表每一個文字區段81在併入第二關聯資訊後所對應的參數，F2的數量例如為F*N。須注意的是，以上僅是舉例，文字區段81間的關聯性何者較高何者較低是由訓練過後的圖像神經網路模型或其他神經網路模型來進行判定。在本實施例中，是藉由圖像神經網路(Graph Neural Network)的模型來衡量第二關聯資訊。然而，本領域具有通常知識者也可用其他的神經網路模型，如：卷積神經網路(Convolutional Neural Network,CNN)或循環神經網路(Recurrent neural network,RNN)。

之後，實施步驟S270，信心轉換模組140例如是藉由Softmax函數將第二特徵矩陣轉換為代表著信心水準的一第三特徵矩陣，此第三特徵矩陣為N x C的二維矩陣，如圖4C所示。其中，N的列數是代表於該待識別文件80中文字區段81的數量，C的行數則代表標籤的全部數量。以下，將對標籤庫150中的標籤進行介紹。

在本實施例中，標籤庫150儲存有多個標籤，這些標籤是用於標示文字區段81的種類。舉例來說，請參照圖2D，「醫療財團法人XXX紀念醫院」這個文字區段81就會被標籤為標題資訊，位於待識別文件80中間區域的數字則會被標籤為費用，而位於待識別文件80最右方的警語則會被標籤為非重要資訊。此外，在這些標籤中，彼此間也可具有階層關係。舉例來說，標題資訊可進一步分類為：醫院名稱、收據類別、健保身份、身份證字號等；費用可進一步分類為：藥品費、護理費、檢查費、藥事服務費等。請回去參照圖4C，在第三特徵矩陣中，每一個元素(element)代表對應到每一個標籤的信心水準。舉例來說，對於藥事服務費這個文字區段81，代表藥事服務費這個元素可能有最高的數值，而代表費用這個元素可能有次高的數值。

再來，實施步驟S280，藉由標籤輸出模組160將第三特徵矩陣轉換為一一維矩陣(如圖4D所示)，此一維矩陣的每一元素代表每一文字區段所對應的一標籤代碼。接著，實施步驟S290，標籤輸出模組160於標籤庫150尋找該標籤代碼所對應的標籤，並賦予每一文字區段81所對應的標籤。這樣一來，之後資料庫相關處理軟體便可根據文字區段81所對應的標籤，將正確的資料輸入到資料庫20所對應的欄位中。因此，藉由本實施例所提到的文字區段標籤方法，使用者在對待識別文件進行拍照後，後續就能完全交由電腦將相關資料輸入到資料庫相對應的欄位。

在上述的實施例中，文字影像識別模組110、語言處理模組120、文字區段關係分析模組130、信心轉換模組140、及標籤輸出模組160都包含神經網路模型，這些神經網路模型於訓練時可將樣本分成訓練集與測試集，先由訓練集訓練後，再由測試集進行測試。在其中一個實施例中，訓練集的樣本數約是測試集的三倍。

雖然本發明已以較佳實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明之精神和範圍內，當可作些許之更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

S210~S290:流程圖符號

Claims

一種文字區段標籤方法，包括：(a)匯入一待識別文件，該待識別文件包括多個文字影像；(b)辨識出至少一文字區段，該文字區段包括至少一上述文字影像；(c)將該文字區段中的該文字影像轉換為一可編輯文字；(d)衡量該文字區段與該待識別文件間的至少一第一關聯資訊；(e)將該可編輯文字與該第一關聯資訊轉為一第一特徵矩陣；(f)藉由一神經網路模型衡量各個文字區段與其他文字區段的一第二關聯資訊；(g)藉由該第二關聯資訊將該第一特徵矩陣轉換為一第二特徵矩陣；(h)將該第二特徵矩陣轉換為代表著信心水準一第三特徵矩陣；(i)將該第三特徵矩陣轉換為一一維矩陣，該一維矩陣的每一元素代表每一文字區段所對應的一標籤代碼；(j)於一標籤庫尋找該標籤代碼所對應的一標籤，並賦予每一文字區段所對應的標籤；以及(k)根據每一文字區段所對應的標籤，將每一文字區段輸入到一資料庫所對應的欄位中。
如請求項1所述之文字區段標籤方法，其中於(d)步驟中，該第一關聯資訊包括以下資訊的至少其中之一：該文字區段於該待識別文件中所佔的面積比例；該文字區段的長寬比；或該文字區段於該待識別文件中的位置。
如請求項1所述之文字區段標籤方法，其中於(f)步驟中，是藉由一圖像神經網路模型衡量各個文字區段與其他文字區段的該第二關聯資訊。
如請求項1所述之文字區段標籤方法，其中於(j)步驟中，部分標籤彼此間具有階層關係。
如請求項1所述之文字區段標籤方法，其中於(h)步驟中，是藉由Softmax函數將該第二特徵矩陣轉換為代表著信心水準的該第三特徵矩陣。
如請求項1所述之文字區段標籤方法，其中該第一特徵矩陣、該第二特徵矩陣、與該第三特徵矩陣皆為二維矩陣。
一種文字區段標籤系統，連接到一輸入裝置與一資料庫，該輸入裝置接受一待識別文件，該待識別文件包括多個文字影像，該文字區段標籤系統包括：一文字影像識別模組，連接到該輸入裝置以接受該待識別文件，該文字影像識別模組辨識出該待識別文件中至少一文字區段，該文字區段包括至少一上述文字影像，且該文字影像識別模組將該文字區段中的該文字影像轉換為一可編輯文字；一語言處理模組，與該文字影像識別模組相連接，該語言處理模組衡量該文字區段與該待識別文件間的至少一第一關聯資訊，並將該可編輯文字與該第一關聯資訊轉為一第一特徵矩陣；一文字區段關係分析模組，與該語言處理模組相連接，該文字區段關係分析模組藉由一神經網路模型衡量各個文字區段與其他文字區段的一第二關聯資訊，藉由該第二關聯資訊將該第一特徵矩陣轉換為一第二特徵矩陣；一信心轉換模組，與該文字區段關係分析模組相連接，該信心轉換模組將該第二特徵矩陣轉換為代表著信心水準一第三特徵矩陣；一標籤庫，儲存有多個標籤；以及一標籤輸出模組，與該信心轉換模組及該標籤庫相連接，該標籤輸出模組將該第三特徵矩陣轉換為一一維矩陣，該一維矩陣的每一元素代表每一文字區段所對應的一標籤代碼，且該標籤輸出模組是根據該標籤代碼於一標籤庫尋找所對應的一標籤，並賦予每一文字區段所對應的標籤，且該標籤輸出模組是連接到該資料庫；其中，該資料庫根據每一文字區段所對應的標籤，將每一文字區段輸入到一資料庫所對應的欄位中。
如請求項7所述之文字區段標籤系統，其中該第一關聯資訊包括以下資訊的至少其中之一：該文字區段於該文件中所佔的面積比例；該文字區段的長寬比；或該文字區段的位置。
如請求項7所述之文字區段標籤系統，其中該文字影像識別模組、該語言處理模組、該信心轉換模組、與該標籤輸出模組皆包括至少一神經網路模型。
如請求項7或請求項9所述之文字區段標籤系統，其中該文字區段關係分析模組是藉由一圖像神經網路模型衡量各個文字區段與其他文字區段的該第二關聯資訊。