TWI285849B

TWI285849B - Optical character recognition device, document searching system, and document searching program

Info

Publication number: TWI285849B
Application number: TW92100430A
Authority: TW
Inventors: Takeshi Eisaki; Katsumi Marukawa; Shigeyuki Fujiwara
Original assignee: Hitachi Ltd
Priority date: 2002-11-21
Filing date: 2003-01-09
Publication date: 2007-08-21
Also published as: TW200409046A; JP2004171316A; CN1503193A; CN100351847C

Description

1285849 (1) 玖、發明說明 [發明所屬之技術領域] 本發明是關於應用文字辨識技術從紙文書群或文書影像群中檢索含有特定鍵檢索之文書群並取得必要之資訊的文書檢索·處理方法、其裝置、及文書檢索處理程式。 [先前技術] 雖然現在之數位資訊技術已因爲電腦而普及，紙文書仍然是被廣泛採用的資訊傳送媒體。然而，對於想要從大量的文書中以某關鍵字來檢索必要資訊、或想要對含有特定關鍵字群之文書進行檢索並自動分類等之要求，很明顯的，和數位資料相比，紙文書有難以對應的問題。爲了解決此問題，出現以紙文書檢索及自動處理爲目的之各種方法。從紙文書或文書影像等檢索必要之關鍵字的手段，有每次需要檢索時以OCR(光學讀取裝置）辨識紙文書再進行檢索之線上處理、以及一開始即以OCR讀取並將讀取結果永遠保留然後進行檢索之非線上處理。例如，郵件區分機等裝置即屬於線上處理。此種線上處理時，因指定想要檢索之關鍵字，可利用關鍵字含有之文字特性（全形、半形、漢字、英數字等）來變更文字切割的參數，或者，可執行限定文字辨識時之字種的處理等來提高檢索精度。相對的，因爲每次檢索都必須執行影像解析及文字辨識，故在重複檢索之運用形態時，以計算時間之觀點而言，並不切 -6- (2) 1285849 實際。本發明所提供之方法則以非線上處理爲基礎。紙文書之非線上的關鍵字檢索之最基本方法，就是利用OCR將紙文書轉換成正文檔案，再對正文檔案進行檢索。然而，因爲一般以OCR轉換之正文碼會含有錯誤，而產生有時無法以單純正文檢索來處理的情形。當然，可以利用人工在OCR轉換後再修正正文碼，然後再對修正結果進檢索。然而，從處理速度及成本方面而言，利用人工修正實在很不切實際。提高OCR之讀取精度的手段，以對OCR之辨識結果執行形態分析之方法爲大家熟知（參照專利文獻1。）。的確 ’形態分析等之知識處理可以訂正誤讀，然而，卻無法實現1 00%之訂正。此外，一般之形態分析所使用之辭典以新聞等一般文章爲對象，爲了要以良好精度來校正特殊業務用途之文書，則必須追加定義適合該分野之特殊辭典。因此’維修性及計算量方面都仍存在問題。爲了避免文字誤讀對檢索產生不良影響，有人提出利用OCR容易誤讀之類似文字的資訊來執行單語檢索的方法 (參照專利文獻2。）。又，也有人提出容許〇CR之讀取結果具有複數之文字辨識候補，然後從其中選擇文字碼來檢出單語之方法（參照專利文獻3)。的確，使用這些技術可避免1文字單位之誤讀對單語檢索產生不良影響。然而，利用前述方法時，會因爲文字分離或文字互相接觸等而無法明確界定文字圖案之境界，故文字圖案之誤切割時就無法對應。例如，OCR將「八少」之文字讀成「 (3) 1285849 八少」時，前述專利方法可對應，然而，讀成「V、/ 1/」時則無法對應。又，對於含有圖或表之文書、或單據形式等含有許多格線之文書等，往往很難在讀取文字以前實施文字行之檢出·鑑別。然而’前述方法無法處理此問題。 [專利文獻1] 日本特開平05- 1 08 89 1號公報 [專利文獻2] 日本特開平1 0-74250號公報 [專利文獻3] 日本特開平9- 1 34369號公報 [發明內容] 本發明之目的’在提供以文字辨識結果爲基礎從紙文書群檢索必要關鍵字之單語檢索方法、利用其結果執行文書檢索·文書分類等之處理的文書檢索處理系統及其裝置、以及記錄檢索處理程式之記錄媒體。傳統方法之對紙文書群的文書檢索，是對OCR讀取結果之正文進行檢索，然而，很難處理文字變形或變淡等造成OCR之文字識別錯誤、文字圖案境界之模糊導致〇CR之文字切割錯誤、或文書-圖面-格線之混合存在造成OCR之文字行析出錯誤等問題。本發明之第1目的，就是提供可避免因〇CR讀取導致文字識別、文字切割、文字行析出等之錯誤而對單語檢索產生不良影響的方法。又，使用關鍵字群之文書檢索·文書分類處理時，一 -8 - (4) 1285849 般會使用特定關鍵字及其集合規則（AND或OR:和或或）來執行處理。例如，檢索同時（AND)具有「OCR」及「檢索」之單語的文書之實例。對傳統正文文書執行檢索時，因會以1或0之2數値來規定有無關鍵字，只要單純處理即可適用集合規則，然而，本方法因和文字辨識相關，故關鍵字之有無會以0至1之連續値的槪度來表示。因此，若對於槪度較低之關鍵字一律採用交集規則來執行文書檢索，則有無法進行充份檢索之問題，而若一律忽略槪度較低之關鍵字來執行文書檢索，則有無法檢索到必要文書之問題。本發明之第2目的，是提供利用文字識別之槪度來導出單語檢索之槪度及交集規則之槪度，且利用自動學習來管理文書檢索之精度的方法。爲了達成前述第1目的，本發明將OCR及檢索裝置分離，OCR之輸出形態採用可永久保存文字行析出、文字切割、及速字識別之多重假設的檔案（OCR讀取假設檔案），以此OCR讀取假設檔案爲基礎來構成檢索關鍵字之機能，進而提供可執行必要文書之檢索及文書之分類的系統。爲了達成前述第2目的，提供一種機構，使OCR讀取假設檔案含有文字識別之類似度、文字圖案之位置資訊等，並將其當做計算檢索到之關鍵字的槪度、及關鍵字規則集合時之槪度的資訊，並依據這些槪度來決定文書檢索結果之受理·廢棄。 [實施方式] -9- (5) 1285849 以第1圖爲例來槪說傳統方法及本發明方法之不同。第1圖爲傳統單語檢索方法及文書檢索方法、以及本發明方法之差異的模式圖。首先，傳統方法之流程中，有以1 0 1表示之紙文書群，而利用以102表示之OCR來執行讀取。將讀取結果當做以103表示之正文檔案輸出。其次，將正文檔案輸入以1〇4 表示之裝置，執行單語檢索。此流程中，檢索對象之單語是參照單語D B (11 3)。然而，本來爲「血液化學檢查」之文字，OCR之讀取結果卻將其讀成「皿液4匕學檢查」時，以正文檔案爲基礎無法檢索到「血液化學檢查」之單語，此時，一般會視爲檢索失敗。因此，即使利用以105表示之裝置對檢索之單語採用文書檢索規則（114)執行處理，亦因爲必須適用規則之單語不存在，而檢索失敗。因而無法對文書執行檢索·篩選。相對於此，本發明之處理流程中，首先，有以107表示之紙文書群，利用以108所示之 OCR讀取。將讀取結果當做以109所示之OCR讀取假設檔案輸出。其次，將OCR讀取假設檔案輸入至以110所示之裝置，執行單語檢索。必須檢索之單語定義於以1 1 3表示之單語DB。因OCR讀取假設檔案含有各種文字行析出候補、文字分割候補、及文字識別候補，除了「皿液< t:學檢查」之結果以外’尙可獲得正確識別結果…「血」、「化」的結果，使單語檢索更爲容易。其次，利用以111表示之裝置，依據記述檢出之單語及單語間的關係之文書檢索規則進行文書之檢索·篩選。文書檢索規則記載於以114袠 -10- (6) 1285849 示之規則DB。文書檢索規則之實例如「「OCR」及「檢索」之單語共同存在之文書」，爲以〇R或AND連結複數單語之構造等。使用OCR讀取假設檔案可提高單語檢索之精度，結果則是可適用文書檢索規則並可執行以1 12表示之文書檢索·篩選。 OCR讀取假設檔案含有可完全鑑別相對應之紙文書或文書影像的文書ID碼，且可永久儲存於磁性儲存裝置。使用OCR讀取假設檔案之檢索系統，在出現文書檢索要求時，會從預先儲存之OCR讀取假設檔案檢索必要之關鍵字，對照文書檢索規則，儲存適合之文書的文書ID碼。檢索結果會同時顯示利用文書ID碼鑑別之紙文書或文書影像等。利用此方式，即使OCR裝置及檢索裝置爲分離形態，亦可構成統一處理文書影像及讀取資料之文書處理系統。針對第2圖進行說明。本發明實施例之單據辨識裝置時，首先，OCR裝置會實施紙文書攝影，並將其轉換成電子影像資料（201)。若文書本來就是電子影像資料時，可省略本處理。其次，以電子影像資料爲基礎，執行格線析出、框構造解析、讀取對象框之位置推算等文書構造解析 (202)。此時，使用之辨識處理爲公知技術（日本特開平09-3 1 9824、日本特開2000-25 101 2等）。其次，接收文書構造解析之結果，析出讀取對象之文字行候補（203)。其次’ 再從文字行影切割文字圖案候補（204)，再識別各文字圖案候補（205)。從對象文書析出複數之文字行候補、文字圖案候補、及文字識別候補，構成多重假設。最後，將文 -11 - (7) 1285849 字行候補、文字切割圖案候補、及其識別結果輸出至檔案 (20 6)。此輸出之檔案稱爲OCR讀取假設檔案。後面會對 OCR讀取假設檔案進行詳細說明。前述處理201至206是利用光學讀取裝置等專用裝置將紙文書轉換成OCR讀取假設檔案的過程。相對於此，若爲電子影像資料時，則以影像讀取（207)來取代處理201，將其轉換成OCR讀取假設檔案。此時，若有轉換程式及以驅動程式爲目的之汎用演算裝置，則可執行處埋。前面所述之各資訊，儲存於第10圖所示之OCR裝置的下述位置。由紙文書轉換而成之影像資料、或預先準備之處理對象的影像資料，會儲存於外部儲存裝置1 004或記憶體1 005。OCR程式儲存於外部儲存裝置1004或記憶體1005 ，利用中央演算裝置1 006來執行處理。解析影像資料結果所所得之框資訊、行資訊、候補網狀結構、候補文字網狀結構則以記憶體1 005爲主實施展開。本處理之輸出的OCR 讀取假設檔案，會透過外部儲存裝置1004、記憶體1005、或通信裝置1007儲存於外部裝置。針對第3圖進行說明。第3圖爲使用OCR讀取假設檔案之文書檢索引擎的處理流程圖。首先’讀取對應檢索對象之紙文書群（或文書影像群）的OCR讀取假設檔案’針對各 OCR讀取假設作成候補文字網狀結構（301)。其次，將候補文字網狀結構及檢索對象之單語群視爲輸入’執行單語檢索（302)。因OCR讀取假設檔案含有各種文字行候補、文字切割候補、及文字識別候補’而必須執行已檢索之單語是 -12- (8) 1285849 费 . 否正確的判定處理。其後，針對檢索之結果，依文字識別之槪度或順位、及圖案之排列等資訊，計算已檢索之單語的槪度，決定是否受理或廢棄單語檢索結果（303)。文字識別之槪度或順位、及圖案之排列等相關資訊包含於OCR 讀取假設檔案內。後面會對OCR讀取假設檔案進行詳細說明（和第1 2圖〜第1 6圖相關）。其次，再針對含有已檢索之單語群的文書，應用文書檢索規則執行文書檢索（304)。最後，再針對已檢索之文書，依據經過規則篩選之檢出單語的槪度、或採用之規則的重要性，決定受理或廢棄文書檢索結果（305)。針對第4圖進行說明。第4圖是詳細說明前述處理303 。此處理中，針對已檢索之單語，使用文字識別之槪度、文字圖案之配置資訊、及相對於單語之文書影像的配置資訊等，計算檢出單語之槪度。檢出單語之槪度計算上，首先會考量文字列路徑（已檢索之單語以文字碼列及文字圖案列之組合來表示。將其稱爲路徑。詳細說明如第5圖所示）上之文字圖案的識別槪度來計算單語之識別槪度（401) 。其次，計算和文字圖案之配置相關的損失（402)。例如，相對於統計學上之平均値，將相對於路徑整體之高度的文字高度比、相對於路徑整體之中心線的文字中心線偏離、平均文字寬度、及和相鄰之文字圖案的間隔等的偏離程度視爲損失的方法。在考量已檢出之單語整體的位置下，計算其損失（403)例如，會使用檢出單語是否位於文書影像中之特定區域內的資訊等。然而，儲存於OCR讀取假設 -13- 1285849 Ο) 檔案之資訊會有數階段之層級（後述），可對應其層級而省略處理402及處理403。後面會詳細說明OCR讀取假設檔案〇針對第5圖及第6圖進行說明。第5圖爲單語檢索之過程的槪念圖。第6圖爲候補文字網狀結構之槪念圖及資料之詳細圖。以第5圖爲基礎說明單語檢索之流程。對讀取對象文字行（a)執行認爲是文字圖案的各種切割，作成候補文字圖案，再對各候補文字圖案執行文字識別作成候補文字網狀結構（b)。候補文字網狀結構具有最低限之文字圖案、具有依文字識別結果所得之順位的識別碼群、及候補文字網狀結構中之文字圖案間的相連關係資訊。OCR讀取假設檔案含有部份此種資訊。其形態則爲二進位形態、或使用XML等之標記的正文形態。因本發明之方法使用 OCR讀取假設檔案，候補文字網狀結構會依據從檔案讀取之資訊來作成。其次，使用文字列表示知識（c)，從候補文字網狀結構計算文字列路徑（d)。實例中，文字列表示知識採用以OR記號（I)來區隔單語之方式。亦即，代表夾於記號I之間的單語群被指定爲檢索對象。文字列表示除了此表示以外，尙可使用嘗試法、或上下文無關文法等（如曰本特開200 1 -0 143 1 1等之記載）。第6圖爲文字候補網狀結構之詳細說明。文字候補網狀結構之表現上，爲以架構 (601)來表現文字圖案之候補、及以節點（602)來表現文字圖案之境界的有向圖。各文字圖案含有代表左右（直書時爲上下）之節點（圖案境界）的境界ID編號、文字識別候補 -14 - (10) 1285849 • 翁 (603)、及識別類似度（604)之資訊。單語檢索處理則爲，將此候補文字網狀結構及文字列表示知識視爲輸入搜尋候補文字網狀結構含有之單語及其圖案列的處理。例如’文字列表示知識上之「血液化學檢查」單語’在第6圖之候補文字網狀結構中進行搜尋而找到如以605圏出之文字碼及文字圖案。搜尋文字碼及文字圖案之演算法爲公知技術 (日本特願平丨〇_ 28 077、日本特願平1 1 - 1 87 5 3等）。確定單語檢索之結果、文字列路徑°文字列路徑爲由文字碼歹！1 ( 亦即文字列）、及對應各文字碼之文字圖案所構成的資訊〇前述之各資訊，會儲存於第10圖所示之檢索裝置的下述位置。OCR讀取假設檔案會儲存於外部儲存裝置1012或記憶體1 0 1 3。單語檢索程式亦儲存於外部儲存裝置1 〇 1 2或記憶體1 0 1 3，利用中央演算裝置1 〇 14來執行處理。依據讀取假設檔案作成之候補文字網狀結構會在記憶體1013上展開。對其執行單語檢索，並經由外部儲存裝置1012、記憶體1 0 1 3、或通信裝置1 0 1 5，將檢索結果儲存於外部裝置。針對第7圖進行說明。第7圖利用本發明方法之文書檢索系統的一畫面構成例。此處，以處方文書之檢索系統爲例。首先，在輸入欄70 1指定欲檢索之關鍵字，在輸入欄 702指定以何種規則處理檢索關鍵字。在此圖中，選取之規則代表尋找指定之全部關鍵字的其中之一。將前述2項目視爲輸入，對儲存著〇CR讀取假設檔案之資料庫執行處方文書檢索。顯示欄703會顯示檢索結果所得到的處方名 -15- (11) 1285849 稱。顯示欄704會顯示檢索到之文書當中目前顯示之文書的相關資料。顯示欄705會以視覺方式顯示檢索結果。〇CR讀取假設檔案因爲具有和原紙文書或文書影像完全對應之文書ID碼，故可同時顯示文書影像及檢索結果。又’ 檢索到之單語會顯示於有706之底線的位置。顯示文書檢索結果時，可依可利用OCR讀取假設檔案計算之檢出單語槪度及檢索文書槪度來設定優先順序° 針對第8圖進行說明。第8圖爲使用OCR讀取假設檔案之檢索系統的文字切割及文字識別之多重假設化的效果圖。圖（a)爲讀取對象之文書（的部份影像），以粗線框住之部份相當於1個行假設。圖（b)中，以無特別知識之一般〇CR 讀取此部份時，原本應爲「少U V卜'錠」會被讀成k U y卜、症」。因爲，「少」爲2個文字圖案的合成’故會被以分離方式讀取，而「V」因顏色較淡而被誤讀成識別第1位的結果，又，「錠」因爲部份變形而被誤讀成識別第1位的結果。相對於此，OCR讀取假設上，會具有如圖 (c)所示之候補文字網狀結構。亦即，雖然會存在將「少」讀成「/」及「」之假設，亦會存在讀成「少」之假設，又，「7」及「錠」等之1位文字識別結果雖然會被誤讀成「V」、「症」，但在進一步之識別候補中則含有正確識別結果之「V」及「錠」。對OCR之正文讀取結果執行單語檢索時，必須從「/ 1/ u y κ症」檢索「少y V 卜''錠」之單語，此時，若以編輯距離測量2文字列之距離，則爲成爲1文字插入2文字不讀取，以單語而言，無法將 -16 (12) 1285849 其視爲類似。另一方面，使用OCR讀取假設檔案之檢時，不會有文字插入及不讀取的情形，而使單語檢索更爲容易。結果，可以檢索到如圖（d)所示之正確單語。針對第9圖進行說明。第9圖爲使用OCR讀取假設檔案之檢索系統的文字行之多重假設化的效果圖。圖（a)爲讀取對象之文書（的部份影像）。圖（b)則爲從其中利用單一假設析出文字行時的結果。此圖中，會以將圖（a)中之中間3 行視爲1行執行析出。因爲，將文字行朝橫向影射切割時，行爲被夾於印刷行之間，因爲有手寫行及蓋章行，故影射時無法形成明確之分隔，而將其判斷成1行。相對於此，因爲不但允許前述單一假設，亦容許複數之行假設，故會將圖（b)所示之較粗的文字行進一步切割成較細的文字行，並將其視爲假設，構成如圖（c)所示之文字行假設群。針對前述複數之行假設展開OCR讀取假設檔案，並對其執行單語檢索，結果，可檢索到如圖（d)所示之正確單語。OCR讀取假設檔案不但會儲存文字切割、文字識別之資訊，亦會儲存文字行假設檔案。OCR讀取假設檔案含有之資訊會在後面進行詳細說明（和第1 2圖〜第1 6圖相關）。針對第10圖進行說明。第10圖爲利用本發明之方法，以OCR裝置及檢索裝置分離之形態構成文書檢索系統時之一構成實例。第1〇圖之上段爲OCR裝置之一構成實例，而第10圖之下段則爲檢索裝置之一構成實例。首先，上段之〇CR裝置會利用影像輸入裝置（1001)將文書轉換成電子資料，並將其儲存於外部儲存裝置（1004) - 17- (13) 1285849 1 11 及記憶體（ 1 005)，然後利用中央演算裝置（1〇06)讀取。文書格式之定義等，儲存於外部儲存裝置（ι〇〇4) ’文書構造解析時，會參照儲存於此之定義。這些處理可經由操作終端裝置（ 1002)由人執行操作，處理結果等則可利用顯示終端裝置（1〇〇 3)來顯示，資料則會儲存於外部儲存裝置、或透過通信裝置（ 1007)傳送至外部裝置。〇CR之讀取結果’ 亦會如傳統裝置所示，將其視爲正文檔案執行輸出’亦可將其視爲OCR讀取假設檔案執行輸出。OCR讀取假設檔案會被儲存於外部儲存裝置、或經由通信裝置傳送至外部之裝置。此時，OCR讀取假設檔案含有對應〇CR讀取之文書（或影像）的文書ID碼。利用此文書ID碼’可執订紙文書或文書影像、及OCR讀取假設檔案之對應。利用其和OCR讀取假設檔案之對應，可實現下述文書檢索機能，例如，提供將檢索到之單語顯示於原來之文書影像上之人類較易理解的GUI機能、以及選取含有目的單語之文書影像等。第7 圖即是單語檢索之GUI的一構成實例’然而，此時採同時顯示文書影像（705)及檢索到之單語（706)之方式。此顯示機能可利用在〇CR讀取假設檔案上檢索到之單語的位置資訊、以及對應OCR讀取假設檔案之ID的影像檔案來實現。第10圖下段之檢索裝置，會利用前述OCR機能裝置輸出之OCR讀取假設檔案來執行檢索’具有針對一旦產生 OCR讀取假設檔案之文書重複執行（只要存在假設檔案）無限次數之檢索的機能。此檢索裝置會從通信裝置（1 0 1 5)讀取OCR讀取假設檔案並將其下載至記憶體（1013)，再利用 -18- (14) 1285849 中央演算裝置（1 Ο 1 4)執行檢索處理。欲檢索之單語及文書檢索規則可儲存於外部儲存裝置、或利用操作終端裝置 (1 〇 11)輸入。單語之檢索結果則會透過顯示終端裝置 (1011)顯示，又，會透過通信裝置將資料傳送給外部機器、或將檢索結果儲存於外部儲存裝置。這些裝置會利用內部匯流排（ 1 008、1 009、101 6)進行連結。針對第11圖進行說明。第11圖爲將文書檢索系統應用於實際業務上之自動學習機構的模式圖。首先，對文書檢索系統輸入大量紙文書·文書影群（11 〇 1)，作成對應各文書之OCR讀取假設檔案（1102)。其次，利用OCR讀取假設檔案執行單語檢索（1103)。此時，檢索對象之單語儲存於資料庫（111 〇)，各單語會附有代表該單語之重要度、及檢索時之槪度臨界値的可學習參數（1111)。其次，對檢索到之單語（1 104)應用文書檢索規則（1105)。此時，文書檢索規則儲存於資料庫（1 1 1 2)，各規則會附有代表該規則之重要度、及應用時之槪度臨界値的可學習參數（1113)。其次 ’依據對象文書群中之檢索槪度等決定檢索之受理·廢棄 ’確疋檢索文書群（或未付合補集合之檢索條件的文書群=：非檢索文書群），結果則會通過顯示器等之顯示裝置對使用者進行顯示（11 06)。使用者將顯示之結果當做判斷材料 ’直接利用檢索結果當中之必要文書（1 1 07)，並將檢索結果中之垃圾（無意義之檢索結果）' 或未出現於檢索結果之文書相關資料回饋至系統（1 1 0 8)。學習機構（1 1 〇 9)會針對文書檢索結果，以降低被判斷爲檢索垃圾者之檢索槪度的 -19- (15) 1285849 方式來調整其參數（1111、1113)，而以提高未出現於檢索候補之文書的檢索槪度之方式來調整其參數。針對學習進行更詳細之說明。本發明之方法可針對檢出之單語，從識別槪度及文字配置之槪度來計算檢出單語之槪度。使用此檢出單語槪度，即使其和檢索規則相關，亦能計算其槪度（符合度）。例如，將文書檢索規則訂爲檢索對象之單語及if-then規則。此時，if-then規則之真假値會將檢出之單語的槪度當做乏晰邏輯値來表示。一般而言，if-then規則則以分解成下述邏輯演算。

邏輯積ΑΓΊΒ、邏輯和AUB、非〜A 若檢出之單語可分別套用於A及B，則單語之識別槪度視爲乏晰邏輯値，而相對於前述各要素之乏晰演算元則可代換成槪度（ΑΓΊ B) = MIN(槪度（A)、槪度（B)) 槪度（A U B) = MAX(槪度（A)、槪度（B)) 槪度（〜A) = l-槪度（A)。此處之槪度U)爲計算相對於單語X或邏輯式X之槪度的函數。利用此方式，因爲亦可對文書檢索規則反映其文字識別之槪度，例如，對於重要之規則，即使特定單語之識別槪度稍低，亦會加以重視而應用規則進行文書檢索，並對文書檢索進行加權。又，發生單語檢索之失誤（因精度較低而廢棄單語時）、或符合規則之失誤（因精度較低而廢棄規則時），因而無法析出原本必須檢出之資訊時，調整單語檢索時之臨界値及符合規則時之槪度參數，同時，，20 - (16) 1285849 以提高槪度（檢出槪度、規則符合槪度）之方式實施參數微調，故可使其學習而成爲更適用實際運用之檢索系統。一般之文書檢索中，檢索之性能會以再現率及符合率之2項尺度來測量。再現率是利用該檢索引擎搜尋到幾成之本來想要檢索的文書之量測尺度。又，符合率爲利用該檢索引擎檢出之文章當中有幾成爲本來想要搜尋之文書的測量尺度。前述學習處理的目的，在利用使用者之回饋來提高再現率及符合率。爲了提高符合率，會使用使用者回饋之「使用者選取何文書」資訊，針對使用者選取之文書群提高檢出槪度之方式來調整參數。又，爲了提高再現率，從第11圖之1106的非檢索文書群中以隨機抽樣等找出^ 漏掉檢索之文書群」，並以提高其檢出槪度之方式來調整參數。具體之學習演算法爲最陡坡降法等。假設有檢索之單語表{Wl、W2、…、Wn}。又，假設已對前述單語訂定檢索時之槪度臨界値{ΤΙ、T2、...、Τη}。亦即，已對檢索系統輸入單語及其檢索槪度臨界値之配對HW1、Τ1)、（W2、 Τ2)、...、（Wn、Τη)}。假設，使用OCR讀取假設檔案執行檢索的結果，以識別槪度Lk搜尋到某單語Wk(當然，此槪度之計算上，不只單純考慮文字識別之槪度而已，而是最好也將文字圖案之配置資訊等考慮在內）。此時，單語之槪度可以槪度臨界値Tk及識別槪度Lk之函數來表示。假設，單語之檢出槪度Fk = F(Tk、Lk)。可以離散函數來表示，例如，若識別槪度Lk低於槪度臨界値Tk時，單語之檢出槪 -21 - (17) 1285849 度爲Ο，而若識別槪度Lk高於槪度臨界値Tk時，單語之檢出槪度爲1，此外，亦可考慮識別槪度及槪度臨界値之差 Lk-Tk的S形函數或類似之連續函數。如前面所述，亦可對規則實施以原本之邏輯演算元之槪度函數定義爲基礎之邏輯式槪度的計算。亦即，含有單語Wk之規則槪度，因爲是針對單語Wk之槪度的函數，故以R(Fk)表示。又，若將其視爲參數Tk之函數，則因爲Fk 爲參數Tk之函數，故可以表示成R(Fk) = R’（Tk)。學習爲指示必須強化何種規則應用、必須忽視何種規則應用之指導式學習。例如，有必須強化之規則時，只要以增大該規則之槪度R = R(Fk)方式來調整單語Wk相關之參數即可。例如，若將前述槪度臨界値Tk當做想要學習之參數，對本來之參數Tk，提供和參數Tk相關之偏導函數 5旧5了1^成比例且爲被視爲參數了]^之函數的規則槪度11’（丁]〇之擾動，即可增大規則槪度R’（Tk)之値。當然，這是規則槪度R’相對於參數Tk爲較平滑時的學習方法。然而，在此說明之最陡坡降法以外，尙有可使用離散函數之參數學習法，如GA(遺傳式演算）、SA(退火法）、單工法。這些學習方法之機構，是以針對對象資料群整體使代表對象資料之判別是否良好的某種評估尺度之最佳化方式，來調整判別演算相關之參數群。本發明之從檢出單語之槪度計算規則之槪度的機構，可以利用規則槪度明確表示之函數來表現前述評估尺度的定義，而且，因爲可以參數來調整檢出單語之精度等，故不論爲連續或離散， -22- (18) 1285849

» I 皆可進行學習。針對OCR讀取假設檔案之構造進行詳細說明。〇CR讀取假設檔案具有最小限之完全對應本來之紙文書或文書影像的文書ID碼、複數行假設資訊、各文字行候補之複數文字切割假設、及文字識別假設。行假設資訊、文字切割假設、及文字識別假設如下所示。首先，說明以具有文字行之多重假設爲目的之必要資訊。文字行多重假設由複數之第1 2圖所示之單一文字行假設資訊集合而成。構成文字行假設之資訊可以分成數個層級來考慮。此圖中將其分成3階段。層級1爲以具有多重行假設爲目的之必要最低限資訊。由表示文字行之行ID、包含該文字行內之文字切割及文字識別假設、及該文字行之座標資訊所構成。亦可以代表行假設整體之區隔記號來取代行ID。利用此行ID識別文字行單位之資訊整體，依據文字切割及文字識別假設從該文字行檢出單語，可防止使用行座標資訊時之過剩檢索問題（以複數之行假設檢出相同鍵檢索的問題）。層級2是跨越文字行間執行單語檢索時之必要資訊，爲表示文字行間之連結構造的資訊。如處方或單據文書，絕大部份之文章爲條列而匯整成一行單位的情形下，並不需要此資訊，然而，針對如學術文書及一般文書之整體較長之文書進行檢索時，就需要此資訊。本質上，層級3雖然不是以具有多重行假設爲目的的資訊，但在以影像資訊爲基礎來執行文字再切割及文字再識別時，則爲有用的資訊。 -23- (19) 1285849

' I 其次，針對以具有各文字行假設之文字切割及文字識別的多重假設爲目的之必要資訊進行說明。各行之文字切割及文字識別的多重假設，由複數之第1 3圖所示之單一文字圖案的假設資訊所構成。構成文字切割假設之資訊可和前述相同，可分成數個層級來考慮。層級1爲以具有多重切割假設及多重識別假設爲目的之必要最低限資訊。亦即，文字切割及文字識別之多重假設以代表文字圖案間之連接關係的境界ID編號cn、nn來表示，而文字識別之多重假設則由複數之識別碼dt所構成。文字圖案間之連接關係可以如第6圖所示之網狀結構來掌握。文字圖案之切割位置以網狀結構上之節點（第6a圖之白圓點）來表示，前述境界 ID編號cn、nn爲對應該節點之編號。層級2是針對單語之檢索結果計算槪度時使用之資訊。例如，依據文字圖案之配置及文字識別之類似度dk實施單語之槪度的加權時，需要此資訊。在檢索後之處理上，若需要實施更詳細之文字圖案解析，則需要層級3之資訊。 OCR讀取假設檔案含有前面所述之資訊。OCR裝置會對應必要層級將前述資訊輸出至OCR讀取假設檔案，檢索裝置會從OCR讀取假設檔案復原候補文字網狀結構後再執行單語檢索。將釋於至OCR讀取假設檔案之資訊分成數層級’可對應系統調整檔案之容量及單語檢索之精度。OCR 讀取假設檔案之形態可以爲二進制檔案或正文檔案。此處 ’針對以XML標記利用正文記載OCR讀取假設檔案時的一實施例進行說明。 -24- (20) * 1285849 說明OCR讀取假設檔案之XML標記例之前，先針對目 · 前JEITA針對文字識別多重假設提唱之XML規格進行說明。此規格提唱使用多重文字碼用之標籤<mc>及標籤內屬性v之XML構造。標籤me表示複數之文字識別碼，標籤內屬性v則表示識別類似度。可省略標籤內屬性v。XML標記例如下所示（第1 4圖爲文字圖案例）。例1) 有「文字」之文字行，各文字圖案被識別成如下所示時， φ 對「文」之識別結果爲「文交大」、類似度〇·80、0.71、 0.60 對「字」之識別結果爲「字宇学」、類似度〇·89、0·00、 0.00 標記例1: 文 <mc> 交大 </mc〉宇学 </mc〉標記例2: 文 <mcv = n 0.800.710.60’·> 交大 </mc> _ 字 <mc ν = ·’0·89 0.00 0·00〉宇学〈/me〉本發明中，爲依前述規格之架構記載0 C R讀取假設檔 - 案之標記例。首先’以文字切割之多重假設化爲目的’追 . 加標籤內屬性cn、nn ’表不文字圖案之連接關係。此處之 cn、nn爲代表第13圖所不文子圖案之境界的境界ID編藏。 XML標記例如下所示（第15圖爲文字圖案例）。例2) 有「文字」之文字行’各文字圖案被識別成如下所示時’ -25- (21) 1285849 對「文」之識別結果爲「文交大」、類似度0.80、0.71、 0.60 對「字」之識別結果爲「字宇学」、類似度0.89、0.00、 0.00 有跨越「文字」之圖案，識別結果爲「対効」、類似度 0.60 ' 0.57 標記例1: 文 <mc c n= 1 nn = 2> 交大 </mc> 字 <mc c π — 2 nn = 3 > 宇学 </mc> 対 < m c cn= 1 nn = 3 > 効 </mc> 標記例2: 文 <mc c n= 1 nn = 2 v ="0·80 0.71 0·60"> 交大 </mc> 字 <mc c n = 2 nn = 3 v ="0·89 0.00 0·00"> 宇学 </mc> 対 < me c n= 1 nn = 3 v ="0·60 0.57 ">効 </mc > 其次，以文字切割之多重假設化爲目的，追加行資訊標籤<ml>，表示文字行假設。標籤間之階層關係，me標籤可包含於ml標籤。亦即，規定爲<ml>標籤至</1111>標籤之間可夾有複數之從<mc>標籤至</mc>標籤所涵蓋的範圍。XML標記例如下所示（第16圖爲文字圖案例之圖示）。例3) 行切割假設1將「文字」視爲文字行析出，含有下述文字圖案。對「文」之識別結果爲「文交大」、類似度〇 · 8 0、0 · 7 1、 0.60 - 26- (22) 1285849 對「字」之識別結果爲「字宇学」、類似度0.89、〇·〇〇、 0.00 有跨越「文字」之圖案，識別結果爲「対効」、類似度 0.60 、 0.57 而且，行切割假設2將「多重」視爲文字行析出，含有下述文字圖案。對「多」之文字碼「多名」的類似度爲0.8 0、0.7 1時、對「重」之文字碼「重乘」的類似度爲0 · 8 9、0 · 7 0時、標記例1: <ml>文 <me cn= 1 nn = 2> 交大 </mc> 字 <mc cn = 2 nn = 3> 宇学 </mc> 対 <mc cn= 1 nn = 3> 効 </mc> </ml> <ml>多 <me cn= 1 nn = 2> 多名 </mc> 重 <mc cn = 2 nn = 3> 重乘 </mc> </ml> 如第1 2圖之說明所示，構成文字行假設之資訊可分成數個層級來考量。尤其是以具有多重行假設爲目的之必要最低限資訊爲代表文字行之行ID、包含於該文字行內之文字切割及文字識別假設、及該文字行之座標資訊。行ID可以代表行假設整體之區隔記號取代。前述標記例1中， <ml>標籤即相當於此區隔記號，表示<ml>標籤及</ml>標籤所夾之部份爲文字切割及文字識別假設。其次，將前述標記例擴充爲可以行之矩形座標來表現。行之座標資訊在防止過剩檢索問題（以複數之行假設檢出相同鍵檢索之問題）上，爲有效之資訊。爲了表現行之矩形座標，使用標 -27- (23) 1285849 籤內屬性1、ι*、t、b。1、r、t、b分別代表包含各行之外接矩形的左端X座標、右端X座標、上Y座標、及下Y座標。亦可考慮其他之座標表示法。有以行之中心座標及尺寸來表示的方法、及使用行矩形四角之點座標來表示的方法等。使用外接矩形座標時之XML標記例如下所示（第1 6圖爲文字圖案例）。例4) 標記例1: <ml 1 = 1 000 r： = 1200 t = 8 0 0 b=850> 文 < me cn= 1 nn = 2> 交大 </mc> 字 < me cn = 2 nn = 3> 宇学 </mc> 対 <mc cn= 1 nn = 3> 効 </mc> </ml> </ml> <ml 1= 1 000 r： = 1200 t = 850 b=900> 多 <mc cn = :1 nn = :2> 多名 </mc> 重 <mc cn = 2 nn = 3> 重乘 </mc> </ml> 同樣的’可將前述標記例擴充爲可記述行間之連繋方法。此時’使用標籤內屬性lc、ln來規定和文字圖案相同之行間的連繫方法。XML標記例如下所示（第16圖爲文字圖案例）。例5) 標記例1 ·· <ml lc= 1 ln = 2> (24) 1285849 文 <me cn= 1 nn = 2> 交大 </mc> 字 <me cn = 2 nn = 3 > 宇学 </mc> 対 <me cn=1 nn = 3 > 効 </mc> </ml> 1 lc = ：2 ln = 3> 多 <mc cn= 1 nn = 2> 多名 </mc> 重 <mc cn = 2 nn = 3> 重乘 </mc> </ml> 傳統之方法時，對紙文書群之文書檢索爲針對OCR讀取結果之正文進行檢索，對於因文字變形或顏色變淡等導致OCR之文字識別錯誤、因文字境界模糊而導致OCR之文字切割錯誤、或文書-圖形-格線混合存在而導致OCR之文字行析出錯誤，很難有效處理。而利用本發明時，因利用具有文字識別、文字切割、及文字行析出方法之OCR讀取假設檔案來進行單語檢索及文書檢索，故可迴避前述問題〇又，利用本發明的話，對於傳統方法無法調整之文書檢索性能、及單語檢索性能的折衷關係（只以文字識別上信賴度較高之關鍵字來進行文書檢索時，無法檢索到必要文書，而同時使用信賴度較底之關鍵字來進行文書檢索時，則會在文書檢索時出現無用之檢索結果），亦可因爲採用包含於OCR讀取假設檔案內之文字識別順位·類似度· 圖案配置槪度等之資訊，而可依據針對各單語檢索結果之槪度、及單語檢索槪度來計算文書檢索槪度，並利用檢索結果是否良好之使用者回饋，以提高檢索結果之精度爲目 -29- (25) · 1285849 的，實施自動參數學習，而可自動構築符合使用者檢索意 · 願之文書檢索系統。 [圖式簡單說明] 第1圖爲使用OCR讀取假設檔案之檢索及傳統方法之 ~ 比較槪念圖。第2圖爲至輸出OCR讀取假設檔案爲止之流程圖。第3圖爲使用OCR讀取假設檔案之檢索處理的流程圖 φ 〇第4圖爲檢索到之單語路徑的檢出流程圖。第5圖爲針對候補文字網狀結構執行單語析出處理之槪念圖。第6圖爲候補文字網狀結構之槪念圖。第7圖爲文書檢索系統之一畫面構成例。第8圖爲表示OCR讀取假設檔案之效果的圖1。第9圖爲表示OCR讀取假設檔案之效果的圖2。鲁第10圖爲文書檢索系統之一構成例。第11圖爲文書檢索之學習流程的槪念圖。 - 第12圖爲OCR讀取假設檔案之資料構造圖1。，第13圖爲OCR讀取假設檔案之資料構造圖2。第14圖爲以OCR讀取假設檔案表現之文字列圖案的槪念圖1。第15圖爲以OCR讀取假設檔案表現之文字列圖案的槪念圖2。 -30- (26) 1285849 • . 第1 6圖爲以〇C R讀取假設檔案表現之文字列圖案的槪念圖3。 [元件符號之說明] 101 輸入至傳統文書檢索系統的紙文書 10 2 傳統文書檢索系統之0 C R部 10 3 傳統文書檢索系統之〇C R輸出形態 104 傳統文書檢索系統之單語檢索部 10 5 傳統文書檢索系統之文書檢索部 10 6 傳統文書檢索系統之文書檢索結果 107 輸入至本發明文書檢索系統的紙文書 108 本發明文書檢索系統之OCR部 109 本發明文書檢索系統之OCR輸出形態 110 本發明文書檢索系統之單語檢索部 111 本發明文書檢索系統之文書檢索部 112 本發明文書檢索系統之文書檢索結果 113 單語檢索所使用之單語資料庫部 114 文書檢索所使用文書檢索規則之單語資料庫部 201 OCR裝置之影像輸入部 202 OCR裝置之文書構造解析部 203 OCR裝置之文字行析出部 204 OCR裝置之文字圖案產生部 205 OCR裝置之文字識別部 206 OCR裝置之OCR讀取假設檔案輸出部 (27) OCR裝置之輸入文書影像時的流程文書檢索裝置之OCR讀取假設檔案輸入部文書檢索裝置之單語檢索部文書檢索裝置之檢索單語檢定部文書檢索裝置之檢索規則應用部文書檢索裝置之檢索文書檢定部文書檢索裝置之路徑識別槪度計算部文書檢索裝置之文字配置槪度計算部文書檢索裝置之路徑配置槪度計算部候補文字網狀結構上之文字圖案候補文字網狀結構上之圖案境界候補文字網狀結構上之文字識別結果候補文字網狀結構上之文字識別類似度從候補文字網狀結構上檢索到之單語文書檢索系統畫面之關鍵字輸入欄文書檢索系統畫面之檢索規則指定欄文書檢索系統畫面之檢索文書顯示欄文書檢索系統畫面之檢索文書的詳細資訊顯示欄文書檢索系統畫面之檢索影像顯示欄文書檢索系統畫面之單語檢索結果 OCR裝置之影像輸入裝置 OCR裝置之操作終端裝置 OCR裝置之顯示終端裝置 OCR裝置之外部儲存裝置 -32- (28) OCR裝置之記憶體 OCR裝置之CPU OCR裝置之通信裝置 OCR裝置之通信匯流排網狀結構部檢索裝置部之操作終端裝置檢索裝置部之顯示終端裝置檢索裝置部之外部儲存裝置檢索裝置部之記憶體

檢索裝置部之CPU 檢索裝置部之通信裝置檢索裝置部之通信匯流排輸入至文書檢索系統的紙文書文書檢索系統作成之OCR讀取假設檔案文書檢索系統之單語檢索部文書檢索系統所得之單語檢索結果文書檢索系統之文書檢索規則適用部文書檢索系統所得到之檢索文書·非檢索文書檢索文書之利用指定檢索文書之良否的指導信號文書檢索系統之學習部文書檢索系統之檢索對象單語文書檢索系統之檢索對象單語參數文書檢索系統之文書檢索規則 -33- (29)1285849 1113 文書檢索系統之文書檢索規則參數

-34-

Claims

1285849 拾、申請專利範困第92 1 00430號專利申請案中文申請專利範圍修正本民國96年2月7日修正 1、一種OCR裝置，具有可接收記載文字之影像輸入的影像輸入裝置、中央演算裝置、及外部儲存裝置，其特徵爲：前述中央演算裝置可從前述輸入之影像析出文字行候補及文字切割候補，並對前述文字切割候補執行文字識別，將該文字識別結果、該文字行候補、及該文字切割候補合倂爲讀取假設檔案且儲存於前述外部儲存手段。 2、如申請專利範圍第1項之OCR裝置，其中前述中央演算裝置會更進一步分析前述文字切割候補間之關係、及前述文字識別結果之類似度，且會再將析出之前述文字切割候補間的關係、及前述文字識別結果的類似度倂入前述讀取假設檔案並儲存於儲存手段。 3、如申請專利範圍第1或2項之OCR裝置，其中前述中央演算裝置會更進一步分析前述文字切割候補之上下左右座標値之其中之一，且會再將析出之前述文字切割候補的座標値倂入前述讀取假設檔案並儲存於儲存手段。 4、如申請專利範圍第1至3項之其中任一項之OCR裝 1285849 置，其中前述中央演算裝置會更進一步分析前述文字切割候補之外接矩形的上下左右之頂點座標値的其中之一，且會再將析出之前述頂點座標値倂入前述讀取假設檔案並儲存於儲存手段。 5、一種文書檢索系統，由具有操作終端裝置、外部儲存裝置、中央演算裝置、顯示終端裝置、及通信裝置之各裝置的檢索裝置；以及具有通信裝置，且連結至該檢索裝置之申請專利範圍第1至4項之OCR裝置所構成，其特徵爲：前述OCR裝置之中央演算裝置，會從前述OCR裝置_ 之則述通丨目裝置傳送即述讀取假設檔案，前述檢索裝置之中央演算裝置，會以前述檢索裝置側之通信裝置接收從前述OCR裝置傳送過來之前述讀取假設檔案，利用接收之前述讀取假設檔案中的前述各資訊，從記載於前述影像上之前述文字檢索和輸入至前述操作終端裝置的鍵檢索一致之前述文字列，且將前述檢索結果輸出至前述外部儲存裝置或前述_ 示終端裝置。 6、如申請專利範圍第5項之文書檢索系統，其中前述檢索裝置之中央演算裝置會進一步設定前述鍵檢索之加權，且對應前述加權變更輸入之前述鍵檢索。 -2- 1285849 7、如申請專利範圍第6項之文書檢索系統，其中以利用前述鍵檢索之檢索記錄上的過去再現率及符合率來設定前述鍵檢索之加權。 8、如申請專利範圍第5至7項之其中任一項之文書檢索系統，其中前述OCR裝置之影像輸入裝置會進一步接收複數之影像輸入，

前述OCR裝置之中央演算裝置中，會針對前述輸入之複數各影像，進一步合倂和前述影像完全對應之文書ID，將其視爲讀取假設檔案儲存至前述儲存手段，且前述檢索裝置之中央演算裝置中，會以前述文書ID 進一步鑑別記載著前述檢索中和前述鍵檢索一致之文字列的前述影像，並輸出至前述顯示終端裝置。 9、一種文書檢索方法，其特徵爲：具有：

接收記載著文字之影像的輸入之步驟；從前述影像析出文字行候補之步驟；從前述影像析出文字切割候補之步驟；執行前述文字切割候補之文字識別之步驟；將含有前述文字識別結果、前述文字行候補、及前述文字切割候補之檔案視爲讀取假設檔案並儲存於前述儲存手段之步驟；從前述操作終端裝置接收鍵檢索之輸入之步驟；從前述儲存手段讀取前述讀取假設檔案之步驟； -3 - 1285849 利用前述讀取假設檔案中之前述文字切割候補及前述行析出候補，從記載於前述影像之文字檢索和前述鍵檢索一致之步驟；以及將前述檢索結果輸出至前述儲存手段或前述顯示終端裝置之步驟。

1 0、如申請專利範圍第9項之文書檢索方法，其中在接收前述影像之輸入之步驟中，可接收複數之前述影像的輸入，在儲存前述讀取假設檔案之步驟中，會針對前述輸入之複數各影像，合倂和前述影像完全對應之文書ID，並將其視爲讀取假設檔案儲存至前述儲存手段，且具有以前述文書ID進一步鑑別記載著前述檢索中和前述鍵檢索一致之文字列的前述影像並輸出至前述顯示終端裝置之步驟。

1 1、一種記錄文書檢索程式之電腦可讀取記錄媒體，是記錄有以具有操作終端裝置、儲存裝置、及顯示終端裝置之電腦來執行之文書檢索程式的記錄媒體，其特徵爲：上述文書檢索程式是執行：接收記載著文字之影像的輸入之步驟；從前述影像析出文字行候補之步驟；從前述影像析出文字切割候補之步驟；執行前述文字切割候補之文字識別之步驟；將含有前述文字識別結果、前述文字行候補、及前述文字切割候補之檔案視爲讀取假設檔案並儲存於前述儲存 -4- 1285849 手段之步驟；從前述操作終端裝置接收鍵檢索之輸入之步驟；從前述儲存手段讀取前述讀取假設檔案之步驟；利用前述讀取假設檔案中之前述文字切割候補及前述行析出候補，從記載於前述影像之文字檢索和前述鍵檢索一致之步驟；以及

將前述檢索結果輸出至前述儲存手段或前述顯示終端裝置之步驟。 1 2、如申請專利範圍第1 1項之記錄有文書檢索程式之電腦可讀取記錄媒體，其中在接收前述影像之輸入之步驟中，可接收複數之前述影像的輸入，在儲存前述讀取假設檔案之步驟中，會針對前述輸入之複數各影像’合倂和前述影像完全對應之文書ID，並將其視爲讀取假設檔案儲存至前述儲存手段，

且具有以前述文書ID進〜步鑑別記載著前述檢索中和前述鍵檢索一致之文字列的前述影像並輸出至前述顯示終端裝置之步驟。