TWI285849B - Optical character recognition device, document searching system, and document searching program - Google Patents
Optical character recognition device, document searching system, and document searching program Download PDFInfo
- Publication number
- TWI285849B TWI285849B TW92100430A TW92100430A TWI285849B TW I285849 B TWI285849 B TW I285849B TW 92100430 A TW92100430 A TW 92100430A TW 92100430 A TW92100430 A TW 92100430A TW I285849 B TWI285849 B TW I285849B
- Authority
- TW
- Taiwan
- Prior art keywords
- search
- document
- character
- ocr
- text
- Prior art date
Links
- 238000012015 optical character recognition Methods 0.000 title abstract 6
- 238000000034 method Methods 0.000 claims abstract description 64
- 238000001556 precipitation Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 description 30
- 230000006870 function Effects 0.000 description 18
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 238000001514 detection method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 239000008280 blood Substances 0.000 description 4
- 210000004369 blood Anatomy 0.000 description 4
- 230000002411 adverse Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 206010025482 malaise Diseases 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
Description
1285849 (1) 玖、發明說明 [發明所屬之技術領域] 本發明是關於應用文字辨識技術從紙文書群或文書影 像群中檢索含有特定鍵檢索之文書群並取得必要之資訊的 文書檢索·處理方法、其裝置、及文書檢索處理程式。 [先前技術] 雖然現在之數位資訊技術已因爲電腦而普及,紙文書 仍然是被廣泛採用的資訊傳送媒體。然而,對於想要從大 量的文書中以某關鍵字來檢索必要資訊、或想要對含有特 定關鍵字群之文書進行檢索並自動分類等之要求,很明顯 的,和數位資料相比,紙文書有難以對應的問題。爲了解 決此問題,出現以紙文書檢索及自動處理爲目的之各種方 法。 從紙文書或文書影像等檢索必要之關鍵字的手段,有 每次需要檢索時以OCR(光學讀取裝置)辨識紙文書再進行 檢索之線上處理、以及一開始即以OCR讀取並將讀取結果 永遠保留然後進行檢索之非線上處理。例如,郵件區分機 等裝置即屬於線上處理。此種線上處理時,因指定想要檢 索之關鍵字,可利用關鍵字含有之文字特性(全形、半形 、漢字、英數字等)來變更文字切割的參數,或者,可執 行限定文字辨識時之字種的處理等來提高檢索精度。相對 的,因爲每次檢索都必須執行影像解析及文字辨識,故在 重複檢索之運用形態時,以計算時間之觀點而言,並不切 -6- (2) 1285849 實際。本發明所提供之方法則以非線上處理爲基礎。 紙文書之非線上的關鍵字檢索之最基本方法,就是利 用OCR將紙文書轉換成正文檔案,再對正文檔案進行檢索 。然而,因爲一般以OCR轉換之正文碼會含有錯誤,而產 生有時無法以單純正文檢索來處理的情形。當然,可以利 用人工在OCR轉換後再修正正文碼,然後再對修正結果進 檢索。然而,從處理速度及成本方面而言,利用人工修正 實在很不切實際。 提高OCR之讀取精度的手段,以對OCR之辨識結果執 行形態分析之方法爲大家熟知(參照專利文獻1。)。的確 ’形態分析等之知識處理可以訂正誤讀,然而,卻無法實 現1 00%之訂正。此外,一般之形態分析所使用之辭典以 新聞等一般文章爲對象,爲了要以良好精度來校正特殊業 務用途之文書,則必須追加定義適合該分野之特殊辭典。 因此’維修性及計算量方面都仍存在問題。 爲了避免文字誤讀對檢索產生不良影響,有人提出利 用OCR容易誤讀之類似文字的資訊來執行單語檢索的方法 (參照專利文獻2。)。又,也有人提出容許〇CR之讀取結果 具有複數之文字辨識候補,然後從其中選擇文字碼來檢出 單語之方法(參照專利文獻3)。的確,使用這些技術可避 免1文字單位之誤讀對單語檢索產生不良影響。 然而,利用前述方法時,會因爲文字分離或文字互相 接觸等而無法明確界定文字圖案之境界,故文字圖案之誤 切割時就無法對應。例如,OCR將「八少」之文字讀成「 (3) 1285849 八少」時,前述專利方法可對應,然而,讀成「V、/ 1/」 時則無法對應。又,對於含有圖或表之文書、或單據形式 等含有許多格線之文書等,往往很難在讀取文字以前實施 文字行之檢出·鑑別。然而’前述方法無法處理此問題。 [專利文獻1] 日本特開平05- 1 08 89 1號公報 [專利文獻2] 日本特開平1 0-74250號公報 [專利文獻3] 日本特開平9- 1 34369號公報 [發明內容] 本發明之目的’在提供以文字辨識結果爲基礎從紙文 書群檢索必要關鍵字之單語檢索方法、利用其結果執行文 書檢索·文書分類等之處理的文書檢索處理系統及其裝置 、以及記錄檢索處理程式之記錄媒體。 傳統方法之對紙文書群的文書檢索,是對OCR讀取結 果之正文進行檢索,然而,很難處理文字變形或變淡等造 成OCR之文字識別錯誤、文字圖案境界之模糊導致〇CR之 文字切割錯誤、或文書-圖面-格線之混合存在造成OCR之 文字行析出錯誤等問題。本發明之第1目的,就是提供可 避免因〇CR讀取導致文字識別、文字切割、文字行析出等 之錯誤而對單語檢索產生不良影響的方法。 又,使用關鍵字群之文書檢索·文書分類處理時,一 -8 - (4) 1285849 般會使用特定關鍵字及其集合規則(AND或OR:和或或)來 執行處理。例如,檢索同時(AND)具有「OCR」及「檢索 」之單語的文書之實例。對傳統正文文書執行檢索時,因 會以1或0之2數値來規定有無關鍵字,只要單純處理即可 適用集合規則,然而,本方法因和文字辨識相關,故關鍵 字之有無會以0至1之連續値的槪度來表示。因此,若對於 槪度較低之關鍵字一律採用交集規則來執行文書檢索,則 有無法進行充份檢索之問題,而若一律忽略槪度較低之關 鍵字來執行文書檢索,則有無法檢索到必要文書之問題。 本發明之第2目的,是提供利用文字識別之槪度來導出單 語檢索之槪度及交集規則之槪度,且利用自動學習來管理 文書檢索之精度的方法。 爲了達成前述第1目的,本發明將OCR及檢索裝置分 離,OCR之輸出形態採用可永久保存文字行析出、文字切 割、及速字識別之多重假設的檔案(OCR讀取假設檔案), 以此OCR讀取假設檔案爲基礎來構成檢索關鍵字之機能, 進而提供可執行必要文書之檢索及文書之分類的系統。 爲了達成前述第2目的,提供一種機構,使OCR讀取 假設檔案含有文字識別之類似度、文字圖案之位置資訊等 ,並將其當做計算檢索到之關鍵字的槪度、及關鍵字規則 集合時之槪度的資訊,並依據這些槪度來決定文書檢索結 果之受理·廢棄。 [實施方式] -9- (5) 1285849 以第1圖爲例來槪說傳統方法及本發明方法之不同。 第1圖爲傳統單語檢索方法及文書檢索方法、以及本發明 方法之差異的模式圖。 首先,傳統方法之流程中,有以1 0 1表示之紙文書群 ,而利用以102表示之OCR來執行讀取。將讀取結果當做 以103表示之正文檔案輸出。其次,將正文檔案輸入以1〇4 表示之裝置,執行單語檢索。此流程中,檢索對象之單語 是參照單語D B (11 3)。然而,本來爲「血液化學檢查」之 文字,OCR之讀取結果卻將其讀成「皿液4匕學檢查」時 ,以正文檔案爲基礎無法檢索到「血液化學檢查」之單語 ,此時,一般會視爲檢索失敗。因此,即使利用以105表 示之裝置對檢索之單語採用文書檢索規則(114)執行處理 ,亦因爲必須適用規則之單語不存在,而檢索失敗。因而 無法對文書執行檢索·篩選。相對於此,本發明之處理流 程中,首先,有以107表示之紙文書群,利用以108所示之 OCR讀取。將讀取結果當做以109所示之OCR讀取假設檔案 輸出。其次,將OCR讀取假設檔案輸入至以110所示之裝 置,執行單語檢索。必須檢索之單語定義於以1 1 3表示之 單語DB。因OCR讀取假設檔案含有各種文字行析出候補、 文字分割候補、及文字識別候補,除了「皿液< t:學檢查 」之結果以外’尙可獲得正確識別結果…「血」、「化」 的結果,使單語檢索更爲容易。其次,利用以111表示之 裝置,依據記述檢出之單語及單語間的關係之文書檢索規 則進行文書之檢索·篩選。文書檢索規則記載於以114袠 -10- (6) 1285849 示之規則DB。文書檢索規則之實例如「「OCR」及「檢索 」之單語共同存在之文書」,爲以〇R或AND連結複數單語 之構造等。使用OCR讀取假設檔案可提高單語檢索之精度 ,結果則是可適用文書檢索規則並可執行以1 12表示之文 書檢索·篩選。 OCR讀取假設檔案含有可完全鑑別相對應之紙文書或 文書影像的文書ID碼,且可永久儲存於磁性儲存裝置。使 用OCR讀取假設檔案之檢索系統,在出現文書檢索要求時 ,會從預先儲存之OCR讀取假設檔案檢索必要之關鍵字, 對照文書檢索規則,儲存適合之文書的文書ID碼。檢索結 果會同時顯示利用文書ID碼鑑別之紙文書或文書影像等。 利用此方式,即使OCR裝置及檢索裝置爲分離形態,亦可 構成統一處理文書影像及讀取資料之文書處理系統。 針對第2圖進行說明。本發明實施例之單據辨識裝置 時,首先,OCR裝置會實施紙文書攝影,並將其轉換成電 子影像資料(201)。若文書本來就是電子影像資料時,可 省略本處理。其次,以電子影像資料爲基礎,執行格線析 出、框構造解析、讀取對象框之位置推算等文書構造解析 (202)。此時,使用之辨識處理爲公知技術(日本特開平09-3 1 9824、日本特開2000-25 101 2等)。其次,接收文書構造 解析之結果,析出讀取對象之文字行候補(203)。其次’ 再從文字行影切割文字圖案候補(204),再識別各文字圖 案候補(205)。從對象文書析出複數之文字行候補、文字 圖案候補、及文字識別候補,構成多重假設。最後,將文 -11 - (7) 1285849 字行候補、文字切割圖案候補、及其識別結果輸出至檔案 (20 6)。此輸出之檔案稱爲OCR讀取假設檔案。後面會對 OCR讀取假設檔案進行詳細說明。前述處理201至206是利 用光學讀取裝置等專用裝置將紙文書轉換成OCR讀取假設 檔案的過程。相對於此,若爲電子影像資料時,則以影像 讀取(207)來取代處理201,將其轉換成OCR讀取假設檔案 。此時,若有轉換程式及以驅動程式爲目的之汎用演算裝 置,則可執行處埋。 前面所述之各資訊,儲存於第10圖所示之OCR裝置的 下述位置。由紙文書轉換而成之影像資料、或預先準備之 處理對象的影像資料,會儲存於外部儲存裝置1 004或記憶 體1 005。OCR程式儲存於外部儲存裝置1004或記憶體1005 ,利用中央演算裝置1 006來執行處理。解析影像資料結果 所所得之框資訊、行資訊、候補網狀結構、候補文字網狀 結構則以記憶體1 005爲主實施展開。本處理之輸出的OCR 讀取假設檔案,會透過外部儲存裝置1004、記憶體1005、 或通信裝置1007儲存於外部裝置。 針對第3圖進行說明。第3圖爲使用OCR讀取假設檔案 之文書檢索引擎的處理流程圖。首先’讀取對應檢索對象 之紙文書群(或文書影像群)的OCR讀取假設檔案’針對各 OCR讀取假設作成候補文字網狀結構(301)。其次,將候補 文字網狀結構及檢索對象之單語群視爲輸入’執行單語檢 索(302)。因OCR讀取假設檔案含有各種文字行候補、文字 切割候補、及文字識別候補’而必須執行已檢索之單語是 -12- (8) 1285849 费 . 否正確的判定處理。其後,針對檢索之結果,依文字識別 之槪度或順位、及圖案之排列等資訊,計算已檢索之單語 的槪度,決定是否受理或廢棄單語檢索結果(303)。文字 識別之槪度或順位、及圖案之排列等相關資訊包含於OCR 讀取假設檔案內。後面會對OCR讀取假設檔案進行詳細說 明(和第1 2圖〜第1 6圖相關)。其次,再針對含有已檢索之 單語群的文書,應用文書檢索規則執行文書檢索(304)。 最後,再針對已檢索之文書,依據經過規則篩選之檢出單 語的槪度、或採用之規則的重要性,決定受理或廢棄文書 檢索結果(305)。 針對第4圖進行說明。第4圖是詳細說明前述處理303 。此處理中,針對已檢索之單語,使用文字識別之槪度、 文字圖案之配置資訊、及相對於單語之文書影像的配置資 訊等,計算檢出單語之槪度。檢出單語之槪度計算上,首 先會考量文字列路徑(已檢索之單語以文字碼列及文字圖 案列之組合來表示。將其稱爲路徑。詳細說明如第5圖所 示)上之文字圖案的識別槪度來計算單語之識別槪度(401) 。其次,計算和文字圖案之配置相關的損失(402)。例如 ,相對於統計學上之平均値,將相對於路徑整體之高度的 文字高度比、相對於路徑整體之中心線的文字中心線偏離 、平均文字寬度、及和相鄰之文字圖案的間隔等的偏離程 度視爲損失的方法。在考量已檢出之單語整體的位置下, 計算其損失(403)例如,會使用檢出單語是否位於文書影 像中之特定區域內的資訊等。然而,儲存於OCR讀取假設 -13- 1285849 Ο) 檔案之資訊會有數階段之層級(後述),可對應其層級而省 略處理402及處理403。後面會詳細說明OCR讀取假設檔案 〇 針對第5圖及第6圖進行說明。第5圖爲單語檢索之過 程的槪念圖。第6圖爲候補文字網狀結構之槪念圖及資料 之詳細圖。以第5圖爲基礎說明單語檢索之流程。對讀取 對象文字行(a)執行認爲是文字圖案的各種切割,作成候 補文字圖案,再對各候補文字圖案執行文字識別作成候補 文字網狀結構(b)。候補文字網狀結構具有最低限之文字 圖案、具有依文字識別結果所得之順位的識別碼群、及候 補文字網狀結構中之文字圖案間的相連關係資訊。OCR讀 取假設檔案含有部份此種資訊。其形態則爲二進位形態、 或使用XML等之標記的正文形態。因本發明之方法使用 OCR讀取假設檔案,候補文字網狀結構會依據從檔案讀取 之資訊來作成。其次,使用文字列表示知識(c),從候補 文字網狀結構計算文字列路徑(d)。實例中,文字列表示 知識採用以OR記號(I)來區隔單語之方式。亦即,代表夾 於記號I之間的單語群被指定爲檢索對象。文字列表示除 了此表示以外,尙可使用嘗試法、或上下文無關文法等( 如曰本特開200 1 -0 143 1 1等之記載)。第6圖爲文字候補網狀 結構之詳細說明。文字候補網狀結構之表現上,爲以架構 (601)來表現文字圖案之候補、及以節點(602)來表現文字 圖案之境界的有向圖。各文字圖案含有代表左右(直書時 爲上下)之節點(圖案境界)的境界ID編號、文字識別候補 -14 - (10) 1285849 • 翁 (603)、及識別類似度(604)之資訊。單語檢索處理則爲, 將此候補文字網狀結構及文字列表示知識視爲輸入搜尋候 補文字網狀結構含有之單語及其圖案列的處理。例如’文 字列表示知識上之「血液化學檢查」單語’在第6圖之候 補文字網狀結構中進行搜尋而找到如以605圏出之文字碼 及文字圖案。搜尋文字碼及文字圖案之演算法爲公知技術 (日本特願平丨〇_ 28 077、日本特願平1 1 - 1 87 5 3等)。確定單 語檢索之結果、文字列路徑°文字列路徑爲由文字碼歹!1 ( 亦即文字列)、及對應各文字碼之文字圖案所構成的資訊 〇 前述之各資訊,會儲存於第10圖所示之檢索裝置的下 述位置。OCR讀取假設檔案會儲存於外部儲存裝置1012或 記憶體1 0 1 3。單語檢索程式亦儲存於外部儲存裝置1 〇 1 2或 記憶體1 0 1 3,利用中央演算裝置1 〇 14來執行處理。依據讀 取假設檔案作成之候補文字網狀結構會在記憶體1013上展 開。對其執行單語檢索,並經由外部儲存裝置1012、記憶 體1 0 1 3、或通信裝置1 0 1 5,將檢索結果儲存於外部裝置。 針對第7圖進行說明。第7圖利用本發明方法之文書檢 索系統的一畫面構成例。此處,以處方文書之檢索系統爲 例。首先,在輸入欄70 1指定欲檢索之關鍵字,在輸入欄 702指定以何種規則處理檢索關鍵字。在此圖中,選取之 規則代表尋找指定之全部關鍵字的其中之一。將前述2項 目視爲輸入,對儲存著〇CR讀取假設檔案之資料庫執行處 方文書檢索。顯示欄703會顯示檢索結果所得到的處方名 -15- (11) 1285849 稱。顯示欄704會顯示檢索到之文書當中目前顯示之文書 的相關資料。顯示欄705會以視覺方式顯示檢索結果。 〇CR讀取假設檔案因爲具有和原紙文書或文書影像完全對 應之文書ID碼,故可同時顯示文書影像及檢索結果。又’ 檢索到之單語會顯示於有706之底線的位置。顯示文書檢 索結果時,可依可利用OCR讀取假設檔案計算之檢出單語 槪度及檢索文書槪度來設定優先順序° 針對第8圖進行說明。第8圖爲使用OCR讀取假設檔案 之檢索系統的文字切割及文字識別之多重假設化的效果圖 。圖(a)爲讀取對象之文書(的部份影像),以粗線框住之部 份相當於1個行假設。圖(b)中,以無特別知識之一般〇CR 讀取此部份時,原本應爲「少U V卜'錠」會被讀成k U y卜、症」。因爲,「少」爲2個文字圖案的合成’故會 被以分離方式讀取,而「V」因顏色較淡而被誤讀成識別 第1位的結果,又,「錠」因爲部份變形而被誤讀成識別 第1位的結果。相對於此,OCR讀取假設上,會具有如圖 (c)所示之候補文字網狀結構。亦即,雖然會存在將「少 」讀成「/」及「」之假設,亦會存在讀成「少」之假 設,又,「7」及「錠」等之1位文字識別結果雖然會被 誤讀成「V」、「症」,但在進一步之識別候補中則含有 正確識別結果之「V」及「錠」。對OCR之正文讀取結果 執行單語檢索時,必須從「/ 1/ u y κ症」檢索「少y V 卜''錠」之單語,此時,若以編輯距離測量2文字列之距離 ,則爲成爲1文字插入2文字不讀取,以單語而言,無法將 -16 (12) 1285849 其視爲類似。另一方面,使用OCR讀取假設檔案之檢時, 不會有文字插入及不讀取的情形,而使單語檢索更爲容易 。結果,可以檢索到如圖(d)所示之正確單語。 針對第9圖進行說明。第9圖爲使用OCR讀取假設檔案 之檢索系統的文字行之多重假設化的效果圖。圖(a)爲讀 取對象之文書(的部份影像)。圖(b)則爲從其中利用單一假 設析出文字行時的結果。此圖中,會以將圖(a)中之中間3 行視爲1行執行析出。因爲,將文字行朝橫向影射切割時 ,行爲被夾於印刷行之間,因爲有手寫行及蓋章行,故影 射時無法形成明確之分隔,而將其判斷成1行。相對於此 ,因爲不但允許前述單一假設,亦容許複數之行假設,故 會將圖(b)所示之較粗的文字行進一步切割成較細的文字 行,並將其視爲假設,構成如圖(c)所示之文字行假設群 。針對前述複數之行假設展開OCR讀取假設檔案,並對其 執行單語檢索,結果,可檢索到如圖(d)所示之正確單語 。OCR讀取假設檔案不但會儲存文字切割、文字識別之資 訊,亦會儲存文字行假設檔案。OCR讀取假設檔案含有之 資訊會在後面進行詳細說明(和第1 2圖〜第1 6圖相關)。 針對第10圖進行說明。第10圖爲利用本發明之方法, 以OCR裝置及檢索裝置分離之形態構成文書檢索系統時之 一構成實例。第1〇圖之上段爲OCR裝置之一構成實例,而 第10圖之下段則爲檢索裝置之一構成實例。 首先,上段之〇CR裝置會利用影像輸入裝置(1001)將 文書轉換成電子資料,並將其儲存於外部儲存裝置(1004) - 17- (13) 1285849 1 11 及記憶體( 1 005),然後利用中央演算裝置(1〇06)讀取。文 書格式之定義等,儲存於外部儲存裝置(ι〇〇4) ’文書構造 解析時,會參照儲存於此之定義。這些處理可經由操作終 端裝置( 1002)由人執行操作,處理結果等則可利用顯示終 端裝置(1〇〇 3)來顯示,資料則會儲存於外部儲存裝置、或 透過通信裝置( 1007)傳送至外部裝置。〇CR之讀取結果’ 亦會如傳統裝置所示,將其視爲正文檔案執行輸出’亦可 將其視爲OCR讀取假設檔案執行輸出。OCR讀取假設檔案 會被儲存於外部儲存裝置、或經由通信裝置傳送至外部之 裝置。此時,OCR讀取假設檔案含有對應〇CR讀取之文書( 或影像)的文書ID碼。利用此文書ID碼’可執订紙文書或 文書影像、及OCR讀取假設檔案之對應。利用其和OCR讀 取假設檔案之對應,可實現下述文書檢索機能,例如,提 供將檢索到之單語顯示於原來之文書影像上之人類較易理 解的GUI機能、以及選取含有目的單語之文書影像等。第7 圖即是單語檢索之GUI的一構成實例’然而,此時採同時 顯示文書影像(705)及檢索到之單語(706)之方式。此顯示 機能可利用在〇CR讀取假設檔案上檢索到之單語的位置資 訊、以及對應OCR讀取假設檔案之ID的影像檔案來實現。 第10圖下段之檢索裝置,會利用前述OCR機能裝置輸 出之OCR讀取假設檔案來執行檢索’具有針對一旦產生 OCR讀取假設檔案之文書重複執行(只要存在假設檔案)無 限次數之檢索的機能。此檢索裝置會從通信裝置(1 0 1 5)讀 取OCR讀取假設檔案並將其下載至記憶體(1013),再利用 -18- (14) 1285849 中央演算裝置(1 Ο 1 4)執行檢索處理。欲檢索之單語及文書 檢索規則可儲存於外部儲存裝置、或利用操作終端裝置 (1 〇 11)輸入。單語之檢索結果則會透過顯示終端裝置 (1011)顯示,又,會透過通信裝置將資料傳送給外部機器 、或將檢索結果儲存於外部儲存裝置。這些裝置會利用內 部匯流排( 1 008、1 009、101 6)進行連結。 針對第11圖進行說明。第11圖爲將文書檢索系統應用 於實際業務上之自動學習機構的模式圖。首先,對文書檢 索系統輸入大量紙文書·文書影群(11 〇 1),作成對應各文 書之OCR讀取假設檔案(1102)。其次,利用OCR讀取假設 檔案執行單語檢索(1103)。此時,檢索對象之單語儲存於 資料庫(111 〇),各單語會附有代表該單語之重要度、及檢 索時之槪度臨界値的可學習參數(1111)。其次,對檢索到 之單語(1 104)應用文書檢索規則(1105)。此時,文書檢索 規則儲存於資料庫(1 1 1 2),各規則會附有代表該規則之重 要度、及應用時之槪度臨界値的可學習參數(1113)。其次 ’依據對象文書群中之檢索槪度等決定檢索之受理·廢棄 ’確疋檢索文書群(或未付合補集合之檢索條件的文書群=: 非檢索文書群),結果則會通過顯示器等之顯示裝置對使 用者進行顯示(11 06)。使用者將顯示之結果當做判斷材料 ’直接利用檢索結果當中之必要文書(1 1 07),並將檢索結 果中之垃圾(無意義之檢索結果)' 或未出現於檢索結果之 文書相關資料回饋至系統(1 1 0 8)。學習機構(1 1 〇 9)會針對 文書檢索結果,以降低被判斷爲檢索垃圾者之檢索槪度的 -19- (15) 1285849 方式來調整其參數(1111、1113),而以提高未出現於檢索 候補之文書的檢索槪度之方式來調整其參數。 針對學習進行更詳細之說明。本發明之方法可針對檢 出之單語,從識別槪度及文字配置之槪度來計算檢出單語 之槪度。使用此檢出單語槪度,即使其和檢索規則相關, 亦能計算其槪度(符合度)。例如,將文書檢索規則訂爲檢 索對象之單語及if-then規則。此時,if-then規則之真假値 會將檢出之單語的槪度當做乏晰邏輯値來表示。一般而言 ,if-then規則則以分解成下述邏輯演算。
邏輯積ΑΓΊΒ、邏輯和AUB、非〜A 若檢出之單語可分別套用於A及B,則單語之識別槪 度視爲乏晰邏輯値,而相對於前述各要素之乏晰演算元則 可代換成 槪度(ΑΓΊ B) = MIN(槪度(A)、槪度(B)) 槪度(A U B) = MAX(槪度(A)、槪度(B)) 槪度(〜A) = l-槪度(A)。 此處之槪度U)爲計算相對於單語X或邏輯式X之槪度 的函數。利用此方式,因爲亦可對文書檢索規則反映其文 字識別之槪度,例如,對於重要之規則,即使特定單語之 識別槪度稍低,亦會加以重視而應用規則進行文書檢索, 並對文書檢索進行加權。又,發生單語檢索之失誤(因精 度較低而廢棄單語時)、或符合規則之失誤(因精度較低而 廢棄規則時),因而無法析出原本必須檢出之資訊時,調 整單語檢索時之臨界値及符合規則時之槪度參數,同時, ,20 - (16) 1285849 以提高槪度(檢出槪度、規則符合槪度)之方式實施參數微 調,故可使其學習而成爲更適用實際運用之檢索系統。 一般之文書檢索中,檢索之性能會以再現率及符合率 之2項尺度來測量。再現率是利用該檢索引擎搜尋到幾成 之本來想要檢索的文書之量測尺度。又,符合率爲利用該 檢索引擎檢出之文章當中有幾成爲本來想要搜尋之文書的 測量尺度。前述學習處理的目的,在利用使用者之回饋來 提高再現率及符合率。爲了提高符合率,會使用使用者回 饋之「使用者選取何文書」資訊,針對使用者選取之文書 群提高檢出槪度之方式來調整參數。又,爲了提高再現率 ,從第11圖之1106的非檢索文書群中以隨機抽樣等找出^ 漏掉檢索之文書群」,並以提高其檢出槪度之方式來調整 參數。 具體之學習演算法爲最陡坡降法等。假設有檢索之單 語表{Wl、W2、…、Wn}。又,假設已對前述單語訂定檢 索時之槪度臨界値{ΤΙ、T2、...、Τη}。亦即,已對檢索系 統輸入單語及其檢索槪度臨界値之配對HW1、Τ1)、(W2、 Τ2)、...、(Wn、Τη)}。假設,使用OCR讀取假設檔案執行 檢索的結果,以識別槪度Lk搜尋到某單語Wk(當然,此槪 度之計算上,不只單純考慮文字識別之槪度而已,而是最 好也將文字圖案之配置資訊等考慮在內)。此時,單語之 槪度可以槪度臨界値Tk及識別槪度Lk之函數來表示。假設 ,單語之檢出槪度Fk = F(Tk、Lk)。可以離散函數來表示, 例如,若識別槪度Lk低於槪度臨界値Tk時,單語之檢出槪 -21 - (17) 1285849 度爲Ο,而若識別槪度Lk高於槪度臨界値Tk時,單語之檢 出槪度爲1,此外,亦可考慮識別槪度及槪度臨界値之差 Lk-Tk的S形函數或類似之連續函數。 如前面所述,亦可對規則實施以原本之邏輯演算元之 槪度函數定義爲基礎之邏輯式槪度的計算。亦即,含有單 語Wk之規則槪度,因爲是針對單語Wk之槪度的函數,故 以R(Fk)表示。又,若將其視爲參數Tk之函數,則因爲Fk 爲參數Tk之函數,故可以表示成R(Fk) = R’(Tk)。 學習爲指示必須強化何種規則應用、必須忽視何種規 則應用之指導式學習。例如,有必須強化之規則時,只要 以增大該規則之槪度R = R(Fk)方式來調整單語Wk相關之參 數即可。例如,若將前述槪度臨界値Tk當做想要學習之參 數,對本來之參數Tk,提供和參數Tk相關之偏導函數 5旧5了1^成比例且爲被視爲參數了]^之函數的規則槪度11’(丁]〇 之擾動,即可增大規則槪度R’(Tk)之値。 當然,這是規則槪度R’相對於參數Tk爲較平滑時的學 習方法。然而,在此說明之最陡坡降法以外,尙有可使用 離散函數之參數學習法,如GA(遺傳式演算)、SA(退火法) 、單工法。這些學習方法之機構,是以針對對象資料群整 體使代表對象資料之判別是否良好的某種評估尺度之最佳 化方式,來調整判別演算相關之參數群。本發明之從檢出 單語之槪度計算規則之槪度的機構,可以利用規則槪度明 確表示之函數來表現前述評估尺度的定義,而且,因爲可 以參數來調整檢出單語之精度等,故不論爲連續或離散, -22- (18) 1285849
» I 皆可進行學習。 針對OCR讀取假設檔案之構造進行詳細說明。〇CR讀 取假設檔案具有最小限之完全對應本來之紙文書或文書影 像的文書ID碼、複數行假設資訊、各文字行候補之複數文 字切割假設、及文字識別假設。行假設資訊、文字切割假 設、及文字識別假設如下所示。 首先,說明以具有文字行之多重假設爲目的之必要資 訊。文字行多重假設由複數之第1 2圖所示之單一文字行假 設資訊集合而成。構成文字行假設之資訊可以分成數個層 級來考慮。此圖中將其分成3階段。層級1爲以具有多重行 假設爲目的之必要最低限資訊。由表示文字行之行ID、包 含該文字行內之文字切割及文字識別假設、及該文字行之 座標資訊所構成。亦可以代表行假設整體之區隔記號來取 代行ID。利用此行ID識別文字行單位之資訊整體,依據文 字切割及文字識別假設從該文字行檢出單語,可防止使用 行座標資訊時之過剩檢索問題(以複數之行假設檢出相同 鍵檢索的問題)。層級2是跨越文字行間執行單語檢索時之 必要資訊,爲表示文字行間之連結構造的資訊。如處方或 單據文書,絕大部份之文章爲條列而匯整成一行單位的情 形下,並不需要此資訊,然而,針對如學術文書及一般文 書之整體較長之文書進行檢索時,就需要此資訊。本質上 ,層級3雖然不是以具有多重行假設爲目的的資訊,但在 以影像資訊爲基礎來執行文字再切割及文字再識別時,則 爲有用的資訊。 -23- (19) 1285849
' I 其次,針對以具有各文字行假設之文字切割及文字識 別的多重假設爲目的之必要資訊進行說明。各行之文字切 割及文字識別的多重假設,由複數之第1 3圖所示之單一文 字圖案的假設資訊所構成。構成文字切割假設之資訊可和 前述相同,可分成數個層級來考慮。層級1爲以具有多重 切割假設及多重識別假設爲目的之必要最低限資訊。亦即 ,文字切割及文字識別之多重假設以代表文字圖案間之連 接關係的境界ID編號cn、nn來表示,而文字識別之多重假 設則由複數之識別碼dt所構成。文字圖案間之連接關係可 以如第6圖所示之網狀結構來掌握。文字圖案之切割位置 以網狀結構上之節點(第6a圖之白圓點)來表示,前述境界 ID編號cn、nn爲對應該節點之編號。層級2是針對單語之 檢索結果計算槪度時使用之資訊。例如,依據文字圖案之 配置及文字識別之類似度dk實施單語之槪度的加權時,需 要此資訊。在檢索後之處理上,若需要實施更詳細之文字 圖案解析,則需要層級3之資訊。 OCR讀取假設檔案含有前面所述之資訊。OCR裝置會 對應必要層級將前述資訊輸出至OCR讀取假設檔案,檢索 裝置會從OCR讀取假設檔案復原候補文字網狀結構後再執 行單語檢索。將釋於至OCR讀取假設檔案之資訊分成數層 級’可對應系統調整檔案之容量及單語檢索之精度。OCR 讀取假設檔案之形態可以爲二進制檔案或正文檔案。此處 ’針對以XML標記利用正文記載OCR讀取假設檔案時的一 實施例進行說明。 -24- (20) * 1285849 說明OCR讀取假設檔案之XML標記例之前,先針對目 · 前JEITA針對文字識別多重假設提唱之XML規格進行說明 。此規格提唱使用多重文字碼用之標籤<mc>及標籤內屬 性v之XML構造。標籤me表示複數之文字識別碼,標籤內 屬性v則表示識別類似度。可省略標籤內屬性v。XML標記 例如下所示(第1 4圖爲文字圖案例)。 例1) 有「文字」之文字行,各文字圖案被識別成如下所示時, φ 對「文」之識別結果爲「文交大」、類似度〇·80、0.71、 0.60 對「字」之識別結果爲「字宇学」、類似度〇·89、0·00、 0.00 標記例1: 文 <mc> 交大 </mc〉宇学 </mc〉 標記例2: 文 <mcv = n 0.800.710.60’·> 交大 </mc> _ 字 <mc ν = ·’0·89 0.00 0·00〉宇学〈/me〉 本發明中,爲依前述規格之架構記載0 C R讀取假設檔 - 案之標記例。首先’以文字切割之多重假設化爲目的’追 . 加標籤內屬性cn、nn ’表不文字圖案之連接關係。此處之 cn、nn爲代表第13圖所不文子圖案之境界的境界ID編藏。 XML標記例如下所示(第15圖爲文字圖案例)。 例2) 有「文字」之文字行’各文字圖案被識別成如下所示時’ -25- (21) 1285849 對「文」之識別結果爲「文交大」、類似度0.80、0.71、 0.60 對「字」之識別結果爲「字宇学」、類似度0.89、0.00、 0.00 有跨越「文字」之圖案,識別結果爲「対効」、類似度 0.60 ' 0.57 標記例1: 文 <mc c n= 1 nn = 2> 交大 </mc> 字 <mc c π — 2 nn = 3 > 宇学 </mc> 対 < m c cn= 1 nn = 3 > 効 </mc> 標記例2: 文 <mc c n= 1 nn = 2 v ="0·80 0.71 0·60"> 交大 </mc> 字 <mc c n = 2 nn = 3 v ="0·89 0.00 0·00"> 宇学 </mc> 対 < me c n= 1 nn = 3 v ="0·60 0.57 ">効 </mc > 其次,以文字切割之多重假設化爲目的,追加行資訊 標籤<ml>,表示文字行假設。標籤間之階層關係,me標 籤可包含於ml標籤。亦即,規定爲<ml>標籤至</1111>標籤 之間可夾有複數之從<mc>標籤至</mc>標籤所涵蓋的範圍 。XML標記例如下所示(第16圖爲文字圖案例之圖示)。 例3) 行切割假設1將「文字」視爲文字行析出,含有下述文字 圖案。 對「文」之識別結果爲「文交大」、類似度〇 · 8 0、0 · 7 1、 0.60 - 26- (22) 1285849 對「字」之識別結果爲「字宇学」、類似度0.89、〇·〇〇、 0.00 有跨越「文字」之圖案,識別結果爲「対効」、類似度 0.60 、 0.57 而且,行切割假設2將「多重」視爲文字行析出,含有下 述文字圖案。 對「多」之文字碼「多名」的類似度爲0.8 0、0.7 1時、 對「重」之文字碼「重乘」的類似度爲0 · 8 9、0 · 7 0時、 標記例1: <ml>文 <me cn= 1 nn = 2> 交大 </mc> 字 <mc cn = 2 nn = 3> 宇学 </mc> 対 <mc cn= 1 nn = 3> 効 </mc> </ml> <ml>多 <me cn= 1 nn = 2> 多名 </mc> 重 <mc cn = 2 nn = 3> 重乘 </mc> </ml> 如第1 2圖之說明所示,構成文字行假設之資訊可分成 數個層級來考量。尤其是以具有多重行假設爲目的之必要 最低限資訊爲代表文字行之行ID、包含於該文字行內之文 字切割及文字識別假設、及該文字行之座標資訊。行ID可 以代表行假設整體之區隔記號取代。前述標記例1中, <ml>標籤即相當於此區隔記號,表示<ml>標籤及</ml>標 籤所夾之部份爲文字切割及文字識別假設。其次,將前述 標記例擴充爲可以行之矩形座標來表現。行之座標資訊在 防止過剩檢索問題(以複數之行假設檢出相同鍵檢索之問 題)上,爲有效之資訊。爲了表現行之矩形座標,使用標 -27- (23) 1285849 籤內屬性1、ι*、t、b。1、r、t、b分別代表包含各行之外接 矩形的左端X座標、右端X座標、上Y座標、及下Y座標。 亦可考慮其他之座標表示法。有以行之中心座標及尺寸來 表示的方法、及使用行矩形四角之點座標來表示的方法等 。使用外接矩形座標時之XML標記例如下所示(第1 6圖爲 文字圖案例)。 例4) 標記例1: <ml 1 = 1 000 r: = 1200 t = 8 0 0 b=850> 文 < me cn= 1 nn = 2> 交大 </mc> 字 < me cn = 2 nn = 3> 宇学 </mc> 対 <mc cn= 1 nn = 3> 効 </mc> </ml> </ml> <ml 1= 1 000 r: = 1200 t = 850 b=900> 多 <mc cn = :1 nn = :2> 多名 </mc> 重 <mc cn = 2 nn = 3> 重乘 </mc> </ml> 同樣的’可將前述標記例擴充爲可記述行間之連繋方 法。此時’使用標籤內屬性lc、ln來規定和文字圖案相同 之行間的連繫方法。XML標記例如下所示(第16圖爲文字 圖案例)。 例5) 標記例1 ·· <ml lc= 1 ln = 2> (24) 1285849 文 <me cn= 1 nn = 2> 交大 </mc> 字 <me cn = 2 nn = 3 > 宇学 </mc> 対 <me cn=1 nn = 3 > 効 </mc> </ml> 1 lc = :2 ln = 3> 多 <mc cn= 1 nn = 2> 多名 </mc> 重 <mc cn = 2 nn = 3> 重乘 </mc> </ml> 傳統之方法時,對紙文書群之文書檢索爲針對OCR讀 取結果之正文進行檢索,對於因文字變形或顏色變淡等導 致OCR之文字識別錯誤、因文字境界模糊而導致OCR之文 字切割錯誤、或文書-圖形-格線混合存在而導致OCR之文 字行析出錯誤,很難有效處理。而利用本發明時,因利用 具有文字識別、文字切割、及文字行析出方法之OCR讀取 假設檔案來進行單語檢索及文書檢索,故可迴避前述問題 〇 又,利用本發明的話,對於傳統方法無法調整之文書 檢索性能、及單語檢索性能的折衷關係(只以文字識別上 信賴度較高之關鍵字來進行文書檢索時,無法檢索到必要 文書,而同時使用信賴度較底之關鍵字來進行文書檢索時 ,則會在文書檢索時出現無用之檢索結果),亦可因爲採 用包含於OCR讀取假設檔案內之文字識別順位·類似度· 圖案配置槪度等之資訊,而可依據針對各單語檢索結果之 槪度、及單語檢索槪度來計算文書檢索槪度,並利用檢索 結果是否良好之使用者回饋,以提高檢索結果之精度爲目 -29- (25) · 1285849 的,實施自動參數學習,而可自動構築符合使用者檢索意 · 願之文書檢索系統。 [圖式簡單說明] 第1圖爲使用OCR讀取假設檔案之檢索及傳統方法之 ~ 比較槪念圖。 第2圖爲至輸出OCR讀取假設檔案爲止之流程圖。 第3圖爲使用OCR讀取假設檔案之檢索處理的流程圖 φ 〇 第4圖爲檢索到之單語路徑的檢出流程圖。 第5圖爲針對候補文字網狀結構執行單語析出處理之 槪念圖。 第6圖爲候補文字網狀結構之槪念圖。 第7圖爲文書檢索系統之一畫面構成例。 第8圖爲表示OCR讀取假設檔案之效果的圖1。 第9圖爲表示OCR讀取假設檔案之效果的圖2。 鲁 第10圖爲文書檢索系統之一構成例。 第11圖爲文書檢索之學習流程的槪念圖。 - 第12圖爲OCR讀取假設檔案之資料構造圖1。 , 第13圖爲OCR讀取假設檔案之資料構造圖2。 第14圖爲以OCR讀取假設檔案表現之文字列圖案的槪 念圖1。 第15圖爲以OCR讀取假設檔案表現之文字列圖案的槪 念圖2。 -30- (26) 1285849 • . 第1 6圖爲以〇C R讀取假設檔案表現之文字列圖案的槪 念圖3。 [元件符號之說明] 101 輸入至傳統文書檢索系統的紙文書 10 2 傳統文書檢索系統之0 C R部 10 3 傳統文書檢索系統之〇C R輸出形態 104 傳統文書檢索系統之單語檢索部 10 5 傳統文書檢索系統之文書檢索部 10 6 傳統文書檢索系統之文書檢索結果 107 輸入至本發明文書檢索系統的紙文書 108 本發明文書檢索系統之OCR部 109 本發明文書檢索系統之OCR輸出形態 110 本發明文書檢索系統之單語檢索部 111 本發明文書檢索系統之文書檢索部 112 本發明文書檢索系統之文書檢索結果 113 單語檢索所使用之單語資料庫部 114 文書檢索所使用文書檢索規則之單語資料庫部 201 OCR裝置之影像輸入部 202 OCR裝置之文書構造解析部 203 OCR裝置之文字行析出部 204 OCR裝置之文字圖案產生部 205 OCR裝置之文字識別部 206 OCR裝置之OCR讀取假設檔案輸出部 (27) OCR裝置之輸入文書影像時的流程 文書檢索裝置之OCR讀取假設檔案輸入部 文書檢索裝置之單語檢索部 文書檢索裝置之檢索單語檢定部 文書檢索裝置之檢索規則應用部 文書檢索裝置之檢索文書檢定部 文書檢索裝置之路徑識別槪度計算部 文書檢索裝置之文字配置槪度計算部 文書檢索裝置之路徑配置槪度計算部 候補文字網狀結構上之文字圖案 候補文字網狀結構上之圖案境界 候補文字網狀結構上之文字識別結果 候補文字網狀結構上之文字識別類似度 從候補文字網狀結構上檢索到之單語 文書檢索系統畫面之關鍵字輸入欄 文書檢索系統畫面之檢索規則指定欄 文書檢索系統畫面之檢索文書顯示欄 文書檢索系統畫面之檢索文書的詳細資訊顯示欄 文書檢索系統畫面之檢索影像顯示欄 文書檢索系統畫面之單語檢索結果 OCR裝置之影像輸入裝置 OCR裝置之操作終端裝置 OCR裝置之顯示終端裝置 OCR裝置之外部儲存裝置 -32- (28) OCR裝置之記憶體 OCR裝置之CPU OCR裝置之通信裝置 OCR裝置之通信匯流排 網狀結構部 檢索裝置部之操作終端裝置 檢索裝置部之顯示終端裝置 檢索裝置部之外部儲存裝置 檢索裝置部之記憶體
檢索裝置部之CPU 檢索裝置部之通信裝置 檢索裝置部之通信匯流排 輸入至文書檢索系統的紙文書 文書檢索系統作成之OCR讀取假設檔案 文書檢索系統之單語檢索部 文書檢索系統所得之單語檢索結果 文書檢索系統之文書檢索規則適用部 文書檢索系統所得到之檢索文書·非檢索文書 檢索文書之利用 指定檢索文書之良否的指導信號 文書檢索系統之學習部 文書檢索系統之檢索對象單語 文書檢索系統之檢索對象單語參數 文書檢索系統之文書檢索規則 -33- (29)1285849 1113 文書檢索系統之文書檢索規則參數
-34-
Claims (1)
- 1285849 拾、申請專利範困 第92 1 00430號專利申請案 中文申請專利範圍修正本 民國96年2月7日修正 1、 一種OCR裝置,具有可接收記載文字之影像輸入 的影像輸入裝置、中央演算裝置、及外部儲存裝置,其特 徵爲: 前述中央演算裝置可從前述輸入之影像析出文字行候 補及文字切割候補, 並對前述文字切割候補執行文字識別, 將該文字識別結果、該文字行候補、及該文字切割候 補合倂爲讀取假設檔案且儲存於前述外部儲存手段。 2、 如申請專利範圍第1項之OCR裝置,其中 前述中央演算裝置會更進一步分析前述文字切割候補 間之關係、及前述文字識別結果之類似度, 且會再將析出之前述文字切割候補間的關係、及前述 文字識別結果的類似度倂入前述讀取假設檔案並儲存於儲 存手段。 3、 如申請專利範圍第1或2項之OCR裝置,其中 前述中央演算裝置會更進一步分析前述文字切割候補 之上下左右座標値之其中之一, 且會再將析出之前述文字切割候補的座標値倂入前述 讀取假設檔案並儲存於儲存手段。 4、 如申請專利範圍第1至3項之其中任一項之OCR裝 1285849 置,其中 前述中央演算裝置會更進一步分析前述文字切割候補 之外接矩形的上下左右之頂點座標値的其中之一, 且會再將析出之前述頂點座標値倂入前述讀取假設檔 案並儲存於儲存手段。 5、 一種文書檢索系統,由具有操作終端裝置、外部 儲存裝置、中央演算裝置、顯示終端裝置、及通信裝置之 各裝置的檢索裝置;以及具有通信裝置,且連結至該檢索 裝置之申請專利範圍第1至4項之OCR裝置所構成,其特徵 爲: 前述OCR裝置之中央演算裝置,會從前述OCR裝置_ 之則述通丨目裝置傳送即述讀取假設檔案, 前述檢索裝置之中央演算裝置,會以前述檢索裝置側 之通信裝置接收從前述OCR裝置傳送過來之前述讀取假設 檔案, 利用接收之前述讀取假設檔案中的前述各資訊,從記 載於前述影像上之前述文字檢索和輸入至前述操作終端裝 置的鍵檢索一致之前述文字列, 且將前述檢索結果輸出至前述外部儲存裝置或前述_ 示終端裝置。 6、 如申請專利範圍第5項之文書檢索系統,其中 前述檢索裝置之中央演算裝置會進一步設定前述鍵檢 索之加權, 且對應前述加權變更輸入之前述鍵檢索。 -2- 1285849 7、 如申請專利範圍第6項之文書檢索系統,其中 以利用前述鍵檢索之檢索記錄上的過去再現率及符合 率來設定前述鍵檢索之加權。 8、 如申請專利範圍第5至7項之其中任一項之文書檢 索系統,其中 前述OCR裝置之影像輸入裝置會進一步接收複數之影 像輸入,前述OCR裝置之中央演算裝置中,會針對前述輸入之 複數各影像,進一步合倂和前述影像完全對應之文書ID, 將其視爲讀取假設檔案儲存至前述儲存手段, 且前述檢索裝置之中央演算裝置中,會以前述文書ID 進一步鑑別記載著前述檢索中和前述鍵檢索一致之文字列 的前述影像,並輸出至前述顯示終端裝置。 9、 一種文書檢索方法,其特徵爲: 具有:接收記載著文字之影像的輸入之步驟; 從前述影像析出文字行候補之步驟; 從前述影像析出文字切割候補之步驟; 執行前述文字切割候補之文字識別之步驟; 將含有前述文字識別結果、前述文字行候補、及前述 文字切割候補之檔案視爲讀取假設檔案並儲存於前述儲存 手段之步驟; 從前述操作終端裝置接收鍵檢索之輸入之步驟; 從前述儲存手段讀取前述讀取假設檔案之步驟; -3 - 1285849 利用前述讀取假設檔案中之前述文字切割候補及前述 行析出候補,從記載於前述影像之文字檢索和前述鍵檢索 一致之步驟;以及 將前述檢索結果輸出至前述儲存手段或前述顯示終端 裝置之步驟。1 0、如申請專利範圍第9項之文書檢索方法,其中 在接收前述影像之輸入之步驟中,可接收複數之前述 影像的輸入, 在儲存前述讀取假設檔案之步驟中,會針對前述輸入 之複數各影像,合倂和前述影像完全對應之文書ID,並將 其視爲讀取假設檔案儲存至前述儲存手段, 且具有以前述文書ID進一步鑑別記載著前述檢索中和 前述鍵檢索一致之文字列的前述影像並輸出至前述顯示終 端裝置之步驟。1 1、一種記錄文書檢索程式之電腦可讀取記錄媒體, 是記錄有以具有操作終端裝置、儲存裝置、及顯示終端裝 置之電腦來執行之文書檢索程式的記錄媒體,其特徵爲: 上述文書檢索程式是執行: 接收記載著文字之影像的輸入之步驟; 從前述影像析出文字行候補之步驟; 從前述影像析出文字切割候補之步驟; 執行前述文字切割候補之文字識別之步驟; 將含有前述文字識別結果、前述文字行候補、及前述 文字切割候補之檔案視爲讀取假設檔案並儲存於前述儲存 -4- 1285849 手段之步驟; 從前述操作終端裝置接收鍵檢索之輸入之步驟; 從前述儲存手段讀取前述讀取假設檔案之步驟; 利用前述讀取假設檔案中之前述文字切割候補及前述 行析出候補,從記載於前述影像之文字檢索和前述鍵檢索 一致之步驟;以及將前述檢索結果輸出至前述儲存手段或前述顯示終端 裝置之步驟。 1 2、如申請專利範圍第1 1項之記錄有文書檢索程式之 電腦可讀取記錄媒體,其中 在接收前述影像之輸入之步驟中,可接收複數之前述 影像的輸入, 在儲存前述讀取假設檔案之步驟中,會針對前述輸入 之複數各影像’合倂和前述影像完全對應之文書ID,並將 其視爲讀取假設檔案儲存至前述儲存手段,且具有以前述文書ID進〜步鑑別記載著前述檢索中和 前述鍵檢索一致之文字列的前述影像並輸出至前述顯示終 端裝置之步驟。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2002337369A JP2004171316A (ja) | 2002-11-21 | 2002-11-21 | Ocr装置及び文書検索システム及び文書検索プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW200409046A TW200409046A (en) | 2004-06-01 |
| TWI285849B true TWI285849B (en) | 2007-08-21 |
Family
ID=32700898
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW92100430A TWI285849B (en) | 2002-11-21 | 2003-01-09 | Optical character recognition device, document searching system, and document searching program |
Country Status (3)
| Country | Link |
|---|---|
| JP (1) | JP2004171316A (zh) |
| CN (1) | CN100351847C (zh) |
| TW (1) | TWI285849B (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI794547B (zh) * | 2018-10-04 | 2023-03-01 | 日商昭和電工股份有限公司 | 文書檢索裝置、文書檢索程式、文書檢索方法 |
Families Citing this family (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8261200B2 (en) * | 2007-04-26 | 2012-09-04 | Fuji Xerox Co., Ltd. | Increasing retrieval performance of images by providing relevance feedback on word images contained in the images |
| JP5344338B2 (ja) * | 2008-08-01 | 2013-11-20 | 国立大学法人東京農工大学 | プログラム、情報記憶媒体及び文字列認識装置 |
| CN102779140B (zh) * | 2011-05-13 | 2015-09-02 | 富士通株式会社 | 一种关键词获取方法及装置 |
| CN105183744A (zh) * | 2015-06-29 | 2015-12-23 | 努比亚技术有限公司 | 一种利用手机进行纸质书关键字检索的方法及装置 |
| CN106878632B (zh) * | 2017-02-28 | 2020-07-10 | 北京知慧教育科技有限公司 | 一种视频数据的处理方法和装置 |
| JP6938228B2 (ja) | 2017-05-31 | 2021-09-22 | 株式会社日立製作所 | 計算機、文書識別方法、及びシステム |
| CN107391668A (zh) * | 2017-07-20 | 2017-11-24 | 深圳大普微电子科技有限公司 | 一种图片文字搜寻系统及方法 |
| JP6938408B2 (ja) * | 2018-03-14 | 2021-09-22 | 株式会社日立製作所 | 計算機及びテンプレート管理方法 |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3689455B2 (ja) * | 1995-07-03 | 2005-08-31 | キヤノン株式会社 | 情報処理方法及び装置 |
| JP3727995B2 (ja) * | 1996-01-23 | 2005-12-21 | キヤノン株式会社 | 文書処理方法及び装置 |
| JPH1069494A (ja) * | 1996-08-29 | 1998-03-10 | Canon Inc | 画像検索方法とその装置 |
| CN1157673C (zh) * | 1998-04-01 | 2004-07-14 | 威廉·彼得曼 | 用于查询用光学字符识别创建的电子文档的系统和方法 |
-
2002
- 2002-11-21 JP JP2002337369A patent/JP2004171316A/ja active Pending
-
2003
- 2003-01-09 TW TW92100430A patent/TWI285849B/zh not_active IP Right Cessation
- 2003-02-28 CN CNB031049559A patent/CN100351847C/zh not_active Expired - Fee Related
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI794547B (zh) * | 2018-10-04 | 2023-03-01 | 日商昭和電工股份有限公司 | 文書檢索裝置、文書檢索程式、文書檢索方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| TW200409046A (en) | 2004-06-01 |
| JP2004171316A (ja) | 2004-06-17 |
| CN1503193A (zh) | 2004-06-09 |
| CN100351847C (zh) | 2007-11-28 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Mao et al. | Document structure analysis algorithms: a literature survey | |
| CN102254014B (zh) | 一种网页特征自适应的信息抽取方法 | |
| US6178417B1 (en) | Method and means of matching documents based on text genre | |
| CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
| CN112801010A (zh) | 一种针对实际ocr场景下的视觉富文档信息抽取方法 | |
| CN109145260B (zh) | 一种文本信息自动提取方法 | |
| JP4577931B2 (ja) | ドキュメント処理システム及びインデックス情報獲得方法 | |
| US20070053611A1 (en) | Method and system for extracting information from a document | |
| US20030097384A1 (en) | Method for identifying and using table structures | |
| CN110175334B (zh) | 基于自定义的知识槽结构的文本知识抽取系统和方法 | |
| Lu et al. | Information retrieval in document image databases | |
| CN111242060B (zh) | 一种文档图像关键信息提取方法及系统 | |
| CN116150361B (zh) | 一种财务报表附注的事件抽取方法、系统及存储介质 | |
| CN114863408B (zh) | 文档内容分类方法、系统、装置及计算机可读存储介质 | |
| CN119598980A (zh) | 跨格式文档自动转换为Markdown文档的方法、装置及表单增强方法、系统 | |
| TWI285849B (en) | Optical character recognition device, document searching system, and document searching program | |
| CN119271630A (zh) | 一种档案数据检索方法、系统及装置 | |
| WO2021131324A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
| CN113642320A (zh) | 文档目录结构的提取方法、装置、设备和介质 | |
| CN120656187A (zh) | 基于多级分类标引的公文文档智能切片处理方法及系统 | |
| CN114691907A (zh) | 一种跨模态检索的方法、设备及介质 | |
| CN118364821B (zh) | 基于实体语义和视觉文本化的多模态命名实体识别方法 | |
| CN120448497A (zh) | 一种针对含表格文档的智能问答方法及系统 | |
| CN120197623A (zh) | 一种基于规则库的司法文书向量化分段和段落标注方法 | |
| CN117668234A (zh) | 一种文本标签划分方法、介质及电子设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |