TWI394098B - Shredding Method Based on File Image Texture Feature - Google Patents

Shredding Method Based on File Image Texture Feature Download PDF

Info

Publication number
TWI394098B
TWI394098B TW098118465A TW98118465A TWI394098B TW I394098 B TWI394098 B TW I394098B TW 098118465 A TW098118465 A TW 098118465A TW 98118465 A TW98118465 A TW 98118465A TW I394098 B TWI394098 B TW I394098B
Authority
TW
Taiwan
Prior art keywords
strip
image
strips
images
paper
Prior art date
Application number
TW098118465A
Other languages
English (en)
Other versions
TW201044325A (en
Original Assignee
Nat Univ Chung Cheng
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nat Univ Chung Cheng filed Critical Nat Univ Chung Cheng
Priority to TW098118465A priority Critical patent/TWI394098B/zh
Priority to US12/588,866 priority patent/US8073264B2/en
Publication of TW201044325A publication Critical patent/TW201044325A/zh
Application granted granted Critical
Publication of TWI394098B publication Critical patent/TWI394098B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Description

基於文件影像紋理特徵之碎紙重建方法
本發明係與碎紙的重建技術有關,特別是指一種基於文件影像紋理特徵之碎紙重建方法。
按,紙張文件為了保密,通常會將之銷毀以達到保存秘密的效果,而銷毀的方式,除了將紙張文件燒掉之外,最為大眾採用的方式,就是使用碎紙機來碎紙了。然而,在某些需求之下,例如法律訴訟時的證據還原,就需要使用到碎紙重建的技術了。
目前的碎紙重建,大多是以人工的方式利用類似拼圖的方式來將碎紙後的大量碎紙條一條條的拼湊合成。想當然爾,使用人工來拼湊碎紙條,是非常耗時的工作的。
此外,尚有些碎紙重建的技術,主要是去計算紙條之間相關度,其大多數是以像素對像素的方式來比對兩兩紙條,且大多利用到切口相接處灰階顏色的連續性的資訊來做更細部的紙條配對。但是當文字過小,在經過去除邊界雜訊時,會造成兩張紙條相同切口處的字母不相同,因此單純以像素對像素比對是不合理的,也容易有錯誤的狀況產生。
本發明之主要目的在於提供一種基於文件影像紋理特徵之碎紙重建方法,其可對文件的影像紋理特徵來進行比對及分類,達到碎紙重建的目的。
本發明之次一目的在於提供一種基於文件影像紋理特徵之碎紙重建方法,其藉由圖論的概念來建構碎紙條之間的關聯性,而可進行快速比對及排序,達到快速的碎紙重建的效果。
為了達成前述目的,依據本發明所提供之一種基於文件影像紋理特徵之碎紙重建方法,主要是將複數的碎紙條以影像處理的方式進行重建,該方法包含有下列步驟:a)影像處理:使用掃瞄器對各該碎紙條進行取像而取得複數紙條影像,並區分出各該紙條影像中的紙條本身以及紙條上的背景影像,再將各該紙條影像中的白色底色與黑色文字區分出來,並對各該紙條影像進行水平投影,經整理即可形成出各該紙條影像中白色間距的投影分佈直方圖與文字列的投影分佈直方圖;b)特殊紙條記錄:對該等紙條影像進行分類,找出空白的紙條影像、文件版面文字欄最左邊的紙條影像、以及文字版面文字欄最右邊的紙條影像;c)編碼:將該等紙條影像的文字列底線格線聯集而形成一總集合,再以相同文字列的底線格線投影分佈直方圖的中點處座標作為該文字列的垂直座標位置,藉由該等文字列的垂直座標位置來聯合而形成一紙條模型;接著,對該紙條模型中的各該紙條影像進行二元編碼,各該紙條影像即具有對應的紙條編碼;d)相關度計算:利用一預定計算法則來對該等紙條編碼進行計算,並對應各該紙條編碼分別取得一相關度分數;以及e)排序:以圖的架構排序該等紙條影像,以複數頂點分別代表各該紙條編碼,再以複數的邊來代表各該紙條影像之間的相關度分數,以圖論的架構對該等頂點及該等邊進行收縮運算;接著對該等頂點依據相關度分數進行第一階段排序,藉以排序出各該紙條影像的順序,此順序是為不同紙條編碼的順序;接著再對相同紙條編碼的各該紙條影像進行第二階段排序,其主要利用圖學的邊的收縮運算簡化,而得到相同紙條編碼的各該紙條影像的順序;再以第一階段排序與第二階段排序的結果來將該等紙條影像依該排列順序結合後,即可得到一完整的影像,達到碎紙的重建結果。
為了詳細說明本發明之技術特點所在,茲舉以下之較佳實施例並配合圖式說明如後,其中:如第一圖所示,本發明一較佳實施例所提供之一種基於文件影像紋理特徵之碎紙重建方法,主要是將複數的碎紙條以影像處理的方式進行重建,該方法包含有下列步驟:
a)影像處理:使用掃瞄器對各該碎紙條進行取像而取得複數紙條影像,對各該碎紙條進行長度的正規化,藉以減少後續影像處理的時間及複雜度;其中所謂進行長度的正規化,係指使長度能對齊,亦即,將長度上略有差異的紙條影像調整為長度一致。再利用顏色分割技術來區分出各該紙條影像中的紙條本身以及紙條上的背景影像,並且 將各該紙條影像的邊界輪廓往內侵蝕數個像素個數以去除因碎紙機切割紙張所產生的鋸齒狀切口與陰影雜訊,再將各該紙條影像中的白色底色與黑色文字區分出來,將各該紙條影像做水平投影,單獨累計各水平列的黑色文字紋理像素個數,進而得到各該紙條影像的白色間距的投影分佈直方圖與文字列的投影分佈直方圖。其中,為了確保各該投影直方圖中相連區塊為相同文字列,且避免將各該紙條影像內容中的雜點誤認為文字列,必須先利用形態學中的結構性元件將文字投影分佈相近的點合併成同一區域,然後再將不足以構成文字列的較小區塊刪除,最後才儲存投影分佈直方圖的資訊。於本實施例中,所使用的形態學工具是一個一維的結構性元件,其大小為n,依據實際情況而定,其定義如第二圖所示,其中頂端的像素是結構元件的原點,底端的像素是結構性元件的鄰點,原點與鄰點之間即為白色像素;當原點的像素是黑色文字的紋理像素且鄰點的像素也是黑色文字的紋理像素時,則將結構性元件的白色像素填滿成黑色文字紋理像素。接著再進而求得各該紙條影像文字列的底線格線(即英文字母小寫x底線,Base-Line)的垂直座標位置,第三圖即顯示文件文字列的底線格線的位置。最後再求得各該條影像文字列的底線格線投影分佈直方圖,第四圖即顯示二文字列為例的文字列水平投影分佈直方圖。
b)特殊紙條記錄:對該等紙條影像進行分類,找出空白的紙條影像、文件版面文字欄最左邊的紙條影像、以及 文字版面文字欄最右邊的紙條影像。其主要是利用前述步驟中各該紙條影像的投影分佈直方圖來得知各該紙條影像的文字列所佔範圍,並且利用各該紙條影像的左切口及右切口的黑色文字像素來判斷是否為特殊紙條。當一該紙條影像的左切口及右切口的黑色文字像素的個數低於一預定門檻值時,則判定為空白紙條。當只有左切口黑色文字像素的個數低於該預定門檻值時,則判定為最左邊之紙條。當只有右切口黑色文字像素的個數低於該預定門檻值時,則判定為最右邊之紙條。
c)編碼:將同類的該等紙條影像的文字列底線格線聯集而形成一總集合,再以相同文字列的底線格線投影分佈直方圖的中點處座標作為該文字列的垂直座標位置,藉由該等文字列的垂直座標位置來聯合而形成一紙條模型11,其中,係利用形態學中的結構性元件將底線格線投影分佈相近的點合併成同一區塊,藉以確保投影分佈直方圖中相連區塊為相同文字列。接著,對該紙條模型11中的各紙條影像進行二元編碼,具有文字列的區域線為1,空白區域編為0,各該紙條影像即具有對應的紙條編碼。第五圖即顯示了紙條模型11。
d)相關度計算:利用一預定計算法則來對該等紙條編碼進行計算,並對應各該紙條編碼分別取得一相關度分數。該預定計算法則可為:將各該紙條模型11裡的紙條編碼兩兩比對,每有一個碼不同則負相關度分數加一分,因此每二個紙條編碼就可得到一個負相關度分數,第六圖即 顯示將1號(No.1)至3號(No.3)紙條編碼兩兩比對的例子,其中,1號紙條編碼與2號紙條編碼的負相關度分數為3分,2號紙條編碼與3號紙條編碼的負相關度分數為1分,1號紙條編碼與3號紙條編碼的負相關度分數為4分。另外,該預定計算法則也可為:先假設英文文字字串長度均相同而為一平均字串長度,再利用平均字串長度與所有的可能字串長度的差值的絕對值累加而得到一負相關度分數。其中,雖然英文文字字串長度不盡相同,但在經過大量取樣之後,此一假設(即假設英文字串長度相同)可得到一定程度的印證。
e)排序:以圖的架構排序該等紙條影像,以複數頂點分別代表各該紙條編碼,再以複數的邊來代表各該紙條影像之間的相關度分數,該等頂點及該等邊即組成一個圖的架構。進行第一階段排序,找出左白右字的紙條影像所代表的頂點為起始點,依序依據上述的相關度分數由大至小來排序各該頂點,即可依序排序出各該紙條影像的順序,此順序是為不同紙條編碼的順序。接著再對相同紙條編碼的各該紙條影像進行第二階段排序,其主要先把相同紙條編碼的兩兩紙條影像之間的連接邊的尾部紙條右切口與連接邊的頭部紙條左切口的關係,以複數有向邊來分別表示之,再利用圖學的邊的收縮運算簡化,不斷的把相同紙條編碼的二該紙條影像所代表的頂點合併成為新的頂點,最終即會把所有的頂點合併為一個頂點,在收縮運算合併過程的各個頂點的順序即為各該紙條影像的順序,此順序即 為相同紙條編碼的各該紙條影像的順序。再將第一階段排序與第二階段排序的結果結合後,即可得到完整的所有紙條影像的排列順序,進而可得到碎紙的重建結果。
藉由上述步驟,可將複數的碎紙條藉由影像處理的方式將之整合而重建出原始的文件。簡言之,本發明主要先對碎紙條進行影像處理來取得紙條影像,再針對各個紙條影像上的白色底色與黑色文字區分出來,並進行水平投影而取得投影分佈直方圖。再依據該等投影分佈直方圖來對各該紙條影像進行編碼以及相關度計算,最後再依據相關度來進行排序,排序後的各該紙條影像結合後,即可得到碎紙的重建結果。
由上可知,本發明所可達成之功效在於:可對文件的影像紋理特徵(即白色底色與黑色文字等紋理特徵)來進行影像處理,再經過比對及分類,達到碎紙重建的目的。此外,本發明是藉由圖論的概念來建構碎紙條之間的關聯性,而可進行快速比對及排序,達到快速的碎紙重建的效果。
11‧‧‧紙條模型
第一圖係本發明一較佳實施例之流程圖。
第二圖係本發明一較佳實施例之示意圖,顯示形態學的結構性元件。
第三圖係本發明一較佳實施例之示意圖,顯示文件的文字列底線格線的位置。
第四圖係本發明一較佳實施例之示意圖,顯示文字列水平投影分佈直方圖。
第五圖係本發明一較佳實施例之示意圖,顯示紙條模型的狀態。
第六圖係本發明一較佳實施例之示意圖,顯示紙條編碼比對時的負相關度。

Claims (14)

  1. 一種基於文件影像紋理特徵之碎紙重建方法,主要是將複數的碎紙條以影像處理的方式進行重建,該方法包含有下列步驟:a)影像處理:使用掃瞄器對各該碎紙條進行取像而取得複數紙條影像,並區分出各該紙條影像中的紙條本身以及紙條上的背景影像,再將各該紙條影像中的白色底色與黑色文字區分出來,並對各該紙條影像進行水平投影,經整理即可形成出各該紙條影像中白色間距的投影分佈直方圖與文字列的投影分佈直方圖;b)特殊紙條記錄:對該等紙條影像進行分類,找出空白的紙條影像、文件版面文字欄最左邊的紙條影像、以及文字版面文字欄最右邊的紙條影像;c)編碼:將該等紙條影像的文字列底線格線聯集而形成一總集合,再以相同文字列的底線格線投影分佈直方圖的中點處座標作為該文字列的垂直座標位置,藉由該等文字列的垂直座標位置來聯合而形成一紙條模型;接著,對該紙條模型中的各該紙條影像進行二元編碼,各該紙條影像即具有對應的紙條編碼;d)相關度計算:利用一預定計算法則來對該等紙條編碼進行計算,並對應各該紙條編碼分別取得一相關度分數;以及e)排序:以圖的架構排序該等紙條影像,以複數頂點分別代表各該紙條編碼,再以複數的邊來代表各該紙條影 像之間的相關度分數,以圖論的架構對該等頂點及該等邊進行收縮運算;接著對該等頂點依據相關度分數進行第一階段排序,藉以排序出各該紙條影像的順序,此順序是為不同紙條編碼的順序;接著再對相同紙條編碼的各該紙條影像進行第二階段排序,其主要利用圖學的邊的收縮運算簡化,而得到相同紙條編碼的各該紙條影像的順序;再以第一階段排序與第二階段排序的結果來將該等紙條影像依該排列順序結合後,即可得到一完整的影像,達到碎紙的重建結果。
  2. 依據申請專利範圍第1項所述之基於文件影像紋理特徵之碎紙重建方法,其中:在步驟a)中,取得複數紙條影像之後,即對各該碎紙條進行長度的正規化,藉以減少後續影像處理的時間及複雜度;其中所謂進行長度的正規化,係指使長度能對齊,亦即,將長度上略有差異的紙條影像調整為長度一致。
  3. 依據申請專利範圍第1項所述之基於文件影像紋理特徵之碎紙重建方法,其中:在步驟a)中,係利用顏色分割技術來區分出各該紙條影像中的紙條本身以及紙條上的背景影像,以及區分出各該紙條影像中的白色底色與黑色文字。
  4. 依據申請專利範圍第3項所述之基於文件影像紋理特徵之碎紙重建方法,其中:於步驟a)中,在利用顏色分割技術來區分出紙條本身以及紙條上的背景影像後,還要將各該紙條影像的邊界輪廓往內侵蝕數個像素個數以去除 因碎紙機切割紙張所產生的鋸齒狀切口與陰影雜訊。
  5. 依據申請專利範圍第1項所述之基於文件影像紋理特徵之碎紙重建方法,其中:於步驟a)中,係將紙條影像做水平投影,單獨累計各水平列的黑色文字紋理像素個數,進而得到各該紙條影像的文字列的投影分佈直方圖與白色間距的投影分佈直方圖。
  6. 依據申請專利範圍第5項所述之基於文件影像紋理特徵之碎紙重建方法,其中:於步驟a)中,在取得各該紙條影像中白色間距的投影分佈直方圖與文字列的投影分佈直方圖後,進而求得各該紙條影像文字列的底線格線(即英文字母小寫x底線,Base-Line)的垂直座標位置,以及求得各該紙條影像文字列的底線格線投影分佈直方圖。
  7. 依據申請專利範圍第1項所述之基於文件影像紋理特徵之碎紙重建方法,其中:於步驟b)中,主要是利用前述步驟中各該紙條影像的投影分佈直方圖來得知各該紙條影像的文字列所佔範圍,並且利用各該紙條影像的左切口及右切口的黑色文字像素來判斷是否為特殊紙條;當一該紙條影像的左切口及右切口的黑色文字像素的個數低於一預定門檻值時,則判定為空白紙條;當只有左切口黑色文字像素的個數低於該預定門檻值時,則判定為最左邊之紙條;當只有右切口黑色文字像素的個數低於該預定門檻值時,則判定為最右邊之紙條。
  8. 依據申請專利範圍第1項所述之基於文件影像紋理特徵之碎紙重建方法,其中:於步驟c)中,對各該紙條影 像進行二元編碼時,係將具有文字列的區域編為1,空白區域編為0。
  9. 依據申請專利範圍第1項所述之基於文件影像紋理特徵之碎紙重建方法,其中:於步驟c)中,係利用形態學中的結構性元件將底線格線投影分佈相近的點合併成同一區塊,藉以確保投影分佈直方圖中相連區塊為相同文字列。
  10. 依據申請專利範圍第1項所述之基於文件影像紋理特徵之碎紙重建方法,其中:於步驟d)中,該預定計算法則是:將各該紙條模型裡的紙條編碼兩兩比對,每有一個碼不同則負相關度分數加一分,因此每二個紙條編碼就可得到一個負相關度分數。
  11. 依據申請專利範圍第1項所述之基於文件影像紋理特徵之碎紙重建方法,其中:於步驟d)中,該預定計算法則是:先假設英文文字字串長度均相同而為一平均字串長度,再利用平均字串長度與所有的可能字串長度的差值的絕對值累加而得到一負相關度分數。
  12. 依據申請專利範圍第1項所述之基於文件影像紋理特徵之碎紙重建方法,其中:於步驟e)中,在進行第一階段排序時,係先找出左白右字的紙條影像所代表的頂點為起始點,依序依據相關度分數由大至小來排序各該頂點,而排序出各該紙條影像的順序。
  13. 依據申請專利範圍第1項所述之基於文件影像紋理特徵之碎紙重建方法,其中:於步驟e)中,在進行第二階段排序時,係先把相同紙條編碼的兩兩紙條影像之間的連 接邊的尾部紙條右切口與連接邊的頭部紙條左切口的關係,以複數有向邊來分別表示之,再利用圖學的邊進行收縮運算。
  14. 依據申請專利範圍第13項所述之基於文件影像紋理特徵之碎紙重建方法,其中:在利用圖學的邊進行收縮運算時,係不斷的把相同紙條編碼的二該紙條影像所代表的頂點合併成為新的頂點,最終即會把所有的頂點合併為一個頂點,在收縮運算合併過程的各個頂點的順序即為各該紙條影像的順序。
TW098118465A 2009-06-03 2009-06-03 Shredding Method Based on File Image Texture Feature TWI394098B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW098118465A TWI394098B (zh) 2009-06-03 2009-06-03 Shredding Method Based on File Image Texture Feature
US12/588,866 US8073264B2 (en) 2009-06-03 2009-10-30 Image-based techniques for shredded document reconstruction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW098118465A TWI394098B (zh) 2009-06-03 2009-06-03 Shredding Method Based on File Image Texture Feature

Publications (2)

Publication Number Publication Date
TW201044325A TW201044325A (en) 2010-12-16
TWI394098B true TWI394098B (zh) 2013-04-21

Family

ID=43300782

Family Applications (1)

Application Number Title Priority Date Filing Date
TW098118465A TWI394098B (zh) 2009-06-03 2009-06-03 Shredding Method Based on File Image Texture Feature

Country Status (2)

Country Link
US (1) US8073264B2 (zh)
TW (1) TWI394098B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8325973B2 (en) * 2008-12-31 2012-12-04 Jason Lee Moore Generating data representative of a fragmented document
US8218875B2 (en) 2010-06-12 2012-07-10 Hussein Khalid Al-Omari Method and system for preprocessing an image for optical character recognition
US8478032B2 (en) * 2011-05-24 2013-07-02 Hewlett-Packard Development Company, L.P. Segmenting an image
CN103700081B (zh) * 2013-12-17 2016-08-17 河海大学 一种碎纸机破碎英文文档的恢复方法
KR101635675B1 (ko) * 2014-08-13 2016-07-01 최승규 파쇄된 문서를 복구 하는 장치 및 방법
CN104537368B (zh) * 2015-01-07 2018-10-09 北京工业大学 一种针对英文印刷文字双面打印破碎文件复原分析方法
CN106652023B (zh) * 2016-12-13 2019-08-30 华中科技大学 一种大规模无序图像快速运动恢复结构的方法及系统
US10621693B2 (en) * 2016-12-28 2020-04-14 Ancestry.Com Operations Inc. 2D multi-coordinate adaptive dynamics programming method for robust document registration
CN109389114B (zh) * 2017-08-08 2021-12-03 富士通株式会社 文本行获取装置和方法
CN108596182B (zh) * 2018-04-24 2020-06-16 大连民族大学 满文部件切分方法
CN110968723B (zh) * 2018-09-29 2023-05-12 深圳云天励飞技术有限公司 一种图像特征值的搜索方法、装置及电子设备
CN109584163B (zh) * 2018-12-17 2020-12-08 深圳市华星光电半导体显示技术有限公司 碎纸片原始文件复原方法
CN110246098B (zh) * 2019-05-31 2021-07-27 暨南大学 一种碎片复原方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020070300A1 (en) * 2000-04-24 2002-06-13 Mclean Brent J. Intelligent document shredder device
US20030231800A1 (en) * 2002-05-30 2003-12-18 Brad Anderson Method to create and reconstruct image presentation system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040205662A1 (en) * 2002-05-30 2004-10-14 Brad Anderson Image preservation and reconstruction
US7456983B2 (en) * 2003-07-02 2008-11-25 Hewlett-Packard Development Company, L.P. System and method for preventing comprehension of a printed document

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020070300A1 (en) * 2000-04-24 2002-06-13 Mclean Brent J. Intelligent document shredder device
US20030231800A1 (en) * 2002-05-30 2003-12-18 Brad Anderson Method to create and reconstruct image presentation system

Also Published As

Publication number Publication date
TW201044325A (en) 2010-12-16
US20100310115A1 (en) 2010-12-09
US8073264B2 (en) 2011-12-06

Similar Documents

Publication Publication Date Title
TWI394098B (zh) Shredding Method Based on File Image Texture Feature
US7386789B2 (en) Method for determining logical components of a document
JP4757001B2 (ja) 画像処理装置、画像処理方法
Lin et al. Reconstruction of shredded document based on image feature matching
JP2004126648A (ja) 画像処理方法、画像処理装置および画像処理プログラム
US6389166B1 (en) On-line handwritten Chinese character recognition apparatus
CN113723330B (zh) 一种图表文档信息理解的方法及系统
CN103914509A (zh) 对打印文件进行认证的方法
JPH05225378A (ja) 文書画像の領域分割システム
Roy et al. A system for word-wise handwritten script identification for Indian postal automation
JP3774690B2 (ja) 画像を文字画像行に分割する方法および装置、ならびに、文字画像認識方法および装置
US9355311B2 (en) Removal of graphics from document images using heuristic text analysis and text recovery
CN103839252A (zh) 图像处理装置
JP2011090578A (ja) 画像処理装置、画像処理方法及びプログラム
Al-Shabi Text Detection And Character Recognition Using Fuzzy Image Processing‖
JP2021044803A5 (zh)
US11908216B2 (en) Musical notation system
Winder et al. Extending page segmentation algorithms for mixed-layout document processing
CN113450365B (zh) Psd图片的自动切片方法及装置
JPH1125222A (ja) 文字切り出し方法及び文字切り出し装置
CN115171133A (zh) 用于不规则表格图像拉平的表格结构检测方法
CN112580594A (zh) 文档识别方法、装置、计算机设备和存储介质
De Smet et al. Semiautomatic reconstruction of strip-shredded documents
Aparna et al. A complete OCR system development of Tamil magazine documents
JP4116377B2 (ja) 画像処理方法および画像処理装置