TW464811B - Storage management system for document image database - Google Patents

Storage management system for document image database Download PDF

Info

Publication number
TW464811B
TW464811B TW087116281A TW87116281A TW464811B TW 464811 B TW464811 B TW 464811B TW 087116281 A TW087116281 A TW 087116281A TW 87116281 A TW87116281 A TW 87116281A TW 464811 B TW464811 B TW 464811B
Authority
TW
Taiwan
Prior art keywords
storage
document
data
file
scope
Prior art date
Application number
TW087116281A
Other languages
English (en)
Inventor
Daniel P Lopresti
Original Assignee
Matsushita Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Corp filed Critical Matsushita Electric Corp
Application granted granted Critical
Publication of TW464811B publication Critical patent/TW464811B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/333Mode signalling or mode changing; Handshaking therefor
    • H04N1/3333Mode signalling or mode changing; Handshaking therefor during transmission, input or output of the picture signal; within a single document or page
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/333Mode signalling or mode changing; Handshaking therefor
    • H04N2201/33307Mode signalling or mode changing; Handshaking therefor of a particular mode
    • H04N2201/33342Mode signalling or mode changing; Handshaking therefor of a particular mode of transmission mode
    • H04N2201/33357Compression mode

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

Α7 Β7 Λ、發明説明(/) 本發明係關於一種文件影像資料庫之儲存管理系統>
I 並且尤其是關於使用文件分析將文件分解爲邏輯區域並且 依據各種儲存較佳法則而減低該等區域之儲存尺度之文件 減小裝匱之一種文件影像資料庫中管理儲存的方法。 在文件影像資料庫系統中 > 儲存管理是一中心議題。 使用者對於以影像形式儲存並且取得文件表示漸增興趣。 但是I雖然硬碟以及可再移除的媒體之尺度增加了 I目前 文件影像資料庫系統中的儲存容量不足以支援一種無紙辦 公室。爲了展示此問題,以300dpi被掃瞄之一標準81/2x1 1 頁(每邊具有1吋邊限)將量得1,950x2,70 0 = 5,265,000像素。 以灰階表示,各像素需要以一位元組表示,並且因此將需 要大約5百萬位元組的儲存量。該掃瞄頁在24-位元彩色模 式將需要15百萬位元組儲存量並且在二値化模式將需要 65 8,1 2 5位元組的儲存量》因此,1,000頁相似的掃瞄將需要 在600百萬和1 50億位元組之間的位元組儲存在文件影像資 料庫中。因爲辦公室平均具有多於1,000頁,因此需要良好 的技術以有效地在一組文件影像資料庫中管理儲存。 在一組文件影像資料庫之內,在文件影像品質以及其 儲存資料檔案之尺度之間通常有一折衷。一般而言|高品 質之文件表示需要更多儲存空間》爲了保持可接受的品 質,需要具有超出容量之一組文件影像資料庫。利用減低 較不重要的文件部份之儲存需要•儲存容量可在保持文件 之重要方面的高品質之同時被減低。一般而言,儲存管理 利用以相同的預定深度以及解析度掃瞄每份文件而開始| 4 本度適州屮κ囤家棍蹲(CNS ) Μ規格(21 ο X 297公漦) ----------裝------訂^--------.4. (請先閱讀背面之注意事項再填寫本頁) /1848 1 1 A7 B7五、發明説明(2 ) 使得保持一特定文件中影像品質所需要的最低可接受之設 | 定被應用至所有的文件。以相同深度和解析度掃瞄每份文 件之各部份而無視於其內容則需要超出的儲存空間。進一 步地,一且進入該系統,文件之儲存尺度不被進一步地分 析以尋求可能之減小。另外,儲存管理可以讓系統使用者 人工地指定每份輸入該系統文件的掃瞄深度和解析度而開 始。以此方式,該掃瞄參數和影像表示細節可在各種情況 中被指定,但是付出不必須的使用者介入之高成本。進一 步地,這些人工儲存管理策略只被應用於文件層次並且只 在文件被輸入系統時被應用。 因此,需要一種有效的方法以在一組文件影像資料庫 之內管理儲存》成熟的文件分析和儲存管理技術應該被使 用以在保持文件影像之高品質的同時減少文件影像資料庫 之尺度。進一步地,文件分析方法需要自動地尋找並且辨 識在被掃瞄文件影像中的區域。不同的儲存管理技術可接 著被應用至各區域,並且因此在保持文件內重要區域之品 質的同時減低被儲存文件影像的整體尺度β通常,文件可 被重新分析並且儲存管理技術可被重新應用以進一步地減 低先前儲存的文件影像之儲存尺度。 本發明是在一組文件影像資料庫系統中管理文件儲存 的一種方法。一旦一文件被轉換爲資料庫系統之內的數位 資料檔案時,在該文件之內的邏輯區域依據預定法則而被 辨識。代表該文件之數位資料檔案可接著被分解爲不同的 區域並且依據儲存較佳法則利用儲存減小裝置而修改。在 _______________________ ^ 本紙張尺度適川¥阚國家標埤((1吧)/\4規格(210/ 297公箱) (請先閱讀背而之注意事項再壤离本頁) .裝. *1Τ 線 4 6 4 8 1 Α7 Β7 五、發明説明(多) 將各區域之儲存尺度減低爲較小的減低區域之後該區域被 編輯爲一組減低資料檔案並且儲存在資料庫系統中。通 常,文件分析和修改可被重複以進一步地減低先前儲存資 料檔案之儲存尺度。 熟習本技術者在讀取下面的詳細說明並且參考附圖之 後將明白本發明的另外優點和特點,其中: 第1圖是展示支援一組文件影像資料庫系統中儲存管理 之適當系統構件組態的圖形; 第2圖是展示本發明裝置的主要構件之方塊圖: 第3圖是展示本發明之主要功能的方塊圖; 第4圖是展示使用本發明之儲存管理技術在一組文件影 像資料庫中減低儲存容量之步驟的一種功能圖; 第5A圖是一組文件相片區域的灰階統計圖; 第5B圇是一組文件之文字區域的灰階統計圖; 第6 A-6C圖是展示以不同解析度被取樣的不同尺度文字 之讀取性的文字影像; 第6D-6F圖是展示以不同解析度被取樣的不同尺度之輸 入文字的OCR輸出之文字影像: 第7A-7D圚是展示使用漸增積極性1PEG設定之有損被 壓縮影像的惡化之一艘魚船的灰階影像; 第S圖是展示在三年週期中應用至一組假設文件影像資 料庫之三組不同儲存管理策略的效果之圖形:\ 第9圖是展示使用本發明之儲存管理技術依據使用者註 解以減低在一組文件影像資料庫中的儲存容量之步驟的功 ^紙張尺中囤1¾家榡??.((’NS ) Μ规格(21 ΟΧ297公楚〉 (請先聞讀背面之注項再填寫本Η ) -裝 訂- 線 tr^ir·,部屮欢if.i?·局ΠΤ...消^合作私印纪 4648 1 1 a? _B7__ 五、發明説明(4 ) 能圖: 第1 Ο A和1 0B圖展示用以觸發一組預定儲存較佳法則之 使用者註解的範例文件: 第11圖是被使用以在一組文件影像資料庫系統中構成 儲存較佳法則的使用者界面之一組對話盒子;以及 第12A和12B圖是展示裝入一組儲存較佳法則之使用者 註解的範例文件: 第13圖是展示在一種較佳實'施例中之裝置的構件之方 塊圖。 下面的較隹實施例之說明僅作爲範例並且不欲限制本 發明或者其應用或者其使用。 第1圖展示支援一組文件影像資料庫系統丨〇中儲存管理 策略的適當系統構件。在本發明中,可以使用多種的輸入 元件將文件12輸入至文件影像資料庫系統1 〇。例如’文件 12可以使用數位影印機17或者文件掃瞄器18而被直接地輸 入至文件影像資料庫系統1 〇。另外’先前數位化的文件12 可以從遠處位置被接收進入文件影像資料庫系統1 〇。舉例 而言,一組文件可以從網際網路被下載或者從一組遠處終 端機經由一組傳真機19被傳送。不論如何,一組文件12被 轉換爲一組數位文件檔案並且儲存在一組文件影像資料庫 1 4之內。各系統構件沿著網路22而被連接。一組電腦使用 者界面20允許系統使用者觀看儲存文件並且構成儲存較佳 法則以管理資料庫系統1 〇。此外'一組電子筆2 1可以被附 帶至使用者界面20以便利使用者辨識儲存喜愛之選擇。舉 一 _______1_„_ -----Γ--V--裝------訂 ^---:----7冰 -U^— (請先閱讀背面之注意事項再祯寫本K ) Α7 Β7 ΛΒ 48 Π Λ '發明説明(5") 例而言,一旦文件被輸入該系統’使用者可以使用電子筆 2 1以電子式地”標示”在一組儲存文件之內的重要區域•最 後•各種附帶在網路22的遠處電腦可作爲允許使用者觀看 儲存於文件影像資料庫系統10之內的文件影像之输出元件 24。熟習本技術者將可了解’多種文件管理構件可被使用 以產生不同組態的文件影像資料庫系統10。 支援一組文件影像資料庫中文件之儲存管理的一組裝 匱26被展示在第2圖中。裝置26之主要的構件包含耦合至文 件影像資料庫丨4的一組文件分析器模組27 ’以及耦合到文 件分析器模組27和資料庫1 4之至少一組的文件修改模組 28。此外,一組輸入元件1 6以及一組使用者界面模組2〇被 耦合至文件影像資料庫14» 在文件影像資料庫系統10中用以管理文件之儲存的主 要步驟被展示在第3圖中。一旦文件I2被輸入30到文件影像 資料庫系統10,代表該文件之資料檔案31可被分析32»文 件分析32包含辨識在文件之內的邏輯區域並且將資料檔案 分割成爲辨識區域。各邏輯區域可依據儲存較佳法則利用 減低其儲存尺度而被修改34。儲存較佳法則可分別地被裁 量成爲各區域的唯一特性。在被儲存36成爲在資料庫14中 的儲存資料檔案3 7之iiij_ >分別的Μ域被iEUU爲一組資料檔 案3 5。通常,一組觸發訊息3 8可以在文件影像資料庫系統 10之內被產生以重新啓動儲存在該系統之內之一份特定文 件或者所有文件的文件修改》 尤其是,第4圖展示應用儲存管理策略至一組範例文件 ______________________S_ 本紙張尺度阈國家榡肀(('NS ) Λ4規格(210X297公釐) 4648 11 A7 B7 :ΚΜ·邪屮少樣T;消"At作社印$, 五、發明説明(6 ) 的一組功能圖。原始文件42需要7,648千位元組以將被掃瞄 I 文件儲存爲資料庫系統10中的資料檔案43。但是,依據本 發明之方法分析並且修改資料檔案43,儲存資料檔案54可 被減低至525千位元組》 文件分析開始於辨識在文件之內的邏輯區域,並且接 著分割辨識區域以供進一步地儲存操作。有效的儲存管理 需要能夠自動地找出並且辨識在一組文件之內的邏輯區 域。辨識邏輯區域之法則可以依據各種準則而被建立在該 系統之內。例如,灰階統計圖分析或者連接構件分析是可 被使用以依據在文件中的資料型式(亦即,文字 '圖示、相 片’等等)辨識區域之技術。一張相片的灰階統計圖不同於 文字區域的灰階統計圖。如第5A圖所展示,相片區域之統 計圖包含較寬的灰階値範圍,而如第5B圖所展示,文字之 統計圖包含許多白色像素(背景)以及靠近黑色(文字)的小峰 値之小範圍灰階像素。這種性質可被探討以依據資料型式 將該頁分解爲邏輯區域。 連接構件分析是另一辨識方法。位元映射影像資料之 分析是利用抽取連接構件以辨識代表分別文字或者字母或 者非文字影像之區域的構件或者連接構件》更明確地說, 本發明使用文件分析以及計算幾何技術從文件影像抽取題 目、圖文標題以及相片。該影像被儲存在一組位元映射緩 衝器中,它接著被連接構件分析所分析以抽取某種關於連 接構件或者出現在影像頁上之墨跡的幾何資料。這幾何資 料或者連接構件資料被儲存在一組資料結構中,它接著依 —ί--V 1 -------< —;--*--裝------訂 ί---;----γ-·^· _^___^^_一 (請先閱讀背面之注意事項再填寫本!) 本紙张尺度洎圯屮囡K家標埤(('NS ) Λ4规格(210X29*7公釐) Α7 Β7 五、發明説明(7 ) 據各連接構件是否具有文字的幾何性質,或者影像部份的 ) 幾何性質,例如相片的位元映射版,而標示或者分類資料 的一組分類程序而被分析= 在分類之後’對於文字構件,該系統接著召喚連接構 件資料之最近鄰居分析以產生最近鄰居圖形。這些被儲存 在一組最近鄰居圖形資料結構中,其代表對應至各連接構 件的最近鄰居之鏈路列表的一組列表。該最近鄰居圖形在 對應至連接構件的資料,例如在圖文標題中的一行文字, 周圍形成限制盒子。該最近鄰居圖形接著依據連接最近鄰 居的限制盒子中心鏈路是否大致水平或者垂直而被分類成 爲水平或者垂直。垂直文字線,雖然在英文中很少遭遇, 在其他的語言,例如華文或者日文,卻是很普遍。 接著,一組濾波器模組分析該資料以決定所有水平資 料的平均字形高度,以及所有垂直資料之分別的平均字形 高度。接著,各字串水平資料被與平均値比較;並且各字串 垂直資料被與平均値比較,以選擇大於平均高度的字串或 者高度超出預定臨限的字串。如果需要·進一步改良的分 析可使用其他的幾何特點,例如字形是否爲粗體,或者利 用辨識代表在頁上被置中對齊之字串的資料,而被達成。 在選擇題目候選者之後,該等候選者被參考回到原始 的位元映射資料。基本上,連接構件的限制盒子被合併爲 與抽取題目相關的一組單一限制盒子並且該單一限制盒子 接著被參考回到位元映射資料,使得在限制盒子中出現的 任何位元映射資料可被選擇爲一組抽取題目。如果需要, ib 本紙張尺度適川屮闽四家椅4* ( (,NS ) Λ4現格(2]〇Χ297公釐) ------^---------^------,玎:--j----ΙΛ _^_- (請先閱讀背面之注意事項再填寫本頁) 4 6 4 8 11 at B7 五、發明説明(8 )
該抽取題目可使用光學文字辨識軟體而被進一步地處理I
I 以將題目影像轉換成爲題目文字》 相似地,在選擇相片候選者之後,該等候選者再次地 參考回到原始的位元映射資料。彼此重疊的相片候選者限 制盒子被合倂爲一組單一限制盒子而使得在限制盒子之內 出現的位元映射可被選擇並且抽取爲相片的一部份。如果 需要,與相片區域相關的圖文標題文字可使用光學文字辨 識軟體而被辨識並且處理。該圖文標題文字可接著被使用 爲一組標籤以協助辨識相片的內容或者稍後的尋找。該連 接構件分析方法一般地被揭示於美國專利(代理人待審編號 9432-00002 1,標題爲"從掃瞄文件影像之題目、圖文標題 和相片抽取”,Jiangying Zhou),1997年1月21曰建檔,其在 此被列入參考。這分析同時也可被使用以辨識在一組文件 之內的邏輯區域》 第4圖的範例文件中|具有相片資料型式的一組第一區 域44以及具有文字資料型式的一組第二區域46在原始文件 42中被辨識。當各區域被辨識後,第一區域(相片)44可從第 二區域(文字)46被抽取以供另外的文件修改。接著,該區域 將被修改以減低它們的儲存尺度。依據可應用的儲存較佳 法則|修改可以包含多種的儲存減小裝置。可被採用於修 改步驟中之各種儲存減小裝置將討論於下。 取樣深度是代表單一像素所需的位元組數目。普遍地 被目前掃瞄硬體/軟體所支援的深度包含24位元(彩色)' S位 元組(灰階)' 以及1位元(二値化)。其他在文件影像資料庫 —__Γ1 本紙张尺度进用_中闽囤家標埤(('NS ) ΛΊ規格(210X 297公釐) --------J---裝------訂^—K----ί _™_.- (請先閱讀背而之注意事項再填寫本頁)
可瞄 - 掃 機階 印灰 影代 位取 數化 和値 機二 真以 傳 α 如擇 例選 , 度 件深 元樣 入取 輸的 的制 用限 使受 被更 中—.用 統採 系能 五、發明説明(?) 文件以八倍減少所需以儲存一組影像的空間"進一步地, 以灰階影像取代24位元彩色以三倍減少所需的儲存空間。 因此,將24位元色彩區域儲存爲二値化區域可達成24倍的 減少。熟習本技術者將可了解利用臨限方法,一組影像之 取樣深度可被減低而不須重新掃瞄原始文件。雖然降低取 樣深度具有減少文件儲存需要之明顯優點,這儲存減小方 法必須被小心地實施以防止原始文件中重要資訊之遺失。 在相片的情況中|當從彩色映射至二値化時,重要細節被 遮蔽,但是減小至灰階位準在許多應用中可以提供足夠的 細節"另一方面,當被以明顯的黑色文字表示在白色的背 景上時文字通常較容易被讀取並且因此適合被儲存爲二値 化影像。因此,文件影像資料庫系統可以採用將文字區域 取樣深度減低至二値化的一種儲存較佳法則,同時僅將相 片區域減低至灰階》 減低取樣解析度是另一種儲存減小'方法。解析度是沿 著影像一維度所採取之每單位取樣數目。影像被取樣之啓 始解析度可依據輸入硬體而變化。舉例而言,被許多平台 式掃瞄器所使用的標準解析度是300dpi,因而標準CCITT族 群3的傳真解析度是2(Mxl96(高)以及204x98(低)。將取樣解 析度從300dpi減低至150dpi以4倍因數降低儲存空間。進一 步地,可達成減低儲存影像的解析度而不需重新掃瞄原始 的文件》如同深度的減少一般,減低取樣解析度必須被小 __ ____12 ίϋϋϋ國囷本涵(('NS ) Μ規格(2】OX 297公釐) I I —^ . 裝 訂 r,i _一_一 (讀先閱讀背面之注意事項再填寫本頁) A7 B7 464811 五、發明説明(β) 心地應用以防止儲存文件影像中重要細節的遺失。相片可 能看起來更"粗糙”。對於文字而言,惡化程度取決於字形 尺度。較大點字形可被以較低解析度取樣並且仍然保持可 被讀取;如第6A-6C圖所示,相同文字被以三組不同的解析 度:300dpi,200dpi和100dpi掃瞄。爲了防止有不可讀取的 文字 > 儲存較佳法則必須考慮在一特定區域之內的最小字 形尺度。文件分析可被達成以決定特定區域或者文件的最 小字形尺度,接著該特定區域可被適當地往下取樣。如果 一組區域包含9-點的文字,如第6C圖所示,以100dpi減少 該文字仍可保持可被讀取。另一方面,爲了在包含7-點的 文字之區域中保持讀取性1如第6B圖所示,取樣只應該被 減低至200dpi。因此| 一組儲存較佳法則應該依據該特定 區域及/或文件的最小字形尺度以及所需的讀取性而被構成 以減低取樣解析度。相似地,一組文件可以依據其他包含 在一組區域中的最小特點尺度利用往下取樣而被減低。例 如,一組線圖形可能具有可被使用爲最小特點尺度之最小 線寬度。 進一步地,降低的取樣解析度可大量地減低光學文字 辨識(OCR)軟體之正確度。爲了便利文件稍後的文字尋找, 文件可先以高解析度掃瞄進入該系統以足夠地支援OCR功 能》應注意OCR比人類讀者更敏感於取樣解析度,並且因 此相對容易被人讀取之文字可能產生不可靠的0 CR結果。 利用以300dpi和200dpi(100dpi結果是不可用的;OmniPage 的最小輸入解析度是200dPi)之解析度執行Caere 0mniPaSe _______________。 ____ 本紙張尺度適州屮國1¾¾:枕蜱((,NS } Λ4規格(210X297公1 > ---:--^-----裝------訂---K---- I | (請先閲讀背面之注意事項再填寫本頁) A7 B7 五、發明説明(") 專業版(6.0版)而產生的OCR結果被展示於第6D-6F圖。一旦 關鍵搜尋名稱被OCR軟體從儲存資料檔案抽取後,儲存較 佳法則可被應用以進一步地減低資料檔案之取樣解析度。 結杲,OCR捕捉支援尋找功能所需要的資訊,但是該文件 仍可被隨後減小以使系統中的儲存需要最小化。 其他可被應用至文件影像的儲存減小裝匱包含各種壓 縮機構。一般而言壓縮機構可以是無損壓縮或者有損壓 縮。無損壓縮係指原始資料可從被壓縮版本完全地回復之 機構。一般目的無損演算法包含Huffman和Lempel-Ziv編 碼。行程長度(Run length)編碼機構特別地適合於掃瞄之文 字影像並且可達成7: 1的壓縮比例•爲了達成更佳的壓 縮,必須放鬆原始資料可被完全地回復之限制。在有損壓 縮中,從解壓縮得到的影像可能包含某種數量的惡化。 JPEG標準是此種機構的一種範例IPEG是從影像移除高頻 率資訊以減低代表該影像所需要之位元數目的一種低通濾 波器並且它主要的目的是用以壓縮相片。JPEG可達成20 : 1 或者更佳的壓縮比例。 JPEG壓縮的效果展示於第7A-7D圖,其中展示漁船的 灰階影像與使用漸增積極性的JPEG設定而被壓縮之同樣影 像的三種版本。第7 A圖是原始的文件影像。在第7C圖中的 影像大約是原始影像尺度的10%而不具有任何顯著的惡化, 而在第7D圖中之影像展示明顯的惡化。小量的惡化在一些 應用中是可以被接受的,並且因此不同的儲存較佳法則是 適用於不同的應用。舉例而言,當相片是了解該文件所必 ____________________ 1^ 本紙張尺度適川中阖阉家榜41(<:'他)/'14规格(21(^ 297公漤) (锖先閱讀背面之注意事項典填转本筲) -装· 旅 Α7 Β7 4643 五、發明説明(/z ) 要時,應該應用適當的JPEG壓縮。另一方面,如果主要的 j 有關資訊是報紙文章的文字並且任何相關的相片僅爲補 充,則更積極的JEPG壓縮可以被應用至相片區域》在文字 方面】PEG不是很有效,並且因此適當的儲存較佳法則可以 有區別地Η將丨PEG壓縮應用至文件的相片區域。 回到第4圖之範例,利用減低取樣深度並且接著應用一 組無損壓縮機構,第二區域(文字)46的儲存尺度從6,000千 位元組被減低至33 6千位元組。當來自第一區域(相片)44的 1,776千位元組與被減低的第二區域(文字M8之3 36千位元組 組合時,所形成的儲存資料檔案50是原始文件42之 25%(2,1 12千位元組)。在此之後,儲存資料檔案50可依據 預定儲存較佳法則而被進一步地修改。一般而言,隨後的 修改可以不需重新啓動文件分析而發生》啓始文件分析將 捕捉供稍後文件修改所需要的資訊。重新執行文件分析可 以被應用,如果:(1)新的和更佳的文件分析常式成爲可 用,或者(2)使用者已改變他/她偏好因而需要重新執行文件 分析。 在這例子中,該儲存較佳法則需要適當的有損壓縮機 構在文件被輸入系統一個月之後被應用至文件的相片區 域。應用這儲存較佳法則至儲存資料檔案50,第一區域(相 片)44被減低成爲464千位元組,並且因此儲存資料檔案50 被進一步地減低至原始文件42的丨0%(800千位元組)之一組 第一減低資料檔案52。稍後| 一組更積極的有損壓縮機構 被應用至第一減低資料檔案52之第一區域(相片)44以達成 15 本紙张尺度边;1]中阐四家棍彳((,NS ) 規格(210X297公釐) I 1, I .1 |私衣 I -n n — , 1 線 -· -ί-:—— (諳先閲讀背面之注意事項再填寫本頁) 經浅部屮"標本為G-1-消贽合作社印5,1个 4648 11 A7 B7 五、發明说明(Η ) 52 8千位元組的第二減低賣料檔案54或者原始文件42的7%儲 存尺度。因此,將文件分割成爲區域並且依據區域的資料 型式減低區域的儲存尺度|這範例文件之儲存需要被顯著 地減低。進一步地,雖然壓縮相片區域而不會損失品質可 能不太吸引人,將儲存減小技術應用至包含文字和相片的 文件而不會惡化該頁的整體品質是重要的。 如上面所討論的範例所示,在整個資料庫系統的壽命 期間應用文件減小裝置也將同時顯著地減少系統儲存需 要。在資料庫系統之內所發生的狀況可啓動這文件進一步 的修改。因爲文件的重要性一般隨著時間而減低,分別文 件之重要性可以從文件被輸入系統的時間量或者從任何使 用者上次存取該特定資料檔案的時間量而被決定》這些指 示可作爲觸發重新分析程序的狀況。決定在文件影像資料 庫中已經達到儲存容量之臨限數量同時也可以作爲觸發重 新分析的一種條件。在這例子中,所有的儲存資料檔案可 以依據儲存較佳法則而被進一步地修改。 三組其他時間爲主的儲存管理策略效果被展示在第8圖 中。這三組策略在一組系統的三年週期中之不同時間被應 用,其中假設使用者每天輸入十組新的文件到系統中 > 每 頁需要2,1 1 2千位元組來儲存。在第8圖中,無儲存管理方 法的文件影像資料庫之預計成長大小被以標示”原始"的直 線所指示。一種第二方法應用一組適當的有損壓縮機構至 相片區域在文件被輸入系統四個星期之後壓縮各文件。結 果,在這情況中每頁的儲存尺度是529千位元組並且其在系 \'6 本紙張尺度珀川中固1¾家標哗(('NS ) Λ4%格(2ί〇Χ297公漦〉 ------------裝------訂:---^----線 _^_一_. (請先閱讀背面之注意事項再填寫本頁) A7 B7 4648 1 五、發明説明(β) 統上之影響以••被壓縮"線展示》在只壓縮資料之外,被決 定爲較不重要的儲存文件可以簡單地.被拋棄。依據可應用 的儲存較佳法則,抛棄資料可以包含文件的一部份,例如 不重要的相片,或者整個文件。另外,”抛棄”可以包含移 動較不重要文件離線或者到該文件影像資料庫之外的一組 較慢媒體》這些"抛棄"技術也可以同時系統化地發生而不 需要(人工)使用者介入β利用從系統中儲存長於六個月之文 件抛棄7S%的資料,第三方法(標示爲••被壓縮且抛棄")達成 更大的儲存減量。在三年之後"被壓縮且拋棄·’策略的淨儲 存僅是1,841百萬位元組而"被壓縮"策略的淨儲存是4,43 5百 萬位元組並且原始”策略的淨儲存是16,474百萬位元組。這 範例展示在文件影像資料庫系統的壽命之內利用儲存管理 策略之可能的儲存節省數量。熟習本技術者將可了解可利 用結合各種時間爲主的文件修改以及量裁以符合資料庫系 統之獨特需要的儲存較佳法則而達成更佳的結果。 第9圖所展示的功能圖依賴系統使用者所提供的註解以 辨識並且修改在儲存文件之內的區域。首先,使用者註解 可以被使用以辨識一組文件的特定區域。報紙上的文章可 以在文件被輸入至資料庫系統之前被使用者”標示”或者強 調。具有電子筆的一組使用者界面也可以提供用以註解先 前輸入至系統之文件的一種方法°文件分析技術可被使用 以辨識使用者標誌並且從儲存資料檔案抽取相關的區域。 在上方辨識區域中,辨識文字區域被保持在其原始的解析 度,而其餘的文件被重新取樣降至100dPi或者更少。在下 ___17_. _ 本紙張尺及適圯屮國g家榡埤(('NS ) Λ4規格(2丨公漦) I-----/--^--裝------訂^------ΐ -ί-1- {請先閱讀背面之注意事項再填寫本頁) 4648 1 1 A7 B7 五、發明説明(π ) 方辨識區域中,辨識文字僅被抽取並且其餘的文件被忽 j 略。因此,使用者註解可作爲用以在掃瞄文件之內辨識邏 輯區域之另一基礎。 其次,使用者註解可以觸發特定的儲存較佳法則。例 如,如第10A和1 0B圖所示,在文件的左上角具有預先列印” 重要"於其上之貼紙或者”X”標示,可被使用以指示這份文 件已經從一批的文件被辨識》該辨識文件可接著以比在此 批中其他文件較高的深度或者解析度而被取樣。另外,該 辨識文件可能顯示該文件將比在此批中其他文件較罕被重 新分析及/或在稍後時間較不會被拋棄。熟習本技術者將可 了解依據影像處理技術的限制可以採用各種註解文件的方 法。此外,多種不同的儲存較佳法則可被不同的註解所觸 發。 儲存較佳法則被儲存在文件影像資料庫之內並且可被 存取以決定哪一種儲存減小裝置將被應用至文件的特定區 域。儲存較佳法則可以經由系統使用者界面而被設定、從 輸入文件抽取、或者被系統之內的一組推理模組所產生。 首先,經由使用者界面之一組對話盒子而得到儲存較隹法 則是一種普遍方法。一組文件影像資料庫之對話盒子的•’仿 製品"被展示在第Π圖中。使用者被允許指定應用至文件之 各種邏輯區域的壓縮程度,以及文件是否將依據它們的年 份以及系統中可用的儲存空間之數量而被進t步地壓縮。 較佳法則可依單份文件而指定或者指定給所有輸入該系統 的文件。熟習本技術者應可了解可發展更複雜的使用者界 1'8 f紙張尺度適川屮闽K家榡碑< (、NS ) Λ4規格(210X297公釐) -----ϊ——:--裝------訂;--I----1-^ j (請先閲讀背面之注意事項再填本頁) 4 6 4 8 1 1 A7 __ B7 五、發明説明(/6 ) 面以產生更進一步的儲存較佳法則。 其次,儲存較佳法則可以直接地從輸入文件被抽取。 除了僅觸發一組預定儲存較佳法則的應用之外’使用者的 註解可以包含一組儲存較佳法則。舉例而言,一組註解, 例如”壓縮所有的相片"或者如果在六個月內未觀看則拋棄 _·,可以被寫入該文件或者包含一組條碼的"貼紙”便條可以 被附帶於該文件。具有使用者註解範例的文件被展示於第 12A和12B圖中。利用解釋使用者註解,該文件影像資料庫 系統將應用適當的儲存減小裝置以提供該儲存策略。不像 現有的方法,使用者註解可以被直接地對準到文件之內的 特定區域。熟習本技術者將可了解,利用光學文字辨識技 術,系統軟體可被構成以將使用者註解轉換爲被定義的儲 存較佳法則9 第三,文件影像資料庫系統通常需要具有"學習”的能 力。使用人工智慧或者其他的推理計算技術,儲存較佳法 則可以在與文件影像資料庫系統互動時依據先前的使用者 樣型而被產生。該系統可以使用一組層級以便在不同的方 法構成的衝突法則之間決定哪一儲存較佳法則將被應用。 例如,使用者註解將在系統產生法則之前被應用|而使用 者輸入法則將作爲原定。無視於構造方法,文件修改將依 據可應用的儲存較佳法則而被應用至一組文件》 本發明裝置26之一組較佳實施例展示於第13圖。文件 影像資料庫14被進一步地定義成爲用以儲存文件影像之一 組文件資料結構76以及用以儲存儲存較佳法則之一組儲存 __________1~9 ϋ张尺家標冷((,NS > Μ規格(2丨0>< 297公梦_ ) -----------裝------訂„------^森 -_-ί-^_ (請先聞請背面之注意事項再填寫本頁) β 48 1 TJ at __Β7 五、發明説明('Γ ) 法則^料結構78。文件分析器模組27被耦合至文件資料結 構76 = —組時間表模組80同時也被耦合至文件分析器模組 2 7以啓動文件分析程序。爲了便利文件分析,文件分析器 模組27進一步地包含一組灰階資料分析器82 ' —組字形尺 度分析器84、一組註解辨認器86、以及一組連接構件分析 器88 »工作緩衝器90被使用以在文件分析/修改程序時保持 資料檔案並且被耦合於文件分析器模組27和文件修改模組 29之間。文件修改模組28包含一組臨限器92、一組光學文 字辨認器94、一組取樣器96、以及一組壓縮子系統98,其 中該壓縮子系統98包含一組有損壓縮器100以及一組無損壓 縮器102,以便依據從儲存法則資料結構78存取的儲存較佳 法則修改資料檔案。一組推理產生器模組*79也存取儲存法 則資料結構78 »這些模組形成裝置26的核心構件。 此外,使用者界面20包含一組瀏覽器110、一組元件控 制器丨08、一組法則輸入器1 06以及一組時間表控制器1 〇4。 使用者界面20經由瀏覽器110被耦合至文件資料結構76以觀 看儲存文件並且經由法則輸入器1〇6被耦合至儲存法則資料 結構以操作儲存較佳法則。與使用者界面20相關的一組 元件控制器1 被使用以控制輸入元件16之輪入參數。輸入 元件1 6經由輸入緩衝器1 1 2被耦合至文件資料結構76以便在 儲存之前操作文件影像》法則抽取模組114被耦合至輸入緩 衝器112以抽取可被置放在輸入文件上的儲存較佳法則。抽 取儲存較佳法則接著被儲存在儲存法則資料結構78中•一 組推理產生器模組79也被耦合至儲存法則資料結構78以輸 ___________________20_ 张尺度"5^屮國四家標冷((、NS ) Λ4規格(21〇乂29"?公釐) ----------裝-------訂---:---- .. π (請先閱讀背面之注意事項再填寫本頁} 4848 t t A7 B7 五、發明说明(β ) 入所產生的儲存較佳法則。最後,使用者界面20之時間表 控制器1 04被耦合至時間表模組80以提供使用者啓動文件分 析。 上面的揭示和說明僅爲本發明之實施範例。熟習本技 術者從上面的討論和附圖以及申請專利範圍將可了解*本 發明可有各種改變、修改和變化而不會脫離本發明之精神 和範_ = ---:-------裝------訂.--卜--- . . i__^_ {請先閱讀背面之注意事項再填寫本页) :&浓部屮决^Τ:ΪΆ只T,消牝合作"印ΐ! ___________21 中國㈤指“(('吧)八4規格(210/297公釐) 46481! , A7 ---_B7_ 五、發明説明) 元件標號對照表 10 ---- 管理資料庫系統 12 文件 14 件影像資料庫 16 輸入元件 17 數位影印機 18 文件掃瞄器 19 -----~~~— 傳真機 20 使用者界面 21 --"> . 電子筆 22 網路 24 輸出元件 26 裝置 27 •~^一 - 文件分析器模組 28 文件修改模組 30 輸入 3 1 資料檔案 32 ----— 文件分析 34 修改 35 資料檔案 36 儲存 37 _ 儲存資料檔案 38 觸發訊息 42 原始文件 43 資料檔案 44 第一區域 46 * 第二區域 _ 48 被減低的第二區域 50 儲存資料檔案 _ 52 第一減低資料檔案 54 第二減低資料檔案 78 儲存法則資料結構 79 推理產生器模組 80 時間表模組 82 灰階資料分析器 84 字形尺度分析器 86 註解辨認器 88 .. 連接構件分析器 90 工作緩衝器 92 臨限器 94 光學文字辨認器 96 取樣器 98 壓縮子系統 (請先閱讀背面之注意事項再填寫本頁) -裝' 、ϊτ 本紙張尺廋珣川屮阈囚Ϊ:掠彳((,NS ) Λ—微棺(21 Ox 297公费)

Claims (1)

  1. 4648 1 A8 B8 C8 D8 經濟部中央標隼局員工消費合作社印製 六、申請專利範圍 1. 一種文件影像資料庫系統中文件儲存之管理方 法I其中該文件已被轉換成爲一種數位資料檔案,包含的 步驟有: 分析該資料檔案,因而在該文件之內至少一區域依據 辨識法則被辨識並且該資料檔案被分割成爲該等區域; 依據儲存的較佳法則修改該等區域,其中該等區域利 用儲存減低裝置修改以減低該區域的儲存尺度而成爲減低 區域; 編輯該等減低區域成爲一組減低資料檔案;以及 儲存該減低資料棺案於該資料庫中》 2. 如申請專利範圍第1項之方法,其中該辨識法則依 據捕捉自該文件的資料型式辨識一區域。 3. 如申請專利範圍第丨項之方法,其中該辨識法則依 據捕捉自該文件之標誌辨識一區域》 4- 如申請專利範圍第1項之方法,其中該儲存減低裝 置包含利用減低該區域之取樣深度而減低該等區域之儲存 尺度。 5·如申請專利範圍第丨項之方法,其中該儲存減低裝 匱包含利用減低該區域之取樣深度而減低該等區域之儲存 尺度 > 因而該取樣解析度是利用具有文字資料型式之該區 域中的最小特性尺度而決定。 6 ·如申請專利範圃第1項之方法*其中該儲存減低裝 置包含利用壓縮該區域而減低該區域之儲存尺度。 7. 如申請專利範画第6項之方法,其中該壓縮進—步 24 本紙張尺度適用中國困家梯準(CNS > A4規格(210X297公釐) (請先聞讀背面之注意事項再填寫本頁) .裝. '線 648 1 Λ8 Β8 C8 D8 六、申請專利範圍 地定:義爲~種無損壓縮方法,因而該無損壓縮方法被應用 至具有文字資料型式和圖形資料型式之至少一種的該區 域。 8. 如申請專利範圍第6項之方法,其中該壓縮進一步 地定義爲一種有損壓縮方法,因而該有損壓縮方法被應用 至具有文字圓形資料型式之該區域。 9. 如申請專利範圍第1項之方法|其中該儲存減低裝 置包含抛棄該資料檔案中該等區域之至少一組。 10. 如申請專利範圍第1項之方法,其中該等儲存較佳 法則依據該區域中資料型式修改該等區域》 Η .如申請專利範圍第1項之方法,其中該等儲存較佳 法則依據駭文件上面之使用者標誌修改該區域》 I2·如申請專利範圍第1項之方法•其中該等儲存較佳 法則依據相關於該資料檔案之時間參數修改該等區域。 1 3 .如申請専利範圍第1項之方法,其中該等儲存較佳 法則是利用一組較隹模組而產生,以至於被產生的較佳法 則是依據於被該系統使用的先前較佳樣型。 1 4.如申請專利範圍第1項之方法,進一步地包含的步 驟有: 重新分析該減低資料檔案,因而該重新分析是利用在 該資料庫系統之內的條件而被觸發;以及 依據該儲存較佳法則修改該減低資料檔案= I5.如申請專利範圍第14項之方法,其中該條件進一 步地被定義爲自從該文件被轉換成爲資料檔案之後的時間 2.5 本紙垠尺度適用中國國家標準(CNS ) Α4規格(21〇Χ297公釐) Γ _ — ΓI n n I n 訂 11 n 叫 ^ ί * (锖先閲讀背面之注意事項再填寫本頁) 經濟部中央標率局員工消費合作社印裂 A8 B8 C8 D8 4648 1 六、申請專利範圍 22. —種用以支援文件影像資料庫中文件之儲存管理 系統的裝置,該文件已被轉換成爲一種數位資料檔案,包 含有: 用以儲存該等資料檔案之一組資料庫; 耦合至該資料庫用以辨識該文件中至少一區域並且用 以分割該文件成爲該等區域之一組分析模組;以及 耦合至該資料庫和分析模組之至少一組以便依據儲存 較佳法則減低該等區域之儲存尺度的一組修改模組。 23. 如申請專利範圔第22項之裝置,其中該資料庫包 含用以儲存該等資料檔案之一組文件資料結構以及用以儲 存該等儲存較佳法則之一組儲存法則資料結構。 24. 如申請專利範圍第22項之裝置,其中該分析模組 進一步地包含一組灰階資料分析器、一組連接構件分析 器、一組字形尺度分析器、以及一組標誌分析器。 25. 如申請專利範圍第22項之裝置,其中該修改模組 進一步地包含一組臨限器、一組光學文字辨認器、一組取 樣器、以及一組壓縮子系統’其中該壓縮子系統包含一組 有損壓縮器以及一組無損壓縮器。 26. 如申請專利範圍第22項之裝置,進一步地包含可 被一組輸入元件、該分析模組、該修改模組以及該資料庫 之至少一組所存取以處理該等資料檔案之一組記憶體,其 中該記憶體包含一組輸入緩衝器以及一組工作緩衝器6 27. 如申請專利範圍第22項之裝置,進一步地包含轉 合至該分析模組以便依據在該系統之內的條件觸發該等資 27 本紙張尺度適用中國國家襟準(CNS ) A4規格(210X 297公釐) (請先閲讀背面之注^^項再填寫本頁) 裝 -1T 經濟部中央標準局員工消費合作社印製 經濟部中央標準局員工消費合作社印製 C8 D8 __ 七、申請專利範圍 料檔案之重新分析之一組時間表摸組。 28. 如申請專利範圍第22項之裝匱,進一步地包含耦 合至一組輸入元件以及該資料庫之至少一組的一組使用者 界面,其中該使用者界面包含用以觀看該等資料檔案之一 組瀏覽器裝置,用以控制一組輸入元件的輸入參數之一組 元件控制裝置、以及用以操作該儲存較佳法則之一組法則 輸入裝置》 29. 如申請專利範圍第22項之裝置,進一步地包含耦 合至該資料庫用以從該等資料檔案抽取儲存較佳法則之一 組較佳抽取模組。 30. 如申請專利範圍第22項之裝置,進一步地包含耦 合至該資料庫用以依據被該系統所使用的先前較佳樣型而 產生儲存較佳法則之一組推理模組。 31. —種用以支援文件影像資料庫中文件之儲存管理 系統的裝置,該文件已被轉換成爲一種數位資料檔案,包 含有: 用以儲存該等資料檔案之一組資料庫; 耦合至該資料庫用以辨識該文件中至少一區域並且用 以分割該文件成爲該等區域之一組分析模組; 耦合至該資料庫和分析模組之至少一組以便依據儲存 較佳法則減低該等區域之儲存尺度的一組修改模組;以及 耦合至該分析模組以便依據在該系統之內的條件觸發 該等資料檔案之重新分析之一組時間表模組。 3 2 .如申請專利範圍第3 1項之裝置•其中該條件進一 2.8 本紙浪尺度適用t國爾家椹华(CNS ) A4規格{ 2!0X297公釐) I . ^ - 裝 訂 「' 線 {請先閲讀背面之注項再填寫本頁) A8 B8 C8 D8 4 6 4 8 1 1 六、申請專利範圍 步地被定義爲自從該文件被轉換成爲資料檔案之後的時間 量。 33.如申請專利範圍第3丨項之裝置,其中該條件被進 一步地定義爲自從使用者上次存取該特定資料檔案之後的 時間量。 34·如申請專利範圍第“項之裝置,其中該條件被進 一步地定義爲當在該資料庫系統之內量測時超出儲存容量 之臨限數量。 ---.-I--------裝------訂——---線 (請先閲讀背面之注^^^-再填寫本頁) 經濟部中央標隼局員工消費合作社印裝 本紙張尺度適用中國國家標準(CNS ) A4規格(2i〇X297公釐)
TW087116281A 1997-10-03 1998-09-30 Storage management system for document image database TW464811B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/943,428 US6298173B1 (en) 1997-10-03 1997-10-03 Storage management system for document image database

Publications (1)

Publication Number Publication Date
TW464811B true TW464811B (en) 2001-11-21

Family

ID=25479649

Family Applications (1)

Application Number Title Priority Date Filing Date
TW087116281A TW464811B (en) 1997-10-03 1998-09-30 Storage management system for document image database

Country Status (6)

Country Link
US (1) US6298173B1 (zh)
EP (1) EP1027785B1 (zh)
CA (1) CA2310807C (zh)
DE (1) DE69832411T2 (zh)
TW (1) TW464811B (zh)
WO (1) WO1999018693A1 (zh)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0926587A1 (en) * 1997-12-23 1999-06-30 Canon Research Centre France S.A. Method and device for controlling data processing
US6456749B1 (en) * 1998-02-27 2002-09-24 Carnegie Mellon University Handheld apparatus for recognition of writing, for remote communication, and for user defined input templates
US7058647B1 (en) 1999-08-31 2006-06-06 Charles E. Hill & Associates Electronic presentation generation system and method
JP2001246772A (ja) * 2000-03-07 2001-09-11 Alps Electric Co Ltd 画像形成装置
US7433881B1 (en) 2000-08-31 2008-10-07 Charles E. Hill & Associates, Inc. System and method for handling multi-resolution graphics files
US7386790B2 (en) * 2000-09-12 2008-06-10 Canon Kabushiki Kaisha Image processing apparatus, server apparatus, image processing method and memory medium
JP4627110B2 (ja) * 2000-10-16 2011-02-09 富士通株式会社 データ記憶装置
US6826305B2 (en) * 2001-03-27 2004-11-30 Ncr Corporation Methods and apparatus for locating and identifying text labels in digital images
JP4421134B2 (ja) * 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
US7565441B2 (en) * 2001-07-23 2009-07-21 Romanik Philip B Image transfer and archival system
CN1421854A (zh) * 2001-11-28 2003-06-04 劲永国际股份有限公司 用于硬盘及固态盘上对资料加密保护资料安全性的方法
US20030171926A1 (en) * 2002-03-07 2003-09-11 Narasimha Suresh System for information storage, retrieval and voice based content search and methods thereof
US7050630B2 (en) * 2002-05-29 2006-05-23 Hewlett-Packard Development Company, L.P. System and method of locating a non-textual region of an electronic document or image that matches a user-defined description of the region
US7269612B2 (en) * 2002-05-31 2007-09-11 International Business Machines Corporation Method, system, and program for a policy based storage manager
JP2004080520A (ja) * 2002-08-20 2004-03-11 Ricoh Co Ltd 画像処理装置、画像読取装置及び画像形成装置
US7715640B2 (en) * 2002-11-05 2010-05-11 Konica Minolta Business Technologies, Inc. Image processing device, image processing method, image processing program and computer-readable recording medium on which the program is recorded
DE10300545B4 (de) * 2003-01-09 2010-10-07 Siemens Ag Vorrichtung, Verfahren, Speichermedium und Datenstruktur zur Kennzeichnung und Speicherung von Daten
JP2005073015A (ja) * 2003-08-26 2005-03-17 Canon Inc 画像処理装置及び画像処理方法及びコンピュータプログラム
US20050168783A1 (en) * 2004-01-29 2005-08-04 Spencer Thomas High resolution image compositing as a solution for digital preservation
JP2006060590A (ja) * 2004-08-20 2006-03-02 Canon Inc 電子データの文字品質を確認する画像処理装置および画像処理方法およびコンピュータプログラム
JP4221669B2 (ja) * 2004-09-06 2009-02-12 ソニー株式会社 記録装置および方法、記録媒体、並びにプログラム
JP4116006B2 (ja) * 2005-03-04 2008-07-09 株式会社東芝 画面転送装置、画面転送システム、画面転送方法、およびプログラム
US7889932B2 (en) 2006-03-02 2011-02-15 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
US7792359B2 (en) * 2006-03-02 2010-09-07 Sharp Laboratories Of America, Inc. Methods and systems for detecting regions in digital images
US8630498B2 (en) * 2006-03-02 2014-01-14 Sharp Laboratories Of America, Inc. Methods and systems for detecting pictorial regions in digital images
US8437054B2 (en) * 2006-06-15 2013-05-07 Sharp Laboratories Of America, Inc. Methods and systems for identifying regions of substantially uniform color in a digital image
US7864365B2 (en) 2006-06-15 2011-01-04 Sharp Laboratories Of America, Inc. Methods and systems for segmenting a digital image into regions
US8098934B2 (en) * 2006-06-29 2012-01-17 Google Inc. Using extracted image text
JP2008042401A (ja) * 2006-08-03 2008-02-21 Canon Inc 情報処理装置、情報処理方法
US7876959B2 (en) * 2006-09-06 2011-01-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying text in digital images
JP4453715B2 (ja) * 2007-04-13 2010-04-21 村田機械株式会社 蓄積制御装置
EP2046014A3 (en) * 2007-10-02 2011-03-09 Brother Kogyo Kabushiki Kaisha Image data management device, and method and computer program therefor
US8060490B2 (en) * 2008-11-25 2011-11-15 Microsoft Corporation Analyzer engine
KR20110085783A (ko) * 2010-01-21 2011-07-27 삼성전자주식회사 다큐먼트 박스에 문서를 저장하는 방법, 이를 수행하는 호스트 장치 및 화상형성장치
US20120197630A1 (en) * 2011-01-28 2012-08-02 Lyons Kenton M Methods and systems to summarize a source text as a function of contextual information
US8731296B2 (en) * 2011-04-21 2014-05-20 Seiko Epson Corporation Contact text detection in scanned images
US9251144B2 (en) * 2011-10-19 2016-02-02 Microsoft Technology Licensing, Llc Translating language characters in media content
US9131913B2 (en) 2012-06-14 2015-09-15 Carestream Health, Inc. Region-selective fluoroscopic image compression
US20140268250A1 (en) * 2013-03-15 2014-09-18 Mitek Systems, Inc. Systems and methods for receipt-based mobile image capture
US9795997B2 (en) 2013-03-15 2017-10-24 United States Postal Service Systems, methods and devices for item processing
US9329692B2 (en) 2013-09-27 2016-05-03 Microsoft Technology Licensing, Llc Actionable content displayed on a touch screen
US9507762B1 (en) 2015-11-19 2016-11-29 International Business Machines Corporation Converting portions of documents between structured and unstructured data formats to improve computing efficiency and schema flexibility
US10572528B2 (en) 2016-08-11 2020-02-25 International Business Machines Corporation System and method for automatic detection and clustering of articles using multimedia information

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3024322A1 (de) * 1980-06-27 1982-01-21 Siemens AG, 1000 Berlin und 8000 München Verfahren zur codierung von elektrischen signalen, die bei der abtastung eines grafischen musters mit aus text und bildern gemischtem inhalt gewonnen werden
DE3113555A1 (de) 1981-04-03 1982-10-21 Siemens AG, 1000 Berlin und 8000 München Verfahren zum automatischen erkennen von weissbloecken sowie text-, graphik- und/oder graubildbereichen auf druckvorlagen
US4741046A (en) 1984-07-27 1988-04-26 Konishiroku Photo Industry Co., Ltd. Method of discriminating pictures
US4817050A (en) * 1985-11-22 1989-03-28 Kabushiki Kaisha Toshiba Database system
JPS62137974A (ja) 1985-12-12 1987-06-20 Ricoh Co Ltd 画像処理方式
JP2702928B2 (ja) 1987-06-19 1998-01-26 株式会社日立製作所 画像入力装置
US5001767A (en) 1987-11-30 1991-03-19 Kabushiki Kaisha Toshiba Image processing device
US5703962A (en) 1991-08-29 1997-12-30 Canon Kabushiki Kaisha Image processing method and apparatus
JPH0591341A (ja) * 1991-09-26 1993-04-09 Fuji Xerox Co Ltd 画像データ処理装置
US5351314A (en) 1991-10-04 1994-09-27 Canon Information Systems, Inc. Method and apparatus for image enhancement using intensity dependent spread filtering
JP3278471B2 (ja) 1991-11-29 2002-04-30 株式会社リコー 領域分割方法
JP2579397B2 (ja) 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
US5335290A (en) * 1992-04-06 1994-08-02 Ricoh Corporation Segmentation of text, picture and lines of a document image
US5680479A (en) 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5479587A (en) * 1992-09-03 1995-12-26 Hewlett-Packard Company Page printer having adaptive data compression for memory minimization
US5483622A (en) * 1992-09-03 1996-01-09 Hewlett-Packard Company Page printer having automatic font compression
US5539865A (en) * 1992-11-10 1996-07-23 Adobe Systems, Inc. Method and apparatus for processing data for a visual-output device with reduced buffer memory requirements
US5568571A (en) * 1992-12-14 1996-10-22 University Microfilms, Inc. Image enhancement system
US5848184A (en) 1993-03-15 1998-12-08 Unisys Corporation Document page analyzer and method
JP3039204B2 (ja) 1993-06-02 2000-05-08 キヤノン株式会社 文書処理方法及び装置
DE69419291T2 (de) 1993-09-03 1999-12-30 Canon K.K., Tokio/Tokyo Formmessapparat
CA2134255C (en) * 1993-12-09 1999-07-13 Hans Peter Graf Dropped-form document image compression
US5588072A (en) 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
EP0677811A1 (en) * 1994-04-15 1995-10-18 Canon Kabushiki Kaisha Image processing system with on-the-fly JPEG compression
US5699453A (en) 1994-09-30 1997-12-16 Xerox Corporation Method and apparatus for logically tagging of document elements in the column by major white region pattern matching
JPH08125868A (ja) * 1994-10-19 1996-05-17 Canon Inc 画像処理装置及び方法
US5774579A (en) 1995-08-11 1998-06-30 Canon Kabushiki Kaisha Block selection system in which overlapping blocks are decomposed
CA2190306A1 (en) * 1995-11-20 1997-05-21 Vadlamannati Venkateswar Compression for multi-level screened images
US5848191A (en) 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US5802524A (en) * 1996-07-29 1998-09-01 International Business Machines Corporation Method and product for integrating an object-based search engine with a parametrically archived database
US5767978A (en) 1997-01-21 1998-06-16 Xerox Corporation Image segmentation system

Also Published As

Publication number Publication date
CA2310807A1 (en) 1999-04-15
EP1027785B1 (en) 2005-11-16
DE69832411T2 (de) 2007-02-22
DE69832411D1 (de) 2005-12-22
WO1999018693A1 (en) 1999-04-15
US6298173B1 (en) 2001-10-02
EP1027785A1 (en) 2000-08-16
CA2310807C (en) 2006-08-01
EP1027785A4 (en) 2002-10-23

Similar Documents

Publication Publication Date Title
TW464811B (en) Storage management system for document image database
US7593961B2 (en) Information processing apparatus for retrieving image data similar to an entered image
US6909805B2 (en) Detecting and utilizing add-on information from a scanned document image
US20060085442A1 (en) Document image information management apparatus and document image information management program
US8045801B2 (en) Image processing apparatus and method
JP4338155B2 (ja) 画像処理装置及びその方法、コンピュータ可読メモリ
US20060173904A1 (en) Information Processing Apparatus and Control Method Thereof
US6351559B1 (en) User-enclosed region extraction from scanned document images
EP1675376A1 (en) Document separator pages
JP2000306103A (ja) 情報処理装置及び方法
JPH0879536A (ja) 画像処理方法
US8837818B2 (en) Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program
Zhou Are your digital documents web friendly?: Making scanned documents web accessible
JP2004214991A (ja) 文書画像データ管理システム、文書画像データ管理プログラム、文書画像データ管理装置及び文書画像データ管理方法
US20050025348A1 (en) Method of and apparatus for processing image data
JP4480109B2 (ja) 画像管理装置および画像管理方法
JP2001256256A (ja) 電子文書検索装置および電子文書検索方法
CN100511267C (zh) 图文影像处理装置及其影像处理方法
JP2005316813A (ja) 画像処理方法、画像処理プログラムおよび画像処理装置
JP2000306076A (ja) 画像処理装置及び制御方法及び記憶媒体
KR100473050B1 (ko) 웹에서 첨부파일을 보기 위한 실시간 데이터 변환 방법
Downton Online acquisition of scientific archive documents-a survey and manual
Arora Digitisation: Methods, Tools and Technology
Sauvola et al. A document management interface utilizing page decomposition and content-based compression
JPS60157644A (ja) フアイリング装置

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent