TWI606406B

TWI606406B - 從成像檔案擷取正文之方法、設備以及有形電腦可讀儲存媒體

Info

Publication number: TWI606406B
Application number: TW105135125A
Authority: TW
Inventors: 克強鄧
Original assignee: 尼爾森股份有限公司
Priority date: 2015-10-29
Filing date: 2016-10-28
Publication date: 2017-11-21
Also published as: KR101783337B1; CN107045632A; JP2017084336A; JP6366024B2; US9684842B2; KR20170051227A; TW201719505A; CN107045632B; US20170124413A1

Description

從成像檔案擷取正文之方法、設備以及有形電腦可讀儲存媒體

本案係關於正文擷取（text extraction），特別是從成像檔案中擷取正文之方法與設備。

個人、企業與／或其他實體有很多不同的情況與理由期望將檔案（或其他項目）中的正文的影像轉換為機器編碼的正文。舉個例子，成像正文（imaged text）轉換為機器編碼的正文使得正文能夠被電子編輯、被搜索、被組織與／或儲存於資料庫中等。本文中成像正文的識別與編碼被稱為正文擷取。

本文揭露之代表性方法包含利用處理器將一個檔案的影像分段至與檔案中的個體字元對應的局部子影像內。代表性的方法更包含利用處理器，基於各個子影像與參考子影像的視覺相關性，將各個子影像分組到群集內。參考子影像與被分組到群集內的各個子影像之間的視覺相關性超過一個相關性閾值。代表性的方法更包含利用處理器，基於被分組到群集內的子影像，識別群集之指定字元。代表性的方法更包含利用處理器，將指定字元與被分組到群集內的各個子影像相關之檔案之影像中的位置相關聯。

一種代表性設備包含影像分析器，經由處理器實施以將檔案的影像分段至與檔案中的個體字元對應的局部子影像內，並且基於各個子影像與參考子影像之視覺相關性，將各個子影像分組至群集內。參考子影像與被分組至群集內的各個子影像之間的視覺相關性超出了相關性閥值。這種代表性設備更包含字元識別器，經由處理器被實施，以基於被分組至群集內的子影像而識別群集之指定字元。這種代表性設備還包含編碼正文產生器，經由處理器被實施，產生器將指定字元與被分組至群集內的各個子影像相關之檔案內的影像的位置關聯。

當代表性的指令被執行時，使得機器至少將檔案的影像分段至與檔案中的個體字元對應的局部子影像內。代表性指令更根據各個子影像與參考子影像的視覺相關性，使得機器將各個子影像分組至群集內。參考子影像與被分組至群集內的各個子影像之間的視覺相關性超出相關性閥值。代表性指令還使得機器基於被分組至群集內的子影像以識別群集之指定字元。代表性指令還使得機器將指定字元與被分組至群集內的各個子影像相關的檔案之影像中的位置關聯。

人工正文擷取涉及人工審閱檔案之影像（或者檔案之印刷本）以及人工鍵入正文。人工擷取具有高水準的準確度，但是成本高昂且耗費時間。光學字元辨識（Optical character recognition；OCR）係為一種利用電腦對基於影像之正文檔案進行自動偵測、識別與編碼的技術。雖然利用OCR擷取正文一般比人工擷取更快且更便宜，但是OCR準確度低且更容易出錯。另外，當待擷取的原始正文的列印水平較差或者原始正文的影像品質較低時，OCR技術的準確度降低。舉個例子，雖然利用平台掃描器（flatbed scanner），OCR引擎能夠以相對高水準的準確度識別成像之雜誌文章中清楚列印的正文，但是對於使用低品質的銷售點列印機列印的收據（receipt），利用手持照相機在不利光照條件下成像，尤其如果收據已被揉皺且未展平，則同樣的OCR引擎識別這個收據上的正文則更不準確。。

因此，在一些期望相對高水準的準確度的例子中，OCR本身則不足以實現。完成OCR後可能伴隨人工審閱以校正錯誤。然而，很多這種情況下，人工審閱可能與直接的人工擷取一樣高成本與／或消耗時間，與／或效益可能微不足道。另外，雖然基於電腦之正文擷取（例如，利用OCR）將可能隨著技術前進而隨時間提高，但是仍然可能存在一些至少需要人工審閱的錯誤。因此，不管OCR的準確度如何，需要降低正文擷取期間人工審閱的數量。

在待識別的成像正文內，透過開發共同個體字元（例如，字母、數字或符號）之間的視覺相似性，本文揭露之例子增加了正文擷取之準確度與／或效率。舉個例子，正文集合中的小寫字母「h」與正文中的小寫字母「h」的其他情況在視覺上比例如正文中的大寫字母「T」（或任意其他字元）更加相似。基於這個事實，正文中的字元可被分組為視覺相似字元之群集（clusters）。更特別地，一些例子中，成像正文被分段至與正文之個體字元對應的更小的局部子影像內，然後子影像相應地被比較且被分組至群集內。舉個例子，在視覺上與字母「h」相關的一組字元之子影像將位於一個群集中，而在視覺上與字母「T」相關的另一組字元之子影像將位於另一群集中，依此類推。雖然一些不同的字元由於外觀相似可能潛在地被分組到一起（例如，大寫字母「I」、小寫字母「l」以及數字「1」），但是因為每一字元在外觀上充分不同以區別於其他字元，大多數群集將實質上包含與僅僅一個特定字元對應的子影像。

一些情況下，舉個例子，因為正文列印中的不完全（imperfections）、正文成像中的不完全與／或形成子影像中的不完全，與相同字元對應的任意兩個子影像之間可能存在輕微差別。因此，在一些例子中，一個閥值允許與相同字元對應的任意兩個子影像間的小變化，基於視覺相關性超過這個閥值，子影像被分組為群集。然而，一些例子中，列印或者正文成像中的不完全導致與相同字元對應的兩個子影像在外觀上充分不同以被分組至不同的群集內。舉個例子，一個特定字母「h」中的莖的上部或出頭部分（ascender）可能油墨不足（underprinted）（例如，退色、不完整或者完全缺失），另一字母「h」在其彎曲部分或肩部上可能油墨不足，而第三個字母「h」可能具有穿過其中的（列印機之列印頭上的殘餘油墨產生的）條紋（streak）或線。雖然這些字母的每一個對應相同的字元（小寫字母「h」），但是因為這些印刷中的不完全的緣故，任意兩個字元的子影像之間的視覺相關性未超過指定的閥值，這樣每一子影像被置於其本身的群集中。因此，一些例子中，可能存在與相同字元對應的多個群集。就是說，依照本揭露之教示，雖然每一群集實質上容納指定為僅僅單個特定字元的子影像，但是子影像之群集之總數可超過被分析之成像檔案中實際不同字元的總數。

依照本文揭露之教示，以上描述之子影像被分組至群集內係基於子影像之基於影像之視覺對照。因此，雖然群集對應特定字元，但是未指定針對群集之特定字元的識別（例如，尚未被機器編碼）。然而，因為子影像之每一群集對於一個特定字元，識別群集之單個子影像代表中的字元可被用以識別與群集中每一個子影像對應的字元。被識別為與特定群集中的子影像對應的字元在本文中被稱為群集之指定字元（designated character）。舉個例子，假設每個字組（word）平均5個字母，1000個字組之檔案將包含大約5000個字元（不包含標點符號）。在這種例子中，在5000個字元中，如果沒有幾百，也可能有幾十個小寫字母「h」的情況。如果字母「h」之全部情況都被分組至單個群集內，則來自單個代表子影像中的字母「h」被識別為群集之指定字元，這種識別可被應用到群集中的全部子影像。當然，如上所述，可能一些情況的字母「h」在外觀上明顯不同，這樣對應的子影像將被分組至分離的群集內。然而，與字母「h」對應之群集數目仍然可能遠小於成像檔案中字母「h」的情況之總數。相比之下，完全人工正文擷取（未使用OCR引擎）需要人工審審閱者識別並鍵入字母h的全部情況（以及5000個字元中的每一其他字元加上任意標點）。

更通常地，待識別以對成像檔案編碼的子影像的群集的總數對應檔案中使用的唯一字元的總數與不同群集內的數目，根據特定字元出現的不同情況的變化（例如，基於使用的不同字型、字元的列印錯誤，與／或待分析的檔案或正文的影像捕獲造成的錯誤）將每一唯一字元劃分至這些不同群集內。舉個例子，英語中的大多數正文包含最多94個（標準鍵盤上可用的）唯一字元，對應26個大寫字母、26個小寫字母、10個數位以及32個符號（symbol）。如果每一字元外觀不同，導致其最多N種不同方式被分離到不同的群集內，則來自任意特定成像正文的潛在不同群集的最大數目將為N × 94。假設N（其內被分離特定字元之不同群集的最大數目）等於10，則任意成像正文的群集的總數將不會超過940個群集(10 × 94)。因此，利用本文揭露的群集，上面提到的整個5000個字元的檔案可由人工審閱者（不使用OCR引擎）編碼，審閱者最多製作940個字元標識，然後在整個文本中傳播，而不是使用傳統的人工正文擷取方法單獨地識別全部5000個字元以及相關的標點。一些情況下，因為正文不太可能包含全部94個潛在字元，字元標識的總數可明顯更少，以及一些字元（例如，句號或逗號）可能具有相對較少的出現方式（遠小於N），從而導致較少的群集。

當成像正文包含甚至更多字元時，在識別相應字元之前基於相似的外觀將子影像分組至群集內的優點則進一步顯而易見。舉個例子，如果檔案比上述例子（包含大約50,000個字元）長十倍，則仍然只有940個子影像的群集以識別對應的群集（例如，在以上的例子中，假設任意既定字元的群集的最大數目是N=10）。5,000個字元正文與50,000個字元正文的相關群集之間的區別在於，50,000字元正文中的群集將通常包含更多子影像。從人工審閱者的視點來看，無論群集的大小如何，因為群集的單個子影像代表的標識可應用於群集中的每個子影像，所以對於更長的正文，擷取（編碼）字元的時間或成本不會增加。因此，無論是需要識別5000個字元還是50,000字元，仍然僅僅至多製造940個（假設N= 10）指定字元。

本文揭露之教示可擴展到成批檔案之正文擷取。就是說，雖然成像正文可對應單個獨立檔案，但是當成像正文對應多個單獨與／或不同檔案時，應用相同的原則。舉個例子，假設各自包含50,000個字元的100個檔案共同被成像以及被分析。在這個例子中，雖然待編碼的字元總數為5,000,000個，但是為了編碼全部100個檔案，待識別之特定字元相關之不同群集仍然僅僅近似N×94個。雖然在分析100個成像檔案以將與每5,000,000個字元的對應的5,000,000子影像適當地分組到相應的群集內時涉及一些時間與／或成本，但是因為依照本文之揭露這樣的分析被自動化，可忽略這個成本。

雖然以上例子顯著降低了人工正文擷取的成本，但是當實施OCR技術以識別為每一群集指定的合適字元時，可進一步顯著降低人工審閱者之參與。顯然，如果OCR方法完全準確，則永遠不需要人工審閱。然而，OCR技術包含一些誤差範圍。雖然可以使用OCR可準確地識別許多字元，但是通常將至少存在一些字元，或者無法被識別或者識別的可信度相對低。因此，本文揭露的一些例子中，分析使用OCR引擎識別群集之指定字元的可靠性。一些這種例子中，如果識別指定字元的的可靠性相對高（例如，高於閾值），則指定字元被自動分配給群集中的每個子影像，而無需人工審閱。另一方面，如果識別指定字元的可靠性相對低（例如，低於閾值），則OCR引擎識別的指定字元被標記為用於人工審閱與／或確認。

如上所述，使用OCR技術與子影像的群集相結合，可極大地降低人工審閱者的參與，超過以上描述的純人工審閱群集節省的時間。舉個例子，假設OCR引擎在80%的時間可具有足夠可靠性（例如，高於閾值）識別指定字元。在這種情況下，在待識別的指定字元的940個潛在群集的上述例子中，僅僅188個（20%）將需要人工審閱。與完全人工正文擷取中識別5,000,000個元相比，這是重大改進。雖然可以使用傳統的OCR方法分析5,000,000個字元以減少完全的人工審閱，因為在這個例子中OCR的準確度僅為80%，在識別不夠可靠的情況下仍然留下1,000,000（5,000,000個的20%）個字元，由此需要進行人工審閱。因此，依照本文之揭露，無論是否使用OCR技術，將字元之子影像分組至具有相似外觀之影像之群集內，具有顯著降低人工正文擷取成本且同時仍然獲得期望的精確度水準之潛力。當然，OCR的使用有助於進一步降低成本與／或人工審閱者的需求。換言之，盡管本文所揭露之教示不依賴於OCR技術的精確度乃至使用以減少正文擷取期間人工審閱者之參與，但是任何程度準確度的OCR技術可用於進一步減少人工審閱者之參與。因此，隨著時間的推移發展與改善OCR技術，可依照本文揭露之教示立即實施OCR技術，以進一步減少人工審閱者之參與量。

此外，一些例子中，當分析附加檔案時，對於使用OCR不能可靠地識別的字元所對應的子影像的群集的指定字元的人工標識被保存在資料庫中，以供將來參考。就是說，除了在一個特定時間（例如，單個批次）將本文揭露之教示應用於一或多個成像檔案之外，群集中的指定字元的人工標識用於自動識別以後分析的對應群集中的子影像的指定字元。換言之，無論是在同一時間（例如，在單個批次中）或者在一段時間內（例如，多個連續批次）進行分析，針對特定子影像指定的字元的人工標識，可被應用至待分析的許多不同檔案中的相似子影像的許多情況（例如，在閾值內具有相同的外觀）。

圖1表示實施本文揭露之教示之代表性情況。所示之例子中，零售商（retail establishment）102向消費者銷售商品或服務。作為購買的一部分，零售商102為消費者提供收據（receipt）106。一些例子中，消費者係為市場研究工作小組之消費者小組成員（panelist）。消費者小組成員係為在工作小組中登記之消費者。市場研究實體108維持工作小組以從工作小組成員收集市場資料（比如，關於購買的商品、購買的數量、價格、購貨的位置等），市場資料可與工作小組成員的人口特徵相關。就是說，市場研究實體108登記那些同意被監視與／或向市場研究實體108提供回饋的人（例如，消費者小組成員104）。在登記期間，市場研究實體108從登記人（例如，消費者小組成員104）接收人口統計資訊，這樣獲得這些小組成員相關之市場資料與不同人口統計市場之間的後續相關性。人們可以以任何合適的方式例如經由電話訪問、透過完成線上調查等成為小組成員。另外或替代地，可以使用任何期望的方法（例如隨機選擇、統計學選擇、電話徵集、網際網路廣告、調查、購物中心中的廣告、產品包裝等）接觸與／或招募人群。

一些例子中，一旦一個人註冊為消費者小組成員，透過在處理與分析收據的資料處理設施110處收集收據（例如，收據106）的副本，市場研究實體108追蹤與／或監視消費者小組成員的購買行為。一些例子中，要求小組成員104捕獲收據106的影像112，以及將此影像轉發到市場研究實體108的資料處理設施110。可以使用任何合適的手段捕獲影像112並將其轉發到資料處理設施110。舉個例子，小組成員104利用手持裝置（例如，輸入板、智慧型電話等）對收據106照相，然後將產生的影像112發送到資料處理設施110（例如，透過無線胞狀網路）。雖然對於消費者小組成員104而言拍攝收據的照片方便，但是由於消費者小組成員104捕獲的影像112可能品質差，因此對後續的正文擷取提出潛在的挑戰。舉例說明，收據未適當地相對照相機的視場被定向（例如，如所示例子中之表示，影像112中的收據106相對影像112被錯誤定向），可能存在不良照明，照相機可能已經失焦等。在這種情形下，OCR技術具有之準確率，使得對使用人工審閱者以獲得可接受的準確度水準的需求增加。其他例子中，小組成員104使用掃描器掃描收據106，然後將產生的影像112發送至資料處理設施110（例如，透過網際網路）。其他例子中，可線上購買，這樣產生電子收據（例如，經由郵件被發送給小組成員104）。這些例子中，收據的電子副本被轉發至資料處理設施110。

雖然所示例子中僅僅表示了單個收據106，但是小組成員104可能影像捕獲任何數量的收據以及將它們轉發到資料處理設施110。一些例子中，可能出現來自相同零售商102的多個收據。其他例子中，小組成員104可能已經從多個不同的零售商進行購買，由此將來自這些零售商的收據的副本提供給資料處理設施110。另外，雖然圖1中僅僅表示一個小組成員104，但是一些例子中，多個消費者可登記為小組成員，以及提供從小組成員進行購買的各個零售商處接收的收據。因此，一些例子中，資料處理設施110接收源自一或多個消費者小組成員提供的一或多個零售商的多個收據影像。

額外地或者可選擇地，根據所示例子的表示，無論消費者是否為小組成員，零售商102可直接提供消費者收據之副本或影像114至資料處理設施110。就是說，收據影像114對應於小組成員104（與/或其他小組成員）從事的交易以及其他非小組成員消費者所從事的交易。因此，一些例子中，資料處理設施110接收來自特定零售商102之大批收據之影像以用於分析與處理。當然，一些情況下，零售商102可存取電子形式的收據資訊，這樣則不需要正文擷取。

一些例子中，無論是收據圖像係來自小組成員（例如，收據影像112），來自零售商102（例如，收據圖像114）或來自兩者，基於將與收據影像112、114中的個體字元對應的子影像分組至群集內，識別每一群集的指定字元，以及將指定字元應用至對應群集中的全部子影像，資源處理設施110以相同方式分析這些收據。雖然資料處理設施110一次可處理單個收據影像，但是在一些例子中，對不止一個收據一批批地分析收據影像以利用規模經濟。舉個例子，雖然批次中的更多數量的收據導致在任何給定群集內更多數量的子影像，但是無論批次中收據的數量如何，從整個批次產生的群集的總數可能保持實質上相同。因此，無論批次的大小如何，這個批次待識別的指定字元的總數實質上保持一致。

由於在分析的特定批次中包括更多的收據，所以存在這樣的可能性，個體收據相比定期列印的正文將具有唯一的列印錯誤與／或其他像差（aberration）（例如，隨機的墨水斑點），將在視覺上產生與此批次中的全部其他字元不同的字元。因此，一些例子中，較大批次中群集的總數多少比較小批次中的高。然而，與透過識別同時具有其他收據的（較大批次中包含的）附加收據中的全部字元而獲得的效率相比，這些像差導致的附加群集相對次要。

更特別地，如果由使用不同字型（fonts）的不同類型的列印機列印一個批次內的多個收據，則一種類型的收據（例如，來自具有第一字型的第一類型的列印機）中很多字元與另一類型的收據的字元（例如，來自具有第二字型的第二類型的列印機）在視覺上不相似的可能性相對較高。這種情況下，每一類型的收據產生自己的群集的集合，與其他類型收據的字元不對應，相對於單獨地分析成批的每種類型的收據，這樣將收據組合至單個批次內未提供的任何顯著的效率。因此，一些例子中，根據列印機的類型與／或收據中使用的字型（font），不同的收據被組織為不同的批次。一些例子中，特定企業可能使用相同類型的銷售點列印機以產生其全部的消費者收據，根據這個假設基於產生收據（例如，零售商102發出收據106）的企業分析成批的收據。然而，其他例子中，在不區分來源的情況下（例如，當小組成員104提供來自小組成員104所訪問的全部零售商的許多收據時），資料處理設施110分析單個批次中不同來源源的多種收據。以下結合圖2更詳細地揭露資料處理設施之代表性實施方式。雖然圖1表示了收據影像112、114之正文擷取，但是本文揭露之教示可適當地適用於為任何種類的數位成像正文擷取（例如，編碼）正文。

圖2係為圖1之代表性資料處理設施110之代表性實施例之方塊圖。代表性資料處理設施110包含代表性通訊介面202、代表性批次指定符（batch designator）204、代表性影像分析器206、代表性字元識別器（identifier）208、代表性使用者介面210、代表性編碼正文產生器212，以及代表性字元識別資料庫214。

雖然本文揭露之教示被實施為擷取任意種類的成像正文，為了解釋，圖2描述在以上結合圖1描述的從消費者小組成員與／或零售商接收的收據上完成正文擷取的情況。因此，圖2所示的例子中，資料處理設施110具有代表性通訊介面202以通訊於消費者小組成員104與／或零售商102。一些例子中，通訊介面202從消費者小組成員104與／或零售商102接收收據之影像（例如影像112、114）。另外，一些例子中，通訊介面202向小組成員與／或零售商傳送回饋與／或指令，回饋與／或指令係關於之前收集的收據（例如，給零售商的報告，關於從提交的收據影像114處理的行銷資料）與／或待收集的未來收據（例如，用於捕獲與/或轉發收據影像的指令）。

圖2所示之例子中，資料處理設施110具有代表性批次指定符204以指定合適的批次，通訊介面202接收的收據被放置於此合適的批次中用於批次分析。一些例子中，來自零售商102與／或小組成員104的收據影像112、114的每一傳輸被指定為個體批次。其他例子中，一個時間週期上接收的收據在被分析前被收集到單個批次內。其他例子中，批次指定符204識別與收據影像112、114對應的原始來源（例如，發出每一收據的零售商），以及將來自不同來源的收據置於不同的批次內。一些例子中，基於提供收據影像112、114的零售商102與／或小組成員104的輸入，批次指定符204識別原始來源。其他例子中，基於收據影像之分析（例如，透過偵測收據上的標誌與／或商標），批次指定符204識別原始來源。

圖2所示例子中，資料處理設施110具有代表性影像分析器206，以識別或分離待分析之收據影像112、114中與每一字元對應之局部子影像。成像檔案比如收據影像112、114內個體字元的分離字元的過程在本文中被稱為分段（segmentation）。存在許多已知的分段技術。作為一個例子，影像分析器206分析收據影像內的每一畫素，以判定與正文背景對應的最流行的灰階（假設是灰度影像）。一些這樣的例子中，然後影像分析器206將最流行灰階之特定範圍內的具有數值的全部畫素設置為數值0（對應白色），以及將全部其他畫素設置為數值1（對應黑色），由此將影像轉換為二進制黑白影像，黑色畫素對應字元。在一些這種例子中，影像分析器206利用填充演算法（a flood fill algorithm）在黑白影像內找到每一連接的部件。一些例子中，每一連接的部件被視為單獨的字元，假定個體字元透過白色畫素與鄰接的字元分離。影像分析器206為每一個這種部件計算邊界，以判定識別的部件所表示的字元的邊界。一些例子中，部件邊界較小與／或與鄰接部件的邊界未對準處，較小的有界區域被識別為對應單個字元的不同部分（例如，小寫字母「i」上的點與條或者油墨不足部分所分離的一個字元的兩個部分），以及將共同它們分組以形成完整字元的邊界。一些例子中，為一個部件（對應一個特定字元）計算邊界包含在黑白影像內判定部件的大小與部件的位置。依照這種方式，指定每一字元的位置，這樣一旦識別出字元，指定字元可被應用至收據影像內的適當位置。然後，為每一部件計算的邊界被應用至原始收據影像112、114（相同大小且處於相同位置），以在每一收據影像內分離每一字元之子影像。當然，除了上述例子以外，影像分析器206可使用任意其他合適的分段技術或者代替上述例子，以分離收據影像112、114中每一字元對應的子影像。

除了將收據影像112、114分段至分離的子影像內以外，一些例子中，基於子影像之視覺對比之分析，影像分析器206將子影像分組至群集內。一些例子中，當兩個子影像之間的視覺相關性超出閥值時，影像分析器206將兩個不同的子影像分組到共同的群集內。一些例子中，透過將子影像中的第一個作為參考子影像以及比較第一子影像與第二子影像，影像分析器206計算兩個子影像之間的視覺相關性。結合圖3至圖5描述計算兩個子影像之間的視覺相關性之代表性過程。

圖3之代表性例子中，第一子影像302（對應數字「4」）係為參考子影像，以及將與第二子影像304（也對應數字「4」）對比。出於解釋之目的，第一子影像302與第二子影像304中的字元僅僅由輪廓（outline）表示。然而，當列印時，大多數字元通常被填充。圖6表示來自實際收據之實際字元之代表性子影像。圖3所示之例子中，如矩形邊界306所示，參考子影像302中的數字「4」被定向為直立，但是底角部308缺失。一些例子中，由於數字「4」的部分油墨不足的緣故，出現缺失的角部308。相比之下，第二個影像304中的數字「4」被充分列印，但是如邊界310之非矩形形狀所示外觀偏斜。一些例子中，由於拍攝第二子影像304的收據的影像捕獲製程的緣故，第二子影像304中數字「4」可能出現不規則形狀。舉個例子，當拍攝影像時，收據相對於捕獲收據影像的照相機的視場已經被定位處於一個角度，與／或收據已經被折疊、折皺（creased）與／或捲曲（crinkled），導致某些字元畸變。

一些例子中，為了比較圖3所示的兩個子影像，影像分析器206首先將第二子影像304翹曲（warps）或轉換為如圖4所示的轉換子影像402。一些例子中，轉換子影像402通常具有對應於第一子影像302（例如，第二子影像將與其對比之參考子影像）的形狀或空間定向。因為尚未識別子影像（數字「4」）中的字元的緣故，一些例子中，轉換係基於對子影像302的邊界306、子影像304的邊界310的分析，而非基於每一子影像內的任意特定內容。

一旦第二子影像304已經被轉換為轉換子影像402，則代表性的影像分析器206圍繞轉換子影像402增加指定數目的畫素的邊緣404。由於每一子影像302、304中的字元相對於其各自邊界306、310可能處於稍微不同的位置，邊緣404提供一些填補或餘地以便於轉換子影像402與參考子影像302的比較。一些例子中，影像分析器206計算一個相關性數值，表示在邊緣404所定義的區域內，參考子影像302相對轉換子影像402的複數個位置的每一處，參考子影像302與轉換子影像402之間的相似性的水準。舉個例子，如圖4所示，在第一比較中，參考子影像302（由虛線表示）位於邊緣404的左上角，而在第二比較中，參考子影像302位於邊緣404的右下角。

一些例子中，基於逐個畫素地比較影像，影像分析器206針對子影像302、402的每一相對位置計算相關性數值。一些例子中，相關性數值係介於0與1之間，其中1表示子影像完全相關（即，子影像相同且精確對準）。所示的例子中，在邊緣404所定義的邊界內，在每一相對位置比較子影像302、402（例如，這兩個影像每次相對彼此偏移一或多個畫素）。一些例子中，比較每一相對位置處計算的相關性數值，以及選擇最高的相關性數值作為代表第一子影像302（即，參考子影像）與第二子影像304（由其產生變形的子影像402）之間的視覺相關性的數值。從所示例子可看出，在第一比較中，參考子影像302中的數字「4」在左邊高於轉換子影像402中的數字「4」，而在第二比較中，參考子影像302中的數字「4」在右邊低於轉換子影像402中的數字「4」。同樣地，當參考子影像302中的數字「4」與轉換子影像402中的數字「4」更加對準時（例如，所示兩個極端之間的某處）對應一個相關性數值，第一比較與第二比較的每一個相關性數值將小於這個相關性數值。

圍繞轉換子影像402提供邊緣404，以確保參考子影像302與轉換子影像402的不同相對位置圍繞這兩個影像間的最大可能相關性數值所對應的最佳對準位置。舉個例子，如圖5所示，沒有邊緣404，雖然參考子影像302位於轉換子影像402的左上角，但是參考子影像302中的數字「4」永遠不可被放置為在左邊比轉換子影像402中的數字「4」一樣高或一樣遠。因此，沒有邊緣404，子影像302與轉換子影像402間的最佳對準位置將不會比較，比每一影像中數字「4」實質被對準時更低的相關性數值將被分配作為第一子影像302與第二子影像304之間的視覺相關性的數值。

如上所述，一些例子中，基於兩個子影像之間的視覺相關性（基於上述計算的最大相關性數值被判定），影像分析器206判定這兩個子影像是否充分相關以屬於相同的群集。舉個例子，當兩個子影像之間的視覺相關性超出相關性閥值時，這兩個子影像被分組至相同的群集內。相關性閥值的數值為任何合適的數值（例如，0.8、0.85、0.9等）。圖3至圖5所示的例子中，因為子影像間存在略微的差別，第一子影像302與第二子影像304之間的視覺相關性將小於1。然而，它們在外觀上充分相似（例如，視覺相關性超出相關性閥值）以被分組於相同的群集中。相比之下，如果第二子影像304對應數字「3」，因為計算的最大相關性數值不可能超出相關性閥值，所以這兩個子影像不太可能被分組至相同的群集內。為了進一步說明這一點，圖6表示實際的子影像601、602、603、604、605、606、607。基於0.85的閥值，第一子影像601至第五子影像605（均對應數字8）在外觀上充分相似以被分組至共同的群集608內。相比之下，因為第六子影像606（對應數字3）以及第七子影像607（對應字母B）與群集608之子影像601～605未充分相關，故從群集608中被排除。

一些例子中，為了識別不同的群集，影像分析器206比較被分析的成像檔案（例如，圖1之收據影像112、114）內分離的每一子影像。一些例子中，為了避免冗餘，每一附加子影像僅僅與已被識別的每一群集的單個參考子影像比較。一些例子中，群集的參考子影像係為針對群集識別的第一子影像。舉個例子，如果依照從左至右的順序分析圖6之子影像601～607，第一子影像601將自動被指定為第一群集（例如，群集608）之參考子影像。在某些這種例子中，然後影像分析器206比較第二子影像602與第一子影像601，以判定第二子影像與第一子影像601一樣屬於相同的群集608。一些例子中，第三子影像603與第一子影像601及第二子影像602兩者比較。然而，一些例子中，第三子影像與群集608的被指定為參考子影像的第一子影像601比較，但是不與群集中包含的其他子影像比如第二子影像602比較。同樣的方法可應用於第四子影像604與第五子影像605。在影像分析器206比較第六子影像606與第一子影像601以及判定第六子影像606不屬於第一群集608以後，影像分析器206利用第六子影像606作為對應的參考子影像建立一個新群集。在這種例子中，第七子影像607將與第一子影像601（作為第一群集608之參考子影像）以及第六子影像606（作為第二群集之參考子影像）比較，然後因為其與前兩個群集的視覺不同而被指定為新群集之參考子影像。

一些例子中，群集之參考子影像對應產生的子影像的合成，作為已經被分組至群集內的子影像的移動平均（a running average）。這種例子中，在圖6之前兩個子影像601、602被分組於第一群集內以後，這兩個子影像601、602被平均以產生一個合成子影像，第三子影像603與這個合成子影像比較。此後，此合成子影像根據第三子影像603的畫素值被更新，然後與第四子影像604比較，依此類推。

除了將收據影像112、114分段到分離的子影像內以及將子影像分組到各個群集內以外，一些例子中，一個字元已經被識別且被指定給群集以後，影像分析器206分析此群集內的子影像。以下更加詳細地加以描述，一些例子中，子影像被分組至群集內以後，子影像所代表的字元被識別且被指定為針對群集中的全部子影像。這種群集－廣泛的指定係基於群集中分組的每一子影像對應相同字元之假設。然而，存在已知具有相對較小的視覺差異的某些字元的集合，導致不同字元被分組於相同的群集中。舉個例子，除了字母的右下部「R」包含一條腿而「P」沒有以外，大寫字母「P」與大寫字母「R」外觀相似。因此，在一些這種例子中，如果群集的指定字元被識別為對應或者大寫字母「P」或者大寫字母「R」，影像分析器206特別關注右下部分以確定是否存在腿（對應於“R”）以分析群集內的每一子影像，從而或者確認指定的字元對於特定子影像正確或者酌情校正特定子影像的字元指定。

一些情況下，輕微的視覺差別係由字元本身的性質造成。舉個例子，具有相對輕微視覺差別的字元的集合包含字母「R」與「P」、數字「6」與字母「G」、數字「0」與字母「O」、數字「1」與字母「l」等。在其他情況下，輕微的視覺差別可能由字元被局部列印造成。舉個例子，當字元其中之一被局部列印時具有相對輕微視覺差別的字元的集合包含數字「8」與「3」、字母「F」與「E」、字母「E」與「L」、數字「7」與正斜線(/)符號。此外，一些例子中，一些字元的集合具有相對輕微的視覺差別，是由於字元其中之一被損壞造成的。舉個例子，被損壞的正斜線(/)符號看起來像字母「X」。可能潛在地被分組到單個群集內的其他字元集合被適當地識別與分析，以減少為任何特定子影像指定錯誤字元的可能性。一些例子中，透過關注以上「R/P」例子中描述的子影像之特定區域，分析與這種字元對應的群集。額外地或者可選擇地，一些例子中，影像分析器206再次比較群集的個體子影像，以判定每一個之間的視覺相關性，但是應用比初始將子影像分組至群集內時更高的一個相關性閥值。

圖2所示之代表性例子中，資料處理設施110具有代表性字元識別器208，為影像分析器206所產生的子影像的每一群集識別一個指定字元。一些例子中，無論群集中子影像的數目如何，為整個群集識別單個的指定字元。依照這種方式，單個字元識別可被傳送與／或應用到這個字元對應很多不同子影像的很多情況，從而顯著地增加對成像檔案（例如，收據影像112、114）機器編碼的效率。

一些例子中，基於一個群集的單個代表子影像，字元識別器208識別這個群集的指定字元。一些例子中，當判定子影像屬於相同群集時，影像分析器206比較其他子影像與參考子影像，代表子影像對應參考子影像。當然，由於群集內的全部子影像視覺相似，群集內的任意子影像被用作代表子影像。一些例子中，代表子影像對應群集內的部分或全部子影像的合成。就是說，一些例子中，在識別指定字元以前，透過平均合成中包含的每一子影像內每一對應畫素位置處的畫素值，字元識別器208產生子影像的合成。一些例子中，這個對應畫素位置係基於識別最大相關性數值之子影像的相對位置對應的子影像的對準。一些情況下，依照這種方式產生的合成子影像減少了群集之任意特定子影像內出現的雜訊與／或模糊，這樣合成子影像更清楚，由此更容易分析與／或識別子影像中出現的字元。一些例子中，影像分析器206產生合成子影像，且如上所述將子影像分組至群集內。舉個例子，隨著識別出群集的每一額外子影像，基於新識別的子影像更新合成子影像。在某些這種例子中，更新的合成子影像用作參考子影像，用於比較被分析以被分組至群集內的後續子影像。

一些例子中，經由使用者介面210（例如，與任何種類的電腦終端216通訊），透過提示人工審閱者的回饋，字元識別器208為群集識別指定字元。就是說，一些例子中，字元識別器208在終端216處為人工審閱者顯示群集之代表子影像，以及提示人工審閱者或者確認以識別子影像中呈現的字元。因此，一些例子中，字元識別器208無須使用OCR引擎而識別指定字元。在一些這種例子中，基於提供給人工審閱者的不止一個代表子影像作為冗餘以驗證識別準確與／或群集被限制於單個字元，群集的指定字元被識別。就是說，一些例子中，除了代表子影像以外，群集內的多個子影像被顯示給審閱者。額外地或可選擇地，一些例子中，例如透過顯示從中分離子影像的收據影像112、114（或者其部分），上下文中群集內的一或多個子影像被顯示給審閱者。一些這種例子中，識別或區別（例如，用邊界重點標示、識別等）子影像，以輔助審閱者識別這些子影像在影像內的位置。一些例子中，終端216可與資料處理設施110處於同一位置。其他例子中，終端216的位置可遠離資料處理設施110。

雖然字元識別器208可未使用OCR識別指定字元（例如，純粹基於人工審閱者的回饋），但是一些例子中，字元識別器208基於代表子影像的OCR分析識別指定字元。因此，一些例子中，字元識別器208包含與／或實施OCR引擎。一些這種例子中，代表性的字元識別器208判定OCR引擎所判定的指定字元的可靠性。就是說，字元識別器208判定OCR引擎所提供的字元指定是否值得信賴。一些例子中，如果指定字元可靠，則指定字元無須進一步分析則自動被分配到群集中的每一子影像。然而，指定字元不可靠（例如，指定可疑）的一些例子中，則字元識別器208尋求來自人工審閱者的指定的確認。舉個例子，經由使用者介面210，字元識別器208提供OCR引擎分析的代表子影像連同OCR引擎識別的指定字元至終端216處的人工審閱者，以及要求審閱者或者確認此指定（例如，透過按動鍵盤上的輸入鍵或空格鍵）或者校正此指定（例如，透過按動與代表子影像對應的合適的鍵）。一些例子中，並非尋求確認，字元識別器208可提供代表子影像並且要求人工審閱者識別字元（例如，透過按動合適的鍵），無須提供OCR引擎判定的指定字元。一些例子中，可對相對可靠的指定字元（但不足以被自動接受）尋求確認，對相對低可靠性的字元指定則可尋求審閱者的直接識別。一些例子中，使用OCR分析特定群集的用於冗餘的不止一個代表子影像，以驗證指定字元的識別是否準確並且提高指定字元的可靠性與／或以驗證此群集是否被限制為單個字元。

一些例子中，基於OCR引擎的一或多個輸出是否超出對應的閥值，字元識別器208判定指定字元是否可靠。舉個例子，OCR引擎為識別的每一字元提供兩個輸出︰(1)字元之指定以及(2)此指定的可信度數值。一些例子中，可信度數值係為0與1之間的數值，其中1表示可信度為100%。一些例子中，當可信度數值超過可信度閥值時，則字元指定可靠。可信度閥值為任意合適的數值（例如，0.8、0.85、0.9等）。

一些例子中，可查詢OCR引擎以輸出識別的每一字元的位置資訊。一些例子中，位置資訊指示在被識別字元的影像內指定字元的邊界的位置。就是說，除了關於指定字元定義邊界以外，OCR引擎輸出的位置資訊可與分段期間判定的子影像的邊界的位置比較。如果指定字元對應被分析的子影像中呈現的實際字元，則OCR引擎輸出的位置資訊應該近似子影像的邊界。然而，如果OCR引擎已經指定了錯誤的字元，則OCR引擎輸出的位置資訊與子影像的邊界之間存在一些差別。因此，一些例子中，字元識別器208計算位置錯誤值，表示OCR引擎輸出的位置資訊與子影像的邊界之間的差異量。

舉個例子，圖7表示與數字“4”對應的代表性子影像702，具有油墨不足部分704（所示例子中輕微的陰影）。透過具有對應位置標號(0, 0)、(m, 0)、(0, n)以及(m, n)的角部706、708、710、712，識別子影像702的邊界。所示的例子中，OCR引擎錯誤地將子影像702的指定字元識別為數字1。指定字元具有指定字元邊界714，指定字元邊界714係透過具有對應位置標號(x0, y0)、(x1, y1)、(x2, y2)以及(x3, y3)的角部716、718、720、722被識別。一些例子中，基於子影像內指定字元對應的區域的位置（例如指定字元邊界714定義的區域）與子影像的邊界（例如，子影像702的邊界）之間的總差值，字元識別器208計算位置錯誤值。更特別地，一些例子中，在垂直與水平兩個方向，基於子影像702的每一角部706、708、710、712與指定字元邊界714的對應角部716、718、720、722之間位置的總差值，字元識別器208計算位置錯誤值。結合圖7以數學方式表示，位置錯誤值被計算為|0 – x0| + |0 – y0| + |m – x1| + |0 – y1| + |m – x2| + |n – y2| + |0 – x3| + |n – y3|。最大位置錯誤等於子影像702的寬度(m)與高度(n)的總數的兩倍。因此，一些例子中，透過將以上計算中角部位置中的差值除以最大位置錯誤，位置錯誤值被歸一化到0與1之間。一些例子中，當錯誤位置值低於位置錯誤閥值時，字元指定被視為可靠。位置錯誤閥值可為任何合適的數值（當位置錯誤值被歸一化於0與1之間時，例如為0.1、0.15、0.2等）。一些例子中，利用固定寬度(m)與高度(n)定義每一子影像的邊界，這樣位置錯誤閥值被定義為少於寬度與高度總和兩倍的某個數值，不需要將計算值歸一化到0與1之間。

額外地或可選擇地，基於指定字元邊界714外部但是位於子影像702內出現的前景畫素（foreground pixels），字元識別器208判定指定字元的可靠性。一些例子中，前景畫素被識別為具有一個畫素值的畫素，這個畫素值滿足子影像內而非背景內的字元的列印部分相關的畫素所對應的閥值。舉個例子，如果列印的正文為在淺色（例如，白色）背景上的深色（例如，黑色），前景畫素對應的畫素具有滿足暗畫素的閥值的畫素值。相反地，如果列印的正文為深色（例如，黑色）背景上的淺色（例如，白色），則前景畫素對應的畫素具有滿足淺畫素之閥值的畫素值。作為特別例子，圖7表示深色的列印正文（例如，黑色）與淺色的背景（例如，白色）。假設圖7中子影像702中數字4的油墨不足部分704至少部分被列印，油墨不足部分704的區域724將包含指定字元邊界714外部的前景畫素（例如，暗畫素）。指定字元對應的區域（即，指定字元邊界714所定義的區域）外部的前景畫素表示此區域未包含子影像中呈現的整個字元。因此，在這種情況下，字元識別器208判定指定字元不可靠。當然，一些例子中，可能存在雜散畫素（stray pixels），位於指定字元邊界714外部，實際上與真實字元不對應。一些這種例子中，當指定字元邊界714外部的前景畫素的數量（例如，絕對數量與／或與指定字元邊界714外部的整個區域的比率）超出閥值時，字元識別器208判定指定字元不可靠。

一些例子中，當滿足(1)可信度數值超出可信度閥值，(2)位置錯誤值少於位置錯誤閥值，與／或(3)與指定字元對應的區域外部的前景畫素的數量少於畫素閥值其中一個或多個時，字元識別器208判定指定字元可靠。一些例子中，在字元識別器208判定指定字元可靠以前，必須滿足不止一個上述條件。一些例子中，為了指定字元可靠，必須滿足全部以上條件。

一些例子中，某些字元比如標點符號（例如，逗號、句號、破折號等）未填充子影像的邊界相關的整個空間（基於被分析的特定字型被歸一化至固定的高度與／或寬度）。在這種例子中，與呈現字元對應的區域（例如圖7所示的指定字元邊界714）遠小於子影像的邊界，甚至當識別正確字元時導致相對高的位置錯誤值。因此，一些例子中，當可信度數值超出合適的閥值時，位置錯誤值與指定字元的期望位置錯誤值比較。當然，如果可信度數值低，則無論位置錯誤值如何，指定字元被認為不可靠。

圖2所示的例子中，資料處理設施110具有代表性的編碼正文產生器212，以產生與被分析的成像正文（例如，圖1之收據影像112、114）對應的機器編碼正文。一些例子中，編碼正文產生器212將特定群集之指定字元（字元識別器208判定的）與群集中包含的各個子影像對應的成像正文中的位置（影像分析器206判定的）關聯。依照這種方式，只要字元的每種情況在外觀上充分相似以被分組至共同群集內，單個指定字元的識別（例如，基於人工審閱與／或OCR引擎分析的代表子影像）可被應用至成像檔案內的字元的多種情況。當群集較大時（當分析多個收據時可能出現），人工審閱者可顯著地節省時間。此外，當指定字元的識別可靠時，則根本無須人工審閱者。

一些例子中，編碼正文產生器212將基於上下文的校正應用至被擷取的正文。就是說，一些例子中，一旦每一群集之全部指定字元已經與成像檔案的對應子影像（例如，收據影像112、114）關聯，這樣全部正文已被編碼，代表性的編碼正文產生器212分析上下文中的正文以識別任何錯誤。舉個例子，如果字母的特定字串（string）未形成可識別的字組（例如，基於字典查找），編碼正文產生器212可分析每一個體字母以判定其已被錯誤識別，以及可被改變以形成可識別的字組。類似地，如果字元的字串包含全部字母與一個非字母（例如，一個符號），編碼正文產生器212分析這個非字母符號以判定其是否應該是一個字母以形成可識別的字組。作為另一個例子，除了字母「X」代替第一正斜線符號(/)以外，字元的字串「10X14/2015」實質上具有日期的格式。一些這種例子中，編碼正文產生器212識別字元字串的格式以及校正被錯誤識別的字母「X」。依照這種方式在上下文中分析成像檔案使得在編碼正文產生器212產生與收據影像112、114對應的完整機器編碼的正文檔案以前，能夠偵測並校正任意最終錯誤.

圖2所示的例子中，資料處理設施110具有代表性的字元識別資料庫214，以儲存各個群集的指定字元與／或代表子影像以用於後續參考。當群集的指定字元曾經初始被識別為不可靠這樣人工審閱者不得不確認與／或指定正確的字元時，這特別具有優勢。審閱者驗證指定字元以後，經過驗證的指定字元以及相關的代表子影像被儲存於字元識別資料庫214中。這樣，如果稍後時間出現與指定字元相關群集對應的另一個子影像，無論特定子影像如何，則新子影像可直接與指定字元關聯，無須再次尋求審閱者的驗證。因此，OCR分析子影像的準確度可隨著時間推移而提高，從而進一步降低人工審閱成像檔案的需求。

雖然圖2表示圖1之資料處理設施110之代表性實施方式，圖2所示的一或多個元件、製程與／或裝置可依照任意其他方式被組合、分開、重新排列、省略、消除與／或實施。此外，代表性通訊介面202、代表性批次指定符204、代表性影像分析器206、代表性字元識別器208、代表性使用者介面210、代表性編碼正文產生器212、代表性字元識別資料庫214與／或圖1之代表性資料處理設施110通常可透過硬體、軟體、韌體與／或硬體、軟體與／或韌體之任意組合被實施。因此，舉個例子，代表性通訊介面202、代表性批次指定符204、代表性影像分析器206、代表性字元識別器208、代表性使用者介面210、代表性編碼正文產生器212、代表性字元識別資料庫214與／或代表性資料處理設施110的任一個通常可透過一或多個類比或數位電路、邏輯電路、可程式處理器、特定應用積體電路（application specific integrated circuit；ASIC）、可程式邏輯裝置（programmable logic device；PLD）與／或現場可程式邏輯裝置（field programmable logic device；FPLD）被實施。當閱讀本專利之任意設備或系統申請專利範圍以覆蓋純粹的軟體與／或硬體實施例時，代表性通訊介面202、代表性批次指定符204、代表性影像分析器206、代表性字元識別器208、代表性使用者介面210、代表性編碼正文產生器212、與／或代表性字元識別資料庫214至少其一特此明確被定義為包含有形的電腦可讀儲存裝置或者儲存磁碟比如儲存軟體與／或韌體的記憶體、數位光碟（digital versatile disk；DVD）、光碟（compact disk；CD）、藍光光碟等。此外，圖1之代表性資料處理設施110還包含一或多個元件、製程與／或裝置以增加或代替圖2所示的配置，與／或還包含所示元件、製程與裝置之任意多個或全部。

圖8至圖13表示用於實施圖1與／或圖2之代表性資料處理設施110之代表性機器可讀指令之流程圖。在這個例子中，機器可讀指令包含由處理器執行的程式，處理器例如為以下結合圖14討論的代表性處理器平台1400所示的處理器1412。程式以軟體形式被具體化，軟體被儲存於有形的電腦可讀儲存媒體比如唯讀光碟、軟磁碟、硬碟、數位光碟（DVD）、藍光光碟或者與處理器1412關聯的記憶體中，但是整個程式與／或其部分可選擇性地由處理器1412以外的裝置被執行與／或被具體化於韌體或專屬硬體中。另外，雖然結合圖8至圖13所示的流程圖描述代表性程式，但是可選擇性地使用代表性資料處理設施110之很多其他實施方法。舉個例子，方塊的執行順序可被改變，與／或所描述的某些方塊被改變、消除或組合。

如上所述，利用有形電腦可讀儲存媒體上儲存的編碼指令（例如，電腦與／或機器可讀指令），可實施圖8至圖13的代表性製程。有形電腦可讀儲存媒體例如為硬式磁碟機、快閃記憶體（flash memory）、唯讀記憶體（ROM）、光碟（CD）、數位光碟（DVD）、高速緩衝記憶體（cache）、隨機存取記憶體（RAM）與／或針對任意工作週期（例如，針對延伸時間週期、永久地、針對簡短情況，針對暫時緩衝與／或針對資訊快取）儲存資訊的任意其他儲存裝置或者儲存磁碟。本文使用的術語有形電腦可讀儲存媒體被明確定義為包含任意類型的電腦可讀儲存裝置與／或儲存磁碟以及排除傳播訊號以及排除傳輸媒體。本文使用的「有形電腦可讀儲存媒體」以及「有形機器可讀儲存媒體」可互換使用。額外地或可選擇地，使用編碼指令（例如電腦與／或機器可讀指令）實施圖8至圖13的代表性製程，編碼指令被儲存於非暫時電腦與／或機器可讀媒體比如硬式磁碟機、快閃記憶體（flash memory）、唯讀記憶體（ROM）、光碟（CD）、數位光碟（DVD）、高速緩衝記憶體（cache）、隨機存取記憶體（RAM）與／或針對任意工作週期（例如，任意延伸時間週期、永久地、任意簡短情況，任意暫時緩衝與／或任意資訊快取）儲存資訊之任意其他儲存裝置或者儲存光碟。本文使用的術語非暫時電腦可讀媒體被明確定義為包含任意類型的電腦可讀儲存裝置與／或儲存光碟以及排除傳播訊號且排除傳輸媒體。本文使用的當片語「至少」用作申請專利範圍前文中的過渡術語時，與開放式的術語「包含」一樣也是開放式的。

詳細介紹流程圖，圖8之代表性程式始於方塊802，此處代表性通訊介面202接收一或多個基於正文的檔案的影像（例如，圖1之收據影像112、114）。在方塊804處，代表性批次指定符204識別批次中包含的影像以用於分析。一些例子中，單個批次中包含全部接收的影像。其他例子中，例如基於不同的發端來源（例如，基於正文的檔案來自不同的零售商），影像被分離到分離的批次內。在方塊806處，代表性的影像分析器206將影像分段至與個體字元對應的子影像內。在方塊808處，代表性的影像分析器206將視覺相似的子影像分組到一個群集內。以下結合圖9提供實施方塊808之有關額外細節。

在方塊810處，代表性的字元識別器208為這個群集選擇一個代表子影像。一些例子中，代表子影像對應群集中的子影像其中之一。一些例子中，代表子影像對應群集內的多個子影像之合成子影像。在方塊812處，基於這個群集的代表子影像，代表性字元識別器208識別這個群集的指定字元。以下結合圖11提供實施方塊812之有關額外細節。在方塊814處，代表性編碼正文產生器212將指定字元與一或多個基於正文之檔案的影像中的字元的每一對應位置關聯。一些例子中，指定字元關聯的對應位置對應群集中被分組的每一子影像在一或多個檔案之內的位置。

在方塊816處，代表性編碼正文產生器212判定，指定字元是否對應具有最小視覺差的一組字元，由此係為具有相對高可能性被誤判為不同字元的一個字元。如果代表性編碼正文產生器212判定，指定字元對應具有最小視覺差的一組字元，則控制前進至方塊818，此處代表性編碼正文產生器212分析群集內的每一子影像以確認或校正被分配每一子影像的群集。然後，控制前進至方塊820。如果代表性編碼正文產生器212判定，指定字元未對應具有最小視覺差的一組字元（方塊816），則控制直接前進至方塊820。

在方塊820處，代表性編碼正文產生器212判定是否識別額外的字元。如果是，控制返回方塊808。否則控制前進至方塊822，此處代表性編碼正文產生器212將基於上下文的校正應用至擷取的正文。在方塊824處，代表性編碼正文產生器212產生與一或多個基於正文檔案之影像對應的完整機器編碼的正文檔案，於是圖8之代表性程式結束。

如上所述，圖9表示一個代表性程式，實施圖8之方塊808以將視覺相似的子影像分組至一個群集內。這個代表性程式始於方塊902，此處代表性的影像分析器206提取被分配至第一群集的第一子影像以作為參考影像。在方塊904處，代表性影像分析器206識別之前未被分配至一個群集的另一子影像。在方塊906處，代表性影像分析器206針對群集計算已識別的子影像與參考子影像之間的視覺相關性。以下結合圖10提供實施方塊906之有關額外細節。

在方塊908處，代表性影像分析器206判定視覺相關性是否滿足（例如，大於或等於）相關性閥值。如果不滿足，則控制前進至方塊910，此處代表性影像分析器206判定是否存在待檢查的另一現有群集。如果存在另一現有群集，則控制返回方塊906以針對另一現有群集計算已識別的子影像與參考子影像之間的視覺相關性。如果代表性影像分析器206判定沒有其他的現有群集（方塊910），則控制前進至方塊912，此處代表性影像分析器206將已識別的子影像分配至一個新群集，於是控制前進至以下討論之方塊916。然後，控制前進至方塊916，此處代表性影像分析器206判定是否存在之前未被分配至群集的另一子影像。如果是，控制返回方塊904以重複另一個識別子影像的過程。否則，圖9之代表性程式結束且返回以完成圖8之代表性程式。

返回方塊908，如果代表性影像分析器206判定視覺相關性滿足相關性閥值，則控制前進至方塊914，此處代表性影像分析器206將已識別的子影像分配至現有群集。此後，控制前進至方塊916，或者為另一子影像重複此過程或者結束，以及返回以完成圖8之代表性程式。

如上所述，圖10表示實施圖9之方塊906之代表性程式，為現有群集計算已識別的子影像與參考子影像之間的視覺相關性數值。代表性程式始於方塊1002，此處代表性影像分析器206將識別的子影像轉換為在空間上與參考子影像對應。在方塊1004處，代表性影像分析器206為轉換的子影像增加邊緣。在方塊1006處，代表性影像分析器206計算第一相關性數值，指示第一相對位置處的子影像之間的相似度。在方塊1008處，代表性影像分析器206設定子影像間的視覺相關性作為第一相關性數值。

在方塊1010處，代表性影像分析器206為子影像的另一相對位置計算另一相關性數值。在方塊1012處，代表性影像分析器206判定最近計算的相關性數值是否大於視覺相關性。如果是大於，則控制前進至方塊1014，此處代表性影像分析器206設定子影像之間的視覺相關性作為最近的相關性數值。然後，控制前進至方塊1016，此處代表性影像分析器206判定是否存在子影像的另一相對位置。如果是，則控制返回方塊1010以針對另一相對位置重複此過程。否則，代表性程式結束，以及返回以完成圖9的代表性程式。返回方塊1012，如果代表性影像分析器206判定最近計算的相關性數值不大於視覺相關性，則控制直接前進至方塊1016。

如上所述，圖11表示實施圖8之方塊812之一個代表性程式，以基於群集之代表子影像識別群集之指定字元。代表性程式始於方塊1102，此處代表性字元識別器208判定是否使用OCR引擎。如果使用OCR引擎，則控制前進至方塊1104，此處基於群集之代表子影像之OCR分析，代表性字元識別器208識別群集之指定字元。在方塊1106處，代表性字元識別器208分析OCR輸出以判定指定字元的可靠性。以下結合圖12提供實施方塊1106之有關額外細節。

在方塊1108處，代表性字元識別器208判定指定字元是否可靠。如果可靠，因為指定字元被這個群集自動接受，則圖11之代表性程式結束，以及返回以完成圖8之代表性程式。然而，如果代表性字元識別器208判定指定字元不可靠（方塊1108），則控制前進至方塊1110。在方塊1110處，代表性字元識別器208判定代表子影像是否對應歸檔群集（archived cluster）（例如，被儲存於字元識別資料庫214中）。如果是，則控制前進至方塊1112，此處代表性字元識別器208識別指定字元作為對應歸檔群集的指定字元，於是圖11之代表性程式結束以及返回以完成圖8之代表性程式。

返回方塊1102，如果代表性字元識別器208判定不使用OCR引擎，則控制前進至方塊1114，此處代表性字元識別器208提取使用者輸入以識別這個群集的指定字元。以下結合圖13提供實施方塊1114之有關額外細節。在方塊1116處，代表性字元識別資料庫214針對群集儲存指定字元之使用者輸入識別，於是圖11之代表性程式結束以及返回以完成圖8之代表性程式。返回方塊1110，如果代表性字元識別器208判定代表子影像未對應歸檔群集，則控制前進至方塊1114以如上所述繼續。

如上所述，圖12表示實施圖11之方塊1106之一個代表性程式，分析OCR輸出以判定指定字元之可靠性。代表性程式始於方塊1202，此處代表性字元識別器208提取用於識別指定字元之可信度數值。在方塊1204處，代表性字元識別器208判定可信度數值是否滿足（例如大於或等於）可信度閥值。如果不滿足，則控制前進至方塊1218，此處在返回以完成圖11之代表性程式以前，代表性字元識別器208識別指定字元為不可靠。如果代表性字元識別器208判定可信度數值滿足可信度閥值，則控制前進至方塊1206。

在方塊1206處，代表性字元識別器208提取位置資訊，表示代表子影像內指定字元的邊界的布局。在方塊1208處，代表性字元識別器208基於位置資訊計算位置錯誤值。在方塊1210處，代表性字元識別器208判定位置錯誤值是否滿足（例如，少於）位置錯誤閥值。如果不滿足，則控制前進至方塊1218，此處在返回以完成圖11之代表性程式以前，代表性字元識別器208識別指定字元不可靠。如果代表性字元識別器208判定位置錯誤值滿足位置錯誤閥值，則控制前進至方塊1212。

在方塊1212處，代表性字元識別器208判定代表子影像內但是指定字元邊界外部的前景畫素的數量。在方塊1214處，代表性字元識別器208判定前景畫素的數量是否滿足（例如，少於）畫素閥值。如果不滿足，則控制前進至方塊1218，此處在返回以完成圖11之代表性程式以前，代表性字元識別器208識別指定字元不可靠。如果代表性字元識別器208判定前景畫素的數量滿足畫素閥值（方塊1214），則控制前進至方塊1216，此處在返回以完成圖11之代表性程式以前，代表性字元識別器208識別指定字元可靠。

如上所述，圖13表示實施圖11之方塊1114之一個代表性程式，提取使用者輸入以識別群集之指定字元。代表性程式始於方塊1302，此處代表性使用者介面210顯示群集之代表子影像。在方塊1304處，代表性字元識別器208判定識別群集之指定字元的可信度數值（例如，OCR引擎輸出的）是否滿足確認閥值。一些例子中，確認閥值低於可信度閥值（超過可信度閥值，指定字元被識別為可靠），但是足夠高這樣指定字元仍然有合理的可能性是正確的。一些這種例子中，假設指定字元準確，但是依賴人工審閱者確認這個指定。舉個例子，可信度閥值被設定為0.85，而確認閥值被設定為0.7。一些例子中，低於確認閥值的可信度數值充分不可靠，這樣依賴人工審閱者識別正確的指定字元，不顯示OCR引擎所識別的不可靠的指定字元。

因此，如果代表性字元識別器208判定，針對群集識別指定字元的可信度數值滿足確認閥值（方塊1304），控制前進至方塊1308。在方塊1308處，使用者介面210在代表子影像旁邊顯示指定字元。在方塊1310處，代表性字元識別器208提示人工審閱者確認指定字元對應代表子影像。一些例子中，透過採用特定動作（例如，鍵盤上的輸入鍵或空格鍵），人工審閱者確認指定字元。當審閱者採用特定動作依照這種方式確認指定字元時，可提高審閱者的效率。舉個例子，人工審閱者待確認的大多數指定字元，由於它們的可信度數值相對高（超出確認閥值）很可能是正確的。因此，人工審閱者需要僅僅完成確認動作（例如，敲擊空格鍵），無須進一步努力。萬一字元不正確，審閱者不得不採取額外步驟（例如，指定正確字元），但是因為可信度數值相對高（超出確認閥值），這將極少發生。

在方塊1312處，代表性字元識別器208判定人工審閱者是否確認指定字元對應代表子影像。如果確認對應，則控制前進至方塊1314，此處基於OCR引擎識別的指定字元，代表性字元識別器208識別群集之指定字元，於是控制返回以完成圖11之代表性程式。如果代表性字元識別器208判定人工審閱者未確認指定字元對應代表子影像（方塊1312），則控制前進至方塊1316，此處基於人工審閱者輸入的指定，代表性字元識別器208識別群集之指定字元。就是說，如果OCR引擎判定的指定字元不正確，這樣人工審閱者將不會確認這一點，人工審閱者可輸入與代表子影像對應的正確字元，然後用作群集之指定字元。此後，圖13的代表性程式結束以及返回以完成圖11之代表性程式。

返回方塊1304，如果代表性字元識別器208判定針對群集識別指定字元的可信度數值未超出確認閥值，則控制前進至方塊1306。在方塊1306處，代表性字元識別器208提示人工審閱者以識別與代表子影像對應的指定字元。然後，控制前進至方塊1316，此處在圖13之代表性程式結束以及返回以完成圖11之代表性程式以前，基於人工審閱者輸入的指定，代表性字元識別器208識別群集之指定字元。

圖14為代表性處理器平台1400之方塊圖，能夠執行圖8至圖13之指令以實施圖1與／或圖2之代表性資料處理設施110。舉個例子，處理器平台1400可為伺服器、個人電腦、行動裝置（例如，手機、智慧型電話、輸入板比如iPad^TM ）、個人數位助理（personal digital assistant；PDA）、網際網路器具（Internet appliance）或者任意其他類型的計算裝置。

所示例子之處理器平台1400包含處理器1412。所示例子之處理器1412為硬體。舉個例子，透過來自任意期望系列或者製造商的一或多個積體電路、邏輯電路、微處理器或者控制器實施處理器1412。

所示例子之處理器1412包含區域記憶體1413（例如，高速緩衝記憶體）。所示例子中，處理器1412實施圖2之代表性通訊介面202、代表性批次指定符204、代表性影像分析器206、代表性字元識別器208、代表性使用者介面210，與／或代表性編碼正文產生器212。所示例子之處理器1412經由匯流排1418與主記憶體通訊，主記憶體包含揮發性記憶體（volatile memory）1414與非揮發性記憶體1416。透過同步動態隨機存取記憶體（Synchronous Dynamic Random Access Memory；SDRAM）、動態隨機存取記憶體（DRAM）、RAMBUS動態隨機存取記憶體（RAMBUS Dynamic Random Access Memory；RDRAM）與／或任意其他類型的隨機存取記憶體裝置實施揮發性記憶體1414。透過快閃記憶體與／或任意其他期望類型的記憶體裝置實施非揮發性記憶體1416。記憶體控制器控制對揮發性記憶體1414與非揮發性記憶體1416的存取。

所示例子的處理器平台1400還包含介面電路1420。透過任意類型的介面標準比如乙太網路介面、通用串列匯流排（USB）與／或快速週邊組件互連（PCI express）介面實施介面電路1420。

所示例子中，一或多個輸入裝置1422連接介面電路1420。輸入裝置1422允許使用者輸入資料與命令至處理器1412內。舉個例子，音訊感測器、麥克風、照相機（或者視訊）、鍵盤、按紐、滑鼠、觸控螢幕、軌跡板（track-pad）、軌跡球（trackball）、游標控制（isopoint）或者語音識別系統可實施輸入裝置。

一或多個輸出裝置1424還連接所示例子之介面電路1420。舉個例子，顯示裝置（例如，發光二極體、有機發光二極體、液晶顯示器、陰極射線管顯示器、觸控螢幕、觸覺輸出裝置、列印機與／或揚聲器）可實施輸出裝置1424。因此，所示例子之介面電路1420通常包含圖形驅動卡、圖形驅動晶片或者圖形驅動處理器。

所示例子之介面電路1420還包含通訊裝置，例如發射機、接收機、收發機、數據機與／或網路介面卡，以便於經由網路1426（例如，乙太網路連接、數位用戶線（digital subscriber line；DSL）、電話線、同軸電纜、手機系統等）與外部機器（例如，任意種類的計算裝置）交換資料。

所示例子之處理器平台1400還包含一或多個大量儲存裝置1428，用於儲存軟體與／或資料。舉個例子，大量儲存裝置1428包含代表性字元識別資料庫214。這種大量儲存裝置1428的例子包含軟磁碟驅動器、硬碟驅動器、光碟驅動器、藍光光碟驅動器、獨立磁碟冗餘陣列（RAID）系統以及數位光碟（DVD）驅動器。

圖8至圖13之編碼指令1432可被儲存於大量儲存裝置1428中、揮發性記憶體1414中、非揮發性記憶體1416中與／或可移除的有形電腦可讀儲存媒體比如光碟或數位光碟上。

根據以上內容應理解，當嚴格地利用人工審閱者完成以及利用OCR技術完成正文擷取時，以上揭露的代表性方法與設備實質上增加了正文擷取的效率。更特別地，本文揭露的例子透過為相似字元的整個群集使用單個的指定字元，使得正文擷取能夠利用規模經濟的優點。此外，可從單個檔案的字元或一批多個檔案中的字元產生單次識別（透過人工審閱者或OCR引擎）的字元的群集。再者，一旦人工審閱者已經識別出OCR引擎無法可靠地識別的特定字元，則可以存儲這個字元指定以在分析外觀類似的字元時作為參考，這樣無須人工審閱者第二此識別這個字元，可完成字元的自動指定。

雖然本文已揭露某些代表性的方法、設備與製品，但是本專利之覆蓋範圍並非限制於此。相反地，本案覆蓋完全落入本案申請專利範圍內的全部方法、設備與製造的製品。

102‧‧‧零售商
104‧‧‧小組成員
106‧‧‧收據
108‧‧‧市場研究實體
110‧‧‧資料處理設施
112、114‧‧‧影像
202‧‧‧通訊介面
204‧‧‧批次指定符
206‧‧‧影像分析器
208‧‧‧字元識別器
210‧‧‧使用者介面
212‧‧‧編碼正文產生器
214‧‧‧字元識別資料庫
216‧‧‧終端
302、304‧‧‧子影像
306‧‧‧邊界
308‧‧‧角部
310‧‧‧邊界
402‧‧‧轉換子影像
404‧‧‧邊緣
601、602、603、604、605、606、607‧‧‧子影像
608‧‧‧群集
702‧‧‧子影像
704‧‧‧油墨不足部分
706、708、710、712‧‧‧角部
714‧‧‧指定字元邊界
716、718、720、722‧‧‧角部
724‧‧‧區域
1400‧‧‧處理器平台
1412‧‧‧處理器
1413‧‧‧區域記憶體
1414‧‧‧揮發性記憶體
1416‧‧‧非揮發性記憶體
1418‧‧‧匯流排
1420‧‧‧介面電路
1422‧‧‧輸入裝置
1424‧‧‧輸出裝置
1426‧‧‧網路
1428‧‧‧大量儲存裝置
1432‧‧‧編碼指令

圖1係為依照本揭露之教示實施之包含代表性資料處理設施之代表性環境之示意圖。圖2係為圖1之代表性資料處理設施之代表性實施例之方塊圖。圖3至圖5係為依照本文揭露之教示之兩個代表性字元（character）之子畫素之對照。圖6係為從實際收據分離的字元之代表性子影像。圖7係為數字「4」被錯誤識別為數字「1」之代表性子影像。圖8至圖13係為代表性的機器可讀指令之流程圖，機器可讀被執行以實施圖1與／或圖2之代表性資料處理設施。圖14係為代表性處理器平台之方塊圖，被構造以執行圖8至圖13之代表性機器可讀指令以實施圖1與／或圖2之代表性資料處理設施。

110‧‧‧資料處理設施

202‧‧‧通訊介面

204‧‧‧批次指定符

206‧‧‧影像分析器

208‧‧‧字元識別器

210‧‧‧使用者介面

212‧‧‧編碼正文產生器

214‧‧‧字元識別資料庫

216‧‧‧終端

Claims

一種從成像檔案中擷取正文之方法，包含：利用一處理器，將一當案之一影像分段至與該檔案中的個體字元對應的局部子影像內；利用該處理器，基於各個該等子影像與一參考子影像的多個視覺相關性，將各個該等子影像分組至一群集內，該參考子影像與被分組至該群集內的各個該等子影像之間的該等視覺相關性超出一相關性閥值；基於被分組至該群集內的該等子影像，利用該處理器針對該群集識別一指定字元；以及利用該處理器，將該指定字元與被分組至該群集內的各個該等子影像相關的該檔案之該影像中的位置關聯。
如請求項1所述之從成像檔案中擷取正文之方法，其中無須使用一光學字元辨識引擎識別該指定字元。
如請求項1所述之從成像檔案中擷取正文之方法，更包含針對該群集識別該指定字元係透過：向一人工審閱者呈現與該群集相關之一代表性子影像；以及從該人工審閱者接收指示該指定字元之回饋。
如請求項1所述之從成像檔案中擷取正文之方法，其中基於與該群集相關的一代表性子影像之一光學字元辨識，識別該指定字元。
如請求項4所述之從成像檔案中擷取正文之方法，其中該代表性子影像對應被分組至該群集內的該等子影像之一第一子影像。
如請求項4所述之從成像檔案中擷取正文之方法，其中該代表性子影像係為被分組至該群集內各個該等子影像之合成。
如請求項1所述之從成像檔案中擷取正文之方法，更包含判定該等子影像之一第一子影像與該參考子影像之該視覺相關性係透過︰將該等子影像之該第一子影像轉換為具有與該參考子影像對應之一空間定位，以判定一轉換子影像；圍繞該轉換子影像增加一邊緣；在該邊緣定義的一邊界內，針對該參考子影像相對該轉換子影像的不同位置，計算該轉換子影像與該參考子影像之間的一相關性數值；以及將相關性數值中最大的一個分配作為該等子影像之該第一子影像與該參考子影像之該視覺相關性。
如請求項1所述之從成像檔案中擷取正文之方法，更包含︰基於針對該群集之一代表性子影像之一光學字元辨識分析之一輸出，判定該指定字元之一可靠性；以及當判定該指定字元可靠時，自動分配該指定字元至該群集。
如請求項8所述之從成像檔案中擷取正文之方法，更包含︰一人工審閱者之前驗證的一儲存的指定字元與一儲存的子影像關聯，當判定該指定字元不可靠時，比較該代表性子影像與該儲存的子影像；以及當該代表性子影像與該儲存的子影像之間的一視覺相關性超出該相關性閥值時，自動分配該儲存的指定字元作為該群集之該指定字元。
如請求項8所述之從成像檔案中擷取正文之方法，更包含當判定該指定字元不可靠時，提示一人工審閱者驗證該指定字元。
如請求項10所述之從成像檔案中擷取正文之方法，其中當針對該群集之該代表性子影像之該光學字元辨識分析所產生的一位置錯誤值不滿足一位置錯誤閥值時，判定該指定字元不可靠，該位置錯誤值對應該代表性子影像內識別的該指定字元之一邊界之一位置與該代表性子影像之一邊界之間的差值。
如請求項10所述之從成像檔案中擷取正文之方法，其中當該光學字元辨識分析所產生的一可信度數值不滿足一可信度閥值時，判定該指定字元不可靠。
如請求項12所述之從成像檔案中擷取正文之方法，其中提示該人工審閱者驗證該指定字元包含：當該可信度數值不滿足該可信度閥值且滿足一確認閥值時，在該代表性子影像旁邊顯示該指定字元以及要求該人工審閱者確認該指定字元對應該代表性子影像，以及當該可信度數值不滿足該確認閥值時，顯示該代表性子影像以及要求該人工審閱者確認該代表性子影像。
如請求項10所述之從成像檔案中擷取正文之方法，其中當該代表性子影像內以及該代表性子影像內識別的指定字元之一邊界外部的前景畫素的數量不滿足一畫素閥值時，判定該指定字元不可靠。
一種用於從成像檔案中擷取正文之設備，包含：一影像分析器，經由一處理器被實施，將一檔案之一影像分段至與該檔案中的個體字元對應的局部子影像內，以及基於各個該等子影像與一參考子影像的多個視覺相關性，將各個該等子影像分組至一群集內，該參考子影像與被分組至該群集內的各個該等子影像之間的該等視覺相關性超出一相關性閥值；一字元識別器，經由該處理器被實施，基於被分組至該群集內的該等子影像，針對該群集識別一指定字元；以及一編碼正文產生器，經由該處理器被實施，將該指定字元與被分組至該群集內的各個該等子影像相關的該檔案之該影像中的位置關聯。
如請求項15所述之用於從成像檔案中擷取正文之設備，其中該字元識別器將：基於針對該群集之一代表性子影像之一光學字元辨識分析之一輸出，判定該指定字元之一可靠性；以及當判定該指定字元可靠時，自動分配該指定字元至該群集。
如請求項16所述之用於從成像檔案中擷取正文之設備，其中當判定該指定字元不可靠時，該字元識別器將提示一人工審閱者驗證該指定字元。
一種有形電腦可讀儲存媒體，包含複數個指令，當執行該等指令時，使得一機器至少：將一檔案之一影像分段至與該檔案中的個體字元對應的局部子影像內；基於各個該等子影像與一參考子影像的多個視覺相關性，將各個該等子影像分組至一群集內，該參考子影像與被分組至該群集內的各個該等子影像之間的該等視覺相關性超出一相關性閥值；基於被分組至該群集內的該等子影像，針對該群集識別一指定字元；以及將該指定字元與被分組至該群集內的各個該等子影像相關的該檔案之該影像中的位置關聯。
如請求項18所述之有形電腦可讀儲存媒體，其中該等指令更使得該機器︰基於針對該群集之一代表性子影像之一光學字元辨識分析之一輸出，判定該指定字元之一可靠性；以及當判定該指定字元可靠時，自動分配該指定字元至該群集。
如請求項19所述之有形電腦可讀儲存媒體，其中該等指令更使得該機器在判定該指定字元不可靠時，提示一人工審閱者驗證該指定字元。