TWI223212B

TWI223212B - Generalized text localization in images

Info

Publication number: TWI223212B
Application number: TW090104992A
Authority: TW
Inventors: Rainer Wolfgang Lienhart; Axel Wernicke
Original assignee: Intel Corp
Priority date: 2000-03-14
Filing date: 2001-03-05
Publication date: 2004-11-01
Also published as: DE10195927B4; GB2377114A8; DE10195927T1; US6470094B1; GB2377114A; HK1049536B; HK1049536A1; CN100514364C; WO2001069529A3; CN1418354A; GB2377114B; WO2001069529A2; HK1069913A1; US20020159636A1; AU2001238648A1; GB0223747D0

Description

1223212 五、發明說明（1) 發明背景發明之技術範疇：本發明係有關影像中之一般化本文定位(localization)及/ 或分段(segmentation) 〇背景技藝= 現有對本文辨識的工作主要集中於印刷及手寫文件中的字元之光學辨識（稱為光學字元辨識（OCR))，回應了辦公室自動化系統文件讀者的廣大需求及市場。此等系統已達高度成熟。進一步的本文辨識工作可能在於工業應用上，大多集中於十分狹窄的應用範臂。車輛牌照的自動辨識是一個例子。已有人提議，在（從）複雜影像及視頻做本文檢測及本文榻取（e X t r a c t i ο η)。然而，如閱讀其說明所見的，兩者在某方面皆無一般性。此外，有的並未將被定位的本文從其背景移除。據此’仍有必要對本文定位及分段求得一般化的解決途徑。圖式之簡單說明本發明從下述的詳細說明及發明之具體實例的附圖，可獲更完整的了解，然而，所述之特定具體實例不應視為對本發明之限制，而係僅做解釋與了解之用。圖1為表示本發明之一些具體實例中所實行的各種功能的流程圖。圖2為表示本發明之一些具體實例中各種定位階段下的影像的流程圖。

1223212 五、發明說明（2) 圖3例示一具本文及一背景之訊限盒。杧中衫像所用的初始界圖4例示垂直及水平投影輪廓。 =;示用於圖3之本文之-部份的垂直分段。圖6例不應用於圖3之本文之—部份的水：圖7例示含本文及一背景的網站上之刀。又。圖8為依據本發明之一些具體實估之表示法，立卩^失方换同 ' ^顏色評 Μ為方塊圖，部份為流程圖。圖9 u流程圖表示：依據本發明之一此且視頻監視與本文i自浐「+ Γί；)Γ^ ;. 二，、體貝例所做的 mn 1本文追知（trackln§)之間的關係。依電腦系統的方塊圖表示法，該電腦系統能實行依據本發明之一些具體例之功能。疋此貝灯、，詳細說明 1 ·前言段本= = …定位及/或分中的影像。網頁可包的影像，諸如視頻或網頁影像中處於特定位置，視頻影像。本文則毋需在非本文）可以是簡單的色。此外，背景（或稱對皇早色）或複雜的背景。要的 a做有政率的索引及檢索，是多媒體資料庫重頻中的本文對於檢索來說，是一種有力的高。蚀 T文做檢測，擷取及辨識，則可建立此種索引 ψ 、因此能提出精密的查詢，像是約翰韋恩（John Wayne)主演式余芏朴士、^文帝分史匹柏（Steven Spielberg)製片的所

第7頁 1223212 五、發明說明（3) 有電影的列表。或故事，新聞播報字例如，可以搜尋「聞。索引也能用來他們的客戶檢查，電視頻道上播放。中被辨識，則可構文部份中的本文分多網頁在影像中示演算法並不能擷取都不能正確地索引辨識或也有助於為電的/ j、L C D顯不為者，可用來跳躍到關於特定題目的新聞幕本來就常是其出處新聞故事的摘要。財經新聞」一辭，以獲得當天的財經新記錄播出時間及廣告日期，幫助人們為是否他們的廣告已於排定時間在排定的如果本文能被自動且可靠地在數位視頻想許多其他有用的高階應用。網頁非本段及辨識，也是重要的問題。有愈來愈出本文；而現存的本文分段及本文辨識該種本文。如此，所有現存的搜尋引擎富含影像的網頁内容。本文分段及本文大監視器而設計的網頁，自動轉換到家這是因為影像中的本文内容可被檢索 2. 概觀圖1提供一流程圖，有效地給出本發明之一些具體實例的有關概觀。圖1包含一本文定位方塊10及一本文分段方塊1 4。本專利說明書中所提及的「一具體實例」、「一個具體實例」、「一些具體實例」或「其他具體實例」意指 :該（等）具體實例所述及之一特別的特色、結構或特點係包含於本發明之至少某些具體實例中，但不必然包含於所有具體實例。各種表述如「一具體實例」、「一個具體實例」或「一些具體實例」，不一定全都論及相同的具體實例0

第8頁 1223212

2. 1 主jc定位藉由本文疋位方塊1 〇之特徵（f e a t u r e )操取方塊2 Q，— ，位輸入訊號（其典型地包含一影像）被接收。在一些具體貝例中’輸入訊號藉由特徵擷取方塊2 〇而被接收之前或之日rr任何A S C I I或有關的本文（如，η τ M L本文）皆被移除。注意到，當時一個網頁可含做為分離的影像而被處理的多影像（multi pie images)。本文定位方塊找出影像中的本文位置（locations of text)，並以緊密的本文界限盒來標不之。在一些具體實例中，這些界限盒應該只對一本文行之一本文線（1 i n e )晝界。然而如下述，一本文行不限於單一個字元。在一些具體實例中，定位包含： (1) 特徵擷取（方塊2 Q ):從輸入影像榻取一特徵，藉此補捉本文所獨具的特徵。

(2) 區域分類（region classification)(方塊 22):該特徵影像中的每一像素依其是否屬於本文，而被分類。基於此資訊，產生初始本文界限盒。 (3) 區域合併（region consolidation)(方塊 24):該等本文界限盒被細化，以致皆僅含本文的一線及一行。 (4) 本文追蹤（方塊2 6 ):如果輸入的是視頻，此方塊加入處理。這裡我們利用視頻之時序冗餘性（temporal redundancy)，而在移除多個偽警報（false alarms)的同時，也改良了本文界限盒的精度。 (5 )評估本文及背景支配顏色（方塊2 8 )。 2. 2 本文分段

1223212

第10頁 1223212 五、發明說明（6) 定位’本文分段也可使用視頻之時序冗餘性，卩結果。一些具體實例牽涉到若千美太 77 & 十基本的決策，包括： (1)/、考慮水平本文’此做法對於所有人工本文事 (text occurrence)白勺99%以卜么亩 ^ ^ _y/〇以上為真。較舊的系統考慮任一 f : ’如此雖獲得遺漏的1%本文事件，卻米j运以更问的偽馨報率。〇 ^ -g yj 机士々，、，t + ”要視頻及影像中>90%正確的分段本文猶原是一種挑戰，非皮承太 μ、a丄裡佻戰非水千本文是能夠被忽略的。而二Λ文區域比起本文區域來說，更加可能出現。因二=:定儘量緊密地訓練（train)原始本文檢測器（在下應ΐ我們的Ϊ 一 ί定^寸的本文做訓練）。在所有比例置^立性。、文檢測态於所有位置，可以達成比例及位十ί 31策為，只有由至少的兩個字母或數字所組成的，才异疋本文事件。特：二,發明並不侷限於以上提及的特別細節。就某種 j，f用來說，在已知用垂直本文的場合或許也適用。此 JL邮:果已知關於影像的其他資訊，則本發明之該特別的一月豆貝例可利用此訊息而做修正。 4· 茶考圖2，一影像50被比例轉換為尺寸不同的多影像52 的j後56，58及60。該等影像可為靜止的影像，或視頻中。=像訊框。雖然示出了五個影像，其數目可多或少於五產p像中像素的邊緣定向（edge 〇rientation)被確定，而特徵影像（feature images) 62，64，66，68 及70 (見

第11頁 1223212 五、發明說明

第4.1節）。一固定比例本文配接器（fixed scaie “Μ adaptor)被應用來分類該邊緣定向影像中的像素，以影像72，74，76，78及80(見第4.2節）。影像&8〇被整^ 成^個凸顯映像（SalienCy map) 84，與一影像關聯（見^ 4^3節）。初始本文界限盒由該凸顯映像84產生（見第4. 4 i 節）。該本文界限盒以及同或似於影像5〇的關聯影像係以方塊來表示。方塊86之本文界限盒經修改（如，被合併） (見第4· 4· 2節），而產生修改本文界限盒，以方塊88 ^表示；方塊88也表示方塊86的關聯影像。注意到，本文界'"限盒並非影像部份，但與影像相關聯。 ” ^ 4. 1影像特徽在研究社群中，人工的本文事件已普遍徵以高對比及高頻率區域。有許多不同的方式可以擴大此等特徵。一個方式是，使用RGB(紅，綠，藍）輸入影像i(x，y)z: (Ir(x，y)，Ig(x，y)，Ib(x，y))的梯度影像（gradient image) ’以計算複數值邊緣定向影像E。E定義如下：令a ( r )為顏色平面c之笛卡兒導出影像（Cartesian derivation’ image) VIc(x，y)的角座標表示法。然後，定義e為 A(r，mod 180〇)= cJ^}Ac(r，φπι〇(1 180)的笛卡兒座標表示法。模數1 8 0度之應用，係為將方向轉換成定向。£可做為我們所用於本文定位的特徵。另一個方式是，用影像帶（image band) b的方向導出 (directional derivation) Dcx 及Dcy，來計算方向邊緣力度（directional edge strength)

1223212 五、發明說明（8) D% I 及Εν= Σ ID% ce(r,g,ft} y E - Σ 以及其總邊緣力度（overall edge strength) E=1/3 d((D、)2+(Dcy)2)1/2 4. 2 里皂丑文檢測器

在一些具體實例中，係使用固定比例本文檢測器（f i xed scale text detector)，在基於局部鄰域的邊緣定向影像 E中，依每一像素是否屬某尺寸之本文區域部份，來分類像素。例如，在一邊緣定向影像E中，給一 2 Ox 1 0像素區域，則該固定比例本文檢測器依該區域是否含某尺寸之本文，來做分類。有許多不同的技術可用來發展分類器，例如 B a y e s分類為、混合式高斯分類器（m丨x e d - G a u s s i a η classifier)，以及類神經前饋網路（其有良好的能力來做一般化）。對我們的工作來說，我們比較了：使用Neyman — Pearson判據的Bayes分類器性能與實數值及複數值類神經前饋網路性能。該複數值類神經網路，若具有一雙曲線切線啟動（act i vat ion)函數，則有優越的性能。在某些實驗中，以一可比較的命中率（hi t rate) (90°/。），其對驗證集 (val idat ion set)的偽命中（〇. 〇7°/。）比起一對照實數值網

路，低於兩倍以下。里· 路架構有各種網路架構可供使用。在一些具體實例中，係以E中之一20x10邊緣定向區域，饋入2 0 0個複數值神經元’做為網路輸入。此接收欄（r e c e p t i v e f i e 1 d)的尺寸展現性能與計算複雜性之間的良好協調效果。一 30x 1 5神經元輸入層不致有較好的分類結果，但在計算上卻較

第13頁 1223212 五、發明說明（9) 昂貴。反之，少於1 0列的輸入層則造成大致較壞的結果。 >主思到’该接收欄的列數決定正受檢測的字型的尺寸，此係因所有训練的本文圖型都做比例轉換，使字型尺寸等於該列數。該輸入層接著再連接到2個複數值神經元所構成之一藏層。同樣地，較多的隱藏神經元並未造成任何性能的改良；若僅用一個，則偽警報率增高，增高因子為3 。該隱藏層聚合（aggregated)成一個實數值輸出神經元。有各種方式可實現網路訓練。以下說明某些方式，但本發明不受此限。訓練及驗證集測試集（t e s t s e t)應儘可能地小，而仍具表示性。其應含所有典型的本文圖型及非本文圖型。已有理論探究顯示··如果訓練集 (training set)中的本文樣本數與非本文樣本數間的關係對應此二群組在應用上的關係，則神經網路會是最有效率的。有多個履行此判據的訓練樣本被獲取。^然直接可知如何獲得不同型態的本文例子，但表示性非本'文集卻較難以獲得。此問題有一解答，即所謂「靴帶（bo〇tstrap)」法。訓練集的組成可嚴重影響網路性能。在一些具體實例中，收集了 30180個本文圖型與140436個非本文圖型的'一個表示集（representative set) °初始時，係隨機選取6〇〇〇個本文圖型及5 0 0 0個非本文圖型，來做訓練。只有非本文圖型集能因「勒：帶」法所收集的3 0 0 0個圖型而增長。此方法由一初始非本文圖型集開始，來訓練類神經^路。然後，用一顯異於該訓練集的驗證集（此處，為所有圖型減去訓練

第14頁 1223212 五、發明說明（ίο) 集），估計該經訓練的網路。該驗證集之某些偽分類圖型被隨機地新增到訓練集；以此經過擴充且改良的訓練集，可望訓練一個新而加強的類神經網路。所造成的網路再一次以驗證集估計；進一步的偽分類非本文圖型再被新增到訓練集。此訓練及有向（directed)新增圖型之循環一直重複，直到驗證集中的偽分類圖型數不再減少，或者（像在我們的案例）直到新增了 3 0 0 0個非本文圖型（只限目本文圖型）。此疊代訓練過程保證有一多樣的訓練圖型集。給一經過正確訓練的類神經網路，在邊緣定向影像E上有一 20x10像素視窗（wind〇w)滑動，且於每一位置被估計。網路的回應係儲存於一謂的回應影像（res㈧we ^ ’、其做法以網路輸出值填充該回應影像中關聯的2〇幻〇區域，右且唯若該輸出值超過= 〇 (介於—丨與1之間）三對於大影像或高明度電視（HDTV)的視頻序列，既然在計异上禁止步進尺寸為一，我們在χ及7方向上分別使用步進因子3及2。該種次選樣（subsampl ing)除了引起“之加 ’不致有任何準度的減小。在其他具體實例下，使用一實數值網路，邏輯啟動函數、ogistic activation function)，在每一視窗位置，装該類神經網路的輸出超過thn_rk = (K85(介於〇與1 〇之門，則輸出接受測試。若果如此，可將被該類神經網路^ 值所填充的一個2〇xi〇盒，新增到回應影像中的關聯位月晋〇 -M· 1223212 五、發明說明（11) 在一些具體實例中，所，. 果（影像7 2 - 8 0 )被整合成本文的一個凸顯映射，以恢有比例下的原始固定比例本文檢測結復初始本文界限盒（見圖2，方塊8 2 )。在許多情況中，本文位置在多比例下都自我驗明為正確命中；偽警報在多比例下則顯得較不一致。該本文（命中）可信度（confidence 〇 f b e i n g t e X t)投影回原來的影像比例（類神經網路輸出的啟動位準（activation level)是本文可信度的一個例子）’藉此可產生一凸顯映像。該凸顯映像以〇初始。然後 ’對每一比例下之每一經檢測的界限盒，將其本文可信值 (confidence value of being text)在原來影像比例下的 i£'個界限盒尺寸上’新增到凸顯映像。在一給定比例下，特別區面周遭範圍内或可有一個以上的界限盒。在一此具體實例中，凸顯映像可由所有影像比例反映一特定面積周遭範圍内的界限盒總數。 ' 4·4本文界限ϋ擷取 4·4·1 初始本H限盒 —有各種方式可用來產生本文界限盒。以下說明一些呈貫例所用的技術，但本發明不受此等細節所限。^ ς =性(sanency)的區域周圍’演算法以一大於既定閥值 thc〇re之值，開始在凸顯映像中搜尋下一個如此而產生-、.且初始本文界限盒。該閥值：於以下目#:避免在非本文區域產生本文，決疋應較不凸顯。對於我們的分類器來說，th皿 2文區域好，但或有調整之必要（如，當訓咮靳=re ·運作效果田』丨、，采新的類神經網路時

1223212 五、發明說明（12) 除了 5· 0 ’其他數也可使用。對值P(x，y) >th_的凸顯映像，一旦發現其中有一像素（稱為核心像素（c〇re pixeU) ’則取做為一咼度及覓度為1之新本文盒的種子。此新本文J^L再被$代地擴充。下列虛擬碼（稱為「虛擬碼例1」）對該「初始」本文盒產生演算法，給了一個例子。初始本文盒產生演算法（「虛擬碼例1」）： (1) search for next core pixel and create a new text box of width and height 1. (2) do (3) extend North(box) (4) extend East(box) (5) extend South(box) (6) extend West(box) (7) while (box changed) 在總邊緣力度影像中，盒全寬上相鄰列的像素的平均度（average ^tensity)被取為盒在該方向上的增長 (growing)判據。若該平均強度大於s \ region 3 此歹丨J祐新增到該盒。此值選得比thcn稍小一 γ % c0re仴ΛΙ、點，不但為了庐得本文區域核心之一本文盒，也為獲得涵括本文全部^ 一文盒。接著，同樣的判據被用來在左方，下方及^ 本文盒。只要界限盒保持增長，就重複此疊代的各: (見「虛擬碼例1」）。现5元圖d例示U Ί、一影诼貢料及時間，以始界限盒的例子，然而，本發明並不侷限於該等特例

第17頁 1223212 五、發明說明（13) 框110的背景可為一sol β〆各種形狀的*同彦頁Γ0Γ(像例示之白色）或具之。在影像110中^叮錄背景。本文界限盒則以虛線示之仕〜保中或可附加的本文。 4.4.2修改的毛^界卩初始界限盒經當不旱w . 疋取適地訊框住影像中的本文：實際一二 _一/皿、不3本文（偽警報）；其他的則張開本文之 MJ 彳丁以上’且有許多盒之背景構成像素的一大郤幸而，這些短處可由一疊代的後處理（post- processing)程序’利用所謂投影輪廓所含的資訊來克服 η ^像區域的投影輪廓是像素内容的空間分布的一種緊緻表不法，已成功地使用於文件的本文分段上。直方圖只捕捉1 Ϊ影像特徵’諸如像素強度的頻率分布（失去所有的空^ i訊），而強度投影輪廓則保留粗糙的空間分布，所付代價為更加高的像素内容聚合。水平/垂直投影輪廓可定義為每行/列上的像素強度和的向量。圖4顯示一個例子：垂直及水平投影輪廓被繪製成特徵影像之X及y轴的條狀圖。本文線的上邊界在該垂直投影輪廓中被標示為陡峭上升，而下邊界被標示為陡峭下降。類似地’本文物件的右及左邊界在水平投影輪廓中以陡峭上升及下降來指示。這些陡峭上升及下降可被識別為··輪廓圖形與一適應設定之閥值線的交會位置。下至上轉變 (down-up transition)係以一長線來象徵，上至下轉變 (up-down transition)則以一短線來象徵（如圖4中的標籤

1223212 五、發明說明（14) 所示）。本文物件」—辭的用法如下。在單一影像之場合，本文物件疋一本文邊界盒（text boundary box)(包括已歷經改過私者）。在視頻之場合，本文物件包含同時來自不同訊框的多本文邊界盒（包括已歷經修改過程者）。換言之 ’在視頻之場合’本文物件包含同一本文來自不同訊框的不同情形（影像）。在「虛擬碼例2」中，以虛擬碼形式給出垂直分段演算法的一個例子。在「虛擬碼例3」中，以虛擬碼形式給出水平分段演算法的一個例子。然而，本發明不限於「虛擬碼例2及3」中所示的特別細節。有其他方式可實施本發明之具體實例。注意到，「分段」一辭，在本節中係與初始界限盒之修改相連使用；在第6節中，則一般地指涉本文從背景之移除。鉛直分段演算法（「虛擬碼例2」）·· (1) expand box at the top and bottom by the mini mum of half the height of the original text box and half the possible maximal text height (2) IEI (3) (4) (5) (6) calculate vertical projection profile of the get minimum and maximum profile values calculate the segmentation threshold set change = false for all rows of the profile

第19頁 1223212 五、發明說明（15) (7) if (profile [current row] > threshold) (8) if (no upper boundary yet) (9) set upper boundary = current row (10 ) else (11) if (no lower boundary yet) (12) set lower boundary 二 current row (13) if (upper boundary) (14) create new box using the values of the upper and lower boundaries (15) unset current upper and lower boundaries (16) set change = true (17) delete processed box 水平分段演算法（「虛擬碼例3」）： (1) expand box at the left and right by the minimum of half the height of the original text box and half the possible maximal text height

(2) calculate horizontal projection profile of the IEI (3) get minimum and max i mum profile values (4) calculate the segmentation threshold (5) for a 1 1 columns of the profile (6) if (profile [current column] > threshold) (7) i f (no left boundary yet) (8) set left boundary 二 current column

第20頁 1223212 五、發明說明（16) (9) else if (right boundary) (10) if (gap between current column and right boundary is large enough) (11) create new box from left and right boundaries (12) unset left and right boundaries (13) else (14) unset right boundaries (15) else if (no right boundary) (16) set right boundary = current column

(17) if (left && no right boundary) (18) right boundary = last column (19) if (left and right boundaries) (20) update processed box to current right/left boundaries (2 1) else (22) delete processed box

以「虛擬碼例2」做參考，在一些具體實例中，該垂直分段演算法應用於每一本文盒，運作如下；雖然本發明並不受這些細節所限制。該盒於上及下放大（「虛擬碼例2」中之第（1)及（2)行）。此放大有其必要，因為正確的邊界或許落在當前工作之盒外，從而初始邊界會意外地切去本文的一部份。為了正確地恢復這些邊界，應考慮在原來盒外的某幾列。我們設定上下放大到：原來的本文盒高度之半與隶大可能本文高度之半兩者其中的最小值。就初始垂

第21頁 1223212 五、發明說明（17) 直邊界中不全之缺陷（丨m p e r f e c t丨〇 n s )來說，雖然原來的本^盒高度之半對其最壞情況似乎是好的評估，但是我們用取大可能之本文高度來設限制。此係因原來的本文盒或斗3本文一條線以上，從而本文盒高度之半或許會大於最大可能本文高度。、其次’計算特徵影像I E |的放大盒上的垂直投影輪廓， 1及該輪廓中的最大及最小值maxprQflle及mi nprQflle。為確定才又衫輪廓中是否單一值屬於一本文線，可計算一閥值 threshtext ： threshtext = minprofneKmaxproflle-minproflU 175

( >主意「虛擬碼例2」中之第（4 )行）。因子〇 · 1 7 5係以實驗選擇’在其他具體實例中可異。每一線若其垂直輪廓值超過闊值threshtext，則被分類為：含本文。

在「虛擬碼例2」之第（6 ) - (8 )行中，演算法從上開始搜哥第一個下至上轉變。此列被標示為本文盒的一個可能的上限（線9)。然後，搜尋投影輪廓中的下一個上至下轉變 (線1 3)。如果找出，則產生一個新盒，具當前工作的上下邊界。繼續搜尋新的一對下至上與上至下轉變，直到投影輪廓中所有元素都已處理過。最後，原來的本文盒可刪除。本文盒現在分裂成其本文線。見圖5，其顯示對圖3之訊框的一部份所應用的垂直分段。注意到，對圖5所示之界限盒，應另做修改。類似地，應用水平分段演算法（「虛擬碼例3」），以確保一條線上不同屬的本文被分離。然而，在一些具體實例中’ 「虛擬碼例2與3」之間存在兩個差異：

第22頁 1223212 五、發明說明（18) (1)在threshtext的計算中，用因子〇. 25，而非〇. 175。貫驗上’此值已證實對於水平分段是優越的。 (2 )新增了一個間隙參數（^ a p p a Γ 3 m e ^ e厂）。與垂直分段不同地，「同一」行中的字，不應由於個別字間的小間隙而分裂開。因而，必要時，需間隙參數來橋接此等低水平輪廓值。如果演算法已經找出一對下至上與上至下轉變，（如此即找出一對可能的左，右邊界），且如果該找出的上至下轉變與當丽工作之行兩者間的間隙夠大，則在當前工作之行上所找出的下至上轉變被詮釋為一新物件的左邊界，且由以前找出的轉變對產生一新盒。而當前工作之行被標示為一新的可能的左邊界。如果間隙不夠大，演算法 έ將輪廓中的谷值證釋為小的，從而忽略之（刪除到現在為止所找出的可能的左邊界）。以輪廓中的下一值，繼續演算法。本發明並不限於此等細節。圖6給出水平分段演算法的結果的一個例子。注意到，在較複雜的佈局，應對其界限盒做附加的修改。圖7例示本文nDOW JONES Commodities trading is risking and is not for everyone” ，在包含背景 124 之影像120之中。影像120係在網頁126。背景124可為單一顏色或複雜为景（如’具有不同形狀的許多顏色）。垂直分段演算法初始時對”Commodities trading involves risking and is not for everyone"的不同本文線，並不加以分離；如果想像，各別本文盒的垂直投影輪廓看來像什麼’即可明白其理由。左列中的本文盒可向右遮罩該較

1223212 五、發明說明（19) 小本文的垂直輪廓，從而不能分裂成兩條本文線。另一方面，此二本文行間的間隙夠大，足以在應用水平分段演算法之後分裂開。實驗上，如果對本文盒做幾個循環（或幾遍）的垂直及水平分段，幾乎每一種佈局結果都能被分成其本文列及本文行。本文高度在影像中以及在視頻訊框中，既然都受到限制，則在一些具體實例中，具有高度< m i η texthelgh t 點（p t ) _ 或之盒被分類為非本文區域，從而被揚棄。此外，既然水平分段確保本文盒含本文物件，像是w 〇 r d s或本文線，則經正確分段的本文盒的高度應小於其寬度。結果，具有高度 > 寬度之盒也可被揚棄。最後，具有相同上下邊界，且夠靠近而足以接觸或重疊彼此的本文盒，可接合成一個本文盒。此做法降低了複雜性，且歷時後會有較為穩定的本文追蹤。 4.4.3 評估本文顏色及背景顏色在一些具體實例中，對每一本文界限盒，評估其本文顏色及背景顏色。此等評估可用以確定：一本文界限盒是含正常本文（亮背景上的暗本文），抑或是含反本文（暗背景上的亮本文）。典型的影像是彩色的。即使一視覺上的單色區域，像是視頻訊框中的一個字元，都是由許多顏色不同但相似的像素所組成。據此，每一本文界限盒中顏色分

ill

第24頁 1223212 五、發明說明（20) 布的複雜性可藉顏色量化（例如，量化至最具支配性的四種顏色）而降低。有各種向量量化器可供使用；在我們的工作中，我們使用一種快速向量量化器，其可輕易取得。本文顏色直方圖（histogram)對一界限盒中本文所含的量化顏色量，提供測量。該測量可對本文取樣，例如取本文界限盒的中心四列。以本文顏色直方圖所測量的顏色，典型地也包含字母間，以及一些字母内部（如，π οπ )所混雜的背景。當然，該中心四列以外的本文位置也能用於本文顏色直方圖。背景顏色直方圖對背景某幾部份所含的量化顏色量，提供測量。舉例來說，這幾部份可為本文盒（四列在一起）上下方直接兩列。注意到，此背景顏色直方圖所包含的組份，可來自兩個背景顏色直方圖（如，一個來自本文上方，另一個來自本文下方）。另外也可只有來自本文上方的一個背景顏色直方圖，或是來自本文下方的一個顏色直方圖〇在一些具體實例中，計算了本文直方圖與背景直方圖間之一差異直方圖。該差異直方圖的最大顏色甚可能對應本文顏色；該差異直方圖的最小顏色則對應背景支配顏色。此方法學經實驗證實：對於具均勻顏色的本文十份可靠。當然，對於多色本文，或許會失敗；而多色本文罕見。基於經評估的本文顏色及最具支配性的背景顏色，我們評估一本文界限盒是含正常本文，抑或是含反本文（如上述）。如果本文顏色的灰階值低於背景支配顏色的，我們

κι

第25頁 1223212 五、發明說明（21) 設其為正常本文’否則即反本文。圖8為-方塊圖’對於依據本發明 !向量量化及顏色直方圖在顏色評估上二具體實例，伊二貫例有不同的細節。參考圖8，方塊130夺用。其他具體 (VQ)前之被界限本文盒及周圍的f f。—向量量化界限而向量量化的訊號及背景。vq之塊134表示該被號只有四色。舉例來說，從二穿過本^中含背景的本文訊中心四列），產生一本文顏色直方圖CHt|:之條帶（如，直方圖CHu及(：扎則分別從本文上方之一 f ^。上及下顏色本文下方之一條帶（如，二列）而產生。條帶（如，二列）及四色。由此，顏色直方圖提供：VQ之後：：例中，允許有 ' C2、C3及C4中每一顏色量的表示法。二朮中所含顏色C chd從而產生，這裡CHd=CHt_CHu 。如^異顏色直方圖圖CHu及CHL從CHT減去前，可先相加。上知議，顏色直方注意到，經評估的顏色可如以下使用。然而，在第5節至第9 τ μ · •。及6. 3節所述來部中，則可使用具灰階顏多及弟6· 2· 2節第/ 5.利用視頻之資' 如圖2中的影像88)。視頻以時序冗餘性而有別於靜止典型來說，其每-本文線出現在若千U非視頻網頁。就冗餘性可用以·· 相連之訊框中。時序 (1)增加本文定位的機會，在一訊框訊框中出現； (2 )在個別訊框中移除偽本因同—本文以各種變化條件文警報，因其歷時後通常是

1223212 五、發明說明（22) 不穩定的； (3)在個別訊框中，對「意外」錯失的本文線的位置，做内插；並 (4 )在一整段時間中做位元映像整合，來加強本文分段

然而，此時序冗餘性之利用，在計算上是昂貴的；而我們第4節的本文定位計畫，會被禁止應用。為明白此點，假設在每一MPEG-I視頻訊框，以影像為主的本文定位器約費5秒。則處理一分鐘的視頻，會增加時間達2. 5小時。 MPEG係指MPEG影像標準制定委員會「動畫專家群（M〇ving Picture Expert Group)」所制定之標準。現今已提出的 MPEG格式包括MPEG-1 ·· 「約達1.5百萬位元/秒而用於數位儲存媒體之動晝聯合聲頻編碼（"C d丨n g 〇 f Μ 〇 v i n g Pictures and Associated Audio for Digital Storage

Media at up to 1.5 MBits/s") ，IS0/IEC JTC 1 CD IS- 1 1 1 72 ( 1 9 92 ))，MPEG-2 : 「動晝聯合聲頻同屬編碼 (Generic Coding of Moving Pictures and Associated

Audio)」 ’ISO/IEC JTC 1 CD 13818 (1994);以及

MPEG-4 : 「超低位元傳輸速率視聽編碼（Very l〇w Bitrate Audio-Visual Coding)」，狀態一要求「提案 11.94」及「11.96中之工作草稿」。MPEG - 1及MPEG - 2有不同的版本。MPEG以外的各種格式也可使用。 5. 1 本文物件在靜止影像場合，所有被定位的本文界限盒一般係獨立

第27頁 1223212 五、發明說明（23) 而互不相關。為利用這裡揾 ^ , m 七—丄故到的視頻冗餘性，對相連之訊框中同一内谷的本文界限各， ^ ^ 皿可基於這些本文界限盒的視頻内容，將他們總結成一個★ a此以 ^ ^ ^ 個本文物件。在視頻場合，一本文物件以其影像本文表示法 ,ΛΑ ρ ^ ^ ^ ^如，位元映像）、其在各訊框中的尺寸及位置，以及事件的士 — 干的日守序範圍，來描述一本文線。視頻中完整的本文物件公Λ Ώ 卜 1干刀兩階段過程被擷取，而降低計算複雜性。以下說明一此星驊每&丄，w l , / 二一體貝例中的插作，雖然本發明不又此限。第- Ρ!段中，以粗時序解析度（⑶訂⑶ temporal res〇lutlon)監視一視頻訊號（見圖9)。舉實例來說，第4節中說明的以影像為主之本文定位器（1_以一 based text localizer)，只應用於每第2〇個訊框（如，圖 9中的訊框F80，訊框F100，訊框F12〇f)。如果本文被檢測（如，在訊框F1 20)，則進入第二階段：本文追蹤。在此階段，對監視階段所找出的本文線，在一整段時間中做向後追蹤（如’訊框F11 9)及向前追蹤（訊框fi 21)，直達他們的最初事件訊框（訊框FI 1 5)及最末事件訊框（訊框pi 34)。此階段組合運用以表徵（s i g n a t u r e )為主之本文線搜尋，與影像為主本文定位。表徵為主之搜尋比起影像為主本文定位’較不計算密集（第4節）。表徵為主之搜尋與其他訊框志比較本文邊緣或區面，包括邊緣映像（e d g e m a p)之比較，也可比較水平輪廓。 5.1.1 .iL本_文事件之視頻監視在一些具體實例中，對本文事件，以一粗時序解析度監視其視頻。為此目的，影像為主本文定位器只用於該視頻

第28頁 !223212

五、發明說明（24) 的一個平均間隔訊框字集。其步進尺寸係由目的來決定，並不賴於任何本文線。然而，本文線究是定位在其時序事件的開頭，中間或是末端，並不重要。對於任何情形，本文追蹤階段將會恢復每一本文線的真實時序範圍。本文線事件的最小假設時序期間（t e m ρ 〇 r a 1 d u r a t i ο η ) ，可給出最大可能步進尺寸。視覺研究指出，人類需2到3 秒來處理一個完整的景像。如此，似乎可合理地假設，本文應清晰地出現至少2 / 3秒’才容易可讀；對於3 〇 f p s (每秒30個訊框（30 frames per second))視頻，此等同於2〇

個訊框之步進尺寸。在一些具體實例中，如果影像為主文定位器在訊框t中找不出任何本文線’則繼而對訊框進行監視過程。\然^ ，如果至少找出一條本文線，則影像為主本文定位器用於汛框η及汛框t+1。其次，對於訊框t中的每一條文旁 ’該演算法搜尋其在訊框w及訊框川中的對應本文' 太文線之間的對應性可定義為：他們的訊框中位 & 文盒的區面重疊，至少80% ;而其他值也是可用 > B分別表示·描述參考界限盒及第二界限盒之隹若A-

疊百分率可定義為overlap^ A B|/ |A| 。姓# *木，則重，若有兩個對應的本文盒，發生在相連之° 此情形下置，則兩對應盒尺寸差異不會多於百分之2σ〇 ·£中的相同4 相同尺寸，彼此只能有輕微位移。就太且/或若有通會有小位移。對於訊框t中之一本文八硭文來說，j 訊框及訊框t+1中的對應盒，則有一士果找出其在柯的本文物件（包含

第29頁 1223212 五、發明說明（25) 這些士文盒）產生；並被標示，俾在—整段時間中被追縱。虛擬碼例4」對視頻監視過程，給社。對本文事件之視頻監視演算法（「虛擬碼例4」） (1) Video = {frame 0，···，frame τ} (2) for t - 0 to Τ step 2/3 seconds (3) localize text in frame t (4) if no text line found (5) continue with next t (6) localize text in frame t-1 and t+1

(7) for all text lines in frame t which do not belong to any text object yet (8) search for corresponding text line in t — 1， t + 1 (9) if search successful (10) create new text object (11) track text object backward (12) track text object forward 5.1.2 本文追s從在一些具體實例中，基於視頻監視階段中產生的本文物件所含的資訊，每一本文物件再被擴充’到所有包含各別本文線之訊框（這會減少圖1中輸出4 4上所提供的位元映像數）。本文追蹤之實行，既可逆時向後，也可順時向前。然而，我們只限討論向前追蹤，因向後追蹤除了經Μ視并員的方向，此外與向前追蹤無異。我們的快速本文适:八 <吹器背

第30頁 1223212 五、發明說明（26) " 後的基本想法是要：在當前的視頻訊框十取本文線；對此本文線與具其他内容的本文線，計算其間區別所在的一個特性表m;並搜尋下-視頻訊框中，肖參考表徵做最佳匹配（m a t c h )的同維度之影像區域。第4. 4.2節中所定義的垂直及水平投輪廓，可做為一緊緻而具特性的參考表徵’雖然其他表徵也可使用。表徵的中心可定義為關聯本文線之界限本文盒的中心。兩個表徵之間的相似性玎由表徵交集（signature intersecU〇n)來測度（如，由該等表徵中各別元素間的最小值之和）。如果於改變背景的同時，表徵也捕捉一個重要的物件，則表徵或直方圖交集之實行更勝L-範數（L-n〇rms)。為找出下一訊框中一本文線的精確位置，可對中心落入該參考表徵中心周圍之一搜尋視窗的所有表徵，加以計算，並與參考表徵做比較。如果最佳匹配超過一最小要求相似性，則宣告該本文線被找出’並將其新增到本文物件。如果最佳&二未超過一最小要求相似性，則宣告一表徵為主之偶出 (drop-out^。搜尋半徑尺寸依本文之最大假設速度而定。在我們的實驗中假設，本文要在視頻中從左至右移動，至少需2秒。對於給定的訊框之尺寸及視直接等同於像素中的搜尋半徑。原則上，我們能/本文物件中所3的寅戒，預測到現在為止的位置，而窄化搜尋空間，然而’這在計算上並無必要。庄了此表域為主之徹底搜尋演算法，其類似於運動預測上的區塊匹配演算法（b丨0ck matching algorithm)--除了

第31頁 1223212 五、發明說明（27) 後者之相似性測度係基於由的表徵之外。貫際影像之一特徵影像所導出表徵為主之本文綠j由君斗、，此因該搜尋係基於先測不到緩:曼出的本文勒 -個固定且為導出的主型/ 本文線的 '欲，而非基方 . 、、生/ 原型表徵（master/prototype S1gna ure)。一訊框一訊框的測。此外，表徵為主之太夺又乂汴八 …、忐才欢 ^ ^ . AA ^ ^ (本文線搜尋可能追蹤不到某歧放> 或細小的本文。為多服μ蝥 ’ _ ,r ^ ^兄服此寻限制，表徵為主之搜尋於每筹 X個όίΐ框，可被影像為幸太 —

馮主本文疋位器所取代，以便對本文線的位置及尺寸做再桉進。彳θ 可被揚棄。仁疋，新檢測到的本文盒在血

其、-。果富於啟發性：每第5個訊框在速度與可靠度間有良^的協調；但也可使用過大的間距。同樣地，在一些且體貫例中，對應的本文線有至少80%之本文盒重疊。八由於視頻訊號中的不全缺陷，像是高噪訊、受限頻寬 t如」顏色陷入彼此）、本文閉塞（text 〇cclusi〇n)、、人工壓縮因素等，對本文物件之嚴格的連續辨識（如，對每一訊框）通常是不可能或不實際的。因而，不宜認為：若在下一訊框中找不出對應本文，即終結追蹤。毋寧應僅在某幾個相連之訊框中找不出對應本文線時，才終結追蹤。為此’可使用兩個閥值及。每當一本文物件不能擴充到下一訊框，各別計數器增量一。每當有關的搜尋方法完成，各別計數器重設為零。只要兩計數器全都超過其閥值maxS=T一或maxZgT，追蹤過程可中止/在我

1223212 五、發明說明（28) 們的貫驗中，影像為主本文定位器所用的閥值設為 παν ima^c~b^d _ 〇 "^二3，但其他值也可用。這種偶出狀況可由雜訊甚多之視頻訊框或時序閉塞之本文而引起。表徵為主之搜尋所用的閥值則設為=4，例如為兩個完全定位之訊框間的距離，但也可用其他值。在諸如本文放大或縮小等甚難做表徵為主之搜尋的情況中，用值4使我們能對本文線做追蹤。以下「虛擬碼例5」總結了依據本發明之一些具體實例的視頻監視過程。然而，本發明之其他具體實例有其他細節，也是可實施的。給定本文物件之本文向前追蹤演算法（「虛擬碼例5」） (2) (3) (1) sigBased—DropOuts = 0 imageBase一DropOuts = 0 (4) (5) (6) (7) while not (beginning or end of video || sigBased_DropOuts > maxSigBased_DropOuts || imageBased —DropOuts > maxi mageBased — DropOuts) get next frame t if (frame has to be localized) localize text in frame t search localized text box that matches to the box in the last frame of the text object (8) if (search successful) (9) add text box to the text object (10) reset sigBased—DropOuts and reset imageBased_DropOuts

第33頁 1223212 五、發明說明（29) (11) else (12) increment i aiageBased_DropOut s (13) else (14) calculate feature image for frame t (15) estimate search area a for the text line (16) create a window w with the dimension of the text box in frame t-1 (17) get signature si of the text box in t-1 (18) for (each possible position of w in a)

(19) calculate signature s2 for w (20) calculate error between s 2 and si (21) memorize minimal error (22) if (minimal error < threshold) (23) add text box to the text object (24) reset sigBased_DropOuts (25) else (26) increment sigBased — DropOuts 5.1.3後處理

為準備一本文物件用以做本文分段，可以將其微調至檢測具可k度的部份。因而，在一些具體實例中文物件以時序微調至最初及最末訊框；影母一 ❺王本文定态仏在此二訊框中檢測本文線。接著，本文如果（舉例來說）破^棄 (1)其發生時間短於一秒；或

第34頁 ^3212 五、發明說明（30) 复（2)其有大於25%的偶出率。 ^ ΐ值也是可使用的。第—個條件是因我們觀举μ 需至少-秒，才是可見的，而較短暫的本；：；本文劲s報。第二個條件則移除無法後續處理的不穋1焱常是的本文物件。不穩定追蹤可由人工強壓縮因^1追縱所弓丨起。 ’、或非本文最後，在一些具體實例中，對於每一本文物， =~個或多個總體特徵。特定細節則因不同為可確定而兴。異體實例 .假設同一本文線的太 f 一 $段時間中並不改變，則以每一訊框中所，文顏色本文，色的中數’定為本文物件之有已確定的 =Λ所獲Λ的）。本文顏色並不須被選為匕數第使用另外一種平均或非平均測度。數，可以 6(2) 本文界限盒的尺寸在_整？來定其寬度及^固疋，我們以整組寬度及高度的中：固。=)果本文線或許在一個或兩個座；P上去丄果母一訊框的平均移動小於〇· 75個像♦ t都靜止硬止。該平均移動之計算，係基；^則本文線被 ]的位置差兴，而以訊框數一取末本文線如果本文線為靜止，我們以巧-化。部的本文界限盒。該令數之本文=文界限盒來取代全境為全部盒之左/右/上/下邊境的中^的左/右/上/下邊如果位置僅固定第35頁 I223212 五、發明說明（31) 於下個方向，如X或如y軸，則以中數值分別取代左右或上 b· 本文分段節本文分段牽涉到背景從本文之移除。不可與第4 · 4. 之今段相混備。 6·1解_析度調整(注意圖1中之方塊30) 本文分段做法可對比例再轉換的影像（如，藉立方内插）實行；而此種影像中所考慮的本文物件之本文高度為—固定高度，如1 0 0個像素，而其寬高比則保留。比例再轉換的理由有兩方面： ⑴ 土...字..羞.尺寸之解析唐加強，從而導致較佳分段j今耍現今視頻的本文擷取及本文辨識有一個主要問題，即甚低的解析度。對於MPEG- I編碼視頻，個別字元的高度常小於1 2個像素。雖然在此解析度下，本文仍可為人類所辨識，卻使今日的標準OCR系統面臨了一段艱困的時期。這些 OCR系統係設計為文件中的本文辨識之用；而文件係解析度在至少200dpi至300 dp i(每英吋2〇〇至300個像素點（200 to 3 0 0 dots per inch))之下被掃描，造成至少為4〇個像素高的最小文件高度。為使標準〇(^系統獲致良好結果，宜加強本文線的解析度。小本文元位元映像之放大，另一甚至更為重要的理由，是要加強本文位元映像的可見品質。較高的解析度使次像素能有精確的本文調正（關於原來的解析度），第6 · 2 · 2節

第36頁 1223212 五、發明說明（32) 〇 (2) 算節約。本文向度縱使大於固定高度（如，1〇〇個像素良分段，果，也不會改良OCR性能。尺寸減小，則明= 降,f:算複雜性。注意到，既然我們的解決途徑在：直的多％析度，且係以解析度達192〇乘128〇像 ^ ς正頁及HDTV視頻序列，則甚可能會有較大的字型尺網個像素僅為訊框高的丨/ 2。寸1 0 〇 6· 2整背景_(包括福如如所討論’背景可被移除（雜背景比起簡單背景，會，方塊⑵。複過，如上戶、，1:二Λ 的或簡單的背景）。不，所庄心到的，右知影像背景的特尽發明之一具體實例，以使用此資訊。、」可心正 6· 2· 1影像為了容易可讀，假定本文事件盥苴此特徵，以移除較大部份的複雜背：月；'成對tb。這裡用，作業如下；但本發明不受在-些具體實例中本文界限各，柿尸太々後主土本的想法，是要增大人，丨限孟，使付本文像素都落 · 界限盒邊界上的每一像素為種兄上’然後取本文不多於threshold 的傻4 對所有與背景顏色差異 ™些具體實例中，先僅對被埴旦充。（注思到，在改變，而不於位元映像上執行。執顏f的像素，記憶有像素被種子填充之後。） ’、洛貝在盒邊界上所、反本文’背景顏色為黑色

第37頁 1223212 五、發明說明（33) 本1十於正常本文色。既㈣界上的像素並不屬於本文，且既然本文與其背景成對比，則 ^ 將不會移除们可字元像素。（種子填充演算法广已知= )我們稱此新建構的位元映像為βΓ ( χ y )。在我們的實驗中，係用RGB顏色之間的歐幾里德距離 Uuclldean dlstance)，做為距離函數， :;用，鄰域。還，，為確保所有字母完全=在；；；；限立中，我們將盒做20%之水平擴充，以及4〇%之垂直擴充、亚非全部的背景像素都須被刪除，此係因種子填充演算法所填充的區域尺寸受限於一像素與其邊境像素間的最大允午顏色差兴。其餘的顏色區域尺寸，可用以填充呈背景顏色的其餘背景區域。在一些具體實例中，每一像素對於種子填充演算法，都可為種子。可假想地應用8 _鄰域種子填充冷异法於Br (X，y )，以決定所能填充的區域的維度。背景區域應該小於本文字元區域。因而，區域若高度小於 minhelgm像素，寬度小於minwldth或大於maxwldtll，全都被移除 (設為背景顏色>。 6· 2· 2 氣1 員影像一視頻本文物件包含同一本文線之多影像本文表示法 (如’位元映像），而非只有一個，其在此方面有異於單一影像本文物件。在一些具體實例中，應用下法，以此冗餘性來移除實際字元周圍的複雜背景。然而，本發明並不受此限。該方法不僅能應用於靜止本文；由於我們已解決次

第38頁丄223212 五 '發明說明（34) 像素準確本文線調正問題，故也能用於移動本文。以灰階，，’原來的影像可被重新載入。而如下述，係顏Z其向里置化版本’來確定何種灰階顏色同於本文評估 0 1 ^ ^貝例中，作業如下。假設你將一個本文物件元映像做堆積，而使其字元彼此完美地調正。屬旦）的後6、冬像素歷時傾向只做輕微變化，而屬於非本文（背調正、而$、過歷日守則常有巨大變化。既然本文的位置由於 :被假Π靜：不像素會改變。(注意到，縱使本景像素甚可能由於訊框間仍有細微的改變。）背改變。 '月不中的運動，或由於本文線的運動而對Ϊ:㊁每一本文物件，導出-表示性本文線位元映像。歷時；小完美調正的位元映像，而到-本文物；的每㈣顯改變，所以不必使用布平均之邙ir g卩、像。攸而，選取約40個時序分 m _ ° 以得到甚好的結果。例如，若右？ η η 個:框而選取4。個訊框，該4〇個訊框二。則匡，該40個訊框間隔為15/4。直右有150個出為整數{去Π F .π 具思才曰’間隔可捨入或捨二：數’或者間广毋須—致’或為3，最大為咖到’可跳過-本文物件開頭或末尾丄ί 則匡’以避免淡入或淡出效應的潛在問》母隔數目多如許的幾個訊框，即使用-次影像為主;：技 1223212

五、發明說明（35) 術’以避免特性本文顏色緩慢變化於淡入或淡出欲僅做追蹤，會使分段在此種情形下受損害。之中。表以下說明如何對位元映像做基本上完美的調正。、，對於景彡像及網頁都可擴充一本文物件之所有界首先舉例來說，做2 0 %之水平擴充，以及4 〇 %之垂直硭文^ a ，所有位元映像可轉換至灰階，因為灰階對人』充其一= 縮因素本就較為穩定。幾乎所有視頻壓縮涫曾=顏色壓析^ ’都高於著名的4:2:0取樣計畫中的顏色解取的解令B〇(x，y)，…:^丨（X，y )表考慮中之N個位元映像；又且 Br(x，y)為導出之表示性位元映像，初始為护。（^ B〇(x，y)。例如，N可為40，故有來自4〇個訊框之“個位元映像。然後，對於每一位元映像& (x，y)，乂丨丨，···，，我們可以就本文顏色，最小化Br(x，y)與Bi(x，y)間的距離，以此為最佳位移，如 (dxtopt, dytopt) = argmin J ^ (Br/-1 (xy y) - B} {x ^ cbc, y-^dy)). V ixyy)^3f λΒ^ 此種區塊匹配搜尋可行，是因只有具本文顏色的像素被計入’而在此本文顏色係第44 · 3節之本文評估顏色。一像素被疋義具本文顏色，若且唯若其與本文物件之確定本文顏色間’差異不超過某一量。注意到，此距離係基於 RGB值而計算。於每一疊代，Βι·(χ，y)藉前述方程式而更新為常本文；且

第40頁 1223212 五、發明說明（36)

Bri(x，y)二minCB' — Jx，y)，B1 ( x + dxtQpt，y+ dytQpt))，對於反本文。注意到，若一本文物件已在第4 . 4 . 3節中驗明為靜止，我們的搜尋不必求完美的等同關係（p e r f e c t t r a n s 1 a t i ο n )。反之，各種位元映像間的等同關係都可設為無效（n u 1 1 )。經由第6 · 2. 2節之過程，正常本文的背景趨向愈來愈亮，而反本文的背景趨向愈來愈暗。然而，最初之訊框對於正常或反本文，分別可能是最亮或暗的。 6. 3 二元化（注意圖1中之方塊38) 現在準備好本文位元映像，以標準OCR引擎來做辨識。這裡，灰階本文位元映像可轉換為白色背景上的黑色。以下說明一尋找合適閥值的辦法，一種縱非最適也屬良好的辦法。從第4. 4. 3節，我們知道了本文評估顏色、背景支配顏色，以及究竟正常本文抑或反本文是我們所要處理的。既然在第6. 2節中背景大都已移除，我們決定：對於反本文，設背景顏色為黑色；對於正常本文，設為白色。然後，選本文顏色強度與背景顏色強度間之折中強度，其為一良好的二元化閥值。本文位元映像中高於該二元化閥值的每一像素，對於正常本文，可設為白色；對於反本文，可設為黑色。本文位元映像中低或等於該二元化閥值的每一像素，對於正常本文，可設為黑色；對於反本文，可設為白色。最後則建議：如同第6. 2. 1節所說明的方式，揚棄小區域（設為背景顏色），藉而清除該二元位元映

第41頁 1223212

.1·力gj訊本發明並不受其中提及的特別細對於上文之每一章節節所限制。

本發明之成大—/C影究屬本文與物件導向視相比，已知然而在許多們的本文定此一問題。一些具體實像，也能將否。如此，頻編碼。物在固定位元情形下，自位及分段演例不僅能將影像或視頻我們的本文件導向視頻傳輸速率下動擷取物件算法，對視本文事件定中的每一像定位及分段編碼與現存可致更好的此一問題尚頻中的本文位，並分段素’標簽其技術能用於的壓縮技術視頻品質。未解決。我事件解決了本發明之-些具體實例牽涉到一多解析度解決途徑，A 中該本文定位及分段演算法從MPEG — 丨視頻序列直到HDTv、 MPEG-2視頻序列（ 1 980xl 280 )，都能成功作業，而不做任何參數調整。例如，字元尺寸能在8個像素與半個訊框之間變化。圖1 0例不一電腦系統1 8 0，其具有一處理器丨8 4及一記憶體1 8 8。έ己憶體1 8 8代表一個或多個各種類型的記憶體裝置，包括RAM、硬碟、CD R0M，以及視頻記憶體，族繁不\ 備載。記憶體1 8 8包含機器可讀媒體，其上儲存指令，以貝行上述各種功能。記憶體1 8 8也能儲存將要處理的資料 (如，數位視頻訊號），以及處理過程的中間及最終結果。圖1 0係以示意圖作繪示，惟實用上則可包括其它各種不同

第42頁 1223212 五、發明說明（38) 之習知元件。「訊框」一辭，有較廣的含意；舉例來說，其究竟交插 (interleaved)與否，無關緊要。同樣的，「影像」及「視頻」二辭，意涵有寬廣的詮釋。特別的格式並非必要若本專利說明書陳述「可」、「可以」或「可能」包含一種組份、特徵、結構或特性，則該特定的組份、特徵、結構或特性並不一定須被包含。若本專利說明書提及「一」元素，其並不意謂僅有一個元素。若本專利說明書或申請專利範圍之項目提及「另一」元素，其並不排除多於一個另一元素的情況。熟練技藝者若或益於此彼露内容，將了解，以上的說明及圖式可在本發明之範圍内做其他各種變易。其實，本發明並不限於上述細節。本發明之範圍，毋寧由以下申請專利範圍之項目（包括各種附帶修正）所界定。

第43頁 1223212

第44頁

Claims

1223212 案號 90104992 修正六、申請專利範圍1 . 一種於數位影像中定位本文之方法，其包含：對一數位影像做比例轉換，成多解析度的影像；依該多解析度中的像素是否屬一本文區域部份，做分類擴盒藉係其 •，盒像限映界顯文凸本合始整初例生比產一以生，產像以映，顯例凸比該合用整使由與少組至群到等充該擴中，其素，像組個群一的少成至組及從所；，素係的像關含之別所形特形矩一矩等有素該值像鄰閥將相一，個第充一一為係關別特該中其法方。之盒項艮 '~~_ 第圍範利專請中如界文本始初等該該含包組群等該〇中值其閥，一法第方該之過項超度強均平 - 之組群等3 該第圍範利專請中如之形4 矩行或列鄰相尚與像映顯凸該中其法方之項 T—-*· 第圍範利專請申如度為產析像：解影含的位包同數併相合有中之，其盒像，限影法界位方文數之本的項始度1初析而解々巳； ί , 多利份換.像彳請彳轉卩影 Φ— 例U頻比彡視經位未數直垂的值閥性應適具及以廊輪影投平水的值閥。性靡應輪適影具投第圍範利專請申如最有具為值閥性應 6 、χ 的靡，輪數影函投的平值水廓該輪中影其投，平法水方大之最項及影投直垂大最及 \ —y,T 最有具為值閥性應適的靡。輪數影函投的直值垂廓該輪

O:\69\69053-920626.ptc 第45頁 1223212 _案號90104992 : , 年U 4日修正_ 六'申請專利範圍」一J 7. 如申請專利範圍第1項之方法，其中初始本文界限盒之合併包含：重複實行一水平分段演算法及一垂直分段演算法。 8. 如申請專利範圍第6項之方法，其中該垂直分段演算法包含：於上下擴充一本文界限盒，擴充到原來的本文盒高度之半與最大可能本文高度之半兩者其中的最小值。 9. 如申請專利範圍第1項之方法，其進一步包含：計算邊緣定向，以識別多解析度的影像特徵。 10. 如申請專利範圍第1項之方法，其進一步包含：用一表徵為主之追蹤，從已由影像為主之方法做過識別的本文所處之訊框，向前或向後，對一本文物件中的本文所處之訊框，加以識別。 11. 如申請專利範圍第1項之方法，其進一步包含：在本文及本文周圍之非本文部份中，產生顏色直方圖，藉此以評估影像中的本文顏色。 12. —種機器可讀媒體，其上具有指令，執行時，使一處理器於數位影像中定位本文，該指令包含·· 指令，用以對一數位影像做比例轉換，成多解析度的影像；指令，用以分類該多解析度中的像素是否屬一本文區域部份；指令，用以整合比例，以產生一比例整合凸顯映像；指令，用以使用該凸顯映像，以產生初始本文界限盒，其係藉盒擴充，將像素矩形所含的，從至少一個像素，擴

O:\69\69053-920626.ptc 第46頁 1223212 更修正主案號 90104992 曰六、申請專利範圍充到至少由一個相鄰該等矩形之像素所組成的群組，其中該等群組與一第一閥值有一特別關係；及指令，用以合併該等初始本文界限盒。 13. 如申請專利範圍第1 2項之機器可讀媒體，其中該特別關係為：該等群組之一平均強度超過該第一閥值。 14. 如申請專利範圍第1 2項之機器可讀媒體，其中該等群組包含該矩形之一相鄰列或行，且該矩形係以1個像素乘1個像素之矩形開始。 15. 如申請專利範圍第1 2項之機器可讀媒體，其中該凸顯映像與尚未經比例轉換成多解析度的數位影像，有相同的解析度。 16. 如申請專利範圍第1 2項之機器可讀媒體，其中該數位影像為一數位視頻影像部份；而用以初始本文界限盒之合併之指令包含：指令，用以產生具適應性閥值的水平投影輪廓，以及具適應性閥值的垂直投影輪廓。 17. 如申請專利範圍第1 6項之機器可讀媒體，其中該水平投影輪廓的適應性閥值為具有最小及最大水平投影輪廓值的函數，該垂直投影輪廓的適應性閥值為具有最小及最大垂直投影輪廓值的函數。 18. 如申請專利範圍第1 2項之機器可讀媒體，其中該用以初始本文界限盒之合併之指令包含：重複實行一水平分段演算法及一垂直分段演算法。 19. 如申請專利範圍第1 8項之機器可讀媒體，其中該垂直分段演算法包含：於上下擴充一本文界限盒，擴充到原

O:\69\69053-920626.ptc 第47頁 1223212 ~一92:—廿 _案號90104992 、泠年έ :月:二6日修正_ Γ；：Ί . 六、申請專利範圍 ' … -· 來的本文盒高度之半與最大可能本文高度之半兩者其中的最小值。 2 0. 如申請專利範圍第1 2項之機器可讀媒體，其進一步包含：指令，用以計算邊緣定向，以識別多解析度的影像特徵。 2 1. 如申請專利範圍第1 2項之機器可讀媒體，其進一步包含：指令，用以用一表徵為主之追蹤，從已由影像為主之方法做過識別的本文所處之訊框，向前或向後，對一本文物件中的本文所處之訊框，加以識別。 22. 如申請專利範圍第1 2項之機器可讀媒體，其進一步包含：指令，用以在本文及本文周圍之非本文部份中，產生顏色直方圖，藉此以評估影像中的本文顏色。 2 3. —種於影像中定位本文之方法，其包含：依像素是否屬一本文區域部份而做分類；產生初始本文界限盒；及合併該初始本文界限盒，其中該合併包含：產生具適應性閥值的水平投影輪廓，以及具適應性閥值的垂直投影輪廓。 2 4. 如申請專利範圍第2 3項之方法，其中該水平投影輪廓的適應性閥值為具有最小及最大水平投影輪廓值的函數，該垂直投影輪廓的適應性閥值為具有最小及最大垂直投影輪廓值的函數。 25. 如申請專利範圍第2 3項之方法，其中初始本文界限盒之合併包含：重複實行一水平分段演算法及一垂直分段

O:\69\69053-920626.ptc 第48頁 1223212 . “ _案號90104992 &年έ月丄6日__ 六、申請專利範圍演算法。 2 6. 如申請專利範圍第2 3項之方法，其中該水平分段演算法包含：於左右擴充一本文界限盒，擴充到原來的本文盒高度之半與最大可能本文高度之半兩者其中的最小值。 2 7. 如申請專利範圍第2 3項之方法，其中該垂直分段演算法包含：於上下擴充一本文界限盒，擴充到原來的本文盒高度之半與最大可能本文高度之半兩者其中的最小值。 2 8 . —種機器可讀媒體，其上具有指令，執行時，使一處理器於數位影像中定位本文，該指令包含：指令，用以分類像素是否屬一本文區域部份；指令，用以產生初始本文界限盒；及指令，用以合併該初始本文界限盒，其中該合併包含：產生具適應性閥值的水平投影輪廓，以及具適應性閥值的垂直投影輪廓。 29. 如申請專利範圍第2 8項之機器可讀媒體，其中該水平投影輪廓的適應性閥值為具有最小及最大水平投影輪廓值的函數，該垂直投影輪廓的適應性閥值為具有最小及最大垂直投影輪廟值的函數。 30. 如申請專利範圍第28項之機器可讀媒體，其中該用以初始本文界限盒之合併之指令包含：重複實行一水平分段演算法及一垂直分段演算法。 3 1. 如申請專利範圍第2 8項之機器可讀媒體，其中該水平分段演算法包含：於左右擴充一本文界限盒，擴充到原來的本文盒高度之半與最大可能本文高度之半兩者其中的

O:\69\69053-920626.ptc 第49頁 1223212 - 狭修正 L 案號9〇1〇4992 Γ 淨6a 六、申請專利範圍最小值。 32. 如申請專利範圍第2 8項之機器可讀媒體，其中該垂直分段演算法包含：於上下擴充一本文界限盒，擴充到原來的本文盒高度之半與最大可能本文高度之半兩者其中的最小值0

O:\69\69053-920626.ptc 第50頁