TWI223212B - Generalized text localization in images - Google Patents

Generalized text localization in images Download PDF

Info

Publication number
TWI223212B
TWI223212B TW090104992A TW90104992A TWI223212B TW I223212 B TWI223212 B TW I223212B TW 090104992 A TW090104992 A TW 090104992A TW 90104992 A TW90104992 A TW 90104992A TW I223212 B TWI223212 B TW I223212B
Authority
TW
Taiwan
Prior art keywords
text
image
box
patent application
item
Prior art date
Application number
TW090104992A
Other languages
English (en)
Inventor
Rainer Wolfgang Lienhart
Axel Wernicke
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Application granted granted Critical
Publication of TWI223212B publication Critical patent/TWI223212B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20008Globally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Description

1223212 五、發明說明(1) 發明背景 發明之技術範疇:本發明係有關影像中之一般化本文定 位(localization)及/ 或分段(segmentation) 〇 背景技藝= 現有對本文辨識的工作主要集中於印刷及手寫文件中的 字元之光學辨識(稱為光學字元辨識(OCR)),回應了辦公 室自動化系統文件讀者的廣大需求及市場。此等系統已達 高度成熟。進一步的本文辨識工作可能在於工業應用上, 大多集中於十分狹窄的應用範臂。車輛牌照的自動辨識是 一個例子。 已有人提議,在(從)複雜影像及視頻做本文檢測及本文 榻取(e X t r a c t i ο η)。然而,如閱讀其說明所見的,兩者在 某方面皆無一般性。此外,有的並未將被定位的本文從其 背景移除。 據此’仍有必要對本文定位及分段求得一般化的解決途 徑。 圖式之簡單說明 本發明從下述的詳細說明及發明之具體實例的附圖,可 獲更完整的了解,然而,所述之特定具體實例不應視為對 本發明之限制,而係僅做解釋與了解之用。 圖1為表示本發明之一些具體實例中所實行的各種功能 的流程圖。 圖2為表示本發明之一些具體實例中各種定位階段下的 影像的流程圖。
1223212 五、發明說明(2) 圖3例示一具本文及一背景之訊 限盒。 杧中衫像所用的初始界 圖4例示垂直及水平投影輪廓。 =;示用於圖3之本文之-部份的垂直分段。 圖6例不應用於圖3之本文之—部份的水 : 圖7例示含本文及一背景的網站上之刀。又。 圖8為依據本發明之一些具體實 估之表示法,立卩^失方换同 ' ^顏色評 Μ為方塊圖,部份為流程圖。 圖9 u流程圖表示:依據本發明之一此且 視頻監視與本文i自浐「+ Γί;)Γ^ ;. 二,、體貝例所做的 mn 1本文追知(trackln§)之間的關係。 依電腦系統的方塊圖表示法,該電腦系統能實行 依據本發明之一些具體例之功能。 疋此貝灯 、, 詳細說明 1 ·前言 段本= = …定位及/或分 中的影像。網頁可包的影像,諸如視頻或網頁 影像中處於特定位置,視頻影像。本文則毋需在 非本文)可以是簡單的色。此外,背景(或稱 對皇早色)或複雜的背景。 要的 a做有政率的索引及檢索,是多媒體資料庫重 頻中的本文對於檢索來說,是一種有力的高 。蚀 T文做檢測,擷取及辨識,則可建立此種索引 ψ 、因此能提出精密的查詢,像是約翰韋恩(John Wayne)主演式余芏朴士 、^文帝分史匹柏(Steven Spielberg)製片的所
第7頁 1223212 五、發明說明(3) 有電影的列表。或 故事,新聞播報字 例如,可以搜尋「 聞。索引也能用來 他們的客戶檢查, 電視頻道上播放。 中被辨識,則可構 文部份中的本文分 多網頁在影像中示 演算法並不能擷取 都不能正確地索引 辨識或也有助於為 電的/ j、L C D顯不為 者,可用來跳躍到關於特定題目的新聞 幕本來就常是其出處新聞故事的摘要。 財經新聞」一辭,以獲得當天的財經新 記錄播出時間及廣告日期,幫助人們為 是否他們的廣告已於排定時間在排定的 如果本文能被自動且可靠地在數位視頻 想許多其他有用的高階應用。網頁非本 段及辨識,也是重要的問題。有愈來愈 出本文;而現存的本文分段及本文辨識 該種本文。如此,所有現存的搜尋引擎 富含影像的網頁内容。本文分段及本文 大監視器而設計的網頁,自動轉換到家 這是因為影像中的本文内容可被檢索 2. 概觀 圖1提供一流程圖,有效地給出本發明之一些具體實例 的有關概觀。圖1包含一本文定位方塊10及一本文分段方 塊1 4。本專利說明書中所提及的「一具體實例」、「一個 具體實例」、「一些具體實例」或「其他具體實例」意指 :該(等)具體實例所述及之一特別的特色、結構或特點係 包含於本發明之至少某些具體實例中,但不必然包含於所 有具體實例。各種表述如「一具體實例」、「一個具體實 例」或「一些具體實例」,不一定全都論及相同的具體實 例0
第8頁 1223212
2. 1 主jc定位 藉由本文疋位方塊1 〇之特徵(f e a t u r e )操取方塊2 Q,— ,位輸入訊號(其典型地包含一影像)被接收。在一些具體 貝例中’輸入訊號藉由特徵擷取方塊2 〇而被接收之前或之 日rr任何A S C I I或有關的本文(如,η τ M L本文)皆被移除。 注意到,當時一個網頁可含做為分離的影像而被處理的多 影像(multi pie images)。本文定位方塊找出影像中的本 文位置(locations of text),並以緊密的本文界限盒來 標不之。在一些具體實例中,這些界限盒應該只對一本文 行之一本文線(1 i n e )晝界。然而如下述,一本文行不限於 單一個字元。在一些具體實例中,定位包含: (1) 特徵擷取(方塊2 Q ):從輸入影像榻取一特徵,藉此 補捉本文所獨具的特徵。
(2) 區域分類(region classification)(方塊 22):該特 徵影像中的每一像素依其是否屬於本文,而被分類。基於 此資訊,產生初始本文界限盒。 (3) 區域合併(region consolidation)(方塊 24):該等 本文界限盒被細化,以致皆僅含本文的一線及一行。 (4) 本文追蹤(方塊2 6 ):如果輸入的是視頻,此方塊加 入處理。這裡我們利用視頻之時序冗餘性(temporal redundancy),而在移除多個偽警報(false alarms)的同 時,也改良了本文界限盒的精度。 (5 )評估本文及背景支配顏色(方塊2 8 )。 2. 2 本文分段
1223212
第10頁 1223212 五、發明說明(6) 定位’本文分段也可使用視頻之時序冗餘性,卩 結果。一些具體實例牽涉到若千美太 77 & 十基本的決策,包括: (1)/、考慮水平本文’此做法對於所有人工本文事 (text occurrence)白勺99%以卜么亩 ^ ^ _y/〇以上為真。較舊的系統考慮任一 f : ’如此雖獲得遺漏的1%本文事件,卻 米j运以更问的偽馨報率。〇 ^ -g yj 机士々,、,t + ”要視頻及影像中>90%正確的分 段本文猶原是一種挑戰,非皮承太 μ、a丄 裡佻戰非水千本文是能夠被忽略的。 而二Λ文區域比起本文區域來說,更加可能出現。因 二=:定儘量緊密地訓練(train)原始本文檢測器(在 下應ΐ我們的Ϊ 一 ί定^寸的本文做訓練)。在所有比例 置^立性。、文檢測态於所有位置,可以達成比例及位 十ί 31策為,只有由至少的兩個字母或數字所組成的, 才异疋本文事件。 特:二,發明並不侷限於以上提及的特別細節。就某種 j,f用來說,在已知用垂直本文的場合或許也適用。此 JL邮:果已知關於影像的其他資訊,則本發明之該特別的 一月豆貝例可利用此訊息而做修正。 4· 茶考圖2,一影像50被比例轉換為尺寸不同的多影像52 的j後56,58及60。該等影像可為靜止的影像,或視頻中 。=像訊框。雖然示出了五個影像,其數目可多或少於五 產p像中像素的邊緣定向(edge 〇rientation)被確定,而 特徵影像(feature images) 62,64,66,68 及70 (見
第11頁 1223212 五、發明說明
第4.1節)。一固定比例本文配接器(fixed scaie “Μ adaptor)被應用來分類該邊緣定向影像中的像素,以 影像72,74,76,78及80(見第4.2節)。影像&8〇被整^ 成^個凸顯映像(SalienCy map) 84,與一影像關聯(見^ 4^3節)。初始本文界限盒由該凸顯映像84產生(見第4. 4 i 節)。該本文界限盒以及同或似於影像5〇的關聯影像係以 方塊來表示。方塊86之本文界限盒經修改(如,被合併) (見第4· 4· 2節),而產生修改本文界限盒,以方塊88 ^表 示;方塊88也表示方塊86的關聯影像。注意到,本文界'"限 盒並非影像部份,但與影像相關聯。 ” ^ 4. 1影像特徽 在研究社群中,人工的本文事件已普遍徵以高對比及高 頻率區域。有許多不同的方式可以擴大此等特徵。一個方 式是,使用RGB(紅,綠,藍)輸入影像i(x,y)z: (Ir(x,y),Ig(x,y),Ib(x,y))的梯度影像(gradient image) ’以計算複數值邊緣定向影像E。E定義如下:令a ( r )為 顏色平面c之笛卡兒導出影像(Cartesian derivation’ image) VIc(x,y)的角座標表示法。然後,定義e為 A(r,mod 180〇)= cJ^}Ac(r,φπι〇(1 180)的笛卡兒座標表示 法。模數1 8 0度之應用,係為將方向轉換成定向。£可做為 我們所用於本文定位的特徵。 另一個方式是,用影像帶(image band) b的方向導出 (directional derivation) Dcx 及Dcy,來計算方向邊緣力 度(directional edge strength)
1223212 五、發明說明(8) D% I 及Εν= Σ ID% ce(r,g,ft} y E - Σ 以及其總邊緣力度(overall edge strength) E=1/3 d((D、)2+(Dcy)2)1/2 4. 2 里皂丑文檢測器
在一些具體實例中,係使用固定比例本文檢測器(f i xed scale text detector),在基於局部鄰域的邊緣定向影像 E中,依每一像素是否屬某尺寸之本文區域部份,來分類 像素。例如,在一邊緣定向影像E中,給一 2 Ox 1 0像素區域 ,則該固定比例本文檢測器依該區域是否含某尺寸之本文 ,來做分類。有許多不同的技術可用來發展分類器,例如 B a y e s分類為、混合式高斯分類器(m丨x e d - G a u s s i a η classifier),以及類神經前饋網路(其有良好的能力來做 一般化)。對我們的工作來說,我們比較了 :使用Neyman — Pearson判據的Bayes分類器性能與實數值及複數值類神經 前饋網路性能。該複數值類神經網路,若具有一雙曲線切 線啟動(act i vat ion)函數,則有優越的性能。在某些實驗 中,以一可比較的命中率(hi t rate) (90°/。),其對驗證集 (val idat ion set)的偽命中(〇. 〇7°/。)比起一對照實數值網
路,低於兩倍以下。 里· 路架構 有各種網路架構可供使用。在一些具體實例 中,係以E中之一20x10邊緣定向區域,饋入2 0 0個複數值 神經元’做為網路輸入。此接收欄(r e c e p t i v e f i e 1 d)的 尺寸展現性能與計算複雜性之間的良好協調效果。一 30x 1 5神經元輸入層不致有較好的分類結果,但在計算上卻較
第13頁 1223212 五、發明說明(9) 昂貴。反之,少於1 0列的輸入層則造成大致較壞的結果。 >主思到’该接收欄的列數決定正受檢測的字型的尺寸,此 係因所有训練的本文圖型都做比例轉換,使字型尺寸等於 該列數。該輸入層接著再連接到2個複數值神經元所構成 之一 藏層。同樣地,較多的隱藏神經元並未造成任何性 能的改良;若僅用一個,則偽警報率增高,增高因子為3 。該隱藏層聚合(aggregated)成一個實數值輸出神經元。 有各種方式可實現網路訓練。以下說明某些 方式,但本發明不受此限。訓練及驗證集測試集(t e s t s e t)應儘可能地小,而仍具表示性。其應含所有典型的本 文圖型及非本文圖型。已有理論探究顯示··如果訓練集 (training set)中的本文樣本數與非本文樣本數間的關係 對應此二群組在應用上的關係,則神經網路會是最有效率 的。有多個履行此判據的訓練樣本被獲取。^然直接可知 如何獲得不同型態的本文例子,但表示性非本'文集卻較難 以獲得。 此問題有一解答,即所謂「靴帶(bo〇tstrap)」法。訓 練集的組成可嚴重影響網路性能。在一些具體實例中,收 集了 30180個本文圖型與140436個非本文圖型的'一個表示 集(representative set) °初始時,係隨機選取6〇〇〇個本 文圖型及5 0 0 0個非本文圖型,來做訓練。只有非本文圖型 集能因「勒:帶」法所收集的3 0 0 0個圖型而增長。此方法由 一初始非本文圖型集開始,來訓練類神經^路。然後,用 一顯異於該訓練集的驗證集(此處,為所有圖型減去訓練
第14頁 1223212 五、發明說明(ίο) 集),估計該經訓練的網路。該驗證集之某些偽分類圖型 被隨機地新增到訓練集;以此經過擴充且改良的訓練集, 可望訓練一個新而加強的類神經網路。所造成的網路再一 次以驗證集估計;進一步的偽分類非本文圖型再被新增到 訓練集。此訓練及有向(directed)新增圖型之循環一直重 複,直到驗證集中的偽分類圖型數不再減少,或者(像在 我們的案例)直到新增了 3 0 0 0個非本文圖型(只限目本文圖 型)。此疊代訓練過程保證有一多樣的訓練圖型集。 給一經過正確訓練的類神經網路,在邊緣定向影像E上 有一 20x10像素視窗(wind〇w)滑動,且於每一位置被估計 。網路的回應係儲存於一謂的回應影像(res㈧we ^ ’、其做法以網路輸出值填充該回應影像中關聯的2〇幻〇 區域,右且唯若該輸出值超過= 〇 (介於—丨與1之間) 三對於大影像或高明度電視(HDTV)的視頻序列,既然在計 异上禁止步進尺寸為一,我們在χ及7方向上分別使用步進 因子3及2。該種次選樣(subsampl ing)除了引起“之加 ’不致有任何準度的減小。 在其他具體實例下,使用一實數值網路,邏輯啟動函數 、ogistic activation function),在每一視窗位置,装 該類神經網路的輸出超過thn_rk = (K85(介於〇與1 〇之門 ,則輸出接受測試。若果如此,可將被該類神經網路^ 值所填充的一個2〇xi〇盒,新增到回應影像中的關聯位月晋 〇 -M· 1223212 五、發明說明(11) 在一些具體實例中,所,. 果(影像7 2 - 8 0 )被整合成本文的一個凸顯映射,以恢 有比例下的原始固定比例本文檢 測結 復初始本文界限盒(見圖2,方塊8 2 )。在許多情況中,本 文位置在多比例下都自我驗明為正確命中;偽警報在多比 例下則顯得較不一致。該本文(命中)可信度(confidence 〇 f b e i n g t e X t)投影回原來的影像比例(類神經網路輸出 的啟動位準(activation level)是本文可信度的一個例 子)’藉此可產生一凸顯映像。該凸顯映像以〇初始。然後 ’對每一比例下之每一經檢測的界限盒,將其本文可信值 (confidence value of being text)在原來影像比例下的 i£'個界限盒尺寸上’新增到凸顯映像。在一給定比例下, 特別區面周遭範圍内或可有一個以上的界限盒。在一此 具體實例中,凸顯映像可由所有影像比例反映一特定面積 周遭範圍内的界限盒總數。 ' 4·4本文界限ϋ擷取 4·4·1 初始本H限盒 —有各種方式可用來產生本文界限盒。以下說明一些呈 貫例所用的技術,但本發明不受此等細節所限。^ ς =性(sanency)的區域周圍’演算法以一大於既定閥值 thc〇re之值,開始在凸顯映像中搜尋下一個 如此而產生-、.且初始本文界限盒。該閥值: 於以下目#:避免在非本文區域產生本文,決疋 應較不凸顯。對於我們的分類器來說,th皿 2文區域 好,但或有調整之必要(如,當訓咮靳=re ·運作效果 田』丨、,采新的類神經網路時
1223212 五、發明說明(12) 除了 5· 0 ’其他數也可使用。對值P(x,y) >th_的凸顯映 像,一旦發現其中有一像素(稱為核心像素(c〇re pixeU) ’則取做為一咼度及覓度為1之新本文盒的種子。此新本 文J^L再被$代地擴充。下列虛擬碼(稱為「虛擬碼例1」) 對該「初始」本文盒產生演算法,給了一個例子。 初始本文盒產生演算法(「虛擬碼例1」): (1) search for next core pixel and create a new text box of width and height 1. (2) do (3) extend North(box) (4) extend East(box) (5) extend South(box) (6) extend West(box) (7) while (box changed) 在總邊緣力度影像中,盒全寬上相鄰列的像素的平均 度(average ^tensity)被取為盒在該方向上的增長 (growing)判據。若該平均強度大於s \ region 3 此歹丨J祐 新增到該盒。此值選得比thcn稍小一 γ % c0re仴ΛΙ、 點,不但為了庐得 本文區域核心之一本文盒,也為獲得涵括本文全部^ 一 文盒。接著,同樣的判據被用來在左方,下方及^ 本文盒。只要界限盒保持增長,就重複此疊代的各: (見「虛擬碼例1」)。 现5元 圖d例示U Ί、一影诼貢料及時間,以 始界限盒的例子,然而,本發明並不侷限於該等特例
第17頁 1223212 五、發明說明(13) 框110的背景可為一sol β〆 各種形狀的*同彦頁Γ0Γ(像例示之白色)或具 之。在影像110中^叮錄背景。本文界限盒則以虛線示 之仕〜保中或可附加的本文。 4.4.2修改的毛^界卩 初始界限盒經當不旱w . 疋取適地訊框住影像中的本文:實際 一二 _一/皿、不3本文(偽警報);其他的則張開本文之 MJ 彳丁以上’且有許多盒之背景構成像素的一大 郤 幸而,這些短處可由一疊代的後處理(post- processing)程序’利用所謂投影輪廓所含的資訊來克服 η ^像區域的投影輪廓是像素内容的空間分布的一種緊緻 表不法,已成功地使用於文件的本文分段上。直方圖只捕 捉1 Ϊ影像特徵’諸如像素強度的頻率分布(失去所有的 空^ i訊),而強度投影輪廓則保留粗糙的空間分布,所 付代價為更加高的像素内容聚合。水平/垂直投影輪廓可 定義為每行/列上的像素強度和的向量。 圖4顯示一個例子:垂直及水平投影輪廓被繪製成特徵 影像之X及y轴的條狀圖。本文線的上邊界在該垂直投影輪 廓中被標示為陡峭上升,而下邊界被標示為陡峭下降。類 似地’本文物件的右及左邊界在水平投影輪廓中以陡峭上 升及下降來指示。這些陡峭上升及下降可被識別為··輪廓 圖形與一適應設定之閥值線的交會位置。下至上轉變 (down-up transition)係以一長線來象徵,上至下轉變 (up-down transition)則以一短線來象徵(如圖4中的標籤
1223212 五、發明說明(14) 所示)。 本文物件」—辭的用法如下。在單一影像之場合,本 文物件疋一本文邊界盒(text boundary box)(包括已歷經 改過私者)。在視頻之場合,本文物件包含同時來自不 同訊框的多本文邊界盒(包括已歷經修改過程者)。換言之 ’在視頻之場合’本文物件包含同一本文來自不同訊框的 不同情形(影像)。 在「虛擬碼例2」中,以虛擬碼形式給出垂直分段演算 法的一個例子。在「虛擬碼例3」中,以虛擬碼形式給出 水平分段演算法的一個例子。然而,本發明不限於「虛擬 碼例2及3」中所示的特別細節。有其他方式可實施本發明 之具體實例。注意到,「分段」一辭,在本節中係與初始 界限盒之修改相連使用;在第6節中,則一般地指涉本文 從背景之移除。 鉛直分段演算法(「虛擬碼例2」)·· (1) expand box at the top and bottom by the mini mum of half the height of the original text box and half the possible maximal text height (2) IEI (3) (4) (5) (6) calculate vertical projection profile of the get minimum and maximum profile values calculate the segmentation threshold set change = false for all rows of the profile
第19頁 1223212 五、發明說明(15) (7) if (profile [current row] > threshold) (8) if (no upper boundary yet) (9) set upper boundary = current row (10 ) else (11) if (no lower boundary yet) (12) set lower boundary 二 current row (13) if (upper boundary) (14) create new box using the values of the upper and lower boundaries (15) unset current upper and lower boundaries (16) set change = true (17) delete processed box 水平分段演算法(「虛擬碼例3」): (1) expand box at the left and right by the minimum of half the height of the original text box and half the possible maximal text height
(2) calculate horizontal projection profile of the IEI (3) get minimum and max i mum profile values (4) calculate the segmentation threshold (5) for a 1 1 columns of the profile (6) if (profile [current column] > threshold) (7) i f (no left boundary yet) (8) set left boundary 二 current column
第20頁 1223212 五、發明說明(16) (9) else if (right boundary) (10) if (gap between current column and right boundary is large enough) (11) create new box from left and right boundaries (12) unset left and right boundaries (13) else (14) unset right boundaries (15) else if (no right boundary) (16) set right boundary = current column
(17) if (left && no right boundary) (18) right boundary = last column (19) if (left and right boundaries) (20) update processed box to current right/left boundaries (2 1) else (22) delete processed box
以「虛擬碼例2」做參考,在一些具體實例中,該垂直 分段演算法應用於每一本文盒,運作如下;雖然本發明並 不受這些細節所限制。該盒於上及下放大(「虛擬碼例2」 中之第(1)及(2)行)。此放大有其必要,因為正確的邊界 或許落在當前工作之盒外,從而初始邊界會意外地切去本 文的一部份。為了正確地恢復這些邊界,應考慮在原來盒 外的某幾列。我們設定上下放大到:原來的本文盒高度之 半與隶大可能本文高度之半兩者其中的最小值。就初始垂
第21頁 1223212 五、發明說明(17) 直邊界中不全之缺陷(丨m p e r f e c t丨〇 n s )來說,雖然原來的 本^盒高度之半對其最壞情況似乎是好的評估,但是我們 用取大可能之本文高度來設限制。此係因原來的本文盒或 斗3本文一條線以上,從而本文盒高度之半或許會大於最 大可能本文高度。 、其次’計算特徵影像I E |的放大盒上的垂直投影輪廓, 1及該輪廓中的最大及最小值maxprQflle及mi nprQflle。為確定 才又衫輪廓中是否單一值屬於一本文線,可計算一閥值 threshtext : threshtext = minprofneKmaxproflle-minproflU 175
( >主意「虛擬碼例2」中之第(4 )行)。因子〇 · 1 7 5係以實驗 選擇’在其他具體實例中可異。每一線若其垂直輪廓值超 過闊值threshtext,則被分類為:含本文。
在「虛擬碼例2」之第(6 ) - (8 )行中,演算法從上開始搜 哥第一個下至上轉變。此列被標示為本文盒的一個可能的 上限(線9)。然後,搜尋投影輪廓中的下一個上至下轉變 (線1 3)。如果找出,則產生一個新盒,具當前工作的上下 邊界。繼續搜尋新的一對下至上與上至下轉變,直到投影 輪廓中所有元素都已處理過。最後,原來的本文盒可刪除 。本文盒現在分裂成其本文線。見圖5,其顯示對圖3之訊 框的一部份所應用的垂直分段。注意到,對圖5所示之界 限盒,應另做修改。 類似地,應用水平分段演算法(「虛擬碼例3」),以確 保一條線上不同屬的本文被分離。然而,在一些具體實例 中’ 「虛擬碼例2與3」之間存在兩個差異:
第22頁 1223212 五、發明說明(18) (1)在threshtext的計算中,用因子〇. 25,而非〇. 175。 貫驗上’此值已證實對於水平分段是優越的。 (2 )新增了 一個間隙參數(^ a p p a Γ 3 m e ^ e厂)。與垂直分 段不同地,「同一」行中的字,不應由於個別字間的小間 隙而分裂開。因而,必要時,需間隙參數來橋接此等低水 平輪廓值。如果演算法已經找出一對下至上與上至下轉變 ,(如此即找出一對可能的左,右邊界),且如果該找出的 上至下轉變與當丽工作之行兩者間的間隙夠大,則在當前 工作之行上所找出的下至上轉變被詮釋為一新物件的左邊 界,且由以前找出的轉變對產生一新盒。而當前工作之行 被標示為一新的可能的左邊界。如果間隙不夠大,演算法 έ將輪廓中的谷值證釋為小的,從而忽略之(刪除到現在 為止所找出的可能的左邊界)。以輪廓中的下一值,繼續 演算法。本發明並不限於此等細節。 圖6給出水平分段演算法的結果的一個例子。注意到, 在較複雜的佈局,應對其界限盒做附加的修改。 圖7例示本文nDOW JONES Commodities trading is risking and is not for everyone” ,在包含背景 124 之 影像120之中。影像120係在網頁126。背景124可為單一顏 色或複雜为景(如’具有不同形狀的許多顏色)。垂直分段 演算法初始時對”Commodities trading involves risking and is not for everyone"的不同本文線,並不 加以分離;如果想像,各別本文盒的垂直投影輪廓看來像 什麼’即可明白其理由。左列中的本文盒可向右遮罩該較
1223212 五、發明說明(19) 小本文的垂直輪廓,從而不能分裂成兩條本文線。另一方 面,此二本文行間的間隙夠大,足以在應用水平分段演算 法之後分裂開。實驗上,如果對本文盒做幾個循環(或幾 遍)的垂直及水平分段,幾乎每一種佈局結果都能被分成 其本文列及本文行。 本文高度在影像中以及在視頻訊框中,既然都受到限制 ,則在一些具體實例中,具有 高度< m i η texthelgh t 點(p t ) _ 或 之盒被分類為非本文區域,從而被揚棄。此外,既然水平 分段確保本文盒含本文物件,像是w 〇 r d s或本文線,則經 正確分段的本文盒的高度應小於其寬度。結果,具有 高度 > 寬度 之盒也可被揚棄。最後,具有相同上下邊界,且夠靠近而 足以接觸或重疊彼此的本文盒,可接合成一個本文盒。此 做法降低了複雜性,且歷時後會有較為穩定的本文追蹤。 4.4.3 評估本文顏色及背景顏色 在一些具體實例中,對每一本文界限盒,評估其本文顏 色及背景顏色。此等評估可用以確定:一本文界限盒是含 正常本文(亮背景上的暗本文),抑或是含反本文(暗背景 上的亮本文)。典型的影像是彩色的。即使一視覺上的單 色區域,像是視頻訊框中的一個字元,都是由許多顏色不 同但相似的像素所組成。據此,每一本文界限盒中顏色分
ill
第24頁 1223212 五、發明說明(20) 布的複雜性可藉顏色量化(例如,量化至最具支配性的四 種顏色)而降低。有各種向量量化器可供使用;在我們的 工作中,我們使用一種快速向量量化器,其可輕易取得。 本文顏色直方圖(histogram)對一界限盒中本文所含的 量化顏色量,提供測量。該測量可對本文取樣,例如取本 文界限盒的中心四列。以本文顏色直方圖所測量的顏色, 典型地也包含字母間,以及一些字母内部(如,π οπ )所混 雜的背景。當然,該中心四列以外的本文位置也能用於本 文顏色直方圖。 背景顏色直方圖對背景某幾部份所含的量化顏色量,提 供測量。舉例來說,這幾部份可為本文盒(四列在一起)上 下方直接兩列。注意到,此背景顏色直方圖所包含的組份 ,可來自兩個背景顏色直方圖(如,一個來自本文上方, 另一個來自本文下方)。另外也可只有來自本文上方的一 個背景顏色直方圖,或是來自本文下方的一個顏色直方圖 〇 在一些具體實例中,計算了本文直方圖與背景直方圖間 之一差異直方圖。該差異直方圖的最大顏色甚可能對應本 文顏色;該差異直方圖的最小顏色則對應背景支配顏色。 此方法學經實驗證實:對於具均勻顏色的本文十份可靠。 當然,對於多色本文,或許會失敗;而多色本文罕見。 基於經評估的本文顏色及最具支配性的背景顏色,我們 評估一本文界限盒是含正常本文,抑或是含反本文(如上 述)。如果本文顏色的灰階值低於背景支配顏色的,我們
κι
第25頁 1223212 五、發明說明(21) 設其為正常本文’否則即反本文。 圖8為-方塊圖’對於依據本發明 !向量量化及顏色直方圖在顏色評估上二具體實例,伊二 貫例有不同的細節。參考圖8,方塊130夺用。其他具體 (VQ)前之被界限本文盒及周圍的f f。—向量量化 界限而向量量化的訊號及背景。vq之 塊134表示該被 號只有四色。舉例來說,從二穿過本^中含背景的本文訊 中心四列),產生一本文顏色直方圖CHt|:之條帶(如, 直方圖CHu及(:扎則分別從本文上方之一 f ^。上及下顏色 本文下方之一條帶(如,二列)而產生。條帶(如,二列)及 四色。由此,顏色直方圖提供:VQ之後::例中,允許有 ' C2、C3及C4中每一顏色量的表示法。二朮中所含顏色C chd從而產生,這裡CHd=CHt_CHu 。如^異顏色直方圖 圖CHu及CHL從CHT減去前,可先相加。上知議,顏色直方 注意到,經評估的顏色可如以下 使用。然而,在第5節至第9 τ μ · •。及6. 3節所述來 部中,則可使用具灰階顏多 及弟6· 2· 2節第/ 5.利用視頻之資' 如圖2中的影像88)。 視頻以時序冗餘性而有別於靜止 典型來說,其每-本文線出現在若千U非視頻網頁。就 冗餘性可用以·· 相連之訊框中。時序 (1)增加本文定位的機會, 在一訊框訊框中出現; (2 )在個別訊框中移除偽本 因同—本文以各種變化條件 文警報,因其歷時後通常是
1223212 五、發明說明(22) 不穩定的; (3)在個別訊框中,對「意外」錯失的本文線的位置, 做内插;並 (4 )在一整段時間中做位元映像整合,來加強本文分段
然而,此時序冗餘性之利用,在計算上是昂貴的;而我 們第4節的本文定位計畫,會被禁止應用。為明白此點, 假設在每一MPEG-I視頻訊框,以影像為主的本文定位器約 費5秒。則處理一分鐘的視頻,會增加時間達2. 5小時。 MPEG係指MPEG影像標準制定委員會「動畫專家群(M〇ving Picture Expert Group)」所制定之標準。現今已提出的 MPEG格式包括MPEG-1 ·· 「約達1.5百萬位元/秒而用於數位 儲存媒體之動晝聯合聲頻編碼("C d丨n g 〇 f Μ 〇 v i n g Pictures and Associated Audio for Digital Storage
Media at up to 1.5 MBits/s") ,IS0/IEC JTC 1 CD IS- 1 1 1 72 ( 1 9 92 )),MPEG-2 : 「動晝聯合聲頻同屬編碼 (Generic Coding of Moving Pictures and Associated
Audio)」 ’ISO/IEC JTC 1 CD 13818 (1994);以及
MPEG-4 : 「超低位元傳輸速率視聽編碼(Very l〇w Bitrate Audio-Visual Coding)」,狀態一要求「提案 11.94」及「11.96中之工作草稿」。MPEG - 1及MPEG - 2有不 同的版本。MPEG以外的各種格式也可使用。 5. 1 本文物件 在靜止影像場合,所有被定位的本文界限盒一般係獨立
第27頁 1223212 五、發明說明(23) 而互不相關。為利用這裡揾 ^ , m 七—丄 故到的視頻冗餘性,對相連之訊 框中同一内谷的本文界限各, ^ ^ 皿 可基於這些本文界限盒的視 頻内容,將他們總結成一個★ a此以 ^ ^ ^ 個本文物件。在視頻場合,一本 文物件以其影像本文表示法 ,ΛΑ ρ ^ ^ ^ ^如,位元映像)、其在各訊框 中的尺寸及位置,以及事件的士 — 干的日守序範圍,來描述一本文線 。視頻中完整的本文物件公Λ Ώ 卜 1干刀兩階段過程被擷取,而降低計 算複雜性。以下說明一此星驊每&丄,w l , / 二一體貝例中的插作,雖然本發明 不又此限。第- Ρ!段中,以粗時序解析度(⑶訂⑶ temporal res〇lutlon)監視一視頻訊號(見圖9)。舉實例 來說,第4節中說明的以影像為主之本文定位器(1_以一 based text localizer),只應用於每第2〇個訊框(如,圖 9中的訊框F80,訊框F100,訊框F12〇f)。如果本文被檢 測(如,在訊框F1 20),則進入第二階段:本文追蹤。在此 階段,對監視階段所找出的本文線,在一整段時間中做向 後追蹤(如’訊框F11 9)及向前追蹤(訊框fi 21),直達他們 的最初事件訊框(訊框FI 1 5)及最末事件訊框(訊框pi 34)。 此階段組合運用以表徵(s i g n a t u r e )為主之本文線搜尋, 與影像為主本文定位。表徵為主之搜尋比起影像為主本文 定位’較不計算密集(第4節)。表徵為主之搜尋與其他訊 框志比較本文邊緣或區面,包括邊緣映像(e d g e m a p)之比 較,也可比較水平輪廓。 5.1.1 .iL本_文事件之視頻監視 在一些具體實例中,對本文事件,以一粗時序解析度監 視其視頻。為此目的,影像為主本文定位器只用於該視頻
第28頁 !223212
五、發明說明(24) 的一個平均間隔訊框字集。其步進尺寸係由目的來決定, 並不賴於任何本文線。然而,本文線究是定位在其時序事 件的開頭,中間或是末端,並不重要。對於任何情形,本 文追蹤階段將會恢復每一本文線的真實時序範圍。 本文線事件的最小假設時序期間(t e m ρ 〇 r a 1 d u r a t i ο η ) ,可給出最大可能步進尺寸。視覺研究指出,人類需2到3 秒來處理一個完整的景像。如此,似乎可合理地假設,本 文應清晰地出現至少2 / 3秒’才容易可讀;對於3 〇 f p s (每 秒30個訊框(30 frames per second))視頻,此等同於2〇
個訊框之步進尺寸。 在一些具體實例中,如果影像為主文定位器在訊框t中 找不出任何本文線’則繼而對訊框進行監視過程。\然^ ,如果至少找出一條本文線,則影像為主本文定位器 用於汛框η及汛框t+1。其次,對於訊框t中的每一條文旁 ’該演算法搜尋其在訊框w及訊框川中的對應本文' 太 文線之間的對應性可定義為:他們的訊框中位 & 文盒的區面重疊,至少80% ;而其他值也是可用 > B分別表示·描述參考界限盒及第二界限盒之隹若A-
疊百分率可定義為overlap^ A B|/ |A| 。姓# *木,則重 ,若有兩個對應的本文盒,發生在相連之° 此情形下 置,則兩對應盒尺寸差異不會多於百分之2σ〇 ·£中的相同4 相同尺寸,彼此只能有輕微位移。就太且/或若有 通會有小位移。對於訊框t中之一本文八硭 文來說,j 訊框及訊框t+1中的對應盒,則有一 士果找出其在 柯的本文物件(包含
第29頁 1223212 五、發明說明(25) 這些士文盒)產生;並被標示,俾在—整段時間中被追縱 。虛擬碼例4」對視頻監視過程,給社。 對本文事件之視頻監視演算法(「虛擬碼例4」) (1) Video = {frame 0,···,frame τ} (2) for t - 0 to Τ step 2/3 seconds (3) localize text in frame t (4) if no text line found (5) continue with next t (6) localize text in frame t-1 and t+1
(7) for all text lines in frame t which do not belong to any text object yet (8) search for corresponding text line in t — 1, t + 1 (9) if search successful (10) create new text object (11) track text object backward (12) track text object forward 5.1.2 本文追s從 在一些具體實例中,基於視頻監視階段中產生的本文物 件所含的資訊,每一本文物件再被擴充’到所有包含各別 本文線之訊框(這會減少圖1中輸出4 4上所提供的位元映像 數)。本文追蹤之實行,既可逆時向後,也可順時向前。 然而,我們只限討論向前追蹤,因向後追蹤除了經Μ視并員 的方向,此外與向前追蹤無異。我們的快速本文适:八 <吹器背
第30頁 1223212 五、發明說明(26) " 後的基本想法是要:在當前的視頻訊框十取本文線;對此 本文線與具其他内容的本文線,計算其間區別所在的一個 特性表m;並搜尋下-視頻訊框中,肖參考表徵做最佳匹 配(m a t c h )的同維度之影像區域。 第4. 4.2節中所定義的垂直及水平投輪廓,可做為一緊 緻而具特性的參考表徵’雖然其他表徵也可使用。表徵的 中心可定義為關聯本文線之界限本文盒的中心。兩個表徵 之間的相似性玎由表徵交集(signature intersecU〇n)來 測度(如,由該等表徵中各別元素間的最小值之和)。如果 於改變背景的同時,表徵也捕捉一個重要的物件,則表徵 或直方圖交集之實行更勝L-範數(L-n〇rms)。為找出下一 訊框中一本文線的精確位置,可對中心落入該參考表徵中 心周圍之一搜尋視窗的所有表徵,加以計算,並與參考表 徵做比較。如果最佳匹配超過一最小要求相似性,則宣告 該本文線被找出’並將其新增到本文物件。如果最佳&二 未超過一最小要求相似性,則宣告一表徵為主之偶出 (drop-out^。搜尋半徑尺寸依本文之最大假設速度而定。 在我們的實驗中假設,本文要在視頻中從左至右移動,至 少需2秒。對於給定的訊框之尺寸及視 直接等同於像素中的搜尋半徑。原則上,我們能/本文物 件中所3的寅戒,預測到現在為止的位置,而窄化搜尋空 間,然而’這在計算上並無必要。 庄了此表域為主之徹底搜尋演算法,其類似於運動預測 上的區塊匹配演算法(b丨0ck matching algorithm)--除了
第31頁 1223212 五、發明說明(27) 後者之相似性測度係基於由 的表徵之外。 貫際影像之一特徵影像所導出 表徵為主之本文綠j由君斗、 ,此因該搜尋係基於先測不到緩:曼出的本文勒 -個固定且為導出的主型/ 本文線的 '欲,而非基方 . 、 、 生/ 原型表徵(master/prototype S1gna ure)。一訊框一訊框的 測。此外,表徵為主之太夺又乂汴八 …、忐才欢 ^ ^ . AA ^ ^ (本文線搜尋可能追蹤不到某歧放> 或細小的本文。為多服μ蝥 ’ _ ,r ^ ^兄服此寻限制,表徵為主之搜尋於每筹 X個όίΐ框,可被影像為幸太 —
馮主本文疋位器所取代,以便對本文 線的位置及尺寸做再桉進。彳θ 可被揚棄。 仁疋,新檢測到的本文盒在血
其、-。果富於啟發性:每第5個訊框在速度與可靠度間有 良^的協調;但也可使用過大的間距。同樣地,在一些且 體貫例中,對應的本文線有至少80%之本文盒重疊。八 由於視頻訊號中的不全缺陷,像是高噪訊、受限頻寬 t如」顏色陷入彼此)、本文閉塞(text 〇cclusi〇n)、、人工 壓縮因素等,對本文物件之嚴格的連續辨識(如,對每一 訊框)通常是不可能或不實際的。因而,不宜認為:若在 下一訊框中找不出對應本文,即終結追蹤。毋寧應僅在某 幾個相連之訊框中找不出對應本文線時,才終結追蹤。為 此’可使用兩個閥值及。每當一本文物 件不能擴充到下一訊框,各別計數器增量一。每當有關的 搜尋方法完成,各別計數器重設為零。只要兩計數器全都 超過其閥值maxS=T一或maxZgT,追蹤過程可中止/在我
1223212 五、發明說明(28) 們的貫驗中,影像為主本文定位器所用的閥值設為 παν ima^c~b^d _ 〇 "^二3,但其他值也可用。這種偶出狀況可由雜訊甚 多之視頻訊框或時序閉塞之本文而引起。表徵為主之搜尋 所用的閥值則設為=4,例如為兩個完全定位之 訊框間的距離,但也可用其他值。在諸如本文放大或縮小 等甚難做表徵為主之搜尋的情況中,用值4使我們能對本 文線做追蹤。以下「虛擬碼例5」總結了依據本發明之一 些具體實例的視頻監視過程。然而,本發明之其他具體實 例有其他細節,也是可實施的。 給定本文物件之本文向前追蹤演算法(「虛擬碼例5」) (2) (3) (1) sigBased—DropOuts = 0 imageBase一DropOuts = 0 (4) (5) (6) (7) while not (beginning or end of video || sigBased_DropOuts > maxSigBased_DropOuts || imageBased —DropOuts > maxi mageBased — DropOuts) get next frame t if (frame has to be localized) localize text in frame t search localized text box that matches to the box in the last frame of the text object (8) if (search successful) (9) add text box to the text object (10) reset sigBased—DropOuts and reset imageBased_DropOuts
第33頁 1223212 五、發明說明(29) (11) else (12) increment i aiageBased_DropOut s (13) else (14) calculate feature image for frame t (15) estimate search area a for the text line (16) create a window w with the dimension of the text box in frame t-1 (17) get signature si of the text box in t-1 (18) for (each possible position of w in a)
(19) calculate signature s2 for w (20) calculate error between s 2 and si (21) memorize minimal error (22) if (minimal error < threshold) (23) add text box to the text object (24) reset sigBased_DropOuts (25) else (26) increment sigBased — DropOuts 5.1.3後處理
為準備一本文物件用以做本文分段,可以將其微調至 檢測具可k度的部份。因而,在一些具體實例中 文物件以時序微調至最初及最末訊框;影母一 ❺王本文定 态仏在此二訊框中檢測本文線。接著,本文 如果(舉例來說) 破^棄 (1)其發生時間短於一秒;或
第34頁 ^3212 五、發明說明(30) 复(2)其有大於25%的偶出率。 ^ ΐ值也是可使用的。第—個條件是因我們觀举μ 需至少-秒,才是可見的,而較短暫的本;:;本文 劲s報。第二個條件則移除無法後續處理的不穋1焱常是 的本文物件。不穩定追蹤可由人工強壓縮因^1追縱所 弓丨起。 ’、或非本文 最後,在一些具體實例中,對於每一本文物, =~個或多個總體特徵。特定細節則因不同為可確定 而兴。 異體實例 .假設同一本文線的太 f 一 $段時間中並不改變,則以每一訊框中所,文顏色 本文,色的中數’定為本文物件之有已確定的 =Λ所獲Λ的)。本文顏色並不須被選為匕數第 使用另外一種平均或非平均測度。 數,可以 6(2) 本文界限盒的尺寸在_整 ? 來定其寬度及^固疋,我們以整組寬度及高度的中:固 。=)果本文線或許在一個或兩個座;P上去 丄果母一訊框的平均移動小於〇· 75個像♦ t都靜止 硬止。該平均移動之計算,係基;^則本文線被 ]的位置差兴,而以訊框數 一取末本文線 如果本文線為靜止,我們以 巧-化。 部的本文界限盒。該令數之本文=文界限盒來取代全 境為全部盒之左/右/上/下邊境的中^的左/右/上/下邊 如果位置僅固定 第35頁 I223212 五、發明說明(31) 於 下 個方向,如X或如y軸,則以中數值分別取代左右或上 b· 本文分段 節 本文分段牽涉到背景從本文之移除。不可與第4 · 4. 之今段相混備。 6·1解_析度調整(注意圖1中之方塊30) 本文分段做法可對比例再轉換的影像(如,藉立方内插) 實行;而此種影像中所考慮的本文物件之本文高度為—固 定高度,如1 0 0個像素,而其寬高比則保留。比例再轉換 的理由有兩方面: ⑴ 土...字..羞.尺寸之解析唐加強,從而導致較佳分段j今耍 現今視頻的本文擷取及本文辨識有一個主要問題,即甚 低的解析度。對於MPEG- I編碼視頻,個別字元的高度常小 於1 2個像素。雖然在此解析度下,本文仍可為人類所辨識 ,卻使今日的標準OCR系統面臨了一段艱困的時期。這些 OCR系統係設計為文件中的本文辨識之用;而文件係解析 度在至少200dpi至300 dp i(每英吋2〇〇至300個像素點(200 to 3 0 0 dots per inch))之下被掃描,造成至少為4〇個像 素高的最小文件高度。為使標準〇(^系統獲致良好結果, 宜加強本文線的解析度。 小本文元位元映像之放大,另一甚至更為重要的理由, 是要加強本文位元映像的可見品質。較高的解析度使次像 素能有精確的本文調正(關於原來的解析度),第6 · 2 · 2節
第36頁 1223212 五、發明說明(32) 〇 (2) 算節約。 本文向度縱使大於固定高度(如,1〇〇個像素 良分段,果,也不會改良OCR性能。尺寸減小,則明= 降,f:算複雜性。注意到,既然我們的解決途徑在:直 的多%析度,且係以解析度達192〇乘128〇像 ^ ς正 頁及HDTV視頻序列,則甚可能會有較大的字型尺網 個像素僅為訊框高的丨/ 2。 寸1 0 〇 6· 2整背景_(包括福 如如所討論’背景可被移除( 雜背景比起簡單背景,會,方塊⑵。複 過,如上戶、,1:二Λ 的或簡單的背景)。不 , 所庄心到的,右知影像背景的特 尽發明之一具體實例,以使用此資訊。、」可心正 6· 2· 1影像 為了容易可讀,假定本文事件盥苴 此特徵,以移除較大部份的複雜背:月;'成對tb。這裡用 ,作業如下;但本發明不受在-些具體實例中 本文界限各,柿尸太々後主 土本的想法,是要增大 人,丨限孟,使付本文像素都落 · 界限盒邊界上的每一像素為種兄上’然後取本文 不多於threshold 的傻4 對所有與背景顏色差異 ™些具體實例中,先僅對被埴 旦充。(注思到,在 改變,而不於位元映像上執行。執顏f的像素,記憶 有像素被種子填充之後。) ’、洛貝在盒邊界上所 、反本文’背景顏色為黑色
第37頁 1223212 五、發明說明(33) 本1十於正常本文色。既㈣界上的像素並不屬於 本文,且既然本文與其背景成對比,則 ^ 將不會移除们可字元像素。(種子填充演算法广已知= )我們稱此新建構的位元映像為βΓ ( χ y )。 在我們的實驗中,係用RGB顏色之間的歐幾里德距離 Uuclldean dlstance),做為距離函數, :;用,鄰域。還,,為確保所有字母完全=在;;;; 限立中,我們將盒做20%之水平擴充,以及4〇%之垂直擴充 、亚非全部的背景像素都須被刪除,此係因種子填充演算 法所填充的區域尺寸受限於一像素與其邊境像素間的最大 允午顏色差兴。其餘的顏色區域尺寸,可用以填充呈背景 顏色的其餘背景區域。在一些具體實例中,每一像素對於 種子填充演算法,都可為種子。可假想地應用8 _鄰域種子 填充冷异法於Br (X,y ),以決定所能填充的區域的維度。 背景區域應該小於本文字元區域。因而,區域若高度小於 minhelgm像素,寬度小於minwldth或大於maxwldtll,全都被移除 (設為背景顏色>。 6· 2· 2 氣1 員影像 一視頻本文物件包含同一本文線之多影像本文表示法 (如’位元映像),而非只有一個,其在此方面有異於單一 影像本文物件。在一些具體實例中,應用下法,以此冗餘 性來移除實際字元周圍的複雜背景。然而,本發明並不受 此限。該方法不僅能應用於靜止本文;由於我們已解決次
第38頁 丄223212 五 '發明說明(34) 像素準確本文線調正問題,故也能用於移動本文。 以灰階,,’原來的影像可被重新載入。而如下述,係 顏Z其向里置化版本’來確定何種灰階顏色同於本文評估 0 1 ^ ^貝例中,作業如下。假設你將一個本文物件 元映像做堆積,而使其字元彼此完美地調正。屬 旦)的後6、冬像素歷時傾向只做輕微變化,而屬於非本文(背 調正、而$、過歷日守則常有巨大變化。既然本文的位置由於 :被假Π靜:不像素會改變。(注意到,縱使本 景像素甚可能由於訊框間仍有細微的改變。)背 改變。 '月不中的運動,或由於本文線的運動而 對Ϊ:㊁每一本文物件,導出-表示性本文線位元映像。 歷時;小完美調正的位元映像,而 到-本文物;的每㈣顯改變,所以不必使用 布平均之邙ir g卩、像。攸而,選取約40個時序分 m _ ° 以得到甚好的結果。例如,若右? η η 個:框而選取4。個訊框,該4〇個訊框 二。 則匡,該40個訊框間隔為15/4。直 右有150個 出為整數{去Π F .π 具思才曰’間隔可捨入或捨 二:數’或者間广毋須—致’或為3,最大為 咖到’可跳過-本文物件開頭或末尾丄ί 則匡’以避免淡入或淡出效應的潛在問》 母隔數目多如許的幾個訊框,即使用-次影像為主;:技 1223212
五、發明說明(35) 術’以避免特性本文顏色緩慢變化於淡入或淡出 欲僅做追蹤,會使分段在此種情形下受損害。之中。表 以下說明如何對位元映像做基本上完美的調正。、, 對於景彡像及網頁都可擴充一本文物件之所有界首先 舉例來說,做2 0 %之水平擴充,以及4 〇 %之垂直硭文^ a ,所有位元映像可轉換至灰階,因為灰階對人』充其一= 縮因素本就較為穩定。幾乎所有視頻壓縮涫曾=顏色壓 析^ ’都高於著名的4:2:0取樣計畫中的顏色解取的解 令B〇(x,y),…:^丨(X,y )表考慮中之N個位元映像;又且 Br(x,y)為導出之表示性位元映像,初始為护。(^ B〇(x,y)。例如,N可為40,故有來自4〇個訊框之“個位元 映像。然後,對於每一位元映像& (x,y),乂丨丨,···,, 我們可以就本文顏色,最小化Br(x,y)與Bi(x,y)間的距離 ,以此為最佳位移,如 (dxtopt, dytopt) = argmin J ^ (Br/-1 (xy y) - B} {x ^ cbc, y-^dy)). V ixyy)^3f λΒ^ 此種區塊匹配搜尋可行,是因只有具本文顏色的像素被 計入’而在此本文顏色係第44 · 3節之本文評估顏色。一 像素被疋義具本文顏色,若且唯若其與本文物件之確定本 文顏色間’差異不超過某一量。注意到,此距離係基於 RGB值而計算。於每一疊代,Βι·(χ,y)藉前述方程式而更新 為 常本文;且
第40頁 1223212 五、發明說明(36)
Bri(x,y)二minCB' — Jx,y),B1 ( x + dxtQpt,y+ dytQpt)),對於反 本文。 注意到,若一本文物件已在第4 . 4 . 3節中驗明為靜止, 我們的搜尋不必求完美的等同關係(p e r f e c t t r a n s 1 a t i ο n )。反之,各種位元映像間的等同關係都可設 為無效(n u 1 1 )。 經由第6 · 2. 2節之過程,正常本文的背景趨向愈來愈亮 ,而反本文的背景趨向愈來愈暗。然而,最初之訊框對於 正常或反本文,分別可能是最亮或暗的。 6. 3 二元化(注意圖1中之方塊38) 現在準備好本文位元映像,以標準OCR引擎來做 辨識。這裡,灰階本文位元映像可轉換為白色背景上的黑 色。以下說明一尋找合適閥值的辦法,一種縱非最適也屬 良好的辦法。從第4. 4. 3節,我們知道了本文評估顏色、 背景支配顏色,以及究竟正常本文抑或反本文是我們所要 處理的。既然在第6. 2節中背景大都已移除,我們決定: 對於反本文,設背景顏色為黑色;對於正常本文,設為白 色。然後,選本文顏色強度與背景顏色強度間之折中強度 ,其為一良好的二元化閥值。本文位元映像中高於該二元 化閥值的每一像素,對於正常本文,可設為白色;對於反 本文,可設為黑色。本文位元映像中低或等於該二元化閥 值的每一像素,對於正常本文,可設為黑色;對於反本文 ,可設為白色。最後則建議:如同第6. 2. 1節所說明的方 式,揚棄小區域(設為背景顏色),藉而清除該二元位元映
第41頁 1223212
.1·力gj訊 本發明並不受其中提 及的特別細 對於上文之每一章節 節所限制。
本發明之 成大—/C影 究屬本文與 物件導向視 相比,已知 然而在許多 們的本文定 此一問題。 一些具體實 像,也能將 否。如此, 頻編碼。物 在固定位元 情形下,自 位及分段演 例不僅能將 影像或視頻 我們的本文 件導向視頻 傳輸速率下 動擷取物件 算法,對視 本文事件定 中的每一像 定位及分段 編碼與現存 可致更好的 此一問題尚 頻中的本文 位,並分段 素’標簽其 技術能用於 的壓縮技術 視頻品質。 未解決。我 事件解決了 本發明之-些具體實例牽涉到一多解析度解決途徑,A 中該本文定位及分段演算法從MPEG — 丨視頻序列直到HDTv、 MPEG-2視頻序列( 1 980xl 280 ),都能成功作業,而不做任 何參數調整。例如,字元尺寸能在8個像素與半個訊框 之間變化。 圖1 0例不一電腦系統1 8 0,其具有一處理器丨8 4及一記憶 體1 8 8。έ己憶體1 8 8代表一個或多個各種類型的記憶體裝置 ,包括RAM、硬碟、CD R0M,以及視頻記憶體,族繁不\ 備載。記憶體1 8 8包含機器可讀媒體,其上儲存指令,以 貝行上述各種功能。記憶體1 8 8也能儲存將要處理的資料 (如,數位視頻訊號),以及處理過程的中間及最終結果。 圖1 0係以示意圖作繪示,惟實用上則可包括其它各種不同
第42頁 1223212 五、發明說明(38) 之習知元件。 「訊框」一辭,有較廣的含意;舉例來說,其究竟交插 (interleaved)與否,無關緊要。同樣的,「影像」及 「視頻」二辭,意涵有寬廣的詮釋。特別的格式並非必要 若本專利說明書陳述「可」、「可以」或「可能」包含 一種組份、特徵、結構或特性,則該特定的組份、特徵、 結構或特性並不一定須被包含。若本專利說明書提及 「一」元素,其並不意謂僅有一個元素。若本專利說明書 或申請專利範圍之項目提及「另一」元素,其並不排除多 於一個另一元素的情況。 熟練技藝者若或益於此彼露内容,將了解,以上的說明 及圖式可在本發明之範圍内做其他各種變易。其實,本發 明並不限於上述細節。本發明之範圍,毋寧由以下申請專 利範圍之項目(包括各種附帶修正)所界定。
第43頁 1223212
第44頁

Claims (1)

1223212 案號 90104992 修正 六、申請專利範圍1 . 一種於數位影像中定位本文之方法,其包含: 對一數位影像做比例轉換,成多解析度的影像; 依該多解析度中的像素是否屬一本文區域部份,做分類 擴 盒 藉 係 其 •,盒 像限 映界 顯文 凸本 合始 整初 例生 比產 一以 生, 產像 以映 ,顯 例凸 比該 合用 整使 由與 少組 至群 到等 充該 擴中 ,其 素, 像組 個群 一的 少成 至組及 從所; ,素係 的像關 含之別 所形特 形矩一 矩等有 素該值 像鄰閥 將相一 ,個第 充一 一 為 係 關 別 特 該 中 其 法 方 。之 盒項 艮 '~~_ 第 圍 範 利 專 請 中 如 界 文 本 始 初 等 該 該 含 包 組 群 等 該 〇 中 值其 閥,一法 第方 該之 過項 超 度 強 均 平 - 之 組 群 等3 該 第 圍 範 利 專 請 中 如 之 形4 矩 行 或 列 鄰 相 尚 與 像 映 顯 凸 該 中 其 法 方 之 項 T—-*· 第 圍 範 利 專 請 申 如 度為產 析像: 解影含 的位包 同數併 相合 有中之 ,其盒 像,限 影法界 位方文 數之本 的項始 度1初 析 而 解々巳; ί , 多利份 換.像 彳請彳 轉卩影 Φ— 例U頻 比彡視 經位 未 數 直 垂 的 值 閥 性 應 適 具 及 以 廊 輪 影 投 平 水 的 值 閥。 性靡 應輪 適影 具投 第 圍 範 利 專 請 申 如 最 有 具 為 值 閥 性 應 6 、χ 的 靡, 輪數 影函 投的 平值 水廓 該輪 中影 其投 ,平 法水 方大 之最 項及 影 投 直 垂 大 最 及 \ —y,T 最 有 具 為 值 閥 性 應 適 的 靡。 輪數 影函 投的 直值 垂廓 該輪
O:\69\69053-920626.ptc 第45頁 1223212 _案號90104992 : , 年U 4日 修正_ 六'申請專利範圍 」一J 7. 如申請專利範圍第1項之方法,其中初始本文界限盒 之合併包含:重複實行一水平分段演算法及一垂直分段演 算法。 8. 如申請專利範圍第6項之方法,其中該垂直分段演算 法包含:於上下擴充一本文界限盒,擴充到原來的本文盒 高度之半與最大可能本文高度之半兩者其中的最小值。 9. 如申請專利範圍第1項之方法,其進一步包含:計算 邊緣定向,以識別多解析度的影像特徵。 10. 如申請專利範圍第1項之方法,其進一步包含:用 一表徵為主之追蹤,從已由影像為主之方法做過識別的本 文所處之訊框,向前或向後,對一本文物件中的本文所處 之訊框,加以識別。 11. 如申請專利範圍第1項之方法,其進一步包含:在 本文及本文周圍之非本文部份中,產生顏色直方圖,藉此 以評估影像中的本文顏色。 12. —種機器可讀媒體,其上具有指令,執行時,使一 處理器於數位影像中定位本文,該指令包含·· 指令,用以對一數位影像做比例轉換,成多解析度的影 像; 指令,用以分類該多解析度中的像素是否屬一本文區域 部份; 指令,用以整合比例,以產生一比例整合凸顯映像; 指令,用以使用該凸顯映像,以產生初始本文界限盒, 其係藉盒擴充,將像素矩形所含的,從至少一個像素,擴
O:\69\69053-920626.ptc 第46頁 1223212 更 修正 主 案號 90104992 曰 六、申請專利範圍 充到至少由一個相鄰該等矩形之像素所組成的群組,其中 該等群組與一第一閥值有一特別關係;及 指令,用以合併該等初始本文界限盒。 13. 如申請專利範圍第1 2項之機器可讀媒體,其中該特 別關係為:該等群組之一平均強度超過該第一閥值。 14. 如申請專利範圍第1 2項之機器可讀媒體,其中該等 群組包含該矩形之一相鄰列或行,且該矩形係以1個像素 乘1個像素之矩形開始。 15. 如申請專利範圍第1 2項之機器可讀媒體,其中該凸 顯映像與尚未經比例轉換成多解析度的數位影像,有相同 的解析度 。 16. 如申請專利範圍第1 2項之機器可讀媒體,其中該數 位影像為一數位視頻影像部份;而用以初始本文界限盒之 合併之指令包含:指令,用以產生具適應性閥值的水平投 影輪廓,以及具適應性閥值的垂直投影輪廓。 17. 如申請專利範圍第1 6項之機器可讀媒體,其中該水 平投影輪廓的適應性閥值為具有最小及最大水平投影輪廓 值的函數,該垂直投影輪廓的適應性閥值為具有最小及 最大垂直投影輪廓值的函數。 18. 如申請專利範圍第1 2項之機器可讀媒體,其中該用 以初始本文界限盒之合併之指令包含:重複實行一水平分 段演算法及一垂直分段演算法。 19. 如申請專利範圍第1 8項之機器可讀媒體,其中該垂 直分段演算法包含:於上下擴充一本文界限盒,擴充到原
O:\69\69053-920626.ptc 第47頁 1223212 ~一92:—廿 _案號90104992 、 泠年έ :月:二6日 修正_ Γ; :Ί . 六、申請專利範圍 ' … -· 來的本文盒高度之半與最大可能本文高度之半兩者其中的 最小值。 2 0. 如申請專利範圍第1 2項之機器可讀媒體,其進一步 包含:指令,用以計算邊緣定向,以識別多解析度的影像 特徵。 2 1. 如申請專利範圍第1 2項之機器可讀媒體,其進一步 包含:指令,用以用一表徵為主之追蹤,從已由影像為主 之方法做過識別的本文所處之訊框,向前或向後,對一本 文物件中的本文所處之訊框,加以識別。 22. 如申請專利範圍第1 2項之機器可讀媒體,其進一步 包含:指令,用以在本文及本文周圍之非本文部份中,產 生顏色直方圖,藉此以評估影像中的本文顏色。 2 3. —種於影像中定位本文之方法,其包含: 依像素是否屬一本文區域部份而做分類; 產生初始本文界限盒;及 合併該初始本文界限盒,其中該合併包含:產生具適應 性閥值的水平投影輪廓,以及具適應性閥值的垂直投影輪 廓。 2 4. 如申請專利範圍第2 3項之方法,其中該水平投影輪 廓的適應性閥值為具有最小及最大水平投影輪廓值的函數 ,該垂直投影輪廓的適應性閥值為具有最小及最大垂直投 影輪廓值的函數。 25. 如申請專利範圍第2 3項之方法,其中初始本文界限 盒之合併包含:重複實行一水平分段演算法及一垂直分段
O:\69\69053-920626.ptc 第48頁 1223212 . “ _案號90104992 &年έ月丄6日__ 六、申請專利範圍 演算法。 2 6. 如申請專利範圍第2 3項之方法,其中該水平分段演 算法包含:於左右擴充一本文界限盒,擴充到原來的本文 盒高度之半與最大可能本文高度之半兩者其中的最小值。 2 7. 如申請專利範圍第2 3項之方法,其中該垂直分段演 算法包含:於上下擴充一本文界限盒,擴充到原來的本文 盒高度之半與最大可能本文高度之半兩者其中的最小值。 2 8 . —種機器可讀媒體,其上具有指令,執行時,使一 處理器於數位影像中定位本文,該指令包含: 指令,用以分類像素是否屬一本文區域部份; 指令,用以產生初始本文界限盒;及 指令,用以合併該初始本文界限盒,其中該合併包含: 產生具適應性閥值的水平投影輪廓,以及具適應性閥值的 垂直投影輪廓。 29. 如申請專利範圍第2 8項之機器可讀媒體,其中該水 平投影輪廓的適應性閥值為具有最小及最大水平投影輪廓 值的函數,該垂直投影輪廓的適應性閥值為具有最小及 最大垂直投影輪廟值的函數。 30. 如申請專利範圍第28項之機器可讀媒體,其中該用 以初始本文界限盒之合併之指令包含:重複實行一水平分 段演算法及一垂直分段演算法。 3 1. 如申請專利範圍第2 8項之機器可讀媒體,其中該水 平分段演算法包含:於左右擴充一本文界限盒,擴充到原 來的本文盒高度之半與最大可能本文高度之半兩者其中的
O:\69\69053-920626.ptc 第49頁 1223212 - 狭 修正 L 案號9〇1〇4992 Γ 淨6a 六、申請專利範圍 最小值。 32. 如申請專利範圍第2 8項之機器可讀媒體,其中該垂 直分段演算法包含:於上下擴充一本文界限盒,擴充到原 來的本文盒高度之半與最大可能本文高度之半兩者其中的 最小值0
O:\69\69053-920626.ptc 第50頁
TW090104992A 2000-03-14 2001-03-05 Generalized text localization in images TWI223212B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US09/524,797 US6470094B1 (en) 2000-03-14 2000-03-14 Generalized text localization in images

Publications (1)

Publication Number Publication Date
TWI223212B true TWI223212B (en) 2004-11-01

Family

ID=24090703

Family Applications (1)

Application Number Title Priority Date Filing Date
TW090104992A TWI223212B (en) 2000-03-14 2001-03-05 Generalized text localization in images

Country Status (8)

Country Link
US (1) US6470094B1 (zh)
CN (1) CN100514364C (zh)
AU (1) AU2001238648A1 (zh)
DE (1) DE10195927B4 (zh)
GB (1) GB2377114B (zh)
HK (2) HK1049536B (zh)
TW (1) TWI223212B (zh)
WO (1) WO2001069529A2 (zh)

Families Citing this family (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1320382B1 (it) * 2000-05-29 2003-11-26 Olivetti Lexikon Spa Dispositivo e metodo per la stampa di immagini da video.
AU2002227262A1 (en) * 2000-12-04 2002-06-18 Isurftv E-mail, telephone number or url within tv frame
US20030014445A1 (en) * 2001-07-13 2003-01-16 Dave Formanek Document reflowing technique
US8103104B2 (en) * 2002-01-11 2012-01-24 Hewlett-Packard Development Company, L.P. Text extraction and its application to compound document image compression
US7020338B1 (en) * 2002-04-08 2006-03-28 The United States Of America As Represented By The National Security Agency Method of identifying script of line of text
US7590286B2 (en) * 2002-07-26 2009-09-15 National Institute Of Information And Communications Technology Incorporated Administrative Agency Image recognition apparatus and program for recognizing the substance of an image, particularly in a motion picture environment
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
US20050047647A1 (en) * 2003-06-10 2005-03-03 Ueli Rutishauser System and method for attentional selection
US7409372B2 (en) * 2003-06-20 2008-08-05 Hewlett-Packard Development Company, L.P. Neural network trained with spatial errors
JP2005038263A (ja) * 2003-07-16 2005-02-10 Canon Inc 画像処理装置、画像処理方法、記録媒体及びプログラム
US7983446B2 (en) * 2003-07-18 2011-07-19 Lockheed Martin Corporation Method and apparatus for automatic object identification
US8098950B2 (en) * 2003-11-26 2012-01-17 General Electric Company Method and apparatus for segmentation-based image operations
US7475061B2 (en) * 2004-01-15 2009-01-06 Microsoft Corporation Image-based document indexing and retrieval
KR100537520B1 (ko) * 2004-02-18 2005-12-19 삼성전자주식회사 동영상의 자막 검출 방법 및 장치
KR100647284B1 (ko) * 2004-05-21 2006-11-23 삼성전자주식회사 영상의 문자 추출 장치 및 방법
JP4048188B2 (ja) * 2004-06-07 2008-02-13 株式会社インパルスジャパン Webページ翻訳装置及びwebページ翻訳方法
WO2006006525A1 (ja) * 2004-07-09 2006-01-19 Olympus Corporation 画像処理装置及び方法
US20060045346A1 (en) * 2004-08-26 2006-03-02 Hui Zhou Method and apparatus for locating and extracting captions in a digital image
US7729538B2 (en) * 2004-08-26 2010-06-01 Microsoft Corporation Spatial recognition and grouping of text and graphics
US7574048B2 (en) * 2004-09-03 2009-08-11 Microsoft Corporation Freeform digital ink annotation recognition
DE102005001224A1 (de) * 2004-09-03 2006-03-09 Betriebsforschungsinstitut VDEh - Institut für angewandte Forschung GmbH Verfahren zur Zuordnung eines digitalen Bildes in eine Klasse eines Klassifizierungssystems
US7596265B2 (en) * 2004-09-23 2009-09-29 Hewlett-Packard Development Company, L.P. Segmenting pixels in an image based on orientation-dependent adaptive thresholds
US8156115B1 (en) 2007-07-11 2012-04-10 Ricoh Co. Ltd. Document-based networking with mixed media reality
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US9495385B2 (en) 2004-10-01 2016-11-15 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US7812986B2 (en) 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
JP4453016B2 (ja) * 2005-01-31 2010-04-21 株式会社カシオ日立モバイルコミュニケーションズ 携帯端末、文字読取方法および文字読取プログラム
US20060182339A1 (en) * 2005-02-17 2006-08-17 Connell Jonathan H Combining multiple cues in a visual object detection system
JP4393411B2 (ja) * 2005-03-29 2010-01-06 株式会社東芝 画像処理装置、画像処理プログラムおよび画像処理方法
US7570816B2 (en) * 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
US7630544B1 (en) 2005-04-06 2009-12-08 Seiko Epson Corporation System and method for locating a character set in a digital image
US20060239555A1 (en) * 2005-04-25 2006-10-26 Destiny Technology Corporation System and method for differentiating pictures and texts
US7526129B2 (en) * 2005-06-23 2009-04-28 Microsoft Corporation Lifting ink annotations from paper
US7930627B2 (en) * 2005-09-22 2011-04-19 Konica Minolta Systems Laboratory, Inc. Office document matching method and apparatus
US7567729B2 (en) * 2005-09-22 2009-07-28 Konica Minolta Systems Laboratory, Inc. Photo image matching method and apparatus
JP2007166287A (ja) * 2005-12-14 2007-06-28 Fuji Xerox Co Ltd 画像処理装置、および画像処理方法
US7966557B2 (en) * 2006-03-29 2011-06-21 Amazon Technologies, Inc. Generating image-based reflowable files for rendering on various sized displays
US8098934B2 (en) 2006-06-29 2012-01-17 Google Inc. Using extracted image text
US8031940B2 (en) * 2006-06-29 2011-10-04 Google Inc. Recognizing text in images using ranging data
US7953295B2 (en) * 2006-06-29 2011-05-31 Google Inc. Enhancing text in images
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US7810026B1 (en) 2006-09-29 2010-10-05 Amazon Technologies, Inc. Optimizing typographical content for transmission and display
US8782551B1 (en) * 2006-10-04 2014-07-15 Google Inc. Adjusting margins in book page images
US7756356B2 (en) * 2007-03-08 2010-07-13 Mitsubishi Electric Research Laboratories, Inc. System and method for factorizing light in a sequence of images
JP4821663B2 (ja) * 2007-03-12 2011-11-24 日本電気株式会社 文字ノイズ除去装置、文字ノイズ除去方法、文字ノイズ除去プログラム
US8023725B2 (en) * 2007-04-12 2011-09-20 Samsung Electronics Co., Ltd. Identification of a graphical symbol by identifying its constituent contiguous pixel groups as characters
US8929461B2 (en) * 2007-04-17 2015-01-06 Intel Corporation Method and apparatus for caption detection
JP5011508B2 (ja) * 2007-04-27 2012-08-29 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置
US7912289B2 (en) * 2007-05-01 2011-03-22 Microsoft Corporation Image text replacement
US20080297657A1 (en) * 2007-06-04 2008-12-04 Richard Griffiths Method and system for processing text in a video stream
US7940985B2 (en) * 2007-06-06 2011-05-10 Microsoft Corporation Salient object detection
CN101349541B (zh) * 2007-07-20 2010-09-29 华硕电脑股份有限公司 特定图像找寻方法及影像偏位补偿方法
US20090041352A1 (en) * 2007-08-10 2009-02-12 Naoki Okamoto Image formation device, image formation method, and computer-readable recording medium recording image formation program
US7706613B2 (en) 2007-08-23 2010-04-27 Kaspersky Lab, Zao System and method for identifying text-based SPAM in rasterized images
US8640024B2 (en) * 2007-10-30 2014-01-28 Adobe Systems Incorporated Visually distinct text formatting
US8611661B2 (en) * 2007-12-26 2013-12-17 Intel Corporation OCR multi-resolution method and apparatus
WO2009094446A1 (en) * 2008-01-22 2009-07-30 Digital Business Processes, Inc. Method and apparatus for cropping images
CN101510260B (zh) * 2008-02-14 2012-02-22 富士通株式会社 字幕存在时间确定装置和方法
US8917935B2 (en) 2008-05-19 2014-12-23 Microsoft Corporation Detecting text using stroke width based text detection
US8391638B2 (en) * 2008-06-04 2013-03-05 Microsoft Corporation Hybrid image format
JP4577420B2 (ja) * 2008-07-10 2010-11-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4577419B2 (ja) * 2008-07-10 2010-11-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4577421B2 (ja) * 2008-07-10 2010-11-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US8320674B2 (en) * 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR
EP2452310A1 (en) 2009-07-06 2012-05-16 Koninklijke Philips Electronics N.V. Retargeting of image with overlay graphic
EP2275972B1 (en) 2009-07-06 2018-11-28 AO Kaspersky Lab System and method for identifying text-based spam in images
US9003531B2 (en) * 2009-10-01 2015-04-07 Kaspersky Lab Zao Comprehensive password management arrangment facilitating security
TR200907868A2 (tr) * 2009-10-16 2011-05-23 Vestel Elektron�K Sanay� Ve T�Caret Anon�M ��Rket�@ Siyah transparan bölgeler içeren otomatik test metodu
CN102511048B (zh) * 2009-12-31 2015-08-26 塔塔咨询服务有限公司 一种用于预处理包括文本的视频区域的方法及系统
US10043193B2 (en) * 2010-01-20 2018-08-07 Excalibur Ip, Llc Image content based advertisement system
US8483513B2 (en) * 2010-01-22 2013-07-09 Corel Corporation, Inc. Method of content aware image resizing
US8731261B2 (en) * 2010-02-23 2014-05-20 Loma Linda University Method of analyzing a medical image
WO2012012915A1 (en) * 2010-07-30 2012-02-02 Hewlett-Packard Development Co Detecting separator lines in a web page
US8542889B2 (en) * 2010-10-19 2013-09-24 Apple Inc. Systems, methods, and computer-readable media for capturing a signature for use in a document
US8989499B2 (en) * 2010-10-20 2015-03-24 Comcast Cable Communications, Llc Detection of transitions between text and non-text frames in a video stream
US8023697B1 (en) 2011-03-29 2011-09-20 Kaspersky Lab Zao System and method for identifying spam in rasterized images
US8712188B2 (en) * 2011-04-28 2014-04-29 Hewlett-Packard Development Company, L.P. System and method for document orientation detection
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
CN102496019A (zh) * 2011-12-08 2012-06-13 银江股份有限公司 一种车牌字符分割方法
US8850305B1 (en) * 2011-12-20 2014-09-30 Google Inc. Automatic detection and manipulation of calls to action in web pages
US8917910B2 (en) 2012-01-16 2014-12-23 Xerox Corporation Image segmentation based on approximation of segmentation similarity
US8704948B2 (en) * 2012-01-18 2014-04-22 Eldon Technology Limited Apparatus, systems and methods for presenting text identified in a video image
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
JP5730274B2 (ja) * 2012-11-27 2015-06-03 京セラドキュメントソリューションズ株式会社 画像処理装置
CN103854020B (zh) * 2012-11-29 2018-11-30 捷讯平和(北京)科技发展有限公司 文字识别方法及装置
US9569679B1 (en) * 2012-12-04 2017-02-14 A9.Com, Inc. Adaptive image sampling for text detection
US9215448B2 (en) * 2013-01-31 2015-12-15 Here Global B.V. Stereo panoramic images
US9213919B2 (en) * 2014-02-13 2015-12-15 Adobe Systems Incorporated Category histogram image representation
US10638194B2 (en) * 2014-05-06 2020-04-28 At&T Intellectual Property I, L.P. Embedding interactive objects into a video session
CN104298985A (zh) * 2014-08-11 2015-01-21 东莞中山大学研究院 一种基于迭代的图像文本区域检测方法
US10620826B2 (en) 2014-08-28 2020-04-14 Qualcomm Incorporated Object selection based on region of interest fusion
US10664647B2 (en) * 2014-10-28 2020-05-26 Kuang-Yao Lee Visual web page analysis system and method
US9430704B2 (en) 2015-01-16 2016-08-30 Sony Corporation Image processing system with layout analysis and method of operation thereof
JP5992567B1 (ja) * 2015-03-20 2016-09-14 株式会社Pfu 日付識別装置
US9542751B2 (en) * 2015-05-08 2017-01-10 Qualcomm Incorporated Systems and methods for reducing a plurality of bounding regions
CN104978565B (zh) * 2015-05-11 2019-06-28 厦门翼歌软件科技有限公司 一种普适性的图像文字提取方法
CN104834930B (zh) * 2015-05-25 2018-07-24 中孚信息股份有限公司 一种用于多系统平台的图像汉字查找方法
US10043231B2 (en) * 2015-06-30 2018-08-07 Oath Inc. Methods and systems for detecting and recognizing text from images
US9865062B2 (en) 2016-02-12 2018-01-09 Qualcomm Incorporated Systems and methods for determining a region in an image
EP3433816A1 (en) * 2016-03-22 2019-01-30 URU, Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN106960196B (zh) * 2017-03-29 2020-04-07 西安电子科技大学 基于模板匹配和svm的工业视频小数字识别方法
CN107862310B (zh) * 2017-09-17 2021-10-26 北京工业大学 一种基于块投影的藏文历史文献文本区域提取方法
US10679085B2 (en) * 2017-10-31 2020-06-09 University Of Florida Research Foundation, Incorporated Apparatus and method for detecting scene text in an image
US20200285879A1 (en) * 2017-11-08 2020-09-10 Intel Corporation Scene text detector for unconstrained environments
US11593552B2 (en) 2018-03-21 2023-02-28 Adobe Inc. Performing semantic segmentation of form images using deep learning
US10915788B2 (en) * 2018-09-06 2021-02-09 Sap Se Optical character recognition using end-to-end deep learning
CN109308465B (zh) * 2018-09-14 2020-01-17 百度在线网络技术(北京)有限公司 表格线检测方法、装置、设备及计算机可读介质
WO2020061691A1 (en) * 2018-09-25 2020-04-02 Element Ai Inc. Automatically detecting and isolating objects in images
CN110032997B (zh) * 2019-01-07 2021-02-19 武汉大学 一种基于图像分割的自然场景文本定位方法
US11042734B2 (en) 2019-08-13 2021-06-22 Adobe Inc. Electronic document segmentation using deep learning
CN110619333B (zh) * 2019-08-15 2022-06-14 平安国际智慧城市科技股份有限公司 一种文本行分割方法、文本行分割装置及电子设备
WO2021056255A1 (en) * 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
CN111064977B (zh) * 2019-12-05 2021-12-03 任子行网络技术股份有限公司 网络综艺节目备案在线监控的方法、系统及可读存储介质
CN111860479B (zh) * 2020-06-16 2024-03-26 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质
US11042422B1 (en) 2020-08-31 2021-06-22 Microsoft Technology Licensing, Llc Hybrid binaries supporting code stream folding
US11403100B2 (en) 2020-08-31 2022-08-02 Microsoft Technology Licensing, Llc Dual architecture function pointers having consistent reference addresses
US11231918B1 (en) 2020-08-31 2022-01-25 Microsoft Technologly Licensing, LLC Native emulation compatible application binary interface for supporting emulation of foreign code
US11544828B2 (en) 2020-11-18 2023-01-03 Disney Enterprises, Inc. Automatic occlusion detection
US11494944B2 (en) 2020-11-18 2022-11-08 Disney Enterprises, Inc. Automatic low contrast detection

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5546474A (en) * 1993-12-21 1996-08-13 Hewlett-Packard Company Detection of photo regions in digital images
DE69519980T2 (de) * 1994-12-28 2001-06-07 Siemens Corp Res Inc Verfahren und Gerät zur Detektion und Interpretation von Untertiteln in digitalen Videosignalen
JP3264932B2 (ja) * 1995-01-31 2002-03-11 ユナイテッド パーセル サービス オブ アメリカ インコーポレイテッド テキストを含む画像における背景から前景を分離する方法及び装置
DE19507059B9 (de) * 1995-03-01 2005-02-17 Wevelsiep, Klaus, Prof. Dipl.-Ing. Dr. Verfahren zur omnidirektionalen Erfassung von OCR-Klarschrift auf Etiketten oder ähnlichen Datenträgern durch zufallsgesteuerte Suche und Dekodierung mit einem neuronalen Netzwerk
US5889884A (en) * 1995-05-23 1999-03-30 Minolta Co., Ltd. Image forming apparatus capable of recognizing top and bottom of document image

Also Published As

Publication number Publication date
DE10195927B4 (de) 2008-04-10
GB2377114A8 (en) 2003-12-10
DE10195927T1 (de) 2003-05-08
US6470094B1 (en) 2002-10-22
GB2377114A (en) 2002-12-31
HK1049536B (zh) 2005-03-11
HK1049536A1 (en) 2003-05-16
CN100514364C (zh) 2009-07-15
WO2001069529A3 (en) 2002-02-07
CN1418354A (zh) 2003-05-14
GB2377114B (en) 2004-09-22
WO2001069529A2 (en) 2001-09-20
HK1069913A1 (en) 2005-06-03
US20020159636A1 (en) 2002-10-31
AU2001238648A1 (en) 2001-09-24
GB0223747D0 (en) 2002-11-20

Similar Documents

Publication Publication Date Title
TWI223212B (en) Generalized text localization in images
TWI235343B (en) Estimating text color and segmentation of images
CN107341517B (zh) 基于深度学习层级间特征融合的多尺度小物体检测方法
US6731788B1 (en) Symbol Classification with shape features applied to neural network
Chen et al. Automatic detection and recognition of signs from natural scenes
US6574354B2 (en) Method for detecting a face in a digital image
US6614930B1 (en) Video stream classifiable symbol isolation method and system
Wernicke et al. On the segmentation of text in videos
US8369407B2 (en) Method and a system for indexing and searching for video documents
CA3114255C (en) Automatically detecting and isolating objects in images
CN111401368B (zh) 一种基于深度学习的新闻视频标题提取方法
CN113591831A (zh) 一种基于深度学习的字体识别方法、系统及存储介质
JP5503507B2 (ja) 文字領域検出装置およびそのプログラム
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
Giri Text information extraction and analysis from images using digital image processing techniques
Anthimopoulos et al. Multiresolution text detection in video frames
Yang et al. Caption detection and text recognition in news video
Nor et al. Image segmentation and text extraction: application to the extraction of textual information in scene images
Roy et al. Temporal integration for word-wise caption and scene text identification
Gopakumar A survey on image splice forgery detection and localization techniques
CN113724153A (zh) 一种基于机器学习的图像多余人物消除方法
GB2399631A (en) Generalized text localization in images
Kasaraneni Autonomous Vehicle Number Plate Recognition Using a YOLO and ESRGAN Framework
GB2404733A (en) Estimating text color and segmentation of images
Dewakhar et al. TEXT EXTRACTION IN VIDEO

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees