TWI379245B

TWI379245B - Method for continuously outputting character by video-recording

Info

Publication number: TWI379245B
Application number: TW098113935A
Authority: TW
Inventors: Yu Hsiang Huang
Original assignee: Asustek Comp Inc
Priority date: 2009-04-27
Filing date: 2009-04-27
Publication date: 2012-12-11
Also published as: US8401335B2; TW201039246A; US20100272360A1

Description

1379245 六、發明說明：【發明所屬之技術領域】本發明係有關一種以影像槽拍攝一文件並提供給光學文字辨識軟體(Optical Character Recognition, OCR)來辨識字體，以產生文字樓輸出的方法，更明確地說，係有關一種利用攝影機來拍攝該文件， φ 並將攝影機所拍攝的動態影像進行整合，再將整合後的影像提供給光學文字辨識軟體辨識字體，以產生文字檔輸出的方法。【先前技術】 OCR相關的產品原本多是掃描器的附屬功能之一文件置於掃描機台上，-頁-頁的透過掃描機變成隨輸入電腦後’採後製的方式將-頁-頁的圖檑送到⑽軟體做進—步的分析達成圖文分離後再加以組合還原成電腦圖文檔。 *在手躲置逐漸普及關時，也餘相始試著把〇〇1技術 ▼入手持裝置裡面。這個過程巾我們注意到兩件事，使帛者大多只想要被掃目⑽件上的文字，（可能還希望進—步的把文字翻譯出、來）。再來就是因為文字的特性’文字通常逐行編列且是連續的。人們也都是逐行卿冑文章。在這轉形τ，有#者開發出市面上所明的掃描筆。但是為了這個逐行且連續輪人的特性，掃描筆使用的 4 1379245 輸入介面(攝影鏡頭)疋採用線性攝影機(丨inecarnera)，它將二維的文字當成一連串的線段的組合，線性攝影機將線段依序讀入系統後再加以組合還原成二維的圖稽，再供OCR軟體處理。但綜觀現今最普遍的手持裝置(如手機），其上所搭載的卻是二維的攝影機模組。它輸入到系統的是一連續的二維圖像。也就是說，匕的輸入會比較像桌上型的掃描機。因此使用模式上也是一張照片、一張照片的分開處理，與人們逐行處理文字的習慣並不相同。所以目前較普遍的OCR應用，仍多侷限於單張名片的處理(BCR， Business Card Recogmzation)。若想達成連續的逐行輸入，都需要額外的硬體輔助(例如：專利CN2745288Y)。【發明内容】本發明係提供一種以錄影方式輸出連續文字的方法。該方法包含從该物體取得一第一影像以及一第二影像、比對該第一影像與該第一影像以取得該第一影像與該第二影像重疊之一第三影像、將該第二影像從該第二影像中移除以產生一第四影像、將該第四影像與 a亥第一影像連結以產生一第五影像，以及對該第五影像進行光學文子辨識以輪出該第五影像中之文字。【貫施方式】 5 1379245 本發明的目的就是希望利用目前手持裝置上普遍搭載的二維影像輸入裝置(攝雜），且在不增加額外的硬體獅裝置的情形下，來達成逐行且連續輸入文字的目的。因此，本發明提供-種利用攝影機(例如一般手機或是數位相機等….)拍攝-文件’在移動攝影機的同時，將一文件上的文字拍攝下來，之後，職攝的影像進行影縣合，骑整合後的影像倾給光敎挪繼進行文字觸。如此—來，彻本發明所 ^供之方式，便能夠將-連續的影像簡換成—整合影像樓，同時 ==象’將其依字元切割，(避免不完整的字形)，再提供文子辨識軟體進行文字辨識，而能夠達成邊錄影邊輸出文字動時圖。第1圖係為說明本發明將一攝影機以一方向移動日寸進仃拍攝的示意圖。首先夕模式下對係進人錄影模式中，在錄影中文字體。在攝影機的錄影 ^在“中知下」之行拍攝，其可依據需求'^攝减會關定的取樣頻率進 (frame/per sec) 〜機母秒鐘所能拍攝的影像張數機便會取得5張影像。〜4間為1秒’則進入錄影模式的攝影於第1圖中，當攝景多機係以行錄影，攝影機可嫩件上的文字右)移動對文件進又子.在通話中按下」的文字。而 6 1379245 根據攝影機移動的逑度與攝影機於錄影模式下會依序拍攝到影像P〇,、P _率’攝影機方㈣a °4，即攝影機在以的方向進订錄病，會依序拍攝到· p^pQ2 …的

PoHW系完整包含了待辨識的字體「在通話令按下及影像機移動的速mm彡機於錄影模式下的概解不―」於攝影況，影像P。,〜?>。4彼此之間合有 -己的情方向D…旦^ 日有衫像重豐的情況。由攝影機移動的影像重疊；影像Ρ〇2之右#1邻八t 象02之左側部分書f D 像應會與影像％之左側部分影傻且，’7V象〇3之右側部分影像應會與影p ’ 疊。而本發明即為將影像p 衫像重 Γ除重疊部分後的影像進行連接，《得«後正^=來1 仏、，5光學文字觸軟體進行文相識以纽正麵文字輸出。干立圖。第2圖料說明本發明將影像進行重點裁切之不思圖。由財攝频簡文件村能會 r為了後續比對流程的簡化，本發明會將拍攝到的二，原始拍攝到的影像為PQ1，而經過本發明的則原始衫像？01中不必要的部分(如原始影定義出所裁切的邊界e1#E2,然後工白&域），而 E 更將原七衫像Ρ〇ι根據邊界^與 2進，切，而得到裁切後影像Pci。而影像ρ〇ι〜p〇4在進行後續處王之則，皆會被裁切以形成裁切後影像Pci〜Pa。 7 π參考第3 ®。第3 _、為綱本發縣裁切後影像進行邊緣，處理之示細。為了進行字體的輯，本發明會將裁切後影像進二邊、彖化處理以付出裁切後影像巾字體的邊緣(外框）。如第3圖所二原本裁切後的像為pei，而經過本發明之邊緣化處理後，便成為邊緣化影像卩出。而影像PC%在進行後續處理前，皆會被邊緣化以形成邊緣化影像PE丨〜PE4。 α月參考第4圖。第4圖係為說明本發明之邊緣化處理之示意圖。第4圖係為舉畫素Ρ|ι為例以進行邊緣化處理。畫素ρ〇〇、〜、〜、

Pl0、Ρ"、Pl2、Ρ2〇、P21、Ρ22 ’ 其對應的座標分別為(i-lj-l)、（i-ij)、 (i-lj+l) > (ij.1) . (iJ) , (ij+1) ^ (i+1J1) ^ (i+i ^ (.+i .+1) 〇知在對於畫素P"進行邊緣化歧時，會參考其關的晝素。本發明之邊緣化處理如下式：

Edge(Pn)^Diff(P10,P12)+Diff(p2〇5p〇2)+Diff(p2hP〇^ 其中Diff(Px，PY)為兩點的差異值，此差異值可依據所偏好的色調或特性做調整。例如

Diff(Px，PY)=abs[(Px(G)-PY⑻)x(Py(G)-Px(B)x(P《B)_py(r》]; 其中abs[Z]表示Z的絕對值、ρχ(〇表示畫素X的綠色灰階值、Py(r) 表示畫素Y的紅色灰階值、pY(G)表示畫素γ的綠色灰階值、Ρχ(Β) 表示晝素X的藍色灰階值、PY(R)表示畫素γ的紅色灰階值，且j、 j、X、Y白代表正整數。如此畫素P||在進行邊緣化處理後便可得出邊緣化晝素Edge(Pn) ’意即晝素原本之灰階資料經過邊緣化處理之後’會成為灰階資料Edge(Pn) ’且當pn為彎曲，轉折點或 10/^245 顏色有較大變化時會有較大的灰階值。立。月參考第5圖。第5圖係為說明本發明將邊緣化影像合併之示一圖第5圖中舉邊緣化影像PE1與PK2為例以方便說明。如第5圖所:首先，邊緣化影像h與ρ「:2進行比對，以判斷彼此互相重疊的區域由於攸則述中可得知邊緣化影像^之右側部分影像應會 '、邊、彖化心像卩「:2之左側部分影像重疊，因此，於第圖5中便需比對邊、彖化心像ΡΕ丨與以正確得出二者重叠的部分，然後將重疊部分影像從拍攝順序較後的影像中移除。從第5圖中可看出，在經過比對之後縣化影像PB1與Ρι^彳㈣的區域被躺絲像p〇V。二後::㈣將，影像心中與邊緣化影像〜重疊的影像ρ〇ν移二1Π甓影像P〇V後的邊緣化影像Ρε2與邊緣化影像Pei 進仃連心，而得出連結影像p印邛。㈣。第6 _為綱本發縣辆影像與下一邊緣明。如第6圖所示，首先，連士^像^與&為例以方便說彼此an 丨㈣與〜進行比對，以判斷彼此互相重豐的區域。由於從前述中可得知連結部分影像應會與輕化影像Pe3之左側部分影 =+2)胃 « Ρπ(ι.^ ρ〇3 ^ :將重疊部分影像從拍攝順序較前的影像(P_)㈣姜:像Γ過，連結，啊與轉的_ 像0ν。然後本發明會將連結影像W與邊緣化影像 9 1379245 =重旦疊的影像〜’再將移除重疊影像％後的連結影像&與邊因為攝频織-@ p_) °彻操作上，不會超出V所以蛾(1二:純4_4_ 的比對時，並不需要比對全部

Pe(丨+2)，只要比對完Pr的範圍即可。㈣^考第7圖第7圖係為說明在經過本發明處理影像重疊盘連結後之影像之示意圖。如第7圖所示，經過前述重點裁切、邊緣化、比對與連結的處理後，便可將邊緣化影料1、& w-wm p,(1+2+3+4) 〇 ρε〇+2+3+4)# 旧、ν 4、Ρ,4中彼此互相重疊的部分移除然後連結成一單一像。如此經過本發明處理後的連結影像便可提供 ^ 情況纽。且雜的連結與輸㈣分的連結後的旅.』CR處理是可以同時進行的。例如。在連結影像p料的同時，我們可以從影像PR(_)移走「在通」的影像片段給⑽^ 是與剩下的「話中按」影像連結。在選擇移除範圍時，僅而注思不可切割到最後—張已整合完成圖像的部份。例如在前述 :]子中’從影像P_)移除時，至少要留下〜的部「話中按」的影像。請參考第8圖。第8圖係為說明本發明在進行邊緣化影像匹配比對時先以外觀(shape)匹配比對之示意圖。第8圖中舉邊緣化影像 1379245 ^與pE2為例以方便說明。於第8圖中，邊緣化影像Pm包含三個字體：「在」、「通」以及「話」的左半部，其對應的外觀分別為&、 1與S3 ;邊緣化影像包含三個字體：「通」的右及「中」的左半部，其對應的外觀分別為S4、W &。。而本發」明便可先根據外觀Sl、S2令^6絲略_4外心與外觀匹配、外觀s5與外觀s3匹配，而可粗略估計出邊緣化影像Pei 與p「:2重疊陳度··細_ PE2巾⑽觀S4科觀s5的部分應

與邊緣化影像pm重疊。如此便可先得出—粗略重魏園，以進行後續精確的比對。請參考第9圖。第9圖係為說明本發明對於字體進行特徵㈣職tens㈣匹配比對之示意圖。如同之前邊緣化處理中所述，我們可以·靖差異㈣公絲敎字巾㈣徵點強調出來，意即，予較南或不-樣的灰階值。這些特徵點可能是轉折點、端點。將數個特徵，驗合起來，㈣樣辄ha她⑽㈣，便可將筆劃間相對關係的特徵值也包含進來。「於第9圖中舉字體「話」的右半部「舌」為例，黑點部分表示舌」的特·。這些特徵點_合，包含其間相對關係，變形、一個特徵樣式。若字體A所設置的特徵樣式在字體B上也可以找到’則可判斷體A與B為相同的字體。在經過第8圖的外觀匹配比對之，，所得㈣粗略重疊範圍，本發明將會再進—步進行更精確的特效匹配比對以確定二相鄰邊緣化影像重叠的部分。利用特徵樣 =::::出字體重4的部分’以準確地操取料像= 有與掃描筆有類似的# ra 要讓此裝置句雜的使用板式，我們會讓攝作，意即近拍模式。攝㈣、物件表面運的扭曲現象，加上側面}、^下’周邊的影像容易有輕微 1面先線與物件表面的交互作用，兩張影像雖料從同—個·⑯祕h ㈣a成相鄰的實際上會有些許的差I T 而來，理論上應該相同，但之百的咖Γ ,、〃。因此兩張影像上的同—個字體是不會百分、5 ’且㈣的特徵點的計算與輯能。因此實際上我們是取人理㈣心广…個系統的效對，然後取最小差異的位==吻簡^，的特徵樣式做比在此時不但有加速的功〜兩 D位置。因此外觀匹配的動作速的力此，更能增加整體連接的精確度。字輸出之#】G圖係為本發明將連續影像轉換成連續文子称出之方法之流程圖。步驟說明如下: 、又步驟1001 : i|續接收影像；步驟1002 步驟1〇〇3 步騾Ϊ 004 將所接收的影像進行重點裁切；將經過重點裁切後的影像進行邊緣化處理； ==第:影像與一第二影像進行比對以移除 X &與该第二影像所重疊的影以第三影像；步驟1005 : 像與第二影像連結’以輪出至光學文字辨識权體來進行文字辨識; V45 乂驟祕·触㈣光學文字辨離體辨識後的文字。旦於步驟1004中，第二影像係為第一影像之下一影像。因此第二影像與第—職必定有重疊的部分。換句減，本發明之假設係為建立在兩連續雜有重疊的部分，以此方式才能正_地進行後續連結與文字辨識的流程。於10〇4巾’影像比對係經由前述外觀比對與特徵比對。然而外觀比對的步驟並非為賴，其係縣加速後翻徵比對的速度。拉尤是說’於步驟1004中，可僅執行特徵比對，仍可得出精確勺重:^衫像，以於該第一影像中移除。此外’於本發明中所提及之攝影機，其可設置於可攜式電子装

、（手機筆δ己型電腦等），如此更可方便使用者利用本發明進行對物體的掃描。 X 上所述，彻树鴨提供的綠’使用者可單純利用攝影仃錄影，經過本發明之處理後，便可輸出連續文字，以錄衫邊輸出文字的功效，提供更大的便利性。 Μ上所述僅為本發明之較佳實施例，凡依本發明申請專利範圍做之均等變化與修飾，皆應屬本發明之涵蓋範圍。 13 【圖式簡單說明】第1圖ίτ'為㈣本發縣—攝影機以—方向移糾進行拍攝的示意圖。 =2圖係為說明本發明將影像進行重點裁切之示意圖。，3圖係為說日林發明賴切後影像騎邊緣化纽之示意圖。第4圖係為說明本發明之邊緣化處理之示意圖。 ^ 5圖係為說明本發明將邊緣化影像合併之示意圖。 =6圖係為說明本發明將連結影像與下—邊緣影像合併之示意圖。 =7圖係為朗在經過本發明處理f彡像重#與賴狀影像之示竟圖0 〜 ^ 8圖係為說明本發明在進行邊緣化影像匹對時先以外觀匹配比對之示意圖。 =9圖係為朗本發鴨於字體進行雜匹配比對之示意圖。闻SK、為本發明將連續影像轉換成連續文字輸出之方法之流程圖。【主要元件符號說明】 D丨 P〇> ' P〇2 ' P〇3 > P〇4 Pc, E丨、E2 方向原始影像裁切後影像裁切邊界 1379245

Pei、Pe2、Pe3 邊緣化影像 Pe(1+2) ' P 1-(1+2+3) ' Pl-( 1+2+3+4) 連結影像 P〇0、P〇l、P〇2、P|Q、P|l、Pl2、P20、 ?21、？22 像素 P〇v 重疊影像 Si ' S2 ' S3 ' S4' S5 ' s6 外觀 1001、1002、1003、1004、1005、 1006 步驟 15

Claims

1379245 20丨2年9月21日修正替換其 . 七、申請專利範圍： 1. -種以錄影方式輸出連續文字的方法包含：從一物體轉—第—影像以及-第二影像；將該第1像無第二影像進行邊緣化處理； I 比對該第-影像魅第二影糾取得料―影像無第二影像重璺之一第三影像； _ 將該第三影像從該第二影像中移除以產生-第四影像；將該第四影像與該第一影像連結以產生-第五影像；以及對該第五影像進行光學文字觸啸出料五影像巾之文字； . 其帽該第—輝無帛二1彡像騎邊緣赋理包含： . 將4第—影像與該第二影像之晝素之灰階資料進行如下式之轉換： Edge(P0J))=Diff(P(iJ,)3P(iJ+1))+Diff(P(i^^ I))+Diff(P(i+U+”)，P(i-U-l)); 鲁其中i、j、X、Y表示正整數’ Edge(P(ij))表示晝素p(⑸經過邊緣化處理後之灰階資料；其中 Diff(Px，PY)=abs[(Px(G)-PY(R))x(pY⑼_Ρχ⑻χ(Ρχ(Β)Ργ(剛 ’且abs係為絕對值函數、px(G)表示晝素X的綠色灰階值、 PY(R)表示晝素Y的紅色灰階值、pY(G)表示晝素γ的綠色灰階值、Ρχ(Β)表示晝素X的藍色灰階值、pY(R)表示畫素γ 的紅色灰階值。 16 1379245 2012年9月21日修正替換頁 2. 如請求項1所述之方法，其中從該物體取得該第一影像以及該第二影像包含：以一攝影機，沿一方向，對該物體進行錄影，以取得該第一影像以及該第二影像；其中該第二影像係為該第一影像之下一影像。 3. 如請求項2所述之方法，其中比對該第一影像與該第二影像以取得該第一影像與該第二影像重疊之該第三影像包含：從該第一影像位於該方向之部分與該第二影像位於該方向之反方向之部分開始進行比對，直到找出該第一影像與該第二影像重疊之該第三影像。 4. 如請求項2所述之方法，其中將該第四影像與該第一影像連結以產生該第五影像包含：將該第四影像位於該方向之反方向之部分連結至該第一影像位於該方向之部分。 5. 如請求項3所述之方法，其中比對該第一影像與該第二影像以取得該第一影像與該第二影像重疊之該第三影像另包含：偵測該第一影像與該二影像中文字之特徵以取得該第一影像與該第二影像重疊之該第三影像。 6. 如請求項5所述之方法，其中偵測該第一影像與該二影像中文 17 1379245 2012年9月21日修正替換頁字之特徵以取得該第一影像與該第二影像重疊之該第三影像包含：對該第二影像中之文字尋找其特徵樣式以在該第一影像進行比對搜尋，以取得該第一影像與該第二影像重疊之該第三影像。 7. 如請求項5所述之方法，另包含：偵測該第一影像與該二影像中文字之外觀以取得該第一影像與該第二影像重疊之該第三影像。 8. 如請求項1所述之方法，另包含：將該第一影像與該第二影像進行重點裁切以降低該第一影像與該第二影像之大小。 9. 如請求項8所述之方法，其中將該第一影像與該第二影像進行重點裁切包含：偵測該第一影像與該第二影像屬於非文字之部分；以及將該第一影像與該第二影像所偵測屬於非文字之部分裁切。 18