TWI420404B

TWI420404B - 圖文辨識系統及其使用的圖文辨識方法

Info

Publication number: TWI420404B
Application number: TW099128528A
Authority: TW
Inventors: Chun Chieh Huang; Wen Hung Liao; Hsin Yi Huang
Original assignee: Funwish Co
Priority date: 2010-03-29
Filing date: 2010-03-29
Publication date: 2013-12-21
Also published as: TW201133359A; US20110294522A1

Description

圖文辨識系統及其使用的圖文辨識方法

本發明係與文字辨識有關，特別有關於從圖片中辨識出文字內容之圖文辨識系統及方法。

近來，為因應國際化的趨勢，世界各國對於外文能力的學習逐漸重視，而其中除了英文貴為國際語言之外，即屬中文的學習最受到矚目。

為能順利滿足使用者隨時隨地進行查詢及學習之目的，除了字典及電子翻譯機之外，許多手持式電子裝置，例如行動電話，更具備有光學文字辨識(Optical Character Recognition,OCR)功能，係令使用者更方便於外文之查詢及學習。

於學習英文時，係可透過實體字典之查詢，或將英文單字輸入電子翻譯機或電腦中進行查找。再者，亦可透過OCR功能直接掃描文件檔案(例如實體課本)上之英文單字，藉以進行資料庫之搜尋後呈現給使用者。然而，英文單字係直接由複數英文字母所拼揍而成，且英文字母僅有26個，因此目前市面上之電子裝置，誠如行動電話、電子翻譯機及筆記型電腦等之按鍵，皆具有對應至英文字母之輸入設定。對使用者而言，即使不認識英文字母，亦可直接看著目標物上的英文字母，對照按鍵上的提示文字逐一輸入翻譯機中查找。但中文字的組成不如英文單字這般單純，即使使用者認識所有的注音符號，但對於不會唸的中文字，仍然沒有辦法輸入至翻譯機中。再者，對於慣用中文之人所使用的輸入法，例如大易輸入法或倉頡輸入法等，對於不懂中文的人來說實更為難以使用。

雖然目前市面上有許多手持式電子裝置已具備有OCR功能，但常見者，皆仍以辨識如書本、傳單或名片上之印刷體文字為主，對於手寫體的文字來說並不適用。再者，雖然少部分OCR功能已經可以進行手寫體文字的辨識，但仍限於英文為主。中文字不但結構複雜、書寫困難，並且每個人的書寫習慣不一，再加上簡、繁體的交錯使用，實令手寫體文字辨識工程極為艱難。

惟，以台灣為例，許多具有地方文化特色的地點皆會看到手寫體的文字(如附件一所示之廟宇牌坊及附件二所示之小吃攤招牌等)。如此一來，當不認識中文的外國人來到此處遊玩時，並無法透過字典來查詢。再者，因為不會使用上述之中文輸入法，所以亦無法使用電子翻譯機或電腦來對該些文字進行查詢，也就無法達成學習的目的。

綜上所述，若非具備強大的比對資料庫，則中文字(尤其手寫體之中文字)之辨識係可謂非常困難。再者，即使具有資料相當豐富之比對資料庫，亦將使得辨識所需之執行時間非常之冗長，不適於即時查詢使用。因此，還必須搭配其他之特徵一併進行，藉以縮短比對辨識之時間，才能夠令中文辨識的可行性更高，令使用者更為容易接受。

本發明之主要目的，在於提供一種圖文辨識系統及其使用的圖文辨識方法，係由使用者擷取一目標物之圖像，並對使用者所在之位置進行定位，藉以參考使用者之位置資訊後，迅速且正確地辨識出圖像中之文字所代表的文字內容。

為達上述目的，本發明的圖文辨識系統主要包括：一手持式電子裝置、一地域感應系統及一後端伺服器系統。手持式電子裝置用以擷取一目標物之圖像並產生一擷取圖像；地域感應系統用以取得手持式電子裝置所在地之位置資訊；後端伺服器系統用以透過網際網路接收擷取圖像及位置資訊，藉以進行圖文辨識動作。

本發明相較於先前技術所達成之功效在於，可於手持式電子裝置所擷取之圖像中找出屬於文字的部分，並且據以辨識出其所代表之文字內容。並且，透過參考手持式電子裝置所在地的位置資訊，可於辨識時，過濾不會在該所在地出現，因而無需進行比對之字詞。藉以，減少比對分析之時間，提高辨識動作之執行速度，並且提昇辨識結果的準確性。進而，本發明之系統與方法不但可成功辨識出印刷體的中文文字，更可進一步地辨識出手寫體之中文文字，對於學習中文具有高度熱忱與興趣之人而言，具有莫大的助益。

能夠更加詳盡的了解本發明之特點與技術內容，請參閱以下所述之說明及附圖，然而所附圖示僅供參考說明之用，非用來加以限制者。

首請參閱第一圖，為本發明之一較佳具體實施例之系統架構圖，如圖所示，本發明的圖文辨識系統主要具有一手持式電子裝置1(下面將簡稱該電子裝置1)、一地域感應系統2及一後端伺服器系統3。該電子裝置1用以對一目標物4進行影像之擷取(例如以相機進行拍照動作)，構成一擷取圖像41(如第五圖A中所示)。該地域感應系統2用以取得該電子裝置1所在地之一位置資訊PI(如第三圖所示)，而該後端伺服器系統3用以透過網際網路接收該擷取圖像41及該位置資訊PI，藉以進行分析比對，辨識出使用者所需之文字內容資訊WI(如第三圖所示)，並以字義解釋、翻譯或情境學習等方式令使用者得以進行學習。

接續請參閱第二圖，為本發明之一較佳具體實施例之方塊圖。該電子裝置1主要包括一影像擷取模組11、一顯示螢幕12、一中央處理單元13、一定位模組14及一無線通訊模組15。該影像擷取模組11電性連接該中央處理單元13，用以擷取第一圖中的該目標物4之影像，產生第五圖A中的該擷取圖像41並傳送至該中央處理單元13進行處理。該顯示螢幕12電性連接該中央處理單元13，用以顯示該擷取圖像41以供使用者瀏覽。其中該影像擷取模組11係可為一電荷耦合元件(Charge Coupled Device,CCD)或一互補金氧半導體(Complementary Metal Oxide Semiconductor,CMOS)，但並不加以限定。

該定位模組14電性連接該中央處理單元13，用以對該地域感應系統2發出請求，接收該地域感應系統2所回傳之該位置資訊PI(如第三圖所示)並傳送至該中央處理單元13進行處理。該無線通訊模組15電性連接該中央處理單元13，用以透過網際網路與該後端伺服器系統3建立連接，將該擷取圖片41及該位置資訊P1傳送至該後端伺服器系統3進行比對分析，並接收該後端伺服器系統3所回傳之資料。該電子裝置1更可包括一揚聲器16，電性連接該中央處理單元13，用以與該顯示螢幕12共同播放及顯示該後端伺服器系統3所回傳之資料。

該地域感應系統2用以對該電子裝置1進行定位服務，主要可為一全球定位系統(Global Positional System,GPS)的衛星21。再者，若該電子裝置1為一行動電話，則該地域感應系統2更可為一定位服務(Location-Based Service,LBS)系統22。主要係於接收該定位模組14之請求後，對該電子裝置1進行定位動作，產生該位置資訊PI並回傳給該電子裝置1。再者，該地域感應系統2亦可於該電子裝置1開機或執行辨識動作時自動進行定位，係可視使用者之設定而變化。值得一提的是，本發明之圖文辨識系統亦可不經過該地域感應系統2之定位，而僅直接將該擷取圖片41傳送至該後端伺服器系統3進行比對分析，不應加以限定。如此一來，即使該電子裝置1不具備有GPS或LBS之定位功能，亦可運用本發明之技術來進行圖文辨識動作。

該後端伺服器系統3主要包括一無線通訊伺服器31、一資料處理伺服器32、一辨識伺服器33及一資料庫34。該無線通訊伺服器31係透過網際網路與該無線通訊模組15連接，接收該擷取圖像41及該位置資訊PI。該資料處理伺服器32連接該無線通訊伺服器31，自該無線通訊伺服器31接收該擷取圖像41及該位置資訊PI，並對該擷取圖像41進行切割。主要係刪除該擷取圖像41中之圖像背景部分，並保留該擷取圖像41中之至少一圖像文字43(如第五圖D所示)。其中，若該擷取圖像41中具有複數之文字特徵，則該資料處理伺服器32將切割並保留複數之該圖像文字43，其中每一該圖像文字43皆分別代表一個待辨識之文字。例如第五圖D中所示者，一第一圖像文字431代表文字「行」、一第二圖像文字432代表文字「天」而一第三圖像文字433代表文字「宮」。

值得一提的是，使用者使用該電子裝置1來擷取影像之方式，將影響該圖像文字43於該擷取圖像41中之大小、形狀及位置，然此係屬事前無法確定之變數。因此，為令該後端伺服器系統3能順利進行比對分析並提昇辨識動作之執行速度，係可令使用者於該電子裝置1上先行對該擷取圖像41進行文字部位之選取動作。例如，該電子裝置1中之該顯示螢幕12可為一觸控式顯示螢幕12，藉以，使用者可直接觸碰該顯示螢幕12，針對欲進行辨識之文字部位進行選取，藉以產生一選取圖像42(如第五圖B中所示)後再傳送至該後端伺服器系統3進行辨識。再者，該電子裝置1亦可包括電性連接至該中央處理單元13之一輸入模組17，例如為複數之操控按鍵，藉以，透過該輸入模組17之操控，對顯示於該顯示螢幕12上之該擷取圖像41進行文字部位之選取並產生該選取圖像42。

如上所述，主要係先透過使用者之操控，刪除該擷取圖像41中屬於圖像背景的部分，藉以提昇該後端伺服器系統3之辨識速度。惟，該電子裝置1係傳送原始之該擷取圖像41或裁切後之該選取圖像42至該後端伺服器系統3進行辨識，實應視實際使用狀況而定，不應加以限定。

接續請同時參考第三圖，為本發明之一較佳具體實施例之資料庫示意圖。該辨識伺服器33連接該無線通訊伺服器31、該資料處理伺服器32及該資料庫34，係自該資料處理伺服器32接收該圖像文字43及該位置資訊PI，藉以將該圖像文字43與該資料庫34中之比對資料D1進行比對分析，辨識出該圖像文字43所代表之該文字內容資訊WI。其中，該辨識伺服器33可直接連接該無線通訊伺服器31，或通過一情境學習伺服器35連接該無線通訊伺服器31(容後詳述)，不加以限定。

文字的變化例如位移、旋轉、縮放以及書寫之樣式(例如印刷體或手寫體)等參數，並不會影響正常人類以肉眼來辨識。惟，若欲交由電腦伺服器來進行辨識，則必須事先讓伺服器知道該一文字經過某些變化之後，所代表的意義與原始之該文字係為等價的。因而，該資料庫34中除了需存放大量之該比對資料D1(例如為中文文字)外，還需將該些比對資料D1經過各種形變後之情況一一列舉。藉以，無論該圖像文字43與原始之文字差異有多大，皆可經由該辨識伺服器33之比對分析而辨識出來。因此，該資料庫34必須與相關之專業人士互相配合，存入極盡豐富之該比對資料D1。然而該資料庫34中之資料愈完備，辨識所需之執行時間即愈長，故，如何透過有效之方式過濾不需比對之資料，減少辨識時間而又不會影響辨識結果之正確性，即成為本發明之關鍵所在。

如上所述，為提昇辨識之執行時間，該辨識伺服器33係透過該位置資訊PI之參考，過濾該資料庫34中之該比對資料D1。例如，若該圖像文字43為複數手寫體中文字「電」、「影」及「院」(圖未標示)，但因書寫不清致該辨識伺服器33無法明確辨識出係為中文字「電」或「雷」時，若該辨識伺服器33參考該位置資訊PI發現該電子裝置1係位於電影院中，則可於該資料庫34中過濾掉中文字「雷」，得到該文字內容資訊WI為中文字「電」之結果。惟，以上所述僅為舉例說明，不應以此為限。

最後，於該辨識伺服器33辨識完成後，透過該無線通訊伺服器31將該文字內容資訊WI回傳至該電子裝置1做進一步之運用，例如字義解釋、翻譯、發音或上網搜尋等。

該後端伺服器系統3係更可包括如第二圖中所示的該情境學習伺服器35，連接該無線通訊伺服器31、該辨識伺服器33及該資料庫34。該情境學習伺服器35係自該辨識伺服器33接收該文字內容資訊WI及該位置資訊PI，並藉以於該資料庫34中選擇符合之一情境學習資訊LI。該情境學習資訊LI主要可為一文字情境學習資訊LI1、一語音情境學習資訊LI2或一動畫情境學習資訊LI3等，視使用者之需求而定，不加以限制。例如，若透過該文字內容資訊WI及該位置資訊PI顯示出該電子裝置1所在地係為「行天宮」時，則可回傳關於台灣寺廟文化之該文字情境學習資訊LI1、該語音情境學習資訊LI2或該動畫情境學習資訊LI3至該電子裝置1。該電子裝置1係於接收後，透過該顯示螢幕12及該揚聲器16顯示及播放，使用者不但可達到文字查詢之目的，更可進一步得到相關之學習資訊。

該後端伺服器系統3更可包括一語料庫36，電性連接該情境學習伺服器35，係為一種儲存有豐富詞語參考資料D2之資料庫。該情境學習伺服器35依據該位置資訊PI，配合常用字詞統計及出現機率統計等統計數據，使用該語料庫36中建議之該詞語參考資料D2，藉以更精確地取用該情境學習資訊LI。例如，若該辨識伺服器33辨識出該文字內容資訊WI的其中之一為文字「電」，且該電子裝置1位於電影院中，則依據該些統計數據，該文字內容資訊WI較可能為「電影」。再者，若該電子裝置1位於一般道路，則依據該些統計數據，該文字內容資訊WI較可能為「電線」。更甚者，若該電子裝置1位於飯店，則依據該些統計數據，該文字內容資訊WI為「電話」、「電燈」或「電腦」等文字之機率較高。

續請參閱第四圖，為本發明之一較佳具體實施例之流程圖，並請同時參閱第五圖A至第五圖D，為本發明之一較佳具體實施例之辨識動作分析圖。首先，如第五圖A所示，使用者係透過該電子裝置1擷取如第一圖中的該目標物4之影像，藉以產生該擷取圖像41(步驟S50)。接著，如第五圖B所示，使用者透過觸控式之該顯示螢幕12或該輸入模組17，對該擷取圖像41進行文字部位之選取，產生如第五圖C所示之該選取圖像42(步驟S52)。其中，使用者實可自行決定要選取該選取圖像42，或直接以該擷取圖像41進行後續之圖文辨識動作。

接著，該電子裝置1係透過該定位模組14，請求該地域感應系統2(即，該GPS衛星21或該LBS系統22)進行定位(步驟S54)，並且，取得該電子裝置1所在地之該位置資訊PI(步驟S56)。接著，該電子裝置1將該位置資訊PI，以及該擷取圖像41或該選取圖像42傳送至該後端伺服器系統3(步驟S58)。接著如第五圖D中所示，該後端伺服器系統3係透過該資料處理伺服器32對該擷取圖像41或該選取圖像42進行切割，除去屬於圖像背景之部分，並產生至少一該圖像文字43(步驟S60)。接著，該辨識伺服器33依據該圖像文字43及該位置資訊PI，與該資料庫34中之該比對資料D1分析比對，進行文字辨識(步驟S62)。並且，於辨識後得到該圖像文字43所代表之該文字內容資訊WI(步驟S64)。

於該文字內容資訊WI被辨識確定後，係藉由該情境學習伺服器35，依據該文字內容資訊WI及該位置資訊PI選擇符合之該情境學習資訊LI(步驟S66)。最後，將該所選擇之情境學習資訊LI回傳至該電子裝置1(步驟S68)，並且透過該電子裝置1中之該顯示螢幕12及該揚聲器16顯示及播放(步驟S70)。藉以，使用者可得到欲辨識之文字內容，依據文字內容得到字義解釋或翻譯，並且還可透過該情境學習資訊LI進行相關知識的學習。

以上所述者，僅為本創作之一較佳實施例之具體說明，非用以侷限本創作之專利範圍，其他任何等效變換均應俱屬後述之申請專利範圍內。

1．．．手持式電子裝置

11．．．影像擷取模組

12．．．顯示螢幕

13．．．中央處理單元

14．．．定位模組

15．．．無線通訊模組

16．．．揚聲器

17．．．輸入模組

2．．．地域感應系統

21．．．全球定位系統衛星

22．．．定位服務系統

3．．．後端伺服器系統

31．．．無線通訊伺服器

32．．．資料處理伺服器

33．．．辨識伺服器

34．．．資料庫

35．．．情境學習伺服器

36．．．語料庫

4．．．目標物

41．．．擷取圖像

42．．．選取圖像

43．．．圖像文字

431．．．第一圖像文字

432．．．第二圖像文字

433．．．第三圖像文字

WI．．．文字內容資訊

PI．．．位置資訊

LI．．．情境學習資訊

LI1．．．文字情境學習資訊

LI2．．．語音情境學習資訊

LI3．．．動畫情境學習資訊

D1．．．比對資料

D2．．．詞語參考資料

S50~S70．．．步驟

第一圖係為本發明之一較佳具體實施例之系統架構圖。

第二圖係為本發明之一較佳具體實施例之方塊圖。

第三圖係為本發明之一較佳具體實施例之資料庫示意圖

第四圖係為本發明之一較佳具體實施例之流程圖。

第五圖A至第五圖D係為本發明之一較佳具體實施例之辨識動作分析圖。