TWI685795B

TWI685795B - 資訊識別方法及裝置

Info

Publication number: TWI685795B
Application number: TW104113713A
Authority: TW
Inventors: 張宇
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2014-11-06
Filing date: 2015-04-29
Publication date: 2020-02-21
Also published as: TW201617971A; WO2016073503A1; US10346703B2; CN105631393A; US20160132739A1

Abstract

本發明提供一種資訊識別方法及裝置，包括：獲取待識別物件的圖像；通過對所述圖像的內容進行版面分析，提取所述圖像中的文字區域塊；識別所述文字區域塊中的關鍵文字行的文字資訊。通過本發明的技術方案，可以提升對圖像中的文字資訊的識別效率。

Description

資訊識別方法及裝置

本發明係關於資訊識別技術領域，尤其係關於資訊識別方法及裝置。

OCR(Optical Character Recognition，光學字元辨識)技術已經被廣泛應用於文字資訊的自動化識別。在相關技術中，用戶希望基於OCR技術實現對圖像資訊的識別，並對識別出的文字資訊進行自動錄入；具體地，用戶通過拍攝或掃描的方式獲取待識別物件的圖像，然後通過OCR技術識別出圖像中的文字資訊後，對該文字資訊進行錄入。

本發明提供一種資訊識別方法及裝置，可以提升對圖像中的文字資訊的識別效率。

為實現上述目的，本發明提供技術方案如下：根據本發明的第一方面，提出了一種資訊識別方法，包括：獲取待識別物件的圖像；通過對所述圖像的內容進行版面分析，提取所述圖像中的文字區域塊；識別所述文字區域塊中的關鍵文字行的文字資訊。

根據本發明的第二方面，提出了一種資訊識別裝置，包括：獲取單元，獲取待識別物件的圖像；提取單元，通過對所述圖像的內容進行版面分析，提取所述圖像中的文字區域塊；識別單元，識別所述文字區域塊中的關鍵文字行的文字資訊。

由以上技術方案可見，本發明通過在文字區域塊內進一步確定出關鍵文字行，並僅對關鍵文字行的資訊進行識別和記錄，從而極大地提升了對待識別物件的識別效率。

圖1是根據本發明一示例性實施例的一種資訊識別方法的流程圖；圖2是根據本發明一示例性實施例的另一種資訊識別方法的流程圖；圖3-6是根據本發明一示例性實施例的介面顯示內容的示意圖；圖7是根據本發明一示例性實施例的另一種資訊識別方法的流程圖；圖8是根據本發明一示例性實施例的介面顯示內容的示意圖；圖9是根據本發明一示例性實施例的一種電子設備的結構示意圖；圖10是根據本發明一示例性實施例的一種資訊識別裝置的框圖。

為對本發明進行進一步說明，提供下列實施例：

請參考圖1，圖1是根據本發明一示例性實施例的一種資訊識別方法的流程圖，該方法可以包括下述步驟：

步驟102，獲取待識別物件的圖像；在本實施例中，作為一示例性實施方式，可以對待識別物件採用“拍攝”的方式，具體比如通過照相機或配置有拍照功能的移動設備(比如手機、平板設備等)，獲取該待識別物件的圖像；作為另一示例性實施方式，可以對待識別物件採用“掃描”的方式，比如通過掃描器，獲取該待識別物件的圖像。

步驟104，通過對所述圖像的內容進行版面分析，提取所述圖像中的文字區域塊；在本實施例中，通過對圖像的版面分析，可以確定出圖像中的文字區域塊，並得到每個文字區域塊的文字排列方向、字體類型等屬性，還可以對不同文字區域塊之間進行排序，以便於對各文字區域塊進行依次連續處理。

其中，本領域技術人員應該理解的是，除了本發明所需要處理的文字區域塊之外，通過版面分析還可以劃分出其他類型的區域塊，比如圖形圖像、表格等，本發明對此並不限制。

步驟106，識別所述文字區域塊中的關鍵文字行的文字資訊。

在本實施例中，待識別物件可能包含很多文字資訊，關鍵文字行的資訊即用戶感興趣的文字資訊。由於待識別物件包含的文字信息量較大，如果僅在整體層面上採用OCR技術，則識別效果必然較差，甚至可能由於無法識別或出錯，反而降低了處理效率，難以滿足用戶需求；或者，如果採用更為精細的OCR識別操作，則需要消耗較長的處理時間。

在本實施例中，預設物件可以對識別出的關鍵文字行的資訊執行任意操作，比如儲存、錄入預設表格、搜索等，可以根據用戶的實際需求確定。

由上述實施例可知，本發明通過選擇出用戶感興趣的關鍵文字行，並僅對關鍵文字行的資訊進行識別和記錄，可以在短時間內對關鍵文字行的資訊實現更為精細的OCR識別操作，而無需對其他文字資訊進行識別，從而能夠提升對待識別物件的識別效率和準確率。

圖2是根據本發明一示例性實施例的另一種資訊識別方法的流程圖。如圖2所示，該方法可以包括下述步驟：

步驟202，拍攝待識別物件的圖像。

在本實施例中，待識別物件可以為任意形式的物體，比如指示牌、包裝盒、文稿等，只要其中包含可以通過OCR技術進行識別的文字資訊即可。作為一示例性實施例，下面以“票據”為例，對本發明的技術方案進行詳細描述，該票據具體可以為機打發票。

步驟204，對圖像中的顯示內容進行傾斜校正。

在本實施例中，由於拍攝角度等問題，使得圖像中的文字行與圖像的邊緣不平行(或垂直)，比如圖3所示，當待識別物件為機打發票時，拍攝得到的圖像可能為圖3(a)所示，而這可能對後續的版面分析、單行分割等處理過程不利，因而需要對其進行傾斜校正；而傾斜校正完成後，可使得到的圖像中的文字行與圖像的邊緣平行(或垂直)，比如由圖3(a)所示的圖像校正為圖3(b)所示的情形。

在本實施例中，可以採用如下方式來檢測圖像中文字行的傾斜角度：基於霍夫變換(Hough Transform)的方法、基於交叉線性的方法、基於投影的方法、基於傅裡葉變換(Fourier Transform)的方法和K最近鄰簇方法；當然，本領域技術人員應該理解的是，也可以採用其他方式實現傾斜角度的檢測，本發明對此並不限制。

步驟206，對待識別物件的圖像進行版面分析。

在本實施例中，通過版面分析可以將圖像劃分為多個區域塊，並記錄下每個區域塊的自身的屬性(如橫排的文字、豎排的文字、圖形圖像以及表格等等)和區域字體類型(簡體中文、繁體中文、純英文等類型)，而且標明不同區域塊之間的順序，以便於後續的處理和識別操作。

其中，區域塊的類型可以包括文字區域塊、圖像區域塊、表格區域塊等；當用戶僅對文字區域塊感興趣時，可以僅識別出其中的文字區域塊。比如圖4示出了一示例性實施例的版面分析結果，示出了區域塊1、區域塊2等共六個文字區域塊。

步驟208，基於版面分析的結果，展示提取的文字區域塊。具體地，比如採用圖4所示的形式，通過虛線框、標示性文字等對各個文字區域塊進行標記和展示。

步驟210，根據用戶選擇操作，確定文字區域塊內的關鍵文字行。

在本實施例中，針對圖1所示步驟106中需要識別的關鍵文字行，可以由用戶進行手動選擇，以滿足不同用戶或同一用戶在不同情況下的實際需求。

在本實施例中，用戶可以通過多種方式實現選擇操作。比如作為一示例性實施方式，選擇操作可以為點擊操作，則通過獲取該點擊操作對應的點擊位置，可以將該點擊位置對應的文字行作為關鍵文字行。譬如圖5所示，當對圖像進行OCR識別操作的設備支援觸摸操作時(比如通過智慧手機對機打發票進行識別)，用戶可以直接通過手指在觸控式螢幕幕上點擊，假定點擊位置為圖5所示的“收款單位”處，則可以將該點擊位置對應的“收款單位：XX科技有限公司”作為關鍵文字行；或者，當上述設備為電腦或支援OTG(On-The-Go)技術的移動設備時，用戶可以通過滑鼠(或其他外設)在該設備上生成游標，並通過按下滑鼠上的案件，對設備螢幕上的游標所處位置進行點擊操作，比如點擊位置為圖5所示的“2014-9-28”處，則可以將該點擊位置對應的“開票日期：2014-9-28”作為關鍵文字行。

作為另一示例性實施方式，選擇操作也可以為框選操作，則通過獲取該框選操作對應的框選區域，可以將位於該框選區域內的文字行作為關鍵文字行。譬如圖5所示，用戶可以通過手指(若設備支援觸摸顯示操作)或滑鼠游標(圖5中未示出滑鼠游標的情形)在圖像上滑動，則相應的滑動軌跡在圖像上形成封閉圖形(比如圖5下方虛線框對應的圓角矩形)，即可將該封閉圖形對應的文字行作為關鍵文字行。

步驟212，識別並展示關鍵文字行的資訊。

在本實施例中，對關鍵文字行的資訊進行識別時，主要包括“單字分割”與“文字識別”等操作步驟。當然，由於字間或字內的粘連等可能影響分割的精度，所以通常“單字分割”和“文字識別”不是完全順序的兩個環節。其中，對於“單字分割”，最簡單的方法就是利用垂直投影間隔，不過通常票據中的字間隔相對小，而有些左右結構的字的左右兩部分的間隔已經比較大，因此利用投影資訊室很難較好地區分單字，所以可以首先提取行的所有連通域，然後上下位置連通域合併，最後通過不斷的嘗試左右分割點位置和統計識別結果來得到最終的識別結果。

在本實施例中，作為一示例性實施方式，可以採用圖6(a)所示的方式，將設備通過OCR技術自動識別的關鍵文字行的資訊以“識別內容”視窗的形式呈現給用戶，從而一方面可以向用戶告知“已完成”的消息，另一方面由於OCR識別操作可能存在誤差甚至錯誤，可以由用戶對設備的自動化識別結果進行檢查和修正。

步驟214，根據用戶修正操作，對展示的關鍵文字行的資訊進行修正。

在本實施例中，以圖6為例，假定設備展示的關鍵文字行的資訊為圖6(a)所示的“收款單位：XX抖技有限公司”、“開票日期：2014-9-28”等，則用戶認為無誤時，可以直接選擇“確認”按鈕，從而由設備對展示的關鍵文字行的資訊進行記錄；或者，當用戶認為內容有誤時，比如用戶發現設備誤將“科技”識別為了類似的“抖技”，則可以對其進行修正。

作為一示例性實施例，可以在每個關鍵文字行的資訊後方生成圖6(a)所示的“鉛筆”圖示，示意用戶可以對相應的資訊進行“編輯”，比如當用戶點擊“收款單位：XX抖技有限公司”後方的“鉛筆”圖示時，顯示出圖6(b)所示的“內容修正”視窗，則用戶可以將“收款單位：XX抖技有限公司”修正為“收款單位：XX科技有限公司”。

步驟216，記錄修正後的展示資訊。

在本實施例中，當用戶對展示資訊完成修正後，得到圖6(c)所示的修正後的“識別內容”視窗，此時用戶還可以進一步對其他展示資訊進行修正；或者，當用戶認為所有的展示內容均無誤時，可以選擇“確認”按鈕，由設備對修正後的展示內容(應該理解為包括實際上被修正的“收款單位：XX科技有限公司”文字行，以及實際上未被修正的“開票日期：2014-9-28”等文字行)進行記錄。

在本實施例中，設備可以記錄用戶的修正行為，則在後續的識別過程中，可以避免再次出現類似的識別錯誤，有助於提升識別的準確率。

在上述實施例中，基於用戶的簡單交互輔助，設備只需對圖像中的關鍵文字行進行識別和記錄，通過降低需要識別的信息量，提升OCR識別效率；同時，由於需要識別的信息量較少，使得設備可以在短時間內採用更為精細的識別技術，以提升識別的準確度。

圖7是根據本發明一示例性實施例的另一種資訊識別方法的流程圖。如圖7所示，該方法可以包括下述步驟：

步驟702，掃描得到待識別物件的圖像。

步驟704，對掃描得到的圖像進行傾斜校正。

步驟706，對待識別物件的圖像進行版面分析，得到如圖4所示的文字區域塊。

步驟708，調取預設的關鍵字庫。

在本實施例中，當用戶通過安裝和運行相應的APP 後，實現基於本發明的技術方案的應用功能時，該APP的安裝檔中可以包含該關鍵字庫；或者，可以在運行該APP後，由該APP從伺服器下載該關鍵字庫；或者，用戶可以根據自身的實際需求，建立關鍵字庫，或對已有的關鍵字庫進行編輯。

步驟710，根據關鍵字庫，確定關鍵文字行，比如可以將包含關鍵字庫中的關鍵字的文字行確定為關鍵文字行。

在本實施例中，針對圖1所示步驟106中需要識別的關鍵文字行，區別於圖2所示步驟210中由用戶手動確定關鍵文字行，可以根據預先建立的關鍵字庫，由電腦自動選取關鍵文字行，從而有助於減少用戶操作量，提高選取關鍵文字行的自動化程度和操作效率。

在本實施例中，假定用戶需要通過對機打發票的識別實現“記帳”功能，則感興趣的往往是交易方名稱、時間、金額等，因而相應的關鍵字可以為“單位”、“日期”、“合計”等。

所以，基於關鍵字庫，設備可以將“收款單位：XX科技有限公司”、“開票日期：2014-9-28”、“小寫合計：7156.00”、“大寫合計：柒仟壹佰伍拾陸元零分”等作為關鍵文字行。

步驟712，展示關鍵文字行的資訊。

在本實施例中，可以通過如圖8所示的方式，對識別出的關鍵文字行的資訊展示於設備螢幕上。

步驟714，根據用戶操作，對展示資訊進行修正。

在本實施例中，對展示資訊的修正可以理解為：

一方面，確定被正確識別出的關鍵文字行，和/或被誤識別為關鍵文字行的一般文字行。比如圖8所示，如果用戶認為電腦自動識別出的“收款單位：XX抖技有限公司”和“開票日期：2014-9-28”等均為自己確實感興趣的關鍵文字行，則可以直接點擊“確認”按鈕；如果用戶認為某個文字行實際上並非自己感興趣的文字行，而被電腦誤識別為關鍵文字行，比如對於“開票日期：2014-9-28”，則用戶可以點擊顯示於該文字行後方的“垃圾桶”按鈕，則該文字行的內容從當前介面中刪除，並且被記錄為一般文字行。

另一方面，類似於圖2所示的步驟214和圖6所示內容，用戶可以對圖8中“識別內容”視窗內的資訊進行編輯，比如通過點擊“收款單位：XX抖技有限公司”後方的“鉛筆”圖示，將“收款單位：XX抖技有限公司”修正為“收款單位：XX科技有限公司”。

步驟716，記錄修正後的展示資訊。

在本實施例中，在用戶完成對圖8展示的關鍵文字行的修正後，可以通過點擊“確認”按鈕，由設備對相應的關鍵文字行的資訊進行記錄。

步驟718，根據用戶選擇操作，記錄未識別出的關鍵文字行的資訊。

在本實施例中，如果存在用戶感興趣的資訊，但未被設備自動識別為關鍵文字行，則用戶可以通過點擊圖8所示的“添加”按鈕，並結合圖2中的步驟210的方式，基於簡單用戶交互來輔助對關鍵文字行的識別。

在上述實施例中，通過預設關鍵字庫，可以由設備自動識別出關鍵文字行，則設備只需對圖像中的關鍵文字行進行識別和記錄，通過降低需要識別的信息量，提升OCR識別效率；同時，由於需要識別的信息量較少，使得設備可以在短時間內採用更為精細的識別技術，以提升識別的準確度。

同時，通過結合預設關鍵字庫和用戶的簡單交互輔助，比如首先通過關鍵字庫選擇出可能的關鍵文字行，然後基於用戶操作進行確認、修正或添加，以提升對關鍵文字行的識別準確率。

圖9示出了根據本發明的一示例性實施例的電子設備的示意結構圖。請參考圖9，在硬體層面，該電子設備包括處理器、內部匯流排、網路介面、記憶體以及非易失性記憶體，當然還可能包括其他業務所需要的硬體。處理器從非易失性記憶體中讀取對應的電腦程式到記憶體中然後運行，在邏輯層面上形成資訊識別裝置。當然，除了軟體實現方式之外，本發明並不排除其他實現方式，比如邏輯器件抑或軟硬體結合的方式等等，也就是說以下處理流程的執行主體並不限定於各個邏輯單元，也可以是硬體或邏輯器件。

請參考圖10，在軟體實施方式中，該資訊識別裝置可以包括獲取單元、提取單元和識別單元。其中：獲取單元，獲取待識別物件的圖像；提取單元，通過對所述圖像的內容進行版面分析，提取所述圖像中的文字區域塊；識別單元，識別所述文字區域塊中的關鍵文字行的文字資訊。

可選的，還包括：第一展示單元，展示提取的所述文字區域塊；第一確定單元，根據檢測到的用戶在所述文字區域塊中的第一選擇操作，確定所述關鍵文字行。

可選的，所述確定單元具體用於：所述第一選擇操作為點擊操作時，獲取所述點擊操作對應的點擊位置，並將所述點擊位置對應的文字行作為所述關鍵文字行；或者所述第一選擇操作為框選操作時，獲取所述框選操作對應的框選區域，並將位於所述框選區域內的文字行作為所述關鍵文字行。

可選的，還包括：調取單元，調取預設的關鍵字庫；第二確定單元，將包含所述關鍵字庫中的關鍵字的文字行確定為所述關鍵文字行。

可選的，還包括：第二展示單元，展示識別出的關鍵文字行；第三確定單元，根據檢測到的用戶針對展示出的關鍵文字行的第二選擇操作，確定被正確識別出的關鍵文字行，和/或被誤識別為所述關鍵文字行的一般文字行。

可選的，還包括：第三展示單元，展示識別出的所述關鍵文字行的文字資訊；修正單元，檢測用戶對展示的文字資訊的修正操作，並將修正後的資訊記錄為所述關鍵文字行的文字資訊。

可選的，所述待識別物件包括票據。

因此，本發明通過在文字區域塊內進一步確定出關鍵文字行，並僅對關鍵文字行的資訊進行識別和記錄，從而極大地提升了對待識別物件的識別效率。

在一個典型的配置中，計算設備包括一個或多個處理器(CPU)、輸入/輸出介面、網路介面和記憶體。

記憶體可能包括電腦可讀介質中的非永久性記憶體，隨機存取記憶體(RAM)和/或非易失性記憶體等形式，如唯讀記憶體(ROM)或快閃記憶體(flash RAM)。記憶體是電腦可讀介質的示例。

電腦可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現資訊儲存。資訊可以是電腦可讀指令、資料結構、程式的模組或其他資料。電腦的儲存介質的例子包括，但不限於相變記憶體(PRAM)、靜態隨機存取記憶體(SRAM)、動態隨機存取記憶體(DRAM)、其他類型的隨機存取記憶體(RAM)、唯讀記憶體(ROM)、電可擦除可程式設計唯讀記憶體 (EEPROM)、快閃記憶體或其他記憶體技術、唯讀光碟唯讀記憶體(CD-ROM)、數位多功能光碟(DVD)或其他光學儲存、磁盒式磁帶，磁帶磁磁片儲存或其他磁性存放裝置或任何其他非傳輸介質，可用於儲存可以被計算設備存取的資訊。按照本文中的界定，電腦可讀介質不包括暫存電腦可讀媒體(transitory media)，如調製的資料信號和載波。

還需要說明的是，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個......”限定的要素，並不排除在包括所述要素的過程、方法、商品或者設備中還存在另外的相同要素。

以上所述僅為本發明的較佳實施例而已，並不用以限制本發明，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明保護的範圍之內。

Claims

一種資訊識別方法，包括：獲取待識別物件的圖像；通過對所述圖像的內容進行版面分析以將所述圖像劃分為多個區域塊，並標明不同區域塊之間的排序；基於版面分析的結果，依序提取所述圖像中的所述文字區域塊；確定所述文字區域塊中的關鍵文字行；識別所述文字區域塊中的關鍵文字行的文字資訊。
如申請專利範圍第1項所述的方法，其中，還包括：展示提取的所述文字區域塊；根據檢測到的用戶在所述文字區域塊中的第一選擇操作，確定所述關鍵文字行。
如申請專利範圍第2項所述的方法，其中，所述根據檢測到的用戶在所述文字區域塊中的第一選擇操作，確定所述關鍵文字行，包括：所述第一選擇操作為點擊操作時，獲取所述點擊操作對應的點擊位置，並將所述點擊位置對應的文字行作為所述關鍵文字行；或者所述第一選擇操作為框選操作時，獲取所述框選操作對應的框選區域，並將位於所述框選區域內的文字行作為所述關鍵文字行。
如申請專利範圍第1項所述的方法，其中，還包括：調取預設的關鍵字庫；將包含所述關鍵字庫中的關鍵字的文字行確定為所述關鍵文字行。
如申請專利範圍第4項所述的方法，其中，還包括：展示識別出的關鍵文字行；根據檢測到的用戶針對展示出的關鍵文字行的第二選擇操作，確定被正確識別出的關鍵文字行，和/或被誤識別為所述關鍵文字行的一般文字行。
如申請專利範圍第1項所述的方法，其中，還包括：展示識別出的所述關鍵文字行的文字資訊；當檢測到用戶對展示的文字資訊的修正操作時，將修正後的資訊記錄為所述關鍵文字行的文字資訊。
如申請專利範圍第1項所述的方法，其中，所述待識別物件包括票據。
一種資訊識別裝置，包括：獲取單元，獲取待識別物件的圖像；提取單元，通過對所述圖像的內容進行版面分析以將所述圖像劃分為多個區域塊並標明不同區域塊之間的順序，所述提取單元基於版面分析的結果，依序提取所述圖像中的文字區域塊；第一確定單元及第二確定單元，其用以確定所述文字區域塊中的關鍵文字行；識別單元，識別所述文字區域塊中的關鍵文字行的文字資訊。
如申請專利範圍第8項所述的裝置，其中，還包括：第一展示單元，展示提取的所述文字區域塊；其中，所述第一確定單元根據檢測到的用戶在所述文字區域塊中的第一選擇操作，確定所述關鍵文字行。
如申請專利範圍第9項所述的裝置，其中，所述確定單元具體用於：所述第一選擇操作為點擊操作時，獲取所述點擊操作對應的點擊位置，並將所述點擊位置對應的文字行作為所述關鍵文字行；或者所述第一選擇操作為框選操作時，獲取所述框選操作對應的框選區域，並將位於所述框選區域內的文字行作為所述關鍵文字行。
如申請專利範圍第8項所述的裝置，其中，還包括：調取單元，調取預設的關鍵字庫；其中所述第二確定單元將包含所述關鍵字庫中的關鍵字的文字行確定為所述關鍵文字行。
如申請專利範圍第11項所述的裝置，其中，還包括：第二展示單元，展示識別出的關鍵文字行；第三確定單元，根據檢測到的用戶針對展示出的關鍵文字行的第二選擇操作，確定被正確識別出的關鍵文字行，和/或被誤識別為所述關鍵文字行的一般文字行。
如申請專利範圍第8項所述的裝置，其中，還包括：第三展示單元，展示識別出的所述關鍵文字行的文字資訊；修正單元，檢測用戶對展示的文字資訊的修正操作，並將修正後的資訊記錄為所述關鍵文字行的文字資訊。
如申請專利範圍第8項所述的裝置，其中，所述待識別物件包括票據。