TWI671686B - 影像數據擷取方法及影像數據擷取裝置 - Google Patents

影像數據擷取方法及影像數據擷取裝置 Download PDF

Info

Publication number
TWI671686B
TWI671686B TW107102433A TW107102433A TWI671686B TW I671686 B TWI671686 B TW I671686B TW 107102433 A TW107102433 A TW 107102433A TW 107102433 A TW107102433 A TW 107102433A TW I671686 B TWI671686 B TW I671686B
Authority
TW
Taiwan
Prior art keywords
image
interest
regions
data
group
Prior art date
Application number
TW107102433A
Other languages
English (en)
Other versions
TW201933179A (zh
Inventor
彭英豪
黃子洋
Original Assignee
緯創資通股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 緯創資通股份有限公司 filed Critical 緯創資通股份有限公司
Priority to TW107102433A priority Critical patent/TWI671686B/zh
Priority to CN201810154921.1A priority patent/CN110119459B/zh
Priority to US15/955,695 priority patent/US11017254B2/en
Priority to EP18176331.9A priority patent/EP3518140B1/en
Priority to KR1020180068380A priority patent/KR102088480B1/ko
Priority to JP2018130390A priority patent/JP6606233B2/ja
Publication of TW201933179A publication Critical patent/TW201933179A/zh
Application granted granted Critical
Publication of TWI671686B publication Critical patent/TWI671686B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/02Recognising information on displays, dials, clocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本發明提出一種影像數據擷取方法及影像數據擷取裝置。影像數據擷取方法包括:自通訊介面接收包含多個數據的影像;自影像取得多個感興趣區域,其中每個感興趣區域為包括至少一數據的數據影像;將感興趣區域分成多個群組,其中每個群組的感興趣區域所包含的至少一數據具有相同的類型;將每個群組的感興趣區域分別合併成待辨識影像;以及分別對每個群組對應的待辨識影像進行光學字元辨識以獲得對應每個群組的感興趣區域的數據。

Description

影像數據擷取方法及影像數據擷取裝置
本發明是有關於一種影像數據擷取方法及影像數據擷取裝置,且特別是有關於一種能加快影像數據辨識速度的影像數據擷取方法及影像數據擷取裝置。
光學字元辨識(Optical Character Recognition,OCR)技術是在辨識一個影像中的字元常用的技術。當一個影像中有很多文字數據或數字數據而這些數據又具有不同的格式(例如,字型、顏色、大小)時,要分別辨識這些影像中的數據必須花費較長的處理時間。因此,如何在有限的時間及硬體資源下能提高辨識速度及辨識準確率,是本領域技術人員應致力的目標。
有鑑於此,本發明提供一種影像數據擷取方法及影像數據擷取裝置,能夠在有限的時間及硬體資源下能提高對一個影像進行光學字元辨識的辨識速度及辨識準確率。
本發明提出一種影像數據擷取方法,包括:自通訊介面接收包含多個數據的影像;自影像中取得多個感興趣區域,其中每個感興趣區域為包括至少一數據的數據影像;將感興趣區域分成多個群組,其中每個群組的感興趣區域所包含的至少一數據具有相同的類型;將每個群組的感興趣區域分別合併成待辨識影像;以及分別對每個群組對應的待辨識影像進行光學字元辨識以獲得對應每個群組的感興趣區域的數據。
在本發明的一實施例中,上述影像數據擷取方法更包括:根據每個群組的感興趣區域及感興趣區域對應的至少一數據的類型產生設定檔,並根據設定檔來辨識後續接收到的另一影像。
在本發明的一實施例中,上述將每個群組的感興趣區域合併成待辨識影像的步驟包括:將每個群組的感興趣區域垂直排列以合併成待辨識影像。
在本發明的一實施例中,每個上述群組的感興趣區域垂直排列方式為靠右對齊、置中對齊、靠左對齊之其一。
在本發明的一實施例中,上述將感興趣區域分成群組的步驟包括:根據感興趣區域的第一感興趣區域建立上述群組的第一群組;根據設定值將第一感興趣區域轉換成二值化影像;判斷二值化影像的清晰度是否大於等於清晰度門檻值;以及若二值化影像的清晰度大於等於清晰度門檻值,則對二值化影像進行光學字元辨識。
在本發明的一實施例中,上述將感興趣區域分成群組的步驟還包括:若二值化影像的清晰度小於清晰度門檻值,則調整設定值並根據調整後的設定值將第一感興趣區域轉換成二值化影像,且判斷二值化影像的清晰度是否大於等於清晰度門檻值。
在本發明的一實施例中,上述將感興趣區域分成群組的步驟還包括:若二值化影像的光學字元辨識的辨識結果不符合對應第一感興趣區域的預設數據,則調整設定值並根據調整後的設定值將第一感興趣區域轉換成二值化影像。
在本發明的一實施例中,上述類型包括字串、整數、浮點數、字型、顏色及字體大小的至少其中之一。
在本發明的一實施例中,上述接收影像的步驟包括:透過鍵盤影像滑鼠(Keyboard Video and Mouse,KVM)切換器從顯示器接收影像。
在本發明的一實施例中,當被辨識出的對應每個感興趣區域的至少一數據符合對應每個感興趣區域的預設數據,則根據感興趣區域及上述群組產生設定檔(configuration file),並根據設定檔對從顯示器後續接收的另一影像進行光學字元辨識。
本發明提出一種影像數據擷取裝置,包括處理器;通訊介面,耦接到處理器;以及記憶體,耦接到處理器並儲存一電腦程式。其中處理器可用以執行電腦程式以執行以下步驟:自通訊介面接收包含有多個數據的影像;自影像中取得多個感興趣區域,其中每個感興趣區域為包括至少一數據的數據影像;將感興趣區域分成多個群組,其中每個群組的感興趣區域所包含的至少一數據具有相同的類型;將每個群組的感興趣區域分別合併成待辨識影像;以及分別對每個群組對應的待辨識影像進行光學字元辨識以獲得對應每個群組的感興趣區域的數據。
在本發明的一實施例中,上述處理器根據每個群組的感興趣區域及感興趣區域對應的至少一數據的類型產生設定檔,並根據設定檔來辨識後續接收到的另一影像。
在本發明的一實施例中,上述處理器將每個群組的感興趣區域垂直排列以合併成待辨識影像。
在本發明的一實施例中,每個上述群組的感興趣區域垂直排列方式為靠右對齊、置中對齊、靠左對齊之其一。
在本發明的一實施例中,上述處理器根據感興趣區域的第一感興趣區域建立上述群組的第一群組,處理器根據設定值將第一感興趣區域轉換成二值化影像,處理器判斷二值化影像的清晰度是否大於等於清晰度門檻值,若二值化影像的清晰度大於等於清晰度門檻值,則處理器對二值化影像進行光學字元辨識。
在本發明的一實施例中,其中若二值化影像的清晰度小於清晰度門檻值,則處理器調整設定值並根據調整後的設定值將第一感興趣區域轉換成二值化影像,且判斷二值化影像的清晰度是否大於等於清晰度門檻值。
在本發明的一實施例中,其中若二值化影像的光學字元辨識的辨識結果不符合對應第一感興趣區域的預設數據,則處理器調整設定值並根據調整後的設定值將第一感興趣區域轉換成二值化影像。
在本發明的一實施例中,上述類型包括字串、整數、浮點數、字型、顏色及字體大小的至少其中之一。
在本發明的一實施例中,上述通訊介面透過鍵盤影像滑鼠切換器從顯示器接收影像,並將影像傳送到處理器。
在本發明的一實施例中,其中當被辨識出的對應每個感興趣區域的數據符合對應每個感興趣區域的預設數據,則處理器根據感興趣區域及上述群組產生設定檔,並根據設定檔對從顯示器接收的另一影像進行光學字元辨識。
在本發明的一實施例中,上述通訊介面從影像擷取裝置接收影像,並將影像傳送到處理器。
基於上述,本發明的影像數據擷取方法及影像數據擷取裝置會將一個影像中的多個感興趣區域分成多個群組,將每個群組中的感興趣區域垂直排列之後再對每個群組進行光學字元辨識,以增加辨識速度及辨識準確率。當上述影像是從工廠機台的顯示器接收時,則可在光學字元辨識結果全部正確後儲存對應感興趣區域及上述群組的設定檔,如此在同一機台接收到後續另一影像時就能直接根據設定檔進行光學字元辨識以增加辨識速度。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1為根據本發明一實施例的影像數據擷取裝置的方塊圖。
請參照圖1,本發明一實施例的影像數據擷取裝置100包括處理器110、記憶體120及通訊介面130。記憶體120及通訊介面130耦接到處理器110。影像數據擷取裝置100可為個人電腦、伺服器、平板電腦、智慧型手機等電子裝置。影像數據擷取裝置100可透過通訊介面130接收影像並由處理器110擷取影像中多個感興趣區域(Region Of Interest,ROI)的數據影像,並進一步辨識出相應的數據。
在一實施例中,處理器110可以是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuit,ASIC)或其他類似元件或上述元件的組合。
在一實施例中,記憶體120可以是任何型態的固定或可移動隨機存取記憶體(Random Access Memory,RAM)、唯讀記憶體(Read-Only Memory,ROM)、快閃記憶體(flash memory)、硬碟(Hard Disk Drive,HDD)、固態硬碟(Solid State Drive,SSD)或類似元件或上述元件的組合。該記憶體120可用以儲存本發明所提到的數據、設定檔、影像或是電腦程式以供處理器處理或執行。
在一實施例中,通訊介面130可為支援全球行動通信(Global System for Mobile communication, GSM)、個人手持式電話系統(Personal Handy-phone System, PHS)、碼多重擷取(Code Division Multiple Access, CDMA)系統、寬頻碼分多址(Wideband Code Division Multiple Access, WCDMA)系統、長期演進(Long Term Evolution, LTE)系統、全球互通微波存取(Worldwide interoperability for Microwave Access, WiMAX)系統、無線保真(Wireless Fidelity, Wi-Fi)系統或藍牙等系統的信號傳輸的無線通訊介面。在另一實施例中,通訊介面130也可為任何能夠提供傳輸或接收影像資料的有線通訊介面,例如通用序列匯流排(Universal Serial Bus,USB)介面或積體電路間匯流排(Inter-Integrated bus,I2C bus)等有線通訊介面。本發明並不對通訊介面130的種類進行限制。
圖2為根據本發明一實施例的影像數據擷取方法的流程圖,該方法可以儲存在記憶體120中之電腦程式藉由處理器110執行。
在步驟S201中,處理器110從影像中獲得一個ROI。具體來說,處理器110會先接收一個影像並從影像中選擇一個ROI,並獲得此ROI的識別碼(Identification,ID)、座標、數據類型等參數。在本實施例中,每個ROI都可具有不同的ID。當ROI是一個長方形區域時,ROI的座標可透過長方形區域的X座標範圍及Y座標範圍來表示。ROI的數據影像類型可包括字串、整數、浮點數、字型、顏色及字體大小等。
在步驟S203中,處理器110判斷ROI是否屬於已建立的群組。若ROI不屬於已建立的群組,在步驟S205中,處理器110建立一個新的群組並設定此新群組的OCR參數。OCR參數可包括群組ID、群組語言、二值化閥值、圖像縮放比率、是否為全數字以及對應特定字型的字型訓練檔等等。
在步驟S207中,處理器110根據設定值將ROI轉換成二值化影像。具體來說,處理器110可透過灰階模式或遮罩模式將ROI轉換成二值化影像。在灰階模式中,設定值可包括0到255的門檻值及門檻邊界,以及縮放比例(例如,1到4)等參數。而在遮罩模式中,設定值可包括(0,0,0)到(255,255,255)的遮罩RGB值及遮罩RGB邊界,以及縮放比例(例如,1到4)等參數。
在步驟S209中,處理器110判斷二值化影像的清晰度是否大於等於清晰度門檻值。若二值化影像的清晰度小於清晰度門檻值,則回到步驟S207調整設定值並根據調整後的設定值將ROI轉換成二值化影像。若二值化影像的清晰度大於等於清晰度門檻值,則在步驟S211中進行OCR操作,也就是對二值化影像進行光學字元辨識,以擷取二值化影像中的文字或數字。
在步驟S213中,處理器110判斷OCR結果是否正確。具體來說,處理器會判斷二值化影像的OCR辨識結果是否符合對應選出的ROI預設數據,若二值化影像的OCR辨識結果符合對應選出的ROI預設數據則OCR結果正確,反之則OCR結果不正確。
若OCR結果不正確,則回到步驟S207調整設定值並根據調整後的設定值將ROI轉換成二值化影像。
若OCR結果正確,在步驟S215中,處理器110判斷影像中是否有其他ROI尚未加入群組。若影像中還有其他ROI尚未加入群組,則回到步驟S201從影像中獲得另一個ROI。
若影像中沒有其他ROI尚未加入群組,在步驟S217中,處理器110根據建立的群組及群組中ROI的資料建立對應此影像的設定檔。
在步驟S203中,若ROI屬於已建立的群組,則在步驟S219中,處理器110將ROI加入其中一個已建立的群組。接著在步驟S221中,處理器110判斷影像中是否還有其他ROI尚未加入群組。若影像中還有其他ROI尚未加入群組,則回到步驟S201從影像中獲得另一個ROI。若影像中沒有其他ROI尚未加入群組,則在步驟S211中,進行OCR操作。
因此,處理器110可在影像中選擇一個ROI並獲得ROI的數據影像類型,將此ROI加入已經建立好的群組或以此ROI建立一個新的群組,並針對新建的群組設定影像轉換設定值及OCR參數。處理器110會重覆上述步驟直到影像中的所有ROI都加入群組。接著處理器110會對每個群組進行OCR並調整影像轉換設定值,直到每個群組中的所有ROI包含的數據都能正確辨識。最後處理器110根據建立的群組及群組中ROI的資料建立對應此影像的設定檔。當無法藉由調整影像轉換設定值而使群組中的特定ROI能正確辨識時,則處理器110可將此ROI從群組中移除並單獨建立一個新的群組。
圖3A到圖3D為根據本發明一實施例將ROI建立群組的範例。
在圖3A中,具有同一數據類型「Fonts A」(指同一種A字型)的所有數字數據影像被分到同一個群組。在圖3B中,具有同一數據類型「Fonts B」(指同一種B字型)的所有數字數據影像被分到同一個群組。在圖3C中,有關分別屬於整數、浮點數及字串數據類型的各數據影像則分別被分到「Integer」、「Float」、「String」等不同群組,而圖3D則是顯示了所有ROI並未分群組的範例。值得注意的是,處理器110會將每個群組的ROI進行垂直排列,並對垂直排列後的ROI進行OCR,以獲得更高的辨識率。其中同一群組中ROI的垂直排列的方式可以是靠右對齊、置中對齊、靠左對齊、等各種對齊方式,但在其它實施例中,亦可不進行以上對齊方式而僅在垂直排列方向上隨機擺置。
更詳細來說,在處理器110從通訊介面130接收影像後,處理器110會對影像中包含數據的部分或所有感興趣區域,根據數據的類型進行分組。包含不同數據類型的不同感興趣區域會被分到不同群組。例如,包含不同字型的數據的不同感興趣區域會被分到不同群組,或是包含整數、浮點數、字串等不同數據類型的感興趣區域會被分到不同群組。在將不同數據類型的感興趣區域分到不同群組後,處理器110會將每個群組的所有感興趣區域的數據影像(例如,包含所有整數數據的數據影像)合併成一個待辨識影像,再對各群組的待辨識影像進行光學字元辨識以獲得其中的所有數據。
舉例來說,圖3A的「Fonts A」下方的待辨識影像是由17個感興趣區域的數據影像合併而成,其中每個感興趣區域都包含了相同粗字體的數據(45、45、44、…、150)。同理而言,圖3B的「Fonts B」下方的待辨識影像是由17個感興趣區域的數據影像合併而成,其中每個感興趣區域都包含了相同細字體的數據(7.0、7.0、120、…、-1.000)。圖3C則是分別包含了整數、浮點數及字串等不同數據類型的數個待辨識影像。
圖4為根據本發明一實施例的影像數據擷取系統的方塊圖。
本發明一實施例的影像數據擷取系統400包括機台410、鍵盤影像滑鼠(KVM)切換器420、電子裝置430及雲端伺服器440。電子裝置430與圖1實施例中的影像數據擷取裝置100可具有相同或類似的架構,也就是說電子裝置430能藉由其通訊介面從KVM切換器420接收機台410的數據影像並由其處理器對接收到的數據影像進行辨識。KVM切換器420可透過有線或無線網路耦接到電子裝置430。KVM切換器420可外接鍵盤421及滑鼠422用來對機台410進行操作。雖然在本實施例中顯示一個電子裝置430耦接到一個KVM切換器420及一個機台410,但本發明並不以為限。在另一實施例中,一個電子裝置430也可耦接到多個KVM切換器420並透過每個KVM切換器420分別耦接到一個機台410。在另一實施例中,一個KVM切換器420也透過多個埠(port)耦接到多個機台410。在另一實施例中,也可由多個電子裝置430分別耦接到多個KVM切換器420及多個機台410,且多個電子裝置430耦接到雲端伺服器440。在另一實施例中,機台410也可不透過KVM切換器420而直接透過有線或無線網路耦接到電子裝置430。本發明並不限制影像數據擷取系統400的細部實作方式。
在本實施例中,機台410可以指的是工廠中用於控制及/或監控生產製造或測試設備之機器,並可將生產製造或測試的相關數據顯示在其顯示器上,因此從機台410的顯示器所輸出的影像中具有多個生產或測試數據,電子裝置430可透過KVM切換器420從機台410獲得與其顯示器的影像相同的影像,並且對影像的ROI進行OCR以獲得影像中的部分或所有數據,再將獲得的數據傳送到雲端伺服器440。如此一來,雲端伺服器440就能獲得一到多個機台410的數據並對這些數據進行分析。
圖5為根據本發明一實施例的機台影像的示意圖。
請參照圖5,在圖5的影像中以斜線表示的ROI的數據的字體顏色都相同,且也都屬於整數。因此電子裝置430會將所有以斜線表示的ROI分類到同一個群組,並將每個ROI設定一個ID(例如,8、9、…、40、41),再將所有ROI垂直排列後進行OCR,如此可增加OCR辨識率及辨識速度。
雖然在本實施例中說明了對接收的機台影像的ROI進行分群並進行辨識,但本發明並不對接收影像的來源進行限制。在另一實施例中,接收的影像也可以是任意外部攝影機或各式影像擷取裝置所錄製的畫面。
圖6為根據本發明一實施例的ROI群組設定的圖形使用者介面的示意圖。圖7為根據本發明一實施例的ROI即時截圖的示意圖。圖8為根據本發明一實施例的ROI辨識結果的示意圖。
請參照圖6,使用者可在電子裝置430上操作圖形使用者介面(Graphic User Interface,GUI)以完成ROI群組的設定。在一實施例中,當使用者可透過滑鼠框選一個ROI時,在GUI上就可顯示出框選的ROI的X座標範圍606及Y座標範圍607,同時GUI也可顯示ROI對應的來源影像檔名601。使用者可選擇ROI的群組602並輸入ROI的標籤603及預設數據604。此外,使用者還可選擇ROI的類型605及縮放比例608。透過ROI及群組的設定,GUI還可即時呈現ROI截圖,如圖7所示。此外,GUI也可顯示已儲存的ROI設定609。
當使用者完成機台影像上的所有ROI設定時,就可利用GUI對機台影像進行OCR以確認OCR的辨識結果是否與預設數據604相符,如圖8所示。若機台影像的所有ROI的OCR的辨識結果都與預設數據604相符,則使用者可將所有ROI及群組資訊儲存為一個設定檔。由於一個機台410輸出的影像格式相同,且影像中的數據也都會在相同的位置上顯示,因此電子裝置430可透過設定檔來快速擷取機台410輸出的影像的中的所有數據。在本實施例中,在沒將ROI分類的情況下對機台影像進行OCR可能會耗費數十秒的時間,而透過設定檔對分類後的ROI進行OCR則僅需一秒的時間,因此能即時擷取機台影像數據並將擷取的數據傳送到雲端伺服器440。
綜上所述,本發明的影像數據擷取方法及影像數據擷取裝置會將一個影像中的多個感興趣區域分成多個群組,將每個群組中的感興趣區域垂直排列之後再對每個群組進行光學字元辨識,以增加辨識速度及辨識準確率。當上述影像是從機台接收時,則可在光學字元辨識結果全部正確後儲存對應感興趣區域及上述群組的設定檔,如此在同一機台接收到另一影像時就能直接根據設定檔進行光學字元辨識以增加辨識速度。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
100:影像數據擷取裝置 110:處理器 120:記憶體 130:通訊介面 S201、S203、S205、S207、S209、S211、S213、S215、S217、S219、S221:影像數據擷取方法的步驟 400:影像數據擷取系統 410:機台 420:KVM切換器 421:鍵盤 422:滑鼠 430:電子裝置 440:雲端伺服器 601:來源影像檔名 602:群組 603:標籤 604:預設數據 605:類型 606:X座標範圍 607:Y座標範圍 608:縮放比例 609:已儲存的ROI設定
圖1為根據本發明一實施例的影像數據擷取裝置的方塊圖。
圖2為根據本發明一實施例的影像數據擷取方法的流程圖。
圖3A到圖3D為根據本發明一實施例將ROI建立群組的範例。
圖4為根據本發明一實施例的影像數據擷取系統的方塊圖。
圖5為根據本發明一實施例的機台影像的示意圖。
圖6為根據本發明一實施例的ROI群組設定的圖形使用者介面的示意圖。
圖7為根據本發明一實施例的ROI即時截圖的示意圖。
圖8為根據本發明一實施例的ROI辨識結果的示意圖。

Claims (21)

  1. 一種影像數據擷取方法,包括:自一通訊介面接收包含多個數據的一影像;自該影像取得多個感興趣區域,其中每個該感興趣區域為包括該至少一數據的數據影像;將該些感興趣區域分成多個群組,其中每個該群組的該些感興趣區域所包含的該至少一數據具有相同的一類型;將每個該群組的該些感興趣區域分別合併成一待辨識影像;以及分別對對應不同該類型的每個該群組對應的該待辨識影像進行一光學字元辨識以獲得對應每個該群組的該些感興趣區域的該些數據。
  2. 如申請專利範圍第1項所述的影像數據擷取方法,更包括:根據每個該群組的該些感興趣區域及該些感興趣區域對應的該至少一數據的該類型產生一設定檔,並根據該設定檔來辨識後續接收到的另一該影像。
  3. 如申請專利範圍第1項所述的影像數據擷取方法,其中將每個該群組的該些感興趣區域合併成該待辨識影像的步驟包括:將每個該群組的該些感興趣區域垂直排列以合併成該待辨識影像。
  4. 如申請專利範圍第3項所述的影像數據擷取方法,其中每個該群組的該些感興趣區域垂直排列方式為靠右對齊、置中對齊、靠左對齊之其一。
  5. 如申請專利範圍第1項所述的影像數據擷取方法,其中將該些感興趣區域分成該些群組的步驟包括:根據該些感興趣區域的一第一感興趣區域建立該些群組的一第一群組;根據一設定值將該第一感興趣區域轉換成一二值化影像;判斷該二值化影像的一清晰度是否大於等於一清晰度門檻值;以及若該二值化影像的該清晰度大於等於該清晰度門檻值,則對該二值化影像進行該光學字元辨識。
  6. 如申請專利範圍第5項所述的影像數據擷取方法,其中將該些感興趣區域分成該些群組的步驟還包括:若該二值化影像的該清晰度小於該清晰度門檻值,則調整該設定值並根據調整後的該設定值將該第一感興趣區域轉換成該二值化影像,且判斷該二值化影像的該清晰度是否大於等於該清晰度門檻值。
  7. 如申請專利範圍第5項所述的影像數據擷取方法,其中將該些感興趣區域分成該些群組的步驟還包括:若該二值化影像的該光學字元辨識的一辨識結果不符合對應該第一感興趣區域的一預設數據,則調整該設定值並根據調整後的該設定值將該第一感興趣區域轉換成該二值化影像。
  8. 如申請專利範圍第1項所述的影像數據擷取方法,其中該類型包括一字串、一整數、一浮點數、一字型、一顏色及一字體大小的至少其中之一。
  9. 如申請專利範圍第1項所述的影像數據擷取方法,其中接收該影像的步驟包括:透過一鍵盤影像滑鼠(Keyboard Video and Mouse,KVM)切換器從一顯示器接收該影像。
  10. 如申請專利範圍第9項所述的影像數據擷取方法,其中當被辨識出的對應每個該感興趣區域的該至少一數據符合對應每個該感興趣區域的一預設數據,則根據該些感興趣區域及該些群組產生一設定檔,並根據該設定檔對從該顯示器後續接收的另一該影像進行該光學字元辨識。
  11. 一種影像數據擷取裝置,包括:一處理器;一通訊介面,耦接到該處理器;以及一記憶體,耦接到該處理器並儲存一電腦程式,其中該處理器可用以執行該電腦程式以執行以下步驟:自該通訊介面接收包含有多個數據的一影像;自該影像中取得多個感興趣區域,其中每個該感興趣區域為包括該至少一數據的數據影像;將該些感興趣區域分成多個群組,其中每個該群組的該些感興趣區域所包含的該至少一數據具有相同的一類型;將每個該群組的該些感興趣區域分別合併成一待辨識影像;以及分別對對應不同該類型的每個該群組對應的該待辨識影像進行一光學字元辨識以獲得對應每個該群組的該些感興趣區域的該些數據。
  12. 如申請專利範圍第11項所述的影像數據擷取裝置,其中該處理器根據每個該群組的該些感興趣區域及該些感興趣區域對應的該至少一數據的該類型產生一設定檔,並根據該設定檔來辨識後續接收到的另一該影像。
  13. 如申請專利範圍第11項所述的影像數據擷取裝置,其中該處理器將每個該群組的該些感興趣區域垂直排列以合併成該待辨識影像。
  14. 如申請專利範圍第13項所述的影像數據擷取裝置,其中每個該群組的該些感興趣區域垂直排列方式為靠右對齊、置中對齊、靠左對齊之其一。
  15. 如申請專利範圍第11項所述的影像數據擷取裝置,其中該處理器根據該些感興趣區域的一第一感興趣區域建立該些群組的一第一群組,該處理器根據一設定值將該第一感興趣區域轉換成一二值化影像,該處理器判斷該二值化影像的一清晰度是否大於等於一清晰度門檻值,若該二值化影像的該清晰度大於等於該清晰度門檻值,則該處理器對該二值化影像進行該光學字元辨識。
  16. 如申請專利範圍第15項所述的影像數據擷取裝置,其中若該二值化影像的該清晰度小於該清晰度門檻值,則該處理器調整該設定值並根據調整後的該設定值將該第一感興趣區域轉換成該二值化影像,且判斷該二值化影像的該清晰度是否大於等於該清晰度門檻值。
  17. 如申請專利範圍第15項所述的影像數據擷取裝置,其中若該二值化影像的該光學字元辨識的一辨識結果不符合對應該第一感興趣區域的一預設數據,則該處理器調整該設定值並根據調整後的該設定值將該第一感興趣區域轉換成該二值化影像。
  18. 如申請專利範圍第11項所述的影像數據擷取裝置,其中該類型包括一字串、一整數、一浮點數、一字型、一顏色及一字體大小的至少其中之一。
  19. 如申請專利範圍第11項所述的影像數據擷取裝置,其中該通訊介面透過一鍵盤影像滑鼠切換器從一顯示器接收該影像,並將該影像傳送到該處理器。
  20. 如申請專利範圍第19項所述的影像數據擷取裝置,其中當被辨識出的對應每個該些感興趣區域的該數據符合對應每個該些感興趣區域的一預設數據,則該處理器根據該些感興趣區域及該些群組產生一設定檔,並根據該設定檔對從該顯示器接收的另一影像進行該光學字元辨識。
  21. 如申請專利範圍第11項所述的影像數據擷取裝置,其中該通訊介面從一影像擷取裝置接收該影像,並將該影像傳送到該處理器。
TW107102433A 2018-01-24 2018-01-24 影像數據擷取方法及影像數據擷取裝置 TWI671686B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
TW107102433A TWI671686B (zh) 2018-01-24 2018-01-24 影像數據擷取方法及影像數據擷取裝置
CN201810154921.1A CN110119459B (zh) 2018-01-24 2018-02-23 图像数据检索方法及图像数据检索装置
US15/955,695 US11017254B2 (en) 2018-01-24 2018-04-18 Image data retrieving method and image data retrieving device
EP18176331.9A EP3518140B1 (en) 2018-01-24 2018-06-06 Image data retrieving method and image data retrieving device
KR1020180068380A KR102088480B1 (ko) 2018-01-24 2018-06-14 이미지 데이터 검색 방법 및 이미지 데이터 검색 장치
JP2018130390A JP6606233B2 (ja) 2018-01-24 2018-07-10 画像データのリトリーブ方法及び画像データのリトリーブ装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107102433A TWI671686B (zh) 2018-01-24 2018-01-24 影像數據擷取方法及影像數據擷取裝置

Publications (2)

Publication Number Publication Date
TW201933179A TW201933179A (zh) 2019-08-16
TWI671686B true TWI671686B (zh) 2019-09-11

Family

ID=62563012

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107102433A TWI671686B (zh) 2018-01-24 2018-01-24 影像數據擷取方法及影像數據擷取裝置

Country Status (6)

Country Link
US (1) US11017254B2 (zh)
EP (1) EP3518140B1 (zh)
JP (1) JP6606233B2 (zh)
KR (1) KR102088480B1 (zh)
CN (1) CN110119459B (zh)
TW (1) TWI671686B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11386636B2 (en) * 2019-04-04 2022-07-12 Datalogic Usa, Inc. Image preprocessing for optical character recognition
JP7468057B2 (ja) * 2020-03-26 2024-04-16 富士フイルムビジネスイノベーション株式会社 情報処理装置、情報処理システム、及び情報処理プログラム
US20230418693A1 (en) * 2022-06-23 2023-12-28 Vertiv It Systems, Inc. System and method for ocr-based text conversion and copying mechanism for agentless hardware-based kvm

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201543378A (zh) * 2014-03-11 2015-11-16 Microsoft Technology Licensing Llc 偵測及擷取影像文件組成部分以產生流程文件
US20170024633A1 (en) * 2012-08-21 2017-01-26 James A. Negro Trainable handheld optical character recognition systems and methods
US20170351913A1 (en) * 2016-06-07 2017-12-07 The Neat Company, Inc. d/b/a Neatreceipts, Inc. Document Field Detection And Parsing
US20180011974A1 (en) * 2010-09-01 2018-01-11 Apixio, Inc. Systems and methods for improved optical character recognition of health records

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0769938B2 (ja) * 1988-04-08 1995-07-31 富士通株式会社 文字読取装置
US5680479A (en) 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US20010054106A1 (en) * 2000-03-23 2001-12-20 Patrik Anderson Method and apparatus for an image server
JP4145014B2 (ja) * 2001-01-11 2008-09-03 株式会社リコー 画像処理装置
JP3453569B2 (ja) * 2001-08-09 2003-10-06 株式会社ジェイ・アイ・エス データエントリーシステム
FR2886433B1 (fr) * 2005-05-30 2007-09-07 Commissariat Energie Atomique Methode de segmentation d'une sequence d'images tridimensionnelles, notamment en pharmaco-imagerie.
US8031940B2 (en) * 2006-06-29 2011-10-04 Google Inc. Recognizing text in images using ranging data
JP2008146602A (ja) * 2006-12-13 2008-06-26 Canon Inc 文書検索装置、文書検索方法、プログラム及び記憶媒体
WO2008127443A1 (en) * 2007-04-13 2008-10-23 Bank Of America Corporation Image data extraction automation process
CN101620680B (zh) * 2008-07-03 2014-06-25 三星电子株式会社 字符图像的识别和翻译方法以及装置
CN102687140B (zh) * 2009-12-30 2016-03-16 诺基亚技术有限公司 用于有助于基于内容的图像检索的方法和装置
JP5325870B2 (ja) * 2010-11-05 2013-10-23 株式会社エヌ・ティ・ティ・ドコモ 文字列出力装置、文字認識システム、プログラム及び文字列出力方法
TWI419015B (zh) 2010-12-31 2013-12-11 Hsin Feng Peng 座標資訊轉換及顯示系統
FI20115821A0 (fi) * 2011-08-24 2011-08-24 Syslore Oy Laite ja menetelmä kuljetusobjektissa olevien kiinnostusalueiden havaitsemiseen
KR101907414B1 (ko) 2011-12-13 2018-10-15 삼성전자주식회사 촬영 이미지 기반의 문자 인식 장치 및 방법
CN105224939B (zh) * 2014-05-29 2021-01-01 小米科技有限责任公司 数字区域的识别方法和识别装置、移动终端
US10242285B2 (en) * 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
CN105187721B (zh) * 2015-08-31 2018-09-21 广州市幸福网络技术有限公司 一种快速提取人像特征的证照相机及方法
CN105389820A (zh) * 2015-11-18 2016-03-09 成都中昊英孚科技有限公司 一种基于倒谱的红外图像清晰度评价方法
US10140741B2 (en) * 2015-12-14 2018-11-27 General Electric Company Collection and validation of data from visual displays
KR101809490B1 (ko) 2015-12-29 2017-12-18 서울과학기술대학교 산학협력단 고해상도 영상 기반의 차량 진출입관리추적장치
CN105675626B (zh) * 2016-02-26 2018-08-07 广东工业大学 一种轮胎模具的字符缺陷检测方法
US9883035B1 (en) 2017-02-02 2018-01-30 Conduent Business Services, Llc Methods and systems for automatically recognizing actions in a call center environment using screen capture technology

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180011974A1 (en) * 2010-09-01 2018-01-11 Apixio, Inc. Systems and methods for improved optical character recognition of health records
US20170024633A1 (en) * 2012-08-21 2017-01-26 James A. Negro Trainable handheld optical character recognition systems and methods
TW201543378A (zh) * 2014-03-11 2015-11-16 Microsoft Technology Licensing Llc 偵測及擷取影像文件組成部分以產生流程文件
US20170351913A1 (en) * 2016-06-07 2017-12-07 The Neat Company, Inc. d/b/a Neatreceipts, Inc. Document Field Detection And Parsing

Also Published As

Publication number Publication date
EP3518140A1 (en) 2019-07-31
US20190228252A1 (en) 2019-07-25
JP2019128935A (ja) 2019-08-01
CN110119459B (zh) 2021-10-08
EP3518140B1 (en) 2023-09-20
CN110119459A (zh) 2019-08-13
US11017254B2 (en) 2021-05-25
JP6606233B2 (ja) 2019-11-13
TW201933179A (zh) 2019-08-16
KR102088480B1 (ko) 2020-03-13

Similar Documents

Publication Publication Date Title
CN110348294B (zh) Pdf文档中图表的定位方法、装置及计算机设备
EP3848853A2 (en) Image detection method, apparatus, electronic device and storage medium
US9984287B2 (en) Method and image processing apparatus for performing optical character recognition (OCR) of an article
TWI671686B (zh) 影像數據擷取方法及影像數據擷取裝置
CN110555334B (zh) 人脸特征确定方法、装置、存储介质及电子设备
JP6997369B2 (ja) プログラム、測距方法、及び測距装置
WO2018184255A1 (zh) 图像校正的方法和装置
US10452943B2 (en) Information processing apparatus, control method of information processing apparatus, and storage medium
US9117132B2 (en) System and method facilitating designing of classifier while recognizing characters in a video
CN103530625A (zh) 一种基于数字图像处理的光学字符识别方法
JP6530432B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN111783812A (zh) 违禁图像识别方法、装置和计算机可读存储介质
US10134138B2 (en) Information processing apparatus, computer-readable storage medium, information processing method
JP2012003358A (ja) 背景判別装置、方法及びプログラム
CN114202719A (zh) 视频样本的标注方法、装置、计算机设备及存储介质
CN111476090A (zh) 水印识别方法和装置
CN114998906B (zh) 文本检测方法、模型的训练方法、装置、电子设备及介质
JP6613625B2 (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
CN117372286B (zh) 一种基于Python的图像噪声优化方法及系统
CN109670519B (zh) 图像处理装置和图像处理方法
CN117670897A (zh) 一种背景颜色的提取方法、装置、设备、存储介质和程序产品
CN117275000A (zh) 单字检测方法及装置
CN117094870A (zh) 数据处理方法、装置、设备、计算机可读存储介质及产品
JP2019153053A (ja) 画像処理装置、画像処理方法及びプログラム
CN115857906A (zh) 低代码图表生成的方法、系统、电子设备及介质