TW201705042A - 影像處理裝置、影像處理方法、及程式產品 - Google Patents

影像處理裝置、影像處理方法、及程式產品 Download PDF

Info

Publication number
TW201705042A
TW201705042A TW105121569A TW105121569A TW201705042A TW 201705042 A TW201705042 A TW 201705042A TW 105121569 A TW105121569 A TW 105121569A TW 105121569 A TW105121569 A TW 105121569A TW 201705042 A TW201705042 A TW 201705042A
Authority
TW
Taiwan
Prior art keywords
field
image
character
unit
expansion
Prior art date
Application number
TW105121569A
Other languages
English (en)
Other versions
TWI633498B (zh
Inventor
Rong Liu
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Publication of TW201705042A publication Critical patent/TW201705042A/zh
Application granted granted Critical
Publication of TWI633498B publication Critical patent/TWI633498B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/01Solutions for problems related to non-uniform document background
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

迅速地界定影像中所含之文字群之領域。影像處理裝置(1)的影像取得手段(101),係取得記憶影像資料的手段(100)中所被記憶之前記影像資料。擴張手段(104),係將已被影像取得手段(101)所取得之影像資料所示之影像中所含之表示物體的複數領域之每一者予以擴張並結合。文字領域判定手段(108),係判定藉由擴張手段(104)而擴張並結合的全部或部分之領域是否為文字領域。處理執行手段(109),係基於已被文字領域判定手段(108)判定是文字領域的領域,而執行所定之處理。

Description

影像處理裝置、影像處理方法、及程式產品
本發明係有關於影像處理裝置、影像處理方法、及程式產品。
先前,像是光學文字辨識(OCR:Optical Character Recognition)這類,對影像內之文字群的各文字,個別進行文字辨識的技術,已為人知。例如,專利文獻1中係記載,在2值化影像內朝縱方向及橫方向重複掃描,將沒有黑像素存在的白線所包夾的領域予以抽出,對各領域判定是否含有文字的技術。
[先前技術文獻] [專利文獻]
[專利文獻1]日本特開平5-40849號公報
然而,在先前之技術中,例如,即使在想要 把影像內的文字群界定成為一整塊的情況下,由於是將該當文字群中所含之各文字之領域予以抽出,對該當領域利用OCR而個別地進行文字辨識,因此界定影像內之文字群的領域,是需要耗費時間。
本發明係有鑑於上述課題而研發,其目的為,迅速地界定影像中所含之文字群之領域。
為了解決上記課題,本發明所述之影像處理裝置係含有:影像取得手段,係用以取得將影像資料予以記憶之手段中所被記憶的前記影像資料;和擴張手段,係用以將已被前記影像取得手段所取得之影像資料所示之影像中所含之表示物體的複數領域之每一者予以擴張並結合;和文字領域判定手段,係用以判定藉由前記擴張手段而擴張並結合的全部或部分之領域是否為文字領域;和處理執行手段,係用以基於已被前記文字領域判定手段判定是文字領域的領域,而執行所定之處理。
本發明所述之影像處理方法係含有:影像取得步驟,係用以取得將影像資料予以記憶之手段中所被記憶的前記影像資料;和擴張步驟,係用以將已被前記影像取得步驟所取得之影像資料所示之影像中所含之表示物體的複數領域之每一者予以擴張並結合;和文字領域判定步驟,係用以判定藉由前記擴張步驟而擴張並結合的全部或部分之領域是否為文字領域;和處理執行步驟,係用以基 於已被前記文字領域判定步驟判定是文字領域的領域,而執行所定之處理。
本發明所述之程式產品,係令電腦發揮機能成為:影像取得手段,係用以取得將影像資料予以記憶之手段中所被記憶的前記影像資料;擴張手段,係用以將已被前記影像取得手段所取得之影像資料所示之影像中所含之表示物體的複數領域之每一者予以擴張並結合;文字領域判定手段,係用以判定藉由前記擴張手段而擴張並結合的全部或部分之領域是否為文字領域;處理執行手段,係用以基於已被前記文字領域判定手段判定是文字領域的領域,而執行所定之處理。
本發明所述之資訊記憶媒體,係記憶有上記記載之程式的電腦可讀取之資訊記憶媒體。
又,若依據本發明之一態樣,則其特徵為,前記影像處理裝置係還含有:結合限制手段,係用以在表示前記影像中所含之物體的領域之輪廓或該當領域本身之大小為基準以上的情況下,限制該當領域、與藉由前記擴張手段而擴張之領域做結合。
又,若依據本發明之一態樣,則其特徵為,前記結合限制手段,係在表示前記影像中所含之物體的領域之輪廓或該當領域本身之大小為基準以上的情況下,藉由將該當領域以背景色塗滿,以限制其與藉由前記擴張手段而擴張之領域做結合。
又,若依據本發明之一態樣,則其特徵為, 前記影像處理裝置係還含有:判定限制手段,係用以在藉由前記擴張手段而擴張之領域的輪廓或該當領域本身之大小為未滿基準的情況下,限制該當領域變成前記文字領域判定手段之判定對象。
又,若依據本發明之一態樣,則其特徵為,前記判定限制手段,係在藉由前記擴張手段而擴張之領域的輪廓或該當領域本身之大小為未滿基準的情況下,藉由將該當領域以背景色塗滿,以限制其變成前記文字領域判定手段之判定對象。
又,若依據本發明之一態樣,則其特徵為,前記影像處理裝置係還含有:指定操作受理手段,係用以受理藉由前記擴張手段而擴張並結合之部分之領域的指定操作;前記文字領域判定手段係判定,已被前記指定操作受理手段所受理之指定操作所指定的部分之領域是否為文字領域。
又,若依據本發明之一態樣,則其特徵為,前記處理執行手段,係於前記影像所被顯示的顯示手段中,將已被前記文字領域判定手段判定是文字領域的領域內予以放大而顯示。
若依據本發明,則可迅速地界定影像中所含之文字群之領域。
1‧‧‧電子書籍顯示裝置
10‧‧‧控制部
11‧‧‧記憶部
12‧‧‧通訊部
13‧‧‧操作部
14‧‧‧顯示部
15‧‧‧輸出入部
20‧‧‧電子書籍影像
21A‧‧‧格子
21B‧‧‧格子
22A‧‧‧角色
22B‧‧‧角色
22C‧‧‧角色
23A‧‧‧對話框線
23B‧‧‧對話框線
24A‧‧‧文字群
24B‧‧‧文字群
25A‧‧‧太陽
25B‧‧‧食器
26‧‧‧放大影像
100‧‧‧資料記憶部
101‧‧‧影像取得部
102‧‧‧顯示控制部
103‧‧‧結合限制部
104‧‧‧擴張部
105‧‧‧判定限制部
106‧‧‧文字領域候補記錄部
107‧‧‧指定操作受理部
108‧‧‧文字領域判定部
109‧‧‧處理執行部
[圖1]本實施形態中的電子書籍顯示裝置之硬體構成的圖示。
[圖2]電子書籍顯示裝置中所實現之機能之一例的機能區塊圖。
[圖3]電子書籍影像之一例的圖示。
[圖4]領域之大小的說明圖。
[圖5]已被2值化並反轉的電子書籍影像的圖示。
[圖6]從圖5所示的電子書籍影像所被抽出的輪廓的圖示。
[圖7]將基準以上之大小的輪廓線予以放大後的各輪廓線之狀態的圖示。
[圖8]放大後的輪廓線係被重疊的電子書籍影像的圖示。
[圖9]擴張部之處理內容的說明圖。
[圖10]擴張部之處理內容的說明圖。
[圖11]領域已被擴張部擴張後之狀態的圖示。
[圖12]輪廓之大小為未滿基準的領域係被背景色所塗滿後之狀態的圖示。
[圖13]電子書籍影像內的文字領域候補之一例的圖示。
[圖14]使用學習資料的文字領域之判定處理的說明圖。
[圖15]文字群被放大顯示之樣子的圖示。
[圖16]於電子書籍顯示裝置中所被執行之處理之一例的流程圖。
〔1.電子書籍顯示裝置的硬體構成〕
以下根據圖式來詳細說明本發明所涉及之實施形態。圖1係本實施形態中的電子書籍顯示裝置(影像處理裝置之一例)之硬體構成的圖示。電子書籍顯示裝置1係為使用者所操作的電腦,例如行動電話(包含智慧型手機)、攜帶型資訊終端(包含平板型電腦)、電子書籍讀取終端、或個人電腦等。如圖1所示,電子書籍顯示裝置1係含有:控制部10、記憶部11、通訊部12、操作部13、顯示部14、及輸出入部15。
控制部10係含有例如一或複數個微處理器。控制部10,係依照記憶部11中所記憶之程式或資料,來執行處理。記憶部11係含有主記憶部及輔助記憶部。例如,主記憶部係為RAM,輔助記憶部係為硬碟或固態硬碟機等。通訊部12係包含網路卡等之通訊介面。
操作部13,係為一般的輸入裝置,例如觸控面板或滑鼠等之指標裝置。操作部13係將使用者的操作內容,傳達至控制部10。顯示部14係為例如液晶顯示部或有機EL顯示部等。顯示部14係依照控制部10的指示 而顯示畫面。輸出入部15,係為與外部機器進行資料輸出入的輸出入介面。例如,輸出入部15,係從電腦可讀取之資訊記憶媒體(例如光碟或記憶卡等)讀取資料或程式。
此外,作為被記憶在記憶部11中而說明的程式及資料,係亦可從被連接至網路的伺服器電腦,透過通訊部12而供給至記憶部11,亦可從資訊記憶媒體,透過輸出入部15而供給至記憶部11。又,電子書籍顯示裝置1的硬體構成,係不限於上記的例子,可適用各式各樣的電腦之硬體。
〔2.電子書籍顯示裝置中所實現之機能〕
圖2係電子書籍顯示裝置1中所實現之機能之一例的機能區塊圖。如圖2所示,在電子書籍顯示裝置1中係實現有:資料記憶部100、影像取得部101、顯示控制部102、結合限制部103、擴張部104、判定限制部105、文字領域候補記錄部106、指定操作受理部107、文字領域判定部108、及處理執行部109。資料記憶部100,係主要以記憶部11為主而被實現,其他的各機能,係以控制部10為主而被實現。
〔2-1.資料記憶部〕
資料記憶部100係記憶著電子書籍等之影像所相關之各種資料。例如,資料記憶部100係記憶著電子書籍等之 影像的影像資料。電子書籍,係只要是在顯示部14上以電子方式而被顯示的書籍即可,例如漫畫、繪本、或雜誌。電子書籍係至少含有文字。電子書籍,係除了文字以外,亦可含有繪畫、照片、圖形等。此外,此處所謂的繪畫,係不限於人手描繪的繪畫以掃描而讀取以電子化而成者,還包含人使用電腦所描繪的CG之意思。影像資料的資料形式,係使用一般的電子書籍所使用的資料形式即可。
電子書籍,係可由複數頁面所構成,也可只由1頁面所構成。電子書籍是由複數頁面所構成時,係可每一頁面地存在有影像資料,也可將這些複數頁面總結成只有1筆影像資料而存在。又,電子書籍係可為彩色,也可為單色或灰階。在本實施形態中,係將由複數頁面所構成的灰階之漫畫,當作電子書籍之一例來說明。
此外,資料記憶部100係亦可記憶影像資料以外的資料。例如,資料記憶部100,係亦可記憶影像資料所附帶的附帶資料。附帶資料係為各頁面的頁數等。除此以外,例如,資料記憶部100係亦可記憶有電子書籍讀取器的應用程式(檢視器應用程式)。又例如,資料記憶部100係亦可記憶後述的文字領域之判定所需之學習資料。
〔2-2.影像取得部〕
影像取得部101,係取得記憶影像資料的資料記憶部 100中所被記憶的影像資料。如本實施形態,電子書籍是由複數頁面所構成時,影像取得部101係亦可一次取得這些所有頁面的影像資料,也可僅取得部分頁面的影像資料。在影像取得部101僅取得部分頁面的影像資料的情況下,影像取得部101係亦可只取得顯示對象之頁面的影像資料,也可取得顯示對象之頁面和其前後之頁面的影像資料。此外,成為顯示對象的,係可只有1頁,也可像是對開等的複數頁面。甚至,像是本實施形態這樣電子書籍是漫畫的情況下,亦可為1頁面之中的只有1格子會成為顯示對象。在本實施形態中,舉出複數頁面之其中任何1頁面是顯示對象時的例子,來加以說明。
〔2-3.顯示控制部〕
顯示控制部102,係基於已被影像取得部101所取得之影像資料,而令顯示部14顯示電子書籍影像。圖3係電子書籍影像之一例的圖示。在本實施形態中,是以由複數頁面所成之漫畫為電子書籍之一例來說明,因此如圖3所示,電子書籍影像20係為漫畫的各頁面。電子書籍影像20係含有1或複數格子21。格子21,係為頁面內描繪有繪畫或文字的區塊。在圖3的例子中,電子書籍影像20,係含有2個格子21(亦將這些記載為格子21A、21B)。在圖3的例子中,各格子21係以框圍繞,但亦可不被框所圍繞。
各格子21係含有繪畫、對話框線、文字等之 物體。對話框線,係表示漫畫之角色的台詞。角色,係為漫畫的出場人物,除了人力以外亦可為動物、機器人、幻想的生物。在對話框線之內側,係含有表示角色之台詞的1或複數文字。以下,將複數文字總稱為文字群。在圖3的例子中,在格子21A中係描繪有角色22A、對話框線23A、文字群24A、及太陽25A,在格子21B中係描繪有角色22B、22C、對話框線23B、文字群24B、及食器25B。此外,角色22A~22C、太陽25A、及食器25B,係為上記說明的繪畫之一例。對話框線23A,係表示角色22A的台詞,對話框線23B,係表示角色22C的台詞。
此外,如本實施形態這樣顯示對象是1頁面的情況下,顯示控制部102係亦可如圖3般地令頁面之全體被顯示,亦可只令頁面內之一部分被顯示。僅令頁面內之一部分被顯示的情況下,顯示控制部102,係令使用者使用操作部13所指示的部分被顯示。
〔2-4.結合限制部〕
結合限制部103,係在電子書籍影像20中所含之表示物體的領域之輪廓或該當領域本身之大小為基準以上的情況下,限制該當領域、與藉由後述之擴張部104而擴張之領域做結合。例如,一旦文字群24A係擴張而結合至對話框線23A,則無法將文字群24A視為文字區塊而偵測。因此,結合限制部103,係如下記所說明,藉由限制它們的結合,以提高文字群24A的偵測精度。
此外,在本實施形態中,為了簡化說明,而說明會變成結合限制部103、擴張部104、判定限制部105、及文字領域候補記錄部106所做的影像處理之對象的係為顯示部14中所被顯示的電子書籍影像20的情形,但被顯示在顯示部14之前的電子書籍影像20也可變成影像處理之對象。此情況下,已被顯示在顯示部14之頁面的前後之頁面的電子書籍影像20,可為影像處理之對象。
所謂領域,係電子書籍影像20之中物體所被描繪的部分(像素),係為背景色(例如白)以外之顏色(例如黑或灰)的部分。例如,角色22A~22C、對話框線23A、23B、文字群24A、24B、太陽25A、及食器25B等之物體所被描繪的部分,相當於本實施形態中所指的領域。此外,物體係亦可說是,在電子書籍影像20之背景以外之部分中所呈現的描繪物。
輪廓,係將領域予以描邊而成者,在本實施形態中,電子書籍顯示裝置1是將以線條方式所表現者,記載為輪廓線。領域,係指輪廓之內部、或亦可為輪廓與輪廓所包夾的部分。例如,若為文字群24A,則「L」之文字係輪廓之內部係為領域,「O」之文字,係外周的輪廓與內周的輪廓所包夾的部分係為領域。
輪廓的大小,係可為例如:輪廓的寬度、輪廓線的長度、輪廓之內側的面積等,但在本實施形態中,是將輪廓的外接矩形之大小,當作輪廓的大小來使用。領 域的大小,係可為例如:領域的寬度,但在本實施形態中,是將領域的外接矩形之大小,當作領域的大小來使用。
圖4係輪廓和領域之大小的說明圖。圖4的Xs軸及Ys軸,係為螢幕座標系的座標軸。此處,作為領域之一例舉出對話框線23A,針對對話框線23A的輪廓之大小、和對話框線23A本身之大小,加以說明。在圖4中,係將對話框線23A的外周輪廓線與內周輪廓線以虛線描繪,將對話框線23A本身以實線描繪。此外,在圖4中,為了說明方便,在實線與虛線之間設有間隔,但實際上係沒有這些間隔。
例如,輪廓線的外接矩形,係為輪廓線之中,Xs座標之最小值及最大值之間,且Ys座標之最小值與最大值之間的領域。在圖4所示的例子中,外周輪廓線的外接矩形,係以點P1A~P4A為頂點的長方形,因此該長方形之大小係相當於外周輪廓線之大小。另一方面,內周輪廓線的外接矩形,係以點P1B~P4B為頂點的長方形,因此該長方形之大小係相當於內周輪廓線之大小。
又例如,對話框線23A的外接矩形,係在對話框線23A所佔有的像素之中,位於Xs座標之最小值與最大值之間,且為Ys座標之最小值與最大值之間的領域。對話框線23A的外接矩形,係以點P1C~P4C為頂點的長方形,因此該長方形之大小係相當於對話框線23A本身的大小。
結合限制部103,係可使用輪廓之大小和領域本身之大小的任一者,但在本實施形態中,是使用輪廓之大小來說明。結合限制部103,係將電子書籍影像20內的各領域之輪廓的外接矩形予以抽出,判定外接矩形之大小是否為基準以上。此外,作為表示大小的數值,係可使用外接矩形的縱寬及橫寬之至少一方,也可使用外接矩形的面積。其他還有例如,外接矩形的對角線之長度,亦可作為表示大小的數值來使用。在本實施形態中,作為表示大小的數值,是使用外接矩形的縱寬與橫寬之雙方為例來說明。
表示大小之基準的閾值T1,係可為固定值,也可為可變值。若閾值T1是固定值,則資料記憶部100中係記憶該值,若閾值T1是可變值,則會根據資料記憶部100中所被記憶之數值來計算之。在本實施形態中,是說明閾值T1為固定值的情形。例如,結合限制部103,係藉由外接矩形的縱寬與橫寬是否皆為閾值T1以上,以判定各輪廓之大小是否為基準以上。
在本實施形態中係說明,結合限制部103,係在領域的輪廓之大小為基準以上的情況下,藉由將該當領域以背景色塗滿,以限制其與後述的藉由擴張部104而擴張之領域做結合的情形。背景色,係對影像所指定的所定之顏色,例如,是在影像內佔最多比率的顏色。例如,背景色係為白或黑。此外,本實施形態中所謂的結合,係指某領域是和其他領域接觸或重疊而變成1個領域。
例如,對話框線23A之輪廓係比較大,因此結合限制部103係判定對話框線23A之輪廓為基準以上之大小,將對話框線23A以背景色塗滿。其結果為,可防止對話框線23A、和後述的已被擴張部104所擴張之文字群24A,發生結合。具體而言,在本實施形態中,結合限制部103,係如下記,藉由執行(1)2值化反轉處理、(2)輪廓抽出處理、(3)輪廓線放大處理、(4)放大輪廓線重疊處理,而將對話框線23A等予以塗滿。
〔2值化反轉處理〕
首先,結合限制部103,係對電子書籍影像20執行2值化處理與反轉處理。圖5係已被2值化並反轉的電子書籍影像20的圖示。結合限制部103,係基於圖3所示的電子書籍影像20的各像素之像素值與閾值而執行2值化處理,將各像素設定成白或黑。2值化處理本身係可適用各種公知的演算法,例如,藉由P分位數法或模式法來決定閾值。結合限制部103,係將已經2值化的各像素之像素值予以反轉,將白的像素變成黑色、將黑的像素變成白色,藉此以將圖4所示的電子書籍影像20,變成圖5所示的狀態。反轉處理本身也是可以適用各種公知的手法,例如,亦可從各色之像素值之最大值(若為8位元灰階則為255)減去像素值之現在值以計算反轉後之像素值。
〔輪廓抽出處理〕
結合限制部103,係對已被2值化並反轉的電子書籍影像20(圖5)執行輪廓抽出處理,抽出封閉領域之輪廓。圖6係從圖5所示的電子書籍影像20所被抽出的輪廓線的圖示。在圖6中,結合限制部103所抽出的輪廓線,以虛線圖示。輪廓線,係只要是所定之粗細的線(例如1像素)即可。又,輪廓線的顏色,係只要是預定的顏色即可,此處係假設為黑色。這是因為,已被2值化並反轉的電子書籍影像20(圖5)內的對話框線23A、23B是以白色而被描繪,因此將其以背景色的黑色塗滿的緣故。
此外,輪廓抽出處理本身,係可適用公知的各種輪廓抽出演算法,例如,可藉由使用微分濾波器、Prewitt濾波器、或Sobel濾波器等來偵測影像內之邊緣,而抽出各領域之輪廓。又,在圖5所示的電子書籍影像20中,角色22A的左側頭部與左肩係接觸於格子21A之輪廓,因此如圖6所示,角色22A與格子21A之輪廓線係變成連續。
〔輪廓線放大處理〕
結合限制部103,係在藉由輪廓抽出處理而抽出的輪廓線之中,將基準以上之大小的輪廓線予以放大。結合限制部103,係將各輪廓線的外接矩形予以抽出,判定其大小是否為閾值T1以上。如前述,在本實施形態中,是將外接矩形的縱寬與橫寬當作大小來使用,因此結合限制部103,係藉由判定外接矩形的縱寬與橫寬是否皆為閾值T1 以上,以判定各輪廓線之大小是否為基準以上。
結合限制部103,係將基準以上之大小的輪廓線,予以放大。一旦將輪廓線放大,則輪廓線就會變粗。輪廓線之放大的程度(把線加粗的像素數),係可為固定值,也可為可變值。若為固定值,則資料記憶部100中係記憶該值,若為可變值,則會根據資料記憶部100中所被記憶之數值來計算之。例如,結合限制部103,係基於輪廓線之位置或輪廓線之大小,來計算該當輪廓線的放大程度。此情況下,輪廓線越靠近影像的中央附近,則該輪廓線係為對話框線23A、23B的或然性就越高,因此,亦可將輪廓線的放大程度設成較大,可較確實地使其被塗滿。又例如,輪廓線越大,則該輪廓線係為對話框線23A、23B的或然性就越高,因此,亦可將輪廓線的放大程度設成較大,可較確實地使其被塗滿。在本實施形態中,放大的程度係為固定值,說明使線加粗所定像素份的情形。
圖7係將基準以上之大小的輪廓線予以放大後的各輪廓線之狀態的圖示。在圖7所示的例子中,格子21A、21B的輪廓線、角色22A~22C之一部分的輪廓線、對話框線23A、23B的輪廓線、及太陽25A之一部分的輪廓線,係變粗了所定像素份。如圖7所示,一旦結合限制部103將輪廓線放大,則位於較近的輪廓線彼此就會結合而變成1條粗的輪廓線。例如,在圖7所示的例子中,對話框線23A、23B之外周的輪廓線與內周的輪廓線係分別放大,它們彼此結合而變成1條粗的輪廓線。
〔放大輪廓線重疊處理〕
結合限制部103,係對已被2值化並反轉的電子書籍影像20(圖5),重疊已放大的輪廓線(圖7)。圖8係放大後的輪廓線係被重疊的電子書籍影像20的圖示。如圖8所示,以放大而變成較粗的1條輪廓線而將對話框線23A、23B予以重疊,藉此,對話框線23A、23B就會黑色塗滿。因此,藉由後述的處理,即使擴張部104將文字群24A、24B予以擴張,仍不會結合至對話框線23A、23B。
如上記,可將對話框線23A、23B以背景色塗滿。此外,將對話框線23A、23B以背景色塗滿的方法,係不限於上記說明的方法。例如,結合限制部103,係亦可選擇被基準以上之大小的輪廓線所包夾的領域(例如對話框線23A、23B),僅針對該選擇範圍,再次進行顏色之反轉處理。若如此設計,則例如,圖5所示的對話框線23A、23B的顏色會從白變回黑,因此可將對話框線23A、23B以黑色塗滿。其他還有例如,結合限制部103,係亦可將被基準以上之大小的輪廓線所包夾的領域,且為該當輪廓線之間隔為未滿一定距離的領域,以背景色塗滿。甚至,例如,結合限制部103,係亦可將被輪廓線所包夾的領域是持續一定距離以上的區間,以背景色塗滿。藉由對結合限制部103之處理對象的領域,追加如此條件,被該當條件所界定的領域係為如對話框線23A、 23B所示的線所描繪之部分的或然性就會變高。因此,可較確實地,將如對話框線23A、23B所示的線的部分予以塗滿,防止與文字群24A、24B結合。
又例如,使對話框線23A、23B、與文字群24A、24B不要結合的方法,係不限於將對話框線23A、23B以背景色塗滿的方法。例如,亦可為,結合限制部103,係將基準以上之大小的領域之位置(構成領域的像素之位置)事前記錄在資料記憶部100中,即使後述的已被擴張部104所擴張之領域是被包含在該當像素中,該像素係仍可不被視為相同領域。由於不被視為相同領域,因此例如,在將相同領域予以抽出的標籤化處理中,只要不指派相同號碼即可。其他還有例如,結合限制部103係亦可限制,在基準以上之大小的輪廓線之方向上,使擴張部104不要將領域予以擴張。藉由如此設計也是可以例如,使得文字群24A、24B不要往對話框線23A、23B之方向做擴張,因此可防止對話框線23A、23B、與文字群24A、24B結合。
〔2-5.擴張部〕
擴張部104,係將已被影像取得部101所取得之影像資料所示的電子書籍影像20中所含之表示物體的複數領域之每一者,予以擴張並結合。此外,擴張部104,係亦可將圖8所示的電子書籍影像20內的全部領域予以擴張,亦可為,結合限制部103所抽出的輪廓之大小為基準 以上之領域係不擴張,將輪廓之大小為未滿基準之領域予以擴張。亦即,例如,擴張部104係亦可為,角色22A、22B、22C的眼、鼻、口等,文字群24A、24B的各文字、太陽25A的一部分、食器25B這類,僅將輪廓之大小為未滿基準者予以擴張。
此外,所謂領域擴張,係使領域變粗,或是使領域所佔有的面積變大的意思。領域的擴張程度,係可為固定值,也可為可變值。若為固定值,則資料記憶部100中係記憶該值,若為可變值,則會根據資料記憶部100中所被記憶之數值來計算之。例如,擴張部104,係亦可基於影像中的領域之位置或大小,來計算該當領域的擴張程度。此情況下,領域越靠近影像的中央附近,則該領域係為文字的或然性就越高,因此,亦可將領域的擴張程度設成較大,可較確實地使其與其他文字結合。又,與其他領域距離越近,則該領域是文字群的1文字的或然性就越高,因此,亦可將領域的擴張程度設成較大,可較確實地使其與其他文字結合。又例如,若領域的大小是小於一定範圍(被推測為文字之程度的面積),則該領域係為文字的或然性就越高,因此,亦可將領域的擴張程度設成較大,可較確實地使其與其他文字結合。在本實施形態中,擴張的程度係為固定值,說明使領域加粗所定像素份的情形。
圖9及圖10係為擴張部104之處理內容的說明圖。此處係舉出擴張部104將文字群24A之各文字予以 擴張的情形為例子來說明。例如,如圖9所示,擴張部104,係將「H」擴張所定像素份。若換個方式來說,擴張部104,係將從「H」起算所定距離以內的像素(亦即「H」周圍的像素)以白色塗滿。擴張部104,係將文字群24A的「HELLO!HOW ARE YOU?」的「H」以外的文字,也和「H」同樣地擴張所定像素份。一旦擴張部104將文字群24A之各文字予以擴張,則如圖10所示,文字群24A之各文字會結合,可將文字群24A變成1個領域。
圖11係領域已被擴張部104擴張後之狀態的圖示。如圖11所示,此處,文字群24A、24B中所含之各文字之領域係會擴張而彼此結合,變成1個領域。其他還有例如,食器25B之各領域也會擴張而彼此結合。關於其他領域,係會進行擴張,但是由於附近沒有別領域因此不會結合。
〔2-6.判定限制部〕
判定限制部105,係藉由擴張部104而擴張之領域(圖12)的輪廓或該當領域本身之大小為未滿基準時,則限制該當領域變成文字領域判定部108之判定對象。此外,判定限制部105的說明中也是和結合限制部103同樣地,說明使用輪廓之大小的情形。
表示上記基準的閾值T2,係亦可小於閾值T1。此外,閾值T2係可為固定值,也可為可變值,這點 是和閾值T1相同。在本實施形態中,是將外接矩形的縱寬與橫寬當作大小來使用,因此判定限制部105,係藉由判定外接矩形的縱寬與橫寬是否皆為閾值T2以上,以判定藉由擴張部104而擴張之領域的輪廓是否未滿基準。
在本實施形態中係說明,判定限制部105,係在藉由擴張部104而擴張之領域之輪廓的大小是未滿基準的情況下,藉由將該當領域以背景色塗滿,以限制其變成文字領域判定部108之判定對象的情形。圖12係輪廓之大小為未滿基準的領域係被背景色所塗滿後之狀態的圖示。例如,角色22A、22C的眼、鼻、口等、太陽25A之一部分之輪廓是未滿基準之大小,因此如圖12所示,判定限制部105係將這些以黑色塗滿。
此外,亦可用將未滿基準之大小的領域以背景色塗滿以外的方法,來將其排除在文字領域判定部108所做的判定處理之對象以外。例如,判定限制部105,係亦可事前將未滿基準之大小的領域之位置記錄在資料記憶部100中,即使使用者指定該領域,仍使其不會執行文字領域判定部108所致之判定處理。
〔2-7.文字領域候補記錄部〕
文字領域候補記錄部106,係將電子書籍影像20內的表示文字領域候補的資料,記錄在資料記憶部100中。文字領域候補,係文字領域判定部108所致之文字領域判定部108所做的判定對象之領域。若換個方式來說,則文 字領域候補,係為具有含有文字之可能性的領域。在本實施形態中,判定限制部105所做的處理被執行後的電子書籍影像20(圖12)內的白像素之領域,係成為文字領域候補。
圖13係為文字領域候補之一例的圖示。文字領域候補記錄部106,係對圖12所示的電子書籍影像20執行輪廓抽出處理,將白像素之領域的輪廓(圖13中以虛線表示)予以抽出。輪廓抽出處理本身,係亦可為和結合限制部103所做的處理相同。此處,文字領域候補記錄部106,係將封閉領域之輪廓予以抽出,因此關於圖12所示的角色22A,係不會抽出輪廓。文字領域候補記錄部106,係將表示已抽出之輪廓線之位置的資料,記錄在資料記憶部100中。
此外,此處作為識別文字領域候補的資料,是舉例表示輪廓線之位置的資料,但只要是能夠識別文字領域候補的資料即可。例如,文字領域候補記錄部106,係亦可對圖12所示的電子書籍影像20執行標籤化處理,藉由對白像素為連續之像素賦予相同號碼,而將識別文字領域候補的資料加以記錄。
〔2-8.指定操作受理部〕
指定操作受理部107,係受理藉由擴張部104而擴張並結合之部分之領域的指定操作。指定操作,係只要是用來指定電子書籍影像20內之領域所需之操作即可,例如 係為指定電子書籍影像20內之位置的操作。在本實施形態中,以操作部13指定顯示部14之顯示畫面內之位置的操作,就相當於指定操作。包含已被操作部13指定之位置的領域,係被指定操作所指定。在本實施形態中,指定操作係指,指定文字領域候補之其中任一者的操作。
〔2-9.文字領域判定部〕
文字領域判定部108,係判定藉由擴張部104而擴張並結合的全部或部分之領域是否為文字領域。文字領域,係為含有1個以上之文字的影像內之領域。例如,會成為文字領域判定部108所做的判定對象的,可以是已被文字領域候補記錄部106所記錄的文字領域候補之全部,也可僅為一部。例如,文字領域判定部108係判定,已被指定操作受理部107所受理之指定操作所指定的部分之領域,是否為文字領域。在本實施形態中,指定操作受理部107,係受理文字領域候補之指定,因此會變成,文字領域判定部108係判定文字領域候補內是否包含有文字。此外,在本實施形態中係說明,文字領域判定部108係使用圖3所示之狀態的電子書籍影像20來執行判定處理的情形,但若隨著所使用的影像之狀態來改變文字領域之判定方法,則亦可使用圖5或圖8所示之狀態的電子書籍影像20。
例如,事前將文字模態之學習資料記憶在資料記憶部100中,文字領域判定部108係藉由比較文字領 域候補、和學習資料所示的文字模態,以判定文字領域候補是否為文字領域。在學習資料中係定義有複數判定項目,例如,藉由如下記的判定項目來進行是否為文字領域之判定。
圖14係使用學習資料的文字領域之判定處理的說明圖。首先,作為第1判定項目,文字領域判定部108係判定,文字領域候補之全體的大小是否為基準以上。文字領域候補之大小,係可使用外接矩形之大小,也可使計數文字領域候補的像素數。此處,說明使用外接矩形的情形。表示該基準的閾值T3,係可和閾值T1、T2相同,也可為不同。又,閾值T3,係和閾值T1、T2同樣地,可為固定值,也可為可變值。文字領域判定部108,係若外接矩形之大小為基準以上,則判定是文字領域。
如圖14所示,文字領域判定部108,係將外接矩形分切成n格×m格(n、m係皆為2以上之整數。這裡假設,n=m=10。)之矩形領域。然後,針對矩形領域之垂直線(在圖14中係為第1列~第10列之各線)及水平線(在圖14中係為第1行~第10行之各線)之每一者,判定第2判定項目~第5判定項目。此外,亦可針對全部格子都進行判定處理,也可只針對一部分的格子(例如外周的一部分之格子除外的格子)來進行判定處理。
作為第2判定項目,文字領域判定部108係判定,各線的白像素之數量是否為基準數以上。該基準數,係可為固定值,也可為可變值。文字領域判定部 108,係若白像素之數量為基準數以上,則判定是文字領域。作為第3判定項目,文字領域判定部108係從邊端開始掃描各線的像素,並計數白像素與黑像素做了反轉的數量,判定該當計數數是否為基準數以上。該基準數也是,可為固定值,也可為可變值。文字領域判定部108,係若計數數為基準數以上,則判定是文字領域。
作為第4判定項目,文字領域判定部108係從邊端開始掃描各線的像素,判定最初發現白色像素的位置是否為所定之位置。例如,文字領域判定部108,係若最初發現白色像素的位置是從邊端起算位於基準距離以內,則判定是文字領域。作為第5判定項目,文字領域判定部108係從邊端開始掃描各線的像素,判定最後發現白色像素的位置是否為所定之位置。例如,文字領域判定部108,係若最後發現白色像素的位置是從邊端起算位於基準距離以內,則判定是文字領域。
文字領域判定部108,係亦可在針對學習模態中所定義的第1判定項目~第5判定項目之全部而判定是文字領域的情況下,就判定文字領域候補是文字領域,也可在針對所定數以上(例如3個以上)之判定項目而判定是文字領域的情況下,就判定文字領域候補是文字領域。
此外,文字領域的判定方法,係不限於上記說明的方法,亦可適用公知的各種手法。例如,文字領域判定部108,係亦可將文字的形狀之模態與文字領域候補進行比較,藉由計算彼此的類似度,來判定是否為文字領 域。其他還有例如,使用有教師的機械學習手法(SVM:Support Vector Machine),來判定是否為文字領域。在該手法中,事前準備學習資料,一旦將複數項目當作參數而輸入至判定演算法,則判定演算法係使用所被輸入的參數和學習資料,就可獲得文字領域候補是否為文字領域之輸出。藉由使用如此手法,例如,即使是含有各種形狀之文字或繪畫的像是漫畫這類的影像,仍可較確實地界定文字領域。
〔2-10.處理執行部〕
處理執行部109,係基於已被文字領域判定部108判定是文字領域的領域,而執行所定之處理。在本實施形態中,作為所定之處理的一例,說明將影像予以放大之處理的情形。亦即,例如,處理執行部109,係於電子書籍影像20所被顯示的顯示部14中,將已被文字領域判定部108判定是文字領域的領域內予以放大而顯示。圖15係文字群24A被放大顯示之樣子的圖示。如圖15所示,一旦使用者指定了對應於文字群24A的文字領域候補,則藉由文字領域判定部108而會進行文字領域的判定處理,因此處理執行部109係令文字領域候補內所切出之放大影像26被顯示。在圖15的例子中,處理執行部109,係將圖8所示的電子書籍影像20之文字領域候補內進行切出放大顯示,因此放大影像26係以顏色已被反轉的狀態,而顯示文字。
此外,處理執行部109,係亦可將圖3所示的電子書籍影像20之文字領域候補內予以切出放大顯示。此情況下,放大影像26中的文字之顏色係不會反轉。又,放大影像26中切出的範圍,係不限於如圖15的長方形,也可為橢圓形等任意之形狀。又,放大影像26的顯示位置,係可隨機決定,也可基於使用者所指定的位置而定。又,放大影像26中的文字之放大率,係可基於文字領域候補之大小而決定,也可為所定之放大率。
〔3.於電子書籍顯示裝置中所被執行的處理〕
圖16係於電子書籍顯示裝置1中所被執行之處理之一例的流程圖。圖16所示的處理,係藉由控制部10依照記憶部11中所被記憶之程式而動作,而被執行。在本實施形態中,藉由執行下記所說明的處理,以實現圖2所示的機能區塊。例如,使用者使用操作部13,指示了程式之啟動的情況下,下記的處理會被執行。
如圖16所示,控制部10,係啟動記憶部11中所被記憶之程式(S1),基於來自操作部13之輸入,將使用者所指定的電子書籍予以界定(S2)。例如,於S1中所啟動的程式,係為電子書籍讀取器之應用程式。於S1中,控制部10,係令記憶部11中記憶有影像資料的電子書籍之一覽被顯示於顯示部14,於S2中,控制部10係從一覽之中將已被使用者所指定的電子書籍,加以界定。
控制部10,係參照記憶部11,取得使用者所指定的電子書籍的影像資料(S3)。此外,在記憶部11中,使用者所保有的電子書籍之識別資訊、和影像資料,是被建立關連而記憶。控制部10,係基於S3所取得的影像資料,令電子書籍的第1頁被顯示於顯示部14(S4)。於S4中,控制部10係令影像資料所示的電子書籍影像20(圖3),被顯示於顯示部14。
控制部10,係對電子書籍影像20,執行2值化處理和反轉處理(S5)。此外,如前述,雖然說明對顯示部14上所被顯示的電子書籍影像20執行S5~S11之影像處理的情形,但即使對顯示部14上所被顯示的電子書籍影像20的前後之頁面的電子書籍影像20,也是可以預先執行S5~S11之影像處理。於S5中,控制部10係生成2值化並反轉的電子書籍影像20(圖5)之資料並記錄在記憶部11中。
控制部10,係對S5所生成的電子書籍影像20內,執行輪廓抽出處理(S6)。於S6中,控制部10係生成電子書籍影像20內的表示輪廓線(圖6)的資料,並記錄在記憶部11中。
控制部10,係在S6所抽出的輪廓線之中,將基準以上之大小的輪廓線予以放大(S7)。於S7中,控制部10係生成表示已放大之輪廓線的資料(圖7),並記錄在記憶部11中。此外,控制部10,係亦可不是新生成該資料,而是將S6記錄在記憶部11中的輪廓線之資料 予以更新。
控制部10,係對S5所生成的電子書籍影像20,重疊S7所放大之輪廓線(S8)。於S8中,控制部10係生成表示重疊後的電子書籍影像20(圖8)的資料,並記錄在記憶部11中。此外,控制部10,係亦可不是新生成該資料,而是將S5記錄在記憶部11中的電子書籍影像20之資料予以更新。
控制部10,係將S8中被重疊了輪廓線的電子書籍影像20內之領域,予以擴張(S9)。於S9中,控制部10係生成表示擴張後的電子書籍影像20(圖11)的資料,並記錄在記憶部11中。此外,控制部10,係亦可不是新生成該資料,而是將S5或S8記錄在記憶部11中的電子書籍影像20之資料予以更新。
控制部10,係在S9所擴張的電子書籍影像20之領域之中,將未滿基準之大小的領域予以去除(S10)。於S10中,控制部10係生成表示已經去除了未滿基準之大小之領域後的電子書籍影像20(圖12)的資料,並記錄在記憶部11中。此外,控制部10,係亦可不是新生成該資料,而是將S5、S8或S9記錄在記憶部11中的電子書籍影像20之資料予以更新。
控制部10,係對S10中已被去除了領域的電子書籍影像20,執行輪廓抽出處理(S11)。S11的處理內容,係和S6相同,S11中所抽出的輪廓,係為文字領域候補之輪廓。於S11中,控制部10係生成S10中已被 去除了領域的電子書籍影像20內的表示輪廓線(圖13)的資料,並記錄在記憶部11中。
控制部10,係受理來自操作部13之輸入(S12)。此處,假設使用者可以進行:文字領域候補之指定操作、翻頁操作、或結束操作之任一者。若判定為使用者進行了文字領域候補之指定操作(S12;指定操作),則控制部10係判定已被指定之文字領域候補內是否含有文字(S13)。於S13中,控制部10係基於學習資料與文字領域候補內的像素值,來判定文字領域候補內是否含有文字。
若判定為文字領域候補內含有文字(S13;Y),則控制部10係令已被指定操作所指定之文字領域候補內被放大顯示(S14)。於S14中,控制部10係從圖8所示的電子書籍影像20,切出文字領域候補的內部,令其在顯示部14中被放大而顯示。
另一方面,若判定為使用者進行了翻頁操作(S11;翻頁操作),則控制部10係令下一頁被顯示在顯示部14(S15),回到S5的處理。此外,假設表示顯示中之頁面的資訊,係有被記憶在記憶部11中。回到S5後,對該當下一頁執行S5~S11的影像處理,抽出文字領域候補。
若判定為使用者進行了結束操作(S12;結束操作),則結束本處理。此外,S5~S11中被記錄在記憶部11中的資料,係亦可在本處理之結束時予以丟棄,也 可在從顯示部14不再顯示該當頁面時才被丟棄。其他還有例如,亦可在與顯示部14上正被顯示之頁面的頁數差為基準以上時,予以丟棄。
若依據以上說明的電子書籍顯示裝置1,則使文字群24A、24B之各文字放大並彼此結合,可將文字群24A、24B的各文字視為一整塊然後判定是否為文字領域,相較於OCR那樣1文字1文字個別進行文字辨識然後才將它們集結成一塊的情況,可迅速地界定電子書籍影像20中所含之文字群24A、24B之領域。例如,對文字領域候補之全體適用學習資料的情況下,由於可從文字領域候補的全體特徵來判定是否為文字領域,因此相較於OCR可以較為簡易的處理就能判定是否為文字領域。甚至,在個別判定文字的情況下,有可能無法界定某文字是否為與其他文字彼此關連的1個文字群,但電子書籍顯示裝置1,係像是文字群24A、24B所示,可以將彼此有關連的文字彼此判定為一整個文字群。甚至,在電子書籍的購入等時,相較於將表示各文字群之位置的資料預先記憶在記憶部11的情形,在令電子書籍顯示時進行動態的文字領域之判定的情況下,可有效活用記憶體容量。
又,一旦文字群24A、24B被放大,結合到對話框線23A、23B,則有可能無法將文字群辨識成一整塊,但由於電子書籍顯示裝置1係限制以使得對話框線23A、23B與文字群24A、24B不會結合,因此可將文字群辨識成為一整塊,也可提升文字領域的判定精度。甚 至,藉由將對話框線23A、23B視為雜訊而去除,在放大顯示之際可以防止對話框線23A、23B也被放大。
甚至,藉由將對話框線23A、23B之領域以背景色塗滿,可以用比較簡易的處理,就可使其不與文字群24A、24B結合,因此可減輕電子書籍顯示裝置1的處理負荷。
又,藉由將小的領域視為文字領域的判定對象外,可確實去除雜訊,對於明顯不含文字的領域就不會進行是否為文字領域的判定,可避免執行無謂的處理。甚至,不把小的領域記憶在記憶部11中而丟棄的情況下,可有效活用記憶體領域。
又,藉由將小的領域以背景色塗滿,就可以用比較簡易的處理,將其排除在文字領域之判定的對象以外,因此可減輕電子書籍顯示裝置1的處理負荷。
又,藉由對已被指定操作所指定之文字領域候補進行文字領域之判定,對於使用者所未指定的文字領域候補以外係不判定是否為文字領域,不需要無謂的文字領域之判定(例如針對使用者認為不需要特別放大的領域係不進行文字領域之判定),可減輕電子書籍顯示裝置1的處理負荷。
又,藉由將已被判定是文字領域的文字領域候補予以放大顯示,相較於OCR那樣1個1個文字辨識然後集結成一塊的情形,可較迅速地將文字群放大顯示。甚至,由於是先把文字設成一整塊然後對該領域全體進行 文字領域之判定,因此不像OCR那樣1個1個文字辨識然後將其集結成一塊然後放大,可藉由比較簡易的處理而將文字整塊予以放大顯示。
〔4.變形例〕
此外,本發明係不限定於以上說明的實施形態。在不脫離本發明之宗旨的範圍內,可做適宜變更。
例如,各格子21中所被描繪的文字,係亦可不只是角色所講的話,也可以是表示角色的心情或漫畫之效果音。即使是此種文字,仍可藉由擴張部104將領域擴張,而將文字視為一整塊來辨識。又,在實施形態中,雖然舉例漫畫的台詞是以英語撰寫的情形,但只要是能夠在電子書籍顯示裝置1上進行文字領域之判定的語言即可,亦可為其他語言。甚至,雖然角色之台詞是以橫書撰寫的情形來說明,但亦可為直書。此情況下,事前將橫書用的學習模態、和直書用的學習模態之2者準備在資料記憶部100中,文字領域判定部108,係以橫書用和直書用之學習模態之那一者而判定出文字領域,就將文字領域候補判定成文字領域即可。
又例如,結合限制部103所進行的2值化反轉處理係亦可省略。又,在實施形態中,雖然說明了文字是被對話框線所圍繞的情形,但文字係亦可不被對話框線所圍繞。此情況下,結合限制部103之處理係可省略。又,文字係可為所定之字型,也可為手寫。即使是手寫的 文字,仍可藉由擴張部104之處理而將文字視為一整塊來判定。甚至,亦可隨著對話框、格子、頁面,而文字的字型或大小、色彩、亮度是有所不同。即使字型或大小、色彩、亮度有所不同,藉由擴張部104將影像內之領域予以擴張,仍可將文字視為一整塊來判定。
又例如,作為處理執行部109所執行的所定處理之一例,說明了將已被文字領域判定部108判定是文字領域的文字領域候補予以放大顯示的情形,但對已被判定是文字領域的文字領域候補的處理內容,係不限於放大顯示等之影像處理。除此以外,電子書籍顯示裝置1,係亦可將已被判定是文字領域的文字領域候補內之文字加以翻譯,也可輸出機械語音。亦即,所定之處理,係亦可為翻譯處理,也可為語音輸出處理。甚至,電子書籍顯示裝置1,係亦可將已被判定為含有文字的文字領域候補內藉由OCR而進行文字抽出,將該當抽出的文字之資料記錄在記憶部11中,而可檢索電子書籍中的文字。亦即,所定之處理,係亦可為文字抽出處理或檢索處理。此外,處理執行部109,係亦可不是將已被判定是文字領域的文字領域候補內予以切出而放大顯示,而是基於OCR所偵測到的文字之資料而進行放大顯示。
又例如,在實施形態中係說明,文字領域判定部108,係以使用者進行指定文字領域候補的指定操作為條件,判定該當文字領域候補是否為文字領域的情形。亦即,雖然說明了,文字領域判定部108,係直到使用者 進行指定操作以前,會一直等待是否為文字領域的判定處理,但該當判定處理,係在任意之時序上被執行即可,執行判定處理所需之條件,係不限於指定操作。例如,亦可為,即使使用者沒有特別進行操作,文字領域判定部108,係對所有文字候補領域自動進行是否為文字領域之判定處理。
例如,文字領域判定部108,係亦可在電子書籍影像20被顯示時,對文字領域候補自動判定是否為文字領域。又例如,文字領域判定部108,係亦可在電子書籍影像20被顯示前,對文字領域候補自動判定是否為文字領域。若換個方式來說,則電子書籍之程式被啟動起,到電子書籍影像20被顯示為止之間,文字領域判定部108係都可進行文字領域之判定。又例如,文字領域判定部108,係亦可即使在電子書籍之程式啟動前,仍可進行文字領域之判定。例如,從電子書籍顯示裝置10從伺服器等下載電子書籍的影像資料,到電子書籍之程式啟動為止之間,文字領域判定部108係亦可對文字領域候補進行文字領域之判定。此外,此情況下,結合限制部103、擴張部104、判定限制部105、及文字領域候補記錄部106之每一者的處理是事前就被執行,預先將文字領域候補予以抽出即可。
甚至,本發明所述之影像處理裝置,係亦可適用於電子書籍顯示裝置10以外,影像處理裝置,係亦可為不會特地顯示影像的裝置,顯示控制部102係亦可省 略。例如,影像處理裝置,係亦可在電子書籍的販售前,對電子書籍影像20預先判定文字領域,連同電子書籍的影像資料,一起將表示該當判定出來之文字領域的資料,提供給使用者。其他還有例如,影像處理裝置,係亦可以伺服器電腦來實現,例如,電子書籍的影像資料是被上傳至影像處理裝置的情況下,文字領域判定部108係判定文字領域。此情況下也是,結合限制部103、擴張部104、判定限制部105、及文字領域候補記錄部106之每一者的處理是事前就被執行,預先將文字領域候補予以抽出即可。
又例如,在實施形態中,作為電子書籍之一例是說明了漫畫,但只要是含有文字的電子書籍即可,就算漫畫以外也可適用本發明。例如,即使對於在文字周圍存在有一定空白的繪畫本或雜誌等,由於可和實施形態同樣地抽出文字領域,因此也可適用於繪本或雜誌等。甚至,本發明係亦可對電子書籍以外的影像做適用。例如,亦可對於描繪有文字的紙等進行掃描而成的影像資料,由文字領域判定部108進行文字領域之判定,由處理執行部109執行所定之處理。又例如,亦可對文字與繪畫等混合的資料、論文、傳單等的影像資料,由文字領域判定部109進行文字領域之判定。本發明所述之處理,係可對含有文字的各種影像做適用。
100‧‧‧資料記憶部
101‧‧‧影像取得部
102‧‧‧顯示控制部
103‧‧‧結合限制部
104‧‧‧擴張部
105‧‧‧判定限制部
106‧‧‧文字領域候補記錄部
107‧‧‧指定操作受理部
108‧‧‧文字領域判定部
109‧‧‧處理執行部

Claims (9)

  1. 一種影像處理裝置,其特徵為,含有:影像取得手段,係用以取得將影像資料予以記憶之手段中所被記憶的前記影像資料;和擴張手段,係用以將已被前記影像取得手段所取得之影像資料所示之影像中所含之表示物體的複數領域之每一者予以擴張並結合;和文字領域判定手段,係用以判定藉由前記擴張手段而擴張並結合的全部或部分之領域是否為文字領域;和處理執行手段,係用以基於已被前記文字領域判定手段判定是文字領域的領域,而執行所定之處理。
  2. 如請求項1所記載之影像處理裝置,其中,前記影像處理裝置係還含有:結合限制手段,係用以在表示前記影像中所含之物體的領域之輪廓或該當領域本身之大小為基準以上的情況下,限制該當領域、與藉由前記擴張手段而擴張之領域做結合。
  3. 如請求項2所記載之影像處理裝置,其中,前記結合限制手段,係在表示前記影像中所含之物體的領域之輪廓或該當領域本身之大小為基準以上的情況下,藉由將該當領域以背景色塗滿,以限制其與藉由前記擴張手段而擴張之領域做結合。
  4. 如請求項1~3之任一項所記載之影像處理裝置,其中,前記影像處理裝置係還含有:判定限制手段,係用以 在藉由前記擴張手段而擴張之領域的輪廓或該當領域本身之大小為未滿基準的情況下,限制該當領域變成前記文字領域判定手段之判定對象。
  5. 如請求項4所記載之影像處理裝置,其中,前記判定限制手段,係在藉由前記擴張手段而擴張之領域的輪廓或該當領域本身之大小為未滿基準的情況下,藉由將該當領域以背景色塗滿,以限制其變成前記文字領域判定手段之判定對象。
  6. 如請求項1~3之任一項所記載之影像處理裝置,其中,前記影像處理裝置係還含有:指定操作受理手段,係用以受理藉由前記擴張手段而擴張並結合之部分之領域的指定操作;前記文字領域判定手段係判定,已被前記指定操作受理手段所受理之指定操作所指定的部分之領域是否為文字領域。
  7. 如請求項1~3之任一項所記載之影像處理裝置,其中,前記處理執行手段,係於前記影像所被顯示的顯示手段中,將已被前記文字領域判定手段判定是文字領域的領域內予以放大而顯示。
  8. 一種影像處理方法,其特徵為,含有:影像取得步驟,係用以取得將影像資料予以記憶之手段中所被記憶的前記影像資料;和 擴張步驟,係用以將已被前記影像取得步驟所取得之影像資料所示之影像中所含之表示物體的複數領域之每一者予以擴張並結合;和文字領域判定步驟,係用以判定藉由前記擴張步驟而擴張並結合的全部或部分之領域是否為文字領域;和處理執行步驟,係用以基於已被前記文字領域判定步驟判定是文字領域的領域,而執行所定之處理。
  9. 一種程式產品,係用來令電腦發揮機能而成為:影像取得手段,係用以取得將影像資料予以記憶之手段中所被記憶的前記影像資料;擴張手段,係用以將已被前記影像取得手段所取得之影像資料所示之影像中所含之表示物體的複數領域之每一者予以擴張並結合;文字領域判定手段,係用以判定藉由前記擴張手段而擴張並結合的全部或部分之領域是否為文字領域;處理執行手段,係用以基於已被前記文字領域判定手段判定是文字領域的領域,而執行所定之處理。
TW105121569A 2015-07-10 2016-07-07 Image processing device, image processing method, and program product TWI633498B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
PCT/JP2015/069955 WO2017009910A1 (ja) 2015-07-10 2015-07-10 電子書籍表示装置、電子書籍表示方法、及びプログラム
??PCT/JP2015/069955 2015-07-10

Publications (2)

Publication Number Publication Date
TW201705042A true TW201705042A (zh) 2017-02-01
TWI633498B TWI633498B (zh) 2018-08-21

Family

ID=57756956

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105121569A TWI633498B (zh) 2015-07-10 2016-07-07 Image processing device, image processing method, and program product

Country Status (5)

Country Link
US (1) US10572759B2 (zh)
JP (2) JPWO2017009910A1 (zh)
CA (1) CA2991106C (zh)
TW (1) TWI633498B (zh)
WO (2) WO2017009910A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7067262B2 (ja) * 2018-05-21 2022-05-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0271379A (ja) * 1988-09-07 1990-03-09 Fuji Xerox Co Ltd 画像処理装置
JPH0540849A (ja) 1991-08-05 1993-02-19 Oki Electric Ind Co Ltd 文書画像の領域抽出方法
US5920655A (en) 1995-02-10 1999-07-06 Canon Kabushiki Kaisha Binarization image processing for multi-level image data
JP3733154B2 (ja) * 1995-02-10 2006-01-11 キヤノン株式会社 画像処理装置及びその方法
JP3608965B2 (ja) * 1998-12-18 2005-01-12 シャープ株式会社 自動オーサリング装置および記録媒体
JP2001143074A (ja) * 1999-11-10 2001-05-25 Minolta Co Ltd 画像処理装置、画像処理方法および画像処理プログラムを記録したコンピュータ読取可能な記録媒体
JP4150842B2 (ja) * 2000-05-09 2008-09-17 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2002165079A (ja) * 2000-11-27 2002-06-07 Minolta Co Ltd 画像処理装置及び方法
EP1555804A3 (en) * 2004-01-19 2006-08-16 Ricoh Company, Ltd. Image processing apparatus, image processing program and storage medium
JP2005328348A (ja) * 2004-05-14 2005-11-24 Ricoh Co Ltd 画像処理装置、プログラム、及び記憶媒体
JP4349183B2 (ja) 2004-04-01 2009-10-21 富士ゼロックス株式会社 画像処理装置および画像処理方法
JP2010057017A (ja) * 2008-08-29 2010-03-11 Konica Minolta Business Technologies Inc 画像処理装置および画像処理方法
KR100967379B1 (ko) * 2009-11-04 2010-07-05 (주)올라웍스 그래프 컷의 초기값을 설정하는 방법, 단말 장치, 및 컴퓨터 판독 가능한 기록 매체
KR101727137B1 (ko) * 2010-12-14 2017-04-14 한국전자통신연구원 텍스트 영역의 추출 방법, 추출 장치 및 이를 이용한 번호판 자동 인식 시스템
TWM457241U (zh) * 2012-11-26 2013-07-11 Ya Technology Co Ltd 結合擴增實境的圖像文字辨識系統

Also Published As

Publication number Publication date
TWI633498B (zh) 2018-08-21
JPWO2017010351A1 (ja) 2018-03-08
US10572759B2 (en) 2020-02-25
JP6294572B2 (ja) 2018-03-14
JPWO2017009910A1 (ja) 2017-07-13
CA2991106C (en) 2021-02-16
WO2017010351A1 (ja) 2017-01-19
WO2017009910A1 (ja) 2017-01-19
US20180189589A1 (en) 2018-07-05
CA2991106A1 (en) 2017-01-19

Similar Documents

Publication Publication Date Title
US10699166B2 (en) Font attributes for font recognition and similarity
US20200034671A1 (en) Font Recognition using Text Localization
US20190286932A1 (en) Detecting objects using a weakly supervised model
US11087163B2 (en) Neural network-based optical character recognition
US20170098141A1 (en) Determination of Font Similarity
CN114155543A (zh) 神经网络训练方法、文档图像理解方法、装置和设备
US8718368B2 (en) Text flow in and around irregular containers
US20120284610A1 (en) Object display device, object display method, object display control program, and computer-readable recording medium whereupon program is recorded
KR20170007106A (ko) 전자 책 서비스 시스템
US10121088B2 (en) System and method for straightening curved page content
CN111461070B (zh) 文本识别方法、装置、电子设备及存储介质
CN115019324A (zh) 文本扫描的交互方法、装置、计算机设备和存储介质
TWI633498B (zh) Image processing device, image processing method, and program product
US9229608B2 (en) Character display apparatus, character display method, and computer readable medium
US11132496B2 (en) Electronic book display device, electronic book display method, and program
WO2023272495A1 (zh) 徽标标注方法及装置、徽标检测模型更新方法及系统、存储介质
JP2024501444A (ja) メディアコンテンツのオーバーレイに適した画像スペースの検出
CN110134933B (zh) 数据处理方法、装置、终端及存储介质
US11189066B1 (en) Systems and methods of learning visual importance for graphic design and data visualization
KR20230073875A (ko) 이미지를 적응적으로 디스플레이하는 전자 장치 및 그 동작 방법