WO2013136546A1

WO2013136546A1 - 画像処理装置、及び画像処理方法

Info

Publication number: WO2013136546A1
Application number: PCT/JP2012/068631
Authority: WO
Inventors: 邦男長田
Original assignee: 株式会社東芝; 東芝ソリューション株式会社
Priority date: 2012-03-16
Filing date: 2012-07-23
Publication date: 2013-09-19
Also published as: CN104137119B; JP2013196136A; US20140355896A1; JP5547226B2; CN104137119A; US9275279B2

Abstract

　画像処理装置は、文字画素数が最も多い階調の文字画素数と、文字画素数が２番目である階調の文字画素数との差分に有意の差異がある場合は、画素数が最も多い階調における非文字成分を除去後の文字候補成分を出力画像として選択するとともに、文字画素数が最も多い階調の文字画素数と、文字画素数が２番目である階調の文字画素数との差分に有意の差異がない場合は、エッジ画素数が最も少ない階調における非文字成分を除去後の文字候補成分を出力画像として選択する。

Description

画像処理装置、及び画像処理方法

　本発明の実施形態は、画像データから文字を抽出する画像処理装置、及び画像処理方法に関する。

　従来、画像データに縁取りされた文字が含まれている場合に、縁取り部分を除去して文字を抽出する技術が知られている。具体的な方法としては、画像データを二値画像へと変換した後に、各階調毎に文字を切り出して、切り出し後の文字が通常文字であるか、白抜文字であるかを判定し、白抜き文字である場合は、通常文字に変換する画像補正を行って、文字を取得する技術がある。また、画像データに対して、複数の文字認識辞書を参照して文字認識を実行し、それぞれの実行結果の文字としての信頼度を計算し、信頼度が高い認識結果を選択する技術も存在している。

特開平１１－１６１７３９号公報特開２００９－１９９２７６号公報

　しかしながら、従来の画像処理による文字抽出にあっては、縁取りが太い場合や、文字同士が接触している場合に、文字の切り出しが困難な場合が存在していた。また、文字認識辞書を用いる場合にあっては、複数の文字認識辞書を組みあわせて計算を行うため、計算量が増大する傾向にある。

　本発明は、上記に鑑みてなされたものであって、縁取りの態様にかかわらず、画像データから文字を適切に抽出することができる画像処理装置を提供することにある。

　上述した課題を解決し、目的を達成するために、本発明の画像処理装置は、画像データを取得する取得部と、予め定められた第１基準に基づいて、画像データから文字候補成分の集合を当該画像データの階調ごとに抽出する抽出部と、予め定められた第２基準に基づいて、文字候補成分の集合から非文字成分を除去する除去部とを備える。

　また、画像処理装置は、非文字成分を除去後の文字候補成分に含まれる画素数を表す文字画素数を計測する文字計測部と、非文字成分を除去後の文字候補成分と隣接するエッジ画素の画素数を表すエッジ画素数を計測するエッジ計測部と、を備える。

　そして、画像処理装置は、文字画素数が最も多い階調の文字画素数と、文字画素数が２番目である階調の文字画素数との差分に有意の差異がある場合は、非文字成分を除去した後の画素数が最も多い階調における文字候補成分を出力画像として選択する。また、画像処理装置は、文字画素数が最も多い階調の文字画素数と、文字画素数が２番目である階調の文字画素数との差分に有意の差異がない場合は、非文字成分を除去後のエッジ画素数が最も少ない階調における文字候補成分を出力画像として選択する。そして画像処理装置は、選択した出力画像を出力する。

実施形態において画像処理装置を含む画像処理システムの機能ブロック図である。実施形態において画像処理の流れを示すフロー図である。実施形態において画像データの一例を示す図である。実施形態において区分処理の流れを示すフロー図である。実施形態において小領域に分割された画像データの一例を示す図である。実施領域において区分領域に区分された画像データの一例を示す図である。実施形態において文字画素抽出処理の流れを示すフロー図である。実施形態において文字画素抽出処理を行う際の変換画像の状態の推移を示した図である。実施形態において変換画像の状態の一例を示した図である。実施形態において変換画像の状態の一例を示した図である。実施形態において出力画像を生成する処理の流れを示した図である。実施形態において変換画像のエッジ画素を示した図である。実施形態において出力される出力画像を示した図である。実施形態において画像データの一例を示す図である。実施形態において文字画素抽出処理を行う際の変換画像の状態の推移を示した図である。実施形態において画像データの一例を示す図である。実施形態において文字画素抽出処理を行う際の変換画像の状態の推移を示した図である。実施形態において画像データの一例を示す図である。

　以下に、本発明にかかる画像処理装置の実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。図１は本実施形態の画像処理装置１０を含む画像処理システム１００の構成を示すブロック図である。

　図１に示されるように、この画像処理システム１００は、画像処理装置１０に対して、入力装置としてのスキャナ１、手書き入力部２、および、ＨＤＤレコーダ３等が接続されている。画像処理装置１０には、これらの入力装置からの画像データが入力される。

　画像処理装置１０は、ＣＰＵ、メモリ、ハードディスク、入出力インターフェースなどの汎用的なハードウェアを備えるものである。画像処理装置１０は、画像取得部２１、記憶部２２、区分部２３、抽出部２４、除去部２５、画素計測部２６、エッジ計測部２７、及び出力部２８を備えている。記憶部２２は、記憶メモリやハードディスクにより実現されている。また、画像取得部２１、区分部２３、抽出部２４、除去部２５、画素計測部２６、エッジ計測部２７、及び出力部２８は、例えばハードディスクに記憶された画像処理プログラムの機能として実現されている。

　画像取得部２１は入力装置から入力される処理対象の画像データを取得し、取得した画像データを記憶部２２に書き込む。区分部２３は、記憶部２２から画像データを読み出し、画像データを１以上の区分領域に区分する。区分部２３は、区分した画像データのそれぞれの区分領域における開始位置、及び終了位置の座標情報を記憶部２２に書き込む。

　抽出部２４は、画像データ、及び各区分領域の開始位置と終了位置とを、記憶部２２から読み出し、それぞれの区分領域に含まれる画像データから文字画素を抽出して記憶部２２に書き込む。除去部２５は、抽出部２４が抽出した文字画素から、縁取りや、非文字成分などを除去して、除去後の文字画素を記憶部２２に書き込む。画素計測部２６、及びエッジ計測部２７は、文字候補成分に含まれる画素数を計測し、抽出部２４と連携して機能する。詳細については後述する。出力部２８は、記憶部２２から出力画像として文字画素を読み出し、ＯＨＰなどの文字を認識することができる文字認識装置３０に出力する。

　続いて、図２を参照して実施形態の画像処理システムの処理の流れを説明する。画像処理装置１０は、入力装置から文字列の画像データを取得すると、取得した画像データを記憶部２２に書き出す（ステップＳ１００）。図３は画像データの一例を示しており、横幅１１００画素、高さ２１５画素、取り得る画素値が０以上２５５以下のグレースケールの画像である。なお、画像データはカラー画像や二値画像であってもよい。次に、区分部２３は記憶部２２から画像データを読み出し、画像データを１以上の区分領域に区分し、画像データにおけるそれぞれの区分領域の開始位置、終了位置を記憶部２２に書き出す。（ステップＳ１０１）。

　次に、抽出部２４は、記憶部２２から区分領域を１つ選択する（ステップＳ１０２）。本実施形態では、記憶部２２に書き込まれた順に区分領域を選択する。続いて、抽出部２４は、ステップＳ１０２で選択した区分領域内から後述する文字候補成分の集合を抽出し、除去部２５が文字候補成分から後述する非文字成分を除去したうえで、該文字候補成分を構成する文字画素を記憶部２２に書き出す文字画素抽出処理を実施する（ステップＳ１０３）。続いて、抽出部２４は、ステップＳ１０２で選択した、区分領域を記憶部２２から削除する（ステップＳ１０４）。文字画素抽出処理が完了した区分領域を削除することで、次のステップＳ１０２の区分領域の選択時には、記憶部２２に次に記憶された区分領域が選択される。なお、文字画素抽出処理が完了した区分領域を削除するのではなく、例えばメモリアドレスのポインタを変更することで、次の区分領域を選択できるようにしてもよい。

　続いて、抽出部２４は、全ての区分領域において文字画素抽出処理が実施されたか否かを判定する（ステップＳ１０５）。全ての区分領域において文字画素抽出処理が実施されたと判定された場合（ステップＳ１０５：Ｙｅｓ）、出力部２８は記憶部２２から文字画素を読み出し、文字認識装置３０に出力画像として出力し、処理を終了する（ステップＳ１０６）。一方、全ての区分領域において文字画素抽出処理が実施されていないと判定された場合（ステップＳ１０５：Ｎｏ）、ステップＳ１０２からの処理を再度繰り返す。

　次に、ステップＳ１０１における、画像データを複数の区分領域に区分する処理について図４を用いて説明する。画像データを区分領域に区分する処理を行うためには、例えば、画像データを一定間隔で区切った領域を区分領域としたり、予め定めた色を含む領域を画像データから抽出して、抽出した領域をそれぞれ区分領域としたり、あるいは予め定めた位置や予め定めた形の領域を区分領域としたりといった方法を採ることができる。

　本実施形態では画像データの画素値が連続して類似している領域を画像データの区分領域とする。図４に示されるように、まず区分部２３は、初期化処理を行う。（ステップＳ２０１）。初期化処理においては、区分部２３は、画像データにおける読み取り方向に従って画像データを小領域数Ｎ_Ｒ個の等間隔に区分され区分領域よりも小さい小領域へと分割する。分割の際の間隔や分割数は、小領域の大きさが区分領域より小さくなる範囲で適宜設定すればよい。文字の読み取り方向は、予め定めておいてもよいし、自動的に判定してもよい。本実施形態においては、画像データの長辺が上辺および下辺であれば読み取り方向を横方向と判定し、左辺および右辺であれば読み取り方向を縦方向と判定する。図３の画像データでは画像の長辺は上辺および下辺であるため、読み取り方向は横方向である。

　また、パラメータとして、現在処理中の小領域の番号を示す変数であるｉを０にする。また、区分領域の境界となる小領域の位置を示す変数であるｂを０にする。また、区分領域の番号を示す変数であるｓを０にする。

　図５は、小領域に分割された画像データ５００の状態を示している。図５に示されるように、画像データ５００は０～１４までの合計１５の小領域に分割されている。小領域数は予め定めた値であってもよいし、画像データの値を用いて算出してもよい。本実施形態においては、以下の式１を用いて小領域数Ｎ_Ｒを算出する。

　式１において、ｓは画像データの短辺の長さ、ｌは画像の長辺の長さ、ｒ_Ｒはパラメータとして予め定めた値であり、ｉｎｔｅｇｅｒは入力値を整数に変換する関数である。本実施形態においては、ｓは２１５画素、ｌは１１００画素であり、ｒ_Ｒとして０．３４が設定されており、計算の結果１５となる。なお、図５においては画像データを互いに重複しない矩形の領域に分割する例を示したが、他の例として小領域が互いに重複するようにしてもよいし、矩形ではなく楕円や三角形など他の形状の領域に分割するようにしてもよい。

　次に、区分部２３は、Ｎ_Ｒ個に分割された小領域について、領域ごとの画素値のヒストグラムを生成する（ステップＳ２０１）。図５において、符号５０１、５０２で示したグラフは、例として０番目と５番目の小領域における画素値のヒストグラムを模式的に表したものである。以降、ｉ番目の小領域についてのヒストグラムをＨ_ｉと示し、０番目からＮ_Ｒ－１番目までの小領域についてのヒストグラムの集合をＨと示す。

　続いて、区分部２３は、ｂ番目からｉ－１番目のヒストグラムを平均化したヒストグラムと、ｉ番目のヒストグラムとの相違度ｄを算出する（ステップＳ２０２）。この際、ｂは、現在処理を行っている区分領域の開始位置を示す変数であるから、この算出した値は、ある小領域のヒストグラムが、区分領域に属するその小領域の直前の小領域までのヒストグラムとの間で、大きな画素値の傾向の変化があるか否かを示す値である。ここでは例として相違度ｄの算出に式２を用いる。

　Ｍ（Ｈ、ｂ、ｉ－１）はｉ＞０の場合に、ヒストグラムＨ_ｂ、Ｈ_ｂ＋１、・・・、Ｈ_ｉ－１を平均化したヒストグラムを出力し、ｉ＝０の場合は出力値が保証されない関数である。Ｄは第１引数と第２引数で与えられる２つのヒストグラムの相違度を出力する関数である。複数のヒストグラムを平均化するには、ヒストグラムの各ビンの値について平均値や中央値を算出することで実現する。本実施形態では例として各ビンに平均値を与えることとする。また、本実施形態では例として関数Ｄを式３のようにして実現する。

　式３においてＨ_Ａ、ｊはヒストグラムＨ_Ａのｊ番目のビンの値を指し、Ｈ_Ｂ、ｊはヒストグラムＨ_Ｂのｊ番目のビンの値を指す。ただしｊは０＜j＜Ｎ_Ｈの整数であり、Ｎ_Ｈはヒストグラムのビン数である。

　続いて、区分部２３は、ｉが０より大きく、かつステップ算出した相違度ｄが予め定めた閾値ｔ_ｄ以上であるか否かを判定する（ステップＳ２０３）。ｉが０より大きく、相違度ｄが予め定めた閾値ｔ_ｄ以上であると判定された場合（ステップＳ２０３：Ｙｅｓ）、ヒストグラムの傾向が変わったことから、一つ手前までの小領域の集合を区分領域とし、区分部２３はｓ番目の区分領域の開始位置と終了位置を決定して記憶部２２に書き出す（ステップＳ２０４）。開始位置と終了位置の算出方法として、本実施形態では式４を用いる。

　式４においてＰ_ｓは区分領域の開始位置と終了位置の集合、すなわちＰ_ｓ＝｛開始位置、終了位置｝であり、Ｐ_{ｓ－１、１}はｓ－１番目の区分領域の終了位置であり、aは開始位置および終了位置を調整するパラメータで予め定めた値であり、ｍｉｎは引数の内最小の値を出力する関数である。

　続いて、区分部２３は、次の区分領域の開始位置として、ｂの値に現在のｉの変数を代入するとともに、区分領域の番号であるＳに１加算する（ステップＳ２０５）。そして、ステップＳ２０６に移行する。また、ｉが０である、または相違度ｄが予め定めた閾値ｔ_ｄ以上でないと判定された場合も（ステップＳ２０３：Ｎｏ）、ステップＳ２０６へと移行する。

　ステップＳ２０６においては、区分部２３は、ｉを１増加し、次の小領域に対する処理へと移行する（ステップＳ２０６）。続いて、区分部２３は、ｉがＮ_Ｒと同値か否かを判定する（ステップＳ２０７）。ｉがＮ_Ｒと同値である、すなわち全ての小領域に対する区分処理が終了したと判定された場合（ステップＳ２０７：Ｙｅｓ）、区分部２３は、ステップ２０４と同様、区分領域の開始位置と終了位置の値を算出し、記憶部２２に書き出すとともに、現在の区分数であるｓ＋１を区分領域の総数として記憶部２２に書き出し、処理を終了する（ステップＳ２０８）。一方、ｉがＮ_Ｒと同値でないと判定された場合（ステップＳ２０７：Ｎｏ）、ステップＳ２０２からの処理を繰り返す。

　図３が画像データである場合、図５の分割された５番目までの小領域は互いに文字や縁取り、背景の輝度から算出されるヒストグラムの傾向が類似しているため、ｉが０≦ｉ≦４の間はステップＳ２０２における相違度ｄは比較的小さな値となる。一方、６番目の小領域は左から５つ目までの小領域とは文字や縁取り、背景の輝度が異なる。そのため、ｉ＝５のとき相違度ｄは０≦ｉ≦４のときよりも大きな値となる。したがって、0≦ｉ≦４の場合は、ｄが予め設定した閾値ｔ_ｄを下回り、ｉ＝５の場合にｄがＴ_ｄ以上となることから、図６に示されるように、最初の第１区分領域５１０と、第２区分領域５２０とが、この例においては得られる。

　次に図７を参照してステップＳ１０３における文字画素抽出処理について説明する。図７に示されるように、まず、抽出部２４は記憶部２２から画像データ、及びステップＳ１０２において選択した区分領域の開始位置と終了位置とを読み出し、画像データの区分領域の範囲を二値画像に変換する（ステップＳ３００）。以降、変換した画像データを変換画像Ｉ_Ｂとする。画像の変換には、例えば公知の色クラスタリング方法を用いてもよいし、公知の画像二値化方法を用いてもよいし、あるいは別の画像の二値化方法や多値化方法を用いてもよい。なお、二値画像ではなく、カラー画像やグレースケールの画像に変換してもよい。

　本実施形態においては、例として、もし区分領域の範囲にある画素の画素値が予め定めた閾値未満であれば画素値０、そうでなければ画素値１に変換し、変換した結果を変換画像Ｉ_Ｂとして書き出す。

　続いて、抽出部２４は現在どの画素値の変換画像Ｉ_Ｂを処理中であるかを示す変数であるｉを初期化して０とする。（ステップＳ３０１）。すなわち、ｉが０の場合は、画素値０の変換画像に対して処理を行っていることを意味し、ｉが１の場合は、画素値１の変換画像に対して処理を行っていることを意味する。本実施形態では、二値画像であることから、ｉの最大値は１であるが、カラー画像の場合はｉの値は１よりも大きくなる。

　続いて、抽出部２４は変換画像Ｉ_Ｂから文字候補成分を抽出し、文字候補成分の集合を取得する（ステップＳ３０２）。文字候補成分は、予め定めた第１基準に基づいて文字情報として認識される候補と判定された画素である。本実施形態では第１基準を例として、公知の画像の連結成分抽出方法によって定めて、文字候補成分を抽出する。このとき変換画像において画素値がｉ（本実施形態では０又は１）の画素を対象として連結成分を抽出することにより、画素値がｉである画素を含む連結成分の集合を文字候補成分とする。また、抽出部２４は、文字候補成分に対し、０から始まる連続した識別番号を割り当てる。

　このように本実施形態では変換画像Ｉ_Ｂにおいて画素値が同じ画素同士の連結成分を文字候補成分として抽出するが、画素値が類似した画素同士の連結成分を抽出してもよいし、画素値が奇数の画素同士や偶数の画素同士の連結成分を抽出するなど、別の基準によって連結成分を抽出する対象を決定してもよい。

　図８は、本実施形態における文字画素抽出処理を実施した際の変換画像Ｉ_Ｂの状態遷移を示した図である。ステップＳ３０２の処理を実施後の状態においては、図８（ａ）に示したように、ｉ＝０の場合には、区分領域から抽出された文字候補成分が黒画素に、文字候補成分以外の部分が白画素でそれぞれ構成されている。変換画像Ｉ_Ｂからは０番から９番までの合計１０個の文字候補成分が抽出される。

　以降、ステップＳ３０２の文字候補成分の抽出処理によって得られる画素値がｉの際の文字候補成分の集合をＣ_ｉと示す。文字候補成分の集合のことを文字候補成分集合とする。

　続いて、ステップＳ３０３～ステップＳ３０６の処理においては、文字候補成分集合Ｃ_ｉから文字の部品らしくない文字候補成分、すなわち非文字成分を除去する処理が行われる。本実施形態においては、第２基準としては、文字候補成分の画像データにおける位置が他の文字候補成分と比較して例外的であるか否か、文字候補成分の大きさが他の文字候補成分と比較して例外的であるか否か、文字候補成分の線幅が他の文字候補成分と比較して例外的であるか否か、及び文字候補成分に含まれる画素数が他の文字候補成分と比較して例外的であるか否かといった基準が用いられている。ただし、各ステップにおいて除去すべき非文字成分が無い場合は、処理は行われない。

　除去部２５は、位置が例外的な非文字成分を文字候補成分集合Ｃ_ｉから除去する外接成分除去処理を行う（ステップＳ３０３）。本実施形態においては、例として変換画像Ｉ_Ｂの左端、右端、上端および下端といった画像の４端のいずれかの端部に画素を含む文字候補成分を非文字成分として文字候補成分集合Ｃ_ｉから除去する。すなわち、通常の文字の場合、変換画像Ｉ_Ｂの上下左右の端部に文字の一部がかかることはないと考えられるため、このような端部の位置に画素を含む文字候補成分は非文字成分であると判定する。図８（ａ）においては、左端、右端、上端および下端の画素を含む文字候補成分は無いため、文字候補成分は除去されずに次のステップへと進む。

　続いて、除去部２５は、大きさが例外的な文字候補成分を非文字成分として文字候補成分集合Ｃ_ｉから除去する寸法基準除去を行う。（ステップＳ３０４）。本実施形態においては、例としてそれぞれの文字候補成分の周囲を囲む外接矩形の長辺の長さが閾値以上の文字候補成分を文字候補成分集合Ｃ_ｉから除去する。この閾値は予め定めた値であってもよいし、自動的に求めてもよい。本実施形態においては、外接矩形の長辺の長さの閾値ｔ_ｗは数式５を用いて算出する。

　数式５においてｓは画像データの短辺の長さであり、ｒ_ｗはパラメータとして予め定めた実数の値であり、本実施形態では０．９である。この場合、図３で示した画像データの短辺の長さｓは２１５画素であることから、式５に代入するとｔ_ｗ＝１９３となる。

　図９は、抽出された文字候補成分のうち、外接矩形の長辺の長さが大きい２つの文字候補成分の外接矩形を点線で示しており、また外接矩形の長辺の長さを記している。図９によると、文字候補成分０の外接矩形の長辺の長さは２１０であるからｔ_ｗを上回り、文字候補成分１は長辺の長さが１６５でｔ_ｗを上回らないため、ステップＳ３０４においては、文字候補成分０が除去される。

　続いて、除去部２５は、線幅が例外的な文字候補成分を文字候補成分集合Ｃ_ｉから除去する線幅除去処理を行う（ステップＳ３０５）。本実施形態では例として、線幅が上限の閾値を上回るか下限の閾値を下回る文字候補成分を文字候補成分集合Ｃ_ｉから除去する。線幅の算出には例えば公知の近似的な算出方法（参考文献：電子情報通信学会技術研究報告PRMU2010-237-PRMU2010-296、P112記載）を用いる。具体的には式６を用いてＣ_ｉのｊ番目（０≦ｊ≦９の整数）の文字候補成分Ｃ_ｉ、ｊの線幅ｗ_ｉ、ｊを算出する。

　数式６において、Ｓ_ｉ、ｊは文字候補成分Ｃ_ｉ、ｊを構成する画素数、Ｌ_ｉ、ｊは文字候補成分Ｃ_ｉ、ｊの周長である。周長は例えば変換画像Ｉ_Ｂの白画素と接する黒画素の個数である。線幅の上限の閾値および下限の閾値は予め定めた値であってもよいし、自動的に求めてもよい。本実施形態では例として式７および式８によって線幅の上限の閾値ｔ_ｕおよび下限の閾値ｔ_ｂを算出する。

　式７および式８において、ｒ_ｕとｒ_ｂはパラメータであり予め定めた値である。本実施形態においては、ｒ_ｕは２．０ｒ_ｂは０．６である。

　図１０はステップＳ３０４の直後の文字候補成分を図示したものであり、文字候補成分６は、最も線幅が大きい文字候補成分であり、文字候補成分９は、最も線幅が小さい文字候補成分である。文字候補成分６は１３８０個の黒画素で構成され、白画素と接触する黒画素の数は１５０個である。また文字候補成分９は２５０個の黒画素で構成され、白画素と接触する黒画素の数は１６０個である。したがって、式６によれば文字候補成分６の線幅はおよそ１８であり、文字候補成分９の線幅はおよそ３である。同様にして他の文字候補成分の線幅を算出すると、他の文字候補成分の線幅はそれぞれおよそ５である。したがって、ｒ_ｕを２．０とし、ｒ_ｂを０．６とした場合、ｔ_ｕの値はおよそ１２．４に、ｔ_ｂの値がおよそ３．７になることから、本実施形態においては、文字候補成分６と文字候補成分９はステップＳ３０５において、削除される。図８（ｂ）は、ステップＳ３０５による処理を終了後の変換画像の状態を示している。

　続いて、除去部２５は文字候補成分集合Ｃ_ｉに属する文字候補成分から、ステップｓ３００における変換処理前の画像データ５００における画素値がある値を基準として例外的な値である画素を多く含む文字候補成分を除去する色基準除去処理を行う（ステップＳ３０６）。画像データ５００における画素値とは、文字候補成分を構成する画素と同位置に在る画像データ５００の画素の値である。すなわち、画像データの任意の座標（ｘ、ｙ）の画素値をＩ（ｘ、ｙ）、区分領域の開始位置の座標を（ｘｓ、ｙｓ）とするとき、座標（ｘ、ｙ）に在るＩ_Ｂの画素の画像データにおける画素値はＩ（ｘ＋ｘ_ｓ、　ｙ＋ｙ_ｓ）と示すことができる。Ｉ（ｘ＋ｘ_ｓ、　ｙ＋ｙ_ｓ）が例外的な値か否かを判定する方法としては、本実施形態においては、Ｃ_ｉに属す全ての文字候補成分を構成する画素の画像データにおける画素値の平均ｍ_ｉを算出し、ｍ_ｉとＩ（ｘ＋ｘ_ｓ、　ｙ＋ｙ_ｓ）の差の絶対値が予め定めた閾値ｔ_ｍ以上か否かによって判定する方法を用いることができる。ｍ_ｉの算出には、式９を用いる。

　このようにして算出した平均ｍ_ｉと、Ｉ（ｘ＋ｘ_ｓ、ｙ＋ｙ_ｓ）における画素値との差異を計算して、画像データおける画素値が例外的であるとされた画素を例外画素と示す。また、文字候補成分Ｃ_ｉ、ｊが例外画素を多く含むか否かを判定する例として、本実施形態では式１０を用いて得られる実数ｒ_ｏが予め定めた閾値ｔ_ｏを超えるか否かで判定する。この実施形態ではｔ_ｍを４０と定め、ｔ_ｏを０．５と定める。

　式１０においてｅ_ｉ、ｊは文字候補成分Ｃ_ｉ、ｊを構成する例外画素の個数である。図８(c)はステップＳ３０５の処理結果を示す図８（ｂ）に画像データ５００を重ねた図であるが、変換画像の文字候補成分を構成する画素はすべて同じ輝度であるため例外画素は無い。したがって、変換画像Ｉ_Ｂが図８（ａ）である場合は、ステップＳ３０６ではいずれの文字候補成分も除去されない。なお、例外画素であるか否かを判別するために、平均ｍ_ｉではなく、画素値の中央値や、予め定めたパラメータを利用するようにしてもよい。

　続いて、抽出部２４は、現在処理中である画素値を示す変数であるｉを１増加した後に（ステップＳ３０７）、抽出部２４は、ｉが変換画像における画素値の最大値Ｎ_Ｃ未満であるか否かを判定する（ステップＳ３０８）。変換画像はこの実施形態において二値の画像であるから、Ｎ_Ｃ＝２である。

　ｉが変換画像における画素値の最大値Ｎ_Ｃ未満であると判定された場合（ステップＳ３０８：Ｙｅｓ）、ステップＳ３０２からの処理を再度繰り返す。一方、ｉが変換画像における画素値の最大値Ｎ_Ｃ未満でない場合（ステップＳ３０８：Ｎｏ）、抽出部２４は、削除されていない文字候補成分から文字画素を抽出し、文字画素を記憶部２２に出力画像として書き出す（ステップＳ３０９）。

　ｉ＝１の場合においては、ステップＳ３０２による文字候補成分の抽出処理においては、図８（ｅ）に示すような文字候補成分が抽出される。図８（ｅ）はｉ＝１の時の文字候補成分を黒画素で示し、文字候補成分以外を白画素で示した図である。

　ステップＳ３０３における外接分成分の除去処理においては、除去部２５は、変換画像Ｉ_Ｂの左端、右端、上端および下端の画素を含む文字候補成分を除去する。またステップＳ３０４では外接矩形の長辺の長さが閾値を越える文字候補成分が無いため、いずれの文字候補成分も削除されない。また、ステップＳ３０５では線幅が上限の閾値を上回ったり下限の閾値を下回ったりする文字候補成分が無いため、いずれの文字候補成分も削除されない。図８（ｆ）はｉ＝１のときステップＳ３０５までの処理を経た状態の文字候補成分を図示したものである。

　続くステップＳ３０６では、例外画素を多く含む文字候補成分が削除される。図８（ｇ）は、図８（ｆ）の変換画像に画像データを重ねたものであり、この場合文字候補成分１６、１７、１８を構成するすべての画素の画素値は５４であり、文字候補成分１２、１３、１４、１５を構成するすべての画素の画素値は１９４であり、ｍ_ｉは６８である。すなわち文字候補成分１２、１３、１４、１５を構成するすべての画素はその画素値とｍ_ｉとの差の絶対値がｔ_ｍ＝４０以上であるから、文字候補成分１２、１３、１４、１５のそれぞれについて式１０で算出されるｒ_ｏは１．０でｔ_ｏ＝０．５を上回る。したがって、ステップＳ３０６では除去部２５は、例外画素を多く含む文字候補成分１２、１３、１４、１５を除去する。他の文字候補成分は削除されない。図８（ｈ）はステップＳ３０６の処理の後に残った文字候補成分を図示したものである。この段階で、ｉ＝０、及び１の場合のそれぞれにおいて、非文字成分を除去した文字候補成分集合Ｃ_ｉが得られる。

　次に図７におけるステップＳ３０９の出力画像生成処理について図１１を用いて説明する。抽出部２４は、出力画像における区分領域内の画素値を初期化する（ステップＳ４００）。区分領域はステップＳ１０２において、区分部２３が選択した区分領域である。また、出力画像は画像データと幅と高さが同じ画像であり、出力画像における区分領域の開始位置と終了位置の値は画像データと同じである。また、出力画像の初期化の際は画素値に０を代入する。

　続いて、画素計測部２６はすべての画素値の階調における文字候補成分の集合Ｃ_０、Ｃ_１、・・・、Ｃ_ＮＣ－１について、それぞれの文字候補成分集合に属する文字候補成分を構成する画素の総数を算出する。そして、抽出部２４は、画素数が最も多い画素値の階調における変換画像Ｉ_Ｂの総画素数と、画素数が２番目に多い画素値の階調における変換画像Ｉ_Ｂの総画素数との間において、十分な差異があるか否かを判定する（ステップＳ４０１）。画素の総数は具体的には式１１によって算出する。

　式１１において、Ｓ_ｉ、ｊは文字候補成分Ｃ_ｉ、ｊを構成する画素数、Ｓ_ｉは画素値がｉの場合における、文字候補成分集合Ｃ_ｉの画素数の総数である。各画素値における文字候補成分集合Ｃ_ｉのうち、最大の画素数と２番目に大きい画素数の差異は、総数の最大値と２番目の総数の差の絶対値であってもよいし、総数の最大値と２番目の総数の比であってもよいし、総数の最大値と他の総数同士の大きさの違いを示す他の値であってもよい。

　十分な差異があるかは、本実施形態では求めた差異が閾値を上回るか否かで判定する。閾値は予め定めた値であってもよいし、自動的に求めてもよい。本実施形態では例として式１２を用いて閾値ｔ_ｓを求める。

　式１２においてｒ_ｓは予め定めたパラメータであり本実施形態においては０．２である。ｍａｘは引数のうち、最大の値を出力する関数である。すなわち、式１２中のｍａｘ関数はＮ_ｃ個ある画素値の総数のうち、最大値を出力する。本実施形態においては、Ｎ_c＝２であり、図８（ｄ）は、文字候補成分集合Ｃ_０を示しており、図８（ｈ）は、文字候補成分集合Ｃ₁を示している。

　図８（ｄ）に示した文字候補成分集合Ｃ_０における黒画素の個数は１４５００個であり、図８（ｈ）に示した文字候補成分Ｃ_１における黒画素の個数は１２７００個であり、Ｓ_０＝１４５００、Ｓ_１＝１２７００である。この場合、閾値であるｔ_sは２９００であり、一方、差異は｜Ｓ_０－Ｓ_１｜＝１８００であることから、Ｓ_０とＳ_１の差異が閾値以下となる。

　画素の総数の差異が閾値以下であると判定された場合（ステップＳ４０１：Ｙｅｓ）、エッジ画素計測部２７は、それぞれの文字候補成分集合Ｃ_ｉに属する文字候補成分を構成する画素のエッジ画素を計数し、該エッジ画素の総数を算出する（ステップＳ４０２）。エッジ画素とは文字候補成分を構成する画素のエッジや輪郭などを表現する画素である。本実施形態では例として、文字候補成分集合Ｃ_ｉに属さない画素のうち、文字候補成分Ｃ_ｉ、ｊに隣接する画素を、文字候補成分Ｃ_ｉ、ｊのエッジ画素とする。

　図１２（ａ）は、文字候補成分集合Ｃ_０に属する文字候補成分Ｃ_ｉ、ｊのエッジ画素を示している。また、図１２（ｂ）は、文字候補成分集合Ｃ_１に属する文字候補成分Ｃ_ｉ、ｊのエッジ画素を示している。このとき、各エッジ画素の画素数を示す変数をＥ_ｉとすると、Ｅ_０=５６００であり、Ｅ_１＝２８００である。

　続いて、抽出部２４は出力画像に書き出す文字候補成分の集合をエッジ画素の画素数の値に基づいて選択する（ステップＳ４０３）。具体的には、抽出部２４は、エッジ画素の総数が最も小さい文字候補成分集合Ｃ_ｉを選択する。本実施形態においては、文字候補成分集合Ｃ_１が選択される。

　一方、画素の総数の差異が閾値以下でないと判定された場合（ステップＳ４０１：Ｎｏ）、抽出部２４は出力画像に書き出す文字候補成分の集合を画素数の値に基づいて選択する（ステップＳ４０４）。具体的には、抽出部２４は、文字候補成分集合Ｃ_ｉに属する文字候補成分を構成する画素の総数が最も大きい文字候補成分集合Ｃ_ｉを選択する。

　抽出部２４は選択した文字候補成分集合Ｃ_ｉを構成する画素を抽出した文字画素として記憶部２２上の出力画像に書き出すプロット処理を行う（ステップＳ４０５）。本実施形態においては、区分領域の開始位置の座標を（ｘ_ｓ、ｙ_ｓ）とし、変換画像Ｉ_Ｂにおいて文字候補成分Ｃ_ｉ、ｊを構成するすべての画素の座標を（ｘ、ｙ）としたとき、出力画像における座標（ｘ＋ｘ_ｓ、ｙ＋ｙ_ｓ）の画素値に１が代入される。本実施形態においては、図８９（ｈ）で示された画像が、ステップＳ４０５によって書き出された出力画像としてプロットされる。

　図６における区分領域５２０に対しても、同様の文字画素抽出処理を行うと、図１３に示す画像データ全体の出力画像が記憶部２２に書き出される。

　また、別の画像データに対して処理をおこなった結果について図１４を用いて説明する。図１４は、異なる文字の縁取りが接触している場合である。この場合、区分部２３によって画像全体が１つの区分領域として区分される。そして、ｉ＝０の場合においては、抽出部２４によって図１５の（ａ）の状態から（ｄ）に示される文字候補成分集合Ｃ_０が得られ、ｉ＝１の場合においては、抽出部２４によって図１５の（ｅ）の状態から（ｈ）に示される文字候補成分集合Ｃ_１が得られる。そして、この場合、図１５（ｈ）で示される画像が最終的に出力画像として記憶部２２に書き出される。

　また、別の例として図１６に示されるような場合について説明する。この場合、区分部２３によって画像全体が１つの区分領域として区分される。そして、ｉ＝０の場合においては、抽出部２４によって図１７の（ａ）の状態から（ｄ）に示される文字候補成分集合Ｃ_０が得られ、ｉ＝１の場合においては、抽出部２４によって図１７の（ｅ）の状態から（ｈ）に示される文字候補成分集合Ｃ_１が得られる。そして、この場合、図１７（ｄ）で示される画像が最終的に出力画像として記憶部２２に書き出される。

　また、図１８は、手書きによる文字の画像データが入力された場合の画像データを示している。本実施形態においては、図１８（ａ）に示した縁取りのある画像データから、図１８（ｂ）に示した通常文字の出力画像が得られる。

　以上に示した、本実施の形態の画像処理装置１０にあっては、画素数が最も多い階調における変換画像の文字画素数と、画素数が２番目である階調における変換画像の文字画素数との差分に有意の差異がある場合は、画素数が最も多い階調における非文字成分を除去後の文字候補成分を出力画像として選択する。また、画素数が最も多い階調における変換画像の文字画素数と、画素数が２番目である階調における変換画像の文字画素数との差分に有意の差異がない場合は、エッジ画素数が最も少ない階調における変換画像の非文字成分を除去後の文字候補成分を出力画像として選択することとした。

　このように出力画像を選択する場合は、縁取りが重なる場合であっても、適切に縁取りが除去された通常文字による出力画像が得られるようになる。また、処理の際に文字認識辞書を用いて計算を行うことを必要としないため、処理負担も軽減することができる。

　さらには、画素の傾向が異なる領域ごとに区分し、画像の変換処理を行うようにしたため、文字候補成分の抽出や、非文字成分の除去を効率的に行うことができる。

　以上に、本発明の実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

　１　スキャナ
　２　手書き入力部
　３　レコーダ
　１０　画像処理装置
　２１　画像取得部
　２２　記憶部
　２３　区分部
　２４　抽出部
　２５　画素計測部
　２６　エッジ計測部
　２７　出力部
　３０　文字認識装置
　５００　画像データ
　５１０　区分領域
　５２０　区分領域

Claims

　画像データを取得する取得部と、
　予め定められた第１基準に基づいて、前記画像データから文字候補成分の集合を当該画像データの階調ごとに抽出する抽出部と、
　予め定められた第２基準に基づいて、前記文字候補成分の集合から非文字成分を除去する除去部と、
　前記非文字成分を除去後の前記文字候補成分に含まれる画素数を表す文字画素数を計測する文字計測部と、
　前記非文字成分を除去後の前記文字候補成分と隣接するエッジ画素の画素数を表すエッジ画素数を計測するエッジ計測部と、
　前記文字画素数が最も多い前記階調の前記文字画素数と、前記文字画素数が２番目である前記階調の前記文字画素数との差分に有意の差異がある場合は、前記画素数が最も多い階調における前記非文字成分を除去後の前記文字候補成分を出力画像として選択するとともに、前記文字画素数が最も多い前記階調の前記文字画素数と、前記文字画素数が２番目である前記階調の前記文字画素数との差分に有意の差異がない場合は、前記エッジ画素数が最も少ない階調における前記非文字成分を除去後の前記文字候補成分を出力画像として選択する出力画像選択部と、
　選択された前記出力画像を出力する出力部と、
　を備えることを特徴とする画像処理装置。
　前記除去部は、前記文字候補成分の前記画像データにおける位置が他の前記文字候補成分と比較して例外的な場合、前記文字候補成分の大きさが他の前記文字候補成分と比較して例外的な場合、前記文字候補成分の線幅が他の前記文字候補成分と比較して例外的な場合、及び前記文字候補成分に含まれる前記画素数が他の前記文字候補成分と比較して例外的な場合の少なくとも一つの場合に、例外的な前記文字候補成分を前記非文字成分として前記集合から除去する
　ことを特徴とする請求項１に記載の画像処理装置。
　取得した前記画像データを二値画像へと変換する変換部と、
　を更に備えることを特徴とする請求項１に記載の画像処理装置。
　取得した前記画像データを画素値の傾向毎にグループ化された１以上の区分領域へと分割する区分部と、
　を更に備え、
　前記抽出部は、前記文字候補成分の抽出を前記区分領域ごとに行うとともに、
　前記除去部は、前記文字候補成分の除去を前記区分領域ごとに行う
　ことを特徴とする請求項１～３のいずれか一項に記載の画像処理装置。
　前記区分部は、前記画像データを前記区分領域より細かい１以上の小領域へと分割した後に、前記小領域ごとに前記画素値のヒストグラムを生成し、前記ヒストグラムの値が類似した前記小領域の集合を前記区分領域とする
　ことを特徴とする請求項４に記載の画像処理装置。
　画像データを取得する取得ステップと、
　予め定められた第１基準に基づいて、前記画像データから文字候補成分の集合を当該画像データの階調ごとに抽出する抽出ステップと、
　予め定められた第２基準に基づいて、前記文字候補成分の集合から非文字成分を除去する除去ステップと、
　前記非文字成分を除去後の前記集合に含まれる画素数を計測する文字計測ステップと、
　前記非文字成分を除去後の前記集合と隣接する画素であるエッジ画素の画素数を計測するエッジ計測ステップと、
　前記文字画素数が最も多い前記階調の前記文字画素数と、前記文字画素数が２番目である前記階調の前記文字画素数との差分に有意の差異がある場合は、前記画素数が最も多い階調における前記非文字成分を除去後の前記文字候補成分を出力画像として選択するとともに、前記文字画素数が最も多い前記階調の前記文字画素数と、前記文字画素数が２番目である前記階調の前記文字画素数との差分に有意の差異がない場合は、前記エッジ画素数が最も少ない階調における前記非文字成分を除去後の前記文字候補成分を出力画像として選択する出力画像選択ステップと、
　前記出力画像を出力する出力ステップと、
　を実施することを特徴とする画像処理方法。