WO2014125658A1

WO2014125658A1 - 文字認識システム、文字認識プログラム及び文字認識方法

Info

Publication number: WO2014125658A1
Application number: PCT/JP2013/059508
Authority: WO
Inventors: 相原輝夫
Original assignee: 株式会社ピーエスシー
Priority date: 2013-02-13
Filing date: 2013-03-29
Publication date: 2014-08-21
Also published as: JP2014154066A; KR102024127B1; US20150356764A1; MY173006A; EP2958055A4; SG11201506275XA; US9639970B2; JP6080586B2; EP2958055A1; CN104981819A; KR20150116821A

Abstract

　【課題】コンピュータのディスプレイ上に表示される文字を高い確率で認識することの可能な文字認識システムを提供する。　【解決手段】文字認識システム１は、コンピュータのディスプレイ３０上に表示される文字を認識するための文字認識システム１において、所定の表示フォント及び文字サイズの組み合わせについて、当該表示フォント及び文字サイズを有する各文字の構成ドットの配置に関する情報を有する認識辞書を記録しておく記憶装置１２２と、認識辞書を参照して、ディスプレイ３０上に表示される認識対象文字の構成ドットの配置に関する情報と完全に一致する文字を抽出することで、認識対象文字を特定する文字認識部２５と、を備える。

Description

文字認識システム、文字認識プログラム及び文字認識方法

　本発明は、文字認識システムに関する。

　従来から、紙に印刷された文字を光学的に読み取って認識するための光学文字認識システムが提供されており、例えば、下記特許文献１，２に開示されている。

　一方、下記特許文献３に開示されているように、システム間やアプリケーション間でデータの受け渡しを行うために、コンピュータのディスプレイ上に表示された文字を、画面キャプチャによる画像データを介して認識するといった需要がある。

特開２００８－３０５１２６号公報特開２０１０－２６８０５号公報特開２０１１－８１５３７号公報

　しかし、紙に印刷された文字と比較して、ディスプレイ上の表示文字は、ドット解像度が粗いため、従来の光学文字認識の手法を採用しても、認識率が大きく低下してしまう場合があった。特に、表示データ量を増やすために用いられる小さな文字サイズの文字については、認識率が極端に低くなってしまう。

　本発明は、このような課題に鑑みてなされたものであり、コンピュータのディスプレイ上に表示される文字を高い確率で認識することの可能な文字認識システムを提供することを目的とする。

　上記課題を解決するために、本発明に係る文字認識システムは、コンピュータのディスプレイ上に表示される文字を認識するための文字認識システムにおいて、所定の表示フォント及び文字サイズの組み合わせについて、当該表示フォント及び文字サイズを有する各文字の構成ドットの配置に関する情報を有する認識辞書を記録しておく記憶装置と、前記認識辞書を参照して、前記ディスプレイ上に表示される認識対象文字の構成ドットの配置に関する情報と完全に一致する文字を抽出することで、前記認識対象文字を特定する文字認識部と、を備えることを特徴とする。

　また、本発明に係る文字認識プログラムは、ディスプレイ上に表示される文字をコンピュータに認識させるための文字認識プログラムにおいて、所定の表示フォント及び文字サイズの組み合わせについて、当該表示フォント及び文字サイズを有する各文字の構成ドットの配置に関する情報を有する認識辞書を作成する認識辞書作成ステップと、前記認識辞書を参照して、前記ディスプレイ上に表示される認識対象文字の構成ドットの配置に関する情報と完全に一致する文字を抽出することで、前記認識対象文字を特定する文字認識ステップと、を前記コンピュータに実行させることを特徴とする。

　また、本発明に係る文字認識方法は、コンピュータのディスプレイ上に表示される文字を認識するための文字認識方法において、所定の表示フォント及び文字サイズの組み合わせについて、当該表示フォント及び文字サイズを有する各文字の構成ドットの配置に関する情報を有する認識辞書を作成する認識辞書作成工程と、前記認識辞書を参照して、前記ディスプレイ上に表示される認識対象文字の構成ドットの配置に関する情報と完全に一致する文字を抽出することで、前記認識対象文字を特定する文字認識工程と、を備えることを特徴とする。

　本発明によれば、コンピュータのディスプレイ上に表示された解像度の低い文字であっても高精度に文字認識を行うことができる。

図１は、本発明の実施形態に係る文字認識システムの構成を概略的に示す模式図である。図２は、本発明の実施形態に係る認識辞書の内容を示す図である。図３は、本発明の実施形態に係る文字認識システムの機能を概略的に示すブロック図である。図４は、本発明の実施形態に係る認識辞書の作成処理の流れを示すフローチャートである。図５は、本発明の実施形態に係る文字認識の処理の流れを示すフローチャートである。図６は、本発明の実施形態に係る文字認識の処理を説明するための図である。

　以下、図面を参照しながら、本発明の実施形態である文字認識システムについて詳細に説明する。図１は、本実施形態に係る文字認識システムの構成を概略的に示す模式図である。図２は、本実施形態に係る認識辞書の内容を示す図である。図３は、本実施形態に係る文字認識システムの機能を概略的に示すブロック図である。

　図１に示すように、文字認識システム１は、コンピュータ本体１０と、コンピュータ本体１０からの出力情報を表示する表示装置であるディスプレイ３０と、コンピュータ本体１０に情報を入力するためのキーボードやマウス等の入力装置３２とを備える。

　本実施形態に係る文字認識システム１は、ディスプレイ３０上に表示された文字を認識するためのシステムであり、文字認識の際に、光学的な文字認識ではなく、文字を構成する構成ドットの配置に関する情報が完全に一致するか否かにより文字の特定を行うことを特徴としている。本実施形態では、アプリケーションＡによるディスプレイ３０上の表示ウィンドウ内の所定の認識対象領域に表示された表示文字を認識する場合を例に挙げて説明する。

　コンピュータ本体１０は、各種演算を行うためのＣＰＵ（Central
Processing Unit）等の演算装置１１と、各種情報を記憶するためのＨＤＤ（Hard Disc
Drive）や演算処理のワークエリアとして使用されるＲＡＭ（Random Access Memory）等の記憶装置１２とを備えている。

　記憶装置１２は、コンピュータ本体１０にインストールされているＯＳ（オペレーティングシステム）、文字認識プログラム、認識辞書作成プログラム、フォントチェックプログラム、アプリケーションＡ等の各種プログラムを格納しておくプログラム格納部１２１と、文字認識をする際に使用される認識辞書を格納しておく認識辞書ＤＢ１２２と、フォントチェックのためのフォントチェック用辞書ＤＢ１２３と、ディスプレイ３０上に表示する画面内容を一時的に保持するビデオメモリ１２５とを備えている。

　プログラム格納部１２１に関して、文字認識プログラムは、後述する文字認識処理を実行するためのプログラム、認識辞書作成プログラムは、後述する認識辞書の作成処理を実行するためのプログラムである。また、フォントチェックプログラムは、認識辞書の作成や文字認識の際に、認識対象文字の表示フォント及び文字サイズの情報を取得するためのプログラムである。

　認識辞書ＤＢ１２２には、表示フォント及び文字サイズの組み合わせ毎に認識辞書が作成されて記録されている。認識辞書の認識辞書レコードの内容について、図２を参照しながら説明する。認識辞書ＤＢ１２２内の各レコードは、「辞書ＩＤ」、「表示フォント」、「文字サイズ」、「文字コード」、「外枠内ドット配置」、「外枠サイズ」、「外枠位置」の項目を備えている。

　「辞書ＩＤ」は、各認識辞書の識別子であり、同一の表示フォント及び文字サイズの組み合わせであれば同じ識別子となり、表示フォントと文字サイズの少なくとも一方が異なれば異なる識別子となる。「表示フォント」、「文字サイズ」及び「文字コード」は、当該レコードの作成元となった文字のフォント、サイズ、文字コードである。

　「外枠内ドット配置」は、辞書作成元の文字を構成する全ての構成ドットを含む最小矩形外枠内のドット配置位置の情報である。例えば、黒色ドットが配置された場所を「1」、配置されていない空白場所を「0」として、矩形外枠内の左上から右下に向けて各行毎に「00110101110000」といった形式で記録される。

　「外枠サイズ」は、上記最小矩形外枠の縦横のサイズ情報（ドット数）である。「外枠位置」は、ベースライン（標準最下線）から上記最小矩形外枠の下辺までの距離である。本実施形態では、「外枠内ドット配置」、「外枠サイズ」、「外枠位置」の項目が、文字の構成ドットの配置に関する情報に相当する。

　フォントチェック用辞書ＤＢ１２３内に記録されているフォントチェック用辞書は、認識辞書の作成や文字認識の際に認識対象文字の表示フォント及び文字サイズの情報を取得するための辞書である。フォントチェック用辞書は、例えば、「あいうえお」等の所定のチェック用の数種類の文字についてのみ、コンピュータ本体１０にインストールされている全てのフォントの全てのサイズに関する上記認識辞書と同じ情報を有している。

　続いて、図３を参照しながら、文字認識システム１の機能について説明する。同図に示すように、文字認識システム１は、ディスプレイ３０上に表示される表示文字の表示フォント及び文字サイズを認識する機能を有するフォントチェック部２０と、上述した認識辞書を予め作成する機能を有する辞書作成部２１と、文字認識を行う機能を有する文字認識部２５とを備えている。

　これら各部の機能は、演算装置１１が、プログラム格納部１２１に格納されているフォントチェックプログラム、認識辞書作成プログラム、文字認識プログラムを実行することで実現される。

　続いて、認識辞書ＤＢ１２２に記録される認識辞書の作成処理の流れについて、さらに、図４を参照しながら説明する。図４は、本実施形態に係る認識辞書の作成処理の流れを示すフローチャートである。

　認識辞書の作成は、後述する文字認識処理に先立って行われ、辞書作成部２１は、これから認識する認識対象文字の表示フォント及び文字サイズの組み合わせについての認識辞書を作成する。もちろん、同一の表示フォント及び文字サイズの組み合わせに関して既に認識辞書が作成されている場合には、再度辞書の作成を行う必要は無く、既に登録されている認識辞書を用いれば良い。

　認識辞書の作成時には、コンピュータ本体１０において、認識辞書作成プログラムが実行される。まず、Ｓ１１において、認識辞書を作成する表示フォント及び文字サイズの取得が行われる。この文字サイズ等の取得は、フォントチェックプログラムを起動して行われる。

　ここで作成される認識辞書は、アプリケーションＡの表示ウィンドウ内の所定の認識対象領域内に表示される認識対象文字の表示フォント及び文字サイズの組み合わせの認識辞書であるため、フォントチェックプログラムは、フォントチェック用辞書ＤＢ１２３内に記録されているフォントチェック用辞書を参照しながら、この認識対象文字の表示フォント及び文字サイズを自動的に特定する。

　具体的には、フォントチェック部２０が、画面キャプチャによりビデオメモリ１２５から認識対象文字の画像データを取得し、フォントチェック用辞書ＤＢ１２３を参照しながら、認識対象文字を構成するドットの配置情報と完全に一致する文字を抽出する。これにより、認識対象文字と同一フォント及び同一サイズの文字が特定され、認識対象領域に表示される文字の表示フォント及び文字サイズの情報を取得することができる。

　なお、このフォントチェック用辞書ＤＢ１２３を参照して文字を抽出する処理は、後述する文字認識の処理と同じであるため、詳細な説明は省略する。また、フォントチェック用辞書は、チェック用の数種類の文字についてのみの辞書であるため、フォントチェックの際には、認識対象文字として、このチェック用の文字が認識対象領域内に表示されるように、予めオペレータが文字を入力しておく等の作業が必要である。

　従来の光学文字認識と異なり、本実施形態では、文字の構成ドットの配置位置が同一であるか否かにより文字の認識を行っており、表示フォントや文字サイズが異なれば別の文字と認識されてしまう。このため、認識辞書も表示フォント及び文字サイズの組み合わせ毎に、別々の認識辞書を作成する必要がある。なお、Ｓ１１のフォントチェックは、可能であるならばオペレータが手動で設定するようにしても良い。

　続いて、Ｓ１２に進み、Ｓ１１で取得した表示フォント及び文字サイズの文字を順次ディスプレイ３０（ビデオメモリ１２５）上に表示させる。ここで表示させる文字は、当該表示フォント及び文字サイズを有してコンピュータ本体１０にインストールされている全ての文字である。具体的には、表示フォントによって異なるが、例えば、ＪＩＳ非漢字、ＪＩＳ第一漢字、ＪＩＳ第二漢字に含まれる全ての文字である。

　最初の文字が表示されると、Ｓ１３において、外枠の設定が行われる。この外枠は、表示された文字を構成する全ての構成ドットを含む最小の矩形外枠である。続いて、Ｓ１４において、外枠内のドットの配置に関する情報と共に、認識辞書レコードが認識辞書ＤＢ１２２内に登録される。具体的な認識辞書レコードの内容は、上述した、「辞書ＩＤ」、「表示フォント」、「文字サイズ」、「文字コード」、「外枠内ドット配置」、「外枠サイズ」、「外枠位置」の情報となる。

　続いて、Ｓ１５では、当該表示フォント及び文字サイズの組み合わせに関する全ての文字について辞書登録が終了したか否かが判定され、まだ登録されていない文字がある場合には、Ｓ１２に戻り、Ｓ１２～Ｓ１４の処理を繰り返し、次の文字について辞書登録を行う。Ｓ１５において、全ての文字について辞書登録されたと判断された場合には、当該表示フォント及び文字サイズの組み合わせについての認識辞書の登録が終了する。

　この認識辞書の作成は、コンピュータ本体１０のＯＳが有する全ての表示フォントの全ての文字サイズに関して予め行っておく必要はなく、文字認識を行う際に、認識対象領域内に表示される文字の表示フォント及び文字サイズの組み合わせを有する文字の全てについて認識辞書を作成すれば良い。

　続いて、本実施形態における文字認識の処理の流れについて、図５及び図６を参照しながら説明する。図５は、本実施形態に係る文字認識の処理の流れを示すフローチャートである。図６は、本実施形他に係る文字認識の処理を説明するための図である。

　まず、Ｓ２１において、認識対象文字の表示フォント及び文字サイズの取得が行われる。この文字サイズ等の取得は、フォントチェックプログラムを起動して行われ、上述したＳ１１と同じ処理である。また、認識辞書の作成に引き続いて文字認識処理を行う場合には、Ｓ１１により既に表示フォント及び文字サイズの取得が行われているので、Ｓ２１を省略しても良い。

　この表示フォント及び文字サイズの取得により、認識辞書ＤＢ１２２内に記録されている認識辞書のうち、今回の文字認識で使用される認識辞書が決定される。

　続いて、Ｓ２２において、認識対象文字の外枠設定が行われる。具体的には、ビデオメモリ１２５からアプリケーションＡの認識対象領域の画像データを取得し、当該領域内に表示されている文字毎に分割したうえで、文字毎に各文字の全ての構成ドットが含まれる最小の矩形外枠を設定する。図６は、文字毎に最小矩形外枠を設定した様子を示している。

　Ｓ２３では、「外枠サイズ」の情報による文字の絞り込み（一次スクリーニング）が行われる。すなわち、認識辞書に含まれる文字のうち、認識対象文字に設定された外枠のサイズと同じサイズを有する文字が抽出される。

　続いて、Ｓ２４では、Ｓ２３でのスクリーニングにより文字が一つに特定されたか否かが判定される。一次スクリーニングにより一つの文字に絞られた場合には、認識対象文字がその文字であると特定することができるため、文字認識処理は終了する。

　Ｓ２４において、特定されていないと判断された場合には、Ｓ２５に進み、「外枠内ドット配置」の情報による文字の絞り込み（二次スクリーニング）が行われる。すなわち、一次スクリーニングにより抽出された文字のうち、認識対象文字に設定された外枠内のドット配置位置と同じ配置位置を持つ文字が抽出される。

　続いて、Ｓ２６では、Ｓ２５でのスクリーニングにより文字が一つに特定されたか否かが判定され、特定された場合には、文字認識は終了し、そうでない場合には、Ｓ２７に進み、三次スクリーニングが行われる。例えば、認識対象文字が、「’」又は「，」の文字の場合には、「外枠サイズ」及び「外枠内ドット配置」が同じになるため、Ｓ２７へと進むことになる。Ｓ２７では、「外枠位置」の情報により文字の絞り込みが行われ、文字が特定される。

　認識対象領域内に複数の文字が含まれている場合には、文字毎にＳ２３～Ｓ２７を繰り返して行えば良い。また、Ｓ２１のフォントチェックにより、認識対象領域内に複数の表示フォント及び文字サイズの組み合わせがあった場合には、複数の認識辞書を参照しながら文字認識を行えば良い。

　また、上述したスクリーニングの順序は適宜変更しても良い。また、上記実施形態では、最小矩形外枠を設定したうえで、「外枠サイズ」、「外枠位置」、「外枠内ドット配置」を用いて文字認識を行ったが、文字認識のための「文字を構成するドットの配置に関する情報」としては、種々の他の情報を用いることができ、例えば、外枠内の１ライン目の黒ドットの数等を用いることができる。

　以上、本実施形態に係る文字認識システムについて説明したが、本実施形態によれば、ディスプレイ３０上に表示された表示文字の認識を、文字を構成するドットの配置情報に基づいて行うことでほぼ100％の認識率により文字認識を行うことができる。

　本実施形態に係る認識文字対象は、コンピュータのディスプレイ３０（ビデオメモリ１２５）上に表示される文字であり、紙に印刷された文字のように汚れたり欠けたりすることがないため、ドットの配置情報に基づけば、確実に文字を特定することが可能である。

　但し、文字の表示フォントや文字サイズが異なれば、ドット配置も異なるため、本実施形態による文字認識の場合には、予め認識対象文字の表示フォント及び文字サイズを把握したうえで、同一の表示フォント及び文字サイズの組み合わせによる認識辞書を作成し、文字認識処理を実行する必要がある。

　また、本実施形態のように、文字を構成するドットの配置情報を複数用い、段階的にスクリーニングを行うことで、文字認識の処理負荷を低減させ、高速で効率的な文字認識を行うことができる。

　続いて、本実施形態に変形例について説明する。まず、ディスプレイ３０上の表示文字がアンチエイリアス処理されている文字の場合には、上述したフォントチェック、認識辞書の作成、文字認識等の処理を行う前に、文字の画像データから指定彩度以外、指定明度以外のドットを同じ基準で減算するようすれば、アンチエイリアス処理の影響を除外した文字認識を行うことが可能である。

　また、ディスプレイ３０上の表示文字が、下線、太文字等の文字修飾が施された文字の場合には、認識辞書及びフォントチェック用辞書を作成する際に、同じ文字修飾を施した文字の認識辞書レコードも追加で作成しておくことで、修飾された文字についても確実に文字認識を行うことができる。

　また、半角文字が含まれている場合であっても半角文字の認識辞書を作成しておくことで、確実に文字認識を行うことが可能である。

　以上、本発明の実施の形態について説明したが、本発明の実施の形態は、上記実施形態に限定されるものではなく、本発明の主旨を逸脱しない範囲内でさらに種々の変形が可能である。例えば、上記実施形態では、単一のコンピュータで文字認識システムを実現しているが、複数のコンピュータによる分散処理で実現しても良い。

　１　　　文字認識システム
　１０　　コンピュータ本体
　１１　　演算装置
　１２　　記憶装置
　１２１　プログラム格納部
　１２２　認識辞書ＤＢ
　１２３　フォントチェック用辞書ＤＢ
　１２５　ビデオメモリ
　２０　　フォントチェック部
　２１　　辞書作成部
　２５　　文字認識部
　３０　　ディスプレイ
　３２　　入力装置

Claims

　コンピュータのディスプレイ上に表示される文字を認識するための文字認識システムにおいて、
　所定の表示フォント及び文字サイズの組み合わせについて、当該表示フォント及び文字サイズを有する各文字の構成ドットの配置に関する情報を有する認識辞書を記録しておく記憶装置と、
　前記認識辞書を参照して、前記ディスプレイ上に表示される認識対象文字の構成ドットの配置に関する情報と完全に一致する文字を抽出することで、前記認識対象文字を特定する文字認識部と、
を備えることを特徴とする文字認識システム。
　前記表示フォント及び前記文字サイズを有する文字をビデオメモリ上に順次表示させながら、各文字の構成ドットの配置に関する情報を取得して前記認識辞書を作成する辞書作成部を備えることを特徴とする請求項１記載の文字認識システム。
　前記文字認識部は、予め取得した前記認識対象文字の表示フォント及び文字サイズの組み合わせと同一の組み合わせについての認識辞書を参照して文字認識を行うことを特徴とする請求項１又は２記載の文字認識システム。
　前記構成ドットの配置に関する情報は、各文字の構成ドットの全てを含む矩形外枠内のドット配置位置の情報であることを特徴とする請求項１乃至３何れか１項記載の文字認識システム。
　ディスプレイ上に表示される文字をコンピュータに認識させるための文字認識プログラムにおいて、
　所定の表示フォント及び文字サイズの組み合わせについて、当該表示フォント及び文字サイズを有する各文字の構成ドットの配置に関する情報を有する認識辞書を作成する認識辞書作成ステップと、
　前記認識辞書を参照して、前記ディスプレイ上に表示される認識対象文字の構成ドットの配置に関する情報と完全に一致する文字を抽出することで、前記認識対象文字を特定する文字認識ステップと、
を前記コンピュータに実行させることを特徴とする文字認識プログラム。
　コンピュータのディスプレイ上に表示される文字を認識するための文字認識方法において、
　所定の表示フォント及び文字サイズの組み合わせについて、当該表示フォント及び文字サイズを有する各文字の構成ドットの配置に関する情報を有する認識辞書を作成する認識辞書作成工程と、
　前記認識辞書を参照して、前記ディスプレイ上に表示される認識対象文字の構成ドットの配置に関する情報と完全に一致する文字を抽出することで、前記認識対象文字を特定する文字認識工程と、
を備えることを特徴とする文字認識方法。