WO2022137448A1

WO2022137448A1 - 認識装置及び認識方法

Info

Publication number: WO2022137448A1
Application number: PCT/JP2020/048500
Authority: WO
Inventors: 裕介伊谷
Original assignee: 三菱電機株式会社
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-06-30
Also published as: JP7229445B2; JPWO2022137448A1

Abstract

認識装置（１００）は、画像において対象を認識する領域である対象領域を特定し、その対象領域の品質の評価を行う評価部（１０２）と、評価部（１０２）による評価の結果に応じて、対象を認識するか否かを判断し、対象を認識すると判断した場合に、対象領域から対象を認識する認識部（１０３）とを備える。

Description

認識装置及び認識方法

　本開示は、認識装置及び認識方法に関する。

　複数の画像データから、重複した画像データを除外することで、印刷するのに最適な画像データを自動的に選択することができる情報処理装置がある。
　例えば、特許文献１に記載された情報処理装置は、指定された期間に撮像された複数の画像データを取得する画像取得部と、その複数の画像データを、撮像の時系列順に並べた際の同一性を認識する画像認識部と、その複数の画像データから、特定の除外条件により、重複した画像データ又は適切でない画像データを除外して、出力画像データを選択する出力データ選択部とを備える。出力データ選択部は、画像全体のボケ、又は、テンプレート画像との差分品質を元に、重複した画像データ又は適切でない画像データを除外している。

特開２０１９－１３９４２３号公報

　従来の技術では、画像全体から得られるボケを元に出力画像データを選択するため、認識対象は鮮明に撮影できていても、他の部分にボケが生じていると、品質が悪い画像と判断されてしまう場合がある。このような場合には、複数の画像から画像認識を行う際に、認識対象に対して画像認識を行うことができるにもかかわらず、そのような画像データが出力画像データから除外されてしまい、有効な画像認識を行うことができなくなってしまう。

　そこで、本開示の一又は複数の態様は、画像認識を確実に行うことができるようにすることを目的とする。

　本開示の一態様に係る認識装置は、画像において対象を認識する領域である対象領域を特定し、前記対象領域の品質の評価を行う評価部と、前記評価の結果に応じて、前記対象を認識するか否かを判断し、前記対象を認識すると判断した場合に、前記対象領域から前記対象を認識する認識部と、を備えることを特徴とする。

　本開示の一態様に係る認識装置は、第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、前記複数の第一の対象領域の品質の評価を行うとともに、前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、前記複数の第二の対象領域の品質の評価を行う評価部と、前記複数の第一の対象領域の品質の評価の結果に応じて、前記複数の第一の対象を認識するか否かを判断し、前記複数の第一の対象を認識すると判断した場合に、前記複数の第一の対象領域から前記複数の第一の対象を認識するとともに、前記複数の第二の対象領域の品質の評価の結果に応じて、前記複数の第二の対象を認識するか否かを判断し、前記複数の第二の対象を認識すると判断した場合に、前記複数の第二の対象領域から前記複数の第二の対象を認識する認識部と、前記第一の画像から認識された前記複数の第一の対象の内の一つである第一の処理対象と、前記第二の画像から認識された前記複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記複数の第一の対象と、前記複数の第二の対象とを結合する認識結果統合部と、を備えることを特徴とする。

　本開示の一態様に係る認識装置は、第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、前記複数の第一の対象領域の各々の品質の良否を評価するとともに、前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、前記複数の第二の対象領域の各々の品質の良否を評価する評価部と、前記複数の第一の対象領域の内、品質が良いと評価された一又は複数の第一の対象領域から一又は複数の第一の対象を認識し、前記複数の第二の対象領域の内、品質が良いと評価された一又は複数の第二の対象領域から一又は複数の第二の対象を認識する認識部と、前記一又は複数の第一の対象の内の一つである第一の処理対象と、前記一又は複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記一又は複数の第一の対象と、前記一又は複数の第二の対象とを結合する認識結果統合部と、を備えることを特徴とする。

　本開示の一態様に係る認識方法は、画像において対象を認識する領域である対象領域を特定し、前記対象領域の品質の評価を行い、前記評価の結果に応じて、前記対象を認識するか否かを判断し、前記対象を認識すると判断した場合に、前記対象領域から前記対象を認識することを特徴とする。

　本開示の一態様に係る認識方法は、第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、前記複数の第一の対象領域の品質の評価を行い、前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、前記複数の第二の対象領域の品質の評価を行い、前記複数の第一の対象領域の品質の評価の結果に応じて、前記複数の第一の対象を認識するか否かを判断し、前記複数の第一の対象を認識すると判断した場合に、前記複数の第一の対象領域から前記複数の第一の対象を認識し、前記複数の第二の対象領域の品質の評価の結果に応じて、前記複数の第二の対象を認識するか否かを判断し、前記複数の第二の対象を認識すると判断した場合に、前記複数の第二の対象領域から前記複数の第二の対象を認識し、前記第一の画像から認識された前記複数の第一の対象の内の一つである第一の処理対象と、前記第二の画像から認識された前記複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記複数の第一の対象と、前記複数の第二の対象とを結合することを特徴とする。

　本開示の一態様に係る認識方法は、第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、前記複数の第一の対象領域の各々の品質の良否を評価し、前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、前記複数の第二の対象領域の各々の品質の良否を評価し、前記複数の第一の対象領域の内、品質が良いと評価された一又は複数の第一の対象領域から一又は複数の第一の対象を認識し、前記複数の第二の対象領域の内、品質が良いと評価された一又は複数の第二の対象領域から一又は複数の第二の対象を認識し、前記一又は複数の第一の対象の内の一つである第一の処理対象と、前記一又は複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記一又は複数の第一の対象と、前記一又は複数の第二の対象とを結合することを特徴とする。

　本開示の一又は複数の態様によれば、画像認識を確実に行うことができるようになる。

実施の形態１及び２に係る認識装置の構成を概略的に示すブロック図である。実施の形態１における評価部の構成を概略的に示すブロック図である。（Ａ）～（Ｃ）は、実施の形態１における認識結果統合部での処理を説明するための概略図である。認識装置のハードウェア構成の第一の例を示すブロック図である。認識装置のハードウェア構成の第二の例を示すブロック図である。実施の形態１に係る認識装置での処理を示すフローチャートである。実施の形態２における評価部の構成を概略的に示すブロック図である。（Ａ）～（Ｃ）は、実施の形態２における認識結果統合部での処理を説明するための概略図である。実施の形態２に係る認識装置での処理を示すフローチャートである。

実施の形態１．
　図１は、実施の形態１に係る認識装置１００の構成を概略的に示すブロック図である。
　認識装置１００は、画像取得部１０１と、評価部１０２と、認識部１０３と、認識結果統合部１０４と、出力部１０５とを備える。

　画像取得部１０１は、画像を取得する。
　評価部１０２は、画像取得部１０１で取得された画像から文字列を含んでいる領域である文字列領域を特定し、その文字列領域の品質を評価して、その評価結果に応じて、画像の品質を評価する。例えば、評価部１０２は、複数の文字列の各々に各々が対応する複数の文字列領域を特定し、その複数の対象領域の品質の評価から、画像の品質の良否を評価する。ここで、文字列領域は、文字列を認識する領域である。また、品質は、画質ともいう。

　図２は、実施の形態１における評価部１０２の構成を概略的に示すブロック図である。
　評価部１０２は、文字列位置特定部１０２ａと、文字列品質評価部１０２ｂと、品質評価判断部１０２ｃとを備える。

　文字列位置特定部１０２ａは、画像取得部１０１で取得された画像における文字列の位置である文字列位置を特定する。文字列の位置の特定は、公知の方法が用いて行われればよい。例えば、下記の文献には、ラインオブジェクト又はスペースに基づいて原稿をいくつかのドメインに分割して、文字列を特定する方法が記載されている。
　Ｙ．ＩＴＡＮＩ，　ｅｔ　ａｌ．，“Ｔｅｘｔ　Ｌｉｎｅ　Ｅｘｔｒａｃｔｉｏｎ　Ｍｅｔｈｏｄ　Ｕｓｉｎｇ　Ｄｏｍａｉｎ-ｂａｓｅｄ　Ａｃｔｉｍｅ　Ｃｏｎｔｏｕｒ　Ｍｏｄｅｌ”，２０１３　１２ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｄｏｃｕｍｅｎｔ　Ａｎａｌｙｓｉｓ　ａｎｄ　Ｒｅｃｏｇｎｉｔｉｏｎ，　Ａｕｇｕｓｔ．　２０１３

　なお、ここでは、文字列位置特定部１０２ａは、画像から複数の文字列を特定し、その複数の文字列の各々が含まれる領域である文字列領域の位置を特定するものとする。このため、文字列位置特定部１０２ａを、文字列領域特定部ともいう。

　文字列品質評価部１０２ｂは、複数の文字列位置で示される複数の文字列を含んでいる複数の文字列領域の品質を、文字列領域毎に評価する。
　例えば、文字列品質評価部１０２ｂは、下記の（１）式～（３）式に示されているラプラシアン微分を用いる方法により、文字列領域の品質を評価する。

　　　　　　　　　　　　　　　　　　　　　　（１）

　　　　　　　　　　　　　　　　　　　　　　（２）

　　　　　　　　　　　　　　　　　　　　　　（３）
　ここで、例えば、Ｉ（ｘ，ｙ）は、座標（ｘ，ｙ）の輝度値を示す。

　ラプラシアン微分を用いると、画像のエッジを抽出することができる。ラプラシアン微分は、品質が悪いと値が小さくなり、品質が良いと値が大きくなる性質がある。従って、下記の（４）式で示されるように、領域内の分散値を算出し、算出された分散値を閾値と比較することにより、文字列領域の品質の評価が可能となる。

　　　　　　　　　　　　　　　　　　　　　　（４）
　ここでｓは、分散値を、Ｒは文字列領域の面積を、ａｖｅは文字列領域内のラプラシアン微分の平均値を示す。

　そして、下記のように、分散値ｓが閾値ＴＨｓ以下であれば、その文字列領域の品質が悪い（言い換えると、品質が良くない）と判断することができ、分散値ｓが閾値ＴＨｓよりも大きければ、その文字列領域の品質が良いと判断することができる。
　ｓ≦ＴＨｓ：品質悪
　ｓ＞ＴＨｓ：品質良

　品質評価判断部１０２ｃは、文字列領域の品質の評価結果に基づいて、その文字列領域が含まれている画像の品質を判断する。例えば、品質評価判断部１０２ｃは、文字列品質評価部１０２ｂからの評価結果に基づいて、多数決により画像の品質を判断する。なお、同数の場合には、品質評価判断部１０２ｃは、画像の品質が良いと判断すればよい。

　図１に戻り、認識部１０３は、評価部１０２による評価の結果に応じて、文字列を認識するか否かを判断する。そして、認識部１０３は、文字列を認識すると判断した場合に、文字列領域から文字列を認識する。
　例えば、認識部１０３は、評価部１０２により画像の品質が良いと判断された場合に、その画像に含まれている文字列の文字を認識する。認識部１０３は、公知の方法を用いて文字の認識を行えばよいが、例えば、下記の文献には、文字を認識する方法の一例が記載されている。
　Ｔ．Ｈｉｒａｎｏ，　ｅｔ　ａｌ．，　“Ｓｔｒｕｃｔｕａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ｕｓｉｎｇ　Ｓｉｍｕｌａｔｅｄ　Ａｎｎｅａｌｉｎｇ”，　Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ　Ｒ＆Ｄ　Ｃｅｎｔｅｒ，　Ａｕｇｕｓｔ，　１９９７

　認識結果統合部１０４は、複数の画像で認識された複数の文字列を比較することで、その複数の画像に記載されている複数の文字列の配置を特定し、必要な文字列を特定された配置に並べることで、必要な文字列を統合する。例えば、認識結果統合部１０４は、複数の画像に含まれている第一の画像から認識された複数の文字列の内の一つである第一の処理文字列と、複数の画像に含まれている第二の画像から認識された複数の文字列の内の一つである第二の処理文字列とが、予め定められた条件を満たす場合に、その第一の処理文字列と、第二の処理文字列とが一致すると判断する。ここでの予め定められた条件は、第一の処理文字列と、第二の処理文字列とが同一であることである。そして、認識結果統合部１０４は、第一の処理文字列が認識された位置と、第二の処理文字列が認識された位置とが合わさるように、第一の画像から認識された複数の文字列と、第二の画像から認識された複数の文字列とを結合する。そして、認識結果統合部１０４は、その統合結果を出力部１０５に与える。

　図３（Ａ）～（Ｃ）は、実施の形態１における認識結果統合部１０４での処理を説明するための概略図である。
　まず、前提として、図３（Ａ）に示されているように、評価部１０２は、複数の画像Ｉｍ１～Ｉｍ３の各々から、文字列領域を示す文字列位置を特定する。図３（Ａ）では、画像Ｉｍ１から文字列領域Ｒ１１～Ｒ１４が特定され、画像Ｉｍ２から文字列領域Ｒ２１～Ｒ２４が特定され、画像Ｉｍ３から文字列領域Ｒ３１～Ｒ３３が特定されている。

　そして、評価部１０２は、文字列領域Ｒ１１～Ｒ１４、文字列領域Ｒ２１～Ｒ２４及び領域３１～３３の各々において品質を評価して、その評価結果に応じて画像Ｉｍ１～Ｉｍ３の各々の品質を評価する。ここでは、文字列領域Ｒ１１～Ｒ１４の評価結果に基づいて、画像Ｉｍ１の品質が評価され、文字列領域Ｒ２１～Ｒ２４の評価結果に基づいて、画像Ｉｍ２の品質が評価され、文字列領域Ｒ３１～Ｒ３３の評価結果に基づいて、画像Ｉｍ３の品質が評価される。ここでは、画像Ｉｍ１～Ｉｍ３の全ての品質が良く、認識部１０３は、これらの全てで文字認識を行ったものとする。

　このような場合、認識結果統合部１０４は、画像Ｉｍ１～Ｉｍ３の各々で認識された複数の文字列を比較する。例えば、認識結果統合部１０４は、図３（Ｂ）に示されているように、画像Ｉｍ１から認識された文字列「ＡＢＣ」、「ＣＤＥ」、「ＥＦＧ」及び「ＧＨＩ」の各々と、画像Ｉｍ２から認識された文字列「ＣＤＥ」、「ＥＦＧ」、「ＧＨＩ」及び「ＩＪＫ」の各々とを比較する。さらに、画像Ｉｍ２から認識された文字列「ＣＤＥ」、「ＥＦＧ」、「ＧＨＩ」及び「ＩＪＫ」の各々と、画像Ｉｍ３から認識された文字列「ＥＦＧ」、「ＧＨＩ」及び「ＩＪＫ」の各々とを比較する。

　ここでは、画像Ｉｍ１から認識された文字列「ＣＤＥ」、「ＥＦＧ」及び「ＧＨＩ」と、画像Ｉｍ２から認識された文字列「ＣＤＥ」、「ＥＦＧ」及び「ＧＨＩ」が一致し、画像Ｉｍ２から認識された文字列「ＥＦＧ」、「ＧＨＩ」及び「ＩＪＫ」と、画像Ｉｍ３から認識された文字列「ＥＦＧ」、「ＧＨＩ」及び「ＩＪＫ」とが一致する。このため、認識結果統合部１０４は、図３（Ｃ）に示されているように、一致している文字列が重複しないように、文字列の配置を特定することで、これらの文字列を統合する。

　出力部１０５は、認識結果統合部１０４での統合結果を出力する。例えば、出力部１０５は、統合された文字列を表す画面画像を表示する。

　図４は、認識装置１００のハードウェア構成の第一の例を示すブロック図である。
　認識装置１００は、画像取得装置１１０と、記憶装置１１１と、処理回路１１２と、表示装置１１３とを備える。

　画像取得装置１１０は、スキャナ又はカメラのように、画像を取得する装置である。また、画像取得装置１１０は、ＮＩＣ（Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄ）等の通信装置のように、ネットワーク又は他の装置から画像を取得する通信インターフェース又は接続インターフェースであってもよい。

　記憶装置１１１は、認識装置１００での処理に必要なデータを記憶する装置である。
　処理回路１１２は、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）又はＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の回路である。
　表示装置１１３は、各種画面画像を表示する装置である。

　例えば、図１に示されている画像取得部１０１は、画像取得装置１１０により実現することができ、図１に示されている評価部１０２、認識部１０３及び認識結果統合部１０４は、処理回路１１２で実現することができ、図１に示されている出力部１０５は、表示装置１１３により実現することができる。

　図５は、認識装置１００のハードウェア構成の第二の例を示すブロック図である。
　認識装置１００は、画像取得装置１１０と、記憶装置１２１と、表示装置１１３と、メモリ１２４と、プロセッサ１２５とを備える。
　第二の例における画像取得装置１１０及び表示装置１１３は、第一の例における画像取得装置１１０及び表示装置１１３と同様である。

　記憶装置１２１は、認識装置１００での処理に必要なプログラム及びデータを記憶する装置である。
　メモリ１２４は、プロセッサ１２５が処理を行う際のワークスペースを提供する。

　プロセッサ１２５は、記憶装置１２１に記憶されているプログラムをメモリ１２４に読み出して、そのプログラムを実行するＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等の演算装置である。

　図１に示されている評価部１０２、認識部１０３及び認識結果統合部１０４は、プロセッサ１２５が記憶装置１２１に記憶されているプログラムをメモリ１２４に読み出して、そのプログラムを実行することで実現することができる。

　言い換えると、評価部１０２、認識部１０３及び認識結果統合部１０４は、処理回路網により実現することができる。

　図６は、実施の形態１に係る認識装置１００での処理を示すフローチャートである。
　図６のフローチャートは、画像取得部１０１が画像を取得して、その画像を評価部１０２に与えることで開始される。

　まず、評価部１０２の文字列位置特定部１０２ａは、与えられた画像から文字列を検出する（Ｓ１０）。
　そして、文字列位置特定部１０２ａは、その画像に文字列があるか否かを判断する（Ｓ１１）。文字列がある場合（Ｓ１１でＹｅｓ）には、処理はステップＳ１２に進み、文字列がない場合（Ｓ１１でＮｏ）には、処理はステップＳ１７に進む。

　ステップＳ１２では、文字列位置特定部１０２ａは、その画像内において、文字列が含まれている位置を特定する。そして、文字列位置特定部１０２ａは、特定した位置を文字列品質評価部１０２ｂに通知する。

　文字列品質評価部１０２ｂは、文字列位置特定部１０２ａからの通知に従って、文字列が含まれている領域である文字列領域の品質を評価する（Ｓ１３）。ここでは、文字列品質評価部１０２ｂは、ラプラシアン微分を用いて、上記の（１）式～（４）式により、文字列領域の品質を評価する。そして、文字列品質評価部１０２ｂは、文字列領域の評価結果を品質評価判断部１０２ｃに通知する。

　そして、品質評価判断部１０２ｃは、文字列領域の評価結果に基づいて、その文字列領域が含まれる画像の品質を評価する（Ｓ１４）。ここでは、品質評価判断部１０２ｃは、文字列領域の評価結果の多数決により、画像の品質の良否を評価する。そして、品質評価判断部１０２ｃは、画像の品質の評価結果を認識部１０３に通知する。

　認識部１０３は、画像の品質の評価結果が、画像の品質が良いことを示すか否かを判断する（Ｓ１５）。画像の品質が良い場合（Ｓ１５でＹｅｓ）には、処理はステップＳ１６に進み、画像の品質が良くない場合（Ｓ１５でＮｏ）には、処理はステップＳ１７に進む。

　ステップＳ１６では、認識部１０３は、画像から文字認識を実行する。文字認識には、公知の方法が用いられる。そして、処理はステップＳ１７に進む。

　ステップＳ１７では、評価部１０２の文字列位置特定部１０２ａは、文字認識を実行すべき画像が未だ残っているか否かを判断する。文字認識を実行すべき画像が未だ残っている場合（Ｓ１７でＹｅｓ）には、処理はステップＳ１０に戻り、文字認識を実行すべき画像が残っていない場合（Ｓ１７でＮｏ）には、処理はステップＳ１８に進む。

　ステップＳ１８では、認識結果統合部１０４は、認識部１０３で認識された文字列を統合する。統合された結果は、出力部１０５に与えられ、出力部１０５により出力される。

　以上のように、実施の形態１によれば、まず認識対象となる文字列を検出し、その文字列を含む文字列領域の品質を評価するようにしたことで、全体的には鮮明な画像であっても、フォーカスが文字列にあたっていない画像を適切に棄却することができる。これにより、文字認識結果の精度を向上させることができる。
　また、全体的には不鮮明な画像であっても、文字列領域が鮮明な画像については、文字認識の対象とすることができる。これにより、文字認識を行うことのできる画像から確実に文字認識を行うことができる。

　また、一般的に文字列の検出よりも、文字認識の方が演算量は多いため、実施の形態１によれば、システムとしての精度を保ちつつ高速化できる効果がある。

実施の形態２．
　実施の形態１では、文字列領域毎に品質を評価し、その多数決により一つの画像から文字認識を行うか否かを判断した。実施の形態２では、画像単位ではなく文字列領域単位の結果をそのまま利用して、文字認識を行うか否かを判断する方法について示す。

　図１に示されているように、実施の形態２に係る認識装置２００は、画像取得部１０１と、評価部２０２と、認識部２０３と、認識結果統合部２０４と、出力部１０５とを備える。
　実施の形態２に係る認識装置２００の画像取得部１０１及び出力部１０５は、実施の形態１に係る認識装置１００の画像取得部１０１及び出力部１０５と同様である。

　評価部２０２は、取得された画像から文字列領域を特定し、特定された文字列領域の品質を評価する。
　例えば、評価部２０２は、複数の文字列の各々に各々が対応する複数の文字列領域を特定し、その複数の文字列領域の各々の品質の良否を評価する。

　図７は、実施の形態２における評価部２０２の構成を概略的に示すブロック図である。
　評価部２０２は、文字列位置特定部１０２ａと、文字列品質評価部１０２ｂとを備える。
　実施の形態２における文字列位置特定部１０２ａ及び文字列品質評価部１０２ｂは、実施の形態１における文字列位置特定部１０２ａ及び文字列品質評価部１０２ｂと同様である。但し、実施の形態２では、文字列品質評価部１０２ｂは、文字列領域毎の評価結果を、認識部２０３に通知する。

　図１に戻り、認識部２０３は、文字列品質評価部１０２ｂにより品質が良いと判断された文字列領域毎に、その文字列領域に含まれている文字列の文字を認識する。例えば、認識部２０３は、複数の文字列領域の内、品質が良いと評価された一又は複数の文字列領域から一又は複数の文字列を認識すると判断して、その一又は複数の文字列領域から一又は複数の文字列を認識する。
　実施の形態２においても、認識部２０３は、公知の方法を用いて文字の認識を行えばよい。認識された文字列は、認識結果統合部２０４に与えられる。

　認識結果統合部２０４は、複数の文字列領域で認識された複数の文字列を比較することで、その複数の文字列領域に記載されている複数の文字列の配置を特定し、必要な文字列を特定された配置に並べることで、必要な文字列を統合する。そして、認識結果統合部２０４は、その統合結果を出力部１０５に与える。

　実施の形態２においては、評価部２０２の評価は、文字列領域単位での評価になるため、認識部２０３の認識結果には、画像中の文字列で認識結果が得られないものが存在する可能性があり、また、その認識結果には誤認識が含まれる可能性がある。この場合、認識結果統合部２０４は、一致している文字列の認識結果を元に、複数の画像の認識結果を組み合わせることで文字列の認識結果を統合していくことで、認識結果がない文字列領域又は誤認識された文字列領域があっても、正しく統合していくことが可能となる。

　図８（Ａ）～（Ｃ）は、実施の形態２における認識結果統合部２０４での処理を説明するための概略図である。
　まず、前提として、図８（Ａ）に示されているように、評価部２０２は、複数の画像Ｉｍ４～Ｉｍ６の各々に含まれている文字列領域の各々の品質を評価して、認識部２０３は、その評価結果に応じて、文字列領域毎に文字認識を実行する。

　図８（Ａ）では、評価部２０２は、画像Ｉｍ４に含まれている文字列領域Ｒ４１～Ｒ４４を特定し、これらの文字列領域Ｒ４１～Ｒ４４の全ての品質を良いと判断する。このため、認識部２０３は、これらの文字列領域Ｒ４１～Ｒ４４の全てから文字を認識し、それぞれの文字列を認識する。

　また、評価部２０２は、画像Ｉｍ５に含まれている文字列領域Ｒ５１～Ｒ５４を特定し、文字列領域Ｒ５１、文字列領域Ｒ５３及び文字列領域Ｒ５４については、品質が良いと判断し、文字列領域Ｒ５２については、品質が良くないと判断する。このため、認識部２０３は、文字列領域Ｒ５１、文字列領域Ｒ５３及び文字列領域Ｒ５４について文字認識を実行するが、文字列領域Ｒ５２については、文字認識を実行しない。

　さらに、評価部２０２は、画像Ｉｍ６に含まれている文字列領域Ｒ６１～Ｒ６３を特定し、これらの文字列領域Ｒ６１～Ｒ６３の全ての品質を良いと判断する。このため、認識部２０３は、これらの文字列領域Ｒ６１～Ｒ６３の全てから文字を認識し、それぞれの文字列を認識する。

　このような場合、認識結果統合部２０４は、画像Ｉｍ４～Ｉｍ６の各々で認識された複数の文字列を比較する。例えば、認識結果統合部２０４は、図８（Ｂ）に示されているように、画像Ｉｍ４から認識された文字列「ＡＢＣ」、「ＣＤＥ」、「ＥＦＧ」及び「ＧＨＩ」の各々と、画像Ｉｍ５から認識された文字列「ＣＤＥ」、「ＧＨＩ」及び「ＩＪＫ」の各々とを比較する。この場合、認識結果統合部２０４は、画像Ｉｍ５では、文字列「ＥＦＧ」が認識されていないことを特定することができる。

　さらに、認識結果統合部２０４は、画像Ｉｍ５から認識された文字列「ＣＤＥ」、「ＧＨＩ」及び「ＩＪＫ」の各々と、画像Ｉｍ６から認識された文字列「ＥＦＧ」、「ＧＨＩ」及び「ＩＪＫ」の各々とを比較する。この場合でも、認識結果統合部２０４は、画像Ｉｍ５では、文字列「ＥＦＧ」が認識されていないことを特定することができる。

　ここでは、画像Ｉｍ４から認識された文字列「ＣＤＥ」及び「ＧＨＩ」と、画像Ｉｍ５から認識された文字列「ＣＤＥ」及び「ＧＨＩ」が一致し、画像Ｉｍ５から認識された文字列「ＧＨＩ」及び「ＩＪＫ」と、画像Ｉｍ６から認識された文字列「ＥＦＧ」、「ＧＨＩ」及び「ＩＪＫ」とが一致する。このため、認識結果統合部１０４は、図８（Ｃ）に示されているように、一致している文字列が重複しないように、文字列の配置を特定することで、これらの文字列を統合する。

　図９は、実施の形態２に係る認識装置２００での処理を示すフローチャートである。
　図９に示されているフローチャートは、画像取得部１０１が画像を取得して、その画像を評価部２０２に与えることで開始される。
　なお、図９に示されているフローチャートに含まれているステップＳ１０～Ｓ１３までの処理は、図６に示されているフローチャートに含まれているステップＳ１０～Ｓ１３までの処理と同様である。但し、図９においては、ステップＳ１３の後は、処理はステップＳ２０に進む。

　ステップＳ２０では、認識部２０３は、未だ品質の量を判断していない一つの文字列領域を選択する。
　そして、認識部２０３は、文字列品質評価部１０２ｂによる文字列領域の評価結果に基づいて、選択された文字列領域の品質が良いか否かを判断する。選択された文字列領域の品質が良い場合（Ｓ２１でＹｅｓ）には、処理はステップＳ２２に進み、選択された文字列領域の品質が良くない場合（Ｓ２１でＮｏ）には、処理はステップＳ２２に進む。

　ステップＳ２２では、認識部２０３は、選択された文字列領域から文字認識を実行する。文字認識には、公知の方法が用いられる。そして、処理はステップＳ２３に進む。

　ステップＳ２３では、認識部２０３は、未選択の文字列領域が残っているか否かを判断する。未選択の文字列領域が残っている場合（Ｓ２３でＹｅｓ）には、処理はステップＳ２０に戻り、未選択の文字列領域が残っていない場合（Ｓ２３でＮｏ）には、処理はステップＳ２４に進む。

　ステップＳ２４では、評価部２０２の文字列位置特定部１０２ａは、文字認識を実行すべき画像が未だ残っているか否かを判断する。文字認識を実行すべき画像が未だ残っている場合（Ｓ２４でＹｅｓ）には、処理はステップＳ１０に戻り、文字認識を実行すべき画像が残っていない場合（Ｓ２４でＮｏ）には、処理はステップＳ２５に進む。

　ステップＳ２５では、認識結果統合部２０４は、認識部２０３で認識された文字列を統合する。この際、品質の不良により文字認識結果がない領域又は誤認識された文字列領域が発生するため、認識結果統合部２０４は、それらを考慮し、文字認識結果が一致している部分を元に結果を統合する。統合された結果は、出力部１０５に与えられ、出力部１０５により出力される。

　以上のように、実施の形態２によれば、文字列領域毎の品質の評価結果を元に文字認識を行うため、画像の一部分のみ認識が可能である場合であっても認識結果を得ることができる。

　実施の形態１又は２では、認識結果統合部１０４、２０４は、文字列が一致した場合に文字列を統合しているが、実施の形態１又は２は、このような例に限定されない。例えば、誤認識を考慮して、認識結果統合部１０４、２０４は、文字列の１部分のみが一致している場合でも統合可としてもよい。これにより、誤認識の修正を行うことができる。

　この場合、認識結果統合部１０４、２０４は、下記の（５）式及び（６）式のように、文字列Ａと、文字列Ｂのレーベンシュタイン距離を計算し、その距離が閾値ＴＨＬ以下である場合に、文字列Ａと文字列Ｂとを統合してもよい。
　Ｌ（Ａ，Ｂ）≦ＴＨＬ：　統合する　　　　　　　　　　　　（５）
　Ｌ（Ａ，Ｂ）＞ＴＨＬ：　統合しない　　　　　　　　　　　（６）
　ここで、Ｌ（Ａ，Ｂ）は、文字列Ａと、文字列Ｂとのレーベンシュタイン距離を表すものとする。

　この場合において、文字列Ａと、文字列Ｂとを統合する方法は、どのような方法でもよい。例えば、先に撮像された画像から取得された文字列が優先されてもよく、後に撮像された画像から取得された文字列が優先されてもよい。また、上記（４）式の値が大きい方の文字列領域から認識された文字列が優先されてもよい。

　実施の形態１及び２では、認識する対象を文字列としたが、認識する対象は、文字列に限定されない。例えば、認識する対象は、物体等、他の物であってもよい。

　このような場合には、評価部１０２，２０２は、画像において対象を認識する領域である対象領域を特定し、その対象領域の品質の評価を行う。例えば、評価部１０２は、複数の対象の各々に各々が対応する複数の対象領域を特定し、複数の対象領域の品質の評価から、画像の品質の良否を評価する。また、評価部２０２は、複数の対象の各々に各々が対応する複数の対象領域を特定し、複数の対象領域の各々の品質の良否を評価する。

　また、認識部１０３，２０３は、評価部１０２，２０２による評価の結果に応じて、対象を認識するか否かを判断し、対象を認識すると判断した場合に、対象領域から対象を認識する。例えば、認識部１０３は、画像の品質が良いと判断された場合に、複数の対象を認識すると判断して、複数の対象領域から複数の対象を認識する。また、認識部２０３は、複数の対象領域の内、品質が良いと評価された一又は複数の対象領域から一又は複数の対象を認識すると判断して、その一又は複数の対象領域から一又は複数の対象を認識する。

　具体的には、実施の形態１においては、認識装置１００は、以下のような処理を行う。
　ここで、画像取得部１０１が取得する複数の画像の内の二つの画像を、第一の画像及び第二の画像とする。第一の画像と、第二の画像とは、一部が重複するように撮像されているものとする。そして、第一の画像に含まれている複数の対象を複数の第一の対象とし、第二の画像に含まれている複数の対象を複数の第二の対象とする。

　評価部１０２は、第一の画像から複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、その複数の第一の対象領域の品質の評価を行う。また、評価部１０２は、第二の画像から複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、その複数の第二の対象領域の品質の評価を行う。

　認識部１０３は、複数の第一の対象領域の品質の評価の結果に応じて、複数の第一の対象を認識するか否かを判断し、複数の第一の対象を認識すると判断した場合に、複数の第一の対象領域から複数の第一の対象を認識する。また、認識部１０３は、複数の第二の対象領域の品質の評価の結果に応じて、複数の第二の対象を認識するか否かを判断し、複数の第二の対象を認識すると判断した場合に、複数の第二の対象領域から複数の第二の対象を認識する。

　認識結果統合部１０４は、第一の画像から認識された複数の第一の対象の内の一つである第一の処理対象と、第二の画像から認識された複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、第一の処理対象と、第二の処理対象とが一致すると判断する。そして、認識結果統合部１０４は、第一の処理対象が認識された位置と、第二の処理対象が認識された位置とが合わさるように、複数の第一の対象と、複数の第二の対象とを結合する。

　また、実施の形態２においては、認識装置２００は、以下のような処理を行う。
　ここでも、画像取得部１０１が取得する二つの画像を第一の画像及び第二の画像とする。第一の画像と、第二の画像とは、一部が重複するように撮像されているものとする。そして、第一の画像に含まれている複数の対象を複数の第一の対象とし、第二の画像に含まれている複数の対象を複数の第二の対象とする。

　評価部２０２は、第一の画像から複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、その複数の第一の対象領域の各々の品質の良否を評価する。また、評価部２０２は、第二の画像から複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、その複数の第二の対象領域の各々の品質の良否を評価する。

　認識部２０３は、複数の第一の対象領域の内、品質が良いと評価された一又は複数の第一の対象領域から一又は複数の第一の対象を認識する。また、認識部２０３は、複数の第二の対象領域の内、品質が良いと評価された一又は複数の第二の対象領域から一又は複数の第二の対象を認識する。

　認識結果統合部２０４は、認識された一又は複数の第一の対象の内の一つである第一の処理対象と、認識された一又は複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、第一の処理対象と、第二の処理対象とが一致すると判断する。そして、認識結果統合部２０４は、第一の処理対象が認識された位置と、第二の処理対象が認識された位置とが合わさるように、認識された一又は複数の第一の対象と、認識された一又は複数の第二の対象とを結合する。

　上記の条件は、第一の処理対象と、第二の処理対象とが同一であることであってもよく、第一の処理対象と、第二の処理対象とのレーベンシュタイン距離が、予め定められた閾値以下であることであってもよい。

　なお、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

　１００，２００　認識装置、　１０１　画像取得部、　１０２，２０２　評価部、　１０２ａ　文字列位置特定部、　１０２ｂ　文字列品質評価部、　１０２ｃ　品質評価判断部、　１０３，２０３　認識部、　１０４，２０４　認識結果統合部、　１０５　出力部。

Claims

　画像において対象を認識する領域である対象領域を特定し、前記対象領域の品質の評価を行う評価部と、
　前記評価の結果に応じて、前記対象を認識するか否かを判断し、前記対象を認識すると判断した場合に、前記対象領域から前記対象を認識する認識部と、を備えること
　を特徴とする認識装置。
　前記評価部は、複数の前記対象の各々に各々が対応する複数の前記対象領域を特定し、前記複数の対象領域の評価から、前記画像の品質の良否を評価し、
　前記認識部は、前記画像の品質が良いと判断された場合に、前記複数の対象を認識すると判断して、前記複数の対象領域から前記複数の対象を認識すること
　を特徴とする請求項１に記載の認識装置。
　前記評価部は、複数の前記対象の各々に各々が対応する複数の前記対象領域を特定し、前記複数の対象領域の各々の品質の良否を評価し、
　前記認識部は、前記複数の対象領域の内、品質が良いと評価された一又は複数の対象領域から一又は複数の対象を認識すると判断して、前記一又は複数の対象領域から前記一又は複数の対象を認識すること
　を特徴とする請求項１に記載の認識装置。
　前記対象は、文字列であること
　を特徴とする請求項１から３の何れか一項に記載の認識装置。
　第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、前記複数の第一の対象領域の品質の評価を行うとともに、前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、前記複数の第二の対象領域の品質の評価を行う評価部と、
　前記複数の第一の対象領域の品質の評価の結果に応じて、前記複数の第一の対象を認識するか否かを判断し、前記複数の第一の対象を認識すると判断した場合に、前記複数の第一の対象領域から前記複数の第一の対象を認識するとともに、前記複数の第二の対象領域の品質の評価の結果に応じて、前記複数の第二の対象を認識するか否かを判断し、前記複数の第二の対象を認識すると判断した場合に、前記複数の第二の対象領域から前記複数の第二の対象を認識する認識部と、
　前記第一の画像から認識された前記複数の第一の対象の内の一つである第一の処理対象と、前記第二の画像から認識された前記複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記複数の第一の対象と、前記複数の第二の対象とを結合する認識結果統合部と、を備えること
　を特徴とする認識装置。
　第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、前記複数の第一の対象領域の各々の品質の良否を評価するとともに、前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、前記複数の第二の対象領域の各々の品質の良否を評価する評価部と、
　前記複数の第一の対象領域の内、品質が良いと評価された一又は複数の第一の対象領域から一又は複数の第一の対象を認識し、前記複数の第二の対象領域の内、品質が良いと評価された一又は複数の第二の対象領域から一又は複数の第二の対象を認識する認識部と、
　前記一又は複数の第一の対象の内の一つである第一の処理対象と、前記一又は複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記一又は複数の第一の対象と、前記一又は複数の第二の対象とを結合する認識結果統合部と、を備えること
　を特徴とする認識装置。
　前記条件は、前記第一の処理対象と、前記第二の処理対象とが同一であること
　を特徴とする請求項５又は６に記載の認識装置。
　前記条件は、前記第一の処理対象と、前記第二の処理対象とのレーベンシュタイン距離が、予め定められた閾値以下であること
　を特徴とする請求項５又は６に記載の認識装置。
　前記対象は、文字列であること
　を特徴とする請求項５から８の何れか一項に記載の認識装置。
　画像において対象を認識する領域である対象領域を特定し、
　前記対象領域の品質の評価を行い、
　前記評価の結果に応じて、前記対象を認識するか否かを判断し、
　前記対象を認識すると判断した場合に、前記対象領域から前記対象を認識すること
　を特徴とする認識方法。
　第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、
　前記複数の第一の対象領域の品質の評価を行い、
　前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、
　前記複数の第二の対象領域の品質の評価を行い、
　前記複数の第一の対象領域の品質の評価の結果に応じて、前記複数の第一の対象を認識するか否かを判断し、
　前記複数の第一の対象を認識すると判断した場合に、前記複数の第一の対象領域から前記複数の第一の対象を認識し、
　前記複数の第二の対象領域の品質の評価の結果に応じて、前記複数の第二の対象を認識するか否かを判断し、
　前記複数の第二の対象を認識すると判断した場合に、前記複数の第二の対象領域から前記複数の第二の対象を認識し、
　前記第一の画像から認識された前記複数の第一の対象の内の一つである第一の処理対象と、前記第二の画像から認識された前記複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記複数の第一の対象と、前記複数の第二の対象とを結合すること
　を特徴とする認識方法。
　第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、
　前記複数の第一の対象領域の各々の品質の良否を評価し、
　前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、
　前記複数の第二の対象領域の各々の品質の良否を評価し、
　前記複数の第一の対象領域の内、品質が良いと評価された一又は複数の第一の対象領域から一又は複数の第一の対象を認識し、
　前記複数の第二の対象領域の内、品質が良いと評価された一又は複数の第二の対象領域から一又は複数の第二の対象を認識し、
　前記一又は複数の第一の対象の内の一つである第一の処理対象と、前記一又は複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記一又は複数の第一の対象と、前記一又は複数の第二の対象とを結合すること
　を特徴とする認識方法。