WO2020218512A1

WO2020218512A1 - 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム

Info

Publication number: WO2020218512A1
Application number: PCT/JP2020/017696
Authority: WO
Inventors: 昂平安田
Original assignee: Ａｒｉｔｈｍｅｒ株式会社
Priority date: 2019-04-26
Filing date: 2020-04-24
Publication date: 2020-10-29
Also published as: JP6590355B1; JP2020184109A

Abstract

学習モデル生成装置は、帳票の手書き文字領域に記入されうる１又は複数の単語が登録されたコーパス（３）と、１文字単位の手書き文字画像のデータセット（ＤＳ１）と、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部（１２）と、学習用データを用いた第１学習により、学習モデルを生成する学習モデル生成部（１３）と、を備える。これにより、帳票に記入された手書き文字列の認識処理の精度を改善することができる。

Description

学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム

　本発明は、学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラムに関する。

　従来、手書き文字が記入された帳票をイメージスキャナ等で読み取った画像データについて、光学的文字認識処理、つまりОＣＲ（Optical Character Recognition）処理することにより、所定の文字コードに変換したデジタルデータを生成する手法が知られている。

　例えば、特許文献１には、手書きや活字等の文書や、映像や写真などの画像において文字を認識するシステム及び関連サービスが開示されている。より具体的には、特許文献１には、見本文字画像の入力を受け付ける文字画像入力受付部と、見本文字画像に基づいて文字部品を抽出する文字部品抽出と、文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成と、を含むことを特徴とする文字識別システムが記載されている。

特開２０１５－０６９２５６号公報

　特許文献１に記載の従来システムにおいては、少数の見本画像をもとに、外字または新しい文字画像として登録された文字を学習して、当該文字をより高精度に認識することが記載されている。しかしながら、特許文献１に記載の文字認識技術は、１つ１つの文字を個別に認識するためのものであって、複数の文字からなる文字列を高精度に読み取るためのものではない。

　そこで、本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、帳票に記入された手書き文字列の認識処理の精度を改善する学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラムを提供することを目的とする。

　本発明の一態様に係る学習モデル生成装置は、帳票の手書き文字領域に記入されうる１又は複数の単語が登録されたデータベースと、１文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、学習用データを用いた第１学習により、学習モデルを生成する学習モデル生成部と、を備える。

　本発明の一態様に係る文字認識装置は、帳票に記入された手書き文字を認識する文字認識装置であって、帳票の画像データを取得する画像データ取得部と、取得した画像データに基づいて、手書き文字で記入された文字列を含む１又は複数の手書き文字領域を特定する領域特定部と、第１ニューラルネットワーク及び第２ニューラルネットワークが結合されたネットワーク構造を有する学習モデルを用いて、手書き文字領域に記入された文字列の内容を認識する文字認識部と、を備える。

　本発明の一態様に係る学習モデル生成方法は、学習モデルを生成するコンピュータが実行する学習モデル生成方法であって、帳票の手書き文字領域に記入されうる１又は複数の単語が登録されたデータベースと、１文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成するステップと、学習用データを用いた第１学習により、学習モデルを生成するステップと、を含む。

　本発明の一態様に係る文字認識方法は、帳票に記入された手書き文字を認識するコンピュータが実行する文字認識方法であって、帳票の画像データを取得するステップと、取得した画像データに基づいて、手書き文字で記入された文字列を含む１又は複数の手書き文字領域を特定するステップと、第１ニューラルネットワーク及び第２ニューラルネットワークが結合されたネットワーク構造を有する学習済モデルを用いて、手書き文字領域に記入された文字列の内容を認識するステップと、を含む。

　本発明の一態様に係るプログラムは、コンピュータを、帳票の手書き文字領域に記入されうる１又は複数の単語が登録されたデータベースと、１文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、学習用データを用いた第１学習により、学習モデルを生成する、学習モデル生成部と、して機能させる。

　本発明の一態様に係るプログラムは、帳票に記入された手書き文字を認識するコンピュータを、帳票の画像データを取得する画像データ取得部と、取得した画像データに基づいて、手書き文字で記入された文字列を含む１又は複数の手書き文字領域を特定する領域特定部と、第１ニューラルネットワーク及び第２ニューラルネットワークが結合されたネットワーク構造を有する学習済モデルを用いて、手書き文字領域に記入された文字列の内容を認識する文字認識部と、して機能させる。

　なお、本発明において、「部」とは、単に物理的手段を意味するものではなく、その「部」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」や装置が有する機能が２つ以上の物理的手段や装置により実現されても、２つ以上の「部」や装置の機能が１つの物理的手段や装置により実現されても良い。

　本発明によれば、帳票に記入された手書き文字列の認識処理の精度を改善することができる。

第１実施形態に係る文字認識装置の概略構成図（システム構成図）である。第１実施形態に係る証券の一例を示す図である。第１実施形態に係る学習用データ生成処理、及び、学習モデル生成処理の一例を示す概念図である。第１実施形態に係る住所コーパスの一例を示す図である。第１実施形態に係る学習モデル強化（更新）処理の一例を示す概念図である。第１実施形態に係るレイアウト情報の一例を示す概念図である。第１実施形態に係る文字認識処理の一例を示すフローチャートである。第１実施形態に係る学習モデル生成処理の一例を示すフローチャートである。第２実施形態に係る透かしが印刷された帳票の一例を示す図である。第２実施形態に係る、文字列画像に、帳票に印刷される透かしの少なくとも一部を重畳した学習用データの一例を示す図である。第３実施形態に係る文字認識装置の概略構成図（システム構成図）である。第４実施形態に係る文字認識装置及び学習モデル生成装置の概略構成図（システム構成図）である。第５実施形態に係る文字認識装置及び外部装置の概略構成図（システム構成図）である。本発明の実施形態に係るコンピュータのハードウェア構成の一例を示す図である。第１実施形態に係る文字認識装置の変形例を示す概略構成図（システム構成図）である。

　以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。

　＜第１実施形態＞
　図１は、本発明の第１実施形態に係る文字認識装置の概略構成図（システム構成図）である。図１に示すように、文字認識装置１００Ａは、帳票に記入された手書き文字を認識する装置であり、例えばサーバ等の情報処理装置である。文字認識装置１００Ａは、例えば、ラップトップ又はノートブック型コンピュータ等の他の情報処理装置であってもよい。文字認識装置１００Ａは、例示的に、帳票に記入された手書き文字を認識するための情報処理を実行する情報処理部１、辞書データベース（ＤＢ）としてのコーパス３、１文字単位の手書き文字データセットＤＢ５、文字列画像単位の手書き文字データセットＤＢ７、及びレイアウト情報ＤＢ９を備えて構成されている。なお、文字認識装置１００Ａは、帳票に記入された手書き文字以外の文字を認識してもよい。また、コーパス３、手書き文字データセットＤＢ５、手書き文字データセットＤＢ７、又は、レイアウト情報ＤＢ９の少なくとも一つは、文字認識装置１００Ａとは別個の装置、又は、データベースとして構成されてもよい。

　「帳票」とは、文字列が記入された書類をいい、帳簿や伝票の総称である。帳票とは、例えば、証券会社等が扱う証券、申請書、又は、契約書等の書類を含む。

　図２は、第１実施形態に係る証券（帳票）の一例を示す図である。図２に示すように、証券Ｃ１は、特定の保険会社「○○損害保険株式会社」の自動車保険証券である。

　証券Ｃ１は、手書き文字が記入されたフィールド（手書き文字領域）として、例えば、住所フィールド２０（住所に関する手書き文字領域）、及び、氏名フィールド２２を含む。これらのフィールドは、文字認識装置１００Ａで文字を認識するフィールドを例示したものであって、証券Ｃ１は他にも文字が記載されたフィールドを有してもよい。例えば、証券Ｃ１は、「ご契約内容」に含まれる、保険の開始日及び保険の満期日を手書きで記入するための保険期間フィールド（不図示）を有してもよい。さらに、証券Ｃ１は、「ご契約のお車」に含まれる、車台番号を手書きで記入するための車台番号フィールド（不図示）、及び、登録番号を手書きで記入するための登録番号フィールド（不図示）等を更に有してもよい。また、文字認識装置１００Ａは、他のフィールドの手書き文字を認識してもよい。なお、例示した上記フィールドのすべてについて手書き文字を認識しなければならないわけではない。

　図１に戻り、情報処理部１は、例えば、機能的に、画像データ取得部１１、学習用データ生成部１２、学習モデル生成部１３、学習モデル更新部１４、領域特定部１５、及び、文字認識部１６を含んで構成されている。

　なお、情報処理部１の上記各部は、例えば、メモリやハードディスク等の記憶領域を用いたり、記憶領域に格納されているプログラムをプロセッサが実行したりすることにより実現することができる。また、文字認識装置１００Ａのコーパス３、並びに、各ＤＢ５、７及び９は、プロセッサが実行することにより実現することができる。

　画像データ取得部１１は、証券Ｃ１の画像データを取得する。また、画像データ取得部１１は、例えば、画像データ取得部１１は、図１４を参照して後述する入出力インターフェース４４の一例であるカメラ等の撮像装置で撮像することによって生成される画像データを取得してもよい。

　図１５に示すように、画像データ取得部１１は、証券Ｃ１をカメラ等の撮像装置を含む外部装置５０で撮像することによって生成される画像データを、所定の通信ネットワークＮを介して取得してもよい。通信ネットワークＮは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、その具体的な構成は、文字認識装置１００Ａと外部装置５０との間でデータの送受信が可能なように構成されていれば特に制限されない。

　図３は、第１実施形態に係る学習用データ生成処理、及び、学習モデル生成処理の一例を示す概念図である。図１及び図３に示すように、学習用データ生成部１２は、証券Ｃ１における１又は複数の手書き文字領域に記入されうる１又は複数の単語が登録されたコーパス３と、手書き文字データセットＤＢ５に記録されている１文字単位の手書き文字画像のデータセットＤＳ１と、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する。

　図４は、第１実施形態に係る住所コーパスの一例を示す図である。図４に示すように、図１及び図３に示すコーパス３には、例えば、都道府県名、市区町村名、地域名、及び建物名の可能な組み合わせが階層化されて登録されている住所コーパスが含まれる。つまり、各都道府県名の下位階層には、当該都道府県に属する市区町村名が含まれる。同様に、各市区町村名の下位階層には、当該市区町村に属する地域名が含まれる。住所コーパスにはさらに、行政上の変更があった都道府県名、市区町村名および地域名について、旧名称と現名称とが対応付けられて登録されてもよい。

　図１及び図３に示すコーパス３には、住所に特化した住所コーパスの他、氏名、車名、職業、保険期間、車台番号、及び登録番号等に特化した各種コーパスが含まれてもよい。

　図３及び図４に示すように、学習用データ生成部１２は、証券Ｃ１における１又は複数のフィールドに記入されうる１又は複数の単語のテキスト情報ＣＬ１をコーパス３から抽出する。図３に示す例では、例えば住所テキスト情報「トウキョウト」を住所コーパスから抽出する。次に、コーパス３から抽出したテキスト情報ＣＬ１に含まれる各文字の手書き文字画像を手書き文字データセットＤＢ５からそれぞれ読み出して、手書き文字列画像ＣＳＩ１「トウキョウト」を生成する。ここで、図３に示すように、手書き文字データセットＤＢ５には、ひらがな、カタカナ、漢字等の文字（１文字）ごとに、対応する手書き文字画像が複数対応付けられて格納されている。具体的には、テキスト情報「ア」に対して、複数の手書き文字画像「ア」（すなわち、手書きで「ア」と記載された画像）が格納されている。手書き文字データセットＤＢ５には、テキスト情報「ア」以外の各文字についても同様に、複数の手書き文字画像（１文字単位の手書き文字画像）が対応付けられたデータセットＤＳ１が格納されている。
　すなわち、学習用データ生成部１２は、コーパス３から抽出されたテキスト情報ＣＬ１に含まれる文字ごとに、手書き文字データセットＤＢ５から、対応する手書き文字画像を読みだして、手書き文字列画像ＣＳＩ１を生成する。例えば、テキスト情報ＣＬ１が「トウキョウト」のとき、テキスト情報「ト」に対応する手書き文字画像「ト」を手書き文字データセットＤＢ５から任意に１つ抽出する。続いて、テキスト情報「ウ」に対応する手書き文字画像「ウ」を手書き文字データセットＤＢ５から任意に１つ抽出する。残りの、テキスト情報「キ」「ョ」「ウ」「ト」についても同様にして、対応する手書き文字画像「キ」「ョ」「ウ」「ト」を手書き文字データセットＤＢ５からそれぞれ任意に１つ抽出する。そして、抽出された手書き文字画像「ト」「ウ」「キ」「ョ」「ウ」「ト」を１つにまとめて、文字列画像ＣＳＩ１「トウキョウト」を生成する。このようにして生成された手書き文字列画像ＣＳＩ１「トウキョウト」に対して、コーパス３から抽出されたテキスト情報ＣＬ１「トウキョウト」を正解ラベルとする学習用データを生成する。なお、手書き文字列画像ＣＳＩ１を生成する際に、任意に抽出された手書き文字画像「ト」「ウ」「キ」「ョ」「ウ」「ト」のそれぞれを、回転、拡大、縮小、移動、又は、歪みを付加させてもよい。

　手書き文字データセットＤＢ５には、１文字単位の手書き文字画像のデータセットとして、ひらがな又は漢字のテキスト情報と、ひらがな又は漢字のテキスト情報のそれぞれに対応する、複数の手書き文字画像と、がセットで含まれてもよい。また、手書き文字データセットＤＢ５には、外国語の１文字単位の手書き文字画像のデータセットが含まれてもよい。例えば、１文字単位の手書き文字画像のデータセットとして、アルファベットのテキスト情報と、アルファベットのテキスト情報のそれぞれに対応する、複数の手書き文字画像と、がセットで含まれてもよい。

　学習モデル生成部１３は、学習用データ生成部１２が生成した学習用データを用いた第１学習により、学習モデルを生成する。図３に示すように、学習モデル生成部１３は、例えば、ＣＲＮＮ（Convolutional Recurrent Neural Network）を含むネットワーク構造から学習モデルＬＭ１を生成する。ＣＲＮＮは、例えば、畳み込みニューラルネットワーク（第１ニューラルネットワーク）、つまりＣＮＮ（Convolutional Neural Network）と、リカレントニューラルネットワーク（第２ニューラルネットワーク）、つまりＲＮＮ(Recurrent Neural Network)とが結合されたネットワーク構造である。ＣＮＮでは、証券Ｃ１における１又は複数のフィールドに含まれる手書き文字列に関する特徴量マップを算出する。ＲＮＮでは、動画像・音声などの時系列データを扱うことができるニューラルネットワークであり、再帰構造をもつため過去の情報を含めた予測が可能となる。ＲＮＮを用いて、特徴量マップから得られた複数の連続的な特徴データの前後関係を踏まえて文字列インデックスを算出する。なお、ネットワーク構造は上記以外の構成を採用してもよい。また、ニューラルネットワークについても、ＣＮＮ及びＲＮＮ以外のニューラルネットワークを採用してもよい。

　この構成によれば、学習モデル生成部１３は、ＣＲＮＮを含むネットワーク構造から学習モデルを生成するので、高精度に手書き文字列を認識することができる。

　上記したとおり、学習モデル生成部１３は、住所ＣＲＮＮ学習モデルを生成する。学習モデル生成部１３は、他の種別のＣＲＮＮ学習モデルを生成してもよい。例えば、学習用データ生成部１２が、氏名、保険期間、車台番号、及び登録番号等に関する学習用データを生成する場合、学習モデル生成部１３は、氏名、車名、職業、保険期間、車台番号、及び登録番号等に関する学習用データのそれぞれを用いた第１学習により、氏名、保険期間、車台番号、及び登録番号等に関するＣＲＮＮ学習モデルを生成してもよい。

　学習モデル更新部１４は、図３に示す第１学習の後、証券Ｃ１の画像データから切り出された文字列画像を学習用データとして用いた第２学習により、生成された学習モデルを強化（更新）する。

　図５は、第１実施形態に係る学習モデル強化（更新）処理の一例を示す概念図である。図５に示すように、図１に示す学習モデル更新部１４は、複数の証券Ｃ１の画像データから切り出された、住所及び氏名等の複数の文字列画像を学習用データとして、手書き文字データセットＤＢ７に格納する。手書き文字データセットＤＢ７には、例えば、複数の手書き文字列画像「トウキョウト」を含む文字列画像単位の手書き文字画像のデータセットＤＳ３が格納されている。学習モデル更新部１４は、図３に示す第１学習で生成された既存学習モデルを使用して、例えば、手書き文字データセットＤＢ７に含まれる手書き文字列画像「トウキョウト」（「ウ」が不鮮明）に基づいて、テキスト情報「トウキョクト」を生成（推論）する。これは、手書き文字列画像「トウキョウト」の「ウ」が不鮮明であったため、画像「ウ」を「ク」と誤認識したものである。この場合は、例えば、図１に示す文字認識装置１００Ａを操作するユーザにより、誤認識されたテキスト情報「トウキョクト」をテキスト情報「トウキョウト」に修正するマニュアル修正を実行してもよい。

　このように、学習モデル更新部１４は、第１学習で生成された既存学習モデルを使用して、手書き文字列画像に基づいてテキスト情報を生成（推論）し、誤認識された場合は、ユーザによってマニュアル修正されたテキスト情報を、手書き文字列画像の正解ラベルとしてとして付与する。他方、誤認識されなかった場合は、マニュアル修正を実行せず、生成（推論）されたテキスト情報を、手書き文字列画像の正解ラベルとして付与する。これにより、第２学習では、半自動的にアノテーションが生成される。すなわち、手書き文字列画像とそれに対応する正解ラベル、すなわち、この例では、手書き文字列画像「トウキョウト」に対応するテキスト情報の「トウキョウト」、を含む学習用データが生成される。そして、学習モデル更新部１４は、新たに生成された学習用データを既存学習モデルに追加することにより、学習モデルを強化することができる。

　この構成によれば、学習モデル更新部１４は、証券Ｃ１の画像データから各項目（氏住所、氏名等）の手書き文字列を抽出し、これらに正解ラベルを付与する。よって、これらの正解ラベルが付与された手書き文字列を第２学習することにより、第１学習で生成された学習モデルを強化することができる。

　図１に戻り、領域特定部１５は、画像データ取得部１１が取得した証券Ｃ１の画像データに基づいて、証券Ｃ１に手書き文字で記入された文字列を含む１又は複数のフィールドを特定する。証券Ｃ１におけるフィールドを特定する手法は様々な手法を採り得るが、一例として、以下では、証券Ｃ１内のフィールドを特定するためのレイアウト情報を使用する手法を説明する。

　図１に示すように、文字認識装置１００Ａは、証券Ｃ１における所定位置に対応付けて、フィールドを特定するためのレイアウト情報を記録するレイアウト情報ＤＢ９（記録部）を更に備える。

　図６は、第１実施形態に係るレイアウト情報の一例を示す概念図である。図６に示すように、レイアウト情報は、証券テンプレートＩＤごとに、複数のフィールドの各フィールド名と当該フィールドの始点位置と終点位置とが対応付けて格納されている。ここでフィールド名は複数のフィールドのいずれであるかを特定する情報の例となっている。

　図６の例では証券テンプレートＩＤ「００１」について、フィールド名「住所」の位置が始点の座標（Ｘ２１，Ｙ２１）および終点の座標（Ｘ２２，Ｙ２２）で表されている。これにより、フィールド名「住所」のフィールドは、これら始点と終点とで指定される矩形の領域である。これらの座標は、証券Ｃ１全体を予め定められた大きさに正規化したときの位置であることが好ましい。ただし、フィールドの位置の指定方法は図６に示す例に限られず、他の方法が用いられてもよい。

　レイアウト情報は文字認識装置１００Ａの文字認識処理に先立って、レイアウト情報ＤＢ９に格納される。新たなフォーマットの証券が発行された場合には、文字認識装置１００Ａのユーザ等により、当該証券についてのレイアウト情報がレイアウト情報ＤＢ９に追加されることが好ましい。

以上の通り、レイアウト情報は証券テンプレートごとに複数のフィールドのそれぞれを特定する位置の情報が格納されている。領域特定部１５は、レイアウト情報に基づいて、フィールドを特定する。この構成によれば、例えば、互いに異なるレイアウトの複数の証券においても、それぞれにおける住所フィールド２０、及び、氏名フィールド２２等の各フィールドの位置が特定できる。

　なお、証券Ｃ１内のフィールドを特定する手法は上記に限られない。例えば、上記した証券テンプレートを使用しない特定手法の一例については、第３実施形態として説明する

　文字認識部１６は、生成された学習モデル、又は、強化（更新）された学習モデルを用いて、手書き文字領域に記入された文字列の内容を認識する。文字認識部１６は、例えば、ＣＮＮ及びＲＮＮが結合されたＣＲＮＮを有する学習モデルを用いて、証券Ｃ１のフィールドに記入された文字列の内容を認識する。この構成によれば、文字認識部１６は、ＣＮＮ及びＲＮＮが結合されたネットワーク構造を用いて、手書き文字列を認識するので、高精度に手書き文字列を認識することができる。

　（文字認識処理）
　図７及び図８を用いて、本発明の第１実施形態に係る文字認識処理の一例を説明する。図７は、第１実施形態に係る文字認識処理の一例を示すフローチャートである。

　図７に示すように、図１に示す画像データ取得部１１は、図２に示す証券Ｃ１の画像データを取得する（ステップＳ１）。学習用データ生成部１２は、証券Ｃ１の手書き文字領域に記入されうる１又は複数の単語が登録されたコーパス３と、手書き文字データセットＤＢ５に記録されている１文字単位の手書き文字画像のデータセットＤＳ１と、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する（ステップＳ３）。学習モデル生成部１３は、学習モデルを生成する（ステップＳ５）。なお、学習モデルの生成処理及び更新処理については、図８を参照して後述する。領域特定部１５は、画像データ取得部１１が取得した画像データに基づいて、証券Ｃ１に手書き文字で記入された文字列を含む１又は複数のフィールドを特定する（ステップＳ７）。文字認識部１６は、生成された学習モデル、又は、強化（更新）された学習モデルを用いて、証券Ｃ１に手書き文字で記入された文字列を含む１又は複数のフィールドに記入された文字列の内容を認識する（ステップＳ９）。

　図８は、第１実施形態に係る学習モデル生成処理（図７におけるステップＳ５）の一例を示すフローチャートである。図８に示すように、学習モデル生成部１３は、学習用データ生成部１２が生成した学習用データを用いた第１学習により、学習モデルを生成する（ステップＳ５１）。次に、学習モデル更新部１４は、第１学習の後、証券Ｃ１の画像データから切り出された文字列画像を学習用データとして用いた第２学習により、学習モデルを更新する（ステップＳ５３）。

　以上、本発明の第１実施形態によれば、コーパス３と、手書き文字データセットＤＢ５に記録されている１文字単位の手書き文字画像のデータセットＤＳ１と、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する。生成された学習用データを用いた第１学習により、学習モデルを生成する。よって、第１学習により生成された学習モデルを用いて、証券Ｃ１における１又は複数のフィールドに記入された文字列の内容を認識することができる。したがって、証券Ｃ１に記入された手書き文字列の認識処理の精度を改善することができる。

　＜第２実施形態＞
　図９及び図１０を参照して第２実施形態の学習モデル生成処理及び学習モデル更新処理を説明する。第２実施形態は、図１、図３及び図５に示す手書き文字データセットＤＢ５，ＤＢ７に含まれる文字列画像に、帳票に印刷される透かしの少なくとも一部を重畳したものを学習用データとして生成する点で、図１、図３及び図５に示す手書き文字データセットＤＢ５，ＤＢ７に含まれる文字列画像に透かしが重畳されていない第１実施形態とは異なる。また、第２実施形態は、図１、図３及び図５に示す手書き文字データセットＤＢ５，ＤＢ７に含まれる文字列画像に、帳票におけるノイズを重畳したものを学習用データとして生成する点で、図１、図３及び図５に示す手書き文字データセットＤＢ５，ＤＢ７に含まれる文字列画像にノイズが重畳されていない第１実施形態とは異なる。以下では、第１実施形態と異なる点について特に説明する。

　図９は、第２実施形態に係る透かしが印刷された証券の一例を示す図である。図９に示すように、証券Ｃ３は、例えば自動車保険証券であり、証券Ｃ３には、「複写」という透かしＷが印刷されている。図１０は、第２実施形態に係る、文字列画像に、証券Ｃ３に印刷される透かしの少なくとも一部を重畳した学習用データの一例を示す図である。
　図１０（ａ）に示すように、図１及び図３に示す１文字単位の手書き文字データセットＤＢ５には、例えば、透かしの少なくとも一部を含む１文字単位の手書き文字画像「キ」が複数パターン格納されている。手書き文字データセットＤＢ５には、これに限られず、透かしの少なくとも一部を含む１文字単位の手書き文字画像「ア」…「ン」のそれぞれについて複数パターン格納されてもよい。図１に示す学習用データ生成部１２は、手書き文字データセットＤＢ５から、ランダムに、透かしの少なくとも一部を含む、複数パターンの手書き文字画像「ア」…「ン」を読みだして学習用データを生成する。

　手書き文字データセットＤＢ５には、透かしの少なくとも一部を含む１文字単位の手書き文字画像のデータセットとして、ひらがな又は漢字のテキスト情報と、ひらがな又は漢字のテキスト情報のそれぞれに対応する、複数の手書き文字画像と、がセットで含まれてもよい。また、手書き文字データセットＤＢ５には、透かしの少なくとも一部を含む外国語の１文字単位の手書き文字画像のデータセットが含まれてもよい。例えば、１文字単位の手書き文字画像のデータセットとして、アルファベットのテキスト情報と、アルファベットのテキスト情報のそれぞれに対応する、複数の手書き文字画像と、がセットで含まれてもよい。

　図１０（ｂ）に示すように、図１及び図５に示す文字列画像単位の手書き文字データセットＤＢ７には、例えば、透かしの少なくとも一部を含む文字列単位の手書き文字列画像「トウキョウト＊＊＊…」が格納されている。さらに、図１０（ｃ）に示すように、図１及び図５に示す文字列画像単位の手書き文字データセットＤＢ７には、例えば、透かしの少なくとも一部を含む文字列単位の手書き文字列画像「トウキョウト」（図１０（ｂ）に示す手書き文字列画像の一部）が格納されてもよい。
　本実施形態に係る学習モデル更新部１４では、図３に示す第１学習の後、証券Ｃ３の画像データ）から切り出された文字列画像であって、透かしの少なくとも一部が重畳された文字列画像を手書き文字データセットＤＢ７から読みだす。そして、学習モデル更新部１４は、例えば、読みだした、透かしの少なくとも一部が重畳された文字列画像を学習用データとして用いた第２学習により、生成された学習モデルを強化（更新）する。

　なお、学習モデルの生成処理、又は、学習モデルの強化処理の少なくとも一方において用いられる学習用データは、文字列画像に、証券に印刷される透かしの少なくとも一部を重畳したものの他、文字列画像に、証券におけるノイズを重畳したものを含んでもよい。

　以上、本発明の第２実施形態によれば、学習モデルの生成処理、又は、学習モデルの強化処理の少なくとも一方において、文字列画像に、帳票に印刷される透かしの少なくとも一部を重畳したものを学習用データとして生成する。よって、透かしが印刷される帳票における文字列画像の認識処理においてロバスト性が向上する。

　また、学習モデルの生成処理、又は、学習モデルの強化処理の少なくとも一方において、文字列画像に、前記帳票におけるノイズを重畳したものを学習用データとして生成する。よって、ノイズが重畳された帳票における文字列画像の認識処理においてロバスト性が向上する。

　＜第３実施形態＞
　図１１を参照して、第３実施形態に係る文字認識装置を説明する。第３実施形態に係る文字認識装置１００Ｂは、帳票のフィールドを特定する処理において、帳票に記載された項目名を含む項目領域を抽出し、項目領域に属性を割り当てる等の処理を行う。第１実施形態では、第３実施形態のこれらの処理は行わず、図１に示すレイアウト情報を参照して帳票のフィールドを特定する点で第３実施形態とは異なる。以下では、第１実施形態と異なる点について特に説明する。

　図１１は、第３実施形態に係る文字認識装置の概略構成図（システム構成図）である。図１１に示すように、文字認識装置１００Ｂは、図１に示す第１実施形態に係る文字認識装置１００Ａと比較すると、図１に示すレイアウト情報ＤＢ９は備えておらず、領域特定部１５が、例示的に、項目抽出部１５１と属性割当部１５２とを更に備えている。

　領域特定部１５は、例えば証券に記載された「氏名」や「住所」等の項目名を含む項目領域を抽出対象として、所定のニューラルネットワークを用いて、項目領域を、属性を付与した上で抽出する項目抽出部１５１を備える。項目抽出部１５１は、例えば証券上に活字で印刷された項目名を含む項目領域を抽出対象として、証券の画像データに含まれる項目領域を属性の分類付きで個別に抽出する。例えば、証券の画像データに「氏名」や「住所」などの画像領域が存在する場合、それぞれの画像領域が項目領域として抽出されると共に、それぞれの項目領域に対して「name」や「address」といった属性が付加される。項目領域の抽出は、深層学習による物体検出アルゴリズムを用いて行われる。また、このアルゴリズムに基づき構築された所定の学習モデルを参照して、抽出した項目領域の属性の分類が行われる。また、分類された属性については、その分類確度も算出・出力されてもよい。

　領域特定部１５は、証券の画像データにおける項目領域の位置及び属性に基づいて、項目領域と、当該項目領域の近傍に位置するフィールド（手書き文字領域）とを対応づけ、且つ、フィールドに対して項目領域の属性を割り当てる属性割当部１５２を備える。属性割当部１５２は、証券の画像データにおける項目領域の位置およびその属性に基づいて、証券画像のレイアウトを解析し、どの属性に関する情報がどこに記入されているのかを特定する。具体的には、証券におけるフィールドのそれぞれに対して、項目抽出部１５１によって分類された属性のいずれかが割り当てられる。基本的に、証券の画像データにおいて、ある項目領域と、ある手書き文字領域とが近接、すなわち、両者の距離が所定のしきい値以下である場合、両者の対応付けが行われる。そして、このフィールド（手書き文字領域）に対して、項目領域の属性が割り当てられる。例えば、「name」という属性を有する項目領域の近傍にフィールドが存在する場合、このフィールドに対して「name」という属性が割り当てられる。また、項目領域とフィールドとの具体的な対応規則については、所定の対応規則テーブル等において予め設定・定義されている。

　以上、第３実施形態によれば、証券の画像データに含まれる項目領域と、その属性とが取得される。これらの情報から、帳票画像中のどの位置にどのような情報が記載されているのかを特定することができる。これにより、予め、文字認識装置に登録されていない未知の証券であっても、レイアウト解析を行うことが可能になる。

　＜第４実施形態＞
　図１２を参照して、第４実施形態に係る文字認識装置及び学習モデル生成装置を説明する。図１２に示す第４実施形態に係る文字認識装置１００Ｃ及び学習モデル生成装置２００は、図１に示す第１実施形態に係る文字認識装置１００Ａが備える各構成が分離されて構成されたものである。文字認識装置１００Ｃは、学習モデル生成装置２００で生成された、例えば、第１ニューラルネットワーク及び第２ニューラルネットワークが結合されたネットワーク構造を有する学習モデルを用いて、フィールドに記入された文字列の内容を認識する。また、文字認識装置１００Ｃと学習モデル生成装置２００とが通信ネットワークＮを介してデータの送受信が可能なように構成されるものでもよい。ただし、これに限らず、学習モデル生成装置２００で生成された学習モデルは、任意の手段で、文字認識装置１００Ｃの主記録装置に格納されるものである。なお、同様に、図１１に示す第３実施形態に係る文字認識装置１００Ｂについても、文字認識装置１００Ｂが備える各構成が分離されて文字認識装置及び学習モデル生成装置が構成されてもよい。また、文字認識装置１００Ｂが備える各構成が分離された、文字認識装置と学習モデル生成装置とが通信ネットワークＮを介してデータの送受信が可能なように構成されるものでもよい。

　以上、第４実施形態によれば、第１実施形態に係る文字認識装置１００Ａ又は第３実施形態に係る文字認識装置１００Ｃは、別個の装置である文字認識装置及び学習モデル生成装置を構成可能である。

＜第５実施形態＞
　図１３を参照して、第５実施形態に係る文字認識装置及び外部装置を説明する。図１３は、第５実施形態に係る文字認識装置及び外部装置の概略構成図（システム構成図）である。図１３に示すように、第５実施形態に係る文字認識装置１００Ｃは、外部装置５０によって生成される画像データを所定の通信ネットワークＮを介して取得するものでもよい。

　以上、第５実施形態によれば、文字認識装置１００Ｃは、外部装置５０によって生成される画像データを取得し、取得した画像データに基づいて文字認識処理を実行することができる。

　図１４は、本発明の実施形態に係るコンピュータのハードウェア構成の一例を示す図である。図１４を参照して、図１及び１５に示す文字認識装置１００Ａ、図１１に示す文字認識装置１００Ｂ、図１２及び１３に示す文字認識装置１００Ｃ、図１２に示す学習モデル生成装置２００、並びに、図１３及び１５に示す外部装置を構成するのに用いることができるコンピュータのハードウェア構成の一例について説明する。

　図１４に示すように、コンピュータ４０は、ハードウェア資源として、主に、プロセッサ４１と、主記録装置４２と、補助記録装置４３と、入出力インターフェース４４と、通信インターフェース４５とを備えており、これらはアドレスバス、データバス、コントロールバス等を含むバスライン４６を介して相互に接続されている。なお、バスライン４６と各ハードウェア資源との間には適宜インターフェース回路（図示せず）が介在している場合もある。

　プロセッサ４１は、コンピュータ全体の制御を行う。プロセッサ４１は、例えば、図１及び図１１に示す情報処理部１に相当する。主記録装置４２は、プロセッサ４１に対して作業領域を提供し、ＳＲＡＭ（Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）やＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の揮発性メモリである。補助記録装置４３は、ソフトウェアであるプログラム等やデータ等を格納する、ＨＤＤやＳＳＤ、フラッシュメモリ等の不揮発性メモリである。当該プログラムやデータ等は、任意の時点で補助記録装置４３からバスライン４６を介して主記録装置４２へとロードされる。補助記録装置４３は、例えば、図１に示すコーパス３、手書き文字データセットＤＢ５、手書き文字データセットＤＢ７、及び、レイアウト情報ＤＢ９に相当する。また、補助記録装置４３は、例えば、図１１に示すコーパス３、手書き文字データセットＤＢ５、及び、手書き文字データセットＤＢ７に相当する。

　入出力インターフェース４４は、情報を提示すること及び情報の入力を受けることの一方又は双方を行うものであり、カメラ、キーボード、マウス、ディスプレイ、タッチパネル・ディスプレイ、マイク、スピーカ、温度センサ等である。通信インターフェース４５は、図１、１１及び１２に示す通信ネットワークＮと接続されるものであり、通信ネットワークＮを介してデータを送受する。通信インターフェース４５と通信ネットワークＮとは、有線又は無線で接続されうる。通信インターフェース４５は、ネットワークに係る情報、例えば、Ｗｉ－Ｆｉのアクセスポイントに係る情報、通信キャリアの基地局に関する情報等も取得することがある。

　上に例示したハードウェア資源とソフトウェアとの協働により、コンピュータ４０は、所望の手段として機能し、所望のステップを実行し、所望の機能を実現させることできることは、当業者には明らかである。

　なお、上記各実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するものではない。本発明はその趣旨を逸脱することなく、変更／改良され得るとともに、本発明にはその等価物も含まれる。また、本発明は、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の開示を形成できるものである。例えば、実施形態に示される全構成要素から幾つかの構成要素は削除してもよいものである。さらに、異なる実施形態に構成要素を適宜組み合わせてもよいものである。

１，１Ａ，１Ｂ…情報処理部、３…コーパス、５，７…手書き文字データセット、９…レイアウト情報ＤＢ、１１…画像データ取得部、１２…学習用データ生成部、１３…学習モデル生成部、１４…学習モデル更新部、１５…領域特定部、１６…文字認識部、４１…プロセッサ、４２…主記録装置、４３…補助記録装置、４４…入出力インターフェース、４５…通信インターフェース、４６…バス、５０…外部装置、１００Ａ，１００Ｂ，１００Ｃ…文字認識装置、１５１…項目抽出部、１５２…属性割当部、２００…学習モデル生成装置

Claims

　帳票の手書き文字領域に記入されうる１又は複数の単語が登録されたデータベースと、１文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、
　前記学習用データを用いた第１学習により、学習モデルを生成する学習モデル生成部と、を備える、
　学習モデル生成装置。
　前記第１学習の後、前記帳票の画像データから切り出された文字列画像を学習用データとして用いた第２学習により、前記学習モデルを更新する学習モデル更新部をさらに備える、
　請求項１に記載の学習モデル生成装置。
　前記学習用データ生成部は、前記文字列画像に、前記帳票に印刷される透かしの少なくとも一部を重畳したものを学習用データとして生成する、
　請求項１又は２に記載の学習モデル生成装置。
　前記学習用データ生成部は、前記文字列画像に、前記帳票におけるノイズを重畳したものを学習用データとして生成する、
　請求項１～３のいずれか一項に記載の学習モデル生成装置。
　前記学習モデル生成部は、
　第１ニューラルネットワーク及び第２ニューラルネットワークが結合されたネットワーク構造から学習モデルを生成するものであり、
　前記第１ニューラルネットワークは畳み込みニューラルネットワークにより構成され、前記手書き文字領域に含まれる前記文字列に関する特徴量マップを算出し、
　第２ニューラルネットワークはリカレントニューラルネットワークにより構成され、前記特徴量マップから文字列インデックスを算出する、
　請求項１～４のいずれか一項に記載の学習モデル生成装置。
　前記手書き文字領域の少なくとも一つの領域は、住所に関する手書き文字領域であり、
　前記住所に関する前記手書き文字領域に対応づけられた前記コーパスには、都道府県名、市区町村名、地域名、又は、建物名の少なくとも一つの名称を含む組み合わせが登録されている、
　請求項１～５のいずれか一項に記載の学習モデル生成装置。
　前記帳票を撮像装置で撮像することによって生成される画像データを、通信ネットワークを介して取得する画像データ取得部をさらに備える、
　請求項１～６のいずれか一項に記載の学習モデル生成装置。
　帳票の画像データに基づいて、手書き文字で記入された文字列を含む１又は複数の手書き文字領域を特定する領域特定部と、
　請求項１～７のいずれか一項に記載の学習モデル生成部により生成された学習モデルを用いて、前記手書き文字領域に記入された文字列の内容を認識する文字認識部と、を備える、
　文字認識装置。
　帳票に記入された手書き文字を認識する文字認識装置であって、
　前記帳票の画像データを取得する画像データ取得部と、
　取得した前記画像データに基づいて、手書き文字で記入された文字列を含む１又は複数の手書き文字領域を特定する領域特定部と、
　第１ニューラルネットワーク及び第２ニューラルネットワークが結合されたネットワーク構造を有する学習モデルを用いて、前記手書き文字領域に記入された文字列の内容を認識する文字認識部と、を備える、
　文字認識装置。
　前記帳票における所定位置に対応付けて、前記手書き文字領域を特定するためのレイアウト情報を記録する記録部を更に備え、こう
　前記領域特定部は、前記レイアウト情報に基づいて、前記手書き文字領域を特定する、
　請求項８又は９に記載の文字認識装置。
　前記領域特定部は、
　前記帳票に記載された項目名を含む項目領域を、属性を付与した上で抽出する項目抽出部と、
　前記帳票の画像データにおける項目領域の位置及び前記属性に基づいて、前記項目領域と、当該項目領域の近傍に位置する前記手書き文字領域とを対応づけ、且つ、前記手書き文字領域の属性を割り当てる属性割当部と、を更に備える、
　請求項８～１０のいずれか一項に記載の文字認識装置。
　学習モデルを生成するコンピュータが実行する学習モデル生成方法であって、
　帳票の手書き文字領域に記入されうる１又は複数の単語が登録されたデータベースと、１文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成するステップと、
　前記学習用データを用いた第１学習により、学習モデルを生成するステップと、
を含む、
　学習モデル生成方法。
　帳票に記入された手書き文字を認識するコンピュータが実行する文字認識方法であって、
　前記帳票の画像データを取得するステップと、
　取得した前記画像データに基づいて、前記手書き文字で記入された文字列を含む１又は複数の手書き文字領域を特定するステップと、
　第１ニューラルネットワーク及び第２ニューラルネットワークが結合されたネットワーク構造を有する学習済モデルを用いて、前記手書き文字領域に記入された文字列の内容を認識するステップと、
を含む、
文字認識方法。
　コンピュータを、
　帳票の手書き文字領域に記入されうる１又は複数の単語が登録されたデータベースと、１文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、
　前記学習用データを用いた第１学習により、学習モデルを生成する、学習モデル生成部と、
　して機能させるプログラム。
　帳票に記入された手書き文字を認識するコンピュータを、
　前記帳票の画像データを取得する画像データ取得部と、
　取得した前記画像データに基づいて、前記手書き文字で記入された文字列を含む１又は複数の手書き文字領域を特定する領域特定部と、
　第１ニューラルネットワーク及び第２ニューラルネットワークが結合されたネットワーク構造を有する学習済モデルを用いて、前記手書き文字領域に記入された文字列の内容を認識する文字認識部と、
　して機能させるプログラム。