WO2020166569A1

WO2020166569A1 - 文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法

Info

Publication number: WO2020166569A1
Application number: PCT/JP2020/005167
Authority: WO
Inventors: 南　拓也; 悠川原; 真平竹本; 領子武田; 好成奥野
Original assignee: 昭和電工株式会社
Priority date: 2019-02-14
Filing date: 2020-02-10
Publication date: 2020-08-20
Also published as: JPWO2020166569A1; CN113474767A; CN113474767B; JP6963126B2; US20220019581A1; TW202040414A; US11797551B2

Abstract

キーワードの入力を受け付ける入力受付部と、手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、手書き文書に文字を記入した記入者名と、が格納されたデジタル文書データベースから、記入者名と文書ファイルとを取得する文書取得部と、記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、入力受付部から入力されたキーワードと、文書取得部により取得された記入者名とから、入力されたキーワードの対応キーワードを取得する対応キーワード取得部と、文書取得部により取得された文書ファイルを、入力されたキーワード及び取得された対応キーワードにより検索する文書検索部と、文書検索部による検索結果を出力する検索結果出力部と、を有する。

Description

文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法

　本発明は、文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法に関する。

　高度経済成長期を中心とする時代の技術開発において作成された技術文書には、紙媒体に手書きで作成されているものがある。これらの手書きの技術文書は技術とノウハウの宝庫であり、現在直面している技術課題の解決に活用される場面もある。ただ、紙文書の形態では、倉庫保管のため取り寄せに時間がかかることや、紙文書のページを逐次めくって確認する必要があるため目的とする技術情報に到達するのに労力がかかること等の難点があり、蓄積された技術文書を十分に活用できていないという問題がある。

　一方で近年、紙文書等が含む文字情報は、光学的読み取り装置等により電子データとして画像データに変換し、その画像データに対して光学文字認識（Ｏｐｔｉｃａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ：ＯＣＲ）処理を施し、画像データが含む文字情報を文字データとして抽出することにより、電子ファイル化することが行われている。前述した手書きの技術文書についても電子ファイル化して、迅速に検索、閲覧等の活用を行いたいという要求が高まっている。

　手書きの技術文書に対する文字認識の精度は、現状の技術では十分とはいえず、認識精度向上の研究が盛んに行われている。例えば、特許文献１には、音声情報を組合せて手書き文字の認識率を高める技術が開示されている。特許文献２には、続け字で入力された手書き文字データの文字認識を行う場合に、正確に文字切出しを行うことにより文字認識率を高める技術が開示されている。

特開２００５－２５８５７７号公報特開平９－６９２０号公報

　手書き文書の文字認識の精度は依然として十分ではなく、手書き文書の文字認識を行った結果のデジタル文書データでは、文字の欠損や誤認識が存在する。このため、デジタル文書データに対してキーワード検索を行っても、キーワード検索が上手く機能せず、所望する手書き文書を迅速に検索、閲覧することは困難である。

　手書き文書の文字認識の精度が不十分である原因の１つとして、手書き文字の形状は記入者毎の筆跡等に応じて異なることが挙げられる。文字の筆跡等は、記入者固有のものであるため、同じ記入者が書いた文書であれば、同じような誤認識が繰り返し生じるおそれがある。

　本発明は、上記事情に鑑みてこれを解決すべくなされたものであり、キーワード検索のヒット率を向上させることを目的としている。

　本発明は、以下の示す構成を備える。
［１］　キーワードの入力を受け付ける入力受付部と、
　手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書に文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する文書取得部と、
　記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、前記入力受付部から入力されたキーワードと、前記文書取得部により取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する対応キーワード取得部と、
　前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する文書検索部と、
　前記文書検索部による検索結果を出力する検索結果出力部と、を有する文書検索装置。
［２］　前記手書き文書の文書画像データが格納された文書画像データベースと、前記文書画像データベースから、文書ファイルと対応する文書画像データを取得して出力する文書画像出力部とをさらに有し、
　前記検索結果出力部は、
　前記文書ファイルの中から、前記入力されたキーワード又は前記対応キーワードを含むテキストデータを検索結果として出力し、
　前記文書画像出力部は、
　前記テキストデータの一部が選択された場合に、前記選択されたテキストデータの一部が含まれる文書ファイルと対応する文書画像データを取得して出力する、［１］記載の文書検索装置。
［３］　前記文書検索部は、
　前記入力されたキーワードと、前記対応キーワードとのそれぞれを用いてあいまい検索を行い、
　前記検索結果出力部は、
　前記あいまい検索の結果を前記検索結果に含める、［１］又は［２］記載の文書検索装置。
［４］　対応キーワードデータベースに格納された情報が、前記対応キーワード又はあいまい検索において検索キーワードとされたキーワードと、前記文書取得部が取得した記入者名と、前記入力受付部により入力されたキーワードと、さらに、選択回数と、を有し、
　前記検索結果において、前記対応キーワードによる検索又はあいまい検索の結果として出力されたテキストデータの一部が選択された場合に、
　前記選択回数を更新して、前記対応キーワードデータベースに格納する対応キーワード更新部を有する、［２］又は［３］記載の文書検索装置。
［５］　予測モデルを学習させる予測モデル学習部及び予測モデルが格納されるモデル記憶部をさらに有し、
　前記予測モデル学習部は、前記対応キーワードデータベースに格納された情報を学習データとして予測モデルに学習させ、前記モデル記憶部は、学習した学習済予測モデルを格納し、
　前記学習済予測モデルは、前記入力されたキーワードと、前記取得された記入者名とが入力されると、対応キーワードを予測し、予測されたキーワードを出力し、
　前記文書検索部は、前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び前記予測された対応キーワードにより検索する、［１］ないし［４］の何れか一項に記載の文書検索装置。
［６］　予測モデルを学習させる予測モデル学習部及び予測モデルが格納されるモデル記憶部を有し、
　前記予測モデル学習部は、前記対応キーワード更新部が格納する更新された対応付け情報を学習データとして予測モデルに学習させ、前記モデル記憶部は、学習した学習済予測モデルを格納し、
　前記学習済予測モデルは、前記入力されたキーワードと、前記取得された記入者名とが入力されると、対応キーワードを予測し、予測されたキーワードを出力し、
　前記文書検索部は、前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び前記予測された対応キーワードにより検索する、［４］に記載の文書検索装置。
［７］　前記予測モデル学習部は、前記検索結果からテキストデータが選択されると、選択されたテキストデータに含まれる、入力キーワードから生成されたキーワードと、記入者名と、入力キーワードとを対応付けた対応付け情報を保持し、
　前記予測モデル学習部は、前記対応付け情報からなる対応付け情報群を学習データとして予測モデルに学習させ、
　前記モデル記憶部は、学習した学習済予測モデルを格納し、
　前記モデル記憶部に前記学習済予測モデルが格納された後は、
　前記学習済予測モデルは、前記入力されたキーワードと、前記取得された記入者名とが入力されると、対応キーワードを予測し、予測された対応キーワードを出力し、
　前記文書検索部は、前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び前記予測された対応キーワードにより検索する、［６］に記載の文書検索装置。
［８］　前記対応キーワードは、
　前記対応キーワードと対応付けられたキーワードに前記文字認識処理を施した結果として誤認識された文字を含む文字列である、［１］ないし［７］の何れか一項に記載の文書検索装置。
［９］　文書検索装置と、端末装置とを有する文書検索システムであって、
　前記文書検索装置は、
　キーワードの入力を受け付ける入力受付部と、
　手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書の文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する文書取得部と、
　記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、前記入力受付部から入力されたキーワードと、前記文書取得部により取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する対応キーワード取得部と、
　前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する文書検索部と、
　前記文書検索部による検索結果を前記端末装置に出力する検索結果出力部と、を有する文書検索システム。
［１０］　キーワードの入力を受け付ける処理と、
　手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書の文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する処理と、
　記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、入力されたキーワードと、取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する処理と、
　前記取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する処理と、
　検索結果を出力する処理と、をコンピュータに実行させる文書検索プログラム。
［１１］　コンピュータによる文書検索方法であって、前記コンピュータが、
　キーワードの入力を受け付ける手順と、
　手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書の文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する手順と、
　記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、入力されたキーワードと、取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する手順と、
　前記取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する手順と、
　検索結果を出力する手順と、を有する文書検索方法。

　キーワード検索のヒット率を向上させることができる。

第一の実施形態の文書検索システムのシステム構成の一例を示す図である。第一の実施形態の検索処理について説明する図である。第一の実施形態の文書検索装置のハードウェア構成を説明する図である。第一の実施形態のデジタル文書データベースの一例を示す図である。第一の実施形態の対応キーワードデータベースの一例を示す図である。第一の実施形態の文書画像データベースの一例を示す図である。第一の実施形態の文書検索装置の機能を説明する図である。第一の実施形態の文書検索装置の動作を説明するフローチャートである。第一の実施形態の検索結果の一覧の表示例を説明する第一の図である。第一の実施形態の検索結果の一覧の表示例を説明する第二の図である。第二の実施形態の文書検索装置の機能を説明する図である。第二の実施形態の対応キーワードデータベースの一例を示す図である。第二の実施形態の文書検索装置の動作を説明するフローチャートである。第三の実施形態の文書検索装置の機能を説明する図である。第三の実施形態の文書検索装置の動作を説明するフローチャートである。第四の実施形態の文書検索装置の機能を説明する図である。第四の実施形態の文書検索装置の動作を説明するフローチャートである。第五の実施形態の文書検索装置の機能を説明する図である。第五の実施形態のうちの、予測モデル学習部の処理を説明するフローチャートである。

　（第一の実施形態）
　以下に、図面を参照して、第一の実施形態について説明する。図１は、第一の実施形態の文書検索システムのシステム構成の一例を示す図である。

　本実施形態の文書検索システム１００は、文書検索装置２００を有する。文書検索システム１００は、さらに端末装置３００を有し、文書検索装置２００と端末装置３００とは、ネットワークを介して接続されても良い。端末装置３００は、通信インターフェース装置等に加えて、キーボード等の入力装置と、液晶ディスプレイ等の出力装置を有する。

　本実施形態の文書検索装置２００は、デジタル文書データベース２１０、対応キーワードデータベース２２０、文書画像データベース２３０、検索処理部２４０を有する。

　デジタル文書データベース２１０は、文書画像データベース２３０に格納された紙文書の画像データに対して、ＯＣＲ（Ｏｐｔｉｃａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅｃｏｇｎｉｔｉｏｎ：ＯＣＲ）処理を施して取得した文字情報を含むデジタル文書ファイル（以下、文書ファイルとも記す。）が格納される。また、デジタル文書データベース２１０において、デジタル文書ファイルは、紙文書の文書名と、紙文書に文字を記入した記入者の氏名（以下、記入者名とも記す。）と対応付けられている。

　対応キーワードデータベース２２０は、文書画像データベース２３０に格納される画像の元となる紙文書に文字等を記入した記入者の名前と、記入者が記入した文字列のうち、誤認識された文字を含む文字列（後述するように、対応キーワードとして扱われる。）と、正しい文字列（正解文字列）（後述するように、入力されたキーワードと対比、参照される。）と、が対応付けられた対応付け情報が格納される。記入者名と、誤認識された文字を含む文字列と、正しい文字列とを対応付けた対応付け情報を、対応キーワードデータベース２２０に格納して、対応キーワードデータベース２２０を作成する作業は、あらかじめ人手によって行われてもよい。なお、前記文字等には、数字や記号も含まれる。

　文書画像データベース２３０は、光学的読み取り装置等により読み取られた紙文書の画像データが格納される。

　尚、紙文書は、例えば、手書きで作成された紙文書等である。手書きの紙文書としては、特定の技術分野についての技術文書が挙げられ、紙媒体に手書きで作成された記録ノートや報告書等、手書き文字情報を含む設計図面や写真等、手書き文字情報の付加された測定記録紙等が含まれる。

　紙文書は、または、活字の印刷された紙文書等である。活字印刷の紙文書としては、特定の技術分野の技術文書が挙げられ、紙媒体に活字の印刷された報告書、設計図面等が含まれる。対象とする紙文書としては、手書きの紙文書と活字印刷の紙文書とが混在してもよい。尚、「紙媒体」には、紙のみではなく、プラスチックフィルム、布、板、皮、壁等も含まれる。

　本実施形態のデジタル文書データベース２１０、対応キーワードデータベース２２０、文書画像データベース２３０は、予め作成されて、文書検索装置２００に設けられたものである。

　本実施形態の検索処理部２４０は、端末装置３００や、後述する入力装置２４等から、キーワードの入力を受け付けると、デジタル文書データベース２１０を参照して、手書き文書に文字等を記入した記入者名と文書ファイルとを取得する。そして、検索処理部２４０は、対応キーワードデータベース２２０を参照し、文書ファイルと対応する記入者名に基づき、入力されたキーワード及び記入者名と対応付けられた対応キーワードを取得する。尚、以下の説明では、入力されたキーワードを入力キーワードと呼ぶ。

　次に、検索処理部２４０は、取得された対応キーワードと、入力キーワードとによって、デジタル文書データベース２１０に含まれる文書ファイルを検索し、その検索結果を端末装置３００に出力する。検索処理部２４０は、この処理をデジタル文書データベース２１０に格納された全ての文書ファイルについて行う。

　つまり、本実施形態の検索処理部２４０は、入力キーワードによるデジタル文書データベース２１０の検索に加えて、入力キーワードとして参照されるべき文字列であって、誤認識した結果である文字を含む文字列である対応キーワードによるデジタル文書データベース２１０の検索も行う。

　以下に、図２を参照して、検索処理部２４０の処理について、さらに説明する。図２は、第一の実施形態の検索処理について説明する図である。

　紙文書に手書きで記入された文字は、同一の文字であっても、記入者の筆跡によって形状が異なる。具体的には、例えば、記入者によって、偏と旁と間の距離が離れていたり、旧字体や略字、崩し字等が用いられたりする。また、記入者の思い込みによる誤字が記入されることもある。

　偏と旁と間の距離が離れている場合には、偏と旁が別々の文字として誤認識される場合がある。また、旧字体や略字、崩し字等は、本来の意図とは異なる文字として誤認識される場合がある
　図２では、手書きで紙文書に記入された手書き文字列と、手書き文字列に対してＯＣＲ処理を施して文字認識を行った結果であるデジタル文字列と、手書き文字列が意図する正解文字列と、手書き文字の筆跡のタイプとを対応付けた表を示している。

　この表では、例えば、正解文字列「飛行」を紙文書に記入した記入者は、「飛」という文字を省略して記入している。このため、手書き文字「飛」は、文字認識の結果のデジタル文字では「レ」とされている。したがって、この記入者の手書き文字列「飛行」は、デジタル文字列「レ行」に誤認識されたことがわかる。

　また、例えば、正解文字列「問題」を紙文書に記入した記入者は、「問」という文字を省略して記入している。このため、手書き文字「問」は、文字認識の結果のデジタル文字では「同」とされている。したがって、この記入者の手書き文字列「問題」は、デジタル文字列「同題」に誤認識されたことがわかる。

　他にも、例えば、記入者が、正解文字列「溶液」の偏部分のさんずいをそれぞれ崩して書いた場合、「１容１夜」と誤認識される。また、記入者が、正解文字列「研究」を旧字体で書いた場合には、「石チキ究」と誤認識される。

　このように、手書き文書の場合は、記入者の筆跡（書き癖）に由来する文字の誤認識が生じる。この誤認識は、記入者に固有のものであるため、同じ記入者が書いた文書であれば、同じような誤認識を繰り返す。

　そこで、本実施形態では、予め、記入者毎に、正解文字列とデジタル文字列とを対応付けて、対応キーワードデータベース２２０に格納しておく。

　例えば、図２の例が、ある一人の記入者ｘによって記入された紙文書に対して文字認識を行った結果である場合、記入者ｘと、正解文字列「飛行」と、誤認識された結果であるデジタル文字列「レ行」と、を対応付けた対応付け情報として、対応キーワードデータベース２２０に格納しておく。

　また、対応キーワードデータベース２２０には、同様に、記入者ｘと、正解文字列「問題」と、誤認識された結果であるデジタル文字列「同題」とを対応付けた対応付け情報が格納される。

　そして、検索処理部２４０は、例えば、入力キーワード「飛行」が入力された場合には、文書ファイルに対して、入力キーワード「飛行」による検索と、「飛行」と対応するデジタル文字列である対応キーワード「レ行」による検索とを行う。

　本実施形態では、このように、手書き文字を誤認識した結果である文字を含む文字列（対応キーワード）と、手書き文字が本来意味している単語である正解文字列（入力キーワード）と、を用いて、検索処理を行うことになる。

　したがって、本実施形態では、例えば、デジタル文書データベース２１０に格納された文書ファイルにおいて、入力キーワードと一致する単語がＯＣＲ処理の際に誤って認識されていた場合や、あるいは正しく認識されてはいるが、元の文字がそもそも誤字であった場合でも、対応キーワードによる検索によって、入力キーワードを入力したユーザが所望する文書が抽出される可能性が高まる。

　このため、本実施形態によれば、キーワード検索のヒット率を上げつつ、誤検出を防ぐことができる。

　尚、図１の例では、デジタル文書データベース２１０、対応キーワードデータベース２２０、文書画像データベース２３０が、文書検索装置２００に設けられるものとしたが、これに限定されない。デジタル文書データベース２１０、対応キーワードデータベース２２０、文書画像データベース２３０のそれぞれは、文書検索装置２００と通信が可能な外部装置に設けられていても良い。また、デジタル文書データベース２１０、対応キーワードデータベース２２０、文書画像データベース２３０は、その一部が文書検索装置２００に設けられても良い。

　次に、図３を参照して、本実施形態の文書検索装置２００のハードウェア構成について説明する。図３は、第一の実施形態の文書検索装置のハードウェア構成を説明する図である。

　本実施形態の文書検索装置２００は、画像入力装置及びコンピュータを含む文書情報を扱う装置である。言い換えれば、本実施形態の文書検索装置２００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）２１、主記憶装置２２、補助記憶装置２３、入力装置２４、出力装置２５、通信インターフェース装置２６、ドライブ装置２７を有し、それぞれがバスで接続された情報処理装置である。

　ＣＰＵ２１は、文書検索装置２００の動作を制御する主制御部であり。主記憶装置２２に格納された文書検索プログラムを読みだして実行することで、後述する各種の機能を実現する。

　主記憶装置２２は、文書検索装置２００の起動時に補助記憶装置２３から文書検索プログラムを読み出して格納する。補助記憶装置２３は、インストールされた文書検索プログラムを格納すると共に、上述した各データベース等の必要なファイル、データ等を格納する。

　入力装置２４は、各種の情報の入力を行うための装置であり、例えばキーボードやポインティングデバイス等により実現される。出力装置２５は、各種の情報の出力を行うためものであり、例えばディスプレイ等により実現される。通信インターフェース装置２６は、ＬＡＮカード等を含み、ネットワークに接続する為に用いられる。

　本実施形態の検索処理部２４０を実現する文書検索プログラムは、文書検索装置２００を制御する各種プログラムの少なくとも一部である。文書検索プログラムは、例えば記録媒体２８の配布やネットワークからのダウンロード等によって提供されてもよい。文書検索プログラムを記録した記録媒体２８は、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記録媒体、ＲＯＭ、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。

　また、文書検索プログラムは、文書検索プログラムを記録した記録媒体２８がドライブ装置２７にセットされると、記録媒体２８からドライブ装置２７を介して補助記憶装置２３にインストールされる。ネットワークからダウンロードされた文書検索プログラムは、通信インターフェース装置２６を介して補助記憶装置２３にインストールされる。

　次に、図４ないし図６を参照して、本実施形態の各データベースについて説明する。本実施形態の各データベースは、例えば、補助記憶装置２３等の記憶領域に設けられても良い。

　図４は、第一の実施形態のデジタル文書データベースの一例を示す図である。本実施形態のデジタル文書データベース２１０は、情報の項目として、文書ＩＤ、文書名、記入者名、文書ファイルとが対応付けられている。デジタル文書データベース２１０において、各項目の値を含む情報が、デジタル文書情報である。

　項目「文書ＩＤ」の値は、文書画像データベース２３０に画像データとして格納された紙文書を特定するための識別情報である。尚、項目「文書ＩＤ」の値は、手書き文書の画像データの作成された年月日情報や、年月日情報に付加された枝番号で構成されてもよい。

　項目「文書名」の値は、文書画像データベース２３０に画像データとされて格納された紙文書の名称である。

　項目「記入者名」の値は、文書名によって特定される紙文書に手書き文字を記入した記入者の氏名を示す。言い換えれば、項目「記入者名」の値は、紙文書に手書き文字を記入した記入者を特定する情報である。

　項目「文書ファイル」の値は、文書名によって特定される紙文書の画像データにＯＣＲ処理を施して取得された文書ファイルそのものである。本実施形態の文書ファイルは、テキストデータである。

　図４の例では、例えば、文書名「１９６０年６月度＿月報」という紙文書は、記入者名「ｉ」という人物によって記入され、「１９６０年６月度＿月報テキスト」というテキストデータとされたことがわかる。

　図５は、第一の実施形態の対応キーワードデータベースの一例を示す図である。本実施形態の対応キーワードデータベース２２０は、情報の項目として、記入者名、キーワード、対応キーワードを有する。対応キーワードデータベース２２０において、各項目の値を含む情報が、対応付け情報である。

　項目「キーワード」の値は、記入者名によって特定される記入者が意図したキーワードを示す。言い換えれば、項目「キーワード」の値は、図２に示す正解文字列である。

　項目「対応キーワード」の値は、記入者によって手書き入力された文字が誤認識された結果である文字を含む文字列である。言い換えれば、項目「対応キーワード」の値は、図２に示すデジタル文字列である。

　図５の例では、例えば、記入者名「ｉ」と、対応するキーワード「水酸化」と、対応する対応キーワード「力酸ヒ」とが対応付けられている。これは、記入者名「ｉ」が記入した手書き文字列「水酸化」に対してＯＣＲ処理を施した結果、「力酸ヒ」と誤認識されたことを示している。

　図６は、第一の実施形態の文書画像データベースの一例を示す図である。本実施形態の文書画像データベース２３０は、情報の項目として、文書ＩＤ、文書名、文書画像データを有する。

　項目「文書画像データ」の値は、紙文書を光学的読み取り装置によって読み取った画像データである。本実施形態の文書画像データは、例えば、ｐｄｆファイルとして格納されていても良いし、画像データとして格納されていても良い。

　以下の説明では、文書画像データベース２３０において、項目「文書ＩＤ」の値と、その他の項目の値とを含む情報とを、文書画像情報と呼ぶ。

　尚、文書画像データベース２３０は、図６に示す項目以外の項目を含んでいても良い。具体的には、例えば、文書画像情報が文書画像データベース２３０に格納された年月日や、文書画像情報を格納する処理を行った担当者の氏名等が、文書画像データベース２３０の項目として含まれても良い。

　次に、図７を参照して、本実施形態の文書検索装置２００の機能について説明する。図７は、第一の実施形態の文書検索装置の機能を説明する図である。

　本実施形態の文書検索装置２００は、デジタル文書データベース２１０、対応キーワードデータベース２２０、文書画像データベース２３０と、検索処理部２４０と、を有する。

　本実施形態の検索処理部２４０は、入力受付部２４１、文書取得部２４２、対応キーワード取得部２４４、文書検索部２４５、検索結果出力部２４６、選択受付部２４７、文書画像出力部２４８を有する。

　入力受付部２４１は、文書検索装置２００に対する各種の入力を受け付ける。具体的には、入力受付部２４１は、入力キーワードによる検索要求の入力を受け付ける。

　文書取得部２４２は、デジタル文書データベース２１０に格納された文書ファイルと手書き文書を記入した記入者名とを取得する。

　対応キーワード取得部２４４は、対応キーワードデータベース２２０を参照し、文書取得部２４２が取得した記入者名と、入力キーワードとに対応付けられた対応キーワードを取得する。

　文書検索部２４５は、文書取得部２４２が取得した文書ファイルに対して、入力キーワードによる検索と、対応キーワードによる検索とを行う。また、文書検索部２４５は、入力キーワードと対応キーワードとを用いて文書ファイルのあいまい検索を行っても良い。

　より具体的には、文書検索部２４５は、入力キーワードと、対応キーワードとのそれぞれについて、一部の文字列を任意の文字列に置き換えた検索キーワードを生成し、生成されたキーワードで、文書ファイルの検索を行っても良い。

　検索結果出力部２４６は、文書検索部２４５による検索結果を出力する。具体的には、検索結果出力部２４６は、検索結果として、検索に用いた入力されたキーワード又は対応キーワードを含む文書ファイルのテキストデータの、例えば前記キーワードを含むテキストデータの一部を一覧として端末装置３００等に表示させる。

　選択受付部２４７は、出力された検索結果の一覧から、特定の検索結果の選択を受け付ける。具体的には、選択受付部２４７は、検索結果として表示された文書ファイルの一部に対する選択を受け付ける。

　文書画像出力部２４８は、文書画像データベース２３０を参照し、選択受付部２４７によって選択された検索結果と対応する文書画像データを取得して、出力する。具体的には、文書画像出力部２４８は、検索結果と対応する文書画像データを取得し、例えば前記キーワードを含む文書画像の一部を端末装置３００に表示させる。

　以下に、図８を参照して、本実施形態の文書検索装置２００の動作について説明する。図８は、第一の実施形態の文書検索装置の動作を説明するフローチャートである。

　本実施形態の文書検索装置２００の検索処理部２４０は、入力受付部２４１により入力キーワードの入力を受け付ける（ステップＳ８０１）。

　続いて、検索処理部２４０は、文書取得部２４２により、デジタル文書データベース２１０に格納された文書ファイルの中から、１つの文書ファイルと、この文書ファイルと対応する記入者名とを取得する（ステップＳ８０２）。

　続いて、検索処理部２４０は、対応キーワード取得部２４４により、対応キーワードデータベース２２０を参照して、入力キーワードと記入者名とに対応付けられた対応キーワードを取得する（ステップＳ８０３）。

　次に、検索処理部２４０は、文書検索部２４５により、入力キーワード及び対応キーワードにより、ステップＳ８０２で取得した文書ファイルを検索する（ステップＳ８０４）。尚、このとき、検索結果として得られた文書ファイルの文書ＩＤ等を、文書検索部２４５が保持していても良い。

　このとき、本実施形態の文書検索部２４５は、入力キーワードと対応キーワードのそれぞれ、又は、何れか一方に対して、あいまい検索を実施しても良い。

　あいまい検索とは、例えば、文字列の一部を任意の文字で置換えたワイルドカード検索を意味する。尚、ワイルドカード検索は一例であり、ワイルドカード検索以外の方法であいまい検索を行っても良い。具体的には、例えば、文書検索部２４５はＷｏｒｄ２Ｖｅｃ技術やディープラーニングによる単語類似度検索を実施しても良い。

　続いて、文書検索部２４５は、デジタル文書データベース２１０に格納された全ての文書ファイルに対して、検索を行ったか否かを判定する（ステップＳ８０５）。ステップＳ８０５において、全ての文書ファイルに対して検索を行っていない場合、検索処理部２４０は、ステップＳ８０２へ戻る。

　ステップＳ８０５において、全ての文書ファイルについて、検索を行った場合、検索処理部２４０は、検索結果出力部２４６により、検索結果としてヒットした文書ファイルが存在するか否かを判定する（ステップＳ８０６）。

　ステップＳ８０６において、該当する文書ファイルが存在しない場合、検索処理部２４０は、検索結果出力部２４６により、該当する文書ファイルが存在しないことを示す通知を端末装置３００へ出力し（ステップＳ８０７）、処理を終了する。

　ステップＳ８０６において、該当する文書ファイルが存在する場合、検索結果出力部２４６は、該当する文書ファイルから、ヒットしたキーワードを含むテキストデータを文書ファイルから取得する（ステップＳ８０８）。

　続いて、検索結果出力部２４６は、取得したテキストデータのうち、例えばヒットしたキーワードを含む前後のテキストデータの一部の一覧を、検索結果として端末装置３００に出力する（ステップＳ８０９）。

　続いて、検索処理部２４０は、選択受付部２４７により、検索結果として出力されたテキストデータに対する選択を受け付けたか否かを判定する（ステップＳ８１０）。

　ステップＳ８１０において、選択を受け付けない場合、検索処理部２４０は、処理を終了する。

　ステップＳ８１０において、選択を受け付けた場合、文書画像出力部２４８は、文書画像データベース２３０において、選択されたテキストデータを含む文書ファイルの文書ＩＤと対応する文書画像データを取得し、例えば前記キーワードを含む文書画像の一部を端末装置３００に出力して（ステップＳ８１１）、処理を終了する。

　検索結果として出力されたテキストデータに対して、検索を行う利用者は、検索においてヒットしたキーワードを含むテキストデータの、少なくとも一部を選択して、選択されたテキストデータの一部を含む文書ファイルの文書ＩＤと対応する文書画像データを表示させ、ヒットした文書ファイルが所望の文書ファイルであることを確認することができる。即ち、検索を行う利用者は、前記検索結果を得ると、選択受付部２４７に対して、出力されたテキストデータの一部を選択する選択手続を行うことにより、ヒットした文書ファイルに対応する文書画像データを表示させ、得られた検索結果が適切であることを確認できる。

　以下に、図９を参照して、図８のステップＳ８０９において端末装置３００に出力される検索結果の一覧の表示例について説明する。

　図９は、第一の実施形態の検索結果の一覧の表示例を説明する第一の図である。図９に示す画面９１では、「黒鉛電極」を検索しようとする際に、入力キーワードとして「黒鉛」を含む、「黒鉛電極」が入力された場合の検索結果の一覧の例を示している。このとき、「黒鉛電極」の「電極」は、固定キーワードして、以下、入力キーワード及び対応キーワード等と組合せて検索に用いる形態として示す。

　この場合、検索処理部２４０は、始めに、デジタル文書データベース２１０を参照して、文書ＩＤ「１」の文書ファイルと、文書ＩＤ「１」と対応する記入者名「ｉ」を取得する（図４参照）。

　次に、検索処理部２４０は、対応キーワードデータベース２２０を参照して、入力キーワード「黒鉛」及び記入者名「ｉ」と対応する対応キーワードを取得する。この場合、対応キーワードデータベース２２０では、文字列「黒鉛」及び記入者名「ｉ」と対応する対応キーワードとして、「里鉛」が取得される（図５参照）。

　検索処理部２４０は、対応キーワードが取得されると、文書ＩＤ「１」の文書ファイルを、入力キーワードを含む「黒鉛電極」と対応キーワードを含む「里鉛電極」とのそれぞれで検索する。検索処理部２４０は、この処理をデジタル文書データベース２１０内の全ての文書ファイルに対して行う。

　その結果、入力キーワードを含む「黒鉛電極」は、文書名「Ａ」の文書ファイルにおいてヒットし、対応キーワードを含む「里鉛電極」は、文書名「Ｅ」の文書ファイルにおいてヒットした。

　したがって、検索処理部２４０は、検索結果の一覧として、文書名「Ａ」と記入者名「ｉ」を示す情報９２と、文書名「Ａ」の文書ファイルのうち、入力キーワードを含む「黒鉛電極」を含む前後のテキストデータ９３と、を表示させる。情報９２は、テキストデータ９３の元となる文書ファイルを特定するための文書名と記入者名を含む付加情報である。

　また、検索処理部２４０は、同様に、文書名「Ｅ」と記入者名「ｉ」を示す情報９４と、文書名「Ｅ」の文書ファイルのうち、対応キーワードを含む「里鉛電極」を含む前後のテキストデータ９５と、を表示させる。

　本実施形態では、このように、全ての検索結果について、文書名と、記入者名と、ヒットしたキーワードを含むキーワードの前後のテキストデータと、を一覧表示させる。

　尚、このとき、入力キーワードや対応キーワードを含む文字列は、テキストデータにおいて、ハイライト表示やアンダーライン表示等の強調表示とされていても良い。また、本実施形態では、テキストデータにおける入力キーワードを含む文字列と、対応キーワードを含む文字列との強調表示のさせ方を異ならせても良い。

　また、本実施形態の検索処理部２４０は、例えば、画面９１において、テキストデータ９３が選択されると、テキストデータ９３と対応する文書ＩＤ「１」の文書画像データを文書画像データベース２３０から取得し、表示させる。

　本実施形態では、このように、デジタル文書データベース２１０内に格納された文書ファイルに対する検索を行って、検索結果を表示させ、検索結果から選択されたテキストデータと対応する文書画像データを端末装置３００に表示させる。

　本実施形態では、これにより、例えば、文書画像データと対応する文書ファイルにおいて、入力キーワードとして参照されるべき正解文字列が誤認識されていた場合であっても、検索結果として取得することができる。

　図１０は、第一の実施形態の検索結果の一覧の表示例を説明する第二の図である。図９に示す画面９１Ａでは、入力キーワードとして「黒鉛」を含む、「黒鉛電極」が入力された場合の検索結果の一覧の例を示している。

　図１０に示す画面９１Ａでは、テキストデータに付加される情報が、図９の例と異なる。画面９１Ａにおいて、テキストデータ９３に付加される情報９２Ａは、文書ファイルの文書名が「Ａ」であり、記入者名が「ｉ」であり、検索においてヒットしたキーワードが入力キーワードであることを示している。

　また、テキストデータ９５に付加された情報９４Ａは、文書ファイルの文書名が「Ｅ」であり、記入者名が「ｉ」であり、検索においてヒットしたキーワードが対応キーワードであることを示している。

　さらに、テキストデータ９７に付加された情報９６は、文書ファイルの文書名が「Ｐ」であり、記入者名が「ｋ」であり、検索においてヒットしたキーワードがあいまい検索に用いられたキーワードであることを示している。

　このように、本実施形態では、検索結果として取得されたテキストデータに含まれるキーワードの種類を検索結果の一覧に含めることもできる。

　本実施形態では、このようにすることで、例えば、検索を行う利用者が所望する文書画像データを発見しやすくすることができるし、対応キーワードを用いて得られた検索結果が適切であったかどうかの確認を行うこともできる。

　具体的には、例えば、検索を行う利用者が、文字を記入した者が記入者「ｉ」であることは知らずに、記入者「ｉ」が文字を記入した紙文書の文書画像データの閲覧を所望していたとする。この場合、入力キーワードを含む文書ファイルよりも、記入者「ｉ」の対応キーワードを含む文書ファイルの方が、利用者が所望する文書画像データと対応している可能性が高い場合が考えられる。この場合、利用者は、例えば、テキストデータ９５を選択すれば、所望の文書画像データを閲覧することができる。

　また、本実施形態では、検索結果には、検索に用いられたキーワードの種類に応じて優先順位が付与されても良く、図９及び図１０に示す検索結果の一覧では、この優先順位に基づいて検索結果が表示されても良い。尚、検索結果とは、テキストデータと、テキストデータに付加された付加情報とを含むものである。

　具体的には、例えば、本実施形態では、入力キーワードの優先順位が最も高く、次に対応キーワードの優先順位が高く、あいまい検索で用いられたキーワードの優先順位が最も低くなるように設定しても良い。

　その場合、図１０に示すように、入力キーワードを含む検索結果は、一覧のうち最上位に表示され、あいまい検索に用いられたキーワードを含む検索結果は、一覧のうち最下位に表示される。

　本実施形態では、このように、検索結果の表示順に優先順位を付与することで、文字認識の精度が高い文書ファイルから順に利用者に検索結果を表示させることができる。

　（第二の実施形態）
　以下に、図面を参照して第二の実施形態について説明する。第二の実施形態は、検索結果の一覧におけるテキストデータの選択に応じて、対応キーワードデータベースが更新される点が、第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号を付与し、その説明を省略する。

　図１１は、第二の実施形態の文書検索装置の機能を説明する図である。

　本実施形態の文書検索装置２００Ａは、デジタル文書データベース２１０、対応キーワードデータベース２２０Ａ、文書画像データベース２３０と、検索処理部２４０Ａと、を有する。

　本実施形態の対応キーワードデータベース２２０Ａは、検索結果の一覧において、選択されたテキストデータが選択される度に更新される。対応キーワードデータベース２２０Ａの詳細は後述する。

　本実施形態の検索処理部２４０Ａは、第一の実施形態の検索処理部２４０の有する各部に加えて、対応キーワード更新部２４９を有する。

　対応キーワード更新部２４９は、選択受付部２４７がテキストデータの選択を受け付ける度に、つまり、文書画像データが出力される度に、対応キーワードデータベース２２０Ａを更新する。対応キーワード更新部２４９の処理の詳細は後述する。

　図１２は、第二の実施形態の対応キーワードデータベースの一例を示す図である。本実施形態の対応キーワードデータベース２２０Ａは、情報の項目として、記入者名、キーワード、対応キーワードに加え、選択回数を有する。

　項目「選択回数」の値は、検索結果の一覧から、記入者名と入力キーワード又は対応キーワードの組み合わせを含むテキストデータが選択された回数を示す。項目「選択回数」の値は、検索結果の一覧を表示させる際に、参照されても良い。

　次に、図１３を参照して、本実施形態の文書検索装置２００Ａの動作について説明する。図１３は、第二の実施形態の文書検索装置の動作を説明するフローチャートである。

　図１３のステップＳ１３０１からステップＳ１３１１までの処理は、図８のステップＳ８０１からステップＳ８１１までの処理と同様であるから、説明を省略する。

　検索処理部２４０Ａは、ステップＳ１３１１において、文書画像データを取得し、端末装置３００に出力すると、選択されたテキストデータに付加された付加情報と対応する対応付け情報が対応キーワードデータベース２２０Ａ内に存在するか否かを判定する（ステップＳ１３１２）。

　ステップＳ１３１２において、該当する対応付け情報が対応キーワードデータベース２２０Ａに存在する場合、対応キーワード更新部２４９は、該当する対応付け情報の選択回数を更新し、対応キーワードデータベース２２０Ａに格納して（ステップＳ１３１３）、処理を終了する。具体的には、対応キーワード更新部２４９は、該当する対応付け情報の選択回数を１回増やして処理を終了する。

　ステップＳ１３１２において、該当する対応付け情報が存在しない場合、検索処理部２４０は、対応キーワードデータベース２２０Ａに、付加情報に基づく新たな対応付け情報を生成して追加し、対応キーワードデータベース２２０Ａに格納して（ステップＳ１３１４）、処理を終了する。

　以下に、図９、図１０、図１２を参照して、対応キーワード更新部２４９の処理について具体的に説明する。

　例えば、画面９１において、テキストデータ９５が選択されたとする。この場合、テキストデータ９５には付加情報９４が付加されている。

　テキストデータ９５は、キーワード「里鉛」でヒットしたものであり、付加情報９２には記入者名「ｉ」を示す情報が含まれる。したがって、このテキストデータ９５が選択されたということは、キーワード「里鉛」と記入者名「ｉ」の組み合わせが選択されたことを意味する。

　したがって、対応キーワード更新部２４９は、対応キーワードデータベース２２０Ａの対応付け情報１２１において、選択回数の値を１加算する。

　また、例えば、図１０に示す画面９１Ａにおいて、テキストデータ９７が選択されたとする。この場合、テキストデータ９７には、付加情報９６が付加されている。

　テキストデータ９７は、あいまい検索によって生成されたキーワード「白金」によってヒットしたものであり、付加情報９６には、記入者名「ｋ」を示す情報が含まれる。したがって、このテキストデータ９７が選択されたということは、キーワード「白金」と記入者名「ｋ」の組み合わせが選択されたことを意味する。

　対応キーワード更新部２４９は、キーワード「白金」と記入者名「ｋ」とを対応付けた対応付け情報が対応キーワードデータベース２２０Ａに格納されていないため、キーワード「白金」を新たな対応キーワードとし、記入者名「ｋ」と、入力キーワードであるキーワード「黒鉛」と、対応キーワード「白金」とを対応付けた対応付け情報を生成し、選択回数を１回として、対応キーワードデータベース２２０Ａに追加して格納する。

　このように、本実施形態では、検索結果からテキストデータが選択される度に、対応キーワードデータベース２２０Ａが更新される。言い換えれば、本実施形態では、閲覧する文書画像データが選択される度に、対応キーワードデータベース２２０Ａが更新される。

　検索処理を繰り返した場合には、検索結果を表示させる際に、対応キーワードデータベース２２０Ａの選択回数が多いキーワードでヒットした検索結果から順に表示させても良い。

　このため、本実施形態によれば、検索処理を繰り返す程、キーワード検索のヒット率を上げることができる。

　例えば、入力キーワードを「水酸化」として検索処理を行った場合について考える。この場合に、例えば、入力キーワード「水酸化」で、記入者名「ｉ」の文書ファイルがヒットし、対応キーワード「水酸ヒ」で、記入者名「ｋ」のヒットした文書ファイルがヒットしたとする。

　この場合、文書検索部２４５は、対応キーワードデータベース２２０Ａを参照し、対応付け情報が含む選択回数が大きい対応キーワードによる検索結果を優先的に表示させる。

　図１２の例では、対応キーワード「カ酸ヒ」と記入者名「ｉ」の組み合わせを含む対応付け情報１２２の選択回数は１０回であり、対応キーワード「水酸ヒ」と記入者名「ｋ」の組み合わせを含む対応付け情報１２３の選択回数は１２回である。

　したがって、対応キーワード更新部２４９は、対応キーワード「水酸ヒ」で、記入者名「ｋ」のヒットした文書ファイルのテキストデータを、対応キーワード「カ酸ヒ」で、記入者名「ｉ」の文書ファイルのテキストデータよりも上位に表示させる。

　本実施形態では、このように表示順を決定することで、検索を行った利用者によって選択された回数が多い組み合わせのテキストデータから順に表示させることができる。

　（第三の実施形態）
　第三の実施形態は、対応キーワードデータベース２２０に格納された対応付け情報を学習データとして、対応キーワードを予測する予測モデルを学習させ、予測モデルを用いて予測出力された、予測された対応キーワードを取得する点が第一の実施形態と相違する。よって、以下の第三の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号を付与し、その説明を省略する。

　図１４は、第三の実施形態の文書検索装置の機能を説明する図である。

　本実施形態の文書検索装置２００Ｂは、デジタル文書データベース２１０、対応キーワードデータベース２２０、文書画像データベース２３０と、検索処理部２４０Ｂと、モデル記憶部２５０とを有する。

　検索処理部２４０Ｂは、入力受付部２４１、文書取得部２４２、対応キーワード取得部２４４、文書検索部２４５、検索結果出力部２４６、選択受付部２４７、文書画像出力部２４８、予測モデル学習部２５１を有する。

　予測モデル学習部２５１は、対応キーワードデータベース２２０に格納された対応付け情報を学習データとして予測モデル２６０に入力し、機械学習等によって予測モデル２６０が学習し、学習した学習済予測モデル２６０Ａをモデル記憶部２５０に格納する。尚、モデル記憶部２５０は、予測モデル２６０を記憶していても良い。

　学習予測モデル２６０Ａは、入力キーワードと記入者名とが入力されると、対応キーワードを予測し、予測された対応キーワードを出力する。予測された対応キーワードは複数あってもよい。

　対応キーワード取得部２４４は、文書取得部２４２が取得した記入者名と、入力キーワードとを、モデル記憶部２５０に記憶された、学習済予測モデル２６０Ａに入力し、学習済予測モデル２６０Ａにより予測された結果である予測された対応キーワードを取得する。

　図１５は、第三の実施形態の文書検索装置の動作を説明するフローチャートである。図１５のステップＳ１５０１とステップＳ１５０２は、図８のステップＳ８０１とステップＳ８０２と同様であるから、説明を省略する。

　検索処理部２４０Ｂは、対応キーワード取得部２４４により、ステップＳ１５０２において、記入者名を取得すると、記入者名と入力キーワードとを学習済予測モデル２６０Ａへ入力し、学習済予測モデル２６０Ａによる予測結果である予測された対応キーワードを取得する（ステップＳ１５０３）。

　続いて、検索処理部２４０Ｂは、文書検索部２４５により、入力キーワードと予測された対応キーワードとによって、文書取得部２４２が取得した文書ファイルを検索する（ステップＳ１５０４）。

　ステップＳ１５０４からステップＳ１５１１までの処理は、図８のステップＳ８０４からステップＳ８１１までの処理と同様であるから、説明を省略する。

　以上のように、本実施形態では、対応キーワードデータベース２２０に格納された対応付け情報を学習データとして、学習済予測モデル２６０Ａを構築する。学習済予測モデル２６０Ａは、例えば、入力キーワードと記入者の筆跡とから、入力キーワードと形状が類似する文字列を対応キーワード等として予測出力しても良い。

　（第四の実施形態）
　第四の実施形態は、第二の実施形態と第三の実施形態を組み合わせた実施形態である。以下の第四の実施形態の説明では、第二の実施形態及び第三の実施形態が要する機能構成と同様の機能構成を有するものには、第二の実施形態及び第三の実施形態の説明で用いた符号を付与し、その説明を省略する。

　図１６は、第四の実施形態の文書検索装置の機能を説明する図である。

　本実施形態の文書検索装置２００Ｃは、デジタル文書データベース２１０、対応キーワードデータベース２２０Ａ、文書画像データベース２３０、検索処理部２４０Ｃ、モデル記憶部２５０を有する。

　検索処理部２４０Ｃは、第三の実施形態の検索処理部２４０Ｂが有する各部と、対応キーワード更新部２４９とを有する。

　以下に、図１７を参照して、第四の実施形態の文書検索装置２００Ｃの動作について説明する。図１７は、第四の実施形態の文書検索装置の動作を説明するフローチャートである。

　図１７のステップＳ１７０１からステップＳ１７１１までの処理は、図１５のステップＳ１５０１からステップＳ１５１１までの処理と同様であるから、説明を省略する。

　ステップＳ１７１１に続くステップＳ１７１２からステップＳ１７１４までの処理は、図１３のステップＳ１３１２からステップＳ１３１４までの処理と同様であるから、説明を省略する。

　ステップＳ１７１３、１７１４に続いて、検索処理部２４０Ｃは、予測モデル学習部２５１により、更新された対応キーワードデータベース２２０Ａを学習データとして、学習済予測モデル２６０Ａがさらに学習して、学習済予測モデル２６０Ｂとして更新し、予測モデル学習部２５１に格納されて（ステップＳ１７１５）、処理を終了する。ステップＳ１７１５の学習済予測モデルの更新は、文書検索装置の動作毎に行う必要は必ずしもなく、利用者の動作指定により、複数回の動作ごとに行ってもよい。

　本実施形態では、このように、検索を行った利用者が選択した検索結果から更新された対応キーワードデータベース２２０Ａを用いて、学習済予測モデル２６０Ａを更新する。言い換えれば、学習済予測モデルは、入力キーワードと、利用者が選択したテキストデータとの対応付け情報に基づき更新される。

　したがって、本実施形態では、検索処理を行うほど、対応キーワードによるヒット率を向上させることができる。

　（第五の実施形態）
　以下に図面を参照して、第五の実施形態について説明する。第五の実施形態は、対応キーワードデータベースを有しておらず、検索を行った利用者によって選択された検索結果に応じて、予測モデルを構築する点が、第三の実施形態と相違する。よって、以下の第五の実施形態の説明では、第三の実施形態と同様の機能構成を有するものには、第三の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。

　図１８は、第五の実施形態の文書検索装置の機能を説明する図である。本実施形態の文書検索装置２００Ｄは、デジタル文書データベース２１０、文書画像データベース２３０、検索処理部２４０Ｄ、モデル記憶部２５０を有する。

　検索処理部２４０Ｄは、入力受付部２４１、文書取得部２４２、対応キーワード取得部２４４、文書検索部２４５、検索結果出力部２４６、選択受付部２４７、文書画像出力部２４８、予測モデル学習部２５２を有する。

　本実施形態の予測モデル学習部２５２は、検索結果出力部２４６によって出力された検索結果からテキストデータが選択されると、選択されたテキストデータに含まれる、検索によってヒットしたキーワードと、記入者名と、入力キーワードとを対応付けた対応付け情報を保持する。

　学習済予測モデル２６０Ａが構築される前の検索処理においてヒットするキーワードとは、入力キーワードと、あいまい検索を行うために入力キーワードから生成されたキーワードである。

　そして、予測モデル学習部２５２は、所定数の対応付け情報群が蓄積されると、対応付け情報群を学習データとして用いて、予測モデル２６０に学習させ、学習した学習済予測モデル２６０Ｃをモデル記憶部２５０に格納する。尚、本実施形態の予測モデル学習部２５２は、例えば、対応付け情報群を人工知能等に提供し、学習済予測モデル２６０Ｃを取得しても良い。

　検索処理部２４０Ｄは、学習済予測モデル２６０Ｃが構築された後は、学習済予測モデル２６０Ｃを用いて予測出力された対応キーワードを取得する。

　以下に、図１９を参照して、本実施形態の予測モデル学習部２５２の処理について説明する。図１９は、第五の実施形態のうちの、予測モデル学習部の処理を説明するフローチャートである。

　本実施形態の予測モデル学習部２５２は、記入者名と、入力キーワードと、ヒットしたキーワードとの対応付け情報を所定数蓄積したか否かを判定する（ステップＳ１９０１）。所定数とは、予測モデル２６０の構築に必要な最低限の数であっても良く、予め決められていても良い。蓄積される対応付け情報群の好ましい所定数は、好ましくは２以上であり、より好ましくは５以上であり、さらに好ましくは１０以上である。

　ステップＳ１９０１において、所定数の対応付け情報が蓄積されていない場合、予測モデル学習部２５２は、対応付け情報が所定数蓄積されるまで待機する。

　ステップＳ１９０１において、対応付け情報が所定数蓄積されると、予測モデル学習部２５２は、対応付け情報群を学習データとして用いて予測モデル２６０が学習し、学習済予測モデル２６０Ｃを構築し（ステップＳ１９０２）、モデル記憶部２５０へ記憶させ（ステップＳ１９０３）、処理を終了する。

　このように、本実施形態によれば、対応キーワードデータベース２２０を予め作成する必要がなく、検索処理を行うほど、キーワード検索のヒット率を向上させることができる。

　上述した各実施形態は、手書きで記入された紙文書に対して適用することができる。具体的には、例えば、記入者名と、記入者が記入した紙文書の画像データとを対応付けることができれば、どのような紙文書にも適用することができる。

　本発明は、具体的に開示された実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。

　また、本国際出願は、２０１９年２月１４日に出願された日本国特許出願２０１９－２４８２１に基づく優先権を主張するものであり、日本国特許出願２０１９－２４８２１の全内容を本国際出願に援用する。

　１００　文書検索システム
　２００、２００Ａ、２００Ｂ、２００Ｃ、２００Ｄ　文書検索装置
　２１０　デジタル文書データベース
　２２０、２２０Ａ　対応キーワードデータベース
　２３０　文書画像データベース
　２４０、２４０Ａ、２４０Ｂ、２４０Ｃ、２４０Ｄ　検索処理部
　２４１　入力受付部
　２４２　文書取得部
　２４４　対応キーワード取得部
　２４５　文書検索部
　２４６　検索結果出力部
　２４７　選択受付部
　２４８　文書画像出力部
　２４９　対応キーワード更新部
　２５０　モデル記憶部
　２５１、２５２　予測モデル学習部
　２６０　予測モデル
　２６０Ａ、２６０Ｂ、２６０Ｃ　学習済予測モデル
　３００　端末装置

Claims

　キーワードの入力を受け付ける入力受付部と、
　手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書に文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する文書取得部と、
　記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、前記入力受付部から入力されたキーワードと、前記文書取得部により取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する対応キーワード取得部と、
　前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する文書検索部と、
　前記文書検索部による検索結果を出力する検索結果出力部と、を有する文書検索装置。
　前記手書き文書の文書画像データが格納された文書画像データベースと、前記文書画像データベースから、文書ファイルと対応する文書画像データを取得して出力する文書画像出力部とをさらに有し、
　前記検索結果出力部は、
　前記文書ファイルの中から、前記入力されたキーワード又は前記対応キーワードを含むテキストデータを検索結果として出力し、
　前記文書画像出力部は、
　前記テキストデータの一部が選択された場合に、前記選択されたテキストデータの一部が含まれる文書ファイルと対応する文書画像データを取得して出力する、請求項１記載の文書検索装置。
　前記文書検索部は、
　前記入力されたキーワードと、前記対応キーワードとのそれぞれを用いてあいまい検索を行い、
　前記検索結果出力部は、
　前記あいまい検索の結果を前記検索結果に含める、請求項１又は２記載の文書検索装置。
　対応キーワードデータベースに格納された情報が、前記対応キーワード又はあいまい検索において検索キーワードとされたキーワードと、前記文書取得部が取得した記入者名と、前記入力受付部により入力されたキーワードと、さらに、選択回数と、を有し、
　前記検索結果において、前記対応キーワードによる検索又はあいまい検索の結果として出力されたテキストデータの一部が選択された場合に、
　前記選択回数を更新して、前記対応キーワードデータベースに格納する対応キーワード更新部を有する、請求項２又は３記載の文書検索装置。
　予測モデルを学習させる予測モデル学習部及び予測モデルが格納されるモデル記憶部をさらに有し、
　前記予測モデル学習部は、前記対応キーワードデータベースに格納された情報を学習データとして予測モデルに学習させ、前記モデル記憶部は、学習した学習済予測モデルを格納し、
　前記学習済予測モデルは、前記入力されたキーワードと、前記取得された記入者名とが入力されると、対応キーワードを予測し、予測されたキーワードを出力し、
　前記文書検索部は、前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び前記予測された対応キーワードにより検索する、請求項１ないし４の何れか一項に記載の文書検索装置。
　予測モデルを学習させる予測モデル学習部及び予測モデルが格納されるモデル記憶部を有し、
　前記予測モデル学習部は、前記対応キーワード更新部が格納する更新された対応付け情報を学習データとして予測モデルに学習させ、前記モデル記憶部は、学習した学習済予測モデルを格納し、
　前記学習済予測モデルは、前記入力されたキーワードと、前記取得された記入者名とが入力されると、対応キーワードを予測し、予測されたキーワードを出力し、
　前記文書検索部は、前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び前記予測された対応キーワードにより検索する、請求項４に記載の文書検索装置。
　前記予測モデル学習部は、前記検索結果からテキストデータが選択されると、選択されたテキストデータに含まれる、入力キーワードから生成されたキーワードと、記入者名と、入力キーワードとを対応付けた対応付け情報を保持し、
　前記予測モデル学習部は、前記対応付け情報からなる対応付け情報群を学習データとして予測モデルに学習させ、
　前記モデル記憶部は、学習した学習済予測モデルを格納し、
　前記モデル記憶部に前記学習済予測モデルが格納された後は、
　前記学習済予測モデルは、前記入力されたキーワードと、前記取得された記入者名とが入力されると、対応キーワードを予測し、予測された対応キーワードを出力し、
　前記文書検索部は、前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び前記予測された対応キーワードにより検索する、請求項６に記載の文書検索装置。
　前記対応キーワードは、
　前記対応キーワードと対応付けられたキーワードに前記文字認識処理を施した結果として誤認識された文字を含む文字列である、請求項１ないし７の何れか一項に記載の文書検索装置。
　文書検索装置と、端末装置とを有する文書検索システムであって、
　前記文書検索装置は、
　キーワードの入力を受け付ける入力受付部と、
　手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書の文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する文書取得部と、
　記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、前記入力受付部から入力されたキーワードと、前記文書取得部により取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する対応キーワード取得部と、
　前記文書取得部により取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する文書検索部と、
　前記文書検索部による検索結果を前記端末装置に出力する検索結果出力部と、を有する文書検索システム。
　キーワードの入力を受け付ける処理と、
　手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書の文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する処理と、
　記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、入力されたキーワードと、取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する処理と、
　前記取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する処理と、
　検索結果を出力する処理と、をコンピュータに実行させる文書検索プログラム。
　コンピュータによる文書検索方法であって、前記コンピュータが、
　キーワードの入力を受け付ける手順と、
　手書き文書の文書画像データに文字認識処理を施し、テキストデータとした文書ファイルと、前記手書き文書の文字を記入した記入者名と、が格納されたデジタル文書データベースから、前記記入者名と前記文書ファイルとを取得する手順と、
　記入者名と、キーワードと、対応キーワードとを対応付けた情報が格納された対応キーワードデータベースを参照し、入力されたキーワードと、取得された記入者名とから、前記入力されたキーワードの対応キーワードを取得する手順と、
　前記取得された文書ファイルを、前記入力されたキーワード及び取得された対応キーワードにより検索する手順と、
　検索結果を出力する手順と、を有する文書検索方法。