WO2022059556A1

WO2022059556A1 - 文書検索装置

Info

Publication number: WO2022059556A1
Application number: PCT/JP2021/032807
Authority: WO
Inventors: 悠川原; 拓也南; 悠岡野; 仁子高; 好成奥野
Original assignee: 昭和電工株式会社
Priority date: 2020-09-16
Filing date: 2021-09-07
Publication date: 2022-03-24
Also published as: US20230359653A1; CN116075817A; CN116075817A8; JPWO2022059556A1

Abstract

誤字を含む文書における文書検索の精度を向上させる。本発明の一実施形態に係る文書検索装置は、正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルと、検索文字列を取得し、文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部と、を有する。

Description

文書検索装置

　本願は、日本特許庁に２０２０年９月１６日に出願された基礎出願２０２０-１５５５０７号の優先権を主張するものであり、その全内容を参照によりここに援用する。

　本発明は、文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法に関する。

　従来、ユーザが指定したキーワードをもとに文書を検索する文書検索が知られている。文書検索において、キーワードと完全に一致する文字列を抽出する完全一致検索と呼ばれる手法が知られている。完全一致検索では、文書が誤字を含んでいると、ユーザが意図したものの未抽出（検索漏れとも呼ばれる）が生じたり、ユーザが意図したものとは異なる検索結果（検索ノイズとも呼ばれる）が生じたりする。そのため、事前に用意した正誤表に基づいて、誤字であると想定される文字を正しい文字に置き換えたうえで検索する手法が知られている（例えば、特許文献１）。

特開２００７－３２３４１４号公報

　しかしながら、そのような正誤表に基づく文字の置き換えにより、正しい文字を誤まった文字にしてしまうことがある。つまり、正誤表に基づいて文字を置き換えなければ抽出できたはずの文字列を抽出することができなくなってしまう。

　そこで、本発明では、誤字を含む文書における文書検索の精度を向上させることを目的とする。

［１］正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルと、
　検索文字列を取得し、
　文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部と
　を有する、文書検索装置。
［２］前記正認識の文字列および前記誤認識の文字列は、それぞれ１つの文字からなる文字列である、［１］に記載の文書検索装置。
［３］前記正認識の文字列および前記誤認識の文字列は、それぞれ複数の文字からなる形態素である、［１］に記載の文書検索装置。
［４］複数の、正認識の文字列および誤認識の文字列の対を含む誤変換テーブルは、前記正認識の文字列および前記誤認識の文字列が、それぞれ１つの文字からなる文字列である場合と、それぞれ複数の文字からなる形態素である場合と、の両方を含む、［１］に記載の文書検索装置。
［５］前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列の確信度、および、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正する前の文字列の確信度が記憶された文書情報テーブルをさらに有し、
　前記文書検索部は、前記確信度が低い文字列を検索の対象から除外する、［１］から［４］のいずれかに記載の文書検索装置。
［６］前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列の確信度、および、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正する前の文字列の確信度が記憶された文書情報テーブルをさらに有し、
　前記文書検索部は、前記確信度が低い文字列の優先順位を下げる、［１］から［４］のいずれかに記載の文書検索装置。
［７］前記文書検索部が、検索結果表示部を有し、
　前記検索結果表示部は、前記検索結果を表示する、［１］から［６］のいずれか一項に記載の文書検索装置。
［８］文書検索装置とユーザ端末とを含む文書検索システムであって、
　前記文書検索装置は、
　正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルと、
　検索文字列を取得し、
　文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部と、を有する、文書検索システム。
［９］正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルを有するコンピュータを、
　検索文字列を取得し、
　文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部、として機能させるための文書検索プログラム。
［１０］正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルを有する文書検索装置が実行する方法であって、
　検索文字列を取得するステップと、
　文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索するステップと
　を含む文書検索方法。

　本発明では、誤字を含む文書における文書検索の精度を向上させることができる。

本発明の一実施形態に係る文書検索装置を含む全体のシステム構成を示す図である。本発明の一実施形態に係る文書検索装置の機能ブロックを示す図である。本発明の一実施形態に係る文書検索装置の記憶部に記憶されているデータの一例である。本発明の一実施形態に係る文書検索（第１の実施形態）について説明するための図である。本発明の一実施形態に係る文書検索（第２の実施形態）について説明するための図である。本発明の一実施形態に係る誤認識テーブルの作成方法の一例について説明するための図である。本発明の一実施形態に係る文書検索（第３の実施形態）について説明するための図である。本発明の一実施形態に係る相対的な確信度の一例について説明するための図である。本発明の一実施形態に係る精度検証について説明するための図である。本発明の一実施形態に係る精度検証について説明するための図である。本発明の一実施形態に係る精度検証について説明するための図である。本発明の一実施形態に係る精度検証について説明するための図である。本発明の一実施形態に係る精度検証を比較するための図である。本発明の一実施形態に係る文書の検索の処理の流れを示すフローチャートである。本発明の一実施形態に係る文書検索装置、ユーザ端末のハードウェア構成を示す図である。

　以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

＜用語の説明＞
　本発明は、任意の１つまたは複数の文書を検索する文書検索に適用することができる。本明細書では、ＯＣＲ（Optical character recognition）を用いて活字または手書きの文書の画像から変換された文書の場合を説明するが、本発明は、文書作成ソフトウェアを用いて作成された文書等の任意の文書を検索する文書検索に適用することができる。「文書」は、誤字を含みうる。

＜システム構成＞
　図１は、本発明の一実施形態に係る文書検索装置１０を含む全体のシステム構成を示す図である。図１に示されているように、文書検索システム１は、文書検索装置１０と、ユーザ端末２０と、を含む。文書検索装置１０は、任意のネットワークを介してユーザ端末２０とデータを送受信することができる。以下、それぞれについて説明する。

　文書検索装置１０は、文書検索の処理を行う装置（例えば、サーバ）である。後段で、図２を参照しながら文書検索装置１０について詳細に説明する。

　ユーザ端末２０は、文書を検索するときにユーザが利用する端末である。例えば、ユーザ端末２０は、パーソナルコンピュータ等である。

　なお、文書検索装置１０がユーザ端末２０の一部または全部の機能を有するようにしてもよい。

＜文書検索装置１０の機能ブロック＞
　図２は、本発明の一実施形態に係る文書検索装置１０の機能ブロックを示す図である。図２に示されているように、文書検索装置１０は、誤認識テーブル２０２と、文書検索部１０３とを有する。誤認識テーブルについては後述する。文書検索装置１０は、さらに、ＯＣＲ（Optical Character Recognition）処理部１０１と、元文字列候補生成部１０２と、記憶部１０４と、を有することができる。文書検索部１０３は、さらに、検索結果表示部１０５を有することができる。記憶部１０４は、文書情報テーブル２０１および誤認識テーブル２０２を有することができる。また、誤認識テーブルを有する文書検索装置１０は、プログラムを実行することで、文書検索部１０３として機能する。誤認識テーブルを有する文書検索装置１０は、プログラムを実行することで、さらに、ＯＣＲ処理部１０１と、元文字列候補生成部１０２と、検索結果表示部１０５と、して機能することができる。以下、それぞれについて説明する。

　ＯＣＲ処理部１０１は、文字列の情報（以下、文字列情報ともいう）を抽出する。具体的には、ＯＣＲ処理部１０１は、文書画像（例えば、手書きの文書の画像）を取得する。また、ＯＣＲ処理部１０１は、ＯＣＲ（光学文字認識）の処理を行い、取得された文書画像から文字列の情報を抽出する。なお、文書作成ソフトウェアを用いて作成された文書の場合、文書内の文字列の情報が用いられる。

　元文字列候補生成部１０２は、誤認識テーブル２０２をもとに、元の文字列の候補（例えば、元となった手書きの文書に存在したと想定される文字列の候補である）を生成する。具体的には、元文字列候補生成部１０２は、誤認識テーブル２０２の「正認識」および「誤認識」の文字列を参照して、ＯＣＲ処理部１０１が抽出した文字列情報（あるいは、文書作成ソフトウェアを用いて作成された文書の場合、文書内の文字列情報）に含まれる「誤認識」の文字列を「正認識」の文字列に修正し、元の文字列の候補を生成する。

　文書検索部１０３は、文書検索の処理を行う。具体的には、文書検索部１０３は、文書内で検索する文字列（以下、検索文字列ともいう）を、ユーザ端末２０から取得する。また、文書検索部１０３は、ＯＣＲ処理部１０１が抽出した文字列情報（あるいは、文書作成ソフトウェアを用いて作成された文書の場合、文書内の文字列情報）と、元文字列候補生成部１０２が生成した元の文字列の候補と、の両方から、検索文字列を検索する。

　また、文書検索部１０３が有する検索結果表示部１０５は、文書検索部１０３が行った文書検索の結果を表示することができる。検索の結果（例えば、検索文字列を含む文書の文書ＩＤ、検索文字列を含む文書に対応する手書きの文書の画像等）を、ユーザ端末２０に出力する。

　具体的には、検索結果表示部１０５は、それぞれの項目は後述するが、検索に用いられた識字結果と修正識字結果とを表示することができる。検索結果表示部１０５は、さらに、検索に用いられた識字確信度と修正確信度とを表示することができる。また、文書画像の、検索文字列に対応する識字範囲座標を含む所定の範囲を表示することができる。

　記憶部１０４には、文書情報テーブル２０１および誤認識テーブル２０２が記憶されている。以下、図３を参照しながら、記憶部１０４について詳細に説明する。

　図３は、本発明の一実施形態に係る文書検索装置の記憶部１０４に記憶されているデータの一例である。図３に示されているように、記憶部１０４には、文書情報テーブル２０１および誤認識テーブル２０２が記憶されている。以下、それぞれについて説明する。

＜文書情報テーブル＞
　文書情報テーブル２０１には、文書ごとに、「文書ＩＤ」、「文書名」、「頁」、「識字範囲座標」、「識字結果」、「識字確信度」、「修正候補」、「修正確信度」のデータが記憶されている。

　「文書ＩＤ」は、文書を特定するための識別子である。

　「文書名」は、文書の名称である。

　「頁」は、複数の頁からなる文書の場合、文書内で「識字結果」が存在する頁を特定するための情報である。

　「識字範囲座標」は、「識字結果」が存在する範囲を示す座標である。

　「識字結果」は、ＯＣＲ処理部１０１が文書画像から抽出した文字列情報である。なお、文書作成ソフトウェアを用いて作成された文書の場合、文書内の文字列情報が用いられる。

　「識字確信度」は、「識字結果」の正確さの度合いである。詳細については、図８を参照しながら説明する。

　「修正候補」は、元文字列候補生成部１０２が生成した元の文字列の候補である。なお、１つまたは複数の修正候補が記憶される。

　「修正確信度」は、それぞれの「修正候補」の正確さの度合いである。詳細については、図８を参照しながら説明する。

＜誤認識テーブル＞
　誤認識テーブル２０２には、「正認識」と「誤認識」のペアのデータが記憶されている。なお、上述したように、元文字列候補生成部１０２が、ＯＣＲ処理部１０１が抽出した文字列情報（あるいは、文書作成ソフトウェアを用いて作成された文書の場合、文書内の文字列情報）に含まれる「誤認識」の文字列を「正認識」の文字列に修正し、元の文字列の候補（つまり、図３の文書情報テーブル２０１の「修正候補」）を生成する。

　「誤認識」は、文書内の文字列のうち、誤りであると想定される文字列である。

　「正認識」は、「誤認識」に記憶されている文字列に対応する文字列である。具体的には、「正認識」は、「誤認識」に記憶されている文字列が修正されるべき正しい文字列である。

　なお、「正認識」の文字列および「誤認識」の文字列は、１つの文字からなる文字列であってもよいし、複数の文字からなる文字列（例えば、形態素）であってもよい。

　誤認識テーブル２０２は、文書ごとに構成されてもよいし、文書情報テーブル２０１に記憶されている全ての文書の単位で構成されてもよい。また、誤認識テーブル２０２は、技術分野が共通する等の類似する複数の文書ごとに構成されてもよいし、技術用語を含む、複数の形態素で構成される特定の文字列ごとに構成されてもよい。

　また、誤変換テーブル２０２が含む正認識の文字列および誤認識の文字列は、それぞれ１つの文字からなる文字列であってもよく、または、それぞれ複数の文字からなる形態素であってもよい。正認識の文字列および誤認識の文字列が、それぞれ１つの文字からなる文字列である場合と、それぞれ複数の文字からなる形態素である場合と、の両方を含む場合には、複数の誤認識テーブル２０２で構成されてもよい。

　また、ＯＣＲ処理部１０１において、取得した手書きの文書の画像に対してＯＣＲ処理を行った際に、文字数が誤って認識されることがある。偏と旁が離れて手書きされていたときに、例えば、「坪」が「土」と「平」の二文字として誤認識される場合もある。また、逆の場合として、手書きの二文字が密接して手書きされていたときに、例えば、「山鳥」が「嶋」の一文字として誤認識される場合もある。このような誤認識の場合も、それぞれ「誤認識」と「正認識」のペアのデータとして誤認識テーブル２０２に記憶されてもよい。

　以下、図４を参照しながら文書検索の第１の実施形態を説明し、図５および図６を参照しながら文書検索の第２の実施形態を説明し、図７および図８を参照しながら文書検索の第３の実施形態を説明する。

＜第１の実施形態＞
　図４は、本発明の一実施形態に係る文書検索（第１の実施形態）について説明するための図である。第１の実施形態は、誤認識テーブル２０２に記憶されている「正認識」の文字列および「誤認識」の文字列が、それぞれ１つの文字からなる文字列のペアである場合である。図４中の＃１および＃２は、１つの文書に含まれる文字列のデータ（１つの文書を検索する文書検索の場合）である。

　図４の例では、「誤認識」が"原"であり「正認識」が"厚"であり、「誤認識」が"原"であり「正認識」が"康"であったとする。また、「識字結果」が、＃１では"原生労働省だけでなく"であり、＃２では"原生生物は、真菌類なども"であったとする。そうすると、「修正識字結果（図３の文書情報テーブル２０１の「修正候補」）」は、＃１では"厚生労働省だけでなく"および"康生労働省だけでなく"であり、＃２では"厚生生物は、真菌類なども"および"康生生物は、真菌類なども"である。また、＃１の検索文字列が「厚生労働省」、「厚生」であり、＃２の検索文字列が「原生生物」、「原生」であったとする。

　＃１において、検索の対象が識字結果だけであるとき、図４の左下の"修正前の検索結果"に示されるように、検索文字列の「厚生労働省」、「厚生」を文書内から抽出することができない（×）。本発明のように検索の対象が識字結果と修正識字結果との両方であるとき、図４の右下の"修正後の検索結果"に示されるように、検索文字列の「厚生労働省」、「厚生」を文書内から抽出することができる（ＨＩＴ）。ただし、第１の実施形態では、検索文字列として「原生」が入力されたときに"原生労働省だけでなく"が抽出されてしまう（誤ＨＩＴ）。

　検索の対象が識字結果と修正識字結果との両方である場合、検索結果表示部１０５が所定の範囲の文書画像を表示したとき、表示された文書画像は、「識字結果」が存在する範囲を含む。

　＃２において、検索の対象が識字結果だけであるとき、図４の左下の"修正前の検索結果"に示されるように、検索文字列の「原生生物」、「原生」を文書内から抽出することができる（ＨＩＴ）。本発明のように検索の対象が識字結果と修正識字結果との両方であるとき、図４の右下の"修正後の検索結果"に示されるように、検索文字列の「原生生物」、「原生」を文書内から抽出することができる（ＨＩＴ）。ただし、第１の実施形態では、検索文字列として「厚生」が入力されたときに"厚生生物は、真菌類なども"が抽出されてしまう（誤ＨＩＴ）。

　このように、第１の実施形態では、文書と、文書内の誤認識の文字列を正認識の文字列に修正した文字列と、の両方を検索するので、文字を置き換えなければ抽出できたはずの文字列を抽出することができなくなってしまうことを避けることができる。

＜第２の実施形態＞
　図５は、本発明の一実施形態に係る文書検索（第２の実施形態）について説明するための図である。第２の実施形態は、誤認識テーブル２０２に記憶されている「正認識」の文字列および「誤認識」の文字列が、それぞれ複数の文字からなる文字列のペアである場合である。具体的には、「正認識」の文字列および「誤認識」の文字列が、第１の実施形態のように文字単位ではなく、意味をもつ単語（形態素）単位である。図５中の＃１および＃２は、１つの文書に含まれる文字列のデータ（１つの文書を検索する文書検索の場合）である。

　図５の例では、「誤認識」が"原生労働省"であり「正認識」が"厚生労働省"であり、「誤認識」が"健原"であり「正認識」が"健康"であったとする。また、「識字結果」が、＃１では"原生労働省だけでなく"であり、＃２では"原生生物は、真菌類なども"であったとする。そうすると、「修正識字結果（図３の文書情報テーブル２０１の「修正候補」）」は、＃１では"厚生労働省だけでなく"であり、＃２では修正識字結果は無い。また、＃１の検索文字列が「厚生労働省」、「厚生」であり、＃２の検索文字列が「原生生物」、「原生」であったとする。

　＃１において、検索の対象が識字結果だけであるとき、図５の左下の"修正前の検索結果"に示されるように、検索文字列の「厚生労働省」、「厚生」を文書内から抽出することができない（×）。本発明のように検索の対象が識字結果と修正識字結果との両方であるとき、図５の右下の"上記技術での検索結果"に示されるように、検索文字列の「厚生労働省」、「厚生」を文書内から抽出することができる（ＨＩＴ）。ただし、第２の実施形態では、検索文字列として「原生」が入力されたときに"原生労働省だけでなく"が抽出されてしまう（誤ＨＩＴ）。

　検索の対象が識字結果と修正識字結果との両方である場合、検索結果表示部１０５が所定の範囲の文書画像を表示したとき、表示された文書画像は、ユーザが所望する画像を含む。

　＃２において、検索の対象が識字結果だけであるとき、図５の左下の"修正前の検索結果"に示されるように、検索文字列の「原生生物」、「原生」を文書内から抽出することができる（ＨＩＴ）。本発明のように検索の対象が識字結果と修正識字結果との両方であるとき、図５の右下の"上記技術での検索結果"に示されるように、検索文字列の「原生生物」、「原生」を文書内から抽出することができる（ＨＩＴ）。

　検索の対象が識字結果と修正識字結果との両方である場合、検索結果表示部１０５が所定の範囲の文書画像を表示したとき、表示された文書画像は、ユーザが所望する画像のみを含む。

　このように、第２の実施形態では、検索文字列として「厚生」が入力されたとしても、"厚生生物は、真菌類なども"という誤った修正識字結果が無いので、検索ノイズを低減することができる。

　図６は、本発明の一実施形態に係る誤認識テーブル２０２の作成方法の一例について説明するための図である。（１）、（２）、（３）、（４）の順に説明する。なお、元文字列は、手書きの文書に存在する文字列であり、ＯＣＲ文字列は、手書きの文書の画像にＯＣＲの処理を行うことにより抽出された文字列である。

　まず、（１）において、元文字列とＯＣＲ文字列の差分が生じている箇所をＳＥＳ（Shortest Edit Script）等の既存のアルゴリズムを用いて抽出する。ＯＣＲ文字列内の差分が生じている箇所を誤認識文字とする。

　次に、（２）において、形態素解析して、元文字列を形態素に分割する。

　次に、（３）において、（２）で分割した形態素と、（１）で抽出した誤認識文字と、を紐づける。

　次に、（４）において、（３）の紐づけから、「正認識」と「誤認識」のペアを生成する。具体的には、形態素（例えば、"医学"）を「正認識」とする。また、形態素（例えば、"医学"）のうち誤認識文字（例えば、"会"）に対応する文字（例えば、"学"）を、誤認識文字（例えば、"会"）に置換したもの（例えば、"医会"）を「誤認識」とする。

　このように、第２の実施形態では、文字を置き換えなければ抽出できたはずの文字列を抽出することができなくなってしまうことを避けるだけでなく、誤認識の文字列および正認識の文字列を複数の文字からなる形態素にすることによって、作成した誤認識テーブルを用いて元の文字列の候補を作成したとき検索ノイズを低減することができる。

　なお、第１の実施形態と第２の実施形態とを組み合わせてもよい。具体的には、誤認識テーブル２０２に、１つの文字からなる「正認識」と「誤認識」のペアのデータと、複数の文字からなる（例えば、形態素である）「正認識」と「誤認識」のペアのデータと、の両方が記憶されていてもよい。例えば、１つの文字からなる「正認識」と「誤認識」のペアにより修正された文字列のうち、複数の文字からなる（例えば、形態素である）「正認識」の文字列を検索の対象として採用するようにしてもよい。

＜第３の実施形態＞
　図７は、本発明の一実施形態に係る文書検索（第３の実施形態）について説明するための図である。第３の実施形態では、文書検索部１０３は、確信度が低い識字結果や修正識字結果を、検索の対象から除外する、あるいは、検索の結果に付与するスコアを低くすることができる。なお、第３の実施形態は、第１の実施形態と組み合わせてもよいし、第２の実施形態と組み合わせてもよいし、第１の実施形態と第２の実施形態とを組み合わせたものと組み合わせてもよい。図７中の＃１および＃２は、１つの文書に含まれる文字列のデータ（１つの文書を検索する文書検索の場合）である。

　図７の例では、「誤認識」が"原生労働省"であり「正認識」が"厚生労働省"であり、「誤認識」が"原"であり「正認識」が"康"であったとする。また、「識字結果」およびその確信度が、＃１では"原生労働省だけでなく（識字確信度：０．５）"であり、＃２では"原生生物は、真菌類なども（識字確信度：０．９）"であったとする。また、「修正識字結果（図３の文書情報テーブル２０１の「修正候補」）」およびその確信度が、＃１では"厚生労働省だけでなく（修正確信度：０．８）"および"康生労働省だけでなく（修正確信度：０．３）"であり、＃２では"康生生物は、真菌類なども（修正確信度：０．６）"であったとする。また、＃１の検索文字列が「厚生労働省」、「厚生」であり、＃２の検索文字列が「原生生物」、「原生」であったとする。

　＃１において、検索の対象が識字結果だけであるとき、図７の左下の"修正前の検索結果"に示されるように、検索文字列の「厚生労働省」、「厚生」を文書内から抽出することができない（×）。本発明のように検索の対象が識字結果と修正識字結果との両方から、確信度が低い識字結果や修正識字結果を検索の対象から除外したものであるとき、図７の右下の"上記技術での検索結果"に示されるように、検索文字列の「厚生労働省」、「厚生」を文書内から抽出することができる（ＨＩＴ）。さらに、第３の実施形態では、検索文字列として「原生」が入力されたとしても、"原生労働省だけでなく"という確信度が低いものが検索されないので、検索ノイズを低減することができる。

　検索の対象が識字結果と修正識字結果との両方から、確信度が低い識字結果や修正識字結果を検索の対象から除外したものである場合、検索結果表示部１０５が所定の範囲の文書画像を表示したとき、表示された文書画像は、ユーザが所望する画像を含む。

　＃２において、検索の対象が識字結果だけであるとき、図７の左下の"修正前の検索結果"に示されるように、検索文字列の「原生生物」、「原生」を文書内から抽出することができる（ＨＩＴ）。本発明のように検索の対象が識字結果と修正識字結果との両方から、確信度が低い識字結果や修正識字結果を検索の対象から除外したものであるとき、図７の右下の"上記技術での検索結果"に示されるように、検索文字列の「原生生物」、「原生」を文書内から抽出することができる（ＨＩＴ）。

　図８は、本発明の一実施形態に係る相対的な確信度の一例について説明するための図である。図８の確信度を算出する手法では、日本語として意味を成しえない文字の列を含む、不自然な文は多くの形態素に分割されてしまうことを利用している。以下、詳細に説明する。

　例えば、ＯＣＲ文字列（識字結果）として、"（０）日本の指事業法にあっては塩化ナトリウムの含有量が１００分の４以上の回形物"という文字列があったとする。なお、ＯＣＲ文字列は、手書きの文書の画像にＯＣＲの処理を行うことにより抽出された文字列である。また、「誤認識」が"指事業法"であり「正認識」が"塩事業法"であり、「誤認識」が"回形物"であり「正認識」が"固形物"であり、「誤認識」が"１０"であり「正認識」が"１０ｇ"であったとする。図８において、＃１～＃３は、誤認識テーブルに記憶された正誤ペアである。

　そうすると、図８の例では、ＯＣＲ文字列を正誤ペアの＃１～＃３のいずれか１つを用いて、修正候補を生成すると、"（１）日本の塩事業法にあっては塩化ナトリウムの含有量が１００分の４以上の回形物"、"（２）日本の指事業法にあっては塩化ナトリウムの含有量が１００分の４以上の固形物"、"（３）日本の指事業法にあっては塩化ナトリウムの含有量が１０ｇ０分の４以上の回形物"が修正候補となる。

　次に、上記の（０）、（１）、（２）、（３）を形態素解析する。形態素解析により、日本語として意味を成しえない文字の列は、より多くの形態素に分割される。具体的には、（０）を形態素解析すると２２個の形態素に分割でき、（１）を形態素解析すると２１個の形態素に分割でき、（２）を形態素解析すると２１個の形態素に分割でき、（３）を形態素解析すると２３個の形態素に分割できたとする。図８の確信度を算出する手法では、形態素の個数が多いＯＣＲ文字列（識字結果）および修正候補ほど、そのＯＣＲ文字列（識字結果）および修正候補の確信度を低くすることができる。

　なお、確信度は、図８のような形態素解析を用いた手法以外の手法（例えば、自然言語解析等を用いた手法）によって算出されてもよい。また、確信度は、文書内の行単位で算出されてもよいし、文単位で算出されてもよいし、段落単位で算出されてもよい。

　文書画像から文字列情報が取得される場合、確信度を文字単位で算出する手法としては、文字画像類似度を用いる手法を挙げることができる。

　確信度が文単位で算出される場合、確信度を算出する手法としては、名詞と動詞がこの順番であることが自然であるといったような、品詞の順番に着目した品詞順番解析を用いる手法を挙げることができる。

　このように、第３の実施形態では、文字を置き換えなければ抽出できたはずの文字列を抽出することができなくなってしまうことを避けるだけでなく、確信度が低いものを除外したり優先順位を下げたりすることによって、検索ノイズを低減することができる。また、第３の実施形態では、文字や単語（形態素）単位で文書を修正して、その修正の正確さの度合いを文書内の行、文、段落の単位で判定するので、文書内の行、文、段落ごとに修正の適否を判定することができる。

＜検索の精度の検証＞
　図９は、本発明の一実施形態に係る精度検証について説明するための図である。「精度検証＃１（元文書）」、「精度検証＃２（ＯＣＲデータ）」、「精度検証＃３（誤認識修正済ＯＣＲデータ（複数候補保持））」、「精度検証＃４（誤認識修正済ＯＣＲデータ（複数候補保持、確信度保持））」の４つの精度検証を行った。

　具体的な手順としては、まず、図９中の左上に示すテキストを元テキストとし、元テキストから、稚拙な手書きフォントを用いて手書き文字を含む手書き風の文書画像（図９中の中央の上に示す）を作成した。ここで、精度検証＃１の元テキスト（元文書）としては、多言語インターネット百科事典サイトＷｉｋｉｐｅｄｉａ（登録商標）における、約１．３万字からなる「塩」（日本語サイト）の項目の文字情報を用いた。

　次いで、ＯＣＲ処理ツールを用いて、文書画像から文字列の情報を抽出し、図９中の右上に示すＯＣＲテキストからなるＯＣＲデータを得た。ＯＣＲテキストが含む文字列情報は、識字結果として誤認識を含む。

　前述した誤認識テーブルの作成方法に従って、図９中の左下に示す、元テキストとＯＣＲテキストから誤認識テーブルを生成した。項目「塩」においては、約９００の正誤ペアを作成した。

　精度検証＃１は、元文書における検索の精度の検証である。

　精度検証＃２では、誤認識テーブルを用いず、誤認識を含んだままのＯＣＲデータから検索文字列の検索を行った。精度検証＃２については、図１０を参照しながら説明する。

　精度検証＃３では、文書と、文書に含まれる誤認識の文字列を正認識の文字列に修正した文字列と、の両方から検索文字列を検索した。すなわち、ＯＣＲ修正候補保持データである、ＯＣＲデータと、ＯＣＲデータに含まれる誤認識の文字列を正認識の文字列に修正した、複数の元文字列候補との両方から検索を行った。精度検証＃３については、図１１を参照しながら説明する。

　精度検証＃４では、確信度が低い識字結果や修正識字結果を、検索の対象から除外する。精度検証＃４については、図１２を参照しながら説明する。

　精度検証＃１～＃４において、「Precision」、「Recall」、「F１値」をそれぞれ算出した。

　「Precision（適合率、精度ともいう）」は、検索でヒットした正解文字列の数を、検索でヒットした文字列の総数で除して算出される値であり、検索の正確性を表す指標とみなすことができる。「Precision」が高いほど、検索ノイズが少ない。なお、Precision＝ＴＰ／（ＴＰ＋ＦＰ）より算出される（ＴＰ：True Positive，ＦＰ：False Positive）。

　「Recall（再現率、感度ともいう）」は、検索でヒットした正解文字列の数を、全ての正解文字列の数で除して算出される値であり、検索の網羅性を表す指標とみなすことができる。「Recall」が高いほど、正解文字列をより多く獲得している。なお、Recall＝ＴＰ／（ＴＰ＋ＦＮ）により算出される（ＴＰ：True Positive，ＦＮ：False Negative）。

　「F１値」は、「Precision」と「Recall」の調和平均により算出される値であり、検索の正確性と網羅性のバランスを表す指標とみなすことができる。なお、Ｆ１値＝２Recall・Precision／（Recall＋Precision）により算出される。

　図１０は、本発明の一実施形態に係る精度検証（精度検証＃２）について説明するための図である。精度検証＃２では、図１０中の左上に示す「正解データ」（つまり、元文書のデータ）と、図１０中の右上に示す「ＯＣＲデータ」（つまり、ＯＣＲ文書のデータ）と、を照合した。具体的に精度の検証の手順について説明する。各単語（例えば、「塩化ナトリウム」、「岩塩」等）が、正解データの１行目に存在かつＯＣＲデータの１行目にも存在するとＴＰとしてカウントし、正解データの１行目に存在かつＯＣＲデータの１行目に非存在であるとＦＮとしてカウントし、正解データの１行目に非存在かつＯＣＲ文書の１行目に存在するとＦＰとしてカウントした。同様に２行目、・・・、Ｎ行目と繰り返した。そして、「Precision」、「Recall」、「F１値」を算出した。このように、精度検証＃２では、ＯＣＲ処理した識字結果において、どれくらい検索精度が劣るのかが分かる。

　図１１は、本発明の一実施形態に係る精度検証（精度検証＃３）について説明するための図である。精度検証＃３では、正解データ（つまり、元文書のデータ）と、図１１中の上に示す「誤認識修正済ＯＣＲデータ（複数候補保持）」と、を照合した。具体的に、誤認識修正済ＯＣＲデータ（複数候補保持）の作成方法を説明する。ＯＣＲデータ（つまり、ＯＣＲ文書のデータ）の行ごとに、誤認識テーブルをもとに修正候補を生成する（図１１の例では、"含塩"を"岩塩"へ修正、"塩"を"「"へ修正等）。その後、ＯＣＲデータと、生成された修正候補と、を区切り文字（図１１の例では、"＠＠＠"）を挟んで１行に連結する。なお、精度の検証の手順については、精度検証＃２と同様であるので説明を省略する。

　図１２は、本発明の一実施形態に係る精度検証（精度検証＃４）について説明するための図である。精度検証＃４では、正解データ（つまり、元文書のデータ）と、図１２中の上に示す「誤認識修正済ＯＣＲデータ（複数候補保持、確信度保持）」と、を照合した。具体的に、誤認識修正済ＯＣＲデータ（複数候補保持、確信度保持）の作成方法を説明する。精度検証＃３と同様に、ＯＣＲデータ（つまり、ＯＣＲ文書のデータ）の行ごとに、誤認識テーブルをもとに修正候補を生成する（図１２の例では、"含塩"を"岩塩"へ修正、"塩"を"「"へ修正等）。そして、ＯＣＲデータと、生成された修正候補と、に確信度を付与する。その後、ＯＣＲデータと、生成された修正候補と、を区切り文字（図１２の例では、"＠＠＠"）を挟んで１行に連結する。なお、精度の検証の手順については、精度検証＃２と同様であるので説明を省略する（精度検証＃４では、確信度が低いものは、検索の対象から除外される（×））。

　図１３は、本発明の一実施形態に係る精度検証を比較するための図である。図１３は、上記の精度検証＃１（図９の「＃１　元文書」）、精度検証＃２（図１０の「＃２　ＯＣＲデータ」）、精度検証＃３（図１１の「＃３　誤認識修正済ＯＣＲデータ（複数候補保持）」）、精度検証＃４（図１２の「＃４　誤認識修正済ＯＣＲデータ（複数候補保持、確信度保持）」）の「Precision」、「Recall」、「F１値」を示す。なお、誤認識テーブルに記憶されているデータ（本例の項目「塩」においては、約９００の正誤ペア）のうち、「誤認識」が１字であるものを除いた８００ペアを使用した（×）。また、確信度は、図８のような形態素解析を用いた手法によって算出されている。

　図１３に示されるように、第１の実施形態や第２の実施形態である「＃３　誤認識修正済ＯＣＲデータ（複数候補保持）」のＦ１値は、「＃２　ＯＣＲ文書」のＦ１値よりも高くなった。また、第３の実施形態である「＃４　誤認識修正済ＯＣＲデータ（複数候補保持、確信度保持）」のＦ１値は、「＃３　誤認識修正済ＯＣＲデータ（複数候補保持）」のＦ１値よりも高くなった。

　＜処理方法＞
　図１４は、本発明の一実施形態に係る文書の検索の処理の流れを示すフローチャートである。

　ステップ１１（Ｓ１１）において、ＯＣＲ処理部１０１は、文字列情報を抽出する。具体的には、ＯＣＲ処理部１０１は、文書画像（例えば、手書きの文書の画像）を取得する。次に、ＯＣＲ処理部１０１は、ＯＣＲ（光学文字認識）の処理を行い、取得された文書画像から文字列情報を抽出する。なお、文書作成ソフトウェアを用いて作成された文書の場合、文書内の文字列情報が用いられる。

　ステップ１２（Ｓ１２）において、元文字列候補生成部１０２は、誤認識テーブル２０２をもとに、元の文字列の候補を生成する。具体的には、元文字列候補生成部１０２は、誤認識テーブル２０２の「正認識」および「誤認識」の文字列を参照して、Ｓ１１の文字列情報に含まれる「誤認識」の文字列を「正認識」の文字列に修正し、元の文字列の候補を生成する。

　ステップ１３（Ｓ１３）において、文書検索部１０３は、Ｓ１１の文字列情報およびＳ１２において生成された、元の文字列の候補を走査する。具体的には、文書検索部１０３は、Ｓ１１の文字列情報およびＳ１２の元の文字列の候補から、ユーザ端末２０から取得された検索文字列を検索する。

　ステップ１４（Ｓ１４）において、文書検索部１０３が有する検索結果表示部１０５は、検索の結果（例えば、検索文字列を含む文書の文書ＩＤ、検索文字列を含む文書に対応する手書きの文書の画像等）をユーザ端末２０に出力する。

＜効果＞
　このように、本発明では、文書と、文書内の誤認識の文字列を正認識の文字列に修正した文字列と、の両方を検索する。そのため、文字を置き換えなければ抽出できたはずの文字列を抽出することができなくなってしまうことを避けることができる。また、誤認識の文字列および正認識の文字列を形態素にすることによって、検索ノイズを低減することができる。また、確信度が低いものを除外したり優先順位を下げたりすることによって、検索ノイズを低減することができる。

＜ハードウェア構成＞
　図１５は、本発明の一実施形態に係る文書検索装置１０、ユーザ端末２０のハードウェア構成図である。文書検索装置１０、ユーザ端末２０は、ＣＰＵ（Central Processing Unit）１００１、ＲＯＭ（Read Only Memory）１００２、ＲＡＭ（Random Access Memory）１００３を有する。ＣＰＵ１００１、ＲＯＭ１００２、ＲＡＭ１００３は、いわゆるコンピュータを形成する。

　また、文書検索装置１０、ユーザ端末２０は、補助記憶装置１００４、表示装置１００５、操作装置１００６、Ｉ／Ｆ（Interface）装置１００７、ドライブ装置１００８を有することができる。

　なお、文書検索装置１０、ユーザ端末２０の各ハードウェアは、バスＢを介して相互に接続されている。

　ＣＰＵ１００１は、補助記憶装置１００４にインストールされている各種プログラムを実行する演算デバイスである。

　ＲＯＭ１００２は、不揮発性メモリである。ＲＯＭ１００２は、補助記憶装置１００４にインストールされている各種プログラムをＣＰＵ１００１が実行するために必要な各種プログラム、データ等を格納する主記憶デバイスとして機能する。具体的には、ＲＯＭ１００２は、ＢＩＯＳ（Basic Input/Output System）やＥＦＩ（Extensible Firmware Interface）等のブートプログラム等を格納する、主記憶デバイスとして機能する。

　ＲＡＭ１００３は、ＤＲＡＭ（Dynamic Random Access Memory）やＳＲＡＭ（Static Random Access Memory）等の揮発性メモリである。ＲＡＭ１００３は、補助記憶装置１００４にインストールされている各種プログラムがＣＰＵ１００１によって実行される際に展開される作業領域を提供する、主記憶デバイスとして機能する。

　補助記憶装置１００４は、各種プログラムや、各種プログラムが実行される際に用いられる情報を格納する補助記憶デバイスである。

　表示装置１００５は、文書検索装置１０、ユーザ端末２０の内部状態等を表示する表示デバイスである。

　操作装置１００６は、文書検索装置１０、ユーザ端末２０を操作する者が文書検索装置１０、ユーザ端末２０に対して各種指示を入力する入力デバイスである。

　Ｉ／Ｆ装置１００７は、ネットワークに接続し、他の装置と通信を行うための通信デバイスである。

　ドライブ装置１００８は記録媒体１００９をセットするためのデバイスである。ここでいう記録媒体１００９には、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体１００９には、ＥＰＲＯＭ (Erasable Programmable Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

　なお、補助記憶装置１００４にインストールされる各種プログラムは、例えば、配布された記録媒体１００９がドライブ装置１００８にセットされ、該記録媒体１００９に記録された各種プログラムがドライブ装置１００８により読み出されることでインストールされる。あるいは、補助記憶装置１００４にインストールされる各種プログラムは、Ｉ／Ｆ装置１００７を介して、ネットワークよりダウンロードされることでインストールされてもよい。

　以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１　文書検索システム
１０　文書検索装置
２０　ユーザ端末
１０１　ＯＣＲ処理部
１０２　元文字列候補生成部
１０３　文書検索部
１０４　記憶部
１０５　検索結果表示部
２０１　文書情報テーブル
２０２　誤認識テーブル
１００１　ＣＰＵ
１００２　ＲＯＭ
１００３　ＲＡＭ
１００４　補助記憶装置
１００５　表示装置
１００６　操作装置
１００７　Ｉ／Ｆ装置
１００８　ドライブ装置
１００９　記録媒体

Claims

　正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルと、
　検索文字列を取得し、
　文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部と
　を有する、文書検索装置。
　前記正認識の文字列および前記誤認識の文字列は、それぞれ１つの文字からなる文字列である、請求項１に記載の文書検索装置。
　前記正認識の文字列および前記誤認識の文字列は、それぞれ複数の文字からなる形態素である、請求項１に記載の文書検索装置。
　複数の、正認識の文字列および誤認識の文字列の対を含む誤変換テーブルは、前記正認識の文字列および前記誤認識の文字列が、それぞれ１つの文字からなる文字列である場合と、それぞれ複数の文字からなる形態素である場合と、の両方を含む、請求項１に記載の文書検索装置。
　前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列の確信度、および、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正する前の文字列の確信度が記憶された文書情報テーブルをさらに有し、
　前記文書検索部は、前記確信度が低い文字列を検索の対象から除外する、請求項１から４のいずれか一項に記載の文書検索装置。
　前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列の確信度、および、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正する前の文字列の確信度が記憶された文書情報テーブルをさらに有し、
　前記文書検索部は、前記確信度が低い文字列の優先順位を下げる、請求項１から４のいずれか一項に記載の文書検索装置。
　前記文書検索部が、検索結果表示部を有し、
　前記検索結果表示部は、前記検索結果を表示する、請求項１から６のいずれか一項に記載の文書検索装置。
　文書検索装置とユーザ端末とを含む文書検索システムであって、
　前記文書検索装置は、
　正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルと、
　検索文字列を取得し、
　文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部と、を有する、文書検索システム。
　正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルを有するコンピュータを、
　検索文字列を取得し、
　文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索する、文書検索部、として機能させるための文書検索プログラム。
　正認識の文字列と誤認識の文字列とが記憶された誤認識テーブルを有する文書検索装置が実行する方法であって、
　検索文字列を取得するステップと、
　文書と、前記文書に含まれる前記誤認識の文字列を前記正認識の文字列に修正した文字列と、の両方から前記検索文字列を検索するステップと
　を含む文書検索方法。