JPWO2014068770A1 - データ抽出方法、データ抽出装置及びそのプログラム - Google Patents

データ抽出方法、データ抽出装置及びそのプログラム Download PDF

Info

Publication number
JPWO2014068770A1
JPWO2014068770A1 JP2014544181A JP2014544181A JPWO2014068770A1 JP WO2014068770 A1 JPWO2014068770 A1 JP WO2014068770A1 JP 2014544181 A JP2014544181 A JP 2014544181A JP 2014544181 A JP2014544181 A JP 2014544181A JP WO2014068770 A1 JPWO2014068770 A1 JP WO2014068770A1
Authority
JP
Japan
Prior art keywords
item
data
item name
correspondence
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2014544181A
Other languages
English (en)
Inventor
峰信 関
峰信 関
正和 藤尾
正和 藤尾
淳一 平山
淳一 平山
永崎 健
健 永崎
響子 石田
響子 石田
芳賀 憲行
憲行 芳賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2014068770A1 publication Critical patent/JPWO2014068770A1/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

非定型文書からデータを抽出する方法であって、前記プロセッサが、入力された階層構造付項目辞書内の項目名を列記した項目名情報を生成する項目名情報生成ステップと、前記プロセッサが、前記生成された項目名情報を用いて、入力された文書から項目名とデータとの対応関係を解析することによって、項目名とデータとの対応関係を示す対応候補を生成する対応候補生成ステップと、前記プロセッサが、前記生成された1又は複数の対応候補のそれぞれが、前記階層構造付項目辞書に含まれる1又は複数の階層構造付項目のそれぞれに対応する確からしさを示す信頼度を計算し、前記対応候補のうち前記階層構造付項目に対応するデータを、前記計算された信頼度の順に抽出する抽出ステップと、を含む。

Description

本発明は、非定型文書からデータを抽出する方法に関する。
文書認識技術を大別すると、帳票OCRと文書OCRとに分けられる。帳票OCRは、金融機関向けの帳票の読み取りに多く用いられ、文字をテキスト化するだけでなく、指定されたデータ(例えば、金額、住所等)を抽出する機能を含む。帳票OCRの技術は、書式が限定された大量の帳票の読み取りから、多品種の少量の帳票の読み取りへと適用対象が拡大している。また、読み取り対象の帳票が、OCR専用帳票だけでなく、一般ユーザが作成した非定型帳票へと拡大している。さらに、読み取りのための事前定義を簡易化している。すなわち、文字の読み取り位置を絶対座標で定義する方法ではなく、項目名で指定する方法が開発されている。
また、文書OCRは、企業内で様々なビジネス文書の読み取りに用いられている。文書OCRは、様々な形式の文書を対象とするため、単純なテキスト化作業等、誤読の影響が少ない用途で用いられる。また近年、Word、Excelなどのオフィスソフトウェアによって作成された文書を直接PDF化した電子文書の構造解析技術が開発されている。
しかし、従来の文書認識技術を用いて設計仕様書等の非定型文書からデータを抽出する場合には問題が生じる。設計仕様書は、様々な会社で独自に作成した文書であり、様々な多くの仕様が記載されるため、金融機関向けの非定型帳票より複雑で多様な表形式となっていることが多い。そのため、容易な定義指定で複雑な表形式からデータを抽出する方法が必要となるが、従来の方法ではデータ抽出精度が低くなる。
例えば、非特許文献1に記載されている、抽出するデータの位置を事前に定義する方法は、多種多様な仕様書には適用できない。また、特許文献1に記載された文書処理装置は、仕様書のような複雑な表形式の中からデータを抽出することが難しい。
また、仕様書に記載されるデータの項目名は階層構造を持ち、階層構造を持つ項目名及びデータが管理される。そのため、階層構造付項目名辞書に対するデータの抽出が必要となる。階層構造付項目名辞書を用いる方法には、特許文献2に記載された帳票処理方法がある。特許文献2に記載された方法では、より複雑な表形式の中からデータを抽出するために、階層構造付項目名辞書を予め定義しておくことによって、項目名の上位下位の関係の繋がり及び項目名の配置関係を利用して、解析を行うことができる。特許文献2に記載された方法は、例えば、図17に示すように名前の下位の項目に性及び名があり、生年月日の下位の項目に年、月及び日がある場合に適する。
特開2006−99480号公報 特開2008−33830号公報
Hiroshi Sako et al., "Form Reading based on Form-type Identification and Form-data Recognition", ICDAR 2003, August, 2003
前述した先行技術では、仕様書に記載される仕様データの項目名の上位下位の関係は一意には決まらず、仕様書を作成した会社によって、項目名の上位下位の関係が異なる場合に解析精度が低下する問題がある。
例えば、図18及び図19は、同じ種類のデータを持つ表であるが、項目名の階層構造の上位下位の関係が異なる例である。すなわち、図18に示す表では、機器X→種類A→温度→Oilと項目名を辿るとデータD1がある。しかし、図19に示す表では、機器X→温度→種類A→Oilと項目名を辿るとデータD1がある。また、図20及び図21に示すように、2次元形式の表で表わされるデータの場合、どの項目が上位であるのかを決めることは難しい。つまり、項目名の上位下位の関係が異なる場合、データを抽出する精度が低下する問題がある。
さらに、この方法では、上位下位の関係にある項目名の相対的位置関係の候補を予め定義する必要があるため、様々な書式の仕様書を扱う場合にユーザの手間が多くなる問題がある。
本発明は、項目名の上位下位の関係が異なる場合、階層構造付項目名辞書を用いてデータを抽出する精度が低下する問題を解決する。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、非定型文書からデータを抽出する方法であって、前記方法は、プログラムを実行するプロセッサ、前記プロセッサで実行されるプログラムを格納するメモリ、及び前記プログラムの実行に必要なデータが入力されるインターフェースを有する計算機で実行され、前記方法は、前記プロセッサが、入力された階層構造付項目辞書内の項目名を列記した項目名情報を生成する項目名情報生成ステップと、前記プロセッサが、前記生成された項目名情報を用いて、入力された文書から項目名とデータとの対応関係を解析することによって、項目名とデータとの対応関係を示す対応候補を生成する対応候補生成ステップと、前記プロセッサが、前記生成された1又は複数の対応候補のそれぞれが、前記階層構造付項目辞書に含まれる1又は複数の階層構造付項目のそれぞれに対応する確からしさを示す信頼度を計算し、前記対応候補のうち前記階層構造付項目に対応するデータを、前記計算された信頼度の順に抽出する抽出ステップと、を含むことを特徴とする。
本発明の一側面によれば、階層構造付き項目辞書内の項目の上位下位の関係が異なる場合でも、項目とデータとを高精度に対応付けることができる。
前述した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
本発明の第1の実施例のデータ抽出装置の構成例を示すブロック図である。 本発明の第1の実施例におけるデータ抽出処理の全体を示すフローチャートである。 本発明の第1の実施例の階層構造付辞書の例を説明する図である。 本発明の第1の実施例の項目データ対応付候補生成処理の一例のフローチャートである。 本発明の第1の実施例のレイアウト解析処理によって得られた枠の情報の例を示す図である。 本発明の第1の実施例の項目名枠判定処理によって得られた項目名の情報の例を示す図である。 本発明の第1の実施例の項目データ対応付候補生成処理の一例のフローチャートである。 本発明の第1の実施例の項目名枠の階層関係の抽出を説明する図である。 本発明の第1の実施例の項目とデータとの対応関係の抽出を説明する図である。 本発明の第1の実施例の項目とデータとの対応関係の抽出を説明する図である。 本発明の第1の実施例の項目と繋がるデータの連続性の解析を説明する図である。 本発明の第1の実施例の項目データ対応候補の例を説明する図である。 本発明の第1の実施例の項目データ対応候補の例を説明する図である。 本発明の第1の実施例の項目データ対応付候補ランキング抽出処理のフローチャートである。 本発明の第1の実施例のデータ選択画面の例を説明する図である。 本発明の第1の実施例のデータ選択箇所表示画面の例を説明する図である。 本発明の第2及び第3の実施例の項目データ対応付候補生成処理の一例のフローチャートである。 階層構造の上位下位の関係が一意に決まる例の説明図である。 多階層項目関係を持つ表の例の説明図である。 多階層項目関係を持つ表の例の説明図である。 多階層項目関係を持つ表の例の説明図である。 多階層項目関係を持つ表の例の説明図である。
以下に説明する本発明の実施例は、仕様書、図面などの非定型文書からデータを抽出する方法及び装置に関する。特に、本発明の実施例では、項目名の上下関係が異なる場合でも、階層構造を持つ項目に対するデータを高精度に抽出可能である。
以下、添付図面を参照して本発明の実施例について説明する。ただし、本実施例は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではない。また、各実施例において、同一の構成には同一の符号を付した。
<データ抽出処理装置>
図1は、本発明の第1の実施例のデータ抽出装置208の構成例を示すブロック図である。
本実施例のデータ抽出装置208は、通信装置201、画像取得装置202、表示装置203、補助記憶装置204、メモリ205、プロセッサ(CPU)206及び入力装置207を有し、これらのデバイスはPCIバスなどの通信線で接続されている。
通信装置201は、データ抽出装置208をネットワークに接続するためのネットワークインターフェースである。画像取得装置202は、データが抽出される文書のイメージを取得するための装置であり、例えば、スキャナ、複合機、OCR、デジタルカメラなどを用いることができる。なお、画像取得装置202は、外部接続されたスキャナが取得した文書の画像データが入力されるインターフェースでもよい。
表示装置203は、プログラムの実行結果を表示するディスプレイであり、例えば、液晶表示装置を用いることができる。補助記憶装置204は、磁気ディスクドライブ、フラッシュメモリ(SSD)などの不揮発性記憶装置であり、プロセッサ206が実行するプログラム及びプログラム実行時に使用されるデータを格納する。メモリ205は、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶装置であり、オペレーティングシステム(OS)及びアプリケーションプログラムを格納する。
プロセッサ206は、メモリ205に格納されたプログラムを実行する中央演算装置である。プロセッサ206が、オペレーティングシステムを実行することによって、データ抽出装置208の基本機能が実現され、アプリケーションプログラムを実行することによって、データ抽出装置208が提供する機能が実現される。入力装置207は、キーボード、マウスなどのユーザインターフェースである。
プロセッサ206によって実行されるプログラムは、不揮発性の記憶媒体又はネットワークを介して計算機に提供され、非一時的記憶媒体である補助記憶装置204に格納される。すなわち、プロセッサ206が実行するプログラムは、補助記憶装置204から読み出されて、メモリ205にロードされて、プロセッサ206によって実行される。
CPU206に入力される文書は、画像取得装置202又は通信装置201から入力されたものでも、補助記憶装置204に記憶されたものでもよい。図1の装置の代表的な例として、ディスプレイ及び複合機が接続されたパーソナルコンピュータがある。
データ抽出装置208は、データ抽出処理の結果を表示装置203に出力する。また、データ抽出装置208は、データ抽出処理の結果を通信装置201を経由して外部に出力してもよく、データ抽出処理装置208で実行される他のプログラムが使用してもよい。
<データ抽出処理>
図2は、第1の実施例におけるデータ抽出処理の全体を示すフローチャートである。
なお、特記しない場合、各ステップは、プロセッサ206によって構成される制御部が実行する。
項目名リスト化処理102は、階層構造付項目名辞書101が入力されると、項目名リスト103を出力する。階層構造付項目名辞書101は、図3に例示するように、項目間の階層構造を保持した形式で項目を表現した辞書である。図3に例示する階層構造付項目名辞書101では、表の左から右への関係が階層構造の上位から下位への構造を示している。例えば、機器Xの下位に種類A及び種類Bがあり、種類Aの下位に圧力及び温度があり、種類Bの下位に圧力及び温度があり、圧力の下位にOil及びWaterがあり、温度の下位にOil及びWaterがある。ここで、階層構造付項目名辞書101に含まれるデータで表される一つの階層構造を、階層構造付項目と称する。例えば、図3の802に示す最上段の機器X、種類A、圧力、Oilが一つの階層構造付項目である。
項目名リスト103は、階層構造付項目名辞書101に含まれる項目名をリスト化したものである。例えば、図3に示す階層構造付項目名辞書101が入力された場合、項目名リスト103は、「機器X」、「種類A」、「種類B」、「圧力」、「温度」、「Oil」、「Water」となる。
項目データ対応付候補生成処理105は、入力文書104及び項目名リスト103が入力されると、項目データ対応付候補106を出力する。この処理では、仕様書を含む様々な形式の文書が入力され、文書の中に記載されている項目と項目に対応するデータとが関連付けられる。入力される文書は、複合機、スキャナ、カメラ等で取得されたスキャン文書でも、様々なオフィス文書作成ソフトウェアで生成された電子文書でも、html文書でもよい。この処理の詳細は後述する。
項目データ対応付候補ランキング抽出処理107は、項目データ対応付候補106及び階層構造付項目名辞書101が入力されると、対応付ランキング結果108を出力する。この処理では、項目データ対応付候補106内の複数の項目データの対応付候補の中から階層構造付項目辞書内にある各階層構造付項目に該当する項目データ対応付候補を複数抽出し、各階層構造付項目に該当する度合いを示す項目データ対応付信頼度を算出し、項目データ対応付信頼度に基づいて対応付け候補をランキングする。この処理の詳細は後述する。
データ抽出処理の結果は、GUI(Graphical User Interface)を介してユーザに提供される。ユーザは、階層構造付項目辞書101内の各階層構造付項目に対応して抽出された複数の項目データ対応付候補の中から、正しい候補を選択し、データベースに格納することができる。例えば、図14に示すデータ選択画面及び図15に示すデータ選択箇所表示画面を用いることによって、効率よくデータを選択、すなわち、データ抽出作業を行うことができる。このようなGUIの例の詳細は後述する。
以上に説明したように、本実施例のデータ抽出装置208は、項目名リスト化処理102、項目データ対応付候補生成処理105及び項目データ対応付候補ランキング抽出処理107を実行する。すなわち、項目名をリスト化した項目名リスト103を生成した後、項目名リスト103を利用して、項目とデータとを関連付けした候補である項目データ対応付候補106を生成し、項目データ対応付候補106の中から階層構造付項目名辞書102内の各階層構造付項目に対応する項目データ対応付け候補106を抽出し、項目データ対応付信頼度に基づいてデータをランキングする。
このように階層構造付項目辞書101内の項目名の上位下位の関係を直接的に用いない一連のステップによって、階層構造付き項目名辞書102内の項目名の上位下位の関係が入れ替わった場合にも、階層構造付項目辞書102内の各項目に対応するデータを高精度に抽出することができる。
以降では、項目データ対応付候補生成処理105、項目データ対応付候補ランキング抽出処理107及びGUIの例について説明する。
<項目データ対応付候補生成処理>
図4は、第1の実施例の項目データ対応付生成候補処理105の一例のフローチャートである。項目データ対応付生成候補処理105では、項目とデータとの対応関係を示すデータを生成するものであれば、例示する以外の方法を用いてもよい。
項目データ対応付生成候補処理105では、まず、2値化処理903を行う。2値化処理903では、入力文書104がカラー画像又は多値画像である場合に行われる。2値化の方法には様々な方法があるが、一般的に用いられる多くの方法(Niblack法、カラー情報をクラスタリングする方法など)を用いることができる。
次に、レイアウト解析処理904を行う。レイアウト解析処理904は、2値画像が入力されると、罫線、罫線が構成する枠の情報及び文字行を抽出する。レイアウト解析処理904は、黒画素の繋がり及びその直線性に基づいて罫線を抽出し、抽出された罫線から枠を構成する。
図5は、レイアウト解析処理904によって得られた枠の情報の例を示す。レイアウト解析処理904は、2値画像1101から罫線及び罫線が構成する枠1102を抽出する。
次に、文字認識処理905を行う。文字認識処理905では、文書中の文字を認識する。文字認識処理905には様々な方法があるが、LVQ、マハラノビス距離を用いた方法などを用いることができる。
次に、枠連結関係解析処理906を行う。枠連結関係解析処理906では、表を構成する複数の枠の連結関係を解析する。項目データ対応付候補抽出処理908で用いられる。
次に、項目名枠判定処理907を行う。図6は、項目名枠判定処理907によって得られた項目名の情報の例を示す。項目名枠判定処理907では、枠1102に含まれる各領域に項目名の文字列を含むかを判定する。具体的には、枠内の文字列と項目名リスト103に含まれる項目名とを近似文字列照合し、項目名リストの中の項目名と照合された文字列が含まれる枠を項目名枠であると判定する。図6は、項目名枠判定処理907が出力する、項目名及び項目名の領域が抽出された項目名の判定結果1202を示す。階層構造付項目辞書内の項目名と同じ意味を表わす文字列が完全に一致するとは限らない。それは文字認識に誤りがある、項目名の表記に揺れがある等のためである。そのため、近似文字列照合を行う。近似文字列照合の方法には、編集距離(レーベンシュタイン距離)を用いることができるが、文字列の類似度合いを示す方法であれば他の方法を用いてもよい。編集距離を用いる場合、枠内の文字列と項目名リスト103内の項目名との編集距離を算出し、編集距離を用いて評価値(文字列の類似度を示す値)を算出し、算出された評価値(類似度)が所定の閾値以下であれば照合に成功したと判定する。
例えば、類似度の算出方法の一例としては、枠内の文字数=M、編集距離=Nとした場合、類似度=1−N/Mで類似度を算出する。また、枠内の文字数に応じて、類似度の計算方法を変えてもよい。例えば、枠内の文字数が閾値Aよりも小さい場合、類似度が閾値B以下であれば照合に成功したと判定する。また、枠内の文字数が閾値A以上である場合、1−N/Mを類似度とし、類似度が閾値C以下であれば照合に成功したと判定する。
枠内の文字列に対して複数の項目名が照合に成功した場合、類似度が大きい順に格納するとよい。そして、少なくとも一つの項目名との照合に成功した文字列を含む枠は項目名枠であると判定する。
なお、枠連結関係解析処理906と項目名枠判定処理907との順序は図示した順序でも、逆の(項目名枠判定処理907が先、枠連結関係解析処理906が後)順序でもよい。
また、項目名枠判定処理では、複数の文字切り出しパタンと文字切り出しパタンに対する複数の文字識別結果からなる文字切り出しネットワークを生成し、文字切り出しネットワークの中から項目名の文字列を探し出す方法を用いてもよい。この場合、類似度の例として選択された文字切り出しパタンの文字識別結果の尤もらしさを表わす文字識別確信度の平均値を用いることができる。この場合には文字認識905は、項目名枠判定907の後に実施してもよい。
次に、項目データ対応付候補生成処理908を行う。項目データ対応付候補生成処理908では、項目名枠の判定結果及び枠連結関係解析結果を用いて、項目とデータとの対応関係を解析し、項目とデータとの対応付候補106を生成する。
図7は、項目データ対応付候補生成処理908の一例のフローチャートである。
項目データ対応付候補生成処理908は、項目名枠の階層関係抽出処理1301、項目とデータの対応関係抽出処理1302及び項目と繋がるデータの連続性解析処理1303の三つのステップを含む。
項目名枠の階層関係抽出処理1301は、項目名と項目名の階層関係がある枠とを関連付ける。
この処理は、全ての項目名枠(X)に以下の処理を行うことによって項目名枠を関連付ける。Xを上位の項目名枠と仮定し、Xの右に隣接する複数の項目名枠(Y1〜YN)があり、Xの項目名枠の上端及び下端の位置がY1〜YNを合わせた領域の上端及び下端の位置と一致する場合、Xの下位にY1〜YNが位置する、項目名枠の上位下位の関係があると判定する。例えば、図8に示す場合、項目名A1の上端及び下端と項目名A2、A3及びA4を合わせた領域の上端及び下端が一致するため、項目名A1と項目名A2、A3及びA4とを関連付ける。
同様に、Xを上位の項目名枠と仮定し、Xの下に隣接する複数の項目名枠(Y1〜YN)があり、Xの項目名枠の左端及び右端の位置がY1〜YNを合わせた領域の左端及び右端の位置と一致する場合に、Xの下位にY1〜YNが位置する、項目名枠の上位下位の関係があると判定する。
項目名とデータの対応関係抽出処理1302は、項目名枠内の項目名に対応する、データが存在する枠を関連付ける。
この処理は、全ての項目枠(X)に以下の処理を行うことによって、項目枠とデータとを関連付ける。Xの右に隣接する枠(Zl)が項目名枠でなく、Xの上端及び下端がZlの上端及び下端と一致する場合、項目名とデータとが対応すると判定する。例えば、図9Aに示す場合、項目名B1を含む枠の上端及び下端が右に隣接するデータB1を含む枠の上端及び下端と一致するため、項目名B1を含む枠とデータB1を含む枠との間に、項目名とデータとの対応関係があると判定する。同様に、項目名B2を含む枠とデータB2を含む枠にも項目名とデータの対応関係があると判定する。
また、Xの下に隣接する枠(Zb)が項目名枠でなく、Xの左端及び右端がZbの左端及び右端と一致する場合、項目名とデータとが対応すると判定する。図9Bに示す場合、項目名B3を含む枠の左端及び右端がデータB3を含む枠の左端及び右端と一致するため、項目名B3を含む枠とデータB3を含む枠との間に、項目名とデータとの対応関係があると判定する。
項目と繋がるデータの連続性解析処理1303は、項目名を含む枠と繋がり、かつ、連続して並んでいるデータを含む枠を関連付ける。
この処理では、項目名とデータの対応関係抽出処理1302によって関連付けられた項目名を含む枠及びデータを含む枠の組に、以下の処理を行うことによって関連付けを行う。具体的には、項目名とデータの対応関係抽出処理1302によって関連付けられた項目名を含む枠をA、データを含む枠をD0とする。項目名枠Aとデータ枠D0が上から下への関連付け、すなわち項目名枠Aが上でデータ枠D0が下にある場合、データ枠D0の下の枠D1が項目名を含む枠であるかを判定する。枠D1が項目名を含まない枠であり、かつ、データ枠D0の左端及び右端と枠D1の左端及び右端とが一致する場合、データ枠D0から枠D1へデータが連続して繋がると判定し、データ枠D0とデータ枠D1とを関連付ける。
さらに、データ枠D0及びD1が関連付けられた後、データ枠D1の下にある枠D2が項目名を含む枠であるかを判定する。枠D2が項目名を含まない枠であり、かつ、データ枠D1の左端及び右端と枠D2の左端及び右端とが一致する場合、データ枠D1から枠D2へデータが連続して繋がると判定し、データ枠D1とデータ枠D2とを関連付ける。このように関連付けが続く限り、隣接する枠との関係を判定する。すなわち、関連付けがない又は連続する隣接方向に枠が存在しなくなるまで、判定を続ける。
例えば、図10に示すように、項目名C1を含む枠とデータC1を含む枠とが、項目名とデータの対応関係抽出処理1302によって関連付けられる場合、項目と繋がるデータの連続性解析処理1303によって、データC1を含む枠とデータC2を含む枠とを関連付ける。さらに、データC2を含む枠とデータC3を含む枠とを関連付ける。
また、項目名枠Aとデータ枠D0が左から右への関連付け、すなわち項目名枠Aが左でデータ枠D0が右にある場合、データ枠D0の右の枠D1が項目名を含む枠であるかを判定する。枠D1が項目名を含まない枠であり、かつ、データ枠D0の上端及び下端と枠D1の上端及び下端とが一致する場合、データ枠D0から枠D1へデータが連続して繋がると判定し、データ枠D0とデータ枠D1とを関連付ける。
さらに、データ枠D0及びD1が関連付けられた後、データ枠D1の右にある枠D2が項目名を含む枠であるかを判定する。枠D2が項目名を含まない枠であり、かつ、データ枠D1の上端及び下端と枠D2の上端及び下端とが一致する場合、データ枠D1から枠D2へデータが連続して繋がると判定し、データ枠D1とデータ枠D2とを関連付ける。このように関連付けが続く限り、隣接する枠との関係を判定する。すなわち、関連付けがない又は連続する隣接方向に枠が存在しなくなるまで、判定を続ける。
図11及び図12は、項目データ対応付候補106の例を説明する図である。
図11に示す項目データ対応付候補1701は、図3に示す階層構造付き項目名辞書801を用いて、項目データ対応付候補生成処理908を実行して得られる。
項目データ対応付候補1701では、温度の下位に種類A及び種類Bが関連付けられ、圧力の下位に種類A及び種類Bが関連付けられ、種類Aの下位にOil及びWaterが関連付けられ、種類Bの下位にOil及びWaterが関連付けられる。そして、D1が温度、種類A及びOilに関連付けられている。また、D2が温度、種類A及びWaterに関連付けられる。同様にして、D3〜D8にも項目名が関連付けられる。
なお、これまで説明した項目データ対応付候補抽出処理908は、項目名である機器Xと関連付けることができないが、項目データ対応付けの候補が得られればよい。
図12に示す項目データ対応付候補1701は、2次元で関連付けられる表であり、図3に示す階層構造付き項目名辞書801を用いて、項目データ対応候補抽出処理908を実行して得られる。
この例では、温度の下位に種類A、種類B及び種類Cが関連付けられ、圧力の下位に種類A、種類B及び種類Cが関連付けられ、機器Xの下位にOil及びWaterが関連付けられる。そして、D11が温度、種類A、機器X及びOilに関連付けられる。また、D12が温度、種類Bと機器XとOilに関連付けられる。D12とOilとは離れているが、項目と繋がるデータの連続性解析処理1303によって上か下へ関連付けられるため、OilとD12は関連付けられる。同様に、D13〜D16にも項目名が関連付けられる。
また、D21が温度、種類A、機器X及びwaterに関連付けられる。D21と種類Aとは離れているが、項目と繋がるデータの連続性解析処理1303によって、左から右へ関連付けられるため、種類AとD21は関連付けられる。同様に、D22〜D26にも項目名が関連付けられる。
図11、図12の例を用いて説明したように、項目データ対応付候補抽出処理908によって、項目名を含まない枠内の文字列Dに項目名が関連付けられる。この文字列Dと、文字列Dに関連付けられる0個、1個又は複数の項目名とのセットが、項目データ対応付候補である。階層構造付項目名辞書内にある一部の項目名が、文字列Dに関連付けられなくてもよい。
<項目データ対応付候補ランキング抽出処理>
図13は、項目データ対応付候補ランキング抽出処理107のフローチャートである。
項目データ対応付候補ランキング抽出処理107は、階層構造付項目名辞書101内の各階層構造付項目に対応する項目データ対応付候補を項目データ対応付候補106の中から抽出し、抽出された各項目データ対応付候補の項目データ対応付信頼度を算出し、抽出された項目データ対応付候補を項目データ対応付信頼度に基づいてランキングをする。図13に示すフローチャートは、階層構造付項目名辞書内の階層構造付項目毎に、すなわち、階層構造付項目の数だけ実行される。例えば、図3に示す階層構造付項目名辞書を用いた場合、項目データ対応付候補ランキング抽出処理107を8回実行する。
項目データ対応付候補ランキング抽出処理107では、まず、項目別対応付候補抽出処理1901を実行する。項目別対応付候補抽出1901は、項目データ対応付候補生成処理105で生成された全ての項目データ対応付候補106、及び階層構造付項目名辞書内の一つの階層構造付項目が入力されると、階層構造付項目に対応する可能性がある項目データ対応付候補を項目データ対応付候補106から抽出する。
階層構造付項目に対応する項目データ対応付候補を抽出する方法は、様々な方法がある。その一例として、項目名の一致数を用いて候補を抽出することができる。具体的には、階層構造付項目内の項目名と一致する項目データ対応付候補内の項目名の数を算出し、一つ(又は、所定の閾値)以上の項目名が一致する項目データ対応付候補を抽出する。抽出された項目データ対応付候補が、項目別項目データ対応付候補である。項目データ対応付候補生成処理では、必ずしも階層構造付項目内の項目名と項目データ対応付候補内の項目名の全てが一致する項目データ対応付候補を生成できるとは限らない。文書構造が複雑で対応付けできない、枠が抽出できない、項目名の一部が記載されていない、項目名の表記に揺れがある等、様々な要因があるためである。本方法では、部分的にでも項目名が一致する項目データ対応付候補を抽出することによって、完全に一致する項目データ対応付候補でない場合でも、ユーザに候補を提供できる。
次に、項目データ対応付信頼度算出処理1902を実行する。項目データ対応付信頼度算出処理1902は、各項目別項目データ対応付候補の項目データ対応付信頼度を算出する。項目データ対応付信頼度は、項目別項目データ対応付候補が、階層構造付項目の項目名に対応する可能性を示す。
例えば、項目データ対応付信頼度は、近似文字列照合により一致した項目名の数(項目名の一致数)及び階層構造付項目内の項目名と前記対応付候補の項目名との類似度を用いて算出することができる。階層構造付項目内の項目名と近似文字列照合によって一致した数をtとし、項目別項目データ対応付候補内の近似文字列照合により一致した項目名のうちi番目の文字列をWiとし、Wiの文字数をMiとし、Wiが項目名と照合されたときの編集距離(レーベンシュタイン距離)をNiとした場合、項目データ対応付信頼度Fは、式(1)で表すことができる。αはユーザが調整できるパラメータである。
Figure 2014068770
式(1)で表わされる項目データ対応付信頼度は、近似文字列照合により一致した項目数が多いほど高い値となり、それらの照合の際に用いられた編集距離が大きいほど低い値となる。このため、項目データ対応付信頼度は、項目別項目データ対応付候補が階層構造付項目に対応する確度を示すことになる。なお、項目データ対応付信頼度は、一致する項目数が多いほど高い値となり、項目名と文字列の類似度が大きいほど高い値(編集距離が大きいほど低い値)となる関数であれば、他の関数や変換テーブルを用いてもよい。
前述の説明では、近似文字列照合により一致した文字列数tとMi及び編集距離Niを引数とする関数を用いて信頼度を計算したが、必ずしも両方を用いなくてもよい。
また、編集距離Niを用いて項目名と文字列の類似度を算出したが、項目名と文字列の類似度を示すものであれば、編集距離以外の値を用いて信頼度を計算してもよい。
このように、近似文字列照合によって一致した項目名との数及び項目名との類似度の少なくとも一方を用いて信頼度を計算することによって、簡易な計算で精度よく信頼度を計算することができる。
次に、対応付候補ランキング処理1903を実行する。対応付候補ランキング処理1903では、項目データ対応付信頼度算出処理1902で得られた項目データ対応付信頼度の値を用いて、項目別項目データ対応付候補を信頼度の高い順に並べる。
以下にGUIの例を説明する。
図14はデータ選択画面の例、図15はデータ選択箇所表示画面の例を説明する図である。
なお、図示した例では、データ選択画面とデータ選択箇所表示画面とを別に構成したが、データ選択画面とデータ選択箇所表示画面とを一体に構成した画面でもよい。
データ選択画面2001(図14)は、複数の項目名欄2004、データ候補欄2005、手入力欄2006及び出力ボタン2003を含む。
ユーザは、抽出したいデータに関する階層構造付項目名辞書101及び文書104を指定してデータ抽出処理を実行する。データ選択画面2001は、データ抽出処理の結果として、階層構造付項目に対応する項目別項目データ対応付候補をランキングして出力する。
図14に示すデータ選択画面2001の例では、機器Xの下位に種類GQB及び種類GOBがあり、種類GQBの下位に圧力及び温度があり、種類GOBの下位に圧力及び温度があり、圧力の下位にOil及びWaterがあり、温度の下位にOil及びWaterがある階層構造付項目が入力されている。
階層構造付項目は、その階層に従って左から右へ並んで表示される。階層構造付項目の右隣には、項目データ対応付候補106の中にあるデータ文字列がプルダウン形式で表示されている。項目データ対応付候補106の中にあるデータ文字列は、項目データ対応付候補106の中にある項目名と対応付けられた文字列である。
図14に示すデータ選択画面2001の例では、8番目の階層構造付項目に対応する項目データ対応付候補が複数あり、それらがプルダウン形式でランキングされ並べられている(2002)。8番目の階層構造付項目では、信頼度が最も高い項目データ対応付候補のデータ文字列がD206、信頼度が次に高い項目データ対応付候補のデータ文字列がD202、信頼度が3番目に高い項目データ対応付候補のデータ文字列がD203である。ユーザが、このプルダウンメニューの中からデータ文字列を選択すると、該当する項目データ対応付候補の位置をデータ選択箇所表示画面2101(図15)に表示することができる。
データ選択箇所表示画面2101は、選択された項目名を示す矩形及び項目名の関連を示す線を入力された文書に重畳して描画することによって、選択箇所を識別可能に表示する。
図15は、データ選択画面2001のプルダウンメニュー2002内のD206をマウス等で選択した場合のデータ選択箇所表示画面2101の例を示す。図15に示すデータ選択箇所表示画面2101では、文書内の表2が表示され、さらに4つの項目文字列が破線で囲われており、破線で囲われた領域が矢印で結ばれている。この破線と矢印は文書上に重畳して描かれている。破線で囲われている種類GOB、温度、Water及びD206が、データ選択画面2001で選択したD206に対応する項目別項目データ対応付候補であることを示す。
ユーザは、データ選択画面2001からデータ文字列を選択した後、データ選択箇所表示画面2101を閲覧することによって、階層構造付項目に対応する正しいデータかを確認することができる。選択したデータが正しい場合、データ選択画面2001でのD206の選択をそのままにする。一方、選択したデータが正しくない場合、データ選択画面2001のプルダウンメニュー2002から別の候補を選択し、データ選択箇所表示画面2101で選択結果を確認する。
データ選択画面2001のプルダウンメニュー2002内の全てのデータ文字列を選択しても正しいデータが存在しない場合、ユーザはデータ選択箇所表示画面2101内で文書をスクロールし、目視によって対応するデータを探し出し、データ選択画面(2001)の手入力欄2006にキーボード等を用いてデータ文字列を直接入力する。このように、ユーザが全ての階層構造付項目に対するデータの選択又は入力を完了した後、出力ボタン2003を操作すると、階層構造付項目及び対するデータを表形式のデータとしてファイルに出力する。
以上に説明したように本実施例では、階層構造付項目の上位下位の関係を直接に項目とデータとの関連付けに用いるのではなく、項目名をリスト化(102)して項目データ対応付候補106を生成し(105)、生成された項目データ対応付候補106の中から階層構造付項目に項目データを対応付ける(107)。この際、項目名の一致数を用いた項目データ対応付信頼度に基づいてランキングをして、データを抽出しているので、実際に文書に記載されている項目名の上位下位の関係が入れ替わっていても、項目名と対応するデータを高精度に抽出することができる。
また項目名の一致数及び項目名と文字列の類似度合いを用いて項目とデータを対応付けることによって、表記(例えば、文字の外観)が似ている文字列を同じ項目名と判定した場合でも、より似ているデータ文字列を上位にランキングすることができ、項目名と対応する可能性が高いデータ文字列を先に表示することができる。また、階層構造付項目内のすべての項目名で一致するデータがない場合にも、項目名が部分的に一致するデータを抽出するため、ユーザは部分的に一致するデータの中から正解を選択することができる。
次に、本発明の第2の実施例について説明する。
項目データ対応付け候補生成処理105は、第1の実施例で前述したように、2値化処理903から項目データ対応付け候補抽出処理908までを一つのソフトウェアで実現することもできるが、第2の実施例のように複数のソフトウェアで実現することもできる。
例えば、市販のOCRを用いて2値化処理903、レイアウト解析処理904及び文字認識処理905を行い、その結果得られる罫線、文字及びそれらの位置情報を含むPDF文書1001を生成する。また、一般的な電子文書(例えば、ワードプロセッサによって作成された文書)1003をPDF文書1001に変換してもよい。
具体的には、図16に示すように、PDF文書1001を入力し、PDF構成要素抽出処理1002において、PDF文書1001に含まれる罫線、文字及びそれらの位置情報を抽出する。そして、抽出された情報を用いて、レイアウト解析処理904、枠連結関係解析処理907、項目名枠判定処理906及び項目データ対応付候補抽出処理908を実行する。なお、項目名枠判定処理907と枠連結関係解析処理906との順序は図示したものと逆でもよい。
以上に説明したように、本発明の第2の実施例によると、PDF文書を解析するプログラムと組み合わせることによって、罫線、文字及びそれらの位置情報をPDF文書から抽出し、項目データ対応付信頼度を計算することができる。このため、項目に対応するデータをPDF文書から高精度に抽出することができる。
次に、本発明の第3の実施例について説明する。
また、電子文書作成ソフトウェア(例えば、ワードプロセッサ)で作成された電子文書1003を入力することもできる。
具体的には、図16に示すように、作成された電子文書1003を入力し、文書構成要素抽出処理1004において、電子文書1003に含まれる罫線、文字及びそれらの位置情報を用いて、レイアウト解析処理904、枠連結関係解析処理907、項目名枠判定処理906及び項目データ対応付候補抽出処理908を実行する。
以上に説明したように、本発明の第3の実施例によると、電子文書を解析するプログラムと組み合わせることによって、罫線、文字及びそれらの位置情報を電子文書から抽出し、項目データ対応付信頼度を計算することができる。このため、項目に対応するデータを電子文書から高精度に抽出することができる。
以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。

Claims (17)

  1. 非定型文書からデータを抽出する方法であって、
    前記方法は、プログラムを実行するプロセッサ、前記プロセッサで実行されるプログラムを格納するメモリ、及び前記プログラムの実行に必要なデータが入力されるインターフェースを有する計算機で実行され、
    前記方法は、
    前記プロセッサが、入力された階層構造付項目辞書内の項目名を列記した項目名情報を生成する項目名情報生成ステップと、
    前記プロセッサが、前記生成された項目名情報を用いて、入力された文書から項目名とデータとの対応関係を解析することによって、項目名とデータとの対応関係を示す対応候補を生成する対応候補生成ステップと、
    前記プロセッサが、前記生成された1又は複数の対応候補のそれぞれが、前記階層構造付項目辞書に含まれる1又は複数の階層構造付項目のそれぞれに対応する確からしさを示す信頼度を計算し、前記対応候補のうち前記階層構造付項目に対応する対応候補を、前記計算された信頼度の順に抽出する抽出ステップと、を含むことを特徴とするデータ抽出方法。
  2. 請求項1に記載のデータ抽出方法であって、
    前記対応候補は、データを示す文字列であるデータ文字列と、階層構造付項目辞書内の項目名と文字列照合により項目名と判定された文字列である項目名文字列と、項目名文字列と照合された項目名と、データ文字列と項目名文字列の連結関係と位置情報とを含むことを特徴とするデータ抽出方法。
  3. 請求項1又は2に記載のデータ抽出方法であって、
    前記抽出ステップでは、前記プロセッサは、前記階層構造付項目内の項目名と前記対応候補内にある項目名が一致する数を用いて前記信頼度を計算することを特徴とするデータ抽出方法。
  4. 請求項1又は2に記載のデータ抽出方法であって、
    前記抽出ステップでは、前記プロセッサは、前記階層構造付項目内の項目名と前記対応候補の項目名との類似度を用いて前記信頼度を計算することを特徴とするデータ抽出方法。
  5. 請求項4に記載のデータ抽出方法であって、
    前記抽出ステップでは、前記プロセッサは、前記階層構造付項目辞書内の項目名と前記対応候補の項目名とを照合する際に求めた編集距離を用いて前記類似度を計算することを特徴とするデータ抽出方法。
  6. 請求項1又は2に記載のデータ抽出方法であって、
    前記抽出ステップでは、前記プロセッサは、前記階層構造付項目内の項目名と一致する前記対応候補の項目名の数を計算し、前記階層構造付項目辞書内の項目名と前記対応候補の項目名とを照合して求めた編集距離を計算し、前記一致する項目名の数及び前記編集距離を引数とする関数を用いて前記信頼度を計算し、
    前記関数は、前記一致する項目名の数が多ければ高い値となり、前記編集距離が大きければ低い値となる関数であることを特徴とするデータ抽出方法。
  7. 請求項1から6のいずれか一つに記載のデータ抽出方法であって、
    前記対応候補生成ステップは、
    前記プロセッサが、紙の文書をスキャンしたイメージデータの入力を受け付け、前記受け付けたイメージデータを2値化する2値化ステップと、
    前記プロセッサが、前記2値化されたイメージデータから、文字列及び枠を抽出するレイアウト解析ステップと、
    前記プロセッサが、前記抽出された文字列を認識する文字認識ステップと、
    前記プロセッサが、前記抽出された枠の連結関係を解析する枠連結関係解析ステップと、
    前記プロセッサが、前記項目名情報内の項目名と前記認識された文字列とを照合することによって、前記抽出された枠が項目名を含む項目枠であるかを判定する項目名枠判定ステップと、
    前記プロセッサが、項目名を含む項目枠と項目名を含まないデータ枠との連結関係を用いて、項目名とデータとの対応関係を解析し、前記解析された項目名とデータとの対応関係を表わす前記対応候補を抽出する対応候補抽出ステップと、を含むことを特徴とするデータ抽出方法。
  8. 請求項1から6のいずれか一つに記載のデータ抽出方法であって、
    前記対応候補生成ステップは、
    前記プロセッサが、文字及び罫線のデータが含まれる電子文書の入力を受け付け、前記受け付けた電子文書から文字、文字の位置情報、罫線及び罫線の位置情報を抽出する構成要素抽出ステップと、
    前記プロセッサが、前記抽出された構成要素から、文字列及び枠を抽出するレイアウト解析ステップと、
    前記プロセッサが、前記抽出された枠の連結関係を解析する枠連結関係解析ステップと、
    前記プロセッサが、前記項目名情報内の項目名と前記認識された文字とを照合することによって、前記抽出された枠が項目名を含む項目枠であるかを判定する項目名枠判定ステップと、
    前記プロセッサが、項目名を含む項目枠と項目名を含まないデータ枠との連結関係を用いて、項目名とデータとの対応関係を解析し、前記解析された項目名とデータとの対応関係を表わす前記対応候補を抽出する対応候補抽出ステップと、を含むことを特徴とするデータ抽出方法。
  9. 非定型文書からデータを抽出するデータ抽出装置であって、
    前記データ抽出装置は、プログラムを実行するプロセッサ、前記プロセッサで実行されるプログラムを格納するメモリ、及び前記プログラムの実行に必要なデータが入力されるインターフェースを備え、
    前記プロセッサは、
    入力された階層構造付項目辞書内の項目名を列記した項目名情報を生成し、
    前記生成された項目名情報を用いて、入力された文書から項目名とデータとの対応関係を解析することによって、項目名とデータとの対応関係を示す対応候補を生成し、
    前記生成された1又は複数の対応候補のそれぞれが、前記階層構造付項目辞書に含まれる1又は複数の階層構造付項目のそれぞれに対応する確からしさを示す信頼度を計算し、前記対応候補のうち前記階層構造付項目に対応する対応候補を、前記計算された信頼度の順に抽出することを特徴とするデータ抽出装置。
  10. 非定型文書からデータを抽出する処理を計算機に実行させるためのプログラムであって、
    前記計算機は、プログラムを実行するプロセッサ、前記プロセッサで実行されるプログラムを格納するメモリ、及び前記プログラムの実行に必要なデータが入力されるインターフェースを有し、
    前記プログラムは、
    入力された階層構造付項目辞書内の項目名を列記した項目名情報を生成する項目名情報生成手順と、
    前記生成された項目名情報を用いて、入力された文書から項目名とデータとの対応関係を解析することによって、項目名とデータとの対応関係を示す対応候補を生成する対応候補生成手順と、
    前記生成された1又は複数の対応候補のそれぞれが、階層構造付項目辞書に含まれる1又は複数の階層構造付項目のそれぞれに対応する確からしさを示す信頼度を計算し、前記対応候補のうち前記階層構造付項目に対応する対応候補を、前記計算された信頼度の順に抽出する抽出手順と、を前記計算機に実行させるためのプログラム。
  11. 請求項10に記載のプログラムであって、
    前記対応候補は、データを示す文字列であるデータ文字列と、階層構造付項目辞書内の項目名と文字列照合により項目名と判定された文字列である項目名文字列と、項目名文字列と照合された項目名と、データ文字列と項目名文字列の連結関係と位置情報とを含むことを特徴とするプログラム。
  12. 請求項10又は11に記載のプログラムであって、
    前記抽出手順では、前記階層構造付項目内の項目名と一致する前記対応候補内にある項目名が一致する数を用いて前記信頼度を前記計算機に計算させることを特徴とするプログラム。
  13. 請求項10又は11に記載のプログラムであって、
    前記抽出手順は、前記階層構造付項目内の項目名と前記対応候補の項目名との類似度を用いて前記信頼度を計算する手順を含むことを特徴とするプログラム。
  14. 請求項13に記載のプログラムであって、
    前記抽出手順は、前記階層構造付項目辞書内の項目名と前記対応候補の項目名とを照合する際に求めた編集距離を用いて前記類似度を計算する手順を含むことを特徴とするプログラム。
  15. 請求項10又は11に記載のプログラムであって、
    前記抽出手順は、前記階層構造付項目内の項目名と一致する前記対応候補の項目名の数を計算する手順と、前記階層構造付項目辞書内の項目名と前記対応候補の項目名とを照合して求めた編集距離を計算する手順と、前記一致する項目名の数及び前記編集距離を引数とする関数を用いて前記信頼度を計算する手順とを含み、
    前記関数は、前記一致する項目名の数が多ければ高い値となり、前記編集距離が大きければ低い値となる関数であることを特徴とするプログラム。
  16. 請求項10から15のいずれか一つに記載のプログラムであって、
    前記対応候補生成手順は、
    紙の文書をスキャンしたイメージデータの入力を受け付け、前記受け付けたイメージデータを2値化する2値化手順と、
    前記プロセッサが、前記2値化されたイメージデータから、文字列及び枠を抽出するレイアウト解析手順と、
    前記抽出された文字を認識する文字認識手順と、
    前記抽出された枠の連結関係を解析する枠連結関係解析手順と、
    前記項目名情報内の項目名と前記認識された文字とを照合することによって、前記抽出された枠が項目名を含む項目枠であるかを判定する項目名枠判定手順と、
    項目名を含む項目枠と項目名を含まないデータ枠との連結関係を用いて、項目名とデータとの対応関係を解析し、前記解析された項目名とデータとの対応関係を表わす前記対応候補を抽出する対応候補抽出手順と、を含むことを特徴とするプログラム。
  17. 請求項10から15のいずれか一つに記載のプログラムであって、
    前記対応候補生成手順は、
    文字及び罫線のデータが含まれる電子文書から文字、文字の位置情報、罫線及び罫線の位置情報の入力を受け付ける構成要素情報受付手順と、
    前記受け付けた構成要素の情報から、文字列及び枠を抽出するレイアウト解析手順と、
    前記抽出された文字列を認識する文字認識ステップと、
    前記抽出された枠の連結関係を解析する枠連結関係解析手順と、
    前記項目名情報内の項目名と前記認識された文字とを照合することによって、前記抽出された枠が項目名を含む項目枠であるかを判定する項目名枠判定手順と、
    項目名を含む項目枠と項目名を含まないデータ枠との連結関係を用いて、項目名とデータとの対応関係を解析し、前記解析された項目名とデータとの対応関係を表わす前記対応候補を抽出する対応候補抽出手順と、を含むことを特徴とするプログラム。
JP2014544181A 2012-11-02 2012-11-02 データ抽出方法、データ抽出装置及びそのプログラム Ceased JPWO2014068770A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/078504 WO2014068770A1 (ja) 2012-11-02 2012-11-02 データ抽出方法、データ抽出装置及びそのプログラム

Publications (1)

Publication Number Publication Date
JPWO2014068770A1 true JPWO2014068770A1 (ja) 2016-09-08

Family

ID=50626733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014544181A Ceased JPWO2014068770A1 (ja) 2012-11-02 2012-11-02 データ抽出方法、データ抽出装置及びそのプログラム

Country Status (2)

Country Link
JP (1) JPWO2014068770A1 (ja)
WO (1) WO2014068770A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7029865B2 (ja) * 2017-09-27 2022-03-04 株式会社ミラボ 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム
JP6973782B2 (ja) * 2017-09-27 2021-12-01 株式会社ミラボ 標準項目名設定装置、標準項目名設定方法及び標準項目名設定プログラム
US10810342B2 (en) * 2017-12-29 2020-10-20 Texas Instruments Incorporated Parameter extraction from digitized image of a schematic or block diagram for electrical designs
WO2024084539A1 (ja) * 2022-10-17 2024-04-25 三菱電機株式会社 表認識装置及び方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02240789A (ja) * 1989-03-14 1990-09-25 Sharp Corp 文字列切り出し方式
JP2005275830A (ja) * 2004-03-25 2005-10-06 Hitachi Computer Peripherals Co Ltd 帳票認識方法
JP2008204226A (ja) * 2007-02-21 2008-09-04 Hitachi Computer Peripherals Co Ltd 帳票認識装置およびそのプログラム
JP2009169844A (ja) * 2008-01-18 2009-07-30 Hitachi Software Eng Co Ltd 表認識方法及び表認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02240789A (ja) * 1989-03-14 1990-09-25 Sharp Corp 文字列切り出し方式
JP2005275830A (ja) * 2004-03-25 2005-10-06 Hitachi Computer Peripherals Co Ltd 帳票認識方法
JP2008204226A (ja) * 2007-02-21 2008-09-04 Hitachi Computer Peripherals Co Ltd 帳票認識装置およびそのプログラム
JP2009169844A (ja) * 2008-01-18 2009-07-30 Hitachi Software Eng Co Ltd 表認識方法及び表認識装置

Also Published As

Publication number Publication date
WO2014068770A1 (ja) 2014-05-08

Similar Documents

Publication Publication Date Title
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
US10915788B2 (en) Optical character recognition using end-to-end deep learning
TWI321294B (en) Method and device for determining at least one recognition candidate for a handwritten pattern
JP5647919B2 (ja) 文字認識装置、文字認識方法、文字認識システム、および文字認識プログラム
EP1971957B1 (en) Methods and apparatuses for extending dynamic handwriting recognition to recognize static handwritten and machine generated text
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
US20070098263A1 (en) Data entry apparatus and program therefor
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP4649512B2 (ja) 文字列検索方法およびその装置
JP2014182477A (ja) プログラム及び帳票処理装置
JP4782346B2 (ja) 電子ドキュメントを処理する方法および装置
WO2014068770A1 (ja) データ抽出方法、データ抽出装置及びそのプログラム
JP2015069256A (ja) 文字識別システム
WO2022038821A1 (ja) 表構造認識装置及び方法
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Singh et al. Online handwritten Gurmukhi words recognition: An inclusive study
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
WO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP5134383B2 (ja) Ocr装置、証跡管理装置及び証跡管理システム
JP4466241B2 (ja) 文書処理手法及び文書処理装置
US11256760B1 (en) Region adjacent subgraph isomorphism for layout clustering in document images
JP2010237909A (ja) 知識補正プログラム、知識補正装置および知識補正方法
Alzuru et al. Cooperative human-machine data extraction from biological collections
Kashevnik et al. An Approach to Engineering Drawing Organization: Title Block Detection and Processing
KR20220142901A (ko) 반정형 문서로부터 정보를 추출하는 방법 및 시스템

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160705

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20161129