JPWO2019008766A1 - 証憑処理システムおよび証憑処理プログラム - Google Patents
証憑処理システムおよび証憑処理プログラム Download PDFInfo
- Publication number
- JPWO2019008766A1 JPWO2019008766A1 JP2019528323A JP2019528323A JPWO2019008766A1 JP WO2019008766 A1 JPWO2019008766 A1 JP WO2019008766A1 JP 2019528323 A JP2019528323 A JP 2019528323A JP 2019528323 A JP2019528323 A JP 2019528323A JP WO2019008766 A1 JPWO2019008766 A1 JP WO2019008766A1
- Authority
- JP
- Japan
- Prior art keywords
- voucher
- issuer
- layout
- character string
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003384 imaging method Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
【課題】証憑画像の解析精度の向上を図る。【解決手段】発行者特定部6は、処理対象となる証憑を画像化した証憑画像中の情報に基づいて、この証憑の発行者を特定する。レイアウトデータベース8は、証憑に記載された項目の属性および位置を規定するレイアウトを、証憑の発行者に対応付けて記憶する。レイアウト特定部7は、発行者特定部6によって特定された発行者をキーにレイアウトデータベース8を検索して、この発行者に対応したレイアウトを特定する。証憑処理部9は、レイアウト特定部8によって特定されたレイアウトに基づいて、証憑画像中の情報を解析する。
Description
本発明は、証憑を画像化した証憑画像を解析する証憑処理システムおよび証憑処理プログラムに関する。
従来、領収書や請求書などの証憑を画像化し、この画像を解析することによって、仕訳などの証憑処理を行うシステムが知られている。例えば、特許文献1には、OCR装置により読み取った会計情報や電子銀行(electronic banking)システムから得られる会計情報を仕訳対象として、入力した会計情報の中から仕訳に係わる項目(日付、相手先、摘要、入金額、出金額)を判別・解析して仕訳処理を行う技術が開示されている。具体的には、OCR装置で読み取った伝票の記載内容(会計情報)の中から1項目以上の項目が判別され、履歴データベースに記憶された項目(過去に正しい仕訳として処理された項目)と今回処理する項目との一致の割合(類似性)が判断された上で、一致の割合の高いものから順に仕訳パターンが選択可能に一覧表示される。
しかしながら、特許文献1のように、証憑画像に記された情報を画像解析のみによって取得する手法では、同一属性の項目が複数存在する場合、証憑の処理上、どの項目を利用すべきか判別できないケースが生じ得る。例えば、印刷された日付および押印された日付の双方が領収書に記されている場合、画像解析だけでは、どちらの日付を利用すべきか判別できない。また、領収書に記された金額について再計算が必要な場合もある。例えば、合計金額の後に値引き額が記されている場合、合計金額をそのまま利用することはできず、そこから値引き額を引く必要がある。また、合計金額が記されておらず、支払額と手数料のみが記されている場合、支払額に手数料を加算したものを合計金額とする必要がある。
本発明は、かかる事情に鑑みてなされたものであり、その目的は、証憑画像の解析精度の向上を図ることである。
かかる課題を解決すべく、第1の発明は、発行者特定部と、レイアウトデータベースと、レイアウト特定部と、証憑処理部とを有する証憑処理システムを提供する。発行者特定部は、処理対象となる証憑を画像化した証憑画像中の情報に基づいて、この証憑の発行者を特定する。レイアウトデータベースは、証憑に記載された項目の属性および位置を規定するレイアウトを、証憑の発行者に対応付けて記憶する。レイアウト特定部は、発行者特定部によって特定された発行者をキーにレイアウトデータベースを検索して、この発行者に対応したレイアウトを特定する。証憑処理部は、レイアウト特定部によって特定されたレイアウトに基づいて、証憑画像中の情報を解析する。
ここで、第1の発明において、上記発行者特定部は、証憑画像より認識された文字列から、発行者を示す文字列として登録された発行者文字列に相当するものを抽出することによって、発行者を特定してもよい。この場合、上記発行者文字列は、発行者の名称、住所または電話番号であってもよい。
第1の発明において、上記発行者特定部は、証憑のサンプル画像を特徴化した特徴量と、証憑の発行者との対応関係を記憶した知識ベースに基づいて、証憑画像を特徴化した特徴量から、発行者を特定してもよい。
第1の発明において、上記レイアウト特定部は、レイアウトデータベースを検索した結果、発行者特定部によって特定された発行者に対応したレイアウトが複数存在する場合、複数のレイアウトのそれぞれについて、証憑画像との類似度を評価することによって、いずれかのレイアウトを選択することが好ましい。
第2の発明は、証憑処理プログラムを提供する。このプログラムは、以下の3つのステップを有する処理をコンピュータに実行させる。第1のステップでは、処理対象となる証憑を画像化した証憑画像中の情報に基づいて、この証憑の発行者を特定する。第2のステップでは、発行者をキーに、証憑に記載された項目の属性および位置を規定するレイアウトを証憑の発行者に対応付けて記憶するレイアウトデータベースを検索して、この発行者に対応したレイアウトを特定する。第3のステップでは、レイアウトに基づいて、証憑画像中の情報を解析する。
ここで、第2の発明において、上記第1のステップは、証憑画像より認識された文字列から、発行者を示す文字列として登録された発行者文字列に相当するものを抽出することによって、発行者を特定するステップを含んでいてもよい。この場合、上記発行者文字列は、発行者の名称、住所または電話番号であってもよい。
第2の発明において、上記第1のステップは、証憑のサンプル画像を特徴化した特徴量と、証憑の発行者との対応関係を記憶した知識ベースに基づいて、証憑画像を特徴化した特徴量から、発行者を特定するステップを含んでいてもよい。
第2の発明において、上記第2のステップは、レイアウトデータベースを検索した結果、発行者に対応したレイアウトが複数存在する場合、複数のレイアウトのそれぞれについて、証憑画像との類似度を評価することによって、いずれかのレイアウトを選択することが好ましい。
本発明によれば、証憑画像中の情報から証憑の発行者を特定し、この発行者をキーにレイアウトデータベースを検索することによって、証憑のレイアウトを特定する。証憑画像中に記された発行者に関する情報は、その他の属性の情報と比較して固有性が高い。また、特定の発行者の証憑は、ある程度定型化されており、そのパターンは有限である。そこで、証憑のレイアウトを発行者毎に分類してデータベース化しておき、発行者に基づいてレイアウトを特定すれば、証憑画像のどの部分にどのような情報が記されているのかを適切に判別できる。これにより、証憑画像の解析精度の向上を図ることができる。
図1は、本実施形態に係る証憑処理ネットワークシステムの全体図である。この証憑処理ネットワークシステム1は、証憑の処理を依頼するユーザが操作する多数のクライアント2と、証憑の処理を行う証憑処理サーバ3とを主体としたサーバクライアント型のネットワーク構成を有している。証憑処理サーバ3は、クライアント2からの処理依頼を受信した場合、この依頼に係る証憑の処理を自動的に行い、この処理によって生成されたデータを自己が備える記憶装置に保存すると共に、証憑の処理結果をクライント2に送信する。
クライアント2は、証憑処理の依頼に際して、処理対象となる証憑を画像化した証憑処理画像を証憑処理サーバ3に送信する。証憑画像の送信形態としては、スマートフォン、スキャナ、複合機、カメラなどで証憑を読み取り、画像化された証憑画像を予め指定されたアドレスに直接送信する形態と、メール、チャット、オンラインストレージなどで送信する形態とがある。依頼時に送信すべき情報は、基本的に証憑画像だけで足り、証憑処理に必要な情報は証憑画像の解析によって自動的に抽出される。よって、ユーザは、証憑処理に必要な情報、例えば、領収書の日付、金額、発行者などの情報をキーボード等でその都度入力する必要はない(もちろん、システムの仕様として、所定の情報に関する入力を許容してもよい。)。
本明細書において、「証憑」とは、取引の内容を示す書類をいい、具体的には、注文書、契約書、送り状、見積書、請求書、領収書、検収書、各種計算書、支払証明書、通帳(普通預金通帳、当座預金通等、総合口座通帳等)、利用明細書(クレジットカード、プリペイドカード、電子マネー等)、各種伝票(売上伝票、仕入伝票、現金出納帳等)などを含む。
図2は、証憑処理サーバ3のブロック構成図である。この証憑処理サーバ3は、クライアント2より受信した証憑画像を処理対象とし、この証憑画像を解析して所定の処理、典型的には仕訳(すなわち、簿記上の取引を借方・貸方に分け、それぞれに適当な勘定科目を定めて、振るい分ける処理)を行う。証憑処理サーバ3は、文字認識部4と、特徴量抽出部5と、発行者特定部6と、レイアウト特定部7と、レイアウトデータベース8と、証憑処理部9とを有する。本実施形態の特徴は、証憑画像中の情報から証憑の発行者を特定し、この発行者に基づいて証憑のレイアウトを特定して、証憑画像中の情報を解析する点にある。
文字認識部4は、周知の光学文字認識(OCR)を用いて、処理対象となる証憑画像に含まれる文字を識別する。識別対象となる文字は、印刷文字、手書き文字の別を問わない。また、多言語対応の場合には、文字の表記上の特徴等から言語が特定される。特徴量抽出部5は、処理対象となる証憑画像を特徴化した特徴量(特徴ベクトル)を算出する。証憑画像は、非常に大きなデータであり、そこに描かれているものの類似性を判断する尺度としては必ずしも適切ではない。そこで、証憑画像の特徴、具体的には、スケール、色、縦横比、エッジなどをうまく捉えるために、有限の要素数よりなる低次元化された特徴量が証憑画像から抽出される。
発行者特定部6は、証憑画像中の情報に基づいて、この証憑の発行者を特定する。発行者の特定では、発行者特定部6が備える知識ベース10が用いられる。この知識ベース10は、各種のデータベース、規則、学習器などによって構成されており、発行者を特定する上で必要な情報(知識)が予め登録されている。本実施形態では、知識ベース10として、発行者文字列データベース、特徴量データベース、および、ルールベースを用いる。
図3は、発行者文字列データベースの説明図である。発行者データベース10aには、特定の発行者を示す固有の文字列(すなわち、発行者文字列)が予め登録されている。発行者文字列は、例えば、「株式会社○○」という文字列は「発行者A」といった如く、特定の発行者と対応付けられている。発行者文字列としては、典型的には、発行者の名称(企業名)、住所、または、電話番号を用いることができるが、その他に、ファックス番号や標準化された会社コードなどを用いてもよい。発行者特定部6は、文字認識部4によって認識された文字列のうち、ルールベースに予め登録された文字列に相当するもの、具体的には、完全または部分的に一致するものなどを発行者文字列として抽出する。ルールベースの文字列は、例えば、「株式会社.+」のように、正規表現を用いて定義してもよい(ここで、「.」は改行を除く任意の1文字、「+」は直前のパターンの1回以上の繰り返しをそれぞれ意味する。)。そして、発行者特定部6は、発行者文字列データベース10aを参照することによって、この発行者文字列に対応する発行者を特定する。
図4は、特徴量データベース10bの説明図である。特徴量データベース10bには、証憑のサンプル画像を特徴化した特徴量と、この証憑の発行者との対応関係が予め登録・記憶されている。例えば、特徴量FV1は発行者A、特徴量FV2は発行者B、特徴量FV3は発行者Cといった如くである。特徴量の算出は、証憑のサンプル画像全体を対象に行ってもよいし、発行者のロゴのように画像の一部分を対象に行ってもよい。また、特徴量と発行者とは1対1である必要は必ずしもなく、ある発行者が発行する証憑のパターンが複数存在する場合に対応すべく、N対1の関係であってもよい。
発行者特定部6は、特徴量抽出部5によって抽出された特徴量をキーに特徴量データベース10bを検索することによって、この特徴量に対応する発行者を特定する。具体的には、処理対象となる証憑画像の特徴量と、特徴量データベース10bに登録された特徴量との類似度(確からしさ)が評価・算出される。両者の類似度が高いということは、特徴空間上において、処理対象の特徴量(特徴ベクトル)が指し示す特徴点と、特徴データベース10bに登録された特徴量(特徴ベクトル)が指し示す特徴点とが近いことを意味する。そこで、ユークリッド距離や座標成分差の絶対総和といった周知の手法を用いて、2つの特徴点間の距離を算出すれば、両者の類似度を評価することができる。そして、特徴データベース10bに登録されている多数の特徴量のうち、最も類似度の大きいものが選択され、これに対応するものが発行者として特定される。
なお、証憑のサンプル画像を特徴化した特徴量と、証憑の発行者との対応関係を記憶する知識ベース10としては、特徴量データベース10bに限るものではなく、学習器として実装してもよい。図5は、学習器の説明図である。この学習器10cは、所定の関数Y=f(X,θ)を有している。ここで、入力Xは、特徴量抽出部5によって抽出された証憑画像の特徴量であり、m次元の要素で構成される。また、出力Yは、n次元の要素で構成され、このビット列によって発行者が一義的に特定される。さらに、θは、この関数の内部パラメータである。
このような学習器10cとしては、例えば、機械学習の一分類である「教師あり学習」、より具体的には、ニューラルネットワークやサポートベクターマシンなどを用いることができる。この場合、「教師データ」としては、特徴量と発行者とのペアが用いられる。具体的には、特徴量の入力に対して出力された発行者の合否が「教師ベクトル」として学習器10cにフィードバックされる。これに基づいて、学習器10cは、正しい発行者が出力されるように、内部パラメータθ(例えば、ニューラルネットワークの結合重み)の値を更新する。このような処理をサンプル毎に繰り返すことで、内部パラメータθの学習(調整)が行われる。以上のような「教師データ」に基づく学習器10cの学習が行われた状態において、処理対象となる証憑画像の特徴量を「テストデータ」として学習器10cに入力すれば、この特徴量に対応した発行者を出力することができる。
発行者特定部6は、文字列ベースで得られた結果と、特徴量ベースで得られた結果とを総合的に評価して、最良の発行者をレイアウト特定部7に出力する。具体的には、第1のケースとして、文字列ベースおよび特徴量ベースの双方で発行者が一致する場合、この発行者が出力される。また、第2のケースとして、文字列ベースで複数の発行者が特定された場合、これらの内で、特徴量ベースでの評価が最も高いものが発行者として出力される。ここで、第2のケースの一つとして、例えば、税金をコンビニエンスストアで支払った場合、コンビニエンスストア名(領収者)、法人名(支払元)、収納代行者名、税務署名といった如く、発行者の候補が複数存在する場合がある。このような場合、どれを発行者として採用すべきかをルールベースに予め登録しておくことで、コンビニエンスストアが発行者であることを適切に特定できる。そして、税務署が支払先であることは、後述するレイアウトに基づき特定される。
レイアウト特定部7は、発行者特定部6によって特定された発行者をキーにレイアウトデータベース8を検索して、この発行者に対応したレイアウトを特定する。図6は、レイアウトデータベース8の説明図である。レイアウトデータベース8には、証憑に記載された項目の「属性」(例えば、日付、支払先、金額など)、および、その「位置」を規定するレイアウトが、証憑の発行者に対応付けて記憶されている。これにより、証憑の処理に必要な情報として、どこに何が記載されているのかが適切に判別できる。レイアウトデータベース8を構築する際には、証憑のサンプルを多数収集し、発行者毎のレイアウトのパターンを分類した上で、それぞれのパターンを順次登録する。レイアウトで定義すべき項目は、証票の処理内容に応じて決められる。例えば、レシートや領収書では、日付、金額、支払先など、通帳では、日付、摘要、取引相手、金額など、クレジットカード明細では、日付、摘要、取引相手、支払金額などといった如くである。
ここで、それぞれの項目の「位置」については、その座標および範囲が固定されていてもよいが、個々の証憑画像に応じて可変に設定してもよい。例えば、物品を購入した際に発行されるレシートは、購入した物品の数によって、合計金額の記載位置が変わってくる。このような場合に対応すべく、証憑を処理する上で必要な金額欄の「位置」としては、レシートのサイズ(縦横比)や購入物品の行数などに応じて、位置が可変になるようにレイアウトが定義される。また、金額の「属性」として算出規則を定義しておけば、証憑に記載された金額について再計算が必要なケースにおいても有効に対応できる。
レイアウト特定部7は、レイアウトデータベース8を検索した結果、ある発行者に対応したレイアウトが複数存在する場合、それぞれのレイアウトについて、証憑画像との類似度(確からしさ)を評価し、類似度が最も高いものを選択する。この場合、それぞれのレイアウトの特徴量を予め登録しておき、証憑画像との類似度が上述した特徴量ベースで評価される。これにより、いずれかのレイアウトが特定され、証憑処理部9に出力される。
証憑処理部9には、レイアウト特定部7によって特定されたレイアウトと、処理対象となる証憑画像とが入力される。証憑処理部9は、このレイアウトをテンプレートとして用いて証憑画像中の情報を解析する。具体的には、まず、レイアウトのサイズと一致するように証憑画像のサイズが正規化される。つぎに、証憑画像にレイアウトを当てはめ、レイアウトによって指定された領域の文字列がOCRにて認識され、認識された文字列のそれぞれに対して、レイアウトによって指定された属性が付与される。多言語対応の場合には、文字の表記上の特徴等から言語を特定してもよいし、あるいは、レイアウトデータベース8におけるレイアウトの付帯情報として「言語」を定義しておいてもよい。発行者に応じた言語で証憑画像上の文字を読み取れば、言語に依存することなく、証憑の処理を一元的に行うことができる。
図7は、一例としてのレシート(領収書)型レイアウトの説明図である。まず、レシートに記されたロゴマーク、店の名称、電話番号から発行者Aが特定される。つぎに、この発行者Aのレイアウトが特定され、このレイアウトが画像に当てはめられる。これにより、発行者Aのレシートについて、日付の属性として「2015年5月20日」、金額の属性として「396」がそれぞれ抽出され、データ化される。
例えば、レシートに記された情報として、印刷日付および押印日付の双方が存在したとしても、レイアウトによって抽出すべき日付の位置が定義されているので、どちらの日付を利用すべきか一義的に特定される。また、別の例として、レシートに記された金額について再計算が必要な場合であっても、最終的に利用すべき合計金額の算出式をレイアウトの付帯規則として定義しておけば、再計算にも柔軟に対応できる。
なお、レシートなどの場合、購入品の数(明細)に応じて合計金額の位置が変わるため、レシートの縦横比などを考慮してレイアウトを定義することが好ましい。また、レイアウトに明細の項目も定義して、レシートの明細までデータ化してもよい。
そして、証憑処理部9は、上述した解析によって抽出された複数の項目に基づいて、所定の処理を行う。この処理は、典型的には、証憑の仕訳が想定されるが、これに限定されるものではなく、例えば、通帳の残高金額を管理するなどの処理であってもよい。処理結果はユーザに提示される。具体的には、依頼に係る証憑の処理が完了した旨をメール等でユーザに通知し、ユーザは、処理結果をダウンロードして確認する。また、処理結果をメールやAPIで通知するようにしてもよい。ユーザは、必要に応じて、証憑の処理によって生成されたデータを修正することができる。
証憑処理部9で用いられるレイアウトは最終的には1つであるが、ある発行者Aに関するレイアウトのパターンがN(≧2)個存在する場合には、以下のような方法でいずれかのレイアウトが特定される。
図8は、第1のレイアウト特定方法の手順を示すフローチャートである。まず、ステップ1において、発行者特定部6は、上述したように、証憑画像中の情報に基づいて、この証憑の発行者を特定する。ここでは、一例として、発行者Aが特定され、この発行者Aに関する証憑のレイアウトパターンがN個存在するものとする。
つぎに、ステップ2において、発行者特定部6は、処理対象となる証憑画像の特徴量と、発行者Aに関するN個のレイアウトパターンの特徴量との類似度をそれぞれ算出・評価する。N個のレイアウトパターンの特徴量は、知識ベース10に予め登録されている。そして、類似度の最も大きいレイアウトパターンとして、例えば、ID=1のパターンが特定され(ステップ3)、レイアウトパターンの指定を伴う固有の発行者名として、「A−1」が出力される(ステップ4)。
そして、ステップ5において、レイアウト特定部7は、発行者名(レイアウトパターン指定付)=「A−1」をキーにレイアウトデータベース8を検索する。レイアウトデータベース8には、レイアウトパターンの指定を伴う固有の発行者名に対応付けて、レイアウトが記憶されている。すなわち、発行者名(レイアウトパターン指定付)と、データベース8中のレイアウトとは、1対1に対応付けられている。データベース8の検索結果として、発行者名「A−1」に対応するレイアウト「A−1」が特定される(ステップ6)。
以上の手順からわかるように、第1の特定方法では、発行者Aのみならず、そのレイアウトのパターンまで絞り込んだ上で、レイアウトデータベース8を検索することによって、レイアウトが一義的に特定される。
図9は、第2のレイアウト特定方法の手順を示すフローチャートである。まず、ステップ11において、発行者特定部6は、証憑画像中の情報に基づいて、この証憑の発行者Aを特定する。これにより、発行者名として、「A」が出力される(ステップ12)。第1の特定方法とは異なり、この発行者名は、レイアウトパターンの指定を伴わない。
つぎに、ステップ13において、レイアウト特定部7は、発行者名=「A」をキーにレイアウトデータベース8を検索する。これにより、発行者Aに関するレイアウトとして、N個のレイアウトが取得される。ステップ14において、レイアウト特定部7は、処理対象となる証憑画像の特徴量と、発行者Aに関するN個のレイアウト(「A−1」,「A−2」,・・・,「A−N」)の特徴量との類似度をそれぞれ算出・評価する。N個のレイアウトパターンの特徴量は、レイアウトデータベース8において、それぞれのレイアウトに対応付けて記憶されている。そして、類似度の最も大きいレイアウトとして、例えば、レイアウト「A−1」が特定される(ステップ15)。
以上の手順からわかるように、第2の特定方法では、発行者Aをキーにレイアウトデータベース8を検索することによって、この発行者Aに関するN個のレイアウトが抽出・特定される。そして、N個のレイアウトを特徴量ベースで評価することによって、レイアウトが一義的に特定される。
このように、本実施形態によれば、証憑処理サーバ3がユーザからの依頼を受けて証憑の処理を自動で行うことに加えて、この依頼時に必要な情報は基本的に証憑画像で足りる。よって、証憑の処理に関するユーザの手間を省力化でき、ユーザにとっての利便性を高めることができる。
また、本実施形態によれば、証憑画像中の情報から証憑の発行者を特定し、この発行者をキーにレイアウトデータベース8を検索することによって、証憑のレイアウトを特定する。証憑画像中に記された発行者に関する情報は、金額や日付といった他の属性の情報と比較して固有性が高い。また、特定の発行者の証憑は、ある程度定型化されており、そのパターンは有限である。そこで、証憑のレイアウトを発行者毎に分類してデータベース化しておき、発行者に基づいてレイアウトを特定すれば、証憑画像のどの部分にどのような情報が記されているのかを適切に判別できる。これにより、証憑画像の解析精度の向上を図ることができる。
さらに、本実施形態によれば、証憑の発行者の特定を文字列および特徴量の双方を用いて行うことで、発行者を精度よく特定することができる。ただし、本発明はこれに限定されるものではなく、文字列のみで発行者を特定してもよい。
なお、上述した実施形態では、発行者を特定してレイアウトを特定する手法について説明したが、発行者を特定することなくレイアウトを特定する手法と併用してもよい。例えば、市販の汎用的な領収書などについて、その特徴量からそのようなものであると判別された場合、発行者を特定することなく、特定の領収書に対応付けられたレイアウトを適用するといった如くである。
また、上述した実施形態では、証憑処理サーバ3を主体に説明したが、本発明は、コンピュータを証憑処理サーバ3として動作させるコンピュータプログラムとしても実現することができる。このコンピュータプログラムは、図2に示した機能的なブロック図から明らかなように、証憑画像中の情報に基づいて、この証憑の発行者を特定するステップと、レイアウトデータベース8を検索して、この発行者に対応したレイアウトを特定するステップと、レイアウトに基づき証憑画像中の情報を解析して、証憑の処理を行うステップとを有する処理をコンピュータに実行させる。それぞれのステップの詳細については、上述したとおりである。
1 証憑処理ネットワークシステム
2 クライアント
3 証憑処理サーバ
4 文字認識部
5 特徴量抽出部
6 発行者特定部
7 レイアウト特定部
8 レイアウトデータベース
9 証憑処理部
10 知識ベース
10a 発行者文字列データベース
10b 特徴量データベース
10c 学習器
2 クライアント
3 証憑処理サーバ
4 文字認識部
5 特徴量抽出部
6 発行者特定部
7 レイアウト特定部
8 レイアウトデータベース
9 証憑処理部
10 知識ベース
10a 発行者文字列データベース
10b 特徴量データベース
10c 学習器
Claims (10)
- 証憑処理システムにおいて、
処理対象となる証憑を画像化した証憑画像中の情報に基づいて、当該証憑の発行者を特定する発行者特定部と、
証憑に記載された項目の属性および位置を規定するレイアウトを、証憑の発行者に対応付けて記憶するレイアウトデータベースと、
前記発行者特定部によって特定された発行者をキーに前記レイアウトデータベースを検索して、当該発行者に対応したレイアウトを特定するレイアウト特定部と、
前記レイアウト特定部によって特定されたレイアウトに基づいて、前記証憑画像中の情報を解析する証憑処理部と
を有することを特徴とする証憑処理システム。 - 前記発行者特定部は、前記証憑画像より認識された文字列から、発行者を示す文字列として登録された発行者文字列に相当するものを抽出することによって、前記発行者を特定することを特徴とする請求項1に記載された証憑処理システム。
- 前記発行者文字列は、発行者の名称、住所または電話番号であることを特徴とする請求項2に記載された証憑処理システム。
- 前記発行者特定部は、証憑のサンプル画像を特徴化した特徴量と、証憑の発行者との対応関係を記憶した知識ベースに基づいて、前記証憑画像を特徴化した特徴量から、前記発行者を特定することを特徴とする請求項1または2に記載された証憑処理システム。
- 前記レイアウト特定部は、前記レイアウトデータベースを検索した結果、前記発行者特定部によって特定された前記発行者に対応したレイアウトが複数存在する場合、当該複数のレイアウトのそれぞれについて、前記証憑画像との類似度を評価することによって、いずれかのレイアウトを選択することを特徴とする請求項1に記載された証憑処理システム。
- 証憑処理プログラムにおいて、
処理対象となる証憑を画像化した証憑画像中の情報に基づいて、当該証憑の発行者を特定する第1のステップと、
前記発行者をキーに、証憑に記載された項目の属性および位置を規定するレイアウトを証憑の発行者に対応付けて記憶するレイアウトデータベースを検索して、当該発行者に対応したレイアウトを特定する第2のステップと、
前記レイアウトに基づいて、前記証憑画像中の情報を解析する第3のステップと
を有する処理をコンピュータに実行させることを特徴とする証憑処理プログラム。 - 前記第1のステップは、前記証憑画像より認識された文字列から、発行者を示す文字列として登録された発行者文字列に相当するものを抽出することによって、前記発行者を特定するステップを含むことを特徴とする請求項6に記載された証憑処理プログラム。
- 前記発行者文字列は、発行者の名称、住所または電話番号であることを特徴とする請求項7に記載された証憑処理プログラム。
- 前記第1のステップは、証憑のサンプル画像を特徴化した特徴量と、証憑の発行者との対応関係を記憶した知識ベースに基づいて、前記証憑画像を特徴化した特徴量から、前記発行者を特定するステップを含むことを特徴とする請求項6または7に記載された証憑処理プログラム。
- 前記第2のステップは、前記レイアウトデータベースを検索した結果、前記発行者に対応したレイアウトが複数存在する場合、当該複数のレイアウトのそれぞれについて、前記証憑画像との類似度を評価することによって、いずれかのレイアウトを選択することを特徴とする請求項6に記載された証憑処理プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/025019 WO2019008766A1 (ja) | 2017-07-07 | 2017-07-07 | 証憑処理システムおよび証憑処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2019008766A1 true JPWO2019008766A1 (ja) | 2020-08-20 |
Family
ID=64949837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019528323A Pending JPWO2019008766A1 (ja) | 2017-07-07 | 2017-07-07 | 証憑処理システムおよび証憑処理プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2019008766A1 (ja) |
WO (1) | WO2019008766A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3965727A4 (en) | 2019-05-10 | 2023-05-31 | Anomera Inc. | MICROPARTICLES WITH CELLULOSE NANOCRYSTALS AGGREGATED WITH PROTEINS AND THEIR COSMETIC USES |
JPWO2020255361A1 (ja) * | 2019-06-20 | 2021-09-13 | ファーストアカウンティング株式会社 | 会計処理システム、会計処理方法、会計処理プログラム |
JP7447614B2 (ja) | 2020-03-27 | 2024-03-12 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置 |
JP6732325B1 (ja) * | 2020-04-21 | 2020-07-29 | ファーストアカウンティング株式会社 | 会計処理システム、会計処理方法、会計処理プログラム |
JP6912841B2 (ja) * | 2020-04-30 | 2021-08-04 | 株式会社日本デジタル研究所 | 証憑判定装置、会計処理装置、証憑判定プログラム、証憑判定システム及び証憑判定方法 |
JP6842219B1 (ja) * | 2020-04-30 | 2021-03-17 | 株式会社日本デジタル研究所 | 会計処理装置、会計処理プログラム、会計処理システム及び会計処理方法 |
CN112801086A (zh) * | 2021-03-30 | 2021-05-14 | 中国建设银行股份有限公司 | 凭证分类的方法、装置、电子设备和存储介质 |
JP7329225B1 (ja) | 2022-10-28 | 2023-08-18 | 株式会社Tokium | プログラム、コンピュータおよび情報処理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0689364A (ja) * | 1992-09-07 | 1994-03-29 | Mitsuba Seisakusho:Kk | 走行する物品に付された符号等の識別装置 |
JPH10275196A (ja) * | 1997-03-28 | 1998-10-13 | Sanyo Electric Co Ltd | データ入力装置 |
JP2008234586A (ja) * | 2007-03-23 | 2008-10-02 | Nomura Research Institute Ltd | 消費情報取得端末、消費情報取得サーバおよび家計簿管理装置 |
JP2014206942A (ja) * | 2013-04-16 | 2014-10-30 | 株式会社富士通マーケティング | 店舗別売上データ管理システム及び店舗別売上データ管理プログラム |
JP2016189174A (ja) * | 2015-03-30 | 2016-11-04 | ブラザー工業株式会社 | 情報特定プログラム、及び情報特定方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3215176B2 (ja) * | 1992-09-07 | 2001-10-02 | 株式会社東芝 | 文書画像処理装置及び文書画像処理方法 |
-
2017
- 2017-07-07 WO PCT/JP2017/025019 patent/WO2019008766A1/ja active Application Filing
- 2017-07-07 JP JP2019528323A patent/JPWO2019008766A1/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0689364A (ja) * | 1992-09-07 | 1994-03-29 | Mitsuba Seisakusho:Kk | 走行する物品に付された符号等の識別装置 |
JPH10275196A (ja) * | 1997-03-28 | 1998-10-13 | Sanyo Electric Co Ltd | データ入力装置 |
JP2008234586A (ja) * | 2007-03-23 | 2008-10-02 | Nomura Research Institute Ltd | 消費情報取得端末、消費情報取得サーバおよび家計簿管理装置 |
JP2014206942A (ja) * | 2013-04-16 | 2014-10-30 | 株式会社富士通マーケティング | 店舗別売上データ管理システム及び店舗別売上データ管理プログラム |
JP2016189174A (ja) * | 2015-03-30 | 2016-11-04 | ブラザー工業株式会社 | 情報特定プログラム、及び情報特定方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2019008766A1 (ja) | 2019-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2019008766A1 (ja) | 証憑処理システムおよび証憑処理プログラム | |
RU2679209C2 (ru) | Обработка электронных документов для распознавания инвойсов | |
US9552516B2 (en) | Document information extraction using geometric models | |
JP6268352B2 (ja) | 会計データ入力システム、方法、およびプログラム | |
US20140258169A1 (en) | Method and system for automated verification of customer reviews | |
JP6357621B1 (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム | |
JP7348944B2 (ja) | 会計装置及びプログラム | |
JP2015146075A (ja) | 会計データ入力支援システム、方法およびプログラム | |
US20220292861A1 (en) | Docket Analysis Methods and Systems | |
JP6646308B1 (ja) | 証憑解析装置、会計処理システム、証憑解析方法、証憑解析プログラム | |
US11587148B2 (en) | Item level data determination device, method, and non-transitory computer-readable media | |
JP6635563B1 (ja) | 仕訳要素解析装置、会計処理システム、仕訳要素解析方法、仕訳要素解析プログラム | |
JP2019191665A (ja) | 財務諸表読取装置、財務諸表読取方法及びプログラム | |
JP6161229B1 (ja) | 自動仕訳システムおよび自動仕訳プログラム | |
JP6683377B1 (ja) | 書類分類システム、書類分類装置、書類分類方法、書類分類プログラム | |
JP6810303B1 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム | |
JP6810306B1 (ja) | データ処理装置、データ処理方法及びプログラム | |
JP2023088441A (ja) | データ処理装置、データ処理方法及びプログラム | |
JP2018190064A (ja) | 会計処理システム | |
JP2021093222A (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム | |
JP6844076B1 (ja) | データ処理装置、データ処理方法及びプログラム | |
WO2023062798A1 (ja) | 情報処理システム、項目値抽出方法、モデル生成方法及びプログラム | |
US20220327502A1 (en) | Enhanced image transaction processing solution and architecture | |
WO2022054136A1 (ja) | データ処理装置、データ処理方法及びプログラム | |
JP2017208027A (ja) | 仕訳情報生成装置、仕訳情報生成システム、仕訳情報生成方法、及び仕訳情報生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200508 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210827 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220113 |