WO2007119567A1

WO2007119567A1 - 文書処理装置および文書処理方法

Info

Publication number: WO2007119567A1
Application number: PCT/JP2007/056690
Authority: WO
Inventors: Shingo Ochi; Takanori Hino
Original assignee: Justsystems Corporation
Priority date: 2006-03-31
Filing date: 2007-03-28
Publication date: 2007-10-25
Also published as: US20090132566A1; JPWO2007119567A1; JP4878624B2

Abstract

　構造化文書ファイルのタグ構造に基づいて、類似関係にある構造化文書ファイルを特定する。　ノードペア検出部１４２は、構造化文書ファイルから、所定の位置関係にあるタグのペアをノードペアとして検出する。属性値取得部１４４は、構造化文書ファイルにおけるノードペアの出現態様を属性値として指標化する。インデックス情報生成部１４６は、ノードペアとその属性値を対応づけたインデックス情報を生成する。共通ペア検出部１５２は、構造化文書ファイルであるクエリ文書と比較対象の構造化文書ファイルである被検査文書に共通するノードペアを共通ペアとして検出する。ノード類似値算出部１５４は、クエリ文書のインデックス情報と被検査文書のインデックス情報を参照して、クエリ文書における共通ペアの属性値と被検査文書における共通ペアの属性値の類似度をノード類似値として指標化する。

Description

明細書

文書処理装置および文書処理方法

技術分野

[0001] 本発明は、文書ファイルの検索技術に関する。

[0002] コンピュータの普及とネットワーク技術の進展にともなレ、、ネットワークを介した電子情報の交換が盛んになつている。これにより、従来においては紙ベースで行われていた事務処理の多くが、ネットワークベースの処理に置き換えられつつある。デジタルィ匕とネットワーク技術の進展は、情報取得コストを急激に低下させている。このような状況において、大量の文書ファイルの中から所望の文書ファイルを検索する技術の重要性が高まっている。

特許文献 1 :特開 2006— 048536号公報

発明の開示

発明が解決しょうとする課題

[0003] ところで、近年では、多くの文書ファイル力 HTML (Hyper Text Markup Language )や XML (extensible Markup Language)とよばれる構造化文書ファイルとして作成されるようになってきている。特に、 XMLは、ネットワークを介して他者とデータを共有するのに適した形式として注目されている。文書作成者は、 XML文書のタグ構造を自由に設計できるが、タグ構造は文書内容に応じてある程度パターン化されることが多い。たとえば、営業文書同士では、使用されるタグセット（ボキヤブラリ）やそのタグ構造に共通する部分が多いが、営業文書と法律文書では使用されるタグセットやそのタグ構造の類似性は小さレ、。

[0004] 本発明は、本発明者の上記着目に基づいてなされた発明であり、その主たる目的は、構造化文書ファイルのタグ構造に基づいて、関連性の高い構造化文書ファイルを選定するための技術、を提供することある。

課題を解決するための手段

[0005] 本発明のある態様は、文書処理装置である。

この装置は、所定のタグセットで記述された構造化文書ファイルから、所定の位置関係にあるタグのペアをノードペアとして検出し、構造ィ匕文書ファイルにおけるノードペアの出現態様を所定の規則により属性値として指標化し、ノードペアとその属性値を対応づけたインデックス情報を生成する。

そして、第 1の構造化文書ファイルから検出されたノードペア群と第 2の構造化文書ファイルから検出されたノードペア群に共通するノードペアを共通ペアとして検出し、第 1の構造化文書ファイルのインデックス情報と第 2の構造ィヒ文書ファイルのインデッタス情報を参照して、第 1の構造化文書ファイルにおける共通ペアの属性値と第 2の構造化文書ファイルにおける共通ペアの属性値の類似度をノード類似値として指標化する。

[0006] なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

発明の効果

[0007] 本発明によれば、構造化文書ファイルのタグ構造に基づいて、関連性の高い構造化文書ファイルを選定することができる。

図面の簡単な説明

[0008] [図 1]タグ構造に基づく類似文書検索の原理を説明するための模式図である。

[図 2]親子関係を説明するための模式図である。

[図 3]繰り返し関係を説明するための模式図である。

[図 4]兄弟関係を説明するための模式図である。

[図 5]文書処理装置の機能ブロック図である。

[図 6]ノード類似値を表示する画面図である。

[図 7]ある薬品情報データベースを対象としてノードペアを調査した結果を示す図である。

[図 8]分布近似値を求めるための表である。

符号の説明

[0009] 100 文書処理装置、 110 ユーザインタフェース処理部、 120 データ処理部、 130 データ保持部、 132 入力部、 134 文書取得部、 136 表示部、 14 0 インデックス処理部、 142 ノードペア検出部、 144 属性値取得部、 146 ィンデッタス情報生成部、 150 類似判定部、 152 共通ペア検出部、 154 ノード類似値算出部、 156 補正部、 158 稀少値算出部、 160 分布近似値取得部、 162 文書類似値算出部、 170 文書保持部、 172 インデックス情報保持部。

発明を実施するための最良の形態

[0010] 図 1は、タグ構造に基づく類似文書検索の原理を説明するための模式図である。

同図は、構造化文書 50に対して、構造化文書 52と構造化文書 54のどちらがより類似性が高い文書ファイルであるかを判定する場合を示す。以下、構造化文書 50のように、調査対象となる構造ィ匕文書ファイルのことを「クエリ文書」とよび、構造化文書 52 や構造ィ匕文書 54のように、クエリ文書と類似するか比較対象となる構造ィ匕文書フアイルのことを「被検查文書」とよぶことにする。

[0011] クエリ文書である構造化文書 50においては、くレポート >タグとく問題 >タグ、くレポート〉タグとく対策 >タグがそれぞれ上位 ·下位の関係になってレ、る。

被検查文書である構造ィ匕文書 52でも、くレポート〉タグとく問題 >タグが上位 '下位の関係になっている。また、く問題〉タグとく対策 >タグも上位'下位の関係にあるため、くレポート >タグとく対策 >タグも、間接的ながら上位'下位の関係にあるといえる。

もうひとつの被検查文書である構造化文書 54では、くレポート >タグとく数学 >タグ、くレポート〉タグとく理科〉タグが上位 '下位の関係になっている。また、く数学 >タグとく問題 >タグが上位 ·下位の関係になつているので、くレポート〉タグとく問題 >タグも間接的ながら上位 ·下位の関係にある。

[0012] 構造化文書 50と構造化文書 52を比較した場合、 <レポート >タグと <問題 >タグが直接的に上位 ·下位の関係にあるという点で共通している。一方、構造化文書 54 におレ、ても <レポート〉タグとく問題 >タグは上位 ·下位の関係にある力 <数学 > タグが間にあるため、構造化文書 50や構造化文書 52のように、直接的な上位，下位関係ではない。

構造化文書 50では、 <レポート〉タグとく対策 >タグが上位 ·下位の関係にあるが、構造化文書 52では、く問題〉タグを挟んだ上ではあるが、くレポート〉タグとく対策〉タグは、一応上位 ·下位の関係にある。一方、構造化文書 54では、く対策 >タグそのものが存在してレ、なレ、。

このような観点から構造化文書 50、構造化文書 52、構造化文書 54のタグ構造を比較してみると、構造化文書 52よりも構造化文書 54の方が、構造化文書 50に構造上、類似しているといえる。

[0013] クエリ文書と類似関係にある被検査文書を検索する場合、一般的には、クエリ文書に含まれる単語群と被検査文書に含まれる単語群を比較し、多くの単語が共通するほどその被検査文書はクエリ文書に類似すると判定する方法が考えられる。これに対して、本実施例では、図 1に示したように構造ィ匕文書ファイルのタグ構造の共通性に基づいて、クエリ文書と被検査文書の類似度を定量化する方法を提案する。以下、このようなタグ構造に基づく類似文書検索のことを「構造類似検索」とよび、文書に含まれる単語群に基づく類似文書検索である「内容類似検索」と区別する。たとえば、大量の被検査文書の中から構造類似検索によって候補を絞り込んだ上で内容類似検索を実行することにより、クエリ文書と類似する被検査文書を選定してもよい。

[0014] 本実施例における文書処理装置 100は、構造化文書ファイルに含まれるタグのぺァを検出し、そのペア（以下、「ノードペア」とよぶ）を基本単位として構造類似検索を実行する。ノードペアとして検出されるタグのペアは、構造ィ匕文書ファイル中において所定の位置関係にあることが条件である。以下、ノードペアとして検出対象となる位置関係として「親子」、「繰り返し」、「兄弟」という 3つの関係について説明する。

[0015] 図 2は、親子関係を説明するための模式図である。

親子関係とは、 2つのタグが構造ィ匕文書ファイル中において上位'下位の関係にあることである。同図の場合、 Aタグ 10の下位に Bタグ 12がある。このような場合、 Aタグ 10と Bタグ 12は親子関係にある。親子関係は、直接的な上位 '下位の関係であってもよいし、 Aタグ 10との間にいくつかのタグ階層を挟んで Bタグ 12に至る関係であつてもよい。

[0016] 構造ィヒ文書ファイル中におけるノードペアの出現態様は属性値として指標化される。属性値とは、「深さ」、「距離」、「頻度」の 3つの項目についての指標値である。以下、属性値とは、この 3つの指標値の集合を指すものとする。親子関係にあるノードペアについての「深さ」とは、親にあたるタグがルートタグから何階層目にあるかを示す。同図の場合、 Aタグ 10はルートタグから 2階層下にあるので深さは「2」である。親子関係にあるノードペアについての「距離」とは、親タグから子タグまでの階層数である。同図の場合、 Aタグ 10と Bタグ 12は 3階層離れているので、距離は「3」である。また、親子関係にあるノードペアのうち、このような深さ「2」、距離「3」の Aタグと Bタグの組み合わせが、構造ィ匕文書ファイル中に出現する回数力「頻度」である。以下、親子関係にあるノードペアのことを「親子ペア」とよぶ。

[0017] 図 3は、繰り返し関係を説明するための模式図である。

繰り返し関係とは、親タグを共通とし、同じ内容の子タグが複数回出現する関係である。親子関係の特殊形といえる。同図の場合、 Aタグ 10と Bタグ 12だけではなぐ A タグ 10と Bタグ 14、 Aタグ 10と Bタグ 16は、深さ「2」、距離「3」の親子関係にある。このような場合、 1つ目の Aタグ 10と Bタグ 12は親子関係、 2つ目以降の Aタグ 10と Bタグ 14、 Aタグ 10と Bタグ 16は繰り返し関係にあるとされる。 Aタグ 10、 Bタグ 14、 Bタグ 16は頻度「2」の繰り返し関係であり、繰り返し関係における頻度は必ず 2以上となる。繰り返し関係における深さや距離は、親子関係と同様に求められる。以下、繰り返し関係にあるノードペアのことを「繰り返しペア」とよぶ。

[0018] 図 4は、兄弟関係を説明するための模式図である。

兄弟関係とは、親タグを共通とし、別の内容の子タグが複数回出現する関係である。同図の場合、 Aタグ 10に対しては、 Aタグ 10と Bタグ 12、 Aタグ 10と Cタグ 18、 Aタグ 10と Dタグ 20の 3種類の親子関係が成立している。また、 Aタグ 10と、 Bタグ 14、 B タグ 16について頻度「2」の繰り返し関係が成立している。このとき、 Bタグ 16と Cタグ 18、 Bタグ 16と Dタグ 20、 Cタグ 18と Dタグ 20の関係が兄弟関係である。兄弟関係にあるノードペア（以下、「兄弟ペア」とよぶ）の距離は、一方のタグと他方のタグの同一階層間における距離として求められる。同図の場合、 Bタグ 16と Cタグ 18の距離は「1 」、 Bタグ 16と Dタグ 20の距離は「2」、 Cタグ 18と Dタグ 20の距離は「1」となる。 Bタグは 3つある力兄弟ペアの距離を求めるにあたっては、便宜的にもっとも距離が小さくなる Bタグ 16が選択される。このほかにも、同図の場合であれば、兄弟ペアの一方に Bタグを含む場合、 Bタグ 12、 Bタグ 14、 Bタグ 16とのそれぞれの距離の平均値を、 B タグを相手としたときの兄弟ペアの距離として求めてもよレ、。たとえば、 Cタグ 18であれば、（1 + 2 + 3) ÷ 3 = 2により、 Cタグ 18と Bタグの兄弟ペアの距離を「2」として求めてもよい。兄弟ペアにおける「深さ」は、ルートタグからの階層数を示す。同図の場合、兄弟ペアの深さはいずれも「5」である。

[0019] 構造化文書からは、親子ペア、繰り返しペア、兄弟ペアのいずれかに該当するタグのペアがノードペアとして検出対象となる。ただし、図 2から図 4に示した各関係は、構造ィヒ文書ファイルのタグ構造を特徴づけるノードペアの定義例であり、どのような位置関係にあるタグのペアをノードペアと定義するかは、文書処理装置 100のユーザが任意に決定すればよい。本実施例では、これらのうち、もっともシンプノレな親子関係を中心として説明する。

[0020] 図 5は、文書処理装置 100の機能ブロック図である。

ここに示す各ブロックは、ハードウェア的には、コンピュータの CPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによってレ、ろいろなかたちで実現できることは、当業者には理解されるところである。

[0021] 文書処理装置 100は、ユーザインタフェース処理部 110、データ処理部 120およびデータ保持部 130を含む。

ユーザインタフェース処理部 110は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。本実施例においては、ユーザインタフェース処理部 110により文書処理装置 100のユーザインタフエースサービスが提供されるものとして説明する。別例として、ユーザはインターネットを介して文書処理装置 100を操作してもよい。この場合、図示しない通信部が、ユーザ端末からの操作指示情報を受信し、またその操作指示に基づいて実行された処理結果情報をユーザ端末に送信することになる。

[0022] データ処理部 120は、ユーザインタフェース処理部 110から取得されたデータを元にして各種のデータ処理を実行する。データ処理部 120は、ユーザインタフェース処理部 110とデータ保持部 130の間のインタフェースの役割も果たす。データ保持部 1 30は、あら力じめ用意された設定データや、データ処理部 120から受け取ったデータなど、さまざまなデータを格納する。

[0023] ユーザインタフェース処理部 110は、入力部 132と表示部 136を含む。入力部 132 は、ユーザからの入力操作を受け付ける。表示部 136は、ユーザに対して各種情報を表示する。入力部 132は、構造ィ匕文書ファイルを外部から取得するための文書取得部 134を含む。

[0024] データ保持部 130は、文書保持部 170とインデックス情報保持部 172を含む。

文書保持部 170は、文書取得部 134により取得された構造化文書ファイルを保持する。インデックス情報保持部 172は、後述するインデックス情報生成部 146が生成するインデックス情報を保持する。

[0025] データ処理部 120は、インデックス処理部 140と類似判定部 150を含む。

インデックス処理部 140は、構造ィ匕文書ファイルごとに、ノードペアとその属性値を対応づけたインデックス情報を生成する。インデックス処理部 140は、ノードペア検出部 142、属性値取得部 144およびインデックス情報生成部 146を含む。文書取得部 134が構造化文書ファイルを取得すると、ノードペア検出部 142はその構造化文書ファイルからノードペアを検出する。属性値取得部 144は、検出された各ノードペアについて、深さ、距離、頻度のそれぞれについての属性値を算出する。インデックス情報生成部 146は、構造化文書ファイルを特定するための文書 ID、ノードペアおよびその属性値を対応づけたインデックス情報を生成し、インデックス情報保持部 172 に記録する。

[0026] 類似判定部 150は、クエリ文書のインデックス情報と被検查文書のインデックス情報を比較することにより、構造類似検索を実行する。類似判定部 150は、共通ペア検出部 152、ノード類似値算出部 154、補正部 156、稀少値算出部 158、分布近似値取得部 160、文書類似値算出部 162を含む。

[0027] 共通ペア検出部 152は、クエリ文書に含まれるノードペア群と被検查文書に含まれるノードペア群の両方に含まれるノードペアを検出する。以下、このようなノードペアのことを「共通ペア」とよぶ。たとえば、クエリ文書にタグ <A>とタグ < B >による親子ペアが存在し、被検查文書にもタグ <A>とタグ < B >による親子ペアが存在すれば、それぞれの属性値が異なっていても、タグ <A>とタグ < B >は、クエリ文書と被検查文書の共通ペアとして検出される。

[0028] なお、タグ名自体は必ずしも完全に一致しなくてもよレ、。たとえば、クエリ文書においてはく report >タグとく date >タグが親子ペアとなっており、被検查文書においてはく rep >タグとく date >タグが親子関係になってレ、るとする。く report >という名前のタグと < rep >とレ、う名前のタグは、「r印」とレ、う 3文字については共通するので、名称についてある程度の類似性がある。このとき、く report >タグとく date >タグを含むノードペアは共通ペアとして扱われる。このように、比較対象となる 2つのタグ名が所定文字数以上重複するときや、一方のタグ名が他方のタグ名を包含するときに類似関係にあると判定してもよい。あるいは、あらかじめ単語間の類似関係を定義した類語辞書データを用意しておき、共通ペア検出部 152は比較対象となる 2つのタグ名が類似関係にあるかを判定してもよい。

XMLにおいては、文書作成者はタグ名を任意に設定できる。そのため、クエリ文書のタグ名と被検査文書のタグ名は完全に一致しないが類似した名称となることも多い。タグ名の類似関係を考慮した上で共通ペアを検出すれば、 XML文書のような構造化文書ファイルについて、より実際的な構造類似検索が可能となる。

[0029] ノード類似値算出部 154は、クエリ文書における共通ペアの属性値と被検查文書における共通ペアの属性値の類似度をノード類似値として算出する。算出のための計算式は後述する。クエリ文書のノードペア群のうち、共通ペアのすべてについてノード類似値が算出される。

[0030] 稀少値算出部 158は、共通ペアごとに稀少値を算出する。稀少値とは、文書保持部 170に含まれる構造化文書ファイル群（以下、単に「コーパス」とよぶ）のうち、調查対象となっている共通ペアの出現頻度を示す数値である。コーパスにおいて出現回数が少ないノードペアほど、稀少値は大きくなる。

[0031] 分布近似値取得部 160は共通ペアごとに分布近似値を算出する。共通ペアとなるノードペアの属性値は、コーパスにおいてはばらつきを生じる。たとえば、ある親子べァは、ある構造化文書では距離「3」として現れ、別の構造ィ匕文書では距離「8」として現れる力もしれなレ、。一方、別の親子ペアの距離は、コーパスにおいて「3〜5」の範囲でばらつくかもしれない。分布近似値は、このような共通ペアの属性値のばらつきを考慮した上で、ノード類似値を補正するための指標値である。分布近似値については、図 7や図 8に関連して詳述する。補正部 156は、ノード類似値を稀少値や分布近似値に基づいて補正する。具体的な補正方法についても後述する。

[0032] 文書類似値算出部 162は、クエリ文書と被検査文書との関係で検出された各共通ペアのノード類似値から、クエリ文書と被検查文書のタグ構造の類似度を文書類似値として算出する。たとえば、クエリ文書と被検査文書に複数個の共通ペアが含まれるときには、それらの共通ペアについてのノード類似値の合計値や平均値を文書類似値として算出してもよい。本実施例においては、ノード類似値の合計値を文書類似値として算出する。共通ペアが多いほど、また、ノード類似値が大きいほど、文書類似値が大きくなる。文書類似値は、クエリ文書と被検査文書のタグ構造の類似性を指標化した数値である。

分布近似値については、図 7以降に関連して説明するものとして、まず、稀少値による補正も含めてノード類似値の計算式を示す。

[0033] [数 1]

ノ ( ¹ 直 ='^DFx ^ - ^-Diffe ence) ■■■ (3) 式（1)から式（3)は、あるクエリ文書 Aと被検査文書 Bにおいて親子ペアかつ共通ペアとなるノードペア Cを対象としてノード類似値を計算するための式である。

式（1)は、ノードペア Cの稀少値を算出するための式である。式（1 )において、 docu mentCountとあるのは、文書保持部 170に保持されている構造化文書ファイルの数である。すなわち、コーパスに含まれる文書数である。なお、文書保持部 170ではなぐ所定の外部データベースに含まれる文書群を対象として稀少値を計算してもよい。式（1)において、 distributionはコーパスにおいてノードペア Cの総出現回数を示す。コーパスにおいて文書数の割に出現回数が少ないほど、稀少値が大きくなる。稀少値算出部 158は、式（1 )に示す計算式にて稀少値を算出する。

[0035] 式（2)は、クエリ文書におけるノードペア Cの属性値と被検查文書におけるノードべァ Cの属性値との差異を Differece値として指標化するための計算式である。たとえば、クエリ文書におけるノードペア Cの距離が 3、被検查文書におけるノードペア Cの距離が 10であれば、ノードペア Cは共通ペアとはいえ、その出現態様は 2つの文書間で大きく異なるといえる。このような場合、 Difference値は大きくなる。

式（2)の qDistanceは、クエリ文書におけるノードペア Cの距離に関する属性値である。 dDistanceは被検査文書におけるノードペア Cの距離に関する属性値である。被検査文書中にノードペア Cが複数個ある場合には、それらの平均距離を示す。 maxDi stanceは、コーパスにおけるノードペア Cの最大距離を示す。最大距離が所定値、たとえば「10」を超えるときには一律に「10」とする。

同様に、 qFrequencyはクエリ文書におけるノードペア Cの「頻度」、 dFrequencyは被検査文書におけるノードペアじの「頻度」、 maxFrequencyはコーパスにおけるノードぺァの最大頻度を示す。最大頻度の上限も所定値として「10」に設定される。 qDepthはクエリ文書におけるノードペア Cの「深さ」、 dDepthは被検査文書におけるノードペア Cの「深さ」、 maxDepthはコーパスにおけるノードペア Cの最大深さを示す。最大深さの上限も所定値として「10」に設定される。

[0036] 式（2)の平方根中における第 1項は、クエリ文書と被検查文書におけるノードペア C の距離の差異を指標化する項である。同様に、第 2項は頻度の差異、第 3項は深さの差異を指標化する項である。第 1項から第 3項にて計算される距離、頻度、深さの 3要素の差異が小さいほど、 Diffrence値が小さくなる。

[0037] ひ、 /3、 γは、それぞれ、距離、頻度、深さの各要素についての重み付け係数である。親子ペアにおける距離の違いは、頻度の違いや深さの違いよりもタグ構造としての差異が大きいと考えられる。また、深さの違いは、距離の違いや頻度の違いよりもタグ構造としての差異が小さいと考えられる。そこで、本実施例においては、 α > β≥ γとなるようにひを 0. 7、 βを 0. 2、 γを 0. 1に設定する。 a、 β、 γの禾口が 1となるとレ、う前提のもと、コーパスに応じた実験によってひ、 βヽ γの好適値を求めればよレ、。ノード類似値算出部 154は、式（2)により Diffrence値を求め、ノード類似値をノード類似値 = (1.0— Diffrence値）

として算出する。

[0038] 式（3)は、式（1 )から求められた稀少値により、式（2)から求められたノード類似値を補正するための計算式である。補正部 156は、稀少値とノード類似値を乗算することにより、ノード類似値を補正する。この補正後のノード類似値が、クエリ文書におけるノードペア Cの出現態様と被検查文書におけるノードペア Cの出現態様の類似度を示す。比較対象となる 2つの文書において、稀少なノードペアが共通ペアとして現れるとき、ノード類似値は大きな値となる。このようなノードペアはクエリ文書と被検査文書のタグ構造の類似性を示す重要なノードペアであるといえる。これは、 TF (Term Frequency) ' IDF (Inverse Document Frequency)法の考え方 J心用してレヽる。一方、コーパスにおいてよく出現するノードペアは、比較対象となる 2つの文書の類似性を特に示唆するものではないため、ノード類似値は小さな値に補正される。

[0039] 図 6は、ノード類似値を表示する画面図である。

クエリ文書と被検査文書が指定されると、表示部 136はクエリ文書の親子ペアに対応して複数個の表示領域 (以下、「ペアボックス」とよぶ）をマトリックス状に配置し、各ペアボックスにノード類似値を表示させる。同図は、

、 progress >

く header

、 summary > summary

< /header >

< body >

^ scnedule >

、 term < / term

< /schedule >

< this-week >

< project > < / project > < task > < / task >

< output > < / output >

< /this-week >

というクエリ文書のタグ構造に対応した表示画面である。文書取得部 134がクエリ文書を取得すると、ノードペア検出部 142はクエリ文書のタグ構造を走査して、計 22個の親子ペアを検出する。属性値取得部 144は、各親子ペアについて距離、頻度、深さについての属性値を検出する。インデックス情報生成部 146はインデックス情報を生成し、インデックス情報保持部 172に記録する。クエリ文書は、文書保持部 170に保持される。

[0040] 共通ペア検出部 152は、文書保持部 170から順次、被検査文書を選択する。あるレ、は、ユーザは入力部 132を介して比較対象となる被検査文書を明示的に指定してもよい。共通ペア検出部 152は、クエリ文書のインデックス情報と被検査文書のインデッタス情報を参照して、共通ペアを検出する。く body>とく output >、く this-week >と< output >の親子ペアは、被検査文書からは検出されていないが、それ以外の親子ペアは検出されている。すなわち、クエリ文書の 22個の親子ペアのうち、これら 2 つ以外の 20個の親子ペアは共通ペアとなる。ノード類似値算出部 154はこれら 20個の共通ペアについてノード類似値を算出し、補正部 156は各ノード類似値を稀少値によって補正する。表示部 136は、クエリ文書の各親子ペアについてペアボックス内にノード類似値を表示させる。

[0041] 20個の共通ペアの中でも、 < schedule >タグと < term >タグによる共通ペアのノード類似値は、最高の 5. 33である。クエリ文書と被検查文書を比較したとき、特にこの共通ペアの出現態様が類似していることがわかる。表示部 136は、ノード類似値が所定値、たとえば、 5. 00以上となる共通ペアのペアボックスを他の共通ペアのペアボッタスとは異なる色彩にて表示する。たとえば、ペアボックスを濃赤色で表示する。

[0042] また、く progress >タグとく term >タグによる共通ペアのノード類似値は 4. 32、 < b ody>タグとく term >タグの共通ペアのノード類似値は 4. 38である。これらの共通べァは、く schedule >タグとく term >タグによる共通ペアほどではないものの、出現態様が類似するノードペアである。表示部 136は、ノード類似値が 4. 00以上となるぺァボックスを淡赤色で表示する。また、ノード類似値が 4. 00未満のペアボックスは白色表示される。このような表示方法によれば、クエリ文書と被検查文書を比較したときに、出現態様が特に類似するノードペアを視覚的に特定しやすくなる。

[0043] 文書類似値算出部 162は、各ノード類似値の合計値を文書類似値として算出する。類似判定部 150は、クエリ文書に対する被検査文書の文書類似値を計算することにより構造類似検索を実行する。たとえば、文書類似値が大きい順から所定数の被検査文書をクエリ文書に類似する構造化文書として選定する。表示部 136は更に、図示しないランキング表示部を備えてもよい。ランキング表示部は、あるクエリ文書について計算された文書類似値が高い順に、所定数、たとえば、 20個の被検査文書を選択し、そのタイトルを一覧表形式にてランキング表示する。あるいは、文書類似値力所定値、たとえば、 80点以上となる被検査文書を文書類似値が高い順にランキング表示する。このような表示方法によれば、クエリ文書にタグ構造が似ている被検查文書を網羅的に認識しやすくなる。

[0044] また、このような構造類似検索の考え方によれば、 Xpath式による曖昧検索が可能となる。たとえば、「/body/note/chapter/para」とレ、う Xpath式を検索式として、被検査文書から該当位置を探す場合、通常の Xpath検索であれば「/body/a/noteん hapter /parajとレ、う位置のタグはヒットしなレ、。「a」とレ、う条件にあわなレ、タグが含まれてレ、るためである。し力し、ノードペア「body/note」「note/chapter^ciどについてノード類似値を検索することにより、検索式と完全に一致しなくともそれに近い Xpath検索が可能となる。

[0045] 図 7は、ある薬品情報データベースを対象としてノードペアを調査した結果を示す図である。

調查対象になった構造化文書は XML文書であり、文書数 11682、総サイズは約 4 00メガバイトである。このデータベースからは、 2020種類の親子ペア、 1548種類の繰り返しペア、 1044種類の兄弟ペアが検出された。 2020種類の親子ペアのうち、最高頻度で出現した親子ペアは 13749回出現している。また、 1つの親子ペアが文書群において出現する平均回数は 2335回であった。 2020種類の親子ペアのうち、最大距離は 10、平均距離は 2. 72である。ただし、親子ペアの距離の上限は 10として設定されている。同様に、親子ペアのうちの最大頻度は 83. 75、平均頻度は 1. 3 1、最大深さは 9. 00、平均深さは 2. 43であった。

[0046] 親子ペアについて、距離のばらつきを示す最大の標準偏差は 1. 55、平均的な標準偏差は 0. 20であった。すなわち、ある親子ペアの距離は、標準偏差 1. 55程度にばらつく力親子ペアの距離の平均的なばらつきは、標準偏差 0. 20程度であり、親子ペアの距離はそれほどばらっかないことがわかる。頻度のばらつきは、最大の標準偏差 46. 40、平均的な標準偏差 0. 40であり、大きくばらつくことがわかる。また、深さのばらつきは、最大の標準偏差は 1. 65、平均的な標準偏差は 0. 10である。繰り返しペアや兄弟ペアについても同図に示すような結果が得られた。

[0047] このように親子ペアや兄弟ペアのようなノードペアの種類ごとに、ひいては、ノードペアごとに、属性値のばらつき方はさまざまである。そこで、分布近似値取得部 160 は、ノードペアの属性値のばらつきを考慮してノード類似値を補正するための変数として、分布近似値を算出している。あるノードペア Aの属性値のばらつき方が正規分布となる場合、属性値の平均値/ 土標準偏差 σの範囲に、コーパスから検出されたノードペア Αのうちの約 68%が収まることになる。また、 μ ± 2 σの範囲に約 95%が収まることになる。

[0048] たとえば、クエリ文書 Αと被検查文書 Βとの間で検出された共通ペア Cについて、クエリ文書 Aにおける共通ペア Cの距離は、 μ - 2. 5 σの大きさにあたるとする。一方、被検查文書 Βにおける共通ペア Cの距離は、 μ + 1. 8 σの大きさにあたるとする。共通ペア Cは、クエリ文書 Αにも被検查文書 Βにも現れている力その統計的な位置は大きく隔たっている。このような場合、分布近似値は小さくなり、ノード類似値が小さくなるように補正される。

[0049] 図 8は、分布近似値を求めるための表である。

たとえば、あるノードペア Aの距離が μ以上 μ + σ未満であり、被検查文書におけるノードペア Αの距離も μ以上 μ + σ未満であればノードペア Αの距離についての分布近似値は 1. 0となる。このように、クエリ文書における共通ペアの属性値と被検查文書における共通ペアの属性値が統計的に近い関係にあるときに分布近似値は 1 . 0となる。一方、クエリ文書における共通ペアの属性値の位置と被検查文書における共通ペアの属性値の位置の差が σ以上 2 σ未満であれば分布近似値は 0. 5となる。同様に、 2 σ以上 3 σ未満であれば 0. 3、 3 σ以上 4 σ未満であれば 0. 2、 4 σ以上であれば 0. 1となる。

[0050] 補正部 156は、式（3)に分布近似値を乗算することにより、ノード類似値を補正する。たとえば、距離、頻度、深さのそれぞれについての分布近似値を式（3)の補正後のノード類似値に乗算することにより、標準偏差を考慮した力たちで最終的なノード類似値を求めてもよい。このような処理方法によれば、クエリ文書と被検査文書の共通ペアの属性値について、統計的に遠い関係にある場合には、ノード類似値が大きく抑制されることになる。

[0051] あるいは、式（3)の（qDistance-dDistance)の部分を、距離の分布近似値で除算することにより、 qDistance-dDistance/ (距離についての分布近似値）に変更してもよい。頻度や深さについても同様である。このような処理方法によれば、統計的に遠い関係にある属性値が存在するときには、 Diffrence値が大きくなり、したがって、ノード類似値が小さくなる。

なお、レ、うまでもなぐ図 8に示した分布近似値の設定は一例にすぎず、コーパスに応じて分布近似値の好適な設定値を求めればよい。

[0052] 以上、実施例に基づいて本発明を説明した。

文書処理装置 100は、クエリ文書のタグ構造と被検查文書のタグ構造を比較し、ノードペアを単位として構造上の類似性をノード類似値や文書類似値として数値化できる。構造類似検索はシンプルなアルゴリズムで実現できるため、高速な検索が可能である。

[0053] ノードペアの属性値として、距離、頻度、深さというシンプルな要素を設定することにより、属性値取得のための処理が単純化されている。また、コーパスにおいて特徴的なノードペアは、ノード類似値が高くなるように稀少値によって補正される。そのため、クエリ文書と被検查文書の類似性を判定する上で有用なノードペアとそうでないノードペアを考慮した検索が可能となる。また、ノードペアごと、また、その属性値ごとのばらっきを考慮した上で、ノード類似値が補正される。そのため、共通ペアとして検出されても、統計的に遠い関係にある属性値を含む場合には、ノード類似値が小さくなるため、構造類似検索の精度をいつそう高めることができる。また、タグ名の類似性を考慮することにより、より実際的な構造類似検索が可能となる。

[0054] 以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにレ、ろレ、ろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

[0055] 請求項に記載の稀少補正部の機能は、本実施例においてはノード類似値算出部 1 54と補正部 156によって実現される。また、請求項に記載の分布補正部の機能は、本実施例においてはノード類似値算出部 154と補正部 156によって実現される。請求項に記載のノード類似値表示部の機能は、本実施例においては表示部 136によつて実現される。

これら請求項に記載の各構成要件が果たすべき機能は、本実施例において示された各機能ブロックの単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。

産業上の利用可能性

[0056] 本発明は、構造化文書ファイルを対象とした検索装置において利用可能である。

Claims

請求の範囲

[1] 所定のタグセットで記述された構造化文書ファイルから、所定の位置関係にあるタグのペアをノードペアとして検出するノードペア検出部と、

構造ィヒ文書ファイルにおけるノードペアの出現態様を所定の規則により属性値として指標化する属性値取得部と、

ノードペアとその属性値を対応づけたインデックス情報を生成するインデックス生成部と、

第 1の構造化文書ファイルから検出されたノードペア群と第 2の構造化文書ファイル力検出されたノードペア群に共通するノードペアを共通ペアとして検出する共通べァ検出部と、

第 1の構造化文書ファイルのインデックス情報と第 2の構造ィヒ文書ファイルのインデックス情報を参照して、第 1の構造化文書ファイルにおける共通ペアの属性値と第 2 の構造化文書ファイルにおける共通ペアの属性値の類似度をノード類似値として指標化するノード類似値算出部と、

を備えることを特徴とする文書処理装置。

[2] 前記属性値取得部は、ノードペアに含まれる 2つのタグの相対的な位置関係、ノードペアに含まれるタグの構造化文書ファイル中における位置、または、構造化文書フアイル中におけるノードペアの出現回数を属性値として指標化することを特徴とする請求項 1に記載の文書処理装置。

[3] 第 1の構造化文書ファイルと第 2の構造化文書ファイルに関する共通ペアについて算出されたノード類似値から、第 1の構造化文書ファイルと第 2の構造化文書フアイルの文書構造としての類似度を文書類似値として算出する文書類似値算出部を更に備えることを特徴とする請求項 1に記載の文書処理装置。

[4] 比較対象となる第 1の構造化文書ファイルに対して、複数の第 2の構造化文書ファィルについての文書類似値がそれぞれ算出されたとき、文書類似値が高い順に第 2 の構造化文書ファイルのタイトルを一覧表示させるランキング表示部を更に備えることを特徴とする請求項 3に記載の文書処理装置。

[5] 前記共通ペア検出部は、第 1の構造化文書ファイルから検出されたノードペアに含まれるタグ名を示す文字列と第 2の構造化文書ファイルから検出されたノードペアのタグ名を示す文字列が類似関係にあるかを所定の評価規則により判定し、類似関係にあるときにはそれらのノードペアも共通ペアとしての検出対象とすることを特徴とする請求項 1に記載の文書処理装置。

[6] 複数の構造化文書ファイルを対象として検查対象となるノードペアの発生頻度を計数することにより、前記複数の構造化文書ファイルにおいてそのノードペアが出現する稀少さを稀少値として算出する稀少値算出部と、

稀少値が高い共通ペアのノード類似値が高くなるように、稀少値に応じてノード類似値を補正する稀少補正部と、

を更に備えることを特徴とすることを特徴とする請求項 1に記載の文書処理装置。

[7] 複数の構造化文書ファイルを対象として検査対象となるノードペアの属性値の統計的な分布範囲を特定し、第 1の構造化文書ファイルにおける共通ペアの属性値の前記分布範囲中における位置と第 2の構造化文書ファイルにおける共通ペアの属性値の前記分布範囲中における位置の近さを分布近似値として算出する分布近似値算出部と、

前記分布範囲における位置が近い共通ペアのノード類似値が高くなるように、分布近似値に応じてノード類似値を補正する分布補正部と、

を更に備えることを特徴とする請求項 1に記載の文書処理装置。

[8] 第 1の構造化文書ファイルから検出されたノードペアに対応する複数の表示領域を画面上に配置し、第 2の構造ィヒ文書ファイルとの関係で検出された共通ペアについてのノード類似値に応じて、共通ペアに対応する表示領域の表示態様を変化させるノード類似値表示部を更に備えることを特徴とする請求項 1に記載の文書処理装置。

[9] 所定のタグセットで記述された構造化文書ファイルから、所定の位置関係にあるタグのペアをノードペアとして検出するステップと、

構造ィ匕文書ファイルにおけるノードペアの出現態様を所定の規則により属性値として指標化するステップと、

ノードペアとその属性値を対応づけたインデックス情報を生成するステップと、第 1の構造化文書ファイルから検出されたノードペア群と第 2の構造化文書ファイルから検出されたノードペア群に共通するノードペアを共通ペアとして検出するステツプと、

第 1の構造化文書ファイルのインデックス情報と第 2の構造ィヒ文書ファイルのインデックス情報を参照して、第 1の構造化文書ファイルにおける共通ペアの属性値と第 2 の構造化文書ファイルにおける共通ペアの属性値の類似度をノード類似値として指標化するステップと、

を備えることを特徴とする文書処理方法。

所定のタグセットで記述された構造化文書ファイルから、所定の位置関係にあるタグのペアをノードペアとして検出する機能と、

構造ィヒ文書ファイルにおけるノードペアの出現態様を所定の規則により属性値として指標化する機能と、

ノードペアとその属性値を対応づけたインデックス情報を生成する機能と、第 1の構造化文書ファイルから検出されたノードペア群と第 2の構造化文書ファイルから検出されたノードペア群に共通するノードペアを共通ペアとして検出する機能と第 1の構造化文書ファイルのインデックス情報と第 2の構造ィヒ文書ファイルのインデックス情報を参照して、第 1の構造化文書ファイルにおける共通ペアの属性値と第 2 の構造化文書ファイルにおける共通ペアの属性値の類似度をノード類似値として指標化する機能と、

をコンピュータに発揮させることを特徴とする文書処理プログラム。