WO2010073592A1

WO2010073592A1 - 情報推定装置、情報推定方法、及びコンピュータ読み取り可能な記録媒体

Info

Publication number: WO2010073592A1
Application number: PCT/JP2009/007072
Authority: WO
Inventors: 河合剛巨; 中澤聡; 安藤真一
Original assignee: 日本電気株式会社
Priority date: 2008-12-26
Filing date: 2009-12-21
Publication date: 2010-07-01
Also published as: US20110320452A1; JP5494978B2; JPWO2010073592A1

Abstract

　分析対象となる文書集合において発信時点が特定されていない文書の発信時点を推定する情報推定装置１は、文書集合から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定し、特定された文書のドキュメント構造から、文書集合に含まれる文書のリンク関係を抽出する構造解析部３と、特定された文書と抽出されたリンク関係とを用いて、文書のグループを設定するグルーピング部４と、設定されたグループと、グループに含まれる発信時点が特定された文書の発信時点とに基づき、グループに含まれる発信時点が特定されていない文書の発信時点を推定する推定部５とを備えている。

Description

情報推定装置、情報推定方法、及びコンピュータ読み取り可能な記録媒体

　本発明は、情報推定装置、情報推定方法、及びコンピュータ読み取り可能な記録媒体に関する。

　情報発信に対するコストの低下に伴い、今日のインターネットでは膨大な量の情報が提供されている。また、同様に、企業等におけるイントラネットにおいても、大量の情報が提供されている。こうした情報は、多くの場合、「Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ」（「ウェブ」）の仕組みを用いて、ウェブページとして提供されている。ユーザは、このようなウェブページから必要な情報を見つけることができる。

　ところで、ウェブページによって提供される情報は、雑多であるため、その情報の正しさについて、判断の必要がある。こうした判断の手がかりの一つとして、ウェブページなどのコンテンツに対する発信日付や発信時刻といった情報は、有益であり、役に立っている。

　但し、必ずしも全てのウェブページやコンテンツに対して発信日付や発信時刻といった情報が付与されているわけではない。そのため、発信日付や発信時刻といった情報が付与されていないページについては、いつ発信されたのか判断することが難しい。そこで、例えば、特許文献１は、ウェブページ中にコンテンツの作成日付が明示的に書かれていない場合でも、このコンテンツがいつ頃アップされたのかをユーザに提示する方法の１つを提案している（特許文献１）。

　特許文献１の方法では、先ず、更新されたページの情報が一覧にまとめられているウェブページが、ユーザによって指定される。そして、この指定されたウェブページ（指定ウェブページ）から、更新されたページへのリンク情報が取得される。更に、指定ウェブページを定期的に参照し、前回の指定ウェブページと今回の指定ウェブページとを比較し、比較の結果、更新されたページへのリンク情報に新たな差分が見つかった場合は、比較を行った日付がリンク先のページの作成日とされる。

　また、非特許文献１は、既に発信日付の分かっているウェブページを使って、発信日付の不明なウェブページの発信日付を推定する方法を開示している。具体的には、先ず、ページ内の単語に基づいて時期と内容が類似するウェブページの文書クラスタリングが行われ、次いで、発信日付の不明なウェブページがどのクラスタに分類すべきかが判断される。そして、分類先のクラスタの複数のウェブページの発信日付を使って、発信日付の不明なウェブページの発信日付が推定される。

特開２００７－１４１０３３号公報

Hiroshi UEJIMA、Takao MIURA、Isamu SHIOYA: 　"Estimating Timestamp From Incomplete News Corpus"、COMMUNICATIONS IN INFORMATION AND SYSTEMS、Vol．4、No．4、pp．273－288（2004）

　しかしながら、上記の特許文献１及び非特許文献１に開示された方法には、以下の問題点がある。先ず、特許文献１に開示された方法では、更新されたページを一覧にまとめているウェブページの指定が必要であるため、そのようなウェブページに記載されないウェブページについては対応することが出来ないという課題がある。

　一方、非特許文献１に開示された方法では、発信日付が既知のウェブページを使って、発信日付が未知のウェブページの発信日付が推定される。このため、更新されたページを一覧にまとめたウェブページの指定は必要とされない。

　しかし、非特許文献１に開示された方法では、ウェブページ内の単語に基づいて発信日付が推定されるため、各ウェブページの単語の出現傾向が異なると、正しく推定ができないという問題がある。つまり、各ウェブページで用いられる単語が異なっていると、本来分類すべきクラスタへ適切に分類できないため、正しく推定することができなくなる。

　本発明の目的は、上記問題を解消し、コンテンツを構成する文書に発信日付や時間表現が明示的に記述されていない場合でも、当該コンテンツの発信時点を推定し得る、情報推定装置、情報推定方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。

　上記目的を達成するため、本発明における情報推定装置は、分析対象となる文書集合において発信時点が特定されていない文書の発信時点を推定する情報推定装置であって、
　前記文書集合から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定し、特定された前記文書の前記ドキュメント構造から、前記文書集合に含まれる文書のリンク関係を抽出する構造解析部と、

　前記構造解析部によって特定された前記文書と、前記構造解析部によって抽出された前記リンク関係とを用いて、文書のグループを設定する、グルーピング部と、　前記グルーピング部が設定した前記グループと、前記グループに含まれる発信時点が特定された文書の発信時点とに基づき、前記グループに含まれる発信時点が特定されていない文書の発信時点を推定する推定部とを、備えることを特徴とする。

　また、上記目的を達成するため、本発明における情報推定方法は、分析対象となる文書集合において発信時点が特定されていない文書の発信時点を推定するための情報推定方法であって、

（ａ）前記文書集合から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定し、特定された前記文書の前記ドキュメント構造から、前記文書集合に含まれる文書のリンク関係を抽出するステップと、
（ｂ）前記（ａ）のステップによって特定された前記文書と、前記（ａ）のステップによって抽出された前記リンク関係とを用いて、文書のグループを設定するステップと、（ｃ）前記（ｂ）のステップで設定された前記グループと、前記グループに含まれる発信時点が特定された文書の発信時点とに基づき、前記グループに含まれる発信時点が特定されていない文書の発信時点を推定するステップとを、有することを特徴とする。

　更に、上記目的を達成するため、本発明におけるコンピュータ読み取り可能な記録媒体は、コンピュータに、分析対象となる文書集合において発信時点が特定されていない文書の発信時点を推定させるための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、

（ａ）前記文書集合から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定し、特定された前記文書の前記ドキュメント構造から、前記文書集合に含まれる文書のリンク関係を抽出するステップと、
（ｂ）前記（ａ）のステップによって特定された前記文書と、前記（ａ）のステップによって抽出された前記リンク関係とを用いて、文書のグループを設定するステップと、（ｃ）前記（ｂ）のステップで設定された前記グループと、前記グループに含まれる発信時点が特定された文書の発信時点とに基づき、前記グループに含まれる発信時点が特定されていない文書の発信時点を推定するステップとを、実行させる、命令を含むプログラムを記録していることを特徴とする。

　以上のように本発明における、情報推定装置、情報推定方法、及びコンピュータ読み取り可能な記録媒体によれば、コンテンツを構成する文書に発信日付や時間表現が明示的に記述されていない場合でも、当該コンテンツの発信時点を推定することが可能となる。

図１は、本発明の実施の形態における情報推定装置の概略構成を示すブロック図である。図２には、分析対象となる文書集合におけるリンク関係を示す図である。図３は、本発明の実施の形態における情報推定方法における処理の流れを示すフロー図である。図４は文書ＩＤで示される各文書の発信時点が特定されているかどうかの判定の結果を示す図である。図５は、図２に示されたリンク関係におけるリンク元とリンク先とを示す図である。図６は、任意の文書における他の文書へのリンク関係が目次的に示されたドキュメント構造の一例を示す図である。図７は、任意の文書における他の文書へのリンク関係が目次的に示されたドキュメント構造の一例を示す図である。図８は、グループ設定の一例を示す図である。図９は、推定処理の結果を示す図である。

　（実施の形態）
　以下、本発明の実施の形態における情報推定装置、情報推定方法、及びプログラムについて、図１～図３を参照しながら説明する。最初に、本実施の形態における情報推定装置の構成について説明する。図１は、本発明の実施の形態における情報推定装置の概略構成を示すブロック図である。図２には、分析対象となる文書集合におけるリンク関係を示す図である。

　図１に示す情報推定装置１は、分析対象となる文書集合において発信時点が特定されていない文書の発信時点を推定する装置である。図１に示すように、情報推定装置１は、構造解析部３と、グルーピング部４と、推定部５とを備えている。なお、分析対象となる文書集合において、一部の文書には、発信時点が特定されている。

　構造解析部３は、分析対象となる文書集合から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定し、更に、特定された文書のドキュメント構造から、文書集合に含まれる文書のリンク関係（図２参照）を抽出する。

　ここで、「ドキュメント構造」とは、ある文書において論理的な文書構成を記述した情報のことである。論理的な文書構成としては、例えば概要部分やタイトル、章、節などの構成要素を含む文書構成があげられる。これらの構成要素が他の文書に存在する文書において、ドキュメント構造を分析すれば、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定することができる。

　そして、特定された文書のドキュメント構造には、他の文書へのリンク関係が目次的に示されているから、構造解析部３は、このドキュメント構造から同じ発信時点のグループの候補となるリンク関係を抽出することができる。他の文書へのリンク関係が目次的に示されたドキュメント構造に基づいて同じ発信時点のグループの候補を示すリンク関係を抽出する理由は、次の通りである。つまり、文書の論理的な構成要素が複数の文書に跨って一つの構成を成している場合には、これらの複数の文書は同時期に発信された可能性が高いため、これらの文書へのリンク関係を特定することにより、同時期に発信された文書集合を特定でき、各文書の発信時点を推定することができる。例えばウェブページであれば、文書の論理的な構成要素が複数のウェブページに跨っている場合があり、これらのウェブページは同時点に発信されている可能性が高いため、これらの一部のウェブページの発信時点から他のウェブページの発信時点を推定することができる。
である。

　抽出されるリンク関係としては、例えば、図２に示すリンク関係が挙げられる。図２は、各文書をノードとし、各リンクをエッジとするグラフ構造を示している。各リンクを示す矢印の向きは、リンク元からリンク先へハイパーリンクが張られていることを意味している。

　グルーピング部４は、構造解析部３によって特定された文書と、同じく構造解析部３によって抽出されたリンク関係とを用いて、発信時点が特定されていない文書を含むグループを設定する。なお、グルーピング部４が設定するグループの数は一以上であれば良い。推定部５は、グルーピング部４が設定したグループと、当該グループに含まれる発信時点が特定された文書の発信時点とに基づき、当該グループに含まれる発信時点が特定されていない文書の発信時点を推定する。

　このような構成により、情報推定装置１は、コンテンツを構成する文書に発信日付や時間表現が明示的に記述されていない場合でも、当該コンテンツがいつ頃発信されたのかを推定することが出来る。その理由は、情報推定装置１によれば、発信時点の特定できた文書から、同時期に発信されたと考えられる文書の集合（グループ）をリンク関係に基づいて推定できるからである。

　続いて、本実施の形態における情報推定装置１について、更に具体的に説明する。図１に示すように、本実施の形態における情報推定装置１は、情報推定装置１は、後述するように、プログラム制御によって動作するコンピュータによって実現されている。更に、情報推定装置１は、基準時点判定部２と、入力受付部６とを備えている。入力受付部６は、外部の入力装置から入力された情報の受け付けを行っている。

　基準時点判定部２は、分析対象となる文書集合に含まれる文書それぞれに対して、発信時点が特定されているかどうかを判定する。例えば、図２において、文書ＩＤ＝０の文書、文書ＩＤ＝１の文書、及び文書ＩＤ＝４の文書に、発信時点が特定されている場合は、基準時点判定部２は、これら三つの文書については、発信時点が特定されていると判定する。なお、以降の説明においては、文書ＩＤはカッコ書で記載する。例えば、文書（０）、文書（１）等のように記載する。

　また、情報推定装置１には、記憶装置１０と、入力装置２０と、出力装置３０とが接続されている。入力装置２０は、分析対象となる文書集合、及び情報推定装置１への指示を入力する装置である。例えば、入力装置２０としては、キーボードやマウス等の入力機器、更に、ネットワークで接続された別のコンピュータが挙げられる。出力装置３０は、推定部５による推定結果を外部に通知するための装置である。出力装置としては、ディスプレイ装置や、印刷装置等の出力機器が挙げられる。

　ここで、本明細書において用いられる用語について説明する。本明細書において用いられる「発信時点」とは、あるコンテンツが発信された時点に関する時間情報である。時間情報は、例えば、月日や年月日といった日付の情報等である。また、発信時点は、更新日などのコンテンツが更新された時点の時間情報であっても良く、作成日などのコンテンツが作成された時点の時間情報であっても良い。発信時点を推定する情報推定装置１において、年まで区別する必要がある場合には、発信時点は、年月日のそれぞれの要素を有する必要がある。但し、情報推定装置１において、ある年内に作成されたコンテンツのみが扱われる場合は、発信時点は、月日の要素のみを有していれば良い。その他、発信時点は、年月日に加えて時分秒といった要素までも有していても良い。

　また、本明細書において用いられる「文書」には、コンピュータ等のデータ処理装置において、読み込み及び格納が可能なあらゆる情報が含まれる。文書としては、例えば、ウェブページ、ファイル、及びファイルの組み合わせ等が挙げられる。

　更に、本明細書において用いられる「コンテンツ」とは、文書の内容であるが、あるまとまりのある情報単位を意味している。つまり、１つのコンテンツからなる文書の場合もあれば、複数のコンテンツからなる文書の場合もある。例えば、ある１つのＵＲＬで示されるウェプページ中に複数の記事が含まれ、それぞれの記事は別の発信日付を有する場合がある。この場合には、ウェブページを文書とし、ページ中に含まれる複数の各記事をコンテンツの１つとして解釈することができる。

　本実施の形態１において、入力受付部６が受け付けた文書集合、即ち、分析対象となる文書集合は、記憶装置１０における文書記憶部１１に格納される。分析対象となる文書集合は、事前に収集され、文書記憶部１１に格納されていても良い。また、情報推定装置１は、一部の文書集合から処理を始め、これらのリンク先を判断した後、必要に応じて、文書集合を更に収集し、新たに収集した文書集合を文書記憶部１１に格納することもできる。

　また、分析対象となる文書集合は、それがウェブページである場合は、例えば、ＵＲＬが特定のドメインネームに属しているウェブページ集合や、ＵＲＬ中のディレクトリパスが特定のディレクトリパスを有しているウェブページ集合等に制限されていても良い。その理由は、同じ発信時点で作成されたコンテンツからなるウェブページ集合は、同一のドメインネームを有するＵＲＬや、共通のディレクトリパスを有するＵＲＬのウェブページ集合であることが多いためである。よって、このような制限を設けることにより、推定高精度の向上や、対象数の減少による処理時間の短縮化を図ることができる。なお、このような制限が設けられずに、処理が行われる態様であっても良い。

　更に、本実施の形態では、上述のように文書がウェブページである場合は、構造解析部３は、ウェブページに記述されている、ＨＴＭＬタグ及びＤＯＭツリーの部分木のうち少なくとも一つと、ハイパーリンクとを用いて、上述したドキュメント構造を有する文書の特定を行うことができる。その他にも、例えば、構造解析部３は、ＳＧＭＬファイルであれば、ＳＧＭＬのタグ及びタグ構造の少なくとも一つと、ｕｒｌタグとを用いて、リンク関係を抽出する。また、構造解析部３は、ＸＭＬファイルであれば、ＸＭＬのタグ及びＸＭＬのＤＯＭツリーの部分木のうちの少なくとも一つと、Ｘｌｉｎｋ等のリンクの情報とを用いて、リンク関係を抽出する。

　また、本実施の形態では、グルーピング部４は、発信時点が特定された文書と、当該文書との間でリンクを有し、且つ、発信時点が特定されていない文書とを組み合わせて、グループを設定することができる。また、この態様では、グルーピング部４は、発信時点が特定されていない文書が、複数の発信時点が特定された文書との間でリンクを有する場合に、発信時点が特定されていない文書を、発信時点が古い方の文書に組み合わせてグループを設定する。これにより、より正確な発信時点の推定が可能になる。なぜなら、一般には文書の論理的な関係には様々な種類があることから複数のグループが設定でき、ある文書は複数のグループに重複する可能性があるが、後で設定された論理関係は、先に設定された論理関係にある文書集合中の文書を引用している可能性が高いためである。

　例えば、上述したように、図２において、文書（０）、文書（１）、及び文書（４）に、発信時点が特定されている場合を考える。この場合は、グルーピング部４は、文書（０）で一つのグループを設定し、文書（１）と、文書（２）及び文書（３）とで一つのグループを設定し、文書（４）と、文書（５）及び文書（６）とで一つのグループを設定することができる。

　また、本実施の形態では、推定部５は、上記のグルーピングが行われる場合は、各グループにおける発信時点が特定された文書の発信時点を、当該グループにおける発信時点が特定されていない文書の発信時点として、推定することができる。上述した図２の例では、推定部５は、文書（２）及び文書（３）の文書の発信時点を、文書（１）の文書の発信時点と推定する。同様に、推定部５は、文書（５）及び文書（６）の文書の発信時点を、文書（１）の文書の発信時点と推定する。

　次に、本発明の実施の形態における情報推定方法について図３を用いて説明する。図３は、本発明の実施の形態における情報推定方法における処理の流れを示すフロー図である。また、本実施の形態において、情報推定法は、図１に示した情報推定装置１を動作させることによって実施される。このため、以下においては、情報推定方法における処理の流れは、適宜図１及び図２を参酌しながら、図１に示す情報推定装置１の動作と共に説明する。

　図３に示すように、最初に、基準時点判定部２によって、文書記憶部１１から、分析対象となる文書集合が取り出され、それに含まれる文書それぞれに対して、発信時点が特定されているかどうかが判定される（ステップＡ１）。基準時点判定部２は、発信時点が特定された文書がいずれであるかを示す情報を、構造解析部３とグルーピング部４とに入力する。

　次に、構造解析部３によって、文書集合から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書が特定され、更に、特定された文書のドキュメント構造から、文書集合に含まれる文書のリンク関係（図２参照）が抽出される（ステップＡ２）。

　次に、グルーピング部４は、ステップＡ２で特定された文書と、同じくステップＡ２で抽出されたリンク関係とを用いて、発信時点が特定されていない文書を含む文書のグループを設定する（ステップＡ３）。具体的には、グルーピング部４は、発信時点が特定された文書と、当該文書との間でリンクを有する、発信時点が特定されていない文書とを組み合わせる。

　その後、推定部５は、ステップＡ３で設定されたグループと、当該グループに含まれる発信時点が特定された文書の発信時点とに基づき、当該グループに含まれる発信時点が特定されていない文書の発信時点を推定する（ステップＡ４）。具体的には、推定部５は、各グループにおいて、発信時点が特定された文書の発信時点を、発信時点が特定されていない文書の発信時点とする。

　その後、発信時点が推定された文書は、出力装置３０に出力され、利用者に通知される。このように、本実施の形態における情報推定方法によれば、コンテンツを構成する文書に発信日付や時間表現が明示的に記述されていない場合でも、当該コンテンツがいつ頃発信されたのかの推定が可能となる。

　本発明の実施の形態におけるプログラムは、コンピュータに、図３に示すステップＡ１～Ａ４を実行させる命令を含むプログラムであれば良い。本実施の形態におけるプログラムをコンピュータにインストールし、このプログラムを実行すれば、本実施の形態における情報推定装置を実現することができ、また、本実施の形態における情報処理方法が実施される。この場合、コンピュータのＣＰＵ（central processing unit）は、基準時点判定部２、構造解析部３、グルーピング部４、及び推定部５として機能し、処理を行なう。また、本実施の形態では、記憶装置１０は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによっても実現できる。

　また、本発明の実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。

　次に、本発明における情報推定装置、情報推定方法、及びプログラムの実施例を、図４～図９を参照しながら説明する。また、以下の説明は、適宜、図１～図３を参酌しながら、図３に示したステップに沿って行う。

　また、以下に説明する実施例は、上述した実施の形態における情報推定装置、情報推定方法、及びプログラムに対応している。本実施例では、入力装置２０としては、キーボード及びマウスが用いられる。また、情報推定装置１は、コンピュータにプログラムをインストールすることによって実現されている。更に、記憶装置１０として、上記のコンピュータに備えられた磁気ディスク記録装置が用いられている。また、出力装置３０としては、ディスプレイ装置が用いられている。

［発信時点の判定処理：ステップＡ１］
　本実施例では、基準時点判定部２（図１参照）は、記憶装置１０に記憶された文書集合に含まれる各文書のコンテンツに対して、発信時点が既知であるか、又は未知であるかの判定を行う。既知の場合には、基準時点判定部２は、その発信時点の特定も行う。ここで既知と判定された文書は、後段の処理の発信時点推定のための基準の時点となる。

　基準時点判定部２は、事前にある文書について発信時点が与えられていればその文書を既知と判定し、そうでない文書については未知と判定することができる。また、基準時点判定部２は、事前に各文書に対して発信時点が与えられていなくても、発信時点の特定を試みて、発信時点が特定できた文書については既知と判定し、そうでない文書については未知と判定することができる。

　基準時点判定部２による発信時点の特定の方法としては、既存技術を用いた種々の方法が挙げられる。具体的な発信時点の特定の方法としては、例えば、文書中にコンテンツの発信時点が明示的に記述されている場合に、その記述された情報から特定する方法が挙げられる。また、その他、発信時点の特定の方法としては、文書中の日付表現、時刻表現、又はそれに類する時間を表す表現から抽出した情報を基に特定する方法も挙げられる。

　更に、基準時点判定部２は、対象とする文書に対してＲＳＳ等のフィードの情報が別途得られる場合、又は文書中にＲＤＦ（Resource Description Framework）の情報が記述されている場合には、これらの情報から発信時点を特定するようにしても良い。フィードとは、ＲＳＳ（RDF Site Summary、Rich Site Summary、Really Simple Syndication）や、Ａｔｏｍなどの、ウェブサイトやウェブページの配信フォーマットのことである。

　また、基準時点判定部２は、クローラー等の収集によりウェブページをアーカイブする際に取得したアーカイブ時点の情報や、対象文書をホストしているウェブサーバからのレスポンス情報から、文書の発信時点を特定するようにしても良い。

　本実施例では、図４に示すように、例えば、分析対象となる文書集合が、文書ＩＤが「０」から「８」の文書（文書（０）～文書（８））を含んでいる。文書ＩＤは各文書を区別するための識別子である。文書ＩＤはＵＲＬなどで示されても良い。ここで、図４は文書ＩＤで示される各文書の発信時点が特定されているかどうかの判定の結果を示す図である。図４において、発信時点が既知の場合にはその日付が示され、未知の場合には未知を示す情報が示されている。

　具体的には、図４では、文書（０）の文書のコンテンツの発信日付が「２０００年２月１０日」であると特定され、既知を示している。また、図４では、文書（２）のコンテンツの発信日付は、未知と判定され、「ｕｎｋｎｏｗｎ」を示すフラグである「ｕ」が入力されている。

［リンク関係抽出処理：ステップＡ２］
　構造解析部３は、分析対象となる文書集合の中から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定し、そのリンク関係を抽出する。具体的な例を図５に示す。図５は、図２に示されたリンク関係におけるリンク元とリンク先とを示す図である。図５に示すように、文書集合中の他の文書へのリンク関係が目次的に示されたドキュメント構造から、リンク関係（図２参照）が抽出されている。リンク関係は、リンク元の文書ＩＤとリンク先の文書ＩＤとの対応付けによって特定されている。

　ここで、図６及び図７を用いて、文書の他の文書へのリンク関係が目次的に示されたドキュメント構造の一例を示す。図６及び図７は、任意の文書における他の文書へのリンク関係が目次的に示されたドキュメント構造の一例を示す図である。なお、図６及び図７において、分析対象となる文書は、ウェブページであり、ＨＴＭＬ文書である。また、図６は、文書（０）のＨＴＭＬの一部を示し、図７は、文書（１）のＨＴＭＬの一部を示している。

　図６に示すように、本実施例では文書（０）の文書は、ＵＬ要素を用いた箇条書きの構成を示す記述を有している。そして、ＬＩ要素には、文書（１）や、文書（４）へのハイパーリンクが存在し、アンカーテキストとして、文書の目次の一部を示すような「ｃｈａｐｔｅｒ　１」、「ｃｈａｐｔｅｒ　２」といった文字列が含まれている。

　また、図７に示すように、文書（１）は、ＴＡＢＬＥ要素を用いた表の構成を示す記述を有している。そして、ＴＤ要素には、文書（２）や、文書（３）へのハイパーリンクが存在し、アンカーテキストとして、文書の目次の一部を示すような「ｓｅｃｔｉｏｎ　１」、「ｓｅｃｔｉｏｎ　２」といった文字列が含まれている。

　なお、図６及び図７に示す他の文書へのリンク関係が目次的に示されたドキュメント構造は、この他にも種々存在する。本発明は、図６及び図７に示される例に限定されることはない。

　また、本実施例において、他の文書へのリンク関係が目次的に示されたドキュメント構造を特定する方法としては、ドキュメント構造の特徴となるパターンを判定することで、該ドキュメント構造を特定する方法が挙げられる。また、この方法では、上記のパターンを複数組み合わせて判定することもでき、この場合は、パターンの組み合わせをしてルール化しておけば良い。このようなルールとしては、例えば、文書がＨＴＭＬやＸＭＬといったデータであれば、特定のタグに囲まれているアンカー要素を有するという条件や、特定のＸｐａｔｈで示される部分構造を有するという条件等が適用できる。

　例えば、Ｘｐａｔｈを用いる場合は、特定のドキュメント構造は「／／ｕｌ／ｌｉ／ａ」、「／／ｌｉ［＠class＝"ｃｈａｐｔｅｒ"］／ａ」、「／ｈｔｍｌ／ｂｏｄｙ／ｔａｂｌｅ／ｔｂｏｄｙ／ｔｒ／ｔｄ／ａ」といった構文等によって指定できる。同様に、リンク関係を用いる場合は、Ｘｐａｔｈである「／／ｕｌ／ｌｉ／ａ／＠ｈｒｅｆ」や、「／／ｌｉ／［＠ｃｌａｓｓ＝"ｃｈａｐｔｅｒ"］／ａ／＠ｈｒｅｆ」等によって指定できる。

　また、判定の精度を高めるために、特定のドキュメント構造に含まれるアンカーテキスト、属性名、又は周辺のテキストノードに、特定の単語や文字列を有する条件等が、付加されていても良い。これは、例えば、アンカーテキストやtitle属性の文字列に「前へ」、「次へ」、「先月」、「次月」、「前号」、「次号」、「＞＞」、「ＮＥＸＴ」、「続きを読む」などの文字列が存在する場合は、論理的な文書構成の構成要素となる可能性が高いためである。

　更に、他の文書へのリンク関係が目次的に示されたドキュメント構造を特定する別の方法としては、同じ発信時点のグループの要素へのなり易さを考慮した、スコア又は確率値を特定のルールに組み合わせた方法も挙げられる。例えば、他の文書へのリンク関係が目次的に示されたドキュメント構造の特徴となりうるパターンを、候補として多数列挙しておき、それぞれのパターンにスコアを与える。そして、スコアの和又は積を用いて、予め定められたスコアの閾値等の採用条件が満たされる場合に、同じ発信時点のグループの候補を示すリンク関係であると、判定すれば良い。このような特徴となるパターンは、例えば、ＨＴＭＬ文書であればＤＯＭツリーの任意の部分木、又はこれらの部分木に含まれるテキスト及び要素の情報から、網羅的に作成することができる。

　その他、他の文書へのリンク関係が目次的に示されたドキュメント構造を特定する別の方法としては、事前に同じ発信時点のグループが特定された訓練文書集合を用意する方法も挙げられる。この方法では、訓練文書集合から、グループ内の文書間のリンク関係と、当該リンクに関するドキュメント構造の特徴となるパターンと、公知の機械学習の手法とが用いられて、このようなドキュメント構造かどうかが判定される。

　例えば、事前に同じ発信時点のグループを特定しておいた訓練文書集合中において、あるドキュメント構造が正解となる事象を事象Ｃとし、そのときの事象Ｃの発生確率をＰ（Ｃ）とする。また、訓練文書集合において、事象Ｃが生起する条件の下でドキュメント構造の特徴パターンＸ_ｉが存在する条件付き確率をＰ（Ｘ_ｉ｜Ｃ）とする。このような場合、単純ベイズ確率モデルにより、同じ発信時点のグループの要素へのなり易さは、下記の数１のようにモデル化できる。ここで、αは、各事象Ｘ_ｉの発生する確率Ｐ（Ｘ_ｉ）に依存する定数である。

　上記数１のモデルを、対象とする文書に適用し、そして求めた確率値によって、ある確率値以上であると判定した場合は、当該ドキュメント構造に該当する部分のリンク関係が、同じ発信時点のグループの候補として抽出されれば良い。

　また、モデルの事象Ｃと同様にして、訓練文書集合中においてあるドキュメント構造が不正解となる事象Ｃ２についてもモデル化することができる。この場合は、Ｐ（Ｃ２｜Ｘ_１、・・・、Ｘ_ｎ）が求められる。そして、このＰ（Ｃ２｜Ｘ_１、・・・、Ｘ_ｎ）と、上記数１の確率とに対して、公知の最大事後確率推定法（ＭＡＰ推定法）を用いることで、同じ発信時点のグループの候補を示すドキュメント構造か、そうでないかの判定が可能となる。つまり、同じ発信時点のグループの候補を示すドキュメント構造の方が確からしいと判定された場合に、当該ドキュメント構造に該当する部分のリンク関係が、同じ発信時点のグループの候補として抽出されれば良い。

［グループ設定処理：ステップＡ３］
　本実施例では、グルーピング部４は、構造解析部３によって特定された文書と、同じく抽出されたリンク関係とに加えて、基準時点判定部２によってコンテンツの発信時点が特定された文書も用いて、文書のグループを設定する。また、このとき、グルーピング部４は、コンテンツの発信時点が重複しないようにして、発信時点が同一であると推定される文書のグループを設定する。

　発信時点が同一と推定される文書のグループの設定では、構造解析部３にて特定された、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書が、初期要素とされる。そして、当該文書との間で、発信時点が同一と推定されるグループの候補となるリンク関係にある文書が抽出され、これがグループに追加されて、グループが設定される。

　この時、グループに追加しようとする新たな文書が、発信時点の特定済みの文書である場合には、この文書は追加されない。一方、この時、追加しようとする文書が、発信時点が未知の文書である場合に、別のグループと重複することが分かる場合には、この文書は、古い発信時点を有するグループに優先して追加される。

　ここで、グルーピング部４によるグループの設定の例を説明する。例えば、図４と図５の情報が用いられると、図８で示されるグループが設定される。図８は、グループ設定の一例を示す図である。図８においては、同じ発信時点となるグループは、特定のグループＩＤによって識別されている。図８の例では、文書（１）と、文書（２）と、文書（３）とは、同じグループＩＤ「０」を有しており、これらは同一グループとなる。グループＩＤ「１」と、グループＩＤ「２」とについても同様である。

　以下に、図８に示されるグループの設定手順を具体的に説明する。先ず、図５を参照して、リンク元の文書ＩＤの文書と、当該リンク元の文書ＩＤを有するリンク先の文書の集合とから構成される、候補グループを作成する。次に、各候補グループを構成する文書について、リンク元の文書を確認し、発信時点が既知と判定されているリンク元の文書の中から発信時点の古い順に、下記の処理を実行する。

　例えば、図５に示されたリンク元となる文書のうち、図４に示された最も発信時点が古い文書は文書（１）である。このため文書（１）を含む候補グループを生成する。また、次に発信時点が古い文書（２）をリンク元に持つ候補グループも同様に生成する。なお、文書（０）は、リンク元の文書となり、リンク先としては、文書（１）と文書（４）とを有するが、文書（１）と文書（４）の発信時点が既知であるため、これらは文書（０）のグループに追加されることはない。

　また、図８に示されるグループの設定手順の別の例では、図５に示されたリンク元の文書を文書ＩＤの順に参照して、同じ発信時点のグループの候補となるリンク先の文書ＩＤが特定され、特定されたリンク先の文書を基準にして、グループが生成される。この手順が採用される場合では、別の発信時点のグループにも追加が可能で、グループの生成に重複を生じさせる文書が存在するときは、重複を生じさせる文書は、発信時点が古い方の文書のグループに優先して組み込まれる。

　例えば、図５を参照すると、文書（０）を基準にして、文書（１）及び文書（４）の各文書がグループ要素となるグループが、先ず、設定される。しかし、文書（１）及び文書（４）は、文書（０）よりも古い発信時点を有し、そして、それぞれが、文書（０）のグループとは別のグループにも属することになる。よって、文書（１）及び文書（４）は、文書（０）のグループに追加されることはない。

［推定処理：ステップＡ４］
　推定部５は、グルーピング部４が設定したグループと、発信時点が既知の文書とに基づいて、発信時点が未知の文書に対して発信時点を推定する。本実施例では、推定部５は、グルーピング部４が生成したグループについて、グループ内の発信時点が既知の文書を用いて、発信時点が未知の文書に既知の文書の発信時点を付与する。この場合、図４の発信時点が既知の文書と、図８に示されたグループとから、図４は、図９のように更新される。図９は、推定処理の結果を示す図である。

　また、グループに含まれない文書についての発信時点の推定は、次のようにして行うことができる。先ず、推定部５は、発信時点が最も古い文書を有するグループから順にグループを選択し、選択したグループに含まれる各文書を起点とし、起点となる各文書から始まるリンク関係（グループ外の文書へのリンク関係）の先の文書を辿る。更に、推定部５は、その文書からのリンク関係に基づいて、リンクの先の文書を繰り返し順に辿り、リンク先の文書を特定する。そして、推定部５は、特定された文書の発信時点が既知か未知かを判定し、ここで辿る際に発信時点が既知の文書に遭遇した場合には、その先のリンク関係は辿らない。また、推定部５は、リンクを辿った結果、発信時点が未知の文書に辿り着いた場合は、辿り着いた文書に、選択されたグループ内の文書（起点となった文書）の発信時点を適用し、これをその文書の発信時点と推定する。古い文書を有するグループから順にリンクを辿ることで推定する理由は、ハイパーリンクの参照関係などのように、先に存在する文書を後から参照していることが多いため、発信時点が未知の文書を古い順に推定を行う方が高い精度で発信時点を推定できるためである。

　例えば、具体例を以下に示す。先ず、図９の発信時点が確定された文書のグループに対して、発信時点の古い順にグループを選ぶと、グループＩＤ「０」、「１」、「２」の順にグループが選択できる。次に、発信時点の古い順に選んだグループについてみると、例えば、グループＩＤ「０」のグループには、発信時点の未知の文書として文書（２）と文書（３）とがあることがわかる。

　続いて、それぞれの文書ＩＤをリンク元として、リンク関係に基づいてリンク先を辿る。その結果、文書（２）の文書からは、グループに含まれない、発信時点の未知の新たな文書に辿り着けないことが分かる。一方、文書（３）の文書からは、文書（７）の文書を新たなリンク先として辿ることができる。従って、文書（７）の文書に対しては、文書（３）の発信時点を適用することができる。

　同様にして、グループＩＤ「１」の文書（５）についてみると、新たに、文書（８）をリンク先として辿ることができ、当該文書（８）に対して、文書（５）の発信時点を適用することができる。

　また、推定部５は、不要と判断できるリンク関係を除外することができる。例えば、不要なリンクとは、発信時点が同一と推定されるグループとはならないリンク関係や、発信日付を付与することが無意味なリンク関係のことである。例えば、発信時点に関係なくあらゆるページにも含まれるようなトップページへのリンク関係や、機械的に生成したリンク関係などがある。

　例えば、「広告」、「ＴＯＰへ」、「問い合わせ」等の文字列がアンカーテキストに含まれる場合、アプリケーションへの命令を示すパラメータを含む機械的に生成されたＵＲＬが記述されている場合、ＵＲＬが他の無関係なドメインのものと分かる場合等がある。こうしたリンク関係を、発信時点の特定に反映させることは、不要と考えることができる。このようなリンク関係は必要に応じて除外とするのが好ましい。

　以上のように、本実施例によれば、コンテンツを構成する文書に発信日付や時間表現が明示的に記述されていない場合でも、当該コンテンツの発信時点を推定することが可能となる。

　以上、実施の形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施の形態及び実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２００８年１２月２６日出願された日本出願特願２００８－３３５３２８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本願発明における情報推定装置、情報推定方法、及びコンピュータ読み取り可能な記録媒体は以下の特徴を有する。

（１）分析対象となる文書集合において発信時点が特定されていない文書の発信時点を推定する情報推定装置であって、
　前記文書集合から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定し、特定された前記文書の前記ドキュメント構造から、前記文書集合に含まれる文書のリンク関係を抽出する構造解析部と、
　前記構造解析部によって特定された前記文書と、前記構造解析部によって抽出された前記リンク関係とを用いて、文書のグループを設定する、グルーピング部と、
　前記グルーピング部が設定した前記グループと、前記グループに含まれる発信時点が特定された文書の発信時点とに基づき、前記グループに含まれる発信時点が特定されていない文書の発信時点を推定する推定部とを、備えることを特徴とする情報推定装置。　　

（２）前記グルーピング部は、前記発信時点が特定された文書と、当該文書との間で、前記構造解析部によって抽出された前記リンク関係を有し、且つ、前記発信時点が特定されていない文書とを組み合わせて、前記グループを設定する、上記（１）に記載の情報推定装置。　　

（３）前記グルーピング部は、前記発信時点が特定されていない文書が、複数の前記発信時点が特定された文書との間でリンクを有する場合に、前記発信時点が特定されていない文書を、特定されている発信時点が古い方の文書に組み合わせて、前記グループを設定する、上記（１）に記載の情報推定装置。　　

（４）前記推定部は、前記グループにおける前記発信時点が特定された文書の発信時点を、前記グループにおける前記発信時点が特定されていない文書の発信時点として推定する、上記（１）に記載の情報推定装置。　　

（５）前記グルーピング部が、複数のグループを設定し、
　前記推定部は、前記複数のグループのうち発信時点が最も古い文書を有するグループから順にグループを選択し、
そして、選択したグループに含まれる各文書を起点とし、前記起点から順にリンク先の文書を辿ることによって到達可能な文書を特定し、特定した文書の発信時点が特定されていない場合は、前記特定した文書の発信時点を、前記起点となる文書の発信時点と推定する、上記（１）に記載の情報推定装置。　　

（６）分析対象となる前記文書集合に含まれる文書それぞれに対して、発信時点が特定されているかどうかを判定する、基準時点判定部を更に備えている、上記（１）に記載の情報推定装置。　　

（７）前記文書集合に含まれる文書が、ウェブページであり、
　前記構造解析部が、前記ウェブページに記述されている、ハイパーリンクと、ＨＴＭＬタグ及びＤＯＭツリーの部分木のうちの少なくとも一つとを用いて、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書の特定を行っている、上記（１）に記載の情報推定装置。　　

（８）分析対象となる文書集合において発信時点が特定されていない文書の発信時点を推定するための情報推定方法であって、
（ａ）前記文書集合から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定し、特定された前記文書の前記ドキュメント構造から、前記文書集合に含まれる文書のリンク関係を抽出するステップと、
（ｂ）前記（ａ）のステップによって特定された前記文書と、前記（ａ）のステップによって抽出された前記リンク関係とを用いて、文書のグループを設定するステップと、
（ｃ）前記（ｂ）のステップで設定された前記グループと、前記グループに含まれる発信時点が特定された文書の発信時点とに基づき、前記グループに含まれる発信時点が特定されていない文書の発信時点を推定するステップとを、有することを特徴とする情報推定方法。　　

（９）前記（ｂ）のステップにおいて、前記発信時点が特定された文書と、当該文書との間で、前記（ａ）のステップで抽出された前記リンク関係を有し、且つ、前記発信時点が特定されていない文書とを組み合わせて、前記グループを設定する、上記（８）に記載の情報推定方法。　　

（１０）前記（ｂ）のステップにおいて、前記発信時点が特定されていない文書が、複数の前記発信時点が特定された文書との間でリンクを有する場合に、前記発信時点が特定されていない文書を、特定されている発信時点が古い方の文書に組み合わせて、前記グループを設定する、上記（８）に記載の情報推定方法。　　

（１１）前記（ｃ）のステップにおいて、前記グループにおける前記発信時点が特定された文書の発信時点を、前記グループにおける前記発信時点が特定されていない文書の発信時点として推定する、上記（８）に記載の情報推定方法。　　

（１２）前記（ｂ）のステップにおいて、複数のグループを設定し、
　前記（ｃ）のステップにおいて、前記複数のグループのうち発信時点が最も古い文書を有するグループから順にグループを選択し、
そして、選択したグループに含まれる各文書を起点とし、前記起点から順にリンク先の文書を辿ることによって到達可能な文書を特定し、特定した文書の発信時点が特定されていない場合は、前記特定した文書の発信時点を、前記起点となる文書の発信時点と推定する、上記（８）に記載の情報推定方法。　　

（１３）（ｄ）分析対象となる前記文書集合に含まれる文書それぞれに対して、発信時点が特定されているかどうかを判定するステップを更に有する、上記（８）に記載の情報推定方法。　　

（１４）前記文書集合に含まれる文書が、ウェブページであり、
　前記（ａ）のステップにおいて、前記ウェブページに記述されている、ハイパーリンクと、ＨＴＭＬタグ及びＤＯＭツリーの部分木のうちの少なくとも一つとを用いて、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書の特定が行われる、上記（８）に記載の情報推定方法。　　

（１５）コンピュータに、分析対象となる文書集合において発信時点が特定されていない文書の発信時点を推定させるための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記文書集合から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定し、特定された前記文書の前記ドキュメント構造から、前記文書集合に含まれる文書のリンク関係を抽出するステップと、
（ｂ）前記（ａ）のステップによって特定された前記文書と、前記（ａ）のステップによって抽出された前記リンク関係とを用いて、文書のグループを設定するステップと、
（ｃ）前記（ｂ）のステップで設定された前記グループと、前記グループに含まれる発信時点が特定された文書の発信時点とに基づき、前記グループに含まれる発信時点が特定されていない文書の発信時点を推定するステップとを、実行させる、命令を含むプログラムを記録したコンピュータ読み取り可能な記録媒体。　　

（１６）前記（ｂ）のステップにおいて、前記発信時点が特定された文書と、当該文書との間で、前記（ａ）のステップで抽出された前記リンク関係を有し、且つ、前記発信時点が特定されていない文書とを組み合わせて、前記グループを設定する、上記（１５）に記載のコンピュータ読み取り可能な記録媒体。　　

（１７）前記（ｂ）のステップにおいて、前記発信時点が特定されていない文書が、複数の前記発信時点が特定された文書との間でリンクを有する場合に、前記発信時点が特定されていない文書を、特定されている発信時点が古い方の文書に組み合わせて、前記グループを設定する、上記（１５）に記載のコンピュータ読み取り可能な記録媒体。　　

（１８）前記（ｃ）のステップにおいて、前記グループにおける前記発信時点が特定された文書の発信時点を、前記グループにおける前記発信時点が特定されていない文書の発信時点として推定する、上記（１５）に記載のコンピュータ読み取り可能な記録媒体。　　

（１９）前記（ｂ）のステップにおいて、複数のグループを設定し、
　前記（ｃ）のステップにおいて、前記複数のグループのうち発信時点が最も古い文書を有するグループから順にグループを選択し、
そして、選択したグループに含まれる各文書を起点とし、前記起点から順にリンク先の文書を辿ることによって到達可能な文書を特定し、特定した文書の発信時点が特定されていない場合は、前記特定した文書の発信時点を、前記起点となる文書の発信時点と推定する、上記（１５）に記載のコンピュータ読み取り可能な記録媒体。　　

（２０）（ｄ）分析対象となる前記文書集合に含まれる文書それぞれに対して、発信時点が特定されているかどうかを判定するステップを、更に前記コンピュータに実行させる、上記（１５）に記載のコンピュータ読み取り可能な記録媒体。　　

（２１）前記文書集合に含まれる文書が、ウェブページであり、
　前記（ａ）のステップにおいて、前記ウェブページに記述されている、ハイパーリンクと、ＨＴＭＬタグ及びＤＯＭツリーの部分木のうちの少なくとも一つとを用いて、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書の特定が行われる、上記（１５）に記載のコンピュータ読み取り可能な記録媒体。

　本発明は、ウェブページを対象として時系列データの作成を行なう場合に有効である。また、ウェブページや、文書の時系列データを用いて分析を行う場合、文書の時間情報付きインデックスの作成を行う場合、時系列化した情報に対して検索条件に基づいて検索を行う場合にも適用できる。本発明は、産業上の利用可能性を有している。

　１　情報推定装置
　２　基準時点判定部
　３　構造解析部
　４　グルーピング部
　５　推定部
　６　入力受付部
　１０　記憶装置
　１１　文書記憶部
　２０　入力装置
　３０　出力装置

Claims

　分析対象となる文書集合において発信時点が特定されていない文書の発信時点を推定する情報推定装置であって、
　前記文書集合から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定し、特定された前記文書の前記ドキュメント構造から、前記文書集合に含まれる文書のリンク関係を抽出する構造解析部と、
　前記構造解析部によって特定された前記文書と、前記構造解析部によって抽出された前記リンク関係とを用いて、文書のグループを設定する、グルーピング部と、
　前記グルーピング部が設定した前記グループと、前記グループに含まれる発信時点が特定された文書の発信時点とに基づき、前記グループに含まれる発信時点が特定されていない文書の発信時点を推定する推定部とを、備えることを特徴とする情報推定装置。
　前記グルーピング部は、前記発信時点が特定された文書と、当該文書との間で、前記構造解析部によって抽出された前記リンク関係を有し、且つ、前記発信時点が特定されていない文書とを組み合わせて、前記グループを設定する、請求項１に記載の情報推定装置。
　前記グルーピング部は、前記発信時点が特定されていない文書が、複数の前記発信時点が特定された文書との間でリンクを有する場合に、前記発信時点が特定されていない文書を、特定されている発信時点が古い方の文書に組み合わせて、前記グループを設定する、請求項１または２に記載の情報推定装置。
　前記推定部は、前記グループにおける前記発信時点が特定された文書の発信時点を、前記グループにおける前記発信時点が特定されていない文書の発信時点として推定する、請求項１～３のいずれかに記載の情報推定装置。
　前記グルーピング部が、複数のグループを設定し、
　前記推定部は、前記複数のグループのうち発信時点が最も古い文書を有するグループから順にグループを選択し、
そして、選択したグループに含まれる各文書を起点とし、前記起点から順にリンク先の文書を辿ることによって到達可能な文書を特定し、特定した文書の発信時点が特定されていない場合は、前記特定した文書の発信時点を、前記起点となる文書の発信時点と推定する、請求項１～４のいずれかに記載の情報推定装置。
　分析対象となる前記文書集合に含まれる文書それぞれに対して、発信時点が特定されているかどうかを判定する、基準時点判定部を更に備えている、請求項１～５のいずれかに記載の情報推定装置。
　前記文書集合に含まれる文書が、ウェブページであり、
　前記構造解析部が、前記ウェブページに記述されている、ハイパーリンクと、ＨＴＭＬタグ及びＤＯＭツリーの部分木のうちの少なくとも一つとを用いて、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書の特定を行っている、請求項１～６のいずれかに記載の情報推定装置。
　分析対象となる文書集合において発信時点が特定されていない文書の発信時点を推定するための情報推定方法であって、
（ａ）前記文書集合から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定し、特定された前記文書の前記ドキュメント構造から、前記文書集合に含まれる文書のリンク関係を抽出するステップと、
（ｂ）前記（ａ）のステップによって特定された前記文書と、前記（ａ）のステップによって抽出された前記リンク関係とを用いて、文書のグループを設定するステップと、
（ｃ）前記（ｂ）のステップで設定された前記グループと、前記グループに含まれる発信時点が特定された文書の発信時点とに基づき、前記グループに含まれる発信時点が特定されていない文書の発信時点を推定するステップとを、有することを特徴とする情報推定方法。
　前記（ｂ）のステップにおいて、前記発信時点が特定された文書と、当該文書との間で、前記（ａ）のステップで抽出された前記リンク関係を有し、且つ、前記発信時点が特定されていない文書とを組み合わせて、前記グループを設定する、請求項８に記載の情報推定方法。
　前記（ｂ）のステップにおいて、前記発信時点が特定されていない文書が、複数の前記発信時点が特定された文書との間でリンクを有する場合に、前記発信時点が特定されていない文書を、特定されている発信時点が古い方の文書に組み合わせて、前記グループを設定する、請求項８または９に記載の情報推定方法。
　前記（ｃ）のステップにおいて、前記グループにおける前記発信時点が特定された文書の発信時点を、前記グループにおける前記発信時点が特定されていない文書の発信時点として推定する、請求項８～１０いずれかに記載の情報推定方法。
　前記（ｂ）のステップにおいて、複数のグループを設定し、
　前記（ｃ）のステップにおいて、前記複数のグループのうち発信時点が最も古い文書を有するグループから順にグループを選択し、
そして、選択したグループに含まれる各文書を起点とし、前記起点から順にリンク先の文書を辿ることによって到達可能な文書を特定し、特定した文書の発信時点が特定されていない場合は、前記特定した文書の発信時点を、前記起点となる文書の発信時点と推定する、請求項８～１１いずれかに記載の情報推定方法。
（ｄ）分析対象となる前記文書集合に含まれる文書それぞれに対して、発信時点が特定されているかどうかを判定するステップを更に有する、請求項８～１２のいずれかに記載の情報推定方法。
　前記文書集合に含まれる文書が、ウェブページであり、
　前記（ａ）のステップにおいて、前記ウェブページに記述されている、ハイパーリンクと、ＨＴＭＬタグ及びＤＯＭツリーの部分木のうちの少なくとも一つとを用いて、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書の特定が行われる、請求項８～１３のいずれかに記載の情報推定方法。
　コンピュータに、分析対象となる文書集合において発信時点が特定されていない文書の発信時点を推定させるための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
（ａ）前記文書集合から、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書を特定し、特定された前記文書の前記ドキュメント構造から、前記文書集合に含まれる文書のリンク関係を抽出するステップと、
（ｂ）前記（ａ）のステップによって特定された前記文書と、前記（ａ）のステップによって抽出された前記リンク関係とを用いて、文書のグループを設定するステップと、
（ｃ）前記（ｂ）のステップで設定された前記グループと、前記グループに含まれる発信時点が特定された文書の発信時点とに基づき、前記グループに含まれる発信時点が特定されていない文書の発信時点を推定するステップとを、実行させる、命令を含むプログラムを記録したコンピュータ読み取り可能な記録媒体。
　前記（ｂ）のステップにおいて、前記発信時点が特定された文書と、当該文書との間で、前記（ａ）のステップで抽出された前記リンク関係を有し、且つ、前記発信時点が特定されていない文書とを組み合わせて、前記グループを設定する、請求項１５に記載のコンピュータ読み取り可能な記録媒体。
　前記（ｂ）のステップにおいて、前記発信時点が特定されていない文書が、複数の前記発信時点が特定された文書との間でリンクを有する場合に、前記発信時点が特定されていない文書を、特定されている発信時点が古い方の文書に組み合わせて、前記グループを設定する、請求項１５または１６に記載のコンピュータ読み取り可能な記録媒体。
　前記（ｃ）のステップにおいて、前記グループにおける前記発信時点が特定された文書の発信時点を、前記グループにおける前記発信時点が特定されていない文書の発信時点として推定する、請求項１５～１７のいずれかに記載のコンピュータ読み取り可能な記録媒体。
　前記（ｂ）のステップにおいて、複数のグループを設定し、
　前記（ｃ）のステップにおいて、前記複数のグループのうち発信時点が最も古い文書を有するグループから順にグループを選択し、
そして、選択したグループに含まれる各文書を起点とし、前記起点から順にリンク先の文書を辿ることによって到達可能な文書を特定し、特定した文書の発信時点が特定されていない場合は、前記特定した文書の発信時点を、前記起点となる文書の発信時点と推定する、請求項１５～１８のいずれかに記載のコンピュータ読み取り可能な記録媒体。
（ｄ）分析対象となる前記文書集合に含まれる文書それぞれに対して、発信時点が特定されているかどうかを判定するステップを、更に前記コンピュータに実行させる、請求項１５～１９のいずれかに記載のコンピュータ読み取り可能な記録媒体。
　前記文書集合に含まれる文書が、ウェブページであり、
　前記（ａ）のステップにおいて、前記ウェブページに記述されている、ハイパーリンクと、ＨＴＭＬタグ及びＤＯＭツリーの部分木のうちの少なくとも一つとを用いて、他の文書へのリンク関係が目次的に示されたドキュメント構造を有する文書の特定が行われる、請求項１５～２０のいずれかに記載のコンピュータ読み取り可能な記録媒体。