WO2006046523A1

WO2006046523A1 - 文書解析システム、及び文書適応システム

Info

Publication number: WO2006046523A1
Application number: PCT/JP2005/019531
Authority: WO
Inventors: Yuushin Tatsumi
Original assignee: Nec Corporation
Priority date: 2004-10-25
Filing date: 2005-10-25
Publication date: 2006-05-04
Also published as: JP4124261B2; CN101048773A; US20080148144A1; CN101048773B; JPWO2006046523A1; US8051371B2

Abstract

　本発明は、提供者が意図するレイアウト解析、網羅的なタイトル解析が可能で、解析されたレイアウトを第三者が利用できる文書解析システムを提供する。入力部１１は、構造化・半構造化文書を取得、レンダリングする。基本レイアウト解析部１４は、レンダリング結果を取得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化しレイアウトを解析する。タイトル解析部１５は、レンダリング結果、タイトル解析ルール記憶部２３からタイトル解析ルールを取得し、文書記述要素の名前、属性、スタイル、内容をタイトル解析ルールと照合しタイトルを解析する。レイアウト解析部１６は、レイアウトの構成要素とその階層関係、タイトルを取得し、レイアウトの構成要素をグループ化し新しいレイアウトを生成する。出力部１３は、新しいレイアウトの構成要素とその階層関係、各構成要素とタイトルとの対応関係を取得し、これらを文書記述要素の参照を用いて表現する形式に整形し出力する。

Description

明細書

文書解析システム、及び文書適応システム

技術分野

[0001] 本発明は、構造化'半構造ィ匕文書からレイアウトを解析できる文書解析システム、文書解析方法、文書解析用プログラム、及び構造化'半構造化文書をレイアウトを利用して環境に適応できる文書適応システム、文書適応方法、文書適応プログラムに関する。

背景技術

[0002] 従来の文書解析システム、文書適応システムは、構造化'半構造化文書をレイァゥトを保持したまま所望の表示条件で表示するため、文書記述要素の区切りの強さを用いてレイアウトを解析し、解析されたレイアウトの構成要素に表示領域を割り当て、構成要素の情報を各表示領域内に拡大表示といった所望の表示条件で表示したり、構成要素内のタイトルを各表示領域内に選択的に表示したりしていた (特開 2001 184344号公報参照)。

[0003] ここで、文書記述要素とは、構造化'半構造化文書の記述単位となる要素を指し、例えば、 HTML文書における、 TABLE要素、 A要素といった HTMLタグの要素を指す。また、レイアウトの構成要素とは、画面に代表される表示面を構成する、関連情報力なる部分領域を指し、例えば、 HTML文書におけるある見出しの関連情報からなる部分領域を指す。

[0004] また、画面表示に適した文書を生成するため、文書記述要素の名前を用いたルールに従い特定の名前を持つ文書記述要素から目次文書を生成したり、目次の項目の内容を記述した文書を生成したりして、た (特開平 9 - 251457号公報参照)。

[0005] 更に、ユーザが所望する文書を生成するため、構造化'半構造化文書の URL、各文書の必要情報の存在箇所を示す文書記述要素の参照、当該必要情報を表示する領域に関するルールに従、必要情報からなる合成文書を生成して、た (特開 200 4 139275号公報参照)。

[0006] 本発明に関連して、特開平 10— 289250号公報は、登録された URLの一覧を表示する際に、タイトル情報のみならず画像情報も表示させることにより、登録された U RLのページがどのようなページであつたかを直感的に認識可能にする技術を開示している。

[0007] 特開平 11 203285号公報は、文書要素の行内位置を示す行属性を各行毎に決定し、文書要素を構成する各形態素の意味と文書要素の所属行の行属性とに基づいて文書要素の意味を各行毎に決定し、元文書の各文書要素を的確に意味付けする技術を開示している。

[0008] 特開 2003— 85159号公報は、所望の構造化文書群の先頭文書を解析して自動的に目次を作成し、この目次と関連文書の画像データを合成することにより、読みやす、文書をユーザに提供する技術を開示して、る。

[0009] 特開 2004— 86855号公報は、文書の内容と目次とを相互に参照しながら文書の作成編集を行うことを容易にするための技術を開示している。具体的には、この公知の技術では、文書の目次を生成する際に、目次項目に対応する文書内容情報を生成するためのリンクが埋め込まれる。そして、そのリンクを指示することによって、その目次項目を含む文書内容情報が生成される。生成の際に、目次の出力を指示するためのリンクを文書内容情報中に埋め込んでおく。文書内容情報中のリンクを指示することによって、その文書の内容に対応する目次項目を含む目次が生成される。この場合も、目次項目に対応する文書内容情報を生成するためのリンクが目次に埋め込まれる。

[0010] 特開 2003— 288334号公報は、複数ページ力もなる印刷文書力もタグ付けされた構造文書を高精度に生成するための技術を開示している。

[0011] 特開 2003— 330856号公報は、ズーム状態を変更する操作に応じてレイアウト生成及び情報粒度の調整を動的に行うことにより、コンテンツの局所的な情報と大域的な情報の両方に快適にアクセスすることを可能にする技術を開示している。

[0012] 従来技術における第 1の問題点は、構造化'半構造化文書の文書解析システムにおいて、文書提供者が意図するレイアウトを必ずしも解析できないことである。その理由は、文書の記述方法は多様であるため、文書記述要素の区切りの強さを用いたレィアウト解析では文書提供者が意図するレイアウトを必ずしも解析できな、な、からである。

[0013] 従来技術における第 2の問題点は、構造化'半構造化文書の文書解析システムにおいて、一部のタイトルしか解析できないことである。その理由は、一般的にタイトルは文書記述要素の名前、属性、スタイル、内容を用いて表現されるため、文書記述要素の名前のみを用いたルールに従うタイトル解析では一部のタイトルし力解析できないからである。

[0014] 従来技術における第 3の問題点は、構造化'半構造化文書の文書解析システムにおいて、第三者が解析されたレイアウトの情報を利用しアプリケーションソフトウェアを開発できないことである。その理由は、従来の文書解析システムが、解析されたレイアウトの情報を第三者が利用できる形式で出力しないからである。

[0015] 従来技術における第 4の問題点は、構造化'半構造化文書の文書適応システムにおいて、文書提供者が意図する文書の論理構造を的確に捉えて、文書をネットヮーク、端末、ユーザの環境に適応できないことである。その理由は、文書記述要素の名前を用いたルールに従ヽ目次文書を生成する場合、一部のタイトルし力解析できず目次文書を正しく生成できないからである。また、文書の URL (Uniform Resourc e Locator)、文書の必要情報の存在箇所を示す文書記述要素の参照を用いてュ一ザが定義したルールに従、合成文書を生成する場合、文書更新時にユーザが所望する合成文書を正しく生成できない場合があり、これらのルールでは文書提供者が意図する文書の論理構造を的確に捉えられないからである。

発明の開示

[0016] 本発明の第 1の目的は、文書提供者が意図するレイアウトを解析できる文書解析システムを提供することにある。

本発明の第 2の目的は、タイトルを網羅的に解析できる文書解析システムを提供することにめる。

本発明の第 3の目的は、第三者が利用しアプリケーションソフトウェアを開発できる形式でレイアウトの情報を出力できる文書解析システムを提供することにある。

本発明の第 4の目的は、文書提供者が意図する文書の論理構造を的確に捉えて、文書をネットワーク、端末、ユーザの環境に適応できる文書適応システムを提供することにある。

[0017] 本発明の一の観点において、文書解析システムは、構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半構造化文書のレイアウトを解析する基本レイアウト解析部を具備する。

[0018] 本発明の文書解析システムは、構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上の値に基づくタイトル解析ルールを記憶するタイトル解析ルール記憶部と、前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するタイトル解析部と、前記基本レイアウト解析部で解析された前記レイアウトと、前記タイトル解析部で解析された前記タイトルとを用いて前記レイアウトの構成要素をグループィ匕し、新しいレイアウトを生成するレィアウト解析部を具備する。

[0019] 本発明の文書解析システムにおいて、前記レイアウト解析部は前記基本レイアウト解析部で解析された前記レイアウトと、前記タイトル解析部で解析された前記タイトルと、前記レイアウト解析部で解析された前記新しいレイアウトとを用いて前記レイアウトの主要な構成要素を選別するブロック選別部と、前記基本レイアウト解析部で解析された前記レイアウトと、前記レイアウト解析部で解析された前記新しいレイアウトと、前記ブロック選別部で選別された前記レイアウトの主要な構成要素とを用いて前記レイアウトの構成要素をグループィ匕し、新し、レイアウトを生成するセクション計算部を具備する。

[0020] 本発明の文書解析システムにお、て、前記基本レイアウト解析部は、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループィ匕に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返してレイアウトを解析する。

[0021] 本発明の文書解析システムにお、て、前記基本レイアウト解析部は、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループィ匕に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返して次階層のレイアウトを解析する。

[0022] 本発明の文書解析システムにおいて、前記基本レイアウト解析部は、前記文書記述要素のうち一部の指定された文書記述要素のみの配置を参照する。

[0023] 本発明の他の観点において、文書解析システムは、構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上の値に基づくタイトル解析ルールを記憶するタイトル解析ルール記憶部と、前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれカゝ 1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するタイトル解析部とを具備する。

[0024] 本発明の更に他の観点において、文書解析システムは、構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力する出力部を具備する。

[0025] 本発明の更に他の観点において、本発明の文書適応システムは、構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文書を用いて目次文書を生成、出力する目次文書出力部と、前記構造化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文書を生成、出力する項目文書出力部とを具備する。

[0026] 本発明の更に他の観点において、本発明の文書適応システムは、前記構造化文書又は前記半構造化文書の URI (Universal Resource Identifier)と、前記構造化文書又は前記半構造ィ匕文書の出力構成要素の IDの組み合わせの集合を出力構成要素情報として記憶する出力構成要素情報記憶部と、前記出力構成要素情報と前記出力構成要素情報に記述された URIに対応する前記構造化文書又は前記半構造ィヒ文書と前記構造ィヒ文書又は前記半構造ィヒ文書に対応するレイァ外の情報が記述された文書を用いて合成文書を生成し出力する合成文書出力部とを具備する。

[0027] 本発明の文書解析方法及び文書解析プログラムは、構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半構造化文書のレイアウトを解析するステップを具備する。

[0028] 本発明の文書解析方法及び文書解析プログラムは、前記構造化文書又は前記半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上の値に基づくタイトル解析ルールを記憶するステップと、前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属性、スタイル、内容のいずれか 1 つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップと、前記解析されたレイアウトと前記解析されたタイトルを用いて前記レイアウトの構成要素をグループ化し、新、レイアウトを生成するステップを具備する。

[0029] 本発明の文書解析方法及び文書解析プログラムは、前記レイアウトを解析するステップにお 1、て、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用！ヽられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返してレイアウトを解析するステップを具備する。

[0030] 本発明の文書解析方法及び文書解析プログラムは、前記レイアウトを解析するステップにお 1、て、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用！ヽられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返して次階層のレイアウトを解析するステップを具備する。

[0031] 本発明の文書解析方法及び文書解析プログラムは、前記レイアウトを解析するステップにおいて、前記文書記述要素のうち一部の指定された文書記述要素のみの配置を参照する。

[0032] 本発明の文書解析方法及び文書解析プログラムは、構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上の値に基づくタイトル解析ルールを記憶するステップと、前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上と前記タィトル解析ルールとを照合してタイトルを解析するステップとを具備する。

[0033] 本発明の文書解析方法及び文書解析プログラムは、構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力するステップを具備する。

[0034] 本願発明の文書適応方法及び文書適応プログラムは、構造化文書又は半構造ィ匕文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文書を用いて目次文書を生成、出力するステップと、前記構造化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文書を生成、出力するステップとを具備する。

[0035] 本発明の文書適応方法及び文書適応プログラムは、構造化文書又は半構造化文書の URIと、前記構造化文書又は前記半構造化文書の出力構成要素の IDの組み合わせの集合を出力構成要素情報として出力構成要素情報記憶部に記憶するステップと、前記出力構成要素情報と、前記出力構成要素情報に記述された URIに対応する前記構造化文書又は前記半構造化文書と、前記構造化文書又は前記半構造化文書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成、出力するステップとを具備する。

[0036] 第 1の効果は、文書提供者が意図するレイアウトを解析できることである。その理由は、文書記述要素の配置に基づきレイアウトを解析するからである。また、文書記述要素の配置に基づき解析されたレイアウトと、文書記述要素の名前に加え、属性、スタイル、内容を用いて解析されたタイトルを用いて、先に解析されたレイアウトの構成要素をグループ化することでタイトルなどをキーとする関連した構成要素の集合を新 LV、構成要素とする新、レイアウトを生成するからである。

[0037] 第 2の効果は、タイトルを網羅的に解析できることである。その理由は、文書記述要素の名前にカ卩え、属性、スタイル、内容を用いてタイトルを解析する力もである。

[0038] 第 3の効果は、第三者が利用しアプリケーションソフトウェアを開発できる形式でレイアウトの情報を提供できることである。その理由は、解析されたレイアウトとタイトルを、レイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式で出力するカゝらである。

[0039] 第 4の効果は、文書提供者が意図する文書の論理構造を利用して、文書をネットヮーク、端末、ユーザの環境に適応できることである。その理由は、構造化'半構造ィ匕文書に加え、文書提供者が意図する文書の論理構造を反映するレイアウトの情報が記述された文書を用いて、文書を環境に適応するからである。

[0040] 他にも、本発明は、文書の概要を表示する機能や音声読み上げする機能、文書の項目を選択的に表示する機能といった文書の論理構造を利用した文書閲覧システムゃ、文書閲覧システムをコンピュータに実現するためのプログラムといった用途に適用できる。また、文書の概要を生成する機能や概要に応じて文書を分割する機能、文書の項目を選択的に合成する機能といった文書の論理構造を利用した文書変換システムや、文書変換システムをコンピュータに実現するためのプログラムと、つた用途にも適用できる。

図面の簡単な説明

[0041] [図 1]本発明の第 1の発明を実施するための実施形態の構成を示すブロック図である

[図 2]本発明の第 1の発明を実施するための実施形態の動作を示す流れ図である。

[図 3]HTML文書の例を示す図である。

[図 4]本発明の第 1の実施形態を説明するための図である。

[図 5]本発明の第 1の実施形態を説明するための図である。

[図 6]本発明の第 1の実施形態を説明するための図である。

[図 7]本発明の第 1の実施形態を説明するための図である。

[図 8]本発明の第 1の実施形態を説明するための図である。

[図 9]本発明の第 1の実施形態を説明するための図である。

[図 10]本発明の第 1の実施形態の出力形式の例を示す図である。

[図 11]本発明の第 2の発明を実施するための実施形態の構成を示すブロック図である。

[図 12]本発明の第 2の発明を実施するための実施形態の動作を示す流れ図である。

[図 13]本発明の第 2の実施形態のタイトル解析ルールの例を示す図である。

[図 14]本発明の第 2の実施形態を説明するための図である。

[図 15]本発明の第 2の実施形態の出力形式の例を示す図である。

[図 16]本発明の第 3の発明を実施するための実施形態の構成を示すブロック図である。圆 17]本発明の第 3の発明を実施するための実施形態の動作を示す流れ図である。圆 18]本発明の第 3の実施形態を説明するための図である。

圆 19]本発明の第 3の実施形態を説明するための図である。

圆 20]本発明の第 3の実施形態を説明するための図である。

圆 21]本発明の第 3の実施形態の出力形式の例を示す図である。

圆 22]本発明の第 4の発明を実施するための実施形態の構成を示すブロック図である。

圆 23]本発明の第 4の発明を実施するための実施形態の動作を示す流れ図である。

[図 24A]HTML文書と XML文書の例のうち HTML文書を示す図である。

[図 24B]HTML文書と XML文書の例のうち XML文書を示す図である。

圆 25]本発明の第 4の実施形態の目次文書の例を示す図である。

[図 26]本発明の第 4の実施形態の項目文書の例を示す図である。

圆 27]本発明の第 5の発明を実施するための実施形態の構成を示すブロック図である。

圆 28]本発明の第 5の発明を実施するための実施形態の動作を示す流れ図である。圆 29]本発明の第 5の実施形態の出力構成要素に関する情報の例を示す図である。

[図 30A]HTML文書と XML文書の例のうち HTML文書を示す図である。

[図 30B]HTML文書と XML文書の例のうち XML文書を示す図である。

圆 31]本発明の第 5の実施形態の合成文書の例を示す図である。

圆 32]本発明の第 6の実施形態の構成を示すブロック図である。

圆 33]本発明の第 7の実施形態の構成を示すブロック図である。

圆 34]本発明の第 8の実施形態の構成を示すブロック図である。

圆 35]本発明の第 9の実施形態の構成を示すブロック図である。

圆 36]本発明の第 9の実施形態の動作を示す流れ図である。

圆 37]本発明の第 6の実施例を説明するための図である。

[図 38]本発明の第 6の実施例を説明するための図である。

[図 39]本発明の第 6の実施例を説明するための図である。

[図 40]本発明の第 6の実施例を説明するための図である。 [図 41]本発明の第 6の実施例を説明するための図である。

[図 42]本発明の第 6の実施例を説明するための図である。

[図 43]本発明の第 6の実施例を説明するための図である。

[図 44]本発明の第 6の実施例を説明するための図である。

[図 45]本発明の第 6の実施例を説明するための図である。

発明を実施するための最良の形態

[0042] 以下に本発明の実施形態について添付図面を参照して説明する。図 1を参照すると、本発明の第 1の実施形態のシステムは、プログラム制御により動作するデータ処理装置 1と、情報を記憶する記憶装置 2とを含む。

[0043] データ処理装置 1は、入力部 11と、レイアウト解析ツール 12と、出力部 13とを備える。記憶装置 2は、レンダリング結果記憶部 21、解析結果記憶部 22とを備える。

[0044] 入力部 11は、外部から構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部 21に記憶する。レイアウト解析ツール 1 2は、基本レイアウト解析部 14を有する。出力部 13は、解析結果記憶部 22からレイアウトの構成要素とその階層関係の情報を取得し、レイアウトの構成要素を文書記述要素の参照を用いて表現する形式に整形し外部に出力する。ここで、レイアウトの構成要素に IDを与えて出力してもよい。

[0045] 基本レイアウト解析部 14は、レンダリング結果記憶部 21からレンダリング結果を取得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をダループ化することでレイアウトを解析する。具体的には、指定された文書記述要素、例えば、ルートとなる文書記述要素や既に解析されたレイアウトの構成要素に属する文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループィ匕する。グループ化された文書記述要素、グループ化されず子供の文書記述要素のない文書記述要素はレイアウトの構成要素として解析結果記憶部 22に記憶する。ダループ化されなかった文書記述要素は当該文書記述要素の子供の文書記述要素を対象に、全ての文書記述要素がグループ化されるまで、又は子供の文書記述要素がなくなるまで再帰的に処理を繰り返す。

[0046] レンダリング結果記憶部 21は入力部 11の処理結果を、解析結果記憶部 22はレイアウト解析ツール 12の処理結果をそれぞれ記憶する。

[0047] 以上の処理により、特定階層のレイアウト、つまりレイアウトの構成要素の集合を解析する。ここで、上記処理により解析されたレイアウトの構成要素について、更に、これに属する文書記述要素の配置を参照し、先のグループ化に用いられた方向の直交方向に並置された文書記述要素をグループィ匕し、先に解析されたレイアウトの構成要素を置き換える処理を所定の回数繰り返しレイアウトを解析してもよい。また、レィアウトの構成要素として解析された文書記述要素が親の文書記述要素力見て唯一の子供である場合、当該解析された文書記述要素を親の文書記述要素と置き換えてもよい。

[0048] 次階層のレイアウトを解析する場合は、先に解析されたレイアウトの各構成要素について再度処理を行う。具体的には、先に解析されたレイアウトの構成要素についてこれに属する文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループ化した後、グループ化された文書記述要素以下の文書記述要素の配置を参照し、先のグループ化に用いられた方向の直交方向に並置された文書記述要素をグループ化する処理を所定の回数繰り返しレイアウトを解析する。ここで、次階層のレイアウトの解析の最初のグループィ匕に用いる方向として、上位レイアウトの解析の最後のグループ化に用いられた方向の直交方向を用いてもよい。次階層を解析する処理を繰り返せば、可能な範囲で任意の階層のレイアウトを解析できる。なお、上記処理において、文書記述要素として一部の指定された文書記述要素のみの配置を参照してもよい。以上の処理により、レイアウト、つまりレイアウトの構成要素とその階層関係を解析する。

[0049] 次に、図 1、図 2を参照して本実施の形態の動作について詳細に説明する。入力部 11は、外部力構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部 21に記憶する (ステップ S101)。

[0050] 基本レイアウト解析部 14は、レンダリング結果記憶部 21からレンダリング結果を取得し、処理対象階層 nを 1とし (ステップ S 102)、当該処理対象階層について処理を継続するかどうかを判定する (ステップ S103)。判定基準としては、処理階層の上限値、解析された基本レイアウトの大きさを用いることができる。基本レイアウト解析部 1 4は、処理を «I続しないと判定した場合、ステップ S 107に進む。

[0051] 基本レイアウト解析部 14は、ステップ S103で処理を継続すると判定した場合、処理対象となる文書記述要素を取得する (ステップ S 104)。

[0052] 基本レイアウト解析部 14は、処理対象となる文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をグループィ匕することでレイアウトを解析し、上位階層のレイアウトの構成要素と関連付けて解析結果記憶部 22に記憶する (ステップ S

105)。

[0053] 基本レイアウト解析部 14は、処理対象階層 nを n+ 1とし (ステップ S106)、ステップ S 103以降の処理を繰り返す。

[0054] 出力部 13は、解析結果記憶部 22からレイアウトの構成要素とその階層関係の情報を取得し、レイアウトの構成要素を文書記述要素の参照を用いて表現する形式に整形し外部に出力する (ステップ S107)。

[0055] 本実施の形態では、構造化'半構造化文書の文書記述要素の配置を参照し並置された文書記述要素をグループィ匕することでレイアウトを解析するので、文書記述要素の配置に基づくレイアウトを解析できる。このため、記述方法が多様な構造化'半構造ィ匕文書においても、文書提供者が意図するレイアウトを解析できる。また、レイァゥトを文書記述要素の参照を用いて表現する形式で出力するので、第三者がレイァゥトの情報を利用した応用アプリケーションを開発できる。

[0056] 次に、本発明の第 2の実施形態について図面を参照して詳細に説明する。図 11を参照すると、本発明の第 2の実施形態は、プログラム制御により動作するデータ処理装置 1と、情報を記憶する記憶装置 2とを含む。

[0057] データ処理装置 1は、入力部 11と、レイアウト解析ツール 12と、出力部 13とを備える。記憶装置 2は、レンダリング結果記憶部 21、解析結果記憶部 22、タイトル解析ルール記憶部 23とを備える。

[0058] 入力部 11は、外部から構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部 21に記憶する。レイアウト解析ツール 1 2は、タイトル解析部 15を有する。出力部 13は、解析結果記憶部 22からタイトルの集合を取得し、タイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する。

[0059] レンダリング結果記憶部 21は入力部 11の処理結果を、解析結果記憶部 22はレイアウト解析ツール 12の処理結果をそれぞれ記憶する。タイトル解析ルール記憶部 23 は、タイトル解析ルール、すなわちタイトル判定の基準となる、文書記述要素の名前、属性、スタイル、内容の値に基づくルールを予め記憶する。

[0060] タイトル解析部 15は、レンダリング結果記憶部 21からレンダリング結果を、タイトル解析ルール記憶部 23からタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析する。具体的には、指定された文書記述要素、例えば、ルートとなる文書記述要素、を処理対象要素とし、処理対象要素について文書記述要素の名前、属性、スタイル、内容をタイトル解析ルールと照合する。照合の結果タイトルと判定した場合、当該文書記述要素をタイトルとして解析結果記憶部 22に記憶し、未処理の処理対象要素があればこれを対象に処理を続ける。

[0061] タイトルでな、と判定した場合、当該文書記述要素の子供の文書記述要素を新たに処理対象要素とし、未処理の処理対象要素がなくなるまで処理を続ける。ここで、タイトル解析ルールとしては、「属性が文書内で唯一である」、「背景色や背景ィメージが使用されている」、「文書内での使用頻度が低い文字色や文字サイズが使用されて、る」と!、つたレンダリングイメージ上での文書記述要素の特異性に基づくルールを用いることができる。なお、上記処理において、文書記述要素として同じ名前、属性、スタイルを持つ複数の文書記述要素をグループィ匕したものを用いてもよい。以上の処理により、タイトルの集合を解析し解析結果記憶部 22に記憶する。

[0062] 次に、図 11、図 12を参照して本実施の形態の動作について詳細に説明する。入力部 11は、外部力構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部 21に記憶する (ステップ S201)。

[0063] タイトル解析部 15は、レンダリング結果記憶部 21からレンダリング結果を、タイトル解析ルール記憶部 23からタイトル解析ルールをそれぞれ取得し、処理対象となる文書記述要素を取得する (ステップ S202)。

[0064] タイトル解析部 15は、処理対象の文書記述要素の有無を確認し、処理対象となる文書記述要素がないと判定した場合、ステップ S208に進む (ステップ S203)。

[0065] タイトル解析部 15は、ステップ S203で処理対象となる文書記述要素があると判定した場合、当該文書記述要素の名前や属性、スタイル、内容をタイトル解析ルールと照合する (ステップ S 204)。

[0066] タイトル解析部 15は、ステップ S204で照合によりタイトルでな、と判定した場合、又はステップ S206で文書記述要素をタイトルとして記憶した場合、次の処理対象となる文書記述要素を取得し、当該文書記述要素についてステップ S203以下の処理を行う（ステップ S 205)。

[0067] タイトル解析部 15は、ステップ S204で照合によりタイトルであると判定した場合、当該文書記述要素をタイトルとして解析結果記憶部 22に記憶し、ステップ S205に進む (ステップ 206)。

[0068] 出力部 13は、解析結果記憶部 22からタイトルの集合を取得し、タイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する (ステップ S207)。

[0069] 次に、本実施の形態の効果について説明する。本実施の形態では、構造化'半構造化文書の文書記述要素の名前に加え、属性、スタイル、内容を用いてタイトルを解祈するので、属性やスタイルを用いて表現されたタイトルも解析できる。このため、タイトルを網羅的に解析できる。また、タイトルを文書記述要素の参照を用いて表現する形式で出力するので、第三者力タイトルの情報を利用した応用アプリケーションを開発できる。

[0070] 次に、本発明の第 3の実施形態について図面を参照して詳細に説明する。図 16を参照すると、本発明の第 3の実施形態は、プログラム制御により動作するデータ処理装置 1と、情報を記憶する記憶装置 2とを含む。

[0071] データ処理装置 1は、入力部 11と、レイアウト解析ツール 12と、出力部 13とを備える。記憶装置 2は、レンダリング結果記憶部 21、解析結果記憶部 22、タイトル解析ルール記憶部 23とを備える。

[0072] 入力部 11は、外部から構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし

、レンダリング結果をレンダリング結果記憶部 21に記憶する。

[0073] レイアウト解析ツール 12は、基本レイアウト解析部 14と、タイトル解析部 15と、レイアウト解析部 16とを有する。

[0074] 出力部 13は、解析結果記憶部 22から新しいレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を取得し、新しいレイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する。ここで、新、レイアウトの構成要素に IDを与えて出力してもよ、。

[0075] 基本レイアウト解析部 14は、レンダリング結果記憶部 21からレンダリング結果を取得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をダループ化することでレイアウトを解析する。基本レイアウト解析部 14の機能は、本発明の第 1の実施の形態の基本レイアウト解析部 14に示す機能と同じである。

[0076] タイトル解析部 15は、レンダリング結果記憶部 21からレンダリング結果を、タイトル解析ルール記憶部 23からタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析する。タイトル解析部 15の機能は、本発明の第 2の実施の形態のタイトル解析部 15に示す機能と同じである。

[0077] レイアウト解析部 16は、解析結果記憶部 22から、基本レイアウト解析部 14で解析されたレイアウトの構成要素とその階層関係、タイトル解析部 15で解析されたタイトルを取得し、タイトルを持たな、レイアウトの構成要素をタイトルを持つレイアウトの構成要素、又はタイトルを持たな、別のレイアウトの構成要素とグループ化することで新ヽレイアウトを生成する。具体的には、まず第 1階層のレイアウトの構成要素を取得し、構成要素と構成要素に内包されるタイトルを対応付ける。タイトルを持たない構成要素は、タイトルを持つ構成要素のうち、例えば、ソース上先頭に向かって最も近いものとグループィ匕する。最も近いタイトルを持つ構成要素がない場合は、例えば、最も近 V、タイトルを持たな、構成要素とグループ化する。グループィ匕されたレイアウトの構成要素は、新しいレイアウトの構成要素として、当該構成要素に属するタイトルとともに解析結果記憶部 22に記憶する。更に、上記処理を基本レイアウト解析部 14で解析されたレイアウトの階層数分繰り返すことで、新しいレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を解析する。

[0078] レンダリング結果記憶部 21は入力部 11の、解析結果記憶部 22はレイアウト解析ッール 12の、それぞれ処理結果を記憶する。タイトル解析ルール記憶部 23は、タイトル解析ルールを予め記憶する。

[0079] 次に、図 16、図 17を参照して本実施の形態の動作について詳細に説明する。入力部 11は、外部力構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部 21に記憶する (ステップ S301)。

[0080] 基本レイアウト解析部 14の動作は、本発明の第 1の実施の形態に示す基本レイァゥト解析部（図 1の 14)の動作と同じである（ステップ S 302〜ステップ S 306)。

[0081] タイトル解析部 15の動作は、本発明の第 2の実施の形態に示すタイトル解析部（図

11の 15)の動作と同じである（ステップ S 311〜ステップ S 316)。

[0082] レイアウト解析部 16は、解析結果記憶部 22から、基本レイアウト解析部 14で解析されたレイアウトの構成要素とその階層関係、タイトル解析部 15で解析されたタイトルを取得し、処理対象階層 nを 1とする (ステップ S321)。

[0083] レイアウト解析部 16は、処理対象階層のレイアウトの構成要素があるかどうかを判定し、処理対象階層のレイアウトの構成要素がないと判定した場合、ステップ S331 に進む（ステップ S322)。

[0084] レイアウト解析部 16は、ステップ S322で処理対象階層のレイアウトの構成要素があると判定した場合、第 n階層のレイアウトの構成要素を取得し (ステップ S323)、第 n 階層のレイアウトの構成要素とタイトルを対応付ける (ステップ S324)。

[0085] レイアウト解析部 16は、タイトルを持たないレイアウトの構成要素をタイトルを持つレィアウトの構成要素、又はタイトルを持たな、別のレイアウトの構成要素とグループィ匕することで新しいレイアウトの構成要素を解析し、解析結果記憶部 22に記憶する (ステツプ S325)。

[0086] レイアウト解析部 16は、処理対象階層 nを n+ 1とし、ステップ S322以降の処理を繰り返す (ステップ S326)。

[0087] 出力部 13は、解析結果記憶部 22から新しいレイアウトの構成要素とその階層関係

、及び各構成要素とタイトルとの対応関係を取得し、新しいレイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する (ステップ S331)。 [0088] ここで、基本レイアウト解析部 14の動作 (ステップ S302〜ステップ S306)と、タイトル解析部 15の動作 (ステップ S 311〜ステップ S 316)の実行順序を入れ替えてもよい。具体的には、ステップ S301の直後にステップ S311〜ステップ S316が実行される形となり、ステップ S312力 S「No」のときステップ S302〜ステップ S306が実行される。また、この場合、ステップ S303が「No」のときステップ S321に移行する形となる。

[0089] 次に、本実施の形態の効果について説明する。本実施の形態では、文書記述要素の配置を参照し並置された文書記述要素をグループィヒすることで解析されたレイァゥトと、文書記述要素の名前に加え、属性、スタイル、内容を用いて解析されたタイトルを用いて、タイトルを持たな、レイアウトの構成要素をタイトルを持つレイアウトの構成要素、又はタイトルを持たな、別のレイアウトの構成要素とグループ化することで、関連した構成要素の集合を新ヽ構成要素とする新、レイアウトを生成するので、より論理構造を捉えたレイアウトを解析できる。このため、より文書提供者の意図を反映したレイアウトを解析できる。また、レイアウトやタイトルを文書記述要素の参照を用いて表現する形式で出力するので、第三者がレイアウトの情報を利用した応用アプリケーシヨンを開発できる。

[0090] 次に、本発明の第 4の実施形態について図面を参照して詳細に説明する。図 22を参照すると、本発明の第 4の実施形態は、プログラム制御により動作するデータ処理装置 5と、情報を記憶する記憶装置 6とを含む。

[0091] データ処理装置 5は、入力部 51と、文書入力部 52と、目次文書出力部 53と、項目文書出力部 54とを備える。記憶装置 6は、構造化'半構造化文書記憶部 61、レイァゥト文書記憶部 62とを備える。

[0092] 入力部 51は、キーボードを始めとする入力装置から、あるいはネットワークを介してユーザ入力を取得し、ユーザが所望する構造化'半構造ィ匕文書の URI (Universal Resource Identifier)を取得する。また、入力部 51は、キーボードを始めとする入力装置から、あるいはネットワークを介してユーザ入力を取得し、出力を制御する。具体的には、取得された入力に応じて、目次文書を出力する力、目次の項目の内容を記述した文書を出力するかを判定し、目次の項目の内容を記述した文書を出力する場合は、出力する目次の項目も判定する。 [0093] 文書入力部 52は、入力部 51で取得されたユーザが所望する構造化'半構造ィ匕文書の URIを用いて、当該文書を取得し、構造化'半構造ィ匕文書記憶部 61に記憶する。また、文書入力部 52は、取得した構造化 ·半構造ィ匕文書に指定された、レイァゥトの情報が文書記述要素の参照を用いて記述された文書を取得し、レイアウト記憶部 62に記憶する。ここで、文書入力部 52は、通信プロトコルのヘッダー情報を利用するといつた別の方法を用いて、取得した構造化'半構造ィ匕文書のレイアウトの情報が記述された文書を取得してもよい。また、取得した構造化'半構造ィ匕文書について、本発明の第 3の実施の形態に示すシステムを用いて、レイアウトの情報を解析し、レィアウト文書記憶部 62に記憶してもよい。

[0094] 目次文書出力部 53は、入力部 51が目次を出力すると判定した場合、構造化'半構造ィ匕文書記憶部 61からユーザが所望する構造化 ·半構造ィ匕文書を、レイアウト文書記憶部 62から当該構造化'半構造ィ匕文書のレイアウトの情報が記述された文書をそれぞれ取得し、目次文書を生成する。具体的には、レイアウトの情報が記述された文書力も全ての末端のレイアウトの構成要素を抽出し、それぞれについて指定されたタイトルを抽出し、文書記述要素の参照を用いて元の構造化'半構造化文書から当該タイトルに対応する文書記述要素を抜き出し、整形して順に並べることで目次文書を生成する。ここで、タイトルの指定がない構成要素について、当該構成要素に対応する文書記述要素以下の内容力も一定数の文字を抜き出し並べてもよい。また、特定階層のレイアウトの構成要素の間に仕切り線を挿入する、構造化'半構造ィ匕文書に別途与えられたタイトルを挿入するなど、目次に装飾を施してもよい。また、上位階層の構成要素が同じ 1つ以上の末端のレイアウトの構成要素について、末端の構成要素に代え上位階層の構成要素を用いてもよい。生成した目次文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される。

[0095] 項目文書出力部 54は、入力部 51が目次の項目の内容を記述した文書を出力すると判定し、出力する目次の項目を判定した場合、構造化'半構造化文書記憶部 61からユーザが所望する構造化 ·半構造ィ匕文書を、レイアウト文書記憶部 62から当該構造化'半構造化文書のレイアウトの情報が記述された文書をそれぞれ取得し、指定された目次の項目の内容を記述した文書を生成する。具体的には、指定された目次の項目をタイトルとして持つレイアウトの構成要素を抽出し、文書記述要素の参照を用いて元の構造化'半構造化文書から当該構成要素に対応する文書記述要素を抜き出し、整形して順に並べることで目次の項目の内容を記述した文書を生成する。ここで、項目の内容として、抜き出された文書記述要素の内容を更に抜き出し並べてもよい。また、構造化'半構造化文書の文書記述要素を別の文書記述要素に置き換えた上で並べてもよい。さらに、目次の内容を記述した文書としてユーザが所望する構造ィ匕'半構造ィ匕文書そのものを用い、指定された目次の項目に対応する領域に位置合わせして出力してもよい。生成された目次の項目の内容を記述した文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される。

[0096] 構造化'半構造化文書記憶部 61、レイアウト文書記憶部 62は、文書入力部 52の処理結果を記憶する。ここで、目次文書出力部 53が目次文書を生成した際当該目次文書を記憶するとともに、項目文書出力部 54で目次の項目の内容を記述した全ての文書を予め生成し記憶しておき、ユーザ入力に対応した目次文書または目次の項目の内容を記述した文書を、目次文書出力部 53または項目文書出力部 54が選択し出力する構成としてもよい。

[0097] 次に、図 22、図 23を参照して本実施の形態の動作について詳細に説明する。入力部 51は、キーボードを始めとする入力装置から、あるいはネットワークを介してユーザ入力を取得し、ユーザが所望する構造化'半構造ィ匕文書の URIを取得する (ステツプ S401)。

[0098] 文書入力部 52は、取得された URIを用いて文書を取得し、構造化'半構造化文書記憶部 61に記憶する。また、文書入力部 52は、取得した構造化'半構造化文書に指定された、レイアウトの情報が記述された文書を取得し、レイアウト文書記憶部 62 に記憶する（ステップ S402)。

[0099] 入力部 51は、処理を続けるかどうかを判定し、処理を続けないと判定した場合、終了する（ステップ S403)。

[0100] 入力部 51は、ステップ S403で処理を続けると判定した場合、出力する内容が目次かどうかを判定する（ステップ S404)。

[0101] 目次文書出力部 53は、ステップ S404で目次を出力すると判定した場合、構造化' 半構造ィ匕文書記憶部 61からユーザが所望する構造化 ·半構造ィ匕文書を、レイアウト文書記憶部 62から当該構造化'半構造化文書のレイアウトの情報が記述された文書をそれぞれ取得し、目次文書を生成する。生成した目次文書は、ディスプレイゃスピ一力一と、つた出力装置から、ある、はネットワークを介してユーザに提供される (ステツプ S405)。

[0102] 項目文書出力部 54は、ステップ S404で目次を出力しないと判定した場合、出力する目次の項目を更に判定し、構造化 ·半構造化文書記憶部 61からユーザが所望する構造化 ·半構造化文書を、レイアウト文書記憶部 62から当該構造化 ·半構造ィ匕文書のレイアウトの情報が記述された文書をそれぞれ取得し、指定された目次の項目の内容を記述した文書を生成する。生成された目次の項目の内容を記述した文書は、ディスプレイやスピーカーといった出力装置から、あるいはネットワークを介してュ一ザに提供される (ステップ S406)。

[0103] 入力部 51は、ステップ S405で目次文書を出力した後、又はステップ S406で目次の項目の内容を記述した文書を出力した後、キーボードを始めとする入力装置から、あるいはネットワークを介してユーザ入力を取得し、ステップ S403以降の処理を繰り返す (ステップ S407)。

[0104] 次に、本実施の形態の効果について説明する。本実施の形態では、構造化'半構造化文書と当該文書のレイアウトの情報が記述された文書を用いて目次文書や目次の項目の内容を記述した文書を生成、出力するので、文書提供者が意図する文書の論理構造を的確に捉えた目次を用いて文書を閲覧できるようになり、画面の小さ!/ヽ端末でも文書の全体像を把握しやすくなるとともに、少ない操作で文書を閲覧できる。このため、端末環境に適応した文書を提供できる。

[0105] 次に、本発明の第 5の実施形態について図面を参照して詳細に説明する。図 27を参照すると、本発明の第 5の実施形態は、プログラム制御により動作するデータ処理装置 7と、情報を記憶する記憶装置 8とを含む。

[0106] データ処理装置 7は、文書入力部 71と、合成文書出力部 72とを備える。記憶装置 8は、出力構成要素記憶部 81と、構造化 ·半構造化文書記憶部 82と、レイアウト文書記憶部 83とを備える。

[0107] 文書入力部 71は、出力構成要素記憶部 81から出力構成要素に関する情報を取得し、当該情報に記述された URIに対応する文書を取得し、構造化 ·半構造化文書記憶部 82に記憶する。また、文書入力部 71は、取得したそれぞれの構造化'半構造化文書に指定された、レイアウトの情報が文書記述要素の参照を用いて記述された文書を取得し、レイアウト文書記憶部 83に記憶する。ここで、文書入力部 71は、通信プロトコルのヘッダー情報を利用するといつた別の方法を用いて、取得した構造化' 半構造ィ匕文書のレイアウトの情報が記述された文書を取得してもよい。また、取得した構造化'半構造ィ匕文書について、本発明の第 3の実施の形態に示すシステムを用いて、レイアウトの情報を解析し、レイアウト文書記憶部 83に記憶してもよい。

[0108] 合成文書出力部 72は、出力構成要素記憶部 81から出力構成要素に関する情報を、構造ィ匕 ·半構造ィ匕文書記憶部 82からユーザが所望する構造ィ匕 ·半構造化文書を、レイアウト文書記憶部 83からレイアウトの情報が記述された文書をそれぞれ取得し、合成文書を生成する。具体的には、出力構成要素に関する情報カゝら全ての URI と構成要素の IDの組み合わせを取得し、各 URIに対応する文書力も構成要素の ID に対応する構成要素を抽出し、文書記述要素の参照を用いて元の構造化'半構造化文書から当該構成要素に対応する文書記述要素を抜き出し、整形して順に並べることで合成文書を生成する。ここで、各構成要素について、これに属する文書記述要素の内容を更に抜き出し並べてもよい。生成された合成文書は、ディスプレイゃスピ一力一と、つた出力装置から、ある、はネットワークを介してユーザに提供される。

[0109] ここで、出力構成要素に関する情報として構成要素のタイトルを表すテキスト情報を更に記憶し、合成文書出力部 72で、出力する構成要素の IDに対応する構成要素を抽出した際、抽出された構成要素のタイトルと出力構成要素に関する情報に記憶された構成要素のタイトルを表すテキスト情報を照合し、異なる場合に当該テキスト情報を手掛かりとして正しい構成要素を検索し、出力構成要素に関する情報に記憶された出力する構成要素の IDを更新することで、レイアウトに変更があった場合でも適切な合成文書を生成できるようにしてもよい。また、出力構成要素に関する情報として表示位置の情報を更に記憶し、合成文書出力部 72で、当該表示位置の情報を用

V、て合成文書を整形してもよ!/、。

[0110] 出力構成要素記憶部 81は、出力する構成要素に関する情報、すなわち出力する構造化'半構造ィ匕文書の URIと当該文書のうち出力する構成要素の IDの組み合わせの集合を記憶する。構造化 ·半構造化文書記憶部 82、レイアウト文書記憶部 83は

、文書入力部 71の処理結果を記憶する。

[0111] 次に、図 27、図 28を参照して本実施の形態の動作について詳細に説明する。文書入力部 71は、出力構成要素記憶部 81から出力構成要素に関する情報を取得する（ステップ S 501)。

[0112] 文書入力部 71は、取得された出力構成要素に関する情報に記述された URIに対応する文書を取得し、構造化'半構造ィ匕文書記憶部 82に記憶する。また、文書入力部 71は、取得したそれぞれの構造化'半構造ィ匕文書に指定されたレイアウトの情報が記述された文書を取得し、レイアウト文書記憶部 83に記憶する (ステップ S502)。

[0113] 合成文書出力部 72は、出力構成要素記憶部 81から出力構成要素に関する情報を、構造ィ匕 ·半構造ィ匕文書記憶部 82からユーザが所望する構造ィ匕 ·半構造化文書を、レイアウト文書記憶部 83から当該文書のレイアウトの情報が記述された文書をそれぞれ取得し、合成文書を生成する。生成された合成文書は、ディスプレイゃスピーカーといった出力装置から、あるいはネットワークを介してユーザに提供される (ステツプ S503)。

[0114] 次に、本実施の形態の効果について説明する。本実施の形態では、出力構成要素に関する情報と構造化'半構造化文書と当該文書のレイアウトの情報が記述された文書を用いて、指定されたレイアウトの構成要素だけ力成る合成文書を生成、出力するので、文書提供者が意図する文書の論理構造を的確に捉えた合成文書を用いて文書の必要な部分だけを閲覧できるようになり、ネットワーク帯域が限定された端末や画面の小さい端末でも快適に文書を閲覧できる。またユーザの好みに応じた文書を閲覧できる。このため、ネットワークや端末、ユーザの環境に適応した文書を提供できる。

[0115] 次に、本発明の第 6の実施形態について図面を参照して詳細に説明する。図 32を参照すると、本発明の第 6の実施形態は、本発明の第 1、第 2、第 3の実施形態と同様に、データ処理装置 1、記憶装置 2を備える。

[0116] 文書解析用プログラム 3は、データ処理装置 1に読み込まれデータ処理装置 1の動作を制御し、記憶装置 2にレンダリング結果記憶部 21と解析結果記憶部 22とタイトル解析ルール記憶部 23を生成する。データ処理装置 1は文書解析用プログラム 3の制御により第 1、第 2、第 3の実施形態におけるデータ処理装置 1による処理と同一の処理を実行する。

[0117] 次に、本発明の第 7の実施形態について図面を参照して詳細に説明する。図 33を参照すると、本発明の第 7の実施形態は、本発明の第 4の実施形態と同様に、データ処理装置 5、記憶装置 6を備える。

[0118] 文書適応用プログラム 4は、データ処理装置 5に読み込まれデータ処理装置 5の動作を制御し、記憶装置 6に構造化 ·半構造ィ匕文書記憶部 61とレイアウト文書記憶部 6 2を生成する。データ処理装置 5は文書適応用プログラム 4の制御により第 4の実施形態におけるデータ処理装置 5による処理と同一の処理を実行する。

[0119] 次に、本発明の第 8の実施形態について図面を参照して詳細に説明する。図 34を参照すると、本発明の第 8の実施形態は、本発明の第 5の実施形態と同様に、データ処理装置 7、記憶装置 8を備える。

[0120] 文書適応用プログラム 9は、データ処理装置 7に読み込まれデータ処理装置 7の動作を制御し、記憶装置 8に出力構成要素記憶部 81、構造化，半構造化文書記憶部 8 2、レイアウト文書記憶部 83を生成する。データ処理装置 7は文書適応用プログラム 9の制御により第 5の実施形態におけるデータ処理装置 7による処理と同一の処理を実行する。

[0121] 次に、本発明の第 9の実施形態について図面を参照して詳細に説明する。図 35を参照すると、本発明の第 9の実施形態は、プログラム制御により動作するデータ処理装置 1と、情報を記憶する記憶装置 2とを含む。

[0122] データ処理装置 1は、入力部 11と、レイアウト解析ツール 12と、出力部 13とを備える。記憶装置 2は、レンダリング結果記憶部 21、解析結果記憶部 22、タイトル解析ルール記憶部 23とを備える。 [0123] 入力部 11は、外部から構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部 21に記憶する。

[0124] レイアウト解析ツール 12は、基本レイアウト解析部 14と、タイトル解析部 15と、レイアウト解析部 16とを有する。

[0125] 出力部 13は、解析結果記憶部 22からレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を取得し、レイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する。

[0126] 基本レイアウト解析部 14は、レンダリング結果記憶部 21からレンダリング結果を取得し、文書記述要素の配置を参照し、一定の方向に並置された文書記述要素をダループ化することでレイアウトを解析する。基本レイアウト解析部 14の機能は、本発明の第 1の実施の形態の基本レイアウト解析部 14に示す機能と同じである。

[0127] タイトル解析部 15は、レンダリング結果記憶部 21からレンダリング結果を、タイトル解析ルール記憶部 23からタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析する。タイトル解析部 15の機能は、本発明の第 2の実施の形態のタイトル解析部 15に示す機能と同じである。

[0128] レイアウト解析部 16は、ブロック選別部 17、セクション計算部 18とを有する。

[0129] ブロック選別部 17は、解析結果記憶部 22から、基本レイアウト解析部 14で解析された第 1のレイアウトの構成要素とその階層関係、レイアウト解析部 16で解析された第 2のレイアウトの構成要素とその階層関係を取得し、分割可能な第 2のレイアウトの構成要素 1つを選別し、これを構成する第 1のレイアウトの構成要素を解析対象とする。さらに、タイトル解析部 15で解析されたタイトルを取得し、解析対象の第 1のレイアウトの構成要素とタイトルを対応付け、対応付けられたタイトルについて、これを構成する文書記述要素の名前、属性、スタイルに基づき主要なタイトルを選別する。その上で、主要なタイトルを持つ構成要素を主要な構成要素とする。ここで、解析対象の第 1のレイアウトの構成要素について、これを構成する文書記述要素の名前、属性、スタイル、内容に基づき、当該構成要素が境界線力否かを判定し、境界線と判定したものを主要なレイアウトの構成要素としてもよいし、解析対象の第 1のレイアウトの構成要素間の距離に基づき、直前の構成要素と所定の距離以上離れた構成要素などを主要な構成要素としてもよヽ。

[0130] セクション計算部 18は、ブロック選別部 17で選別された第 1のレイアウトの構成要素について、主要でない構成要素を、主要な構成要素、又は主要でない別の構成要素とグループィ匕することで第 2のレイアウトの構成要素を生成し、解析結果記憶部 22に記憶する。具体的には、主要でない構成要素は、主要な構成要素のうち、例えば、ソース上先頭に向力つて最も近いものとグループ化する。最も近い主要な構成要素がない場合は、例えば、最も近い主要でない構成要素とグループィ匕する。ここで、新たに生成された第 2のレイアウトの構成要素を元の第 2のレイアウトの構成要素と置き換えて記憶してもよ、し、新たに生成された第 2のレイアウトの構成要素を元の第 2 のレイアウトの構成要素の子供として記憶してもよい。また、境界線と判定された第 1 のレイアウトの構成要素を除き第 2のレイアウトの構成要素として記憶してもよい。

[0131] 次に、図 35、図 36を参照して本実施の形態の動作について詳細に説明する。入力部 11は、外部力構造化'半構造ィ匕文書を取得し、当該文書をレンダリングし、レンダリング結果をレンダリング結果記憶部 21に記憶する (ステップ S901)。

[0132] 基本レイアウト解析部 14の動作は、本発明の第 1の実施の形態に示す基本レイァゥト解析部（図 1の 14)の動作と同じである（ステップ S 902〜ステップ S 906)。

[0133] タイトル解析部 15の動作は、本発明の第 2の実施の形態に示すタイトル解析部（図 1の 15)の動作と同じである（ステップ S 911〜ステップ S 916)。

[0134] ブロック選別部 17は、解析結果記憶部 22から、基本レイアウト解析部 14で解析された第 1のレイアウトの構成要素とその階層関係、タイトル解析部 15で解析されたタィトル、レイアウト解析部 F16で解析された第 2のレイアウトの構成要素とその階層関係を取得する（ステップ S921)。

[0135] ブロック選別部 17は、分割可能な第 2のレイアウトの構成要素があるかどうかを判定し、分割可能な第 2のレイアウトの構成要素がないと判定した場合、ステップ S931に進む (ステップ S922)。ここで、判定基準として、第 2のレイアウトの構成要素が内包するタイトルの数、第 2のレイアウトの構成要素を構成する第 1のレイアウトの構成要素のうちタイトルを持つものの数、第 2のレイアウトの構成要素の面積や幅、高さなどを用いることができる。

[0136] ブロック選別部 17は、ステップ S923で分割可能な第 2のレイアウトの構成要素があると判定した場合、分割可能な第 2のレイアウトの構成要素 1つを選別し、これを構成する第 1のレイアウトの構成要素を解析対象とする (ステップ S923)。

[0137] ブロック選別部 17は、解析対象の第 1のレイアウトの構成要素とタイトルを対応付け

(ステップ S924)、対応付けられたタイトルについて、これを構成する文書記述要素の名前、属性、スタイルに基づき主要なタイトルを選別する (ステップ S925)。

[0138] ブロック選別部 17は、ステップ S925で選別された主要なタイトルを持つ第 1のレイアウトの構成要素を主要な構成要素とする。ここで、解析対象の第 1のレイアウトの構成要素について、これを構成する文書記述要素の名前、属性、スタイル、内容に基づき、当該構成要素が境界線力否かを判定し、境界線と判定したものやその次の構成要素をも主要なレイアウトの構成要素としてもよいし、解析対象の第 1のレイアウトの構成要素間の距離に基づき、直前の構成要素と所定の距離以上離れた構成要素などをも主要な構成要素としてもよ、 (ステップ S926)。

[0139] セクション計算部 18は、ブロック選別部 17で選別された第 1のレイアウトの構成要素について、主要でない構成要素を、主要な構成要素、又は主要でない別の構成要素とグループィ匕することで第 2のレイアウトの構成要素を生成し、解析結果記憶部 22に記憶する（ステップ S927)。

[0140] 出力部 13は、解析結果記憶部 22から第 2のレイアウトの構成要素とその階層関係、及び各構成要素とタイトルとの対応関係を取得し、第 2のレイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式に整形し外部に出力する (ステップ S931)。

[0141] ここで、基本レイアウト解析部 14の動作 (ステップ S902〜ステップ S906)と、タイトル解析部 15の動作 (ステップ S 911〜ステップ S 916)の実行順序を入れ替えてもよい。

[0142] 次に、本実施の形態の効果について説明する。本実施の形態では、タイトルを構成する文書記述要素の名前、属性、スタイルにより選別された主要なタイトルなどに基づき、第 1のレイアウトの構成要素をグループィ匕し、新たな第 2のレイアウトの構成要素を生成するので、より論理構造を捉えたレイアウトを解析できる。このため、より文書提供者の意図を反映したレイアウトを解析できる。また、レイアウトやタイトルを文書記述要素の参照を用いて表現する形式で出力するので、第三者がレイアウトの情報を利用した応用アプリケーションを開発できる。

実施例

[0143] 次に、本発明の第 1の実施例を図面を参照して説明する。力かる実施例は本発明の第 1の実施の形態に対応するものである。本実施例は、データ処理装置、データ記憶装置としてパーソナルコンピュータを備えて、る。

[0144] パーソナルコンピュータは、入力部、レイアウト解析部、出力部、基本レイアウト解析部として機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有してヽる。

[0145] ここでは、構造化'半構造ィ匕文書として図 3に示す HTML文書を対象に、第 2階層までのレイアウトの解析にっ、て説明する。

[0146] 中央演算装置は、 HTML文書を外部から取得し、当該文書をレンダリングし、図 3 に示すレンダリング結果をメモリ装置に記憶する。中央演算装置は、レンダリング結果を取得し、まず body要素の配置を参照する。図 4に示すように body要素は水平方向に並置された HTML文書の要素がなくグループ化できな、ため、中央演算装置は子供の HTML文書の要素の配置を参照する。図 5に示すように子供の HTML文書の要素である hi要素と 2つの table要素は!、ずれも水平方向に並置された HTML 文書の要素がなくグループィ匕できないため、中央演算装置は更に子供の HTML文書の要素の配置を参照する。

[0147] まず、 hi要素について、図 5に示すように子供の HTML文書の要素がないので、当該 hi要素を第 1のレイアウトの構成要素としてメモリ装置に記憶する。次に、第 1番目の table要素について、図 6に示すように子供の HTML文書の要素である tr要素は水平方向に並置された HTML文書の要素がなくグループィ匕できないため、中央演算装置は更に子供の HTML文書の要素の配置を参照する。図 7に示すように子供の HTML文書の要素である td要素は水平方向に並置された HTML文書の要素がなくグループ化できな!/、ものの子供の HTML文書の要素がな!、ので、当該 td要素を第 2のレイアウトの構成要素としてメモリ装置に記憶する。最後に、第 2番目の ta ble要素について、図 6に示すように子供の HTML文書の要素である 2つの tr要素は水平方向に並置された HTML文書の要素がなくグループ化できないため、中央演算装置は更に子供の HTML文書の要素の配置を参照する。

[0148] 第 1番目の tr要素について、図 7に示すように子供の HTML文書の要素である 2つの td要素は水平方向に並置されているのでこれらをグループ化し、当該 2つの td要素を第 3のレイアウトの構成要素としてメモリ装置に記憶する。第 2番目の tr要素につ Vヽても、図 7に示すように子供の HTML文書の要素である 2つの td要素は水平方向に並置されているのでこれらをグループ化し、当該 2つの td要素を第 4のレイアウトの構成要素としてメモリ装置に記憶する。

[0149] 以上の処理により、図 8に示す第 1階層のレイアウトを解析する。第 2階層のレイァゥトを解析する場合は、第 1階層のレイアウトの構成要素について、これに属する HTM L文書の要素の配置を参照し垂直方向に並置された HTML文書の要素をグループ化する。例えば、第 3のレイアウトの構成要素について、図 9に示すようにこれに属する HTML文書の要素である 2つの td要素は!、ずれも垂直方向に並置された HTML 文書の要素がなくグループィ匕できないため、中央演算装置は更に子供の HTML文書の要素の配置を参照する。第 1番目の td要素について、図 9に示すように子供の HTML文書の要素がな、ので、当該 td要素をレイアウトの構成要素としてメモリ装置に記憶する。第 2番目の td要素についても、図 9に示すように子供の HTML文書の要素がないので、当該 td要素をレイアウトの構成要素としてメモリ装置に記憶する。以上の処理により、第 2階層のレイアウトを解析する。

[0150] 中央演算装置は、解析されたレイアウトの構成要素とその階層関係の情報をメモリ装置から取得し、レイアウトの構成要素を HTML文書の要素の参照を用いて表現する形式、例えば、図 10に示す形式に整形し、外部に出力する。

[0151] 次に、本発明の第 2の実施例を図面を参照して説明する。力かる実施例は本発明の第 2の実施の形態に対応するものである。本実施例は、データ処理装置、データ記憶装置としてパーソナルコンピュータを備えて、る。

[0152] パーソナルコンピュータは、入力部、レイアウト解析部、出力部、タイトル解析部として機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有している。また、磁気ディスク記憶装置には、図 13に示すようなタイトル解析ルールが記憶されている。

[0153] ここでは、構造化'半構造ィ匕文書として図 3に示す HTML文書を対象に説明する。

中央演算装置は、 HTML文書を外部から取得し、当該文書をレンダリングし、図 3に示すレンダリング結果をメモリ装置に記憶する。

[0154] 中央演算装置は、レンダリング結果とタイトル解析ルールを取得し、 body要素を処理対象 HTML文書の要素とする。 body要素について名前、属性、スタイル、内容をタイトル解析ルールと照合するとルールに合致しな、ため、 body要素の子供の HT ML文書の要素、すなわち hi要素と 2つの table要素を新しく処理対象 HTML文書の要素に追加し、 hi要素を次の処理対象 HTML文書の要素とする。ここで hi要素について名前、属性、スタイル、内容をタイトル解析ルールと照合するとルールに合致するため、当該 hi要素をタイトルとしてメモリ装置に記憶し、第 1の table要素を次の処理対象 HTML文書の要素とする。上記処理を処理対象 HTML文書の要素がなくなるまで繰り返す。例えば、処理対象 HTML文書の要素が第 2の table要素の第 1の tr要素の第 1の td要素であった場合は、当該 td要素について名前、属性、スタイル、内容をタイトル解析ルールと照合する。当該 td要素が背景色の指定があり高さが 50pxで内容が 5文字だったとすると、照合の結果ルールに合致するため、当該 td要素をタイトルとしてメモリ装置に記憶する。以上の処理により、図 14に示すタイトルを解析する。

[0155] 中央演算装置は、解析されたタイトルの情報をメモリ装置カゝら取得し、タイトルを HT ML文書の要素の参照を用いて表現する形式、例えば、図 15に示す形式に整形し、外部に出力する。

[0156] 次に、本発明の第 3の実施例を図面を参照して説明する。力かる実施例は本発明の第 3の実施の形態に対応するものである。本実施例は、データ処理装置、データ記憶装置としてパーソナルコンピュータを備えて、る。

[0157] パーソナルコンピュータは、入力部、レイアウト解析部、出力部、基本レイアウト解析部、タイトル解析部、レイアウト解析部 Fとして機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有している。また、磁気ディスク記憶装置にはタイトル解析ルールが記憶されている。

[0158] ここでは、構造化'半構造ィ匕文書として図 3に示す HTML文書を対象に説明する。

[0159] 中央演算装置は、レンダリング結果を取得し、レイアウトの構成要素とその階層関係を解析する。この機能や動作は、第 1の実施例に示すものと同じである。

[0160] 中央演算装置は、レンダリング結果とタイトル解析ルールを取得し、タイトルを解析する。この機能や動作は、第 2の実施例に示すものと同じである。

[0161] 中央演算装置は、解析されたレイアウトの構成要素とその階層関係、タイトルを取得し、まず第 1階層のレイアウトの構成要素を対象に解析する。第 1階層のレイアウトの構成要素とタイトルの内包関係を調べると、図 18に示すようにタイトルを持つレイァゥトの構成要素とタイトルを持たないレイアウトの構成要素を解析できる。ここで、 bod y要素下の第 1の table要素下の第 1の tr要素下の第 1の td要素で与えられるレイァゥトの構成要素はタイトルを持たないので、タイトルを持つレイアウトの構成要素、又はタイトルを持たない別のレイアウトの構成要素とのグループィ匕を図る。

[0162] 具体的には、図 19に示すように当該構成要素力見てソース上先頭に向力つて最も近、タイトルを持つレイアウトの構成要素、すなわち body要素下の hi要素で与えられるレイアウトの構成要素とグループィ匕し、新、レイアウトの構成要素としてメモリ装置に記憶する。上記処理を全てのタイトルを持たないレイアウトの構成要素について行い、図 20に示す第 1階層の新しいレイアウトの構成要素を解析する。同様の処理を第 2階層のレイアウトの構成要素に適用することで、第 2階層の新しいレイアウトの構成要素も解析できる。

[0163] 中央演算装置は、解析された新しいレイァ外の構成要素とその階層関係、及び各構成要素とタイトルとの対応関係の情報をメモリ装置取得し、新しヽレイアウトの構成要素とタイトルを HTML文書の要素の参照を用いて表現する形式、例えば、図 21に示す形式に整形し、外部に出力する。

[0164] 次に、本発明の第 4の実施例を図面を参照して説明する。力かる実施例は本発明の第 4の実施の形態に対応するものである。本実施例は、データ記憶装置としてパーソナノレコンピュータを備えて、る。

[0165] パーソナルコンピュータは、入力部、文書入力部、目次文書出力部、項目文書出力部として機能する中央演算装置と、構造化 ·半構造化文書記憶部、レイァ外文書記憶部として機能するメモリ装置、磁気ディスク装置を有して、る。

[0166] ここでは、構造化'半構造ィ匕文書として図 24Aに示す HTML文書を、当該 HTML 文書のレイアウトの情報が記述された文書として図 24Bに示す XML文書を対象に説明する。

[0167] ユーザが携帯電話から http : ZZwww. nec. co. jp/news. htmlという URLを入力した場合、中央演算装置は、ネットワークを介して当該 URLを取得し、さらにこれに対応する図 24Aに示す HTML文書を取得し、メモリ装置に記憶する。また中央演算装置は、 HTML文書を解析し当該文書のレイアウトの情報が記述された文書の URL、 http： //www. nec. co. jp/news. rdfを取得し、さらにこれに対 J心する図 24Bに示す XML文書を取得し、メモリ装置に記憶する。

[0168] 中央演算装置は、 HTML文書と XML文書をメモリ装置から取得し、 XML文書から全てのレイアウトの構成要素、 urn： layout： 1、 urn: layout: 2、 urn： layout : 2 : 1 、 urn:layout: 2 : 2を抽出し、それぞれのレイアウトの構成要素についてタイトルに対応する HTML文書の要素、 /body[l]/hl [l]、 /body [ 1 ] /table [ 2] /tr [ 1 ] Ztd [ 1 ] /table [ 1 ] Ztr [ 1 ]、 /body [ 1 ] /table [2]/tr[l] /td [2] /table [ 1 ] Ztr[l]をさらに抽出する。ここで、タイトルに対応する HTML文書の要素を HTML 文書に照らし合わせ、それぞれの内容、「主要な-ユース」、「政治」、「経済」を抽出し、 A要素といった HTML文書の要素を付カ卩して順に並べることで、図 25に示すレンダリングイメージを持つ目次文書を生成する。生成された目次文書は、ネットワーク、携帯電話の Webブラウザを介してユーザに提示される。

[0169] ユーザが提示された目次 HTML文書から「政治」を選んだ場合、中央演算装置は、ネットワークを介してこの情報を取得し、 XML文書から「政治」をタイトルとして持つレイアウトの構成要素、 urn: layout: 2 : 1を抽出し、当該構成要素に属する HTML 文書の要素、 Zbody[l]Ztabl_e [2]Ztr[l]Ztd[l]を更に抽出する。また、構成要素に対応する HTML文書の要素を HTML文書に照らし合わせ、その内容を抽出し、目次へのリンクを始めとするナビゲーシヨンを目的とする HTML文書の要素を付加して順に並べることで、図 26に示すレンダリングイメージを持つ「政治」の内容に関する文書を生成する。生成された文書は、ネットワーク、携帯電話の Webブラウザを介してユーザに提示される。ここで、ユーザが提示された文書から目次を選んだ場合

、中央演算装置は、再度目次文書を生成し、ユーザに提示する。また、同文書から「前」や「次」を選んだ場合、中央演算装置は、「政治」の前や次の項目である「主要なニュース」や「経済」の内容に関する文書を生成し、ユーザに提示する。

[0170] 次に、本発明の第 5の実施例を図面を参照して説明する。力かる実施例は本発明の第 5の実施の形態に対応するものである。本実施例は、データ記憶装置としてパーソナノレコンピュータを備えて、る。

[0171] パーソナルコンピュータは、文書入力部、合成文書出力部として機能する中央演算装置と、構造化'半構造化文書記憶部、レイアウト文書記憶部として機能するメモリ装置、磁気ディスク装置を有している。また、磁気ディスク装置には、図 29に示すような出力構成要素に関する情報が記憶されている。

[0172] ここでは、構造化'半構造ィ匕文書として図 24Aと図 30Aに示す HTML文書を、それぞれの HTML文書のレイアウトの情報が記述された文書として図 24Bと図 30B〖こ示す XML文書を対象に説明する。

[0173] 中央演算装置は、出力構成要素に関する情報に記述された、 http : //www. n ec. co. jpz news, htmlと http : , / www. nec. co. jpZ stock, htmlの 2つの U RLを取得し、さらにこれに対応する図 24Aと図 30Aに示す HTML文書を取得し、メモリ装置に記憶する。また、中央演算装置は、それぞれの HTML文書を解析し当該文書のレイアウトの情報が記述された文書の URL、 http : //www. nec. co. jp/ news, rdfと http : / / www. nec. co. jp/ stock, rdfを取得し、さらにこれに対応する図 24Bと図 30Bに示す XML文書を取得し、メモリ装置に記憶する。

[0174] 中央演算装置は、出力構成要素に関する情報から、 2つの URLに対応する文書の出力する構成要素の ID、 urn: layout: 2 : 1、 urn: layout： 1を取得する。更に、中央演算装置は、 HTML文書と XML文書をメモリ装置から取得し、 XML文書から出力する構成要素の IDに対応する HTML文書の要素、すなわち、 http : //www. ne c. co. jp/news.

7 &1316[2] 7 [1] 7 (1[1] 7 &131 e [l] Z tr[l]を、 http： / / www. nec. co. jpZ stock, htmlにつヽて ίま Zbody[ l] Ztable [l]を抽出する。ここで出力する構成要素に対応する HTML文書の要素を HTML文書に照らし合わせ、整形して順に並べることで、図 31に示すレンダリングイメージを持つ合成文書を生成する。生成された合成文書は、例えば、ネットワーク、携帯電話の Webブラウザを介してユーザに提示される。

[0175] 次に、本発明の第 6の実施例を図面を参照して説明する。力かる実施例は本発明の第 9の実施の形態に対応するものである。本実施例は、データ処理装置、データ記憶装置としてパーソナルコンピュータを備えて、る。

[0176] パーソナルコンピュータは、入力部、レイアウト解析部、出力部、基本レイアウト解析部、タイトル解析部、レイアウト解析部 F、ブロック選別部、セクション計算部として機能する中央演算装置と、レンダリング結果記憶部、解析結果記憶部として機能するメモリ装置、磁気ディスク記憶装置を有している。また、磁気ディスク記憶装置にはタイトル解析ルールが記憶されて!、る。

[0177] ここでは、構造化'半構造ィ匕文書として図 37に示す HTML文書を対象に説明する。中央演算装置は、 HTML文書を外部から取得し、当該文書をレンダリングし、レンダリング結果をメモリ装置に記憶する。

[0178] 中央演算装置は、レンダリング結果を取得し、第 1のレイアウトの構成要素とその階層関係を解析する。この機能や動作は、第 1の実施例に示すものと同じである。

[0179] 中央演算装置は、レンダリング結果とタイトル解析ルールを取得し、タイトルを解析する。この機能や動作は、第 2の実施例に示すものと同じである。

[0180] 中央演算装置は、解析された第 1のレイアウト、第 2のレイアウトを取得し、分割可能な第 2のレイアウトの構成要素 1つを選別し、これを構成する第 1のレイアウトの構成要素を解析対象とする。図 38は解析の途中の状態を表している。ここで、 Zbody[l ] Zdiv[2]〜div[6]で成る第 2のレイアウトの構成要素は、これを構成する第 1のレイアウトの構成要素、すなわち Zbody[l] Zdiv[2]、 /body[l] /div[3] , · · ·、 Zb ody[l] Zdiv[6]それぞれで成る構成要素のうちタイトルをもつものが 2つ以上あるため、分割可能な第 2のレイアウトの構成要素となっている。そこでこの場合、 /body [l]/div[2]、 /body[l] /div[3]、 · · ·、 /body[l] /div[6]それぞれで成る構成要素が解析対象の第 1のレイアウトの構成要素となる。

[0181] 中央演算装置は、解析されたタイトルを取得し、図 39に示すように解析対象の第 1 のレイアウトの構成要素に内包されるタイトルを選別する。さら〖こ、選別されたタイトルの位置を調べ、図 40に示すように最も左に位置する Zbody [ 1 ] /div [2]で成るタイトルの左端を起点に水平方向に所定距離以内に左端が位置する Zbody [ 1 ] /div [ 2]で成るタイトル、 Zbody [l] Zdiv[4]で成るタイトルを主要なタイトルとして選別する。さらに、図 41に示すように主要なタイトルを内包する第 1のレイアウトの構成要素を主要な構成要素とする。

[0182] なお、主要なタイトルを選別する方法として、図 42に示すように背景色などスタイルが類似するタイトルを主要なタイトルとして選別する方法や、図 43に示すように位置を基準に一定数あるいは一定割合のタイトルを主要なタイトルとして選別する方法、位置やスタイルの類似度を組み合わせて主要なタイトルを選別する方法などを用いてもよい。

[0183] また、解析対象の第 1のレイアウトの構成要素について、図 44に示すように当該構成要素が境界線力否かを判定し、境界線と判定したものを主要な構成要素としてもよい。ここでは構成要素の内容により、 hr要素を持つ Zbody[l] Zdiv[5]で成る構成要素を主要な構成要素としている。なお、境界線の判定方法として、解析対象の第 1 のレイアウトの構成要素の幅や高さ、当該構成要素を構成する文書記述要素の境界などのスタイル、当該構成要素を構成する文書記述要素の内容である画像の幅や高さなどを用いてもよい。

[0184] 中央演算装置は、図 45に示すように主要でない構成要素を主要な構成要素、または主要でなヽ別の構成要素と、ソース上の距離に基づきグループィ匕し新たな第 2のレイアウトの構成要素を生成する。例えば Zbody[l] Zdiv[3]で成る主要でない構成要素は、ソース上先頭に向力つて最も近い主要な構成要素、 Zbody[l] Zdiv[2 ]で成る構成要素とグループ化する。ここで解析された 2つの新たな第 2のレイアウトの構成要素は、元の第 2のレイアウトの構成要素の子供としてメモリ装置に記憶する。なお、解析された第 2のレイアウトの構成要素を元の第 2のレイアウトの構成要素と置き換えてメモリ装置に記憶してもよいし、元の第 2のレイアウトの構成要素や解析された第 2のレイアウトの構成要素のスタイルや内容に基づき、置き換えて記憶するか、子供として記憶するかを選択してもよ、。同様の処理を分割可能な第 2のレイアウトの構成要素に適用することで、第 2のレイアウトの構成要素とその階層関係を完全に解析できる。

[0185] 中央演算装置は、解析された第 2のレイァ外の構成要素とその階層関係、及び各構成要素とタイトルとの対応関係の情報をメモリ装置から取得し、第 2のレイアウトの構成要素とタイトルを HTML文書の要素の参照を用いて表現する形式、例えば、第 3の実施例に示す形式に整形し、外部に出力する。ここでレイアウトの構成要素に ID を与えて出力してもよい。

[0186] 上記の実施形態を実施することにより、発明が解決しょうとする課題として記載した本発明の目的を達成できる。

[0187] 本発明の第 1の文書解析システムは、構造化'半構造ィ匕文書のレンダリング結果を取得し、文書記述要素の配置を参照し並置された文書記述要素をグループ化することでレイアウトを解析する基本レイアウト解析部（図 1の 14)と、解析されたレイアウトを、レイアウトの構成要素を文書記述要素の参照を用いて表現する形式で出力する出力部（図 1の 13)を有する。このような構成を採用し、文書記述要素の配置に基づきレィアウトを解析し、解析されたレイアウトを第三者が利用できる形式で出力することにより、本発明の第 1、第 3の目的を達成できる。

[0188] 本発明の第²の文書解析システムは、タイトル解析ルールを記憶したタイトル解析ルール記憶部（図 11の 23)と、構造化'半構造ィ匕文書のレンダリング結果とタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析するタイトル解析部（図 11の 15)と、解析されたタイトルを文書記述要素の参照を用いて表現する形式で出力する出力部（図 1 1の 13)を有する。このような構成を採用し、文書記述要素の名前に加え、属性、スタィル、内容を用いて網羅的にタイトルを解析し、解析されたタイトルを第三者が利用できる形式で出力することにより、本発明の第 2、第 3の目的を達成できる。 [0189] 本発明の第 3の文書解析システムは、タイトル解析ルールを記憶したタイトル解析ルール記憶部（図 16の 23)と、構造化'半構造ィ匕文書のレンダリング結果を取得し、文書記述要素の配置を参照し並置された文書記述要素をグループ化することでレイアウトを解析する基本レイアウト解析部（図 16の 14)と、構造化'半構造化文書のレンダリング結果とタイトル解析ルールを取得し、文書記述要素の名前に加え、属性、スタイル、内容をタイトル解析ルールと照合することでタイトルを解析するタイトル解析部 (図 16の 15)と、基本レイアウト解析部で解析されたレイアウトとタイトル解析部で解析されたタイトルを取得し、タイトルを持たな、レイアウトの構成要素をタイトルを持つレィアウトの構成要素、又はタイトルを持たな、レイアウトの構成要素とグループ化することで新しいレイアウトを生成するレイアウト解析部（図 16の 16)と、解析された新しいレイアウトを、レイアウトの構成要素とタイトルを文書記述要素の参照を用いて表現する形式で出力する出力部（図 16の 13)を有する。このような構成を採用し、タイトルを代表情報とする関連した構成要素の集合を新しい構成要素とする新しいレイァ外を生成し、解析されたレイアウトとタイトルを第三者が利用できる形式で出力することにより、本発明の第 1、第 2、第 3の目的を達成できる。

[0190] 本発明の第 1の文書適応システムは、ユーザが所望する構造化'半構造ィ匕文書の URI (Uniform Resource Identifiers)を取得する、またユーザ入力を取得し、目次文書や目次の項目の内容を記述した文書の出力を制御する入力部（図 22の 51) と、ユーザが所望する構造化'半構造ィ匕文書の URIに対応する文書を取得し、また取得した文書に対応するレイアウトの情報が記述された文書を取得する文書入力部 (図 22の 52)と、ユーザが所望する構造化'半構造ィ匕文書と当該文書のレイアウトの情報が記述された文書を取得し、目次文書を生成、出力する目次文書出力部（図 22 の 53)と、ユーザが所望する構造化'半構造ィ匕文書と当該文書のレイアウトの情報が記述された文書を取得し、指定された目次の項目の内容を記述した文書を生成、出力する項目文書出力部（図 22の 54)を有する。このような構成を採用し、構造化'半構造化文書と当該文書の論理構造を適切に反映するレイアウトの情報が記述された文書を用いて目次文書や目次の項目の内容を記述した文書を生成、出力することにより、文書提供者が意図する文書の論理構造を的確に捉えた目次を用いて文書を閲覧できるようになり、本発明の第 4の目的を達成できる。

本発明の第 2の文書適応システムは、出力構成要素に関する情報を記憶した出力構成要素記憶部（図 27の 81)と、出力構成要素に関する情報を取得し、当該情報に記述された URIに対応する構造化 ·半構造化文書を取得し、また取得した文書に対応するレイアウトの情報が記述された文書を取得する文書入力部（図 27の 71)と、出力構成要素に関する情報と構造化'半構造化文書と当該文書のレイアウトの情報が記述された文書を取得し、合成文書を生成、出力する合成文書出力部（図 27の 72) を有する。このような構成を採用し、出力構成要素に関する情報と構造化'半構造ィ匕文書と当該文書の論理構造を適切に反映するレイアウトの情報が記述された文書を用いて、指定されたレイアウトの構成要素力成る合成文書を生成、出力することにより、文書提供者が意図する文書の論理構造を的確に捉えた合成文書を用いて文書の必要な部分だけを閲覧できるようになり、本発明の第 4の目的を達成できる。

Claims

請求の範囲

[1] 構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半構造ィ匕文書のレイアウトを解析する基本レイアウト解析部

を具備する

文書解析システム。

[2] 請求項 1に記載の文書解析システムにお、て、

更に、

前記構造化文書又は前記半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれ力 1つ以上の値に基づくタイトル解析ルールを記憶するタイトル解析ルール記憶部と、

前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するタイトル解析部と、

前記基本レイアウト解析部で解析された前記レイアウトと、前記タイトル解析部で解析された前記タイトルとを用いて前記レイアウトの構成要素をグループィ匕し、新、レィアウトを生成するレイアウト解析部とを具備する

文書解析システム。

[3] 請求項 2に記載の文書解析システムにお、て、

前記レイアウト解析部は前記基本レイアウト解析部で解析された前記レイアウトと、前記タイトル解析部で解析された前記タイトルと、前記レイアウト解析部で解析された前記新しいレイアウトとを用いて前記レイアウトの主要な構成要素を選別するブロック選別部と、

前記基本レイアウト解析部で解析された前記レイアウトと、前記レイアウト解析部で解析された前記新しヽレイアウトと、前記ブロック選別部で選別された前記レイアウトの主要な構成要素とを用いて前記レイアウトの構成要素をグループィ匕し、新しいレイアウトを生成するセクション計算部を具備する

文書解析システム。

[4] 請求項 1乃至 3に記載の文書解析システムにおいて、

前記基本レイアウト解析部は、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループィヒする処理を所定の回数繰り返してレイァゥトを解析する

文書解析システム。

[5] 請求項 1乃至 4のいずれか一項に記載の文書解析システムにおいて、

前記基本レイアウト解析部は、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループ化する処理を所定の回数繰り返して次階層のレイアウトを解析する

文書解析システム。

[6] 請求項 1乃至 5のいずれか一項に記載の文書解析システムにおいて、

前記基本レイアウト解析部は、前記文書記述要素のうち一部の指定された文書記述要素のみの配置を参照する

文書解析システム。

[7] 構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれカゝ 1つ以上の値に基づくタイトル解析ルールを記憶するタイトル解析ルール記憶部と、

前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容の、ずれか 1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するタイトル解析部とを具備する

文書解析システム。

[8] 構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力する出力部を具備する

文書解析システム。

[9] 構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文書を用いて目次文書を生成、出力する目次文書出力部と、

前記構造化文書又は前記半構造化文書と、

前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文書を生成、出力する項目文書出力部

とを具備する

文書適応システム。

[10] 構造化文書又は半構造化文書の URIと、前記構造化文書又は前記半構造化文書の出力構成要素の IDの組み合わせの集合を出力構成要素情報として記憶する出力構成要素情報記憶部と、

前記出力構成要素情報と前記出力構成要素情報に記述された URIに対応する前記構造化文書又は前記半構造化文書と前記構造化文書又は前記半構造化文書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成し出力する合成文書出力部とを具備する

文書適応システム。

[11] 構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半構造化文書のレイアウトを解析するステップを具備する

文書解析方法。

[12] 請求項 11に記載の文書解析方法にぉ、て、

前記構造化文書又は前記半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上の値に基づくタイトル解析ルールを記憶するステップと、前記構造化文書又は前記半構造化文書に含まれる前記文書記述要素の名前、属性、スタイル、内容のいずれか 1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップと、

前記レイアウトを解析するステップで解析された前記レイアウトと、前記タイトルを解析するステップで解析された前記タイトルとを用いて前記レイアウトの構成要素をダループ化し、新し、レイアウトを生成するステップとを具備する文書解析方法。

[13] 請求項 12に記載の文書解析方法において、

前記新しいレイアウトを生成するステップは前記レイアウトを解析するステップで解析された前記レイアウトと、前記タイトルを解析するステップで解析された前記タイトルと、前記新、レイアウトを生成するステップで生成された前記新、レイアウトとを用いて前記レイアウトの主要な構成要素を選別するステップと、

前記レイアウトを解析するステップで解析された前記レイアウトと、前記新し、レイァゥトを生成するステップで生成された前記新し、レイアウトと、前記主要な構成要素を選別するステップで選別された前記主要な構成要素とを用いて前記レイアウトの構成要素をグループ化し、新、レイアウトを生成するステップと

を具備する

文書解析方法。

[14] 請求項 11乃至 13に記載の文書解析方法において、

前記レイアウトを解析するステップは、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループィヒする処理を所定の回数繰り返してレイアウトを解析するステップを具備する

文書解析方法。

[15] 請求項 11乃至 14の、ずれか一項に記載の文書解析方法にぉ、て、

前記レイアウトを解析するステップは、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループィヒする処理を所定の回数繰り返して次階層のレイアウトを解析するステップを具備する

文書解析方法。

[16] 請求項 11乃至 15の、ずれか一項に記載の文書解析方法にぉ、て、

前記レイアウトを解析するステップは、前記文書記述要素のうち一部の指定された文書記述要素のみの配置を参照するステップを具備する

文書解析方法。

[17] 構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれ力 1つ以上の値に基づくタイトル解析ルールを記憶するステップと、

前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容の、ずれか 1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップとを具備する

文書解析方法。

[18] 構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力するステップを具備する

文書解析方法。

[19] 構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文書を用いて目次文書を生成、出力するステップと、前記構造化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文書を生成、出力するステップとを具備する

文書適応方法。

[20] 構造化文書又は半構造化文書の URIと、前記構造化文書又は前記半構造化文書の出力構成要素の IDの組み合わせの集合を出力構成要素情報として出力構成要素情報記憶部に記憶するステップと、

前記出力構成要素情報と、前記出力構成要素情報に記述された URIに対応する前記構造化文書又は前記半構造化文書と、前記構造化文書又は前記半構造化文書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成、出力するステップとを具備する

文書適応方法。

[21] 構造化文書又は半構造化文書に含まれる文書記述要素の配置を参照し、一定の方向に並置された前記文書記述要素をグループ化して前記構造化文書又は前記半構造ィ匕文書のレイアウトを解析するステップ

を含むプロセスをコンピュータ上で実行するためのプログラムコードを記録する記録媒体。

[22] 請求項 21に記載の記録媒体において、

前記プロセスは、更に、

前記レイアウトを解析するステップで解析された前記レイアウトと、前記タイトルを解析するステップで解析された前記タイトルとを用いて前記レイアウトの構成要素をダループ化し、新しいレイアウトを生成するステップ

とを含む

記録媒体。

[23] 請求項 22に記載の記録媒体において、

前記新し、レイアウトを生成するステップは、

前記レイアウトを解析するステップで解析された前記レイアウトと、前記タイトルを解析するステップで解析された前記タイトルと、前記新 Uヽレイアウトを生成するステップで生成された前記新しいレイアウトとを用いて前記レイアウトの主要な構成要素を選別するステップと、

前記レイアウトを解析するステップで解析された前記レイアウトと、前記新、レイアウトを生成するステップで生成された前記新、レイアウトと、前記主要な構成要素を選別するステップで選別された前記主要な構成要素とを用いて前記レイアウトの構成要素をグループ化し、新、レイアウトを生成するステップ

とを備える

記録媒体。

[24] 請求項 21に記載の記録媒体において、

前記レイアウトを解析するステップは、前記グループ化された文書記述要素以下の前記文書記述要素の配置を参照し、直前のグループ化に用いられた方向の直交方向に並置された前記文書記述要素をグループィヒする処理を所定の回数繰り返してレイアウトを解析するステップを備える

記録媒体。

[25] 請求項 21に記載の記録媒体において、

記録媒体。

[26] 請求項 21に記載の記録媒体において、

前記レイアウトを解析するステップは、前記文書記述要素のうち一部の指定された文書記述要素のみの配置を参照するステップを備える

記録媒体。

[27] 構造化文書又は半構造化文書の文書記述要素の名前、属性、スタイル、内容のいずれ力 1つ以上の値に基づくタイトル解析ルールを記憶するステップと、

前記構造化文書又は前記半構造化文書に含まれる文書記述要素の名前、属性、スタイル、内容の、ずれか 1つ以上と前記タイトル解析ルールとを照合してタイトルを解析するステップ

を含むプロセスをコンピュータに実行させるためのプログラムコードを記録する記録媒体。

[28] 構造化文書又は半構造化文書のレイアウト及びタイトルを、前記構造化文書又は前記半構造化文書に含まれる文書記述要素を参照する表現形式に整形し出力するステップ

[29] 構造化文書又は半構造化文書と、前記構造化文書又は前記半構造化文書のレイアウトの情報が記述された文書を用いて目次文書を生成、出力するステップと、前記構造化文書又は前記半構造化文書と、前記レイアウトの情報が記述された文書を用いて目次の項目の内容を記述した文書を生成、出力するステップ

構造化文書又は半構造化文書の URIと、前記構造化文書又は前記半構造化文書の出力構成要素の IDの組み合わせの集合を出力構成要素情報に記憶するステップと、

前記出力構成要素情報と、前記出力構成要素情報に記述された URIに対応する前記構造化文書又は前記半構造化文書と、前記構造化文書又は前記半構造化文書に対応するレイアウトの情報が記述された文書を用いて合成文書を生成、出力するステップ