WO2006046665A1

WO2006046665A1 - 文書処理装置及び文書処理方法

Info

Publication number: WO2006046665A1
Application number: PCT/JP2005/019824
Authority: WO
Inventors: Jumpei Aoki
Original assignee: Justsystems Corporation
Priority date: 2004-10-27
Filing date: 2005-10-27
Publication date: 2006-05-04
Also published as: US20080141112A1; JPWO2006046665A1

Abstract

　マークアップ言語により記述された文書の名前空間を特定する。　名前空間検出部３１０は、処理対象となるＸＭＬ文書を読込み、名前空間が記述されている行を検出する。正確な名前空間が識別できなかったとき、名前空間特定部３１２は、名前空間情報格納部３１６に問い合わせながら、名前空間の検索、特定を行う。名前空間表示部３１４は、特定された名前空間または名前空間候補などを表示し、後者の場合はユーザが選択できるようにする。名前空間情報格納部３１６には、名前空間を導出するためのキーとなるＸＭＬ文書の拡張子や、文書内部に記述されているタグ名などの文字列と、名前空間との対応関係に係る情報をあらかじめ格納しておく。

Description

明細書

文書処理装置及び文書処理方法

技術分野

[0001] 本発明は、文書処理技術に関し、特に、階層構造を有する構造化文書を処理する文書処理装置及び文書処理方法に関する。

背景技術

[0002] XML (extensible Markup Language)は、ネットワークなどを介して他者とデータを共有するのに適した形式として注目されており、 XML文書を作成、表示、編集するためのアプリケーションが開発されている（たとえば、特許文献 1参照)。 XML文書は、文書型定義などにより定義されたボキヤブラリ（タグセット）に基づいて作成されている。

[0003] XMLでは、一つの文書の中に複数のボキヤブラリが混在することが許される力複数のボキヤブラリに同一の要素名または属性名が存在する場合、文書内で要素名または属性名が衝突し、 V、ずれのボキヤブラリに属する要素型または属性型なのかを特定できない事態が生じる恐れがある。このような問題を解決するために、 XMLでは、「名前空間」という概念を導入し、文書内に含まれる要素型および属性型がいずれのボキヤブラリに属するものであるかを記述することになつて、る。

特許文献 1：特開 2001— 290804号公報

発明の開示

発明が解決しょうとする課題

[0004] しかし、名前空間が適切に記述していない文書を処理する場面も想定される。このような場合であっても、文書を適切に処理できるよう支援する技術が求められる。

[0005] 本発明はこうした状況に鑑みてなされたものであり、その目的は、名前空間などの情報を識別できない構造ィヒ文書に対して適切な処理を行い、表示、編集を滞りなく遂行できる技術を提供することにある。

課題を解決するための手段

[0006] 本発明のある態様は、文書処理装置に関する。この文書処理装置は、マークアップ言語により記述された文書に含まれる構成要素が属する名前空間を検出する名前空間検出部と、前記名前空間検出部において正確な名前空間が検出されな力つた際に、前記文書力所定の条件に基づいたキーワードを抽出し、それをもとに前記名前空間を特定する名前空間特定部と、前記キーワードと前記名前空間との対応関係に係る情報を記憶する名前空間情報格納部と、を備え、前記名前空間特定部は前記抽出されたキーワードをもとに、前記名前空間情報格納部を参照することにより前記名前空間を特定し、前記名前空間検出部または前記名前空間特定部において特定された前記名前空間に基づき、前記文書を表示し、ユーザによる前記文書の編集を受け付けることを特徴とする。

[0007] マークアップ言語は、 XMLの一开態、例えば、 XHTML (extensible HyperText M arkup Language)、 ¾ V"G (Scalable Vector uraphics)、 MathML (Mathematical Mark up Language)などであってもよく、 SGML (Standard Generalized Markup Language) 、 HTML (HyperText Markup Language)などであってもよい。キーワードとは文書のファイル名に含まれる拡張子や、文書内に記述された要素名（タグ名）または属性名など、名前空間を推し量ることのできるものでよい。

[0008] また、本文書処理装置は、前記データ名特定部において検出された複数の名前空間をユーザに提示し、ユーザがそのいずれかを選択することにより名前空間を特定する、名前空間提示部をさらに含んでもよい。さらに、前記名前空間情報格納部は、過去に処理した文書に含まれる構成要素が属する名前空間と、その文書に含まれるキーワードとの対応関係に係る情報を逐次記憶し、その情報をもとに名前空間特定を行ってもよい。

[0009] 本発明の別の態様は、文書処理方法に関する。この文書処理方法は、マークアツプ言語により記述された文書に含まれる構成要素が属する名前空間を検出するステップと、前記検出するステップにおいて正確な名前空間が識別されな力つた際に、前記文書から所定の条件に基づいたキーワードを抽出し、それをもとに、あらかじめ記憶された前記キーワードと前記名前空間との対応関係に係る情報を参照して前記名前空間を特定するステップと、検出または特定された前記名前空間に基づき、前記文書を表示し、ユーザによる前記文書の編集を受け付けるステップと、を含むことを特徴とする。

[0010] なお、以上の構成要素の任意の組合せ、本発明の表現をシステム、記録媒体などの間で変換したものもまた、本発明の態様として有効である。

発明の効果

[0011] 本発明によれば、構造化文書の適切な処理を支援する技術を提供することができる。

図面の簡単な説明

[0012] [図 1]前提技術に係る文書処理装置の構成を示す図である。

[図 2]処理対象となる XML文書の例を示す図である。

[図 3]図 2に示した XML文書を HTMLで記述された表にマッピングする例を示す図である。

[図 4(a)]図 2に示した XML文書を図 3に示した表にマッピングするための定義フアイルの例を示す図である。

[図 4(b)]図 2に示した XML文書を図 3に示した表にマッピングするための定義フアイルの例を示す図である。

[図 5]図 2に示した成績管理ボキヤブラリで記述された XML文書を、図 3に示した対応により HTMLにマッピングして表示した画面の例を示す図である。

[図 6]ユーザが定義ファイルを生成するために、定義ファイル生成部がユーザに提示するグラフィカルユーザインターフェースの例を示す図である。

[図 7]定義ファイル生成部により生成された画面レイアウトの他の例を示す図である。

[図 8]文書処理装置による XML文書の編集画面の一例を示す図である。

[図 9]文書処理装置により編集される XML文書の他の例を示す図である。

[図 10]図 9に示した文書を表示した画面の例を示す図である。

[図 11]実施例に係る文書処理装置の構成を示す図である。

[図 12]名前空間を特定する手順を示すフローチャートである。

[図 13]名前空間 URIの記載のない XHTML文書の例を示す図である。

[図 14]拡張子と名前空間の対応付けを示すテーブルの構成例を示す図である。

[図 15]名前空間 URIの記載された XHTML文書の例を示す図である。 [図 16]名前空間 URIの記載のない、日記タグを用いた XML文書の例を示す図である。

[図 17]名前空間 URIの記載のある、日記タグを用いた XML文書の例を示す図である。

[図 18]図 17の XML文書において指定されたスタイルシートファイルの例を示す図である。

[図 19]スタイルシートを指定した XML文書の例を示す図である。

[図 20]図 19の XML文書において指定されたスタイルシートファイルの例を示す図である。

符号の説明

[0013] 20 文書処理装置、 22 主制御ユニット、 24 編集ユニット、 30 DOMユニット、 3 2 DOM提供部、 34 DOM生成部、 36 出力部、 40 CSSュ-ッ K 42 CSS解析部、 44 CSS提供部、 46 レンダリング部、 50 HTMLユニット、 52, 62 制御部、 54, 64 編集部、 56, 66 表示部、 60 SVGユニット、 80 VCユニット、 82 マツビング部、 84 定義ファイル取得部、 86 定義ファイル生成部、 300 文書処理装置、 310 名前空間検出部、 312 名前空間特定部、 314 名前空間表示部、 316 名前空間情報格納部。

発明を実施するための最良の形態

[0014] 以下、本発明の前提となる技術の説明を行った上で、本実施例の詳細を説明する

[0015] (前提技術）

図 1は、前提技術に係る文書処理装置 20の構成を示す。文書処理装置 20は、文書内のデータが階層構造を有する複数の構成要素に分類された構造化文書を処理するが、本前提技術では構造化文書の一例として XML文書を処理する例にっヽて説明する。文書処理装置 20は、主制御ユニット 22、編集ユニット 24、 DOMユニット 3 0、 CSSユニット 40、 HTMLユニット 50、 SVGユニット 60、及び変換部の一例である VCユニット 80を備える。これらの構成は、ハードウェアコンポーネントでいえば、任意のコンピュータの CPU、メモリ、メモリにロードされたプログラムなどによって実現される力ここではそれらの連携によって実現される機能ブロックを描いている。したがつて、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

[0016] 主制御ユニット 22は、プラグインのロードや、コマンド実行のフレームワークを提供する。編集ユニット 24は、 XML文書を編集するためのフレームワークを提供する。文書処理装置 20における文書の表示及び編集機能は、プラグインにより実現されており、文書の種別に応じて必要なプラグインが主制御ユニット 22又は編集ユニット 24によりロードされる。主制御ユニット 22又は編集ユニット 24は、処理対象となる XML文書の名前空間を参照して、 XML文書が、ずれのボキヤブラリにより記述されて、るかを判別し、そのボキヤブラリに対応した表示又は編集用のプラグインをロードして表示や編集を実行させる。例えば、文書処理装置 20には、 HTML文書の表示及び編集を行う HTMLユニット 50、 SVG文書の表示及び編集を行う SVGユニット 60など、ボキヤブラリ（タグセット)ごとに表示系及び編集系がプラグインとして実装されており、 HTML文書を編集するときは HTMLユニット 50が、 S VG文書を編集するときは S V Gユニット 60が、それぞれロードされる。後述するように、 HTMLと SVGの双方の構成要素を含む複合文書が処理対象となってヽる場合は、 HTMLユニット 50と SVG ユニット 60の双方がロードされる。

[0017] このような構成によれば、ユーザは、必要な機能のみを選択してインストールし、後力適宜機能を追加又は削除することができるので、プログラムを格納するハードデイスクなどの記録媒体の記憶領域を有効に活用することができ、また、プログラム実行時にも、メモリの浪費を防ぐことができる。また、機能拡張性に優れており、開発主体としても、プラグインの形で新たなボキヤブラリに対応することが可能なので開発が容易となり、ユーザとしても、プラグインの追カ卩により容易かつ低コストにて機能を追カロすることができる。

[0018] 編集ユニット 24は、ユーザインターフェースを介してユーザ力も編集指示のイベントを受け付け、そのイベントを適切なプラグインなどに通知するともに、イベントの再実行 (リドウ）又は実行の取消（アンドゥ）などの処理を制御する。

[0019] DOMユニット 30は、 DOM提供部 32、 DOM生成部 34、及び出力部 36を含み、 X ML文書をデータとして扱うときのアクセス方法を提供するために定められた文書ォブジェクトモデル（Document Object Model: DOM)に準拠した機能を実現する。 DO M提供部 32は、編集ユニット 24に定義されているインタフェースを満たす DOMの実装である。 DOM生成部 34は、 XML文書力も DOMツリーを生成する。後述するように、処理対象となる XML文書力 VCユニット 80により他のボキヤブラリにマッピングされる場合は、マッピング元の XML文書に対応するソースツリーと、マッピング先の X ML文書に対応するデスティネーションツリーが生成される。出力部 36は、例えば編集終了時に、 DOMツリーを XML文書として出力する。

[0020] CSSユニット 40は、 CSS解析部 42、 CSS提供部 44、及びレンダリング部 46を含み、 CSSに準拠した表示機能を提供する。 CSS解析部 42は、 CSSの構文を解析するバーサの機能を有する。 CSS提供部 44は、 CSSオブジェクトの実装であり、 DOM ツリーに対して CSSのカスケード処理を行う。レンダリング部 46は、 CSSのレンダリングエンジンであり、 CSSを用いてレイアウトされる HTMLなどのボキヤブラリで記述された文書の表示に用いられる。

[0021] HTMLユニット 50は、 HTMLにより記述された文書を表示又は編集する。 SVGュニット 60は、 SVGにより記述された文書を表示又は編集する。これらの表示 Z編集系は、プラグインの形で実現されており、それぞれ、文書を表示する表示部（Canvas) 56、 66、編集指示を含むイベントを送受信する制御部（Editlet) 52、 62、編集コマンドを受けて DOMに対して編集を行う編集部 (Zone) 54、 64を備える。制御部 52又は 62が外部力も DOMツリーの編集コマンドを受け付けると、編集部 54又は 64が DO Mツリーを変更し、表示部 56又は 66が表示を更新する。これらは、 MVC (Model-Vi ew-Controller)と呼ばれるフレームワークに類似する構成をとつており、概ね、表示部 56及び 66が「View」に、制御部 52及び 62が「Controller」に、編集部 54及び 64と D OMの実体が「Model」に、それぞれ対応する。本前提技術の文書処理装置 20では、 XML文書をツリー表示形式で編集するだけでなく、それぞれのボキヤブラリに応じた編集を可能とする。例えば、 HTMLユニット 50は、 HTML文書をワードプロセッサに類似した方式で編集するためのユーザインターフェースを提供し、 SVGユニット 60は、 SVG文書を画像描画ツールに類似した方式で編集するためのユーザインターフエースを提供する。

[0022] VCユニット 80は、マッピング部 82、定義ファイル取得部 84、及び定義ファイル生成部 86を含み、あるボキヤブラリにより記述された文書を、他のボキヤブラリにマツピングすることにより、マッピング先のボキヤブラリに対応した表示編集用プラグインで文書を表示又は編集するためのフレームワークを提供する。本前提技術では、この機能を、ボキヤブラリコネクション（Vocabulary Connection: VC)と呼ぶ。定義ファイル取得部 84は、マッピングの定義を記述したスクリプトファイルを取得する。この定義ファィルは、ノードごとに、ノード間の対応 (コネクション)を記述する。このとき、各ノードの要素値や属性値の編集の可否を指定してもよい。また、ノードの要素値や属性値を用いた演算式を記述してもよい。これらの機能については、後で詳述する。マツピング部 82は、定義ファイル取得部 84が取得したスクリプトファイルを参照して、 DOM生成部 34にデスティネーションツリーを生成させ、ソースツリーとデスティネーションッリ一の対応関係を管理する。定義ファイル生成部 86は、ユーザが定義ファイルを生成するためのグラフィカルユーザインターフェースを提供する。

[0023] VCユニット 80は、ソースツリーとデスティネーションツリーの間のコネクションを監視し、表示を担当するプラグインにより提供されるユーザインタフェースを介してユーザ力も編集指示を受け付けると、まずソースツリーの該当するノードを変更する。 DOM ユニット 30が、ソースツリーが変更された旨のミューテーシヨンイベントを発行すると、 VCユニット 80は、そのミューテーシヨンイベントを受けて、ソースツリーの変更にデスティネーシヨンツリーを同期させるベぐ変更されたノードに対応するデスティネーションツリーのノードを変更する。デスティネーションツリーを表示/編集するプラグイン、例えば HTMLユニット 50は、デスティネーションツリーが変更された旨のミューテーシヨンイベントを受けて、変更されたデスティネーションツリーを参照して表示を更新する。このような構成により、少数のユーザにより利用されるローカルなボキヤブラリにより記述された文書であっても、他のメジャーなボキヤブラリに変換することで、文書を表示することができるとともに、編集環境が提供される。

[0024] 文書処理装置 20により文書を表示又は編集する動作について説明する。文書処理装置 20が処理対象となる文書を読み込むと、 DOM生成部 34が、その XML文書力も DOMツリーを生成する。また、主制御ユニット 22又は編集ユニット 24は、名前空間を参照して文書を記述しているボキヤブラリを判別する。そのボキヤブラリに対応したプラグインが文書処理装置 20にインストールされて、る場合は、そのプラグインをロードして、文書を表示/編集させる。プラグインカ Sインストールされていない場合は、マッピングの定義ファイルが存在するか否かを確認する。定義ファイルが存在する場合、定義ファイル取得部 84が定義ファイルを取得し、その定義に従って、デスティネーシヨンツリーが生成され、マッピング先のボキヤブラリに対応するプラグインにより文書が表示 Z編集される。複数のボキヤブラリを含む複合文書である場合は、後述するように、それぞれのボキヤブラリに対応したプラグインにより、文書の該当箇所がそれぞれ表示 Z編集される。定義ファイルが存在しない場合は、文書のソース又はッリー構造を表示し、その表示画面にぉ、て編集が行われる。

[0025] 図 2は、処理対象となる XML文書の例を示す。この XML文書は、生徒の成績データを管理するために用いられる。 XML文書のトップノードである構成要素「成績」は、配下に、生徒ごとに設けられた構成要素「生徒」を複数有する。構成要素「生徒」は、属性値「名前」と、子要素「国語」、「数学」、「理科」、「社会」を有する。属性値「名前」は、生徒の名前を格納する。構成要素「国語」、「数学」、「理科」、「社会」は、それぞれ、国語、数学、理科、社会の成績を格納する。例えば、名前カ^ A」である生徒の国語の成績は「90」、数学の成績は「50」、理科の成績は「75」、社会の成績は「60」である。以下、この文書で使用されているボキヤブラリ（タグセット）を、「成績管理ボキヤブラリ」と呼ぶ。

[0026] 本前提技術の文書処理装置 20は、成績管理ボキヤブラリの表示 Z編集に対応したプラグインを有しないので、この文書をソース表示、ツリー表示以外の方法で表示するためには、前述した VC機能が用いられる。すなわち、成績管理ボキヤブラリを、プラグインが用意された別のボキヤブラリ、例えば、 HTMLや SVGなどにマッピングするための定義ファイルを用意する必要がある。ユーザ自身が定義ファイルを作成するためのユーザインターフェースについては後述することにして、ここでは、既に定義ファイルが用意されているとして説明を進める。

[0027] 図 3は、図 2に示した XML文書を HTMLで記述された表にマッピングする例を示す。図 3の例では、成績管理ボキヤブラリの「生徒」ノードを、 HTMLにおける表（「TA BLE」ノード)の行（「TR」ノード）に対応づけ、各行の第 1列には属性値「名前」を、第 2 列には「国語」ノードの要素値を、第 3列には「数学」ノードの要素値を、第 4列には「理科」ノードの要素値を、第 5列には「社会」ノードの要素値を、それぞれ対応付ける。これにより、図 2に示した XML文書を、 HTMLの表形式で表示することができる。また、これらの属性値及び要素値は、編集可能であることが指定されており、ユーザが HTMLによる表示画面上で、 HTMLユニット 50の編集機能により、これらの値を編集することができる。第 6列には、国語、数学、理科、社会の成績の加重平均を算出する演算式が指定されており、生徒の成績の平均点が表示される。このように、定義ファイルに演算式を指定可能とすることにより、より柔軟な表示が可能となり、編集時のユーザの利便性を向上させることができる。なお、第 6列は、編集不可であることが指定されており、平均点のみを個別に編集することができないようにしている。このように、マッピング定義において、編集の可否を指定可能とすることにより、ユーザの誤操作を防ぐことができる。

[0028] 図 4 (a)及び図 4 (b)は、図 2に示した XML文書を図 3に示した表にマッピングするための定義ファイルの例を示す。この定義ファイルは、定義ファイル用に定義されたスクリプト言語により記述される。定義ファイルには、コマンドの定義と、表示のテンプレートが記述されている。図 4 (a) (b)の例では、コマンドとして、「生徒の追加」と「生徒の削除」が定義されており、それぞれ、ソースツリーにノード「生徒」を挿入する操作と、ソースツリーからノード「生徒」を削除する操作が対応付けられている。また、テンプレートとして、表の第 1行に「名前」、「国語」などの見出しが表示され、第 2行以降に、ノード「生徒」の内容が表示されることが記述されている。ノード「生徒」の内容を表示するテンプレート中、「text-of」と記述された項は「編集可能」であることを意味し、「value-of」と記述された項は「編集不可能」であることを意味する。また、ノード「生徒」の内容を表示する行のうち、第 6列には、「(src:国語 + src:数学 + src:理科 + src: 社会） div 4」という計算式が記述されており、生徒の成績の平均が表示されることを意味する。

[0029] 図 5は、図 2に示した成績管理ボキヤブラリで記述された XML文書を、図 3に示した対応により HTMLにマッピングして表示した画面の例を示す。表 90の各行には、左から、各生徒の名前、国語の成績、数学の成績、理科の成績、社会の成績、及び平均点が表示されている。ユーザは、この画面上で、 XML文書を編集することができる。たとえば、第 2行第 3列の値を「70」に変更すると、このノードに対応するソースッリ一の要素値、すなわち、生徒「B」の数学の成績が「70」に変更される。このとき、 VC ユニット 80は、デスティネーションツリーをソースツリーに追従させるベぐデスティネーシヨンツリーの該当箇所を変更し、 HTMLユニット 50力変更されたデスティネーシヨンツリーに基づいて表示を更新する。したがって、画面上の表においても、生徒「 B」の数学の成績が「70」に変更され、更に、平均点が「55」に変更される。

[0030] 図 5に示した画面には、図 4 (a) (b)に示した定義ファイルに定義されたように、「生徒の追加」及び「生徒の削除」のコマンドカ -ユーに表示される。ユーザがこれらのコマンドを選択すると、ソースツリーにおいて、ノード「生徒」が追加又は削除される。このように、本前提技術の文書処理装置 20では、階層構造の末端の構成要素の要素値を編集するのみではなぐ階層構造を編集することも可能である。このようなッリ一構造の編集機能は、コマンドの形でユーザに提供されてもよい。また、例えば、表の行を追加又は削除するコマンドが、ノード「生徒」を追加又は削除する操作に対応づけられてもよい。また、他のボキヤブラリを埋め込むコマンドがユーザに提供されてもよい。この表を入力用テンプレートとして、穴埋め形式で新たな生徒の成績データを追加することもできる。以上のように、 VC機能により、 HTMLユニット 50の表示 Z 編集機能を利用しつつ、成績管理ボキヤブラリで記述された文書を編集することが可能となる。

[0031] 図 6は、ユーザが定義ファイルを生成するために、定義ファイル生成部 86がユーザに提示するグラフィカルユーザインタフェースの例を示す。画面左側の領域 91には、マッピング元の XML文書がツリー表示されている。画面右側の領域 92には、マツピング先の XML文書の画面レイアウトが示されている。この画面レイアウトは、 HTML ユニット 50により編集可能となっており、ユーザは、画面右側の領域 92において、文書を表示するための画面レイアウトを作成する。そして、例えば、マウスなどのポインティングデバイスにより、画面左側の領域 91に表示されたマッピング元の XML文書のノードを、画面右側の領域 92に表示された HTMLによる画面レイアウト中へドラッグ&ドロップ操作を行うことにより、マッピング元のノードと、マッピング先のノードとのコネクションが指定される。例えば、要素「生徒」の子要素である「数学」を、 HTML画面の表 90の第 1行第 3列にドロップすると、「数学」ノードと、 3列目の「TD」ノードの間にコネクションが張られる。各ノードには、編集の可否が指定できるようになつている。また、表示画面中には、演算式を埋め込むこともできる。画面の編集が終わると、定義ファイル生成部 86は、画面レイアウトとノード間のコネクションを記述した定義フアイルを生成する。

[0032] XHTML, MathML、 SVGなどの主要なボキヤブラリに対応したビューヮゃエディタは既に開発されて、るが、図 2に示した文書のようなオリジナルなボキヤブラリで記述された文書に対応したビューヮゃエディタを開発するのは現実的でな、。しかし、上記のように、他のボキヤブラリにマッピングするための定義ファイルを作成すれば、ビューヮゃエディタを開発しなくても、 VC機能を利用して、オリジナルなボキヤブラリで記述された文書を表示 ·編集することができる。

[0033] 図 7は、定義ファイル生成部 86により生成された画面レイアウトの他の例を示す。図 7の例では、成績管理ボキヤブラリで記述された XML文書を表示するための画面に、表 90と、円グラフ 93が作成されている。この円グラフ 93は、 SVGにより記述される。後述するように、本前提技術の文書処理装置 20は、一つの XML文書内に複数のボキヤブラリを含む複合文書を処理することができるので、この例のように、 HTMLで記述された表 90と、 SVGで記述された円グラフ 93とを、一つの画面上に表示することができる。

[0034] 図 8は、文書処理装置 20による XML文書の編集画面の一例を示す。図 8の例では、一つの画面が複数に分割されており、それぞれの領域において、処理対象となる XML文書を異なる複数の表示形式により表示している。領域 94には、文書のソースが表示されており、領域 95には、文書のツリー構造が表示されており、領域 96には、図 5に示した HTMLにより記述された表が表示されている。これらのいずれの画面上においても、文書の編集が可能であり、いずれかの画面上でユーザが編集を行うと、ソースツリーが変更され、それぞれの画面の表示を担当するプラグインカ、ソースツリーの変更を反映すべく画面を更新する。具体的には、ソースツリーの変更を通知するミューテーシヨンイベントのリスナーとして、それぞれの編集画面の表示を担当するプラグインの表示部を登録しておき、いずれかのプラグイン又は VCユニット 80によりソースツリーが変更されたときに、編集画面を表示中の全ての表示部が、発行されたミューテーシヨンイベントを受け取って画面を更新する。このとき、プラグインが V C機能により表示を行っている場合は、 VCユニット 80がソースツリーの変更に追従してデスティネーションツリーを変更した後、変更されたデスティネーションツリーを参照してプラグインの表示部が画面を更新する。

[0035] 例えば、ソース表示及びツリー表示を、専用のプラグインにより実現している場合は、ソース表示用プラグインとツリー表示用プラグインは、デスティネーションツリーを用いず、直接ソースツリーを参照して表示を行う。この場合、いずれかの画面において編集が行われると、ソース表示用プラグインとツリー表示用プラグインは、変更されたソースツリーを参照して画面を更新し、領域 96の画面を担当して!/、る HTMLユニット 50は、ソースツリーの変更に追従して変更されたデスティネーションツリーを参照して画面を更新する。

[0036] ソース表示及びツリー表示は、 VC機能を利用して実現することもできる。すなわち、ソース、ツリー構造を HTMLによりレイアウトし、その HTMLに XML文書をマツピングして、 HTMLユニット 50により表示してもよい。この場合、ソース形式、ツリー形式、表形式の 3つのデスティネーションツリーが生成されることになる。いずれかの画面において編集が行われると、 VCユニット 80は、ソースツリーを変更した後、ソース形式、ツリー形式、表形式の 3つのデスティネーションツリーをそれぞれ変更し、 HTMLュニット 50は、それらのデスティネーションツリーを参照して、 3つの画面を更新する。

[0037] このように、一つの画面上に複数の表示形式で文書を表示することにより、ユーザの利便性を向上させることができる。例えば、ユーザは、ソース表示又はツリー表示により文書の階層構造を把握しつつ、表 90などを用いて視覚的に分力りやすい形式で文書を表示し、編集することができる。上記の例では、一つの画面を分割して複数の表示形式による画面を同時に表示した力一つの画面に一つの表示形式による画面を表示し、表示形式をユーザの指示により切り替え可能としてもよい。この場合、主制御ユニット 22が、ユーザから表示形式の切り替え要求を受け付け、各プラグインに指示して表示を切り替える。

[0038] 図 9は、文書処理装置 20により編集される XML文書の他の例を示す。図 9に示した XML文書では、 SVG文書の「foreignObject」タグの中に XHTML文書が埋め込まれており、さら〖こ、 XHTML文書の中に MathMLで記述された数式が入っている。このような場合、編集ユニット 24が、名前空間を参照して、適切な表示系に描画作業を振り分ける。図 9の例では、編集ユニット 24は、まず、 SVGユニット 60に四角形を描画させ、つづいて、 HTMLユニット 50に XHTML文書を描画させる。さらに、図示しない MathMLユニットに、数式を描画させる。こうして、複数のボキヤブラリを包含する複合文書が適切に表示される。表示結果を図 10に示す。

[0039] 文書編集中、カーソル (キャリッジ）の位置に応じて、表示されるメニューを切り替えてもよい。すなわち、カーソルが、 SVG文書が表示された領域内に存在するときは、 SVGユニット 60が提供するメニュー、又は SVG文書をマッピングするための定義フアイルに定義されたコマンドを表示し、カーソルが、 XHTML文書が表示された領域内に存在するときは、 HTMLユニット 50が提供するメニュー、又は XHTML文書をマッピングするための定義ファイルに定義されたコマンドを表示する。これにより、編集位置に応じて適切なユーザインターフェースを提供することができる。

[0040] 複合文書にお!、て、あるボキヤブラリに対応する適切なプラグイン又はマッピング定義ファイルがな力つた場合は、そのボキヤブラリにより記述された部分は、ソース表示又はツリー表示されてもよい。従来、ある文書に他の文書を埋め込んだ複合文書を開くとき、埋め込まれた文書を表示するアプリケーション力 Sインストールされて、な、と、その内容を表示することができな力つた力本前提技術では、表示用のアプリケーシヨンが存在しなくても、テキストデータにより構成された XML文書をソース表示又はツリー表示することにより内容を把握することができる。これは、テキストベースである XMLなどの文書ならではの特徴と、える。

[0041] データがテキストベースで記述されることの他の利点として、例えば、複合文書中の、あるボキヤブラリにより記述される部分において、同一文書内の他のボキヤブラリで記述された部分のデータを参照してもよい。また、文書内で検索を実行する時に、 S VGなどの図に埋め込まれた文字列も検索対象とすることができる。

[0042] あるボキヤブラリにより記述された文書内に、他のボキヤブラリのタグを用いてもよい。この XML文書は、妥当（valid)ではないが、整形式 (welH rmed)であれば、有効な XML文書として処理可能である。この場合、挿入された他のボキヤブラリのタグは、定義ファイルによりマッピングされてもよい。例えば、 XHTML文書中に、「重要」、「最重要」などのタグを使用し、これらのタグで囲まれた部分を強調表示してもよ、し、重要度の順にソートして表示してもよ、。

[0043] 図 10に示した編集画面において、ユーザにより文書が編集されると、編集された部分を担当するプラグイン又は VCユニット 80がソースツリーを変更する。ソースツリーには、ノードごとにミューテーシヨンイベントのリスナーを登録できるようになっており、通常は、各ノードが属するボキヤブラリに対応したプラグインの表示部又は VCュ-ット 80がリスナーとして登録される。 DOM提供部 32は、ソースツリーが変更されると、変更されたノードから上位の階層へたどって、登録されたリスナーがあれば、そのリスナ一へミューテーシヨンイベントを発行する。例えば、図 9に示した文書において、く html >ノードの下位のノードが変更された場合、く html >ノードにリスナーとして登録された HTMLユニット 50にミューテーシヨンイベントが通知されるとともに、その上位のく svg>ノードにリスナーとして登録された SVGユニット 60にもミューテーシヨンイベントが通知される。このとき、 HTMLユニット 50は、変更されたソースツリーを参照して表示を更新する。 SVGユニット 60は、自身のボキヤブラリに属するノードが変更されて!/、な!/、ので、ミューテーシヨンイベントを無視してもよ！/、。

[0044] 編集の内容によっては、 HTMLユニット 50による表示の更新に伴って、全体のレイアウトが変わる可能性がある。この場合は、画面のレイアウトを管理する構成、例えば最上位のノードの表示を担当するプラグインにより、プラグインごとの表示領域のレイアウトが更新される。例えば、 HTMLユニット 50による表示領域が以前より大きくなつた場合、 HTMLユニット 50は、まず自身の担当する部分を描画して、表示領域の大きさを決定する。そして、画面のレイアウトを管理する構成に、変更後の表示領域の大きさを通知し、レイアウトの更新を依頼する。画面のレイアウトを管理する構成は、通知を受けて、プラグインごとの表示領域を再レイアウトする。こうして、編集された部分の表示が適切に更新されるとともに、画面全体のレイアウトが更新される。

以上の前提技術をもとに、以下実施の形態の詳細について説明する。

[0045] (実施の形態）

本発明の実施の形態における文書処理装置は、上述の前提技術を基礎として構成されており、前提技術における文書処理装置は基本的に本実施の形態の文書処理装置の一部に含まれるものとする。また本実施の形態では主に、構造化文書の一例として XMLで構造ィ匕された文書ファイルを処理する例について説明する。

[0046] 図 11は、本実施の形態に係る文書処理装置 300を示す。本図において図 1と同一の符号を付した構成は、図 1で説明した構成と同一または同様の機能を有する。本実施の形態に係る文書処理装置 300におヽて図 1に記載のな!、構成として、主制御ユニット 22は、名前空間検出部 310、名前空間特定部 312、名前空間表示部 314を備え、名前空間情報格納部 316と接続されている。名前空間検出部 310は、処理対象となる XML文書を読込み、名前空間を識別するための情報、例えば名前空間 UR Iが記述されている行を検出する。名前空間を識別するための情報が検出されなかつた場合、または検出された名前空間 URIが誤りであった場合など、正確な名前空間が識別できな力つたとき、名前空間特定部 312は、その旨の信号を名前空間検出部 310より受け取り、名前空間情報格納部 316に問い合わせながら、名前空間の検索、特定を行う。名前空間表示部 314は、特定された名前空間または名前空間候補を表示する。候補となる名前空間が最終的に特定されなかった場合は、名前空間表示部 314は、例えば XML文書のソースなどを表示してもよい。名前空間情報格納部 3 16には、名前空間を導出するためのキーとなる文字列、例えば処理対象となる XML 文書のファイル名に含まれる拡張子や、文書内部に記述されている要素名や属性名などと、名前空間との対応関係を表す情報をあらかじめ格納しておく。対応関係を表す情報については後述する力例えば、拡張子「html」に対して、名前空間 URI「htt p:〃胃 w.w3.org/1999/xhtml」を対応付けたテーブルなどである。以後、名前空間情報格納部 316には拡張子またはタグ名と、名前空間との対応関係を表す情報が格納されているとして説明する。

[0047] 図 12は名前空間特定部 312が名前空間情報格納部 316との連携により、名前空間を特定する手順を示すフローチャートである。まず、名前空間検出部 310より、処理対象の XML文書中に正確な名前空間を識別できなかった旨の信号を受け取ると (S 10)、 XML文書のファイル名力も拡張子を取得する（S 12)。取得された拡張子をもとに、名前空間情報格納部 316に問い合わせを行い、当該拡張子に対応付けられて、る名前空間を検索する (S 14)。拡張子に対応した名前空間が唯一存在する場合 (S16の Y)、その名前空間のデータを名前空間表示部 314へ送出する（S18)。名前空間情報格納部 316において当該拡張子の対応付けが存在しない場合、または複数の名前空間が検出された場合 (S16の N)、XML文書中に含まれる構成要素の要素名（タグ名）の抽出を行う（S20)。ここでの抽出はタグ名以外に属性名でもよい。以後、それらのキーワードを代表して、タグ名を用いて説明を行う。タグ名が抽出されたら（S22の Y)抽出されたタグ名に基づき、後述するような所定の手法により名前空間の検出を行い（S24)、名前空間が得られた場合は（S26の Y)、そのデータを名前空間表示部 314へ送出する（S28)。抽出された全てのタグ名に対して、それに対応する名前空間の情報が名前空間情報格納部 316に存在しなかった場合など、名前空間が検出できな力つたときや (S26の N)、タグ名が抽出されな力つたとき（S2 2の N)は、対応付け不在信号を名前空間表示部 314へ送信する（S30)。

[0048] 名前空間表示部 314では、名前空間特定部 312において唯一特定された名前空間の表示を行い、ユーザが最終的に確認を行えるようにしてもよい。このようにして特定された名前空間を参照し、前提技術と同様に、主制御ユニット 22または編集ュ-ット 24において、 XML文書のボキヤブラリを判別し、そのボキヤブラリに対応した表示又は編集用のプラグインを利用して表示や編集を実行する。ここで、特定された名前空間のボキヤブラリを処理するプラグインが当該文書処理装置にインストールされていない場合は、プラグインのロードを促すメッセージをユーザに示したり、自動的にダゥンロードさせるようにしてもよヽ。

[0049] 以上の構成により、名前空間の記載がな力つたり、誤記があったりした XML文書を処理したときでも、ファイルの拡張子や文書中の要素名、属性名など力自動的に名前空間を特定することが可能となるため、ユーザが文書中、名前空間のない箇所を搜索したり、名前空間の検索を自ら行ったりする手間を力けることなぐ文書処理を続行させることができる。従って処理に力かる時間的コストが軽減される。さらに本実施の形態は、このような XML文書を読込んだときに発生しがちなシステムダウンを回避する措置としても位置づけられ、ユーザに対して原因および解決策を提示することができるため、理解し易ぐ親しみやすい文書処理装置となる。

[0050] 名前空間特定部 312では、名前空間候補が複数存在する場合に、その最終的な特定を自動的に行わずに、名前空間表示部 314に表示するようにしてもよい。例えば図 12の S16では、唯一検出された名前空間のみ S18におけるデータ送出対象としたが、複数検出された場合でもそのデータを名前空間表示部 314へ送出し、全ての候補を表示するようにしてもょ、。このときユーザはそれらの中から適切な名前空間を選択し、設定を行えるようにしてもよい。また、後述する計算手法により確率を計算し、確率の高、名前空間を!、くつか表示するようにしてもょ、。

[0051] このように、拡張子やタグ名など、複数のキーワードから名前空間を特定する場合は、検出された名前空間の確率計算を行ったりすることで、名前空間特定に対する確度が増す。また、名前空間の自動的な特定ができな力つた場合でも、名前空間の候補を絞り込みユーザに提示することで、ユーザが全ての作業を行う場合に比べ、その手間が軽減される。

[0052] 上述した拡張子力の検索や、タグ名からの検索は、先にタグ名力の検索を行つたり、どちらか一方のみを行うなど、任意の組み合わせ方でよい。また、検索キーは拡張子や要素名、属性名に限定されるものではない。

[0053] 名前空間表示部 314は、名前空間特定部 312からの対応付け不在信号を受け取ると、処理中の XML文書のソースファイルをそのまま表示し、名前空間が検出されな Vヽ旨の表示をユーザに対して行ってもよ!、。さらにユーザが名前空間を識別するための記述を挿入するなど XML文書を直接修正できるようにしてもょ、。

[0054] ここで、名前空間特定部 312において名前空間を特定、またはその候補を絞り込む手法について具体的に説明する。図 13は名前空間を識別するための情報である、 URIの記載がない XHTML文書の例である。図 13に示した文書の例では、く hea d>、 < title >,く body >といった要素型が属する名前空間を識別するための情報が記載されていない。このように、 XHTML文書などの一般的な文書において名前空間を推測する場合は、ルールベースの手法により名前空間の特定を行うのが現実的である。

[0055] 図 14は、ルールベースの手法で参照される、名前空間情報格納部 316に格納されたテーブルの構成例 400を示す。このテーブルは、拡張子名欄 400a、名前空間情報欄 400bより構成されている。このテーブルを参照し名前空間を特定するステップは、図 12の S14に相当する。例えば、処理対象となる文書のファイル名が「bunsho.ht ml」であった場合、拡張子「html」に基づきこのテーブルを検索することにより、名前空間を示す URIが「http：〃 www. w3.org/1999/xhtml」であることが特定される。この検索手法は、当該文書が単独の XMLファイルとして提供されており、非複合文書である場合には、計算コストが少なく有効である。

[0056] 拡張子力の検索によって複数の名前空間が検出されたときや、名前空間が検出されなかった場合などは、図 14に示したテーブルの構成例 400のうち拡張子名欄 40 Oaの代わりにタグ名欄を構成要素としたテーブルを参照して、ルールベースの手法を適用してもよい。このステップは、図 12の S24に相当する。例えば、図 13に示した XML文書では、ルートノードのタグ名力「html」である。それに基づき図 14と同様のテーブルを参照することにより、名前空間が「http：〃 www. w3.org/1999/xhtml」と特定される。ユーザまたはシステム構築者は、図 14に示したようなテーブルをあら力じめ作成し、名前空間情報格納部 316に格納する。

[0057] ルートノードのタグ名によって検出された名前空間が複数ある場合などは、さらに下位の階層の構成要素について同様の特定を行ってもよい。このとき、名前空間情報格納部 316には、例えば、第 1層タグ名欄、第 2層タグ名欄および名前空間情報欄が設けられたテーブルを格納してもよい。図 13に示した XHTML文書の場合は、例えば第 1層のタグ名力 ^s「html」であり、第 2層のタグ名が「head」、「title」、「body」であることに基づき、名前空間情報格納部 316に記憶されたテーブルを検索し、名前空間を特定する。その他の例として、第 1層のタグ名が「3 ₈」であり、第 2層のタグ名が「desc」、「rect」、「polyline」などであったら SVGで記述されて!、る、第 1層のタグ名力 S「math」であり、第 2層のタグ名力 S「mi」、「mo」、「mfrac」であったら MathMLで記述されている、というように名前空間を特定してよい。このように、検索キーとなるタグ名の階層を増やすことにより、名前空間特定の確度を上げることができ、また、候補の絞込みを効率よく行うことができる。なお、これまでの記述では、拡張子、第 1層のタグ名、第 2層のタグ名というように段階的に検索キーを増カロさせていった力最初から拡張子および複数層のタグ名を検索キーとしてもょ、し、タグ名のみを検索キーとしてちよい。

[0058] 名前空間情報格納部 316には、名前空間の記載がある XML文書などを文書処理装置にあら力じめ学習させ、その文書が参照した名前空間と、その文書中のタグ名やファイルの拡張子などとの対応関係の情報を保持する、教師有り学習を行う確率的分類器 (図示せず)をさらに設けてもよい。教師有り学習を行う確率的分類器には、ベイズの定理や SVM (Support Vector Machine)など既存の手法を適用してよい。

[0059] 以下に、ベイズの定理によって名前空間を絞り込む簡単な計算例を示す。まず、 S VGのファイルを判定する教師データとして、「svg」要素が 1回、「desc」要素が 3回、「rect」要素が 3回出現するファイルを分類器に学習させたとする。これを分類 Aとする。次に、 MathMLを判定する教師データとして、「math」要素が 1回、「mi」要素が 4回、「mfrac」要素が 2回出現するファイルを学習させたとする。これを分類 Bとする。ここで、名前空間が識別できず、「des_C」要素が 3回、「rect」要素が 1回、「mi」要素力回出現する文書 Cを処理したとする。このとき、文書 Cの名前空間が分類 A、分類 Bである確率は、ベイズの定理を用いてそれぞれ、

P (A I C) = P (C &B) ZP (C)

= P (B) X P(C I A)/ (P (A) X P (C | A) + P (B) X P (C | B) ) = 0. 75

P (B I C) = 0. 25

と求められる。これにより、文書 Cの名前空間は分類 Aの SVGである確率が高いことがわかる。例えば図 13に示した XHTML文書の場合、図 15に示した名前空間 URI の記載のある XHTML文書などをあら力じめ教師データとして学習させておけば、名前空間 URIが「http：〃 www.w3.org/1999/xhtml」であることが、上記のような確率計算に基づき特定できる。

[0060] 上述のごとき確率的な手法では、タグ名の出現回数から名前空間候補を確率で順位付けできるため、例えば確率の上位 3つを名前空間候補としたり、確率が 50%以上など所定のしきい値を設定してそれ以上の確率を有する名前空間を候補としたりして、名前空間表示部 314に表示してもよい。ユーザがそれらの名前空間候補の中から選択することにより、名前空間の最終的な特定を行ってもよい。

[0061] 図 16は名前空間 URIの記載がない、日記タグを用いた XML文書の例である。このような独自のボキヤブラリを識別するときは、例えば、あら力じめ図 17に示すような名前空間 URIの記載のある XML文書を学習させておけば、上述した確率的手法が有効である。この場合、過去に処理した、名前空間識別情報について記載のある文書を全て学習させておけば、ある文書処理装置を使用するユーザの処理内容の傾向に応じた確率計算を行うことができ、名前空間の候補を効率よく絞り込むことができる

[0062] これまで述べてきた名前空間の特定手法は、 XML文書などの他、 XSL (eXtensibl e Stylesheet Language)などの言語による文書にもそのまま適用できる。その例として、図 18は、図 17の XML文書において指定された XMLスタイルシートのファイル「ca se2.xsl」の内容を示して、る。この場合は、「http://xmlns.justsystem.co.jp/diary」なる名前空間 URIが記載されているため、図 17に示した XML文書の表示、編集は滞りなく行われる。

[0063] 次に、図 17と同様の XML文書の例を図 19に示す。ここでは、スタイルシートのファィルとして「case2b.xsl」が指定されている。図 20にそのスタイルシートファイル「case2b •xsl」の内容を示す。図 18のスタイルシートファイル「case2.xsl」と比較すると、図 20のスタイルシートでは、名前空間 URIが「http:〃xmlns.justsystem.co.jp/dialy」となっており、「diary」のつづりに誤りがあることがわかる。このように、名前空間識別情報の記載はあるが誤っている場合などは、名前空間特定部 312は、類似の名前空間を探すようにしてもよい。この場合、名前空間情報格納部 316にあら力じめ、名前空間リストを記憶させておき、その中から文書に記載の誤った名前空間と最も類似性の高い名前空間を検出するようにしてもよい。ここで類似性の判断には、編集距離 (レーべンシユタイン距離)を数え上げるなど、既存の手法を適用してよい。

[0064] 以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、その各構成要素や各処理プロセスの組合せに、ろ、ろな変形が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、変形例を挙げる。

[0065] 実施の形態では、 XML文書を処理する例にっ、て説明した力本実施例の文書処理装置 300は、他のマークアップ言語、例えば、 SGML, HTMLなどで記述された文書も同様に処理可能である。

[0066] 実施の形態では、まず名前空間を特定することにより、そのボキヤブラリに対応したプラグインをロードし、文書を表示 Z編集させる通常の処理を可能にしたが、同様の手続きにより名前空間に代えて候補となるプラグインをユーザに提示し、ユーザが選択したプラグインによって文書を表示 Z編集させてもょ、。

産業上の利用可能性

[0067] 本発明は、構造化文書を処理する装置に利用することができる。

Claims

請求の範囲

[1] マークアップ言語により記述された文書に含まれる構成要素が属する名前空間を検出する名前空間検出部と、

前記名前空間検出部において正確な名前空間が検出されなかった際に、前記文書力所定の条件に基づいたキーワードを抽出し、それをもとに前記名前空間を特定する名前空間特定部と、

前記キーワードと前記名前空間との対応関係に係る情報を記憶する名前空間情報格納部と、

を備え、

前記名前空間特定部は前記抽出されたキーワードをもとに、前記名前空間情報格納部を参照することにより前記名前空間を特定し、

前記名前空間検出部または前記名前空間特定部におヽて特定された前記名前空間に基づき、前記文書を表示し、ユーザによる前記文書の編集を受け付けることを特徴とする文書処理装置。

[2] 前記キーワードは、前記文書のファイル名に含まれる拡張子であることを特徴とする請求項 1に記載の文書処理装置。

[3] 前記キーワードは、前記構成要素の要素名または属性名であることを特徴とする請求項 1または 2に記載の文書処理装置。

[4] 前記名前空間特定部において検出された複数の名前空間をユーザに提示する名前空間提示部をさらに備え、前記名前空間特定部はユーザによって前記複数の名前空間より選択された名前空間を、前記特定された名前空間とすることを特徴とする請求項 1から 3のいずれかに記載の文書処理装置。

[5] 前記名前空間情報格納部は、過去に処理した文書に含まれる構成要素が属する名前空間と、その文書に含まれるキーワードとの対応関係に係る情報を逐次記憶して、くことを特徴とする請求項 1から 4の、ずれかに記載の文書処理装置。

[6] マークアップ言語により記述された文書に含まれる構成要素が属する名前空間を検出するステップと、

前記検出するステップにおいて正確な名前空間が識別されな力つた際に、前記文書力所定の条件に基づいたキーワードを抽出し、それをもとに、あら力じめ記憶された前記キーワードと前記名前空間との対応関係に係る情報を参照して前記名前空間を特定するステップと、

検出または特定された前記名前空間に基づき、前記文書を表示し、ユーザによる前記文書の編集を受け付けるステップと、

を含むことを特徴とする文書処理方法。

マークアップ言語により記述された文書に含まれる構成要素が属する名前空間を検出する機能と、

前記検出するステップにおいて正確な名前空間が識別されな力つた際に、前記文書力所定の条件に基づいたキーワードを抽出し、それをもとに、あら力じめ記憶された前記キーワードと前記名前空間との対応関係に係る情報を参照して前記名前空間を特定する機能と、

検出または特定された前記名前空間に基づき、前記文書を表示し、ユーザによる前記文書の編集を受け付ける機能と、

をコンピュータに実現させることを特徴とするコンピュータプログラム。