JPWO2006121051A1 - 文書処理装置および文書処理方法 - Google Patents
文書処理装置および文書処理方法 Download PDFInfo
- Publication number
- JPWO2006121051A1 JPWO2006121051A1 JP2007528290A JP2007528290A JPWO2006121051A1 JP WO2006121051 A1 JPWO2006121051 A1 JP WO2006121051A1 JP 2007528290 A JP2007528290 A JP 2007528290A JP 2007528290 A JP2007528290 A JP 2007528290A JP WO2006121051 A1 JPWO2006121051 A1 JP WO2006121051A1
- Authority
- JP
- Japan
- Prior art keywords
- tag
- entity
- document
- annotation
- document file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
- G06F16/88—Mark-up to mark-up conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
2.社内システムとして、こうした帳票の個人情報に「個人情報注意」を示すアノテーションを付与するといった作業と個人情報データベースの構築。
3.各部署で使用している入力画面の変更。
これら業務は非常にコストがかかる。
このような態様においては、たとえば、表示や外部への送信に適さないデータが入力されるタグをフィルタリング条件として定義しておけば、このような特定の属性を持つデータを文書ファイルから抽出しやすくなる。
この装置は、複数のタグが構造化された親文書ファイルのスキーマを継承したスキーマによって生成された子文書ファイルを保持するファイル保持部と、親文書ファイルに含まれるアノテーションであるモデルアノテーションから継承された子文書ファイルのアノテーションである実体アノテーションの名前をユーザによる指示入力に応じて変更するアノテーションリネーム処理部と、子文書ファイルに含まれる実体アノテーションの名前と、その実体アノテーションの継承元であるモデルアノテーションの名前を対応づけたアノテーションマッピングテーブルを保持するアノテーションマッピングテーブル保持部と、子文書ファイルに含まれるユーザによって指示されたデータに実体アノテーションを設定するアノテーション設定部と、モデルアノテーションの名前を検索キーとするユーザによる検索指示入力により、アノテーションマッピングテーブルを参照して対応する実体アノテーションの名前を検出し、その実体アノテーションの名前を新たな検索キーとして子文書ファイルからその実体アノテーションが設定されるデータを検出するアノテーションデータ検索部と、を備える。
この装置は、所定のタグセットに属する実体タグによって記述された構造化文書ファイルを取得する文書取得部と、構造化文書ファイルに含まれる実体タグを検出し、所定のタグセットとは異なるタグセットに属するモデルタグのうち、検出した実体タグと所定の関係にあるモデルタグを検出する対応検出部と、所定の関係にある実体タグとモデルタグを対応づけてタグマッピングテーブルに記録するマッピング記録部と、モデルタグを検索キーとする検索指示入力をユーザから受け付けると、タグマッピングテーブルにおいて対応づけられている実体タグの要素データを構造化文書ファイルから検出するタグ検索部と、を備える。
表示対象外となる要素データに対応するモデルタグの指定入力をユーザから受け付けると、タグマッピングテーブルにおいて対応づけられている実体タグを検出し、構造化文書ファイルにおいてその実体タグにより特定される要素データを表示対象から除外する表示制御部と、を更に備えてもよい。
図1は、前提技術に係る文書処理装置20の構成を示す。文書処理装置20は、文書内のデータが階層構造を有する複数の構成要素に分類された構造化文書を処理するが、本前提技術では構造化文書の一例としてXML文書を処理する例について説明する。文書処理装置20は、主制御ユニット22、編集ユニット24、DOMユニット30、CSSユニット40、HTMLユニット50、SVGユニット60、及び変換部の一例であるVCユニット80を備える。これらの構成は、ハードウエアコンポーネントでいえば、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
インターネットの出現により、ユーザによって処理され管理される文書の数が、ほぼ指数関数的に増加してきた。インターネットの核を形成するウェブ(World Wide Web)は、そのような文書データの大きな受け皿となっている。ウェブは、文書に加えて、このような文書の情報検索システムを提供する。これらの文書は、通常、マークアップ言語により記述される。マークアップ言語のシンプルかつポピュラーな例の一つにHTML(HyperText Markup Language)がある。このような文書は、ウェブの他の位置に格納されている他の文書へのリンクをさらに含む。XML(eXtensible Markup Language)は、さらに高度でポピュラーなマークアップ言語である。ウェブ文書にアクセスし、閲覧するためのシンプルなブラウザが、Java(登録商標)のようなオブジェクト指向のプログラミング言語で開発されている。
[入力] → [処理] → [出力]
[コントローラ]→ [モデル] → [ビュー]
文書処理システムの実施例は、図11−29に関連して明らかにされる。
実行環境101のキーとなるコンポーネントはProgramInvoker(プログラムインボーカ:プログラム起動部)103である。ProgramInvoker103は、文書処理システムを起動するためにアクセスされる基本的なプログラムである。例えば、ユーザが文書処理システムにログオンして開始するとき、ProgramInvoker103が実行される。ProgramInvoker103は、例えば、文書処理システムにプラグインとして加えられた機能を読み出して実行させたり、アプリケーションを開始して実行させたり、文書に関連するプロパティを読み出すことができる。ProgramInvoker103の機能はこれらに限定されない。ユーザが実行環境内で実行されるように意図されたアプリケーションを起動したいとき、ProgramInvoker103は、そのアプリケーションを見つけ、それを起動して、アプリケーションを実行する。
プラグインサブシステム104は、文書処理システムに機能を追加するための高度に柔軟で効率的な構成として使用される。プラグインサブシステム104は、また、文書処理システムに存在する機能を修正又は削除するために使用することができる。さらに、種々様々の機能をプラグインサブシステムを使用して追加又は修正することができる。例えば、画面上への文書の描画を支援するように作用するEditlet(エディットレット:編集部)機能を追加することもできる。Editletプラグインは、システムに追加されるボキャブラリの編集も支援する。
コマンドサブシステム105は、文書の処理に関連したコマンドの形式の命令を実行するために使用される。ユーザは、一連の命令を実行することにより、文書に対する操作を実行することができる。例えば、ユーザは、コマンドの形で命令を発行することにより、文書処理システム中のXML文書に対応するXMLのDOMツリーを編集し、XML文書を処理する。これらのコマンドは、キーストローク、マウスクリック、又は他の有効なユーザインタフェイスアクションを使用して入力されてもよい。1つのコマンドにより1以上の命令が実行されることもある。この場合、これらの命令が1つのコマンドにラップ(包含)され、連続して実行される。例えば、ユーザが、誤った単語を正しい単語に置換したいとする。この場合、第1の命令は、文書中の誤った単語を発見することであり、第2の命令は、誤った単語を削除することであり、第3の命令は、正しい単語を挿入することであってもよい。これらの3つの命令が1つのコマンドにラップされてもよい。
Resource109は、様々なクラスに、いくつかの機能を提供するオブジェクトである。例えば、ストリングリソース、アイコン、及びデフォルトキーバインドは、システムで使用されるResourceの例である。
文書処理システムの第2の主要な特徴であるアプリケーションコンポーネント102は、実行環境101において実行される。アプリケーションコンポーネント102は、実際の文書と、システム内における文書の様々な論理的、物理的な表現を含む。さらに、アプリケーションコンポーネント102は、文書を管理するために使用されるシステムの構成を含む。アプリケーションコンポーネント102は、さらに、UserApplication(ユーザアプリケーション)106、アプリケーションコア108、ユーザインタフェイス107、及びCoreComponent(コアコンポーネント)110を含む。
UserApplication106は、ProgramInvoker103と共にシステム上にロードされる。UserApplication106は、文書と、文書の様々な表現と、文書と対話するために必要なユーザインタフェイスとをつなぐ接着剤となる。例えば、ユーザが、プロジェクトの一部である文書のセットを生成したいとする。これらの文書がロードされると、文書の適切な表現が生成される。ユーザインタフェイス機能は、UserApplication106の一部として追加される。言いかえれば、UserApplication106は、ユーザがプロジェクトの一部を形成する文書と対話することを可能とする文書の表現と、文書の様々な態様とを、共に保持する。一旦UserApplication106が生成されると、ユーザがプロジェクトの一部を形成する文書との対話を望むたびに、ユーザは簡単に実行環境上にUserApplication106をロードすることができる。
CoreComponent110は、複数のPane(ペイン)の間で文書を共有する方法を提供する。後で詳述するように、Paneは、DOMツリーを表示し、画面の物理的なレイアウトを扱う。例えば、物理的な画面は、個々の情報の断片を描写する画面内の複数のPaneからなる。ユーザから画面上に見える文書は、1又はそれ以上のPaneに出現しうる。また、2つの異なる文書が画面上で2つの異なるPaneに現れてもよい。
上述したように、アプリケーションコンポーネント102は、システムにより処理され管理される文書から構成される。これは、システム内における文書の様々な論理的及び物理的な表現を含む。アプリケーションコア108は、アプリケーションコンポーネント102の構成である。その機能は、実際の文書を、それに含まれる全てのデータとともに保持することである。アプリケーションコア108は、DocumentManager(ドキュメントマネージャ:文書管理部)1081及びDocument(ドキュメント:文書)1082自身を含む。
アプリケーションコンポーネント102の別の構成は、ユーザがシステムと物理的に対話する手段を提供するユーザインタフェイス107である。例えば、ユーザインタフェイスは、ユーザが文書をアップロードしたり、削除したり、編集したり、管理したりするために使用される。ユーザインタフェイスは、Frame(フレーム)1071、MenuBar(メニューバー)1072、StatusBar(ステータスバー)1073、及びURLBar(URLバー)1074を含む。
図12は、DocumentManager1081の詳細を示す。これは、文書処理システム内で文書を表現するために用いられるデータ構造及び構成を含む。分かりやすくするために、このサブセクションで説明される構成は、MVCパラダイムを用いて説明される。
文書を表現するDOMツリーは、Node(ノード)2021を有するツリーである。DOMツリーの部分集合であるZone(ゾーン)209は、DOMツリー内の1以上のNodeの関連領域を含む。例えば、画面上で文書の一部のみを表示し得るが、この可視化された文書の一部はZone209を用いて表示される。Zoneは、ZoneFactory(ゾーンファクトリ:ゾーン生成部)205と呼ばれるプラグインを用いて、生成され、取り扱われ、処理される。ZoneはDOMの一部を表現するが、1以上の「名前空間」を使用してもよい。よく知られているように、名前空間は、名前空間内でユニークな名前の集合である。換言すれば、名前空間内に同じ名前は存在しない。
Facet(ファセット)2022は、MVCパラダイムのモデル(M)部分内の別の構成である。Facetは、ZoneにおいてNodeを編集するために使用される。Facet2022は、Zone自身の内容に影響を与えずに実行することができる手続(プロシージャ)を使用して、DOMへのアクセスを編成する。次に説明するように、これらの手続は、Nodeに関連した重要で有用な操作を実行する。
文書処理システム内の文書は、少なくとも4つの観点から見ることができる。すなわち、1)文書処理システムにおいて文書の内容及び構造を保持するために用いられるデータ構造、2)文書の保全性に影響を与えずに文書の内容を編集する手段、3)文書の画面上の論理的なレイアウト、4)文書の画面上の物理的なレイアウト、である。Zone、Facet、Canvas及びPaneは、前述の4つの観点に相当する、文書処理システムのコンポーネントをそれぞれ表す。
上述したように、文書に対するいかなる変更(例えば編集)も取消可能であることが望ましい。例えば、ユーザが編集操作を実行し、次に、その変更の取消を決定したとする。図12に関連して、アンドゥサブシステム212は、文書管理部の取消可能なコンポーネントを実現する。UndoManager(アンドゥマネージャ:アンドゥ管理部)2121は、ユーザによって取り消される可能性のある全ての文書に対する操作を保持する。
前述したように、MVCのコントローラ部分は、カーソルサブシステム204を備えてもよい。カーソルサブシステム204は、ユーザから入力を受け付ける。これらの入力は、一般にコマンド及び/又は編集操作の性格を有している。したがって、カーソルサブシステム204は、DocumentManager1081に関連したMVCパラダイムのコントローラ(C)部分であると考えることができる。
前述したように、Canvas210は、画面上に提示されるべき文書の論理的なレイアウトを表す。XHTML文書の例では、Canvas210は、文書が画面上でいかに見えるかを論理的に表現したボックスツリー208を含んでもよい。このボックスツリー208は、DocumentManager1081に関連したMVCパラダイムのビュー(V)部分に含まれよう。
文書処理システムの重要な特徴は、XML文書を、他の表現にマップして取り扱うことが可能で、かつ、マップした先の表現を編集すると、その編集が元のXML文書に整合性を保ちつつ反映される環境を提供することにある。
ボキャブラリコネクションサブシステム300の機能は、VocabularyConnection301と呼ばれるプラグインを使用して、文書処理システムにおいて実現される。文書が表現されるVocabulary305ごとに、対応するプラグインが要求される。例えば、文書の一部がHTMLで記述され、残りがSVGで記述されている場合、HTMLとSVGに対応するボキャブラリプラグインが要求される。
Connector304は、ソースDOMツリーのソースノードと、デスティネーションDOMツリーのデスティネーションノードとを接続する。Connector304は、ソースDOMツリー中のソースノード、及びソースノードに対応するソース文書に対する修正(変更)を見るために作用する。そして、対応するデスティネーションDOMツリーのノードを修正する。Connector304は、デスティネーションDOMツリーを修正することができる唯一のオブジェクトである。例えば、ユーザは、ソース文書、及び対応するソースDOMツリーに対してのみ修正を行うことができる。その後、Connector304がデスティネーションDOMツリーに、対応する修正を行う。
上述したように、ボキャブラリコネクションサブシステムの目的は、同一の文書の2つの表現を同時に生成し保持することである。第2の表現も、DOMツリーの形式であり、これはデスティネーションDOMツリーとして既に説明した。第2の表現における文書を見るために、DestinationZone、Canvas及びPaneが必要である。
ボキャブラリコネクション(VC)サブシステム300の要素として、ボキャブラリコネクション(VC)コマンドサブシステム313がある。ボキャブラリコネクションコマンドサブシステム313は、ボキャブラリコネクションサブシステム300に関連した命令の実行のために使用されるVCCommand(ボキャブラリコネクションコマンド)315を生成する。VCCommandは、内蔵のCommandTemplate(コマンドテンプレート)318を使用して、及び/又は、スクリプトサブシステム314においてスクリプト言語を使用してスクラッチからコマンドを生成することにより、生成することができる。
XPathサブシステム316は、文書処理システムの重要な構成であり、ボキャブラリコネクションの実現を支援する。Connector304は、一般にxpath情報を含む。上述したように、ボキャブラリコネクションのタスクの1つは、ソースDOMツリーの変化をデスティネーションDOMツリーに反映させることである。xpath情報は、変更/修正を監視されるべきソースDOMツリーのサブセットを決定するために用いられる1以上のxpath表現を含む。
ソースDOMツリーは、別のボキャブラリに変換される前のボキャブラリで文書を表現したDOMツリー又はZoneである。ソースDOMツリーのノードは、ソースノードと呼ばれる。
実用のためには、プログラムはユーザからのコマンドに応答しなければならない。イベントは、プログラム上で実行されたユーザアクションを記述し実行する方法である。多くの高級言語、例えばJava(登録商標)は、ユーザアクションを記述するイベントに頼っている。従来、プログラムは、ユーザアクションを理解し、それを自身で実行するために、積極的に情報を集める必要があった。これは、例えば、プログラムが自身を初期化した後、ユーザが画面、キーボード、マウスなどでアクションを起こしたときに適切な処理を講じるために、ユーザのアクションを繰り返し確認するループに入ることを意味する。しかしながら、このプロセスは扱いにくい。さらに、それは、ユーザが何かをするのを待つ間、CPUサイクルを消費してループするプログラムを必要とする。
イベントは、イベントスレッドを用いて渡される。Canvas210は、イベントを受け取ると、その状態を変更する。必要であれば、Command1052がCanvas210によりCommandQueue1053にポストされる。
VocabularyConnectionプラグイン301を用いて、DestinationCanvasの一例であるXHTMLCanvas1106は、発生したイベント、例えば、マウスイベント、キーボードイベント、ドラッグアンドドロップイベント、及びボキャブラリに特有のイベントなどを受け取る。これらのイベントは、コネクタ304に通知される。より詳細には、図21(b)に図示されるように、VocabularyConnectionプラグイン301内のイベントフローは、SourcePane1103、VCCanvas1104、DestinationPane1105、DestinationCanvasの一例であるDestinationCanvas1106、デスティネーションDOMツリー及びConnectorTreeを通過する。
ProgramInvoker103及びそれと他の構成との関係は、図14(a)に更に詳細に示される。ProgramInvoker103は、文書処理システムを開始するために実行される実行環境中の基本的なプログラムである。図11(b)及び図11(c)に図示されるように、UserApplication106、ServiceBroker1041、CommandInvoker1051、及びResource109は、全てProgramInvoker103に接続される。前述したように、アプリケーション102は、実行環境中で実行されるコンポーネントである。同様に、ServiceBroker1041は、システムに様々な機能を加えるプラグインを管理する。他方、CommandInvoker1051は、ユーザにより提供される命令を実行して、コマンドを実行するために使用されるクラス及びファンクションを保持する。
ServiceBroker1041について、図14(b)を参照して更に詳細に説明する。前述したように、ServiceBroker1041は、システムに様々な機能を追加するプラグイン(及び関連するサービス)を管理する。Service1042は、文書処理システムに特徴を追加又は変更可能な最も下の層である。「Service」は、ServiceCategory401とServiceProvider402の2つの部分からなる。図14(c)に図示されるように、1つのServiceCategory401は、複数の関連するServiceProvider402を持ちうる。それぞれのServiceProviderは、特定のServiceCategoryの一部または全部を実行するように作用する。ServiceCategory401は、他方では、Serviceの型を定義する。
図14(e)は、ProgramInvoker103とUserApplication106との関係についての更なる詳細を示す。必要な文書やデータなどは、ストレージからロードされる。必要なプラグインは、全てServiceBroker1041上にロードされる。ServiceBroker1041は、全てのプラグインを保持し管理する。プラグインは、システムに物理的に追加することができ、又、その機能はストレージからロードすることができる。プラグインの内容がロードされると、ServiceBroker1041は、対応するプラグインを定義する。つづいて、対応するUserApplication106が生成され、実行環境101にロードされ、ProgramInvoker103にアタッチされる。
図15(a)は、ProgramInvoker103上にロードしたアプリケーションサービスの構成についての更なる詳細を示す。コマンドサブシステム105のコンポーネントであるCommandInvoker1051は、ProgramInvoker103内のCommand1052を起動又は実行する。Command1052は、文書処理システムにおいて、XMLなどの文書を処理し、対応するXMLDOMツリーを編集するために用いられる命令である。CommandInvoker1051は、Command1052を実行するために必要なクラス及びファンクションを保持する。
図16(a)は、全ての文書、及び文書の一部及び文書に属するデータを保持するアプリケーションコア108についての更なる説明を提供する。CoreComponent110は、文書1082を管理するDocumentManager1081にアタッチされる。DocumentManager1081は、文書処理システムに関連づけられたメモリに格納される全ての文書1082の所有者である。
図17(a)は、DocumentManager1081の更なる説明と、DocumentManagerにおいて文書が構成され保持される様子を示す。図11(b)に示したように、DocumentManager1081は、文書1082を管理する。図17(a)に示される例において、複数の文書のうちの1つはRootDocument(ルート文書)701であり、残りの文書はSubDocument(サブ文書)702である。DocumentManager1081は、RootDocument701に接続され、RootDocument701は、全てのSubDocument702に接続される。
図18(a)及び図18(b)は、アンドゥフレームワーク及びアンドゥコマンドについて更なる詳細を提供する。図18(a)に示されるように、UndoCommand801、RedoCommand802、及びUndoableEditCommand803は、図11(b)に示したようにCommandInvoker1051に積むことができるコマンドであり、順に実行される。UndoableEditCommand803は、UndoableEditSource708及びUndoableEditAcceptor709に更にアタッチされる。「foo」EditCommand804及び「bar」EditCommand805は、UndoableEditCommandの例である。
図18(b)は、UndoableEditCommandの実行を示す。まず、ユーザが編集コマンドを使用してDocument705を編集すると仮定する。第1ステップS1では、UndoableEditAcceptor709が、Document705のDOMツリーであるUndoableEditSource708にアタッチされる。第2ステップS2では、ユーザにより発行されたコマンドに基づいて、Document705がDOMのAPIを用いて編集される。第3ステップS3では、ミューテーションイベントのリスナーが、変更がなされたことを通知される。すなわち、このステップでは、DOMツリーの全ての変更を監視するリスナーが編集操作を検知する。第4ステップS4では、UndoableEditがUndoManager706のオブジェクトとして格納される。第5ステップS5では、UndoableEditAcceptor709がUndoableEditSource708からデタッチされる。UndoableEditSource708は、Document705自身であってもよい。
上記のサブセクションでは、システムの様々なコンポーネント及びサブコンポーネントについて説明した。以下、これらのコンポーネントの使用に関する方法論について説明する。図19(a)は、文書処理システムに文書がロードされる様子の概要を示す。それぞれのステップは、図24−28において、特定の例に関連して詳述される。
図19(b)は、MVCパラダイムを用いてZoneの構成の概要を示す。この場合、Zone及びFacetは文書に関連した入力であるから、モデル(M)はZone及びFacetを含む。Canvasと、文書を画面にレンダリングするためのデータ構造体は、ユーザが画面上に見る出力であるから、ビュー(V)はCanvas及びデータ構造体に対応する。Commandは、文書とその様々な関係に対して制御操作を実行するので、コントロール(C)はCanvasに含まれるCommandを含む。
図20を用いて、文書及びその様々な表現の例について以下に説明する。この例で使用される文書は、テキストと画像の双方を含む。テキストは、XHTMLを用いて表され、画像は、SVGを用いて表される。図20は、文書のコンポーネント及び対応するオブジェクトの関係のMVC表現を詳細に示す。この例において、Document1001は、Document1001を保持するDocumentContainer1002にアタッチされる。文書はDOMツリー1003により表現される。DOMツリーは、ApexNode1004を含む。
図22(a)−(c)は、それぞれ、プラグインサブシステム、ボキャブラリコネクション、及びConnectorに関連する更なる詳細を示す。プラグインサブシステムは、文書処理システムに機能を追加又は交換するために用いられる。プラグインサブシステムは、ServiceBroker1041を含む。ServiceBroker1041にアタッチされるZoneFactoryService1201は、文書の一部に対するZoneを生成する。EditletService1202も、ServiceBroker1041にアタッチされる。EditletService1202は、Zone中のNodeに対応するCanvasを生成する。
特定の文書と関係する処理を説明する例を続ける。ドキュメントタイトルのある「MySampleXML」というタイトルの文書が文書処理システムにロードされる。図23は、「MySampleXML」ファイルのための、VCManager及びConnectorFactoryTreeを用いたVCDスクリプトの例を示す。スクリプトファイル中のボキャブラリセクション、テンプレートセクションと、VCManagerにおける対応するコンポーネントが示される。タグ「vcd:vocabulary」において、属性「match」は「sample:root」、「label」は「MySampleXML」、「call-template」は「sample template」となっている。
図24−28は、文書「MySampleXML」のロードについての詳細な記述を示す。図24(a)に示されるステップ1では、文書がストレージ1405からロードされる。DOMServiceは、DOMツリー及びDocumentManager1406と対応するDocumentContainer1401を生成する。DocumentContainer1401は、DocumentManager1406にアタッチされる。文書は、XHTML及びMySampleXMLのサブツリーを含む。XHTMLのApexNode1403は、タグ「xhtml:html」が付されたXHTMLの最上のノードである。「MySampleXML」のApexNode1404は、タグ「sample:root」が付された「MySampleXML」の最上ノードである。
図30は、セマンティックウェブのレイヤケーキを示す模式図である。
前提技術において示した文書処理装置20は、複合ドキュメント、Webサービスなど各シーンにおけるXML文書(XMLデータ)ハンドリング技術として有効であることは上記した通りである。
1)同図のレイヤケーキで示されるセマンティックWebの進化において、”XML”から”RDF(Resource Description Framework)以上”のデータ構造をシームレスに扱うことは、大きな課題といえる。
2)また、すべての文書がRDFで記述されるということがすぐに実現されることは難しいことが予想される。
3)そこでこれまでのXMLベースのデータとRDF以降のデータとを連結する技術が望まれる。
4)この時、前提技術にて示したXMLハンドリング技術は、「XML」という共通言語によって、既存のXMLによるデータとセマンティックWebアプリケーションをつなげるキーテクノロジーとなる可能性がある。
こうした各部署で個別に作成している帳票などの文書ファイルやそのための入力ブラウザを大きく変更することなく一括管理することが本実施例において目的とするところである。
そのために、社内基準としてグローバルな(モデルとなる)データを定義した後、各部署におけるローカルなデータ定義との関係をオントロジー技術で連携し、既存のXML構造化された社内文書と文書入力ブラウザに対してXMLハンドリング技術により最小のコストでデータの収集と付加情報の追加が可能としている。
<シーン1>
セキュリティ管理者が、各部署の文書ファイルに含まれる個人情報を収集する。各部署の文書ファイルで使用されているローカルな用語については、膨大なバリエーションがある。そのため、セキュリティ管理者は、これらのローカルな用語を完全に把握してはいない。
しかし、同図においては、文書の構造や属性についてのオントロジーが社内基準によって定義されている(以下、このようなオントロジーを「グローバルオントロジー」とよぶ)。各部署では、ローカルオントロジーとしてその部署のローカルな用語をグローバルオントロジーの用語にリンクさせている。これにより、社内基準としてのグローバルオントロジーと部署ごとのローカルオントロジーがシームレスに連係することになる。
社内データベースからローカルオントロジーに基づいて作成された文書ファイルを検索するにあたり、社内基準のグローバルオントロジーに基づいて意味的な上位概念での検索を行う。この意味的な上位概念は各部署において実際に使用されている用語に変換される。そして、社内データベースからXML構造化文書を検索してその結果が一覧表示される。
1.社内全体で基準化されているグローバルオントロジーと、そのグローバルオントロジーにマッピングされているローカルオントロジー。
2.グローバルオントロジーからローカルオントロジーに展開した上で、社内データベースを検索して一覧表示する機能。
検索結果として一覧された文書ファイルを、各部署に配信する。そして、配信された文書ファイルに対して、各部署の部長は、人名や住所といった個人情報をチェックし、たとえば、「個人情報処理該当」といったアノテーションを付与する。このとき、各部署のローカルな用語を使ってアノテーションが付与される。
すなわち、文書ファイルのデータが、2次的、あるいは、3次的に利用される場合であっても、このようなアノテーション情報が保持される。
図34以降に関連して説明するように、社内基準として利用するタグは、グローバルなオントロジーとして定義されている。つまり、会社全体としては、文書ファイルの種類や、そこに記述される各タグについては抽象的、汎用的な定義がなされている。
一例として、「Doc」タグのプロパティとして、「Creater」、「CreateDate」といったタグが含まれるようなスキーマ、いわば、グローバルオントロジーが定義されているとする。一方、営業部門では、「営業日報」タグのプロパティとして、「報告者」、「報告日」といったタグが含まれるようなスキーマ、いわば、ローカルオントロジーが定義される。ここで、「営業日報」タグは「Doc」タグを継承したタグである。同様に「報告者」、「報告日」といったタグは、それぞれ「Creater」タグや「CreateDate」タグを継承している。以下、グローバルオントロジーに基づいて定義されるタグのことを「モデルタグ」とよぶ。
すなわち、グローバルオントロジーにおける「MeetingPlace」というタグは、ローカルオントロジーにおいては、「出張先」であったり「住所」であったりと部署ごとの業務に応じたタグ名となる。以下、ローカルオントロジーに基づいて定義されるタグのことを「実体タグ」とよぶ。
ここに示すように、グローバルオントロジーにおける「MeetingPlace」タグは、この研究部門においては「出張先」タグとなっている。グローバルオントロジーにおいては、「DocumentEntity」というクラスのプロパティとして「MeetingPlace」が定義されている。いわば、社内基準としてのモデルタグのデータ構造が、そのまま各部署の文書ファイルの実体タグのデータ構造として継承されている。以下、社内基準であるグローバルオントロジーに基づいて作成された文書ファイルを「親文書ファイル」、また、そのタグ構造を「親スキーマ」とよぶ。また、親スキーマを継承したスキーマ(以下、「子スキーマ」とよぶ)をもち、ローカルオントロジーに基づいて各部署において生成された文書ファイルを「子文書ファイル」とよぶ。子文書ファイルの表示レイアウトは、各部署ごとに作成されてもよいし、標準的な表示レイアウトがあらかじめ提供されてもよい。
ここに示すように、グローバルオントロジーにおける「MeetingPlace」タグは、この営業部門においては「住所」タグとなっている。
1.研究部門で個人情報となる人名や住所などに「個人情報対象データ」を示すアノテーションを設定する。
2.この時、子文書ファイルが2種類以上の表示レイアウトにて表示されているときには、一方の表示画面に対するアノテーション設定はその他の表示画面に対するアノテーション設定として同時的に反映される。これは、アノテーションが子文書ファイルの「データ」に設定されるからである。前提技術において説明したミューテーションイベントによる技術が応用される。
3.営業部門でも、個人情報となる人名や住所などに「個人情報対象データ」を示すアノテーションを設定する。
4.企画者がこのふたつの文書、すなわち、研究部門の子文書ファイルと営業部門の子文書ファイルを利用してひとつの企画書ファイルを作成しても、それぞれのアノテーション情報は残っている。
5.外部へ企画書ファイルを送信する場合には、会社のセキュリティシステムがこのアノテーションが設定されている部分をマスキングすることで、個人情報にかかわる箇所が外部流出することを防ぐ。
モデルアノテーションとしては、たとえば、個人情報を指定するためのアノテーション、重要情報を指定するためのアノテーションなどさまざまな種類のアノテーションが用意されてもよい。子文書ファイルに対し、個人情報を指定するためのモデルアノテーションを継承した実体アノテーションが、個人情報に相当するデータ範囲に設定されてもよい。そして、たとえば、個人情報を指定するためのモデルアノテーションから継承された実体アノテーションが設定されているデータについては、社外に送信されないように処置してもよい。より具体的には、セキュリティシステムが個人情報を指定するためのモデルアノテーションを検索キーとして、子文書ファイルの個人情報を特定し、これらのデータをマスキングすることによって、個人情報が外部に流出しないように処置することができる。
1.セキュリティ管理者としては、個人情報を指定するためのタグを社内文書ファイルに付与させるため、「SecurityName」というタグ名で管理している。
2.営業部門では、部署内の文書ファイルにおいてわかりやすいように「非流出顧客情報」として、研究部門では「研究者情報」として独自のアノテーション名にてアノテーションを設定している。同図に示すように、営業部門においては、「A氏」というデータをアノテートするために、「非流出顧客情報」というアノテーションがタグとして設定されている。一方、研究部門においては「B氏」というデータをアノテートするために、「研究者情報」というアノテーションがタグとして設定されている。
3.この関係はVCDにより連結されている。すなわち、個人情報のアノテーション時に利用される各部署のタグは、社内基準である「SecurityName」タグにマッピングする処理がVCDとして提供される。
4.これにより各部署におけるローカルな用語にてアノテーションが設定されても、セキュリティ管理は「SecurityName」により一元的に管理することができる。
関数名:ont_searh
引数:ローカルドメイン、実体タグ
返値:指定した実体タグの継承元であるモデルタグから継承されている、全てのドメインにおける実体タグの一覧
説明:指定した実体タグと同じグローバルオントロジーのクラスに該当する全ての実体タグの一覧を取得する。この関数は、まず、DOMツリーを取得した後、営業部門の「住所」という実体タグの継承元である「MeetingPlace」というモデルタグを取得する。そして、このモデルタグを継承している研究部門の「出張先」タグを検出する。
これにより、取得したいノードに相当する概念(オントロジーのクラス)あるいは、それに相当する他のドメインのタグを指定することで、検索が可能となる。いいかえれば、検索対象のドメインがわからなくても検索が可能となる。
サンプル:<vcd:for-each select=“function:ont_search(function:document(“*.xml”)//*/営業部門:住所)">
このサンプルの場合、カレントディレクトリの拡張子がxmlである全てのファイルをparseし、その中で営業部門:住所と同じグローバルオントロジーのクラスに該当するノードの一覧を取得する。
引数:ターゲットドメイン、コマンド名
返値:ターゲットドメインのVCDに定義されているコマンドを実行する。
説明:オントロジーにおけるドメイン変換を行って、表示や編集を行う場合、編集コマンドを記述してあるドメインと編集対象となるドメインが異なるため、編集対象ドキュメントのスキーマを保つことを保証しがたい。そこで、たとえば、個人情報にタグを付けるといった特定の編集コマンドのインタフェースをグローバルオントロジーで定義する。そして、各ドメインにおけるローカルオントロジーにおいて、これらの編集コマンドを実装することにより、各ドメインにおけるスキーマにしたがった形で編集コマンドを定義できる。このコマンドは各ドメインを処理するためのVCDコマンドとして定義する。
サンプル:<vcd:action event="event:mouse-clicked"><instruction:callname="function:ont-call(annotate-privacy,$contextNS)"/></vcd:action>
このサンプルの場合、該当箇所でマウスがクリックされると、$contextNSドメインで定義されたannotate-privacyというコマンドが実行される。
ここでは、「Customer」として定義されたモデルタグが、研究部門においては「出張先」、営業部門では「顧客名」として定義されている。こうした知識があれば、セキュリティ管理者は、個人情報となりえる情報を検索する場合において、
研究部門->出張報告書->出張先
営業部門->営業日報->顧客名
というローカルなタグ名で該当データを検索する必要はなく、
DocumentEntry->Customer
だけで、必要な情報を検索できる。
1.XML技術とセマンティックWeb技術の融合
文書処理装置20をプラットフォームとすることで、RDF、RDFS(Resource Description Framework Shema)、OWL(Web Ontology Language)といったセマンティックWeb技術とXML技術がシームレスに結合可能となる。
2.ヒューマンリーダブルからマシーンリーダブルのデータ整合性
セマンティックWebの展望であるヒューマンリーダブルからマシーンリーダブルとともに、現実世界で問題となるデータを扱うブラウザとデータの整合性が文書処理装置20にて統一して扱うことができる。
3.上記1、2の各技術を連携した個人情報管理支援システムを文書処理装置20をプラットフォームとして実現することができる。
以上の実施例に示した処理方法には、企業などの業務組織において取り扱われる文書ファイルのデータ整合性を保持しやすくなるという効果がある。
これまでに、モデルタグと実体タグのマッピング、およびその利用場面を中心として説明した。たとえば、社内において標準的なモデルタグのセット(以下、「モデルタグセット」とよぶ)を用意しておき、各部署ではモデルタグセットをベースとして業務に即した実体タグを作り、実体タグに基づいてXML文書ファイルを作成してもよい。この場合、開発部とマーケティング部、営業部はそれぞれ別々の実体タグによりXML文書を作成することになる。しかし、実体タグのセット(以下、「実体タグセット」とよぶ)は別々であってもその継承元は同じモデルタグセットであるため、モデルタグに基づく情報検索が可能である。
ここに示す各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組み合わせによっていろいろなかたちで実現できることは、当業者には理解されるところである。
ユーザインタフェース処理部3100は、ユーザからの入力処理やユーザに対する情報表示のようなユーザインタフェース全般に関する処理を担当する。本実施例においては、ユーザインタフェース処理部3100により文書処理装置3000のユーザインタフェースサービスが提供されるものとして説明する。別例として、ユーザはインターネットを介して文書処理装置3000を操作してもよい。この場合、通信部3130が、ユーザ端末からの操作指示情報を受信し、またその操作指示に基づいて実行された処理結果情報をユーザ端末に送信することになる。
ファイル保持部3252は、XML文書ファイル、特に、実体タグによって記述されたXML文書ファイルを保持する。タグマッピングテーブル保持部3254は、実体タグとモデルタグを対応づけたタグマッピングテーブルを保持する。アノテーションマッピングテーブル保持部3256は、実体アノテーションとモデルアノテーションを対応づけたアノテーションマッピングテーブルを保持する。
文書編集部3210は、ユーザからの入力に応じてXML文書ファイルの編集処理を実行する。文書編集部3210の主たる機能は、前提技術で説明した文書処理装置20の基本的な機能、特に、編集ユニット24により実現される。トップダウンアプローチとして、ユーザは、モデルタグセットによって記述されているXML文書ファイルを、実体タグで記述されたXML文書ファイルに変換してもよい。また、ボトムアップアプローチとして、はじめから自由に実体タグを定義してXML文書ファイルを作成してもよい。
タグ検索部3222はタグを検索する。たとえば、先ほどの例の場合、モデルタグ<従業員>を検索キーとする場合、タグ検索部3222は、タグマッピングテーブルを参照してモデルタグ<従業員>と対応づけられている実体タグを検出する。すなわち、XML文書ファイル中から実体タグ<課長>や<ライセンス担当>を検出し、それらの要素データを取得する。
ここではモデルタグセット1、モデルタグセット2という2種類のモデルタグセットが提供されているとする。モデルタグセット1とモデルタグセット2は別々のベンダー(vender)によって提供されてもよい。XML文書ファイル3300やXML文書ファイル3302に含まれている実体タグは、モデルタグをリネームしたものではなく、ユーザが任意に設定したタグである。すなわち、ボトムアップアプローチを前提としている。モデルタグセット1は、モデルタグ<人間>と、その下位概念語としてのモデルタグ<従業員>を含む。単語「従業員」には、類語として「社員」、下位概念語として「課長」、「社長」、「課長代理」等の単語が類語テーブルや概念語テーブルにおいて対応づけられているものとする。モデルタグセット2は、モデルタグとして<重要>と<不要>を含む。
このような実体タグ<社長>とモデルタグ<重要>のマッピングはユーザの判断に基づいている。そのため、同じモデルタグセット2に対して、実体タグ<社長>にモデルタグ<不要>をマッピングし、<課長>や<課長代理>に対してはモデルタグ<重要>をマッピングしてもよい。中間管理職=重要という観点に立つならば、このようなマッピングも想定し得る。特に、「重要」や「不要」のように評価に関わるモデルタグの場合、ユーザの価値判断や評価基準に応じてマッピングが変化する可能性もある。たとえば、システムの運用中に、実体タグ<課長代理>は<不要>ではなく<重要>にマッピングされるべきであるとして状況変化することがある。この場合、タグマッピングテーブルにおける実体タグとモデルタグの対応関係を変更する。このように、実体タグとモデルタグの対応関係は、状況に応じて柔軟に変更可能であることが望ましい。更に、マッピングテーブルは、ユーザごとに設定してもよい。たとえば、ユーザAは<社長>に<重要>をマッピングし、ユーザBは<社長>に<不要>をマッピングするといった具合である。この場合、モデルタグセットと実体タグセットの組み合わせは同じでも、ユーザA用のマッピングテーブルとユーザB用のマッピングテーブルは別々となる。
Claims (14)
- 複数のタグが構造化された親文書ファイルのスキーマを継承したスキーマによって生成された子文書ファイルを保持するファイル保持部と、
親文書ファイルに含まれるタグであるモデルタグから継承された子文書ファイルのタグである実体タグの名前をユーザによる指示入力に応じて変更するタグリネーム処理部と、
子文書ファイルに含まれる実体タグの名前と、その実体タグの継承元であるモデルタグの名前を対応づけたタグマッピングテーブルを保持するタグマッピングテーブル保持部と、
モデルタグの名前を検索キーとするユーザによる検索指示入力により、前記タグマッピングテーブルを参照して対応する実体タグの名前を検出し、その実体タグの名前を新たな検索キーとして子文書ファイルからその実体タグの要素データを検出するタグデータ検索部と、
を備えることを特徴とする文書処理装置。 - ユーザにより指定された実体タグの継承元であるモデルタグを前記タグマッピングテーブルを参照して検出し、前記タグマッピングテーブル保持部に保持されている複数のタグマッピングテーブルを参照することによりそのモデルタグを継承するその他の実体タグを検出する関連タグ検索部を更に備えることを特徴とする請求項1に記載の文書処理装置。
- 複数のタグが構造化された親文書ファイルのスキーマを継承したスキーマによって生成された子文書ファイルを保持するファイル保持部と、
親文書ファイルに含まれるアノテーションであるモデルアノテーションから継承された子文書ファイルのアノテーションである実体アノテーションの名前をユーザによる指示入力に応じて変更するアノテーションリネーム処理部と、
子文書ファイルに含まれる実体アノテーションの名前と、その実体アノテーションの継承元であるモデルアノテーションの名前を対応づけたアノテーションマッピングテーブルを保持するアノテーションマッピングテーブル保持部と、
子文書ファイルに含まれるユーザによって指示されたデータに実体アノテーションを設定するアノテーション設定部と、
モデルアノテーションの名前を検索キーとするユーザによる検索指示入力により、前記アノテーションマッピングテーブルを参照して対応する実体アノテーションの名前を検出し、その実体アノテーションの名前を新たな検索キーとして子文書ファイルからその実体アノテーションが設定されるデータを検出するアノテーションデータ検索部と、
を備えることを特徴とする文書処理装置。 - 子文書ファイルを外部装置に送信するファイル送信部を更に備え、
前記アノテーションデータ検索部は、子文書ファイルに含まれるデータのうち外部送信を禁止すべきデータに設定されるモデルアノテーションを検索キーとして子文書ファイルから該当データを検出し、
前記ファイル送信部は、その検出されたデータの外部装置に対する送信を抑止することを特徴とする請求項3に記載の文書処理装置。 - 所定のタグセットに属する実体タグによって記述された構造化文書ファイルを取得する文書取得部と、
前記構造化文書ファイルに含まれる実体タグを検出し、前記所定のタグセットとは異なるタグセットに属するモデルタグのうち、前記検出した実体タグと所定の関係にあるモデルタグを検出する対応検出部と、
前記所定の関係にある実体タグとモデルタグを対応づけてタグマッピングテーブルに記録するマッピング記録部と、
モデルタグを検索キーとする検索指示入力をユーザから受け付けると、前記タグマッピングテーブルにおいて対応づけられている実体タグの要素データを前記構造化文書ファイルから検出するタグ検索部と、
を備えることを特徴とする文書処理装置。 - 前記構造化文書ファイルに含まれるデータを画面表示させるデータ表示部と、
表示対象外となる要素データに対応するモデルタグの指定入力をユーザから受け付けると、前記タグマッピングテーブルにおいて対応づけられている実体タグを検出し、前記構造化文書ファイルにおいてその実体タグにより特定される要素データを表示対象から除外する表示制御部と、
を更に備えることを特徴とする請求項5に記載の文書処理装置。 - 前記対応検出部は、類語関係にある単語の組み合わせが定義された類語データテーブルを参照して、前記構造化文書ファイルから検出した実体タグの名前と類語関係にある名前のモデルタグを前記所定の関係にあるモデルタグとして検出することを特徴とする請求項5または6に記載の文書処理装置。
- 前記対応検出部は、上位概念と下位概念の関係にある単語の組み合わせが定義された概念データテーブルを参照して、前記構造化文書ファイルから検出した実体タグの名前に対して上位概念にあたる名前のモデルタグを前記所定の関係にあるモデルタグとして検出することを特徴とする請求項5または6に記載の文書処理装置。
- 複数のタグが構造化された親文書ファイルのスキーマを継承したスキーマによって生成された子文書ファイルについて、親文書ファイルに含まれるタグであるモデルタグから継承された子文書ファイルのタグである実体タグの名前をユーザによる指示入力に応じて変更するステップと、
モデルタグの名前を検索キーとするユーザによる検索指示入力により、子文書ファイルに含まれる実体タグの名前とその実体タグの継承元であるモデルタグの名前を対応づけたタグマッピングテーブルを参照して、対応する実体タグの名前を検出し、その実体タグの名前を新たな検索キーとして子文書ファイルからその実体タグの要素データを検出するステップと、
を備えることを特徴とする文書処理方法。 - 複数のタグが構造化された親文書ファイルのスキーマを継承したスキーマによって生成された子文書ファイルについて、親文書ファイルに含まれるアノテーションであるモデルアノテーションから継承された子文書ファイルのアノテーションである実体アノテーションの名前をユーザによる指示入力に応じて変更するステップと、
子文書ファイルに含まれるユーザによって指示されたデータに実体アノテーションを設定するステップと、
モデルアノテーションの名前を検索キーとするユーザによる検索指示入力により、子文書ファイルに含まれる実体アノテーションの名前とその実体アノテーションの継承元であるモデルアノテーションの名前を対応づけたアノテーションマッピングテーブルを参照して対応する実体アノテーションの名前を検出し、その実体アノテーションの名前を新たな検索キーとして子文書ファイルからその実体アノテーションが設定されるデータを検出するステップと、
を備えることを特徴とする文書処理方法。 - 複数のタグが構造化された親文書ファイルのスキーマを継承したスキーマによって生成された子文書ファイルについて、親文書ファイルに含まれるタグであるモデルタグから継承された子文書ファイルのタグである実体タグの名前をユーザによる指示入力に応じて変更する機能と、
モデルタグの名前を検索キーとするユーザによる検索指示入力により、子文書ファイルに含まれる実体タグの名前とその実体タグの継承元であるモデルタグの名前を対応づけたタグマッピングテーブルを参照して、対応する実体タグの名前を検出し、その実体タグの名前を新たな検索キーとして子文書ファイルからその実体タグの要素データを検出する機能と、
をコンピュータに発揮させることを特徴とする文書処理プログラム。 - 複数のタグが構造化された親文書ファイルのスキーマを継承したスキーマによって生成された子文書ファイルについて、親文書ファイルに含まれるアノテーションであるモデルアノテーションから継承された子文書ファイルのアノテーションである実体アノテーションの名前をユーザによる指示入力に応じて変更する機能と、
子文書ファイルに含まれるユーザによって指示されたデータに実体アノテーションを設定する機能と、
モデルアノテーションの名前を検索キーとするユーザによる検索指示入力により、子文書ファイルに含まれる実体アノテーションの名前とその実体アノテーションの継承元であるモデルアノテーションの名前を対応づけたアノテーションマッピングテーブルを参照して対応する実体アノテーションの名前を検出し、その実体アノテーションの名前を新たな検索キーとして子文書ファイルからその実体アノテーションが設定されるデータを検出する機能と、
をコンピュータに発揮させることを特徴とする文書処理プログラム。 - 所定のタグセットに属する実体タグによって記述された構造化文書ファイルを取得するステップと、
前記構造化文書ファイルに含まれる実体タグを検出し、前記所定のタグセットとは異なるタグセットに属するモデルタグのうち、前記検出した実体タグと所定の関係にあるモデルタグを検出するステップと、
前記所定の関係にある実体タグとモデルタグを対応づけてタグマッピングテーブルに記録するステップと、
モデルタグを検索キーとする検索指示入力をユーザから受け付けると、前記タグマッピングテーブルにおいて対応づけられている実体タグの要素データを前記構造化文書ファイルから検出するステップと、
を備えることを特徴とする文書処理方法。 - 所定のタグセットに属する実体タグによって記述された構造化文書ファイルを取得する機能と、
前記構造化文書ファイルに含まれる実体タグを検出し、前記所定のタグセットとは異なるタグセットに属するモデルタグのうち、前記検出した実体タグと所定の関係にあるモデルタグを検出する機能と、
前記所定の関係にある実体タグとモデルタグを対応づけてタグマッピングテーブルに記録する機能と、
モデルタグを検索キーとする検索指示入力をユーザから受け付けると、前記タグマッピングテーブルにおいて対応づけられている実体タグの要素データを前記構造化文書ファイルから検出する機能と、
をコンピュータに発揮させることを特徴とする文書管理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007528290A JP5073494B2 (ja) | 2005-05-09 | 2006-05-09 | 文書処理装置および文書処理方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005135764 | 2005-05-09 | ||
JP2005135764 | 2005-05-09 | ||
JP2007528290A JP5073494B2 (ja) | 2005-05-09 | 2006-05-09 | 文書処理装置および文書処理方法 |
PCT/JP2006/309337 WO2006121051A1 (ja) | 2005-05-09 | 2006-05-09 | 文書処理装置および文書処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006121051A1 true JPWO2006121051A1 (ja) | 2008-12-18 |
JP5073494B2 JP5073494B2 (ja) | 2012-11-14 |
Family
ID=37396559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007528290A Expired - Fee Related JP5073494B2 (ja) | 2005-05-09 | 2006-05-09 | 文書処理装置および文書処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20090070295A1 (ja) |
JP (1) | JP5073494B2 (ja) |
WO (1) | WO2006121051A1 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8356053B2 (en) * | 2005-10-20 | 2013-01-15 | Oracle International Corporation | Managing relationships between resources stored within a repository |
JP2008083769A (ja) * | 2006-09-26 | 2008-04-10 | Just Syst Corp | 文書検索装置および文書検索方法 |
US9183321B2 (en) * | 2006-10-16 | 2015-11-10 | Oracle International Corporation | Managing compound XML documents in a repository |
US8499238B2 (en) * | 2007-07-11 | 2013-07-30 | International Business Machines Corporation | Manipulating design models by editing generated reports |
US7765236B2 (en) * | 2007-08-31 | 2010-07-27 | Microsoft Corporation | Extracting data content items using template matching |
JP4959501B2 (ja) * | 2007-10-09 | 2012-06-27 | 株式会社オービックビジネスコンサルタント | 情報処理装置、情報処理方法、およびプログラム |
US8301646B2 (en) * | 2008-08-21 | 2012-10-30 | Centurylink Intellectual Property Llc | Research collection and retention system |
US9317599B2 (en) * | 2008-09-19 | 2016-04-19 | Nokia Technologies Oy | Method, apparatus and computer program product for providing relevance indication |
US20100125616A1 (en) * | 2008-11-19 | 2010-05-20 | Sterling Commerce, Inc. | Automatic generation of document translation maps |
US20110252313A1 (en) * | 2008-12-19 | 2011-10-13 | Ray Tanushree | Document information selection method and computer program product |
WO2011070979A1 (ja) * | 2009-12-11 | 2011-06-16 | 日本電気株式会社 | 辞書作成装置 |
JP5708495B2 (ja) * | 2009-12-11 | 2015-04-30 | 日本電気株式会社 | 辞書作成装置、単語収集方法、及び、プログラム |
US9262185B2 (en) * | 2010-11-22 | 2016-02-16 | Unisys Corporation | Scripted dynamic document generation using dynamic document template scripts |
US9639631B2 (en) * | 2013-02-27 | 2017-05-02 | Cellco Partnership | Converting XML to JSON with configurable output |
AU2014253672B2 (en) | 2013-04-19 | 2019-05-30 | Commonwealth Scientific And Industrial Research Organisation | Checking undoability of an API-controlled computing system |
US11556578B2 (en) * | 2014-05-12 | 2023-01-17 | Semantic Technologies Pty Ltd | Putative ontology generating method and apparatus |
US20200321107A1 (en) * | 2015-05-19 | 2020-10-08 | Iryou Jyouhou Gijyutu Kenkyusyo Corporation | Integrated multi-facility electronic medical record system |
US10528612B2 (en) * | 2017-02-21 | 2020-01-07 | International Business Machines Corporation | Processing request documents |
US10679002B2 (en) * | 2017-04-13 | 2020-06-09 | International Business Machines Corporation | Text analysis of narrative documents |
US11562143B2 (en) | 2017-06-30 | 2023-01-24 | Accenture Global Solutions Limited | Artificial intelligence (AI) based document processor |
US11003796B2 (en) * | 2017-06-30 | 2021-05-11 | Accenture Global Solutions Limited | Artificial intelligence based document processor |
JP6638053B1 (ja) * | 2018-12-05 | 2020-01-29 | グレイステクノロジー株式会社 | ドキュメント作成支援システム |
CN109977385B (zh) * | 2019-03-18 | 2023-04-25 | 合肥智慧联接科技有限公司 | 一种数据智能填充方法、装置、存储介质及终端 |
US11483294B2 (en) | 2019-08-28 | 2022-10-25 | University Of Maryland, Baltimore County | Method for anonymizing network data using differential privacy |
US20230097665A1 (en) * | 2020-11-25 | 2023-03-30 | Hitachi, Ltd. | Tag domain presentation device, tag domain presentation method, and information processing system using the same |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0581320A (ja) * | 1991-09-25 | 1993-04-02 | Matsushita Electric Ind Co Ltd | 情報検索装置 |
JP3765459B2 (ja) * | 1999-03-03 | 2006-04-12 | Kddi株式会社 | Xml文書検索装置 |
JP2001092827A (ja) * | 1999-09-20 | 2001-04-06 | Toshiba Corp | データ管理装置および方法 |
JP2001229067A (ja) * | 2000-02-16 | 2001-08-24 | Fujitsu Ltd | 構造化文書記述データ処理装置および構造化文書記述データ処理プログラム記録媒体 |
GB0011426D0 (en) * | 2000-05-11 | 2000-06-28 | Charteris Limited | A method for transforming documents written in different XML-based languages |
JP2002099561A (ja) * | 2000-09-21 | 2002-04-05 | Toshiba Corp | データ変換方法およびデータ変換システム並びに記憶媒体 |
JP2003058523A (ja) * | 2001-08-21 | 2003-02-28 | Nippon Telegr & Teleph Corp <Ntt> | 構造化文書の変換ルール作成方法および装置と変換ルール作成プログラムおよび該プログラムを記録した記録媒体 |
JP3914081B2 (ja) * | 2002-03-26 | 2007-05-16 | 株式会社東芝 | アクセス権限設定方法および構造化文書管理システム |
JP2004336562A (ja) * | 2003-05-09 | 2004-11-25 | Canon Inc | 画像送信装置 |
-
2006
- 2006-05-09 JP JP2007528290A patent/JP5073494B2/ja not_active Expired - Fee Related
- 2006-05-09 US US11/913,602 patent/US20090070295A1/en not_active Abandoned
- 2006-05-09 WO PCT/JP2006/309337 patent/WO2006121051A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2006121051A1 (ja) | 2006-11-16 |
JP5073494B2 (ja) | 2012-11-14 |
US20090070295A1 (en) | 2009-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5073494B2 (ja) | 文書処理装置および文書処理方法 | |
JP5020075B2 (ja) | 文書処理装置 | |
JPWO2006051715A1 (ja) | 文書処理装置及び文書処理方法 | |
JPWO2006085455A1 (ja) | 文書処理装置および文書処理方法 | |
JPWO2006051905A1 (ja) | データ処理装置およびデータ処理方法 | |
JPWO2006051870A1 (ja) | データ処理装置、文書処理装置及び文書処理方法 | |
JPWO2006051975A1 (ja) | 文書処理装置 | |
JPWO2006051964A1 (ja) | データ処理システム、データ処理方法、及び管理サーバ | |
JP4521408B2 (ja) | 文書処理装置及び文書処理方法 | |
JPWO2006046666A1 (ja) | 文書処理装置および文書処理方法 | |
JPWO2006051713A1 (ja) | 文書処理装置及び文書処理方法 | |
JPWO2006051960A1 (ja) | 文書処理装置及び文書処理方法 | |
JPWO2006120926A1 (ja) | 入力フォーム設計装置および入力フォーム設計方法 | |
JPWO2006051954A1 (ja) | 文書処理装置及び文書処理方法 | |
JPWO2006051904A1 (ja) | データ処理装置およびデータ処理方法 | |
JPWO2006051712A1 (ja) | 文書処理装置及び文書処理方法 | |
JPWO2006051716A1 (ja) | 文書処理装置及び文書処理方法 | |
JP4723511B2 (ja) | 文書処理装置及び文書処理方法 | |
JPWO2006051955A1 (ja) | サーバ装置及び名前空間発行方法 | |
JPWO2006051966A1 (ja) | 文書管理装置及び文書管理方法 | |
JPWO2006051959A1 (ja) | 文書処理装置及び文書処理方法 | |
JPWO2007105364A1 (ja) | 文書処理装置及び文書処理方法 | |
JPWO2006046667A1 (ja) | 文書処理装置および文書処理方法 | |
JPWO2007007529A1 (ja) | 文書処理装置および文書処理モジュール | |
JPWO2006051956A1 (ja) | サーバ装置及び検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090416 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20091202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120814 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120822 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150831 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |