WO2007057945A1

WO2007057945A1 - 文書管理装置、そのプログラム及びそのシステム

Info

Publication number: WO2007057945A1
Application number: PCT/JP2005/020974
Authority: WO
Inventors: Kohei Arai
Original assignee: Saga University
Priority date: 2005-11-15
Filing date: 2005-11-15
Publication date: 2007-05-24
Also published as: JPWO2007057945A1; JP4734662B2

Abstract

【課題】原則として人手を介することなく簡易且つ確実に検索の対象となる文書のキーワードを抽出し、対象となる文書をキーワードを用いてデータベースに登録する文書管理装置を提供する。【解決手段】対象ドキュメントを取り込むための入力部２１と、取り込まれた対象ドキュメント中の文字からキーワードを抽出するキーワード自動抽出部２２と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納する格納部２５とを備える文書管理装置であって、抽出された複数キーワードについて出現頻度、対象ドキュメントの文書形式、キーワードの文書中での位置及びキーワードの文字サイズの少なくとも１つを用いてキーワードの重要度を求める重要度決定部２２とを新たに備え、重要度決定部２２にて重要度の高いとされたキーワードを用いて格納部２５が対象ドキュメントを記憶手段に格納する。

Description

明細書

文書管理装置、そのプログラム及びそのシステム技術分野

[0001] 本発明は、文書を管理する装置に関し、特に、文書内に含まれる情報をもとに格納して管理する文書管理装置に関する。

背景技術

[0002] 現在、紙媒体として大量に存在する印刷、手書き等の文書、図面等をデータべ一ス管理し、検索して電子媒体等で公開できるようにする iDC(internet Data Center)の開発が進行している。一般的に、紙媒体文書等は、オペレータにより検索用キーヮードを手書きページとして挿入し、このページも含めてスキャナ等で電子媒体に変換し、登録している。

[0003] 紙媒体文書等からのキーワードの自動生成に関して、文書をビジネス文書に限定し、レイアウト中のタイトル文字列の位置に関する知識を用いて検索用キーワードを抽出し、また、必要に応じてオペレータが手作業にて入力する方法が提案されているまた、背景技術となる文書管理システムとして特開 2004— 78343号公報に開示されるものがある。

[0004] この背景技術の文書管理システムは、文書をデータベースに登録し管理するとともに文書を検索する文書管理サーバと、文書管理サーバに対して文書の検索を依頼する文書管理クライアントと、文書の電子データとキーワードの文字データとを記憶する少なくとも 1つのデータベースを格納する外部記憶装置と、予め検索用キーワードとして登録したい文字列に所定のキーワード識別マークを付した文書を画像として読み取って画像データとして出力する文書読み取り装置とを有する文書管理システムであって、前記文書管理サーバは、前記文書読み取り装置から出力された画像データの中から、前記キーワード識別マークを認識し当該キーワード識別マークに基づいてキーワードとなる文字列の画像データを切り出して文字データに変換するキーヮード抽出処理部と、前記キーワードの文字データを前記文書の電子データ上の属性情報格納領域に格納し、当該電子データ及び当該電子データの属性情報格納領域に格納されたキーワードの文字データを前記データベースに格納する登録処理部とを有する構成である。

[0005] この背景技術の文書管理システムによれば、キーワード抽出処理部が、画像データ化された文書の中から文書検索用のキーワードを切り出して文字データに変換し、登録処理部が当該キーワードの文字データをデータベースに格納する。したがって、オペレーターの手によることなぐキーワードがデータベースに登録される。そして、文書を検索は、キーワードについて検索条件で指定された文字列と一致する部分があるかを検索することによって行われる。また、登録処理部は、キーワードの文字データを当該キーワードを含む文書の電子データの属性情報格納領域に格納し、この属性情報格納領域にキーワードの文字データが格納された状態の文書の電子データをデータベースに格納する。したがって、文書の電子データをデータベースから抜き出して、他のコンピュータでキーワードにより検索を行おうとする場合に、文書の電子データの属性情報格納領域に格納したキーワードを利用して検索用のキーワードを登録することができる。

特許文献 1：特開 2004— 78343号公報

発明の開示

発明が解決しょうとする課題

[0006] 前記背景技術の文書管理システムは、簡易且つ確実に検索の対象となる文書に含まれる文字列をキーワードとしてデータベースに登録できることを目的としものではあるが、所定のキーワード識別マークを文書に付する必要があり、依然として人手が介在するものであると!/、う課題を有する。

[0007] 本発明は前記課題を解決するためになされたものであり、原則として人手を介することなく簡易且つ確実に検索の対象となる文書のキーワードを抽出し、対象となる文書をキーワードを用いてデータベースに登録する文書管理装置を提供することを目的とする。

[0008] ここで、複写機においては文書管理機能を有することなぐ光学的に読み出した原稿画像情報を用いて出力紙に印刷した直後にメモリから完全に原稿画像情報を消去し、機密性を高める機種も既に出荷されている。このような複写機においては、どのような原稿画像情報であっても瞬時に消去され、再利用することができず、使用者の使い勝手が悪い。そこで、本発明においては、メモリから複写後直ちに原稿画像情報を消去するのではなく所定の手順を踏んで機密性を担保しつつ、原稿画像情報の再利用を行うことも目的とする。

[0009] 本発明の文書管理システムが対象とするのは、光学的に読み出された原稿画像情報の他、画像情報、所定のアプリケーションで作成された文書データも対象となり得る。

課題を解決するための手段

[0010] (1) 本発明に係る文書管理装置は、対象ドキュメントを取り込むための入力部と、取り込まれた対象ドキュメント中の文字力キーワードを抽出するキーワード自動抽出部と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納する格納部とを備える文書管理装置であって、抽出された複数キーワードについて出現頻度、対象ドキュメントの文書形式、キーワードの文書中での位置及びキーワードの文字サイズの少なくとも 1つを用いてキーワードの重要度を求める重要度決定部とを新たに備え、重要度決定部にて重要度の高いとされたキーワードを用いて格納部が対象ドキュメントを記憶手段に格納するものである。

[0011] このように本発明においては、対象ドキュメントに内包される各種情報を用いてキーワードの重要度を決定し、重要度の高、キーワードを用いて対象ドキュメントを記憶手段に格納しているので、人手を用いることなく自動的に対象ドキュメントが格納されると共に、適切なキーワードを用いて対象ドキュメントが格納されているので検索も円滑に行うことができる。

キーワードを索引、インデックスとして記憶手段に対象ドキュメントを格納することができ、より好ましくはデータベースをキーワードをインデックスとして構築することが望ましい。

[0012] 構築された記憶手段、データベースに対して使用者はキーワードをもって対象ドキュメントを検索することができることは当然である。その場合に、対象ドキュメントを使用者に提供する提供手段を明示的に有する構成とすることもできるし、対象ドキュメントに関しては他システムに委ねる構成であってもよい。

重要度の決定は、実施形態においてはプロダクションシステム、重要度解析技術を用いて行うことを例として上げて、る。

[0013] (2) 本発明に係る文書管理装置は必要に応じて、対象ドキュメントについて複数のキーワードが抽出された場合には概念辞書を用いて重要度の最も高いキーワードと同一概念に属する最も下位概念のキーワードを特定する手段を新たに備え、特定した下位概念のキーワードを用いて格納部が対象ドキュメントを記憶手段に格納するものである。

[0014] このように本発明においては、複数のキーワードが対象ドキュメントに対して抽出された場合であっても、キーワード中で最も重要度の高いキーワードの同一概念に属する最も低、概念のキーワードに基づき対象ドキュメントが格納されて、るので、対象ドキュメントに対応するキーワードを用いて検索がなされた場合には当然にヒットする他、その上位概念のキーワードであっても適切にヒットする。

ここで、「最も」として、るがより好ま U、形態である。

[0015] (3) 本発明に係る文書管理装置は、対象ドキュメントを取り込むための入力部と、取り込まれた対象ドキュメント中の文字力キーワードを抽出するキーワード自動抽出部と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納する格納部とを備える文書管理装置であって、登録語彙間の概念関係が定められている概念辞書に登録されて、る語彙に基づ、て構築されて、るデータベースを記憶手段として用い、抽出されたキーワードに基づき対象ドキュメントがデータベースに格納されるちのである。

[0016] このように本発明においては、概念辞書を用いてデータベースが構築されており、このデータベースに対して抽出したキーワードに基づいて対象ドキュメントが格納されるので、検索する場合には対象ドキュメントに対応付、て、るキーワードと完全同一でなくと同一概念上のキーワードであれば所望の対象ドキュメントを円滑に検索することがでさる。

[0017] (4) 本発明に係る文書管理装置は必要に応じて、対象画像ドキュメントに対して主成分変換する手段と、当該主成分変換後の各主成分データの少なくとも 1つに対して可逆であるウェーブレット変換する手段と、可逆であるウェーブレット変換後の主成分データの高周波成分に予め用意された鍵画像を埋め込む手段と、当該鍵画像埋め込み後の主成分データをウェーブレット逆変換する手段と、当該ウェーブレット逆変換後の主成分データを含めて他の主成分データと共に主成分逆変換する手段とを新たに備えるものである。

[0018] 自動的に対象ドキュメントがキーワードにより格納されることで、あらゆる対象ドキュメントが容易に格納されると共に、容易に検索でき参照することができるが、この反面対象ドキュメントを盗用される危険性が高まる。し力しながら、本発明によってウェーブレットを用いた高、優位性を有する電子透力しを対象ドキュメントに入れることで、盗用の危険性を確実に防止することができる。

[0019] (5) 本発明に係る文書管理装置は、対象ドキュメントを取り込むための入力部と、対象ドキュメントを記憶手段に格納する格納部とを備える文書管理装置であって、対象画像ドキュメントに対して主成分変換する手段と、当該主成分変換後の各主成分データの少なくとも 1つに対して可逆であるウェーブレット変換する手段と、可逆であるウェーブレット変換後の主成分データの高周波成分に予め用意された鍵画像を埋め込む手段と、当該鍵画像埋め込み後の主成分データをウェーブレット逆変換する手段と、当該ウェーブレット逆変換後の主成分データを含めて他の主成分データと共に主成分逆変換する手段とを新たに備えるものである。

[0020] このように本発明におヽては、対象画像ドキュメントを主成分変換して主成分データに対してウェーブレット変換し高周波成分に鍵画像を埋め込み、ウェーブレット逆変換、主成分逆変換を経て電子透力しがなされた対象ドキュメントをアクセスが要求力 Sあった場合に提供するので、ある対象画像ドキュメントが文書管理装置が管理対象とする対象画像ドキュメントである力否かの原本証明を実施することができ、結果的に機密性を保持して処理済対象画像ドキュメントを提供することができる。

[0021] 対象画像ドキュメントは対象ドキュメントのうち画像形式のものである。対象ドキュメントが画像形式でなければ処理を施さないか、画像形式に変換して処理を施す。変換した場合には画像形式の対象画像ドキュメントと変換前の対象ドキュメントを格納する。勿論、対象画像ドキュメントのみを格納してもよい。 [0022] (6) 本発明に係る文書管理装置は必要に応じて、少なくとも鍵画像が埋め込まれる前に、対象画像ドキュメントに埋め込まれる鍵画像に対して対象画像ドキュメントを管理するための管理情報をステガノグラフィを用いて埋め込む手段を新たに備えるものである。

[0023] このように本発明においては、ステガノグラフィを用いて管理情報を鍵画像に埋め込んでいるので、通常鍵画像を処理済対象画像ドキュメントから抽出することは困難なであるが、仮に抽出した場合であっても管理情報自体も鍵画像にハイディングされており、管理情報を不正改ざんを実施することが困難である。

[0024] (7) 本発明に係る文書管理装置は必要に応じて、前記鍵画像に管理情報を埋め込む場合に、鍵画像中の所定選択画素群の各画素の下位ビットに分散させて管理情報を埋め込むものである。

このように本発明においては、（6)に加え、鍵画像中の所定の画素に対して、特に、画素の色情報の下位ビットに管理情報を各画素に分散させて埋め込むので、下位ビットが正規のビットから反転した場合であっても色の変化は微小であって適切な埋め込みを実現することができる。特に、最下位ビットのみに管理情報を埋め込んだ場合には高々階調が 1変化するだけであり鍵画像に与える影響は殆どない。

[0025] (8) 本発明に係る文書管理装置は必要に応じて、前記選択画素群の各画素の下位ビットに管理情報を埋め込む場合に、管理情報を乱数アルゴリズムを用いて並び替え、乱数アルゴリズムに関連する情報に対応する鍵画像に並び替えた管理情報を埋め込むものである。

このように本発明においては、（7)に加え、鍵画像に管理情報を埋め込む前に管理情報自体を乱数を用いて並び替え、並び替えた管理情報を鍵画像に埋め込んでいるので鍵画像から並び替えた管理情報を抽出することができたとしても、管理情報を再構成することが困難である。一方、鍵画像自体は乱数アルゴリズムに関連する情報に対応しており、この対応を知っている場合にのみどのような並び替えを行ったかを把握することができ、管理情報を再構成することができる。

[0026] (9) 本発明に係る文書管理装置は、複写機上に構築される。

このように複写機上に本発明の構成要件が構築され、オールインワンのサービスを提供することができる。

[0027] (10) 本発明に係る文書管理プログラムは、対象ドキュメントを取り込むための入力部と、取り込まれた対象ドキュメント中の文字力もキーワードを抽出するキーワード自動抽出部と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納する格納部としてコンピュータを機能させるための文書管理プログラムであって、抽出された複数キーワードを出現頻度、対象ドキュメントの文書形式、キーワードの文書中での位置及びキーワードの文字サイズの少なくとも 1つを用いてキーワードの重要度を求める重要度決定部と、対象ドキュメントについて複数のキーワードが抽出された場合には概念辞書を用いて重要度の最も高いキーワードと同一概念に属する最も下位概念のキーワードを特定する手段としてコンピュータを機能させ、特定した下位のキーワードを用いて格納部が対象ドキュメントを記憶手段に格納するものである。このように前記文書管理装置は、プログラムとしても把握することができる。

ここで、「最も」として、るがより好ま U、形態である。

[0028] (11) 本発明に係る文書管理システムは、対象ドキュメントを取り込むための入力部と、取り込まれた対象ドキュメント中の文字力もキーワードを抽出するキーワード自動抽出部と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納する格納部とを備える文書管理システムであって、抽出された複数キーワードを出現頻度、対象ドキュメントの文書形式、キーワードの文書中での位置及びキーワードの文字サイズの少なくとも 1つを用いてキーワードの重要度を求める重要度決定部と、対象ドキュメントについて複数のキーワードが抽出された場合には概念辞書を用いて重要度の最も高いキーワードと同一概念に属する最も下位概念のキーワードを特定する手段とを備え、特定した下位概念のキーワードを用いて格納部が対象ドキュメントを記憶手段に格納するものである。このように前記文書管理装置は、システムとしてち把握することがでさる。

ここで、「最も」として、るがより好ま U、形態である。

これら前記の発明の概要は、本発明に必須となる特徴を列挙したものではなぐこれら複数の特徴のサブコンビネーションも発明となり得る。

図面の簡単な説明 [0029] [図 1]本発明の第 1の実施形態に係る文書管理システムのシステム構成図である。

[図 2]本発明の第 1の実施形態に係る文書管理サーバのブロック構成図である。

[図 3]本発明の第 1の実施形態に係る文書管理システムの構成要素のハードウェア構成図である。

[図 4]本発明の第 1の実施形態に係るプロダクションシステムのブロック構成図である

[図 5]本発明の第 1の実施形態に係るラプラシアンピラミッド、鍵画像に対するステガノグラフィによる属性情報等の管理情報の埋め込みの説明図である。

[図 6]本発明の第 1の実施形態に係る文書管理システムの動作フローチャートである

[図 7]本発明の第 1の実施形態に係るキーワード抽出の詳細動作フローチャートである。

[図 8]本発明の第 1の実施形態に係る電子透力しの詳細動作フローチャートである。

[図 9]本発明の第 1の実施形態に係る管理情報更新の詳細動作フローチャートである

[図 10]本発明の第 2の実施形態に係る文書管理システムのシステム構成図である。

[図 11]本発明の第 3の実施形態に係る文書管理システムの動作フローチャートである符号の説明

[0030] 10 入力装置

11 複写機

12 スキャナ

13 ファクシミリ

14 複合機

15 カメラ付携帯電話

20 文書管理サーバ

21 入力部

22 キーワード自動抽出部 23 ステガノグラフィ部

24 電子透かし部

25 データベース格納部

26 認証部

27 データ提供部

30 ユーザコンピュータ

40 管理者コンピュータ

発明を実施するための最良の形態

[0031] ここで、本発明は多くの異なる形態で実施可能である。したがって、下記の実施形態の記載内容のみで解釈すべきではな、。

実施形態では、主にシステムについて説明するが、所謂当業者であれば明らかな通り、本発明はコンピュータで使用可能なプログラム及び方法としても実施できる。また、本発明は、ハードウェア、ソフトウェア、または、ソフトウェア及びハードウェアの実施形態で実施可能である。プログラムは、ハードディスク、 CD-ROM, DVD-RO M、光記憶装置または磁気記憶装置等の任意のコンピュータ可読媒体に記録できる。さらに、プログラムはネットワークを介した他のコンピュータに記録することができる。

[0032] (本発明の第 1の実施形態）

本実施形態に係る文書管理装置について説明する。

[1.システム構成]

図 1は本実施形態に係る文書管理システムのシステム構成図である。

本実施形態に係る文書管理システムは、対象となる原稿を電子化する複写機 11 ( コピー機）、スキャナ 12、ファクシミリ 13、並びに、コピー機能、スキャン機能及びファクシミリ機能を有する複合機 14 (これら複写機 11、スキャナ 12、ファクシミリ 13、複合機 14を入力装置 10と総称する）と、この入力装置 10で電子化された対象ドキュメントをセキュアな状態でデータベースに適切に格納する文書管理サーバ 20と、使用者が使用するユーザコンピュータ 30と、管理者が使用する管理者コンピュータ 40とを備える構成である。ここでの対象ドキュメントは、原稿が電子化された原稿画像情報だけでなく、ユーザコンピュータ 30にインストールした各種アプリケーションプログラムで作成されるデータ等が含まれる。

[0033] 複写機 11は一般的な複写機の構成である。ここで、ネットワークと接続して文書管理サーバ 20と通信可能となっており、複写機 11が複写対象の原稿を読み込んだ場合に電子化された対象ドキュメントを文書管理サーバ 20に送信する。なお、複写機 1 1で複写せずに、用紙を読み込み電子化された対象ドキュメントを文書管理サーバ 2 0に送信する構成であってもよい。複写機 11以外の入力装置 10であるスキャナ 12、ファクシミリ 13、複合機 14も、各一般的な構成以外に複写機 11と同様に、ネットヮークと接続して文書管理サーバ 20と通信可能となっている。入力装置 10が原稿を読み込んだ場合に電子化された対象ドキュメントを文書管理サーバ 20に送信する。このとき、必ずしもファクシミリ 13はファックス送信しなくてもよいし、複合機 14も必ずしもコピ一、ファクス送信しなくてもよい。すなわち、光学的な読み取り装置としての機能を用いて原稿を読み取り、文書管理サーバ 20に送信するだけでもよい。

[0034] 図 2は本実施形態に係る文書管理サーバのブロック構成図である。前記文書管理サーバ 20は、対象ドキュメントを取り込む入力部 21と、取り込まれた対象ドキュメント中のキーワードを抽出するキーワード自動抽出部 22と、鍵画像に対象ドキュメントの管理情報をノヽイデイングするステガノグラフィ部 23と、対象ドキュメントにこの鍵画像を挿入する電子透かし部 24と、前記キーワード自動抽出部で抽出されたキーワードを用いて予め構築されて、るデータベースに電子透力しが施された処理済対象ドキュメントを格納するデータベース格納部 25と、ユーザからのアクセスを認証を実施する認証部 26と、ユーザのアクセス要求に応じて指定される処理済対象ドキュメントを提供するデータ提供部 27とを備える構成である。

[0035] [2.ハードウェア構成図]

図 3は本実施形態に係る文書管理システムの構成要素のハードウェア構成図である。ユーザコンピュータ ₃₀はコンピュータ上に構築され、ハードウェアの構成としては

CPU(Central Processing Unit)31、 DRAM(Dynamic Random Access Memory) 32^ のメインメモリ、外部記憶装置である HD(hard disk)33、表示装置であるディスプレイ 34、入力装置であるキーボード 35及びマウス 36、ネットワークに接続するための拡張カードである LANカード 37、 CD— ROMドライブ 38等力もなる。 [0036] 文書管理サーバ 20、管理コンピュータ 40も、ユーザコンピュータ 30と略同様のハ一ドウエアの構成である。

文書管理サーバ 20は、例えば、 CD— ROMに格納されている文書管理サーバプログラムが HD上に複製 (インストール)され、必要に応じて文書管理サーバプロダラムがメインメモリに読み出され、 CPUが力かるプログラムを実行することで文書管理サーバ (装置)を構成する。

[0037] また、ユーザコンピュータ 30、管理コンピュータ 40も文書管理サーバ 20が構築されて、るコンピュータのハードウェアの構成と略同様であるとした力文書管理サーバ 2 0が構築されているコンピュータが例えばパーソナルコンピュータであるユーザコンビユータ 30、管理コンピュータ 40と比べ、ハイパフォーマンスで且つ高信頼性のハードウェアを用いている。

[0038] [2. 1 複写機]

複写機の一例としては、複写すべき原稿を順次送り込むための自動原稿送り部と、原稿の画像を読み取るための画像読み取り部と、この画像読み取り部から得られた原稿画像情報に基づいて感光体の表面にトナー像を形成し用紙トレイカ搬送されてきた用紙に転写する画像形成部と、用紙に転写されたトナー像を定着させるトナー像定着部と、プログラムや原稿画像情報を一時的に記録するメモリと、プログラムや原画像情報を記録する HDと、操作ボタンや操作パネル力なるインタフェース部と、構成要素を各種制御する CPUと、ネットワークと接続する LANインターフェース等の通信部とを備える構成がある。

[0039] [2. 2 スキャナ]

スキャナの一例としては、装置全体の制御を行なう CPUと、プログラムや原稿画像情報を一時的に記録するメモリと、操作ボタンや操作パネル力もなるインタフェース部と、画像を光学的に読みとる読み取り部と、ネットワークと接続する LANインターフエース等の通信部とを備える構成がある。

[0040] [2. 3 ファクシミリ]

ファクシミリの一例としては、装置全体の制御を行なう CPUと、プログラムや原稿画像情報を一時的に記録するメモリと、画像を光学的に読みとる読み取り部と、プロッタと、操作ボタンや操作パネル力もなるインタフェース部と、符号化復号化部と、グループ 3 (G3)ファクシミリモデムと、網制御装置と、 ISDN (integrated services digital net work)インターフェース回路と、グループ 4 (G4)データ通信機能部と、 LANインターフェース等の通信部とを備える構成がある。

[0041] [3. 自動データベース格納]

[3. 1 キーワード抽出及び重要度決定]

キーワード抽出は、取り込まれた対象ドキュメントである画像データ力対象文書中の構成要素に基づき文書形式を決定する文書形式決定手段と、入力された画像データをレイアウト解析し対象文書のレイアウト情報および対象文書中の文字のフォントサイズ情報を生成するレイアウト解析手段と、入力された画像データを文字認識してテキストデータを生成するテキストデータ変換手段と、このテキストデータを形態素解祈し、形態素解析情報を出力する形態素解析手段と、前記形態素解析情報より形態素毎の出現頻度を演算し出現頻度情報を生成する出現頻度演算手段と、対象文書の文書形式毎にプロダクションシステムのプロダクションメモリに、条件部が対象文書の形態素の位置、フォントサイズ及び出現頻度の評価項目要素の評価項目状態であり、後件部がキーワードである力否かである知識が格納されたプロダクションシステムのワーキングメモリにレイアウト情報、フォントサイズ情報及び出現頻度情報を入力し、推論を実行する推論手段とから実現される。図 4は本実施形態に係るプロダクションシステムのブロック構成図である。対象ドキュメントがアプリケーションデータの場合には、レイアウト解析手段とテキストデータ変換手段はそのアプリケーションプログラムのアプリケーションデータ形式に応じて解析、変換を行う。ここで、アプリケーションデータの場合にー且画像データに変換する構成をとることもできる。

[0042] レイアウト解析手段は、画像データを特定のアルゴリズムに従ってレイアウト解析し、レイアウト解析結果のレイアウト情報及びフォントサイズ情報を推論手段に引き渡す。レイアウト解析のアルゴリズムは、本発明の本質的部分でなぐかつ、様々なアルゴリズムが周知技術として存在し当業者は適宜実現することができるので、ここでの詳細な説明は省略する。手書き文字や印字された文字を光学的に読み取り、パターンとの照合により文字を特定し、文字データを入力する光学式文字読取装置の分野等で周知となっている。テキストデータ変換手段によるテキストへの画像データの変換も同様である。

[0043] レイアウト情報は、文字、文字列が文書中のどの位置にあるかを示した情報である。

フォントサイズ情報は、文字の大きさの情報である。形態素解析手段が、テキストデータを形態素解析している。形態素解析 (Morphological Analysis)は、自然言語で書かれた文を形態素 (Morpheme:言語で意味を持つ最小単位）に分割し、品詞を見分けることである。参照するものとして対象言語の文法の知識と辞書 (品詞等と対応付いた単語リスト)とがある。形態素解析のアルゴリズムは、本発明の本質的部分でなぐかつ、様々なアルゴリズムが周知技術として存在し当業者は適宜実現することができるので、ここでの詳細な説明は省略する。形態素解析ソフトとして、 ChaSen (URL : http: 〃chasen.aist- nara.ac.jp/)というものがあり、広く用いられている。

[0044] 形態素解析手段により形態素毎に分割、統合された文字、文字列毎のレイアウト情報、フォントサイズ情報から、形態素の位置、形態素の大きさも把握することができる。より好ましくは、オブジェクト指向言語により実装した場合には、各形態素毎にクラスを用意し、メンバ変数として、形態素の文字、文字列の変数、形態素の品詞の変数、形態素の位置の変数、形態素のフォントサイズの変数を用意し、それぞれのメンバ変数に値を、形態素解析手段がまず形態素の文字、文字列の変数に形態素を求めた後に値を格納し、同様に形態素の品詞の変数に格納し、レイアウト情報及びフォントサイズ情報よりそれぞれ形態素の位置の変数、形態素のフォントサイズの変数に値を格納する構成とする方がよい。そうすることで、後記する推論手段が適宜該当する形態素のオブジェクトのメンバ変数を参照することで、プロダクションルールとの照合を実行することができる。

[0045] 出現頻度演算手段は、形態素解析情報から形態素毎の出現頻度を演算し、出現頻度情報を生成する。形態素解析情報中で、形態素と品詞とが対応づいているので、それぞれの形態素の対象文書中での個数をカウントすることで出現頻度を演算することができる。ここで、出現頻度演算手段は、形態素の品詞を見ることなく同じ形態素は品詞が異なっても同じものとして扱うこともできるし、品詞が異なれば別の形態素として取り扱うこともできる。さらに、形態素が略同じで品詞が異なる場合に、同一のものとしてカウントすることもでき、キーワード抽出の精度を向上させることができる。

[0046] [3. 1. 1 文書の形式]

文字数を指標に図面は識別でき、また、表を多く含むフォーム形式は、鄞線等線分数が多ぐ文字数も多ぐレター形式は、線分数が少なく文字数が多いことを利用して文書形式決定手段が対象文書を 3種類のヽずれかに分類することができる。すなわち、文書の構成要素である文字、線分等で分類することができる。

レター形式文書は、文書タイトルが検索用キーワードとなる場合が多ぐその現れる位置、フォントサイズが重要である。それらに次いで当該キーワードの出現頻度が重要である。

[0047] フォーム形式文書は、表中にタイトルが現れる場合が多ぐ文書タイトルの現れる位置、次いで、その出現頻度が重要であり、フォントサイズはさほど重要ではない。図面は、文書タイトルの位置が最も重要であり、フォントサイズもさほど重要ではなく、文字数が少な、ことから出現頻度は殆ど重要ではな、。

上記のように文書形式によって検索用キーワードを抽出する際の知識の重要度は異なる。

[0048] [3. 1. 2 文書形式に最適な知識重要度の設定]

AHPに基づき、事前に知識重要度の考慮方法を検討する。対象文書の文書形式による知識キーワードの重要度の設定を最適化し、これに必要な評価項目を事前に推定する。 AHPは、問題分析において主観的判断とシステムアプローチを上手く利用した問題解決型意思決定手法である。複雑に絡み合った要素の中から一つの答えを取り出されなければならない時に、あまり単純に割り切ってしまうと大事な要素を見落としてしまう危険があり、あまりに複雑な手法では臨機応変に使いこなすことが難しくなる。そこで、多くの要素をバランスよく取り込み、意思決定できる方法として AHP を採用する。

[0049] 次に、意思決定に関する評価項目の要素の抽出および知識の階層化について説明する。 AHPは、決定に関連した要素を階層構造で表現する。ある基準に基づき、選択肢の評価を階層的に判断し、最終的には全階層を統合化して意思決定する。この手順を次に示す。 [0050] 意思決定の目的の要素を 1つ、目的評価のための評価項目の要素を複数個、目的に対する代替案を複数個用意する。本実施形態では、目的に知識の重要度 (重み係数)、評価項目要素にフォントサイズ、文字列の位置、出現頻度、さら〖こ、代替案にそれら評価項目要素の大きさを設定した。

最上層を目的要素とし、評価層を意思決定のための評価項目要素、さらに、最下層を代替案とする。

[0051] 次に、評価層の要素の影響度の評価について説明する。予め、被験者 (例えば 10 名）に対して対象文書を提示し、検索用キーワードとして最適な単語を選定してもらい、かつ、当該キーワードを選定する際に用いた知識、すなわち、評価項目要素の影響度 (重要度)を 0から 1の範囲で採点してもらう。

[0052] 次に、各階層の要素間の一対一比較について説明する。階層毎にペアを選択し、一対一比較を行う。階層に n個の比較要素がある場合、 n(n— 1)Z2回の一対一比較を行うことになる。同じ階層の各要素を一対一比較表によって比較し、表 1に示す一対一比較行列を作成する。その後、評価項目階層の一対一比較を実施し、要素間の相対重要度を算出する。

[0053] [表 1]

(評価項目階層の一対一比較)

次に、各階層の要素間の重要度の計算について説明する。各階層の要素間の重み係数を求めるためのアルゴリズムを以下に示す。各階層の要素 A ,Α ,· · ·,Α

1 2 ηの一対一比較行列を A= [a ]とする。また、求める重み係数 wが既知の時に w , w ," -,wで与

ij 1 2 n えられた場合、 Aは式 (1)のようになる。

[0054] [数 1]

二の時、 aは理想的には、

[0055] [数 2]

とする。この時、 i, j, kについて a X a =aが成立するならば、意思決定者の判断が完全に整合しているといえる。

次に、式 (1)に wを右力も掛けると、式 (3)のようになる。

[数 3]

Aw =

(3)

従って、

[0057] [数 4]

A ' w = n ' w (4) となる。式 (4)は固有値問題、

[0058] [数 5]

(A-n ' i} w = 0 (5) [0059] に変形できる。この時、 w≠0となるには、 nが Aの固有値になる必要がある。 nが Aの固有値になる時、 wは Aの固有ベクトルとなる。また、 rank(A) = 1より、固有値え（i=l, 2,· · ·,η)は 0を除ぐ最大固有値えが与えられ、他の固有値え =0となる。 Αの主対 max 1

角要素の和は nであるので、 λ はえ =ηを満たしている。よって、 wは Αのえに max max max 対する正規化した固有ベクトルとなる。すなわち、完全に整合性がとれているといえる。しかし、現実には意思決定者力と同じ重み係数を与えるような行列 Aを決定することは極めて困難である。そのため、意思決定者カゝら得られる一対一比較行列を A' 、その一対一比較行列カゝら得られる重み係数をした時、式 (4)を式 (6)のように置き換える。

[0060] [数 6] =λ ' （6) [0061] したがって、ま A'の最大固有値に対する正規化した固有ベクトルとなる。

max

一対一比較の際、要素数が増加するほど結果の不整合性が発生する。 n行 n列の一対一比較行列において、不整合性が発生すると、最大固有値 λ ' は ηより大きくな max

る。これを Sattyの定理と呼び、式 (7)で表される。

[0062] [数 7] ="+g .|_+i - )²/ . 。" · . . . ( ^{7 )}

[0063] 式 (7)より、は常に ≥ηを満たすことがわかる。そこで、一対一比較の整 max max

合性チェックの指標として C. I. (Consistency Index)が定義されている。 C. I.は式 (8) で表される。

[0064] [数 8]

C.i. = ^≡^. · · · · (8)

n-1

[0065] C. I. =0に近づくにつれて整合性が高まり、逆に 0から遠ざかるにつれて整合性が低くなる, 目的の評価項目と各代替案の一対一比較を行う。そして、各階層で求めた重み係数を用いて、代替案の中から最適な案を求める。

[0066] [3. 1. 3 検索キーワード抽出のための知識ベースの構築]

検索キーワード抽出のためのプロダクションシステムを AHPに基づき、あらかじめ構築する。ここでは、特に、あまり試みられていない「図面形式」の対象文書を例に取り上げ、 AHPに基づく知識の重要度、確信度の決定方法を示す。線分数は多く文字が少ないことが図面形式の文書の特徴である。 AHPの最上層は目的であり、重要度 (重み係数)であり、中間層の評価項目の要素は、フォントサイズ、縦横位置、出現頻度である。また、最下層の代替案は重要度の大小である。

[0067] 次に、評価項目（キーワード候補に関する知識）について説明する。抽出した複数の文字領域力もキーワード候補を抽出するため、以下の知識が有効である。（1)キーワードは、他の文字（Fontsize)に比べ大きい。（2)キーワードのある位置は、図面の左中右 (X#Position)上下 (Y#Position)の場合が多い。（3)キーワードは、図面中に頻度高く (Frequency)出現する。これら知識の評価項目値（Fontsize、 Y#Position、 X#Position 、 Frecuency)は、以下のように抽出した。

[0068] (1)フォントサイズ (Fontsize)、位置情報（Y#Position、 X#Position)に関しては対象文書をスキャナで読み込み、上記各手段により、レイアウト情報として抽出した。

(2)頻度 (Frequency)は、文字認識し、テキストに変換した後に、前出の形態素解析ソフト ChaSenを利用し、「分かち書き」単語の頻度を調べることにより抽出した。

例示として、図面形式の対象文書を 10名の被験者に提示し、前記した評価項目をどの程度重要視したかの影響度を 0から 1の範囲で 10段階評価にて指定してもらったところ、フォントサイズ: 0.98、出現頻度: 0.98、縦位置： 0.694、横位置： 0.23が平均影響度であることが分力つた。

[0069] 次に、知識ベース設計につ!、て説明する。提案方法の知識はプロダクションルール「IF〜ならば THEN〜である」という形式で表現されている。提案方法の知識は、条件部に「Font_Si_Zeの大小」等の評価項目の評価項目状態、後件部にはキーワードか否かを記述した。すなわち、「IF Fontsize is Big THEN確信度 CFにおいてキーヮードである」となる。また、提案方法の知識においては、等しくない条件部をもつ複数の知識が同一の後件部を導出する論理和の形式のみを利用した。

[0070] 次に、確信度（Certainty factor)につ!/、て説明する。プロダクションシステムの特徴として、各知識に確信度と！ヽぅ重み係数を課すことで不確実な知識の扱！ヽを可能にする点が上げられる。本実施形態では、確信度を、ある知識ルールにおいて、その条件部により後件部がどの程度導出できるかという度合いを表現した指標と定義する。この値の範囲は、 ± 1であり、 0の場合は後件部を導出するのに条件部は考慮されないことを意味している。負の場合、後件部導出に否定的である度合いを意味し、正の場合、後件部導出を支持する度合いを意味している。この時、 AHPで得られた相対重要度に基づき、確信度を求めた。

[0071] (1)確信度決定のため、 AHPの階層構造の最上層の目的は知識の重要度算出として、評価項目は Fontsize、 X#Position、 Y#Position、 Frequencyとした。また、最下層の代替案層は各評価項目において Fontsizeが大きい場合、 Y#Position、 X#Positionが重要と思われる場所に近い場合、 Frequencyが多い場合を Bigとし、その逆を Smallとした。

[0072] (2)X#Position、 Y#Positionにつ!/、て、文字列のレイアウトがどの位置にあるときが重要であるかという判断には、文書を縦、横それぞれ 5分割し、その位置を A (最端)、 B (やや端)、 C (中間）、 D (やや端)、 E (最端)としたフアジィ集合で表した。対象文書のキーワードのある位置は図面の左中右上下の場合が多ヽと、う知識を用いて、位置の重要度の評価項目、 X#Position、 Y#Positionのそれぞれに対し、 A or C or E > B or Dとした。

[0073] 表 1は、前出の影響度を用いて、 AHPに基づいて一対一比較を行い、算出した評価項目の重み係数 (相対重要度)である。また、それぞれの評価項目 (Fontsize、 Y#Po sition、 X#Position、 Frequency)に対する各代替案の一対一比較結果を、表 2力ら 5〖こ示す。表 1の評価項目の重み係数に各代替案を乗算し、それらの値を加算し、統合化すると表 6になる。これをみると、全評価項目が最も Bigの場合の相対重要度は 0.85 、また、全評価項目が最も Smallの場合の相対重要度は 0.15となっている。表 1から 5 に基づき、全知識の確信度を決定する。

[0074] [表 2] ( 「Font_Si_Ze」に関する各代替案の一対一比較表)

[0075] [表 3]

(「Y— Position] に関する各代替案の一対一比較表)

[0076] [表 4]

( 「X Position] に関する各代替案の一対一比較表)

[0077] [表 5]

(「Frequency」に関する各代替案の一対一比較表)

[0078] [表 6]

(代替案層の重要度)

[0079] (3)確信度の合成法確信度の合成は、 2つの知識の論理和により行った。同一の後件部導出時の CF1、 CF2を合成した CFは、

[0080] [数 9] CF(CF1,CF2) =

CF1 + CF2- (CF1 x CF2) (9)

CF1 > 0 and CF2 > 0

[0081] [数 10]

CFl + CF2 + (CFlxCF2) · · · , (丄 ₀₎

CFl<0or CF2<0

[0082] [数 11] (C 1+CF2)

1 - min(| C 1|,|CE2|) . . . . ( 1 1 )

other とする。

[0083] 知識ベースで適合する知識ルールが複数個存在していた場合、最も知識の条件部が詳細なものを選択し実行することにより、知識の競合をさける。そして、推論手段がキーワードの確信度とキーワード候補を出力する。

[0084] [3. 2 語彙概念構造辞書を有したデータベース構成]

語彙概念構造 (lexcail conceptual strcture)辞書の構成で予めデータベースは構築されている。したがって、データベースに対しては語彙概念構造辞書に含まれる語彙に基づきデータベースに格納されて、る対象ドキュメントを読み出すことも、語彙に基づきデータベースに格納することもできる。言い換えるならば、このデータベースは語彙をインデックスとして対象データを格納可能に構成されてヽる。語彙概念構造 (lexc ail conceptual strcture)自体は周知技術である。特に、語彙概念構造辞書については次のサイトが詳しヽ。 (http://cl.it.okayama-u.ac.jp/rsc/lcs/)

語彙概念構造辞書としたが、所謂概念辞書を用いることもできる。語彙間の上位概念、下位概念、同義、反意の関係を示すものである。本発明においては、キーワード間の概念関係を把握するために用いる。

[0085] 対象ドキュメントの抽出されたキーワードのうち最も高い確信度を有するキーワードを用いて対象ドキュメントをデータベースに格納する。ただし、最も高い確信度を有するキーワードど同一概念のキーワードが出力されたキーワード中にあり、且つ、そのキ一ワードが下位概念である場合には下位概念のキーワードに基づいて対象ドキュメントはデータベースに格納される。

[0086] この他、確信度が最も高いキーワードではなぐ同一概念のキーワード数が多いものの中で最も下位概念のキーワードに基づいて対象ドキュメントをデータベースに格糸内する構成をとることちでさる。

対象ドキュメント提供時には、ユーザはキーワードを用いて検索することで、合致したキーワードに対応した対象ドキュメントを読み出す。ただし、ユーザが指定したキーワードの上位概念のキーワード、下位概念のキーワードも用いて検索することができる。

[0087] [3. 3 重要度決定部の代替手段]

前記 [3. 1 キーワード抽出]でプロダクションシステムが重要度を決定していたが、この方法以外に重要度解析技術を用いることもできる。重要度解析技術により、テキストデータを入力することで重要度順にキーワードが出力される。

重要度解析技術は、本発明の本質的部分でなぐかつ、様々な周知技術が存在し当業者は種々の周知技術を採ることができ、ここでは詳細な説明は省略する。

なお、参考資料として次のものを列挙する。

•中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出"、自然言語処理、 Vol.10 No.l, pp. 27 - 45, 2003年 1月

' "専門用語 (キーワード）自動抽出システムのページへようこそ"、 http://gensen.dl.it c.u— tokyo.ac.jp/

[0088] [4.情報ハイディング]

[4. 1 電子透かし]

デジタルデータに秘密情報を挿入する技術を情報ハイデング技術と、う。電子透かしは情報ハイディングの 1種である。

情報ハイディング (電子透かし)の一般的な流れは、第 1に多バンド原画像の！/、ずれかのバンド画像に対してウェーブレット分解を行い、第 2にウェーブレット分解後の高周波成分に秘密画像を挿入し、第 3にウェーブレット再構成により情報ハイデイング画像を生成するといつたものである。ここで重要なのが、第 1の「多バンド原画像のいずれかのバンド画像に対して」という点である。本実施形態では、多バンド原画像のエネルギー集中を実現する前処理として主成分変換が用いられるだけでなぐ斜交座標変換も用いることで守秘性を向上させることができる。主成分変換は、直交変換の 1種であり、逆変換可能である。斜交座標変換も逆変換可能である。また、本発明は、 3バンド原画像でない多バンド原画像に適用することもでき、さらには、 1バンド原画像にも適用することもできる。ただし、 1バンド原画像に適用した場合には、 1バンド原画像自体が第 1主成分画像となってしまう。よって、 HSI変換等の 3バンド原画像のみに適用可能な変換と比べ、主成分変換は柔軟に多バンド原画像に対応することができる。また、第 1主成分画像に秘密画像をハイディングする理由は、第 1主成分画像が多バンド原画像のエネルギーを最も集中させた画像だカゝらであり、秘匿性が高い流通用対象データを生成することができるからである。

[0089] 前記固有値及び固有ベクトルは、主成分分析における固有値及び固有ベクトルであって多バンド原画像力求められるものであり、分散共分散行列若しくは相関行列力特性方程式を用いて求める。この他の周知な固有値及び固有ベクトルを求める計算方法を適用することができることも明らかである。

[0090] 固有値及び固有ベクトルを安全に記録するとは、多バンド原画像から算出した固有値及び固有ベクトルを第 3者に知られな、ように記録することである。そのままハードディスクに記録するのではなぐ暗号ィ匕して記録することが望ましい。固有値及び固有ベクトルを第 3者に知られると、この固有値及び固有ベクトルを用いて流通用多バンド画像に対し主成分変換が容易に行なわれるからである。同様に、多バンド原画像自体も第三者に知られてはいけない。これは、多バンド原画像から固有値及び固有ベクトルを算出することができるからである。本発明では斜交座標変換を採用しており、この斜交座標変換は Θにより変換後のデータの内容が異なるため、第三者に固有値及び固有ベクトルを知られたとしても Θを知られなければ秘密画像データを抽出することができない。したがって、固有値、固有ベクトル及び 0が秘密画像データを抽出するためのキーとなる。

[0091] 主成分変換は、前記固有値及び固有ベクトルから第 1主成分への変換式を求め、この第 1主成分への変換式に多バンド対象データを代入し、第 1主成分データを求める。主成分変換を如何様に行うかは、 "空間データの数理" (金谷著、朝倉書店)、 "画像処理アルゴリズム" (斎藤著、近代科学社)、 "データとデータ解析" (栗原著、放送大学教育振興会）に詳述され、力かる分野では周知技術となっている。例えば、対象データから変換式の係数を求めるには、相関行列を用いる、分散共分散行列を用いる方法等がある。また、各主成分の寄与率は、各主成分の分散を変量の分散の合計で割ることにより求まる。

[0092] 2次元空間における直交座標表現と斜交座標表現とは、次の関係を有する。

W=X+Ycos( Θ )

Z=Ysin( θ )

[0093] したがって、この式を用いて指定された角度の斜交座標変換を行うことができる。当然であるが、 Θを指定して Xと Υの値を入力することで W、 Zが求まり、逆に、 Θを指定して W、 Zの値を入力することで X、 Yが求まる。したがって、前記したように斜交座標変換も逆変換可能な変換である。

[0094] 可逆なウェーブレット変換は信号を周波数分割するために用いられる。この周波数分割することをサブバンド分割という。可逆なウェーブレット変換に用いられる関数としては、 Daubechies関数、 Haar関数等がある。これら可逆なウェーブレット変換を如何様に行うかは、 "ゥヱーヴレットビギナーズガイド" (榊原著、東京電機大学出版局)、 "ウェーブレット画像解析" (新島著、科学技術出版)、"ウェーブレット解析の基礎理論" (新井著、森北出版)、"ウェーブレット解析による地球観測衛星データの利用方法"（新井 ZL. Jameson著、森北出版）、"ウェーブレットによる信号処理と画像処理" (中野 Z山本 Z吉田著、共立出版)、"ウェーブレット解析とフィルタバング'（G.ストラング ZT.グェン、培風館）に詳述され、また、画像処理の技術分野では周知技術となっている。なお、フーリエ変換はフーリエ変換の定義から観測信号と sin関数 /cos関数のみを用いて演算され、ウェーブレット変換はこれら以外の関数を用いた演算が可能であり、第三者力見ると、どのような関数を使用していることを解析することが困難であり、秘匿性が高い変換である。ただし、フーリエ変換もウェーブレット変換も可逆的な変換であれば、適用することができる。また、直交ウェーブレット変換は可逆なゥーブレット変換の一種である。直交ウエーブレット変換は変換の係数と逆変換の係数とが同じであるのに対し、可逆なウェーブレット変換は両者の係数が必ずしも同一ではなぐこの点力可逆なウェーブレット変換の方が秘密データの保護の観点から好ましい。本発明に適用できる変換は少なくとも可逆なウェーブレット変換であれば足り、その 1つが双直交ウェーブレット変換である。なお、前記 Daubechies関数を用いた可逆なウェーブレット変換

及び Haar関数を用いた可逆なウェーブレット変換は、可逆なウェーブレット変換であると共に、直交ウェーブレット変換である。

[0095] このような電子透かしによれば、多バンド原画像の固有値及び固有ベクトルを算出し、この算出された固有値及び固有ベクトルを安全に記録し、算出された固有値及び固有ベクトルにより多バンド原画像を主成分変換し、指定された Θで斜交座標変換し、変換後の第 1主成分データに対して可逆なウェーブレット変換し、可逆なゥェ一ブレット変換後の高周波成分に秘密データを埋め込み、埋め込みの後可逆なゥェ一ブレット逆変換を行い、指定された Θで斜交座標逆変換し、固有値及び固有べ外ルにより他の主成分データと供に主成分逆変換して流通用多バンド画像を生成するので、固有値及び固有ベクトル又は多バンド原データのどちら力判明しても、指定される Θが判明しなければ秘密データを復号することが困難であって秘匿性に優れると共に、エネルギーが一番集中している第 1主成分データに対して秘密画像をハイデイングする場合には特に秘匿性に優れることになる。

[0096] [ウェーブレット変換の補足] 2次元信号に対してウェーブレット分解を行なうと 4成分 [1低周波成分 (LL1成分)と 3高周波成分 (LH1成分 'HL1成分 ·ΗΗ1成分)]が生成される。また、 LL1成分に対してウェーブレット分解を行なうと 4成分 (LL2成分 'LH 2成分 'HL2成分 ·ΗΗ2成分)がさらに生成される。可逆なウェーブレットを採用し、かつ、ウェーブレット分解後の 4成分が存在すれば、誤差零で与えられた 2次元信号は復元される。直交ウェーブレットは、可逆なウェーブレットの 1種である。多重解像度解析に基づく情報ハイディング手法の概要を示す。情報ハイディングは、

1.多バンド原画像のいずれかのバンド画像に対してウェーブレット分解を行う

2.ウェーブレット分解後の高周波成分に秘密データを挿入する 3.ウェーブレット再構成により流通用画像を生成する

の手順で行われる。秘密データを HL1成分や HH1成分や HH2成分等に挿入することも可能である。秘密データを挿入する成分が変更可能であるということは、多重解像度解析に基づく情報ハイディングが秘密データの情報を保護する能力があるということである。ここで問題となるのが、情報ハイディングの手順 1の「多バンド原画像のいずれかのバンド画像に対して」という点である。提案手法は、多バンド原画像のェネルギー集中を実現する前処理として主成分変換が用いられ、さらに、斜交座標変換を行って秘密データを第 1主成分画像にノ、イデイングする。また、提案手法は、 3 バンドの原画像ではない場合にも適用可能である。換言すると、提案手法はハイディングによる画質劣化を抑えることを目的として、多バンド原画像に対して主成分変換を行い、その第 1主成分画像に秘密データをハイディングする。その際、斜交座標変換を行う。さらに、秘密データの復号法を説明する。秘密データがハイディングされる前の多バンド原画像に主成分変換を行った際の係数を用いて、流通用画像に対して第 1主成分画像を構成し、その第 1主成分画像に対してウェーブレット分解を行うことにより実現される。提案手法による秘密データの復号は、秘密データをハイデイングする前の多バンド原画像に主成分変換を行った際の係数を知っている場合のみ復号可能である。すなわち、秘密データをハイディングする前の多バンド原画像により、主成分変換の係数は異なる。 HSI変換等の係数は、周知のものである。変換係数が周知である場合、第 3者が秘密データの情報を入手する可能性がある。

[0097] [原データからの固有値及び固有ベクトルの再演算] 本実施形態においては、対象データから固有値及び固有ベクトルを求め、記憶部に記録している力対象データが記録されて、れば固有値及び固有ベクトルは再演算することもでき、必ずしも記憶部に記録しなくとも再演算により秘密データの抽出を行うことができる。

[0098] [4. 2 ステガノグラフィ]

図 5はラプラシアンピラミッド、鍵画像に対するステガノグラフィによる属性情報等の管理情報の埋め込みの説明図である。図 5 (a)がラプラシアンピラミッドであり、図 5 (b)が鍵画像上のピクセルを明示したもので、図 5 (c)が鍵画像の一部をなす 8ビット表示によるステガノグラフィ説明図である。図 5 (b)の鍵画像上の例えば 1行目（選択画素群）に対してステガノグラフィによる管理情報の埋め込みを行う。選択画素群を縦に並び替え、画素を 8ビット表示すると図 5 (c)になる。この図 5 (c)で黒色顕示させているディジタル画像の下位ビットがたとえ反転しても画素に対する影響は少な、ため、下位 1ビットを管理情報の埋め込み用に用いる。したがって、選択画素数分の情報を管理情報として埋め込むことが可能となる。例えば、ドキュメントの属性（図面、文書、表等のドキュメントの種類）、コピー日時、コピー回数、消去の必要性のフラグ、消去予定日、ドキュメント利用可能グループ、アクセス履歴等を管理情報として包含することができる。

[0099] [4. 3 乱数を用いた応用]

前記選択画素に埋め込まれた管理情報は選択画素の並び順に配置されている構成となるが、乱数に基づいて管理情報を並び替えた後に選択画素群に埋め込む構成〖こすることちでさる。

乱数を用いたデータの入れ替えは本発明の本質的部分でなぐかつ、様々な周知技術が存在し当業者は種々の周知技術を採ることができ、ここでは詳細な説明は省略する。例えば、初期値を与えることで必要な数の乱数を生じるアルゴリズムが複数存在する。この場合、初期値を知らなければ管理情報を復元することができない。したがって、この初期値は管理情報として鍵画像に埋め込むのではなぐ鍵画像に画像として配置する。初期値毎に初期値に合致した鍵画像を生成することもできるが、予め初期値毎の鍵画像を用意しておくことが望ましい。すなわち、高周波成分から鍵画像を取り出して鍵画像を識別し、乱数の初期値を特定し、鍵画像中の選択画素群を読み込み、選択画素群の下位 1ビットに対して特定した初期値を用いて乱数アルゴリズム力元の管理情報を再構成可能とする。

このように、 [4. 1 電子透かし]、 [4. 2 ステガノグラフィ]及び [4. 3 乱数を用いた応用]の 3つの手段を用いて管理情報を扱うことで非常に高い秘匿性及び機密性を維持して対象ドキュメントを取り扱うことができる。

[0100] [5.動作]

[5. 1 対象ドキュメントの登録]

図 6は本実施形態に係る文書管理システムの動作フローチャートである。本実施形態に係る文書管理システムの動作について説明する。ここでは、複写機 1 1について説明する力スキャナ 12、ファクシミリ 13、複合機 14であってもユーザによる各機器の使用操作以外は同じような動作を文書管理サーバ 20が実施する。

[0101] 使用者はユーザ毎に割り当てられたカードキーを複写機 11に備え付けられているカード読み取り装置に挿入し、複写機 11の CPUは操作者がだれである力を特定する。すなわち、カードキーにはユーザを識別にするための情報が格納されている。力ードキーを挿入した後に、原稿を複写機 11の自動読取部にセットしスタートボタンが押下される。ここで、カードキーを用いた認証方法を用いたが、使用者が操作パネルを操作してユーザ IDを入力する構成をとることもできる。勿論、パスワードを追加入力する構成であってもよい。

[0102] 複写機 11は原稿を送りながら画像読み取り部で画像を読み取ってメモリに一時的に記録させると共に、原稿画像情報に基づいて感光体の表面にトナー像を形成し用紙トレイカ搬送されてきた用紙に転写し、用紙に転写されたトナー像を定着させて本体トレーに出力紙が排出される。メモリに記録された原稿画像情報は、複写機 11 から直ちに文書管理サーバ 20に送信され、文書管理サーバ 20が構築されているコンピュータの CPU (入力部 21)が受信して取り込む (ステップ 101)。ここで、必要に応じて使用者を識別するための情報やアクセス権限の情報を送信する。

次に、 CPU (キーワード自動抽出部 22)が定義済み処理キーワード抽出 (ステップ 200)を実行する。詳細は後記する。

[0103] 次に、 CPU (ステガノグラフィ部 23)が定義済み処理ステガノグラフィ (ステップ 300 )を実行する。ここでの処理では、キーワード抽出で取得することができたドキュメントの属性等、コピー日時、消去の必要性のフラグ、消去予定日等の情報を、特定の乱数アルゴリズムに初期値を与えて並び替える。初期値から特定される鍵画像の選択画素群の下位ビットに並び替えた情報を埋め込んで更新する。

CPU (電子透力し部 24)が対象ドキュメントに対して管理情報が埋め込まれた鍵画像情報を用いて定義済み処理電子透かし (ステップ 400)を実行する。詳細は後記する。

[0104] CPU (データベース格納部 25)が電子透力しが完了した対象ドキュメントをキーヮードを用、てデータベースに格納する（ステップ 501 )。

これら一連の処理は原稿一枚一枚に対して施すこともできるし、使用者が指定した複数原稿に対してまとめて行うこともできる。まとめて行った場合には指定した複数原稿に対してキーワード抽出がなされ、少なくとも 1枚の原稿に対して電子透力しが実行される。そうすることで一連の原稿をひとまとめにデータベースに格納することができると共に、データ提供時もひとまとめに提供することができる。

[0105] 前記定義済み処理キーワード抽出 (ステップ 200)は、まず、図 7に示すように、文書形式決定手段が、画像データから文書の文字、線分を認識し、文字数、線分数を演算し、力かる文字数、線分数力図面、フォーム、レターから対象文書の文書形式を決定する (ステップ 201)。レイアウト解析手段が、画像データをレイアウト解析し、レィアウト情報及びフォントサイズ情報を生成する (ステップ 211)。テキストデータ変換手段が、画像データをテキストデータに変換する (ステップ 221)。このステップ 221で変換されたテキストデータを、形態素解析手段が形態素解析し形態素解析情報を生成する (ステップ 231)。出現頻度演算手段が形態素解析情報から形態素の出現頻度を演算し、出現頻度情報を生成する (ステップ 241)。

[0106] 次に、インタフェースがレイアウト情報、フォントサイズ情報及び出現頻度情報を取り込み、ワーキングメモリ上に配置する（ステップ 251)。ここで、プロダクションシステムの構成は図 5に示す通りである。インタフェースは入出力を担っている。プロダクションメモリ上のプロダクションルールが対象文書の文書形式に対応するもののみに限定される (ステップ 252)。この限定によりプロダクションインタープリタの照合処理を迅速に行うことができる。プロダクションインタープリタがワーキングメモリに配置された要素と、限定されたプロダクションルールとを照合し、条件部を満たしているプロダクションルールを探し出す (ステップ 253)。該当プロダクションルールが複数ある場合には、前記した競合解消により最適なプロダクションルールを選択する (ステップ 254)。プロダクシヨンルールの後件部には確信度が対応付けられており、インタフェースは確信度及びキーワードを出力する (ステップ 261)。確信度が複数存在する場合には、前記合成方法により確信度を合成する構成をとることもできる。前記ステップ 201なヽしステップ 261は文書管理サーバ 20が構築されているコンピュータの CPU (キーヮード自動抽出部 22)が行う。

[0107] 前記定義済み処理電子透かし (ステップ 400)は、図 8に示すように、 CPU (電子透かし部 24)が対象データとなる多バンド原画像の固有値及び固有ベクトルを演算し（ステップ 401)、 CPUがこの算出された固有値及び固有ベクトルを安全にハードディスクに記録し (ステップ 402)、 CPUが演算した固有値及び固有ベクトルにより多バンド原画像を主成分変換し (ステップ 411)、 CPUが主成分変換後の第 1主成分画像に対して指定された角度 Θでの斜交座標変換し (ステップ 421)、 CPUがこの斜交座標変換したデータを可逆なウェーブレット変換し (ステップ 431)、 CPUが可逆なゥェ一ブレット変換後の高周波成分に秘密データである秘密画像を埋め込み (ステップ 4 41)、 CPUが埋め込み後可逆なウェーブレット逆変換を行い（ステップ 451)、 CPU が前記指定された Θで斜交座標逆変換し (ステップ 461)、 CPUが固有値及び固有ベクトルにより他の主成分画像と供に主成分逆変換し (ステップ 471)て流通用対象データである流通用多バンド画像を生成する構成である。

[0108] [5. 2 対象ドキュメント提供時]

使用者はユーザコンピュータ 30から文書管理サーバ 20にアクセスして対象ドキュメントを使用可能となる。

ユーザコンピュータ 30が文書管理サーバ 20にアクセスすると、認証部 26により認証がなされる。認証を経てユーザが特定された後に、特定されたユーザの権限内で対象ドキュメントに対して操作を行うことができる。対象ドキュメントを検索したり、対象ドキュメントを読み出したり、対象ドキュメントを更新したりすることができる。ここで、対象ドキュメントを検索した場合には、特定されたユーザの権限内の対象ドキュメントのみが検索対象となる。検索キーの対象としては、主にキーワードが該当する力管理情報内の情報、対象ドキュメントの内容がを対象とすることができる。好ましくは、検索キーとなるものは、検索キー用として別途データベースに格納する方がよい。

ユーザが認証を経て、対象ドキュメントを特定した後に、対象ドキュメントを読み出す操作を行った場合には次の処理がなされる。

[0109] 秘密画像である秘密データがハイディングされる前の多バンド原データに主成分変換を行った際の係数 (パラメータとも、、、通常固有ベクトルを係数として用いることができる）を CPUが読み出し (ステップ 601)、 CPUがこの係数を用いて主成分変換して (ステップ 611) CPUが第 1主成分データを指定された Θで斜交座標変換し (ステツプ 621)、 CPUが変換後の第 1主成分データに対して可逆なウェーブレット分解を行い (ステップ 631)、 CPUが高周波成分力も秘密データを抽出 (ステップ 641)することにより実現される。本実施形態に係る情報ノ、イデイングに対する復号は、秘密データをハイディングする前の多バンド原データに主成分変換を行った際の係数及び斜交座標変換での Θを知っている場合のみ複合が可能となる。すなわち、秘密データをハイディングする前の多バンド対象データにより、主成分変換の係数は異なる。 Θの指定は使用者の任意で行うことができる。 HSI変換等の係数は周知であるため、第 3者が秘密データの情報を入手する可能性がある。また、従来では、多バンド対象データの特定成分のみに秘密データをハイディングするため、その特定成分に対してウェーブレット分解を行うことにより秘密データを第 3者が入手する可能性がある。すなわち、各バンドデータに対してウェーブレット分解を行うことにより秘密データを第 3者が入手する可能性がある。

[0110] 復号方法において、情報ハイディング時に使用した可逆なウェーブレット変換の変換係数と、多バンド原画像の固有値及び固有ベクトルは重要なものであり、秘密画像データを復号する権限なき者が復号できな、ように管理されて、る必要がある。ここで、復号時に使用する固有値及び固有ベクトルはあくまでも多バンド原画像から算出されるものであり、流通用多バンド画像力算出されるものではない。また、多バンド原画像から固有値及び固有ベクトルは算出することができるため、結果的に多バンド原画像も管理されている必要がある。したがって、周知の画像を多バンド原画像として採用することは、得策ではない。

[0111] 秘密画像を抽出した後に、前説したステガノグラフィを用いて秘密画像カゝら特定される乱数の初期値を用いて選択画素群の下位ビットから取り出した情報を並び替えて管理情報を再構成する。管理情報を再構成した後に、アクセス履歴として現在のユーザを識別するための情報、操作内容、操作日時を別途管理情報として更新し、再び、ステップ 441ないしステップ 471までの処理を繰り返す。そして、 CPU (データ提供部 27)が使用者が用いて!/、るユーザコンピュータ 30に対して対象ドキュメントを送信する。

[0112] 前記係数、固有ベクトル、 Θ、乱数の初期値等の演算に必要となる情報は対象ドキュメントと同様にデータベースに記憶しておき、認証が適切になされた場合に対象ドキュメントと共に読み出し可能となる構成をとることもできるし、対象ドキュメントとは別のデータベースに格納する構成をとることもできる。

[0113] [6.実施形態の効果]

このように本実施形態に係る文書管理システムによれば、複写機 11、スキャナ 12、ファクシミリ 13及び複合機 14を介在させて文書管理サーバ 20に取り込んだ対象ドキュメントからキーワードを自動的に抽出し、管理情報をステガノグラフィを用いて鍵画像に埋め込み、この鍵画像を用いて対象ドキュメントに対して電子透力しを実行し、予め概念辞書に従って構築されたデータベースに対して抽出したキーワードに基づき処理済対象ドキュメントを格納するので、使用者の手を煩わせることなく自動的にデータベースに整理した状態で格納することができ、且つ、電子透かしにより鍵画像が埋め込まれており原本証明ができる共に、管理情報を所定の手順を経て鍵画像に埋め込んでおり改ざんが困難であり適切な対象ドキュメントの管理を実現することができる。

[0114] なお、アクセス権限に関しては、 DBMSのアクセス権限機能を用いて、対象ドキュメントを格納したユーザの指定で DBMS上のアクセス権限を設定してもよ、し、別途独自にアクセス権限機能を文書管理サーバ 20上で実装してもよ、。

また、ユーザコンピュータ 30からのアクセス要求に対して文書管理サーバ 20がァクセス要求に係る対象ドキュメントを送信する構成であつたが、複写機 11、ファクシミリ 1 3、複合機 14力ゝらのアクセス要求を実施する構成であってもよい。アクセス要求に係る対象ドキュメントを複写したり、 FAX送信したりすることができる。

[0115] [7.応用例]

[7. 1 グループ]

本実施形態に係る文書管理システムにおいては、カードキーに対してグループを識別するための情報を含ませ、カード読取装置でグループ IDを特定し、当該グループ IDを対象ドキュメント、ユーザ ID及び操作指定情報と共に送信し、グループに対するアクセス権限を設定することもできる。対象ドキュメントがデータベースに格納された後に、一例としてあるグループ Aに所属するユーザ aは対象ドキュメント αにァクセスし読み出すことが可能である一方で、グループ Βに所属するユーザ bは対象ドキュメント aにアクセスし読み出すことができないといった、グループ毎にアクセスコントロールが可能となる。この場合にユーザのアクセス権限と、グループのアクセス権限のどちらを優先するかを設定することができる。

[0116] [7. 2 削除予定等の指定]

本実施形態に係る文書管理システムにおいては、使用者が認証を経た後に、各種設定を行い、対象ドキュメント、ユーザ IDの他に指定された操作指定情報を文書管理サーバ 20に送信し、文書管理サーバ 20は通常通りにデータベースに対象ドキュメントを格納する処理の他、操作指定情報で指定された操作を実行する構成にすることちでさる。

一例として、対象ドキュメントの削除指定を行うことができ、削除日時を指定したり、対象ドキュメント保持期間を指定する構成にすることもできる。

削除指定がなされている場合には、文書管理サーバ 20の記憶装置上に別途記憶しておき、 CPUが定期的に削除日時に該当する力否かを判定し、該当する場合には対象ドキュメントをデータベース上力も削除する構成が一例となる。

[0117] [7. 3 セキュアの通信路]

本実施形態に係る文書管理システムにおいては、複写機 11等の入力装置 10と文書管理サーバ 20との間はセキュアな通信路が確保されて、ることが望ま U、。図 1のように同一ネットワーク上にユーザコンピュータ 30が配置されている場合には入力装置 10から文書管理サーバ 20に送信される間に対象ドキュメントの情報をネットワーク上力盗用することが可能となる場合がある力である。次実施形態のように、文書管理サーバ 20と複写機 11とが一体的に構成されている場合には、情報は内部バス内でのやり取りとなるために所定の機密性を保持することができる。

[0118] [7. 4 システム構成]

本実施形態に係る文書管理システムにおいては、入力装置 10が直接ネットワークに接続するのではなく文書管理サーバ 20が構築されているコンピュータ又はユーザコンピュータ 30と接続しコンピュータを介在してネットワークに接続した構成をとることちでさる。

[0119] (本発明の第 2の実施形態）

図 10は本実施形態に係る文書管理システムのシステム構成図である。本実施形態に係る文書管理システムは、前記第 1の実施形態に係る文書管理システムと同様に構成され、前記文書管理サーバ 20が構築されているコンピュータを構成から外し、前記文書管理サーバ 20の機能を複写機 11が包含する構成である。

[0120] 複写機 11のハードウェア構成は、 [2. 1 複写機]で前説したように、プログラムや原画像情報を一時的に記録するメモリと、プログラムや原画像情報を記録する HDと、操作ボタンや操作パネルカゝらなるインタフェース部と、構成要素を各種制御する CP Uと、ネットワークと接続する LANインターフェース等の通信部とを備え、文書管理サーバ 20が構築されているコンピュータと略同様のハードウェアの構成を包含しており、文書管理サーバプログラムを複写機 11にインストールすることで前記文書管理サーバ 20の機能を複写機 11が包含することを実現することができる。ここで、文書管理サーバ 20が複写機 11上に構築されたと言い換えることができる。ただし、具体的には複写機 11と一般的なコンピュータで使用される OSの相違から生じる文書管理サーバプログラムの修正が必要となる場合もあるが、所謂当業者であれば実現することに困難'性はない。

[0121] このような構成とした場合には、スキャナ 12、ファクシミリ 13、複合機 14は文書管理サーバが構築されてヽる複写機 11に対して対象ドキュメントを送信する構成となる。入力装置 10全てに文書管理サーバを構築する構成にすることもできる。

このように本実施形態によれば、文書管理サーバ 20が構築されて、るコンピュータと入力装置 10間の通信路をセキュアに確保する必要がなくなる。

[0122] [応用例]

本実施形態に係る文書管理システムにおいては、カメラ付き携帯電話 15を利用して撮像された画像情報を複写機 11の処理対象として複写機 11に携帯通信網等を介在して送信することもできる。

そうすることで、ユーザが手軽に集めた画像情報を基にデータベースに有用な情報を格納することができる。

[0123] (本発明の第 3の実施形態）

本実施形態に係る文書管理システムは、前記第 1の実施形態に係る文書管理システムと同様に構成され、前記文書管理サーバ 20が構築されているコンピュータを構成要素として維持し、前記文書管理サーバ 20の機能の殆どを複写機 11が包含する構成で、文書管理サーバ 20自体は複写機 11から送信される対象ドキュメントに基づ Vヽてデータベースに格納するのみの動作に留まると、う構成である。

[0124] 図 11は本実施形態に係る文書管理システムの動作フローチャートである。すなわち、複写機 11から原稿画像情報を対象ドキュメントとし、 [4. 2 ステガノグラフィ]で記載した管理情報を埋め込んだ鍵画像を対象ドキュメントに前説した [4. 1 電子透かし]を用いて埋め込み、文書管理サーバ 20に送信する。文書管理サーバ 20は [3 . 1 キーワード抽出]で説明したキーワード抽出を行い、抽出したキーワードを用いて [3. 2 語彙概念構造辞書を有したデータベース構成]で説明したデータベース格納を実施する。

[0125] このように本実施形態に係る文書管理システムによれば、文書管理サーバ 20に送信する前の時点で、複写機 11により電子透力しが実施されており、仮に第三者がネットワークを悪用してネットワーク上のデータを盗用した場合であっても、鍵画像が埋め込まれて、るために原本証明を実施することができる。

[0126] 以上の前記各実施形態により本発明を説明したが、本発明の技術的範囲は実施形態に記載の範囲には限定されず、これら各実施形態に多様な変更又は改良を加えることが可能である。そして、力うな変更又は改良を加えた実施の形態も本発明の技術的範囲に含まれる。このことは、特許請求の範囲及び課題を解決する手段からち明らかなことである。

Claims

請求の範囲

[1] 対象ドキュメントを取り込むための入力部と、取り込まれた対象ドキュメント中の文字からキーワードを抽出するキーワード自動抽出部と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納する格納部とを備える文書管理装置であって、抽出された複数キーワードについて出現頻度、対象ドキュメントの文書形式、キーワードの文書中での位置及びキーワードの文字サイズの少なくとも 1つを用いてキーワードの重要度を求める重要度決定部とを新たに備え、

重要度決定部にて重要度の高いとされたキーワードを用いて格納部が対象ドキュメントを記憶手段に格納する文書管理装置。

[2] 対象ドキュメントについて複数のキーワードが抽出された場合には概念辞書を用いて重要度の高いキーワードと同一概念に属する下位概念のキーワードを特定する手段を新たに備え、

特定した下位概念のキーワードを用いて格納部が対象ドキュメントを記憶手段に格納する

前記請求項 1に記載の文書管理装置。

[3] 対象ドキュメントを取り込むための入力部と、取り込まれた対象ドキュメント中の文字からキーワードを抽出するキーワード自動抽出部と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納する格納部とを備える文書管理装置であって、登録語彙間の概念関係が定められている概念辞書に登録されている語彙に基づ

V、て構築されて、るデータベースを記憶手段として用い、

抽出されたキーワードに基づき対象ドキュメントがデータベースに格納される文書管理装置。

[4] 対象画像ドキュメントに対して主成分変換する手段と、当該主成分変換後の各主成分データの少なくとも 1つに対して可逆であるウェーブレット変換する手段と、可逆であるウェーブレット変換後の主成分データの高周波成分に予め用意された鍵画像を埋め込む手段と、当該鍵画像埋め込み後の主成分データをウェーブレット逆変換する手段と、当該ウェーブレット逆変換後の主成分データを含めて他の主成分データと共に主成分逆変換する手段とを新たに備える前記請求項 1ないし 3に記載の文書管理装置。

[5] 対象ドキュメントを取り込むための入力部と、対象ドキュメントを記憶手段に格納する格納部とを備える文書管理装置であって、

対象画像ドキュメントに対して主成分変換する手段と、当該主成分変換後の各主成分データの少なくとも 1つに対して可逆であるウェーブレット変換する手段と、可逆であるウェーブレット変換後の主成分データの高周波成分に予め用意された鍵画像を埋め込む手段と、当該鍵画像埋め込み後の主成分データをウェーブレット逆変換する手段と、当該ウェーブレット逆変換後の主成分データを含めて他の主成分データと共に主成分逆変換する手段とを新たに備える文書管理装置。

[6] 少なくとも鍵画像が埋め込まれる前に、対象画像ドキュメントに埋め込まれる鍵画像に対して対象画像ドキュメントを管理するための管理情報をステガノグラフィを用いて埋め込む手段を新たに備える

前記請求項 5に記載の文書管理装置。

[7] 前記鍵画像に管理情報を埋め込む場合に、鍵画像中の所定選択画素群の各画素の下位ビットに分散させて管理情報を埋め込む

前記請求項 6に記載の文書管理装置。

[8] 前記選択画素群の各画素の下位ビットに管理情報を埋め込む場合に、管理情報を乱数アルゴリズムを用いて並び替え、乱数アルゴリズムに関連する情報に対応する鍵画像に並び替えた管理情報を埋め込む

前記請求項 7に記載の文書管理装置。

[9] 複写機上に構築される

前記請求項 1な!、し 8の、ずれかに記載の文書管理装置。

[10] 対象ドキュメントを取り込むための入力部と、取り込まれた対象ドキュメント中の文字からキーワードを抽出するキーワード自動抽出部と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納する格納部としてコンピュータを機能させるための文書管理プログラムであって、

抽出された複数キーワードを出現頻度、対象ドキュメントの文書形式、キーワードの文書中での位置及びキーワードの文字サイズの少なくとも 1つを用いてキーワードの重要度を求める重要度決定部と、

対象ドキュメントについて複数のキーワードが抽出された場合には概念辞書を用いて重要度の高いキーワードと同一概念に属する下位概念のキーワードを特定する手段としてコンピュータを機能させ、

特定した下位概念のキーワードを用いて格納部が対象ドキュメントを記憶手段に格納する文書管理プログラム。

対象ドキュメントを取り込むための入力部と、取り込まれた対象ドキュメント中の文字からキーワードを抽出するキーワード自動抽出部と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納する格納部とを備える文書管理システムであつて、

対象ドキュメントについて複数のキーワードが抽出された場合には概念辞書を用いて重要度の高いキーワードと同一概念に属する下位概念のキーワードを特定する手段とを備え、

特定した下位概念のキーワードを用いて格納部が対象ドキュメントを記憶手段に格納する文書管理システム。