WO2007057945A1 - 文書管理装置、そのプログラム及びそのシステム - Google Patents

文書管理装置、そのプログラム及びそのシステム Download PDF

Info

Publication number
WO2007057945A1
WO2007057945A1 PCT/JP2005/020974 JP2005020974W WO2007057945A1 WO 2007057945 A1 WO2007057945 A1 WO 2007057945A1 JP 2005020974 W JP2005020974 W JP 2005020974W WO 2007057945 A1 WO2007057945 A1 WO 2007057945A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
keyword
target
target document
principal component
Prior art date
Application number
PCT/JP2005/020974
Other languages
English (en)
French (fr)
Inventor
Kohei Arai
Original Assignee
Saga University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Saga University filed Critical Saga University
Priority to PCT/JP2005/020974 priority Critical patent/WO2007057945A1/ja
Priority to JP2007545119A priority patent/JP4734662B2/ja
Publication of WO2007057945A1 publication Critical patent/WO2007057945A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Definitions

  • the present invention relates to an apparatus for managing a document, and more particularly to a document management apparatus for storing and managing based on information included in a document.
  • This background art document management system includes a document management server that registers and manages documents in a database and searches for documents, a document management client that requests the document management server to search for documents, An external storage device that stores at least one database that stores electronic data and keyword character data, and a document with a predetermined keyword identification mark on a character string that is to be registered as a search keyword in advance is read as an image.
  • a document management system having a document reading device that outputs image data, wherein the document management server recognizes the keyword identification mark from the image data output from the document reading device, and the keyword identification mark The character string image data that is the keyword based on the And Kiwa de extraction processing unit for converting the attribute information on the electronic data of the document text data of the keyword
  • a registration processing unit that stores the electronic data and keyword character data stored in the attribute information storage area of the electronic data in the database.
  • the keyword extraction processing unit cuts out a document search keyword from a document converted into image data and converts it into character data
  • the registration processing unit Is stored in the database. Therefore, keywords that are handled by the operator are registered in the database.
  • the document is searched by searching for a portion that matches the character string specified by the search condition for the keyword.
  • the registration processing unit stores the character data of the keyword in the attribute information storage area of the electronic data of the document including the keyword, and the electronic data of the document in which the keyword character data is stored in the attribute information storage area. Store the data in a database. Therefore, when extracting the electronic data of a document from the database and performing a search using a keyword on another computer, the keyword stored in the attribute information storage area of the electronic data of the document is used. Can be registered.
  • a document management apparatus according to the present embodiment will be described.
  • C. I. Consistency Index
  • C. I. is expressed by equation (8).
  • the general flow of information hiding is, first of all, multiband original images! / Perform wavelet decomposition on one of the band images, secondly insert the secret image into the high-frequency components after wavelet decomposition, and third, information high-resolution by wavelet reconstruction When the image is generated.
  • the important point here is the first “for any band image of the multiband original image”.
  • confidentiality can be improved by using oblique coordinate transformation as well as principal component transformation as preprocessing for realizing energy concentration of the multiband original image.
  • Principal component transformation is a type of orthogonal transformation and can be inversely transformed.
  • the oblique coordinate transformation can also be reversed.
  • the present invention can also be applied to multiband original images that are not three-band original images, and can also be applied to one-band original images.
  • the 1-band original image itself becomes the first principal component image. Therefore, the principal component transformation can flexibly handle multiband original images compared to transformations applicable only to three-band original images such as HSI transformation.
  • the reason for hiding the secret image in the first principal component image is that the first main component image is an image that concentrates the energy of the multi-band original image most, and is highly confidential. This is because data can be generated.
  • the eigenvalues and eigenvectors are eigenvalues and eigenvectors in the principal component analysis, and are obtained from the multiband original image force, and are obtained using a variance covariance matrix or a correlation matrix force characteristic equation. It is obvious that other known calculation methods for obtaining eigenvalues and eigenvectors can be applied.
  • the orthogonal coordinate representation and the oblique coordinate representation in the two-dimensional space have the following relationship.
  • the oblique coordinate transformation is also a transformation that can be inversely transformed.
  • reversible wavelet transform using Haar function is reversible wavelet transform and orthogonal wavelet transform.
  • the multiband image is generated, it is difficult to decrypt the secret data if the specified ⁇ is not known, regardless of whether the eigenvalue and the eigenvector or the multiband original data are known. Is excellent in ⁇ , will be particularly excellent in secrecy in the case of high Deingu the confidential image to the first principal component data are concentrated energy most.
  • the proposed method performs principal component transformation on the multiband original image and suppresses the secret data in the first principal component image for the purpose of suppressing image quality degradation due to hiding. At that time, oblique coordinate conversion is performed. Further, a method for decrypting secret data will be described.
  • the first principal component image is constructed for the distribution image by using the coefficients obtained when the principal component transformation is performed on the multiband original image before the secret data is hidden, and the first principal component image This is achieved by performing wavelet decomposition.
  • Decryption of the secret data by the proposed method can be performed only when the principal component transformation of the multiband original image before high-definition of the secret data is known. In other words, the principal component transformation coefficients differ depending on the multiband original image before hiding the secret data. Coefficients such as HSI conversion are well known. If the conversion factor is known, there is a possibility that a third party may obtain information on confidential data.
  • eigenvalues and eigenvectors are obtained from the target data, and if the force object data recorded in the storage unit is recorded, the eigenvalues are recorded. And eigenvectors can be recalculated, and secret data can be extracted by recalculation without being recorded in the storage unit.
  • Replacing data using random numbers is not an essential part of the present invention, and there are various well-known techniques, and those skilled in the art can adopt various well-known techniques, and detailed description thereof is omitted here.
  • it is possible to generate a key image that matches the initial value for each initial value it is desirable to prepare a key image for each initial value in advance.
  • FIG. 6 is an operation flowchart of the document management system according to this embodiment. The operation of the document management system according to this embodiment will be described.
  • the document management server 20 performs the same operation except for the use operation of each device by the user even in the case of the force scanner 12, the facsimile machine 13, and the multifunction machine 14 for explaining the copying machine 11.
  • the user inserts the card key assigned to each user into the card reader provided in the copying machine 11, and the CPU of the copying machine 11 specifies the force that the operator is. That is, information for identifying the user is stored in the card key. After inserting the force key, the document is set in the automatic reading section of the copying machine 11 and the start button is pressed.
  • an authentication method using a card key is used, but a configuration in which the user inputs a user ID by operating the operation panel can be adopted. Of course, it may be configured to additionally input a password.
  • the CPU executes the predefined process steganography (step 300).
  • information such as the document attributes that could be obtained by keyword extraction, information such as the copy date and time, the flag for erasure, and the scheduled date for erasure are arranged with initial values given to a specific random algorithm. Change. Selection of the key image specified from the initial value The information rearranged in the lower bits of the pixel group is embedded and updated.
  • the CPU executes the predefined processing digital watermark (step 400) using the key image information in which the management information is embedded in the target document. Details will be described later.
  • a series of these processes can be performed for each document, or can be performed for a plurality of documents designated by the user.
  • keyword extraction is performed on the specified multiple documents, and electronic transparency is performed on at least one document.
  • the document format determination means recognizes the characters and line segments of the document from the image data, and calculates the number of characters and the number of line segments. Then, the document format of the target document is determined based on the number of characters, line segment power, drawings, form, and letter (step 201).
  • the layout analysis means performs layout analysis on the image data, and generates layout information and font size information (step 211).
  • the text data conversion means converts the image data into text data (step 221).
  • the text data converted in step 221 is morphologically analyzed by the morpheme analyzing means to generate morpheme analysis information (step 231).
  • the appearance frequency calculation means calculates the appearance frequency of the morpheme from the morpheme analysis information to generate the appearance frequency information (step 241).
  • the interface captures layout information, font size information, and appearance frequency information, and places them on the working memory (step 251).
  • the configuration of the production system is as shown in Fig. 5.
  • the interface is responsible for input and output.
  • the production rules in the production memory are limited to those corresponding to the document format of the target document (step 252). This limitation enables production interpreter verification processing to be performed quickly.
  • the production interpreter checks the elements placed in the working memory against limited production rules to find a production rule that satisfies the condition part (step 253). If there are a plurality of corresponding production rules, the optimum production rule is selected by the above-described conflict resolution (step 254). Certainty is associated with the consequent part of the production rule, and the interface outputs the certainty and keyword (step 261).
  • step 201 and step 261 the CPU (keypad) of the computer on which the document management server 20 is built This is done by the automatic code extraction unit 22).
  • An oblique coordinate transformation at the specified angle ⁇ is performed on the first principal component image after the component transformation (step 421), and the CPU performs a reversible wavelet transformation on the oblique coordinate transformation data (step 431),
  • the CPU embeds the secret image, which is the secret data, in the high-frequency component after the reversible wavelet transform (step 44), the CPU performs the reversible wavelet inverse transform after embedding (step 451), and the CPU
  • the oblique ordinate is inversely transformed with the generated ⁇ (Step 461), and the CPU performs principal component inverse transformation together with the other principal component images using the eigenvalues and eigenvectors (Step 471), and the distribution multi-band which is the distribution target data This is a configuration for generating an image.
  • the authentication unit 26 performs authentication.
  • the target document can be operated within the authority of the identified user. You can search for the target document, read the target document, and update the target document.
  • the target of the search key can be mainly the information in the force management information to which the keyword applies and the contents of the target document.
  • the search key is stored in a separate database for the search key.
  • the transform coefficient of the reversible wavelet transform used at the time of information hiding, the eigenvalues and eigenvectors of the multiband original image are important and can be decrypted by an unauthorized person who can decrypt the secret image data. It is necessary to be managed.
  • the eigenvalues and eigenvectors used at the time of decoding are only calculated from the multiband original image, not the multiband image force for distribution. Since eigenvalues and eigenvectors can be calculated from the multiband original image, it is necessary to manage the multiband original image as a result. Therefore, it is not a good idea to adopt a well-known image as the multiband original image.
  • the management information is reconstructed by rearranging the information extracted from the lower bits of the selected pixel group using the initial value of the random number specified by the secret image card using the steganography described above. To do. After reorganizing the management information, the information for identifying the current user, the operation content, and the operation date / time are updated as management information separately as the access history, and the processing from step 441 to step 471 is repeated again. Then, the CPU (data providing unit 27) uses the user's computer! Send.
  • Information necessary for calculation such as the coefficient, eigenvector, ⁇ , and random number initial value is stored in the database in the same way as the target document, and can be read out together with the target document when authentication is properly performed. It is also possible to adopt a configuration in which it is stored in a database separate from the target document.
  • keywords are automatically extracted from the target document imported into the document management server 20 through the copying machine 11, the scanner 12, the facsimile machine 13, and the multifunction machine 14.
  • Management information is embedded in a key image using steganography, electronic transparency is executed on the target document using this key image, and the keyword is extracted based on a keyword previously extracted from a database constructed according to the concept dictionary. Since the processed document is stored, it can be automatically stored in a database without any user's hand, and the key image is embedded by digital watermark, and the original certificate can be obtained. In both cases, the management information is embedded in the key image through a predetermined procedure and is difficult to tamper with. It can be realized.
  • the DBMS access privilege function can be used to set the access privilege on the DBMS by specifying the user that stores the target document, or the access privilege function can be set independently. Can be implemented on the document management server 20.
  • deletion of a target document it is possible to designate deletion of a target document, specify a deletion date and time, or specify a target document retention period.
  • deletion is specified, it is stored separately on the storage device of the document management server 20, and the CPU periodically determines whether it corresponds to the deletion date and time.
  • An example is a configuration that also deletes the database power.
  • a secure communication path be secured between the input device 10 such as the copying machine 11 and the document management server 20. If the user computer 30 is located on the same network as shown in Fig. 1, it is possible to steal information on the target document on the network while it is sent from the input device 10 to the document management server 20. There is a force that may be.
  • the document management server 20 and the copying machine 11 are integrally configured as in the following embodiment, information is exchanged within the internal bus, so that predetermined confidentiality can be maintained. it can.
  • the computer or user in which the document management server 20 is constructed instead of the input device 10 being directly connected to the network can be connected to the computer 30 and connected to the network via the computer.
  • the hardware configuration of the copier 11 is as follows, as described in [2.1 Copier], a memory for temporarily recording programs and original image information, an HD for recording programs and original image information, It is an abbreviation of a computer on which the document management server 20 is built, including an interface unit consisting of operation buttons and an operation panel, a CPU that controls various components, and a communication unit such as a LAN interface that connects to the network.
  • the same hardware configuration is included, and by installing the document management server program in the copying machine 11, it is possible to realize that the function of the document management server 20 is included in the copying machine 11. In other words, it can be said that the document management server 20 is constructed on the copying machine 11.
  • the scanner 12, the facsimile 13, and the multifunction device 14 are configured to transmit the target document to the copying machine 11 on which the document management server is constructed. It is also possible to construct a document management server for all input devices 10.
  • image information captured using the camera-equipped mobile phone 15 can be transmitted as a processing target of the copying machine 11 to the copying machine 11 via a mobile communication network or the like. .
  • the document management system according to the present embodiment is configured in the same manner as the document management system according to the first embodiment, and maintains the computer on which the document management server 20 is constructed as a component, and the document management system
  • the configuration in which the copier 11 includes most of the functions of the server 20, and the document management server 20 itself can only be stored in the database based on the target document transmitted from the copier 11. It is.
  • FIG. 11 is an operation flowchart of the document management system according to the present embodiment.
  • the original image information from the copier 11 is used as the target document
  • the key image embedded with the management information described in [4.2 Steganography] is used in the target document as described in [4.1 Electronic watermark].
  • the document management server 20 performs the keyword extraction described in [3.1 Keyword extraction], and performs the database storage described in [3.2 Database configuration having a vocabulary conceptual structure dictionary] using the extracted keyword.

Abstract

【課題】原則として人手を介することなく簡易且つ確実に検索の対象となる文書のキーワードを抽出し、対象となる文書をキーワードを用いてデータベースに登録する文書管理装置を提供する。 【解決手段】対象ドキュメントを取り込むための入力部21と、取り込まれた対象ドキュメント中の文字からキーワードを抽出するキーワード自動抽出部22と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納する格納部25とを備える文書管理装置であって、抽出された複数キーワードについて出現頻度、対象ドキュメントの文書形式、キーワードの文書中での位置及びキーワードの文字サイズの少なくとも1つを用いてキーワードの重要度を求める重要度決定部22とを新たに備え、重要度決定部22にて重要度の高いとされたキーワードを用いて格納部25が対象ドキュメントを記憶手段に格納する。

Description

明 細 書
文書管理装置、そのプログラム及びそのシステム 技術分野
[0001] 本発明は、文書を管理する装置に関し、特に、文書内に含まれる情報をもとに格納 して管理する文書管理装置に関する。
背景技術
[0002] 現在、紙媒体として大量に存在する印刷、手書き等の文書、図面等をデータべ一 ス管理し、検索して電子媒体等で公開できるようにする iDC(internet Data Center)の 開発が進行している。一般的に、紙媒体文書等は、オペレータにより検索用キーヮー ドを手書きページとして挿入し、このページも含めてスキャナ等で電子媒体に変換し 、登録している。
[0003] 紙媒体文書等からのキーワードの自動生成に関して、文書をビジネス文書に限定 し、レイアウト中のタイトル文字列の位置に関する知識を用いて検索用キーワードを 抽出し、また、必要に応じてオペレータが手作業にて入力する方法が提案されている また、背景技術となる文書管理システムとして特開 2004— 78343号公報に開示さ れるものがある。
[0004] この背景技術の文書管理システムは、文書をデータベースに登録し管理するととも に文書を検索する文書管理サーバと、文書管理サーバに対して文書の検索を依頼 する文書管理クライアントと、文書の電子データとキーワードの文字データとを記憶す る少なくとも 1つのデータベースを格納する外部記憶装置と、予め検索用キーワード として登録したい文字列に所定のキーワード識別マークを付した文書を画像として読 み取って画像データとして出力する文書読み取り装置とを有する文書管理システム であって、前記文書管理サーバは、前記文書読み取り装置から出力された画像デー タの中から、前記キーワード識別マークを認識し当該キーワード識別マークに基づい てキーワードとなる文字列の画像データを切り出して文字データに変換するキーヮー ド抽出処理部と、前記キーワードの文字データを前記文書の電子データ上の属性情 報格納領域に格納し、当該電子データ及び当該電子データの属性情報格納領域に 格納されたキーワードの文字データを前記データベースに格納する登録処理部とを 有する構成である。
[0005] この背景技術の文書管理システムによれば、キーワード抽出処理部が、画像デー タ化された文書の中から文書検索用のキーワードを切り出して文字データに変換し、 登録処理部が当該キーワードの文字データをデータベースに格納する。したがって 、オペレーターの手によることなぐキーワードがデータベースに登録される。そして、 文書を検索は、キーワードについて検索条件で指定された文字列と一致する部分が あるかを検索することによって行われる。また、登録処理部は、キーワードの文字デ ータを当該キーワードを含む文書の電子データの属性情報格納領域に格納し、この 属性情報格納領域にキーワードの文字データが格納された状態の文書の電子デー タをデータベースに格納する。したがって、文書の電子データをデータベースから抜 き出して、他のコンピュータでキーワードにより検索を行おうとする場合に、文書の電 子データの属性情報格納領域に格納したキーワードを利用して検索用のキーワード を登録することができる。
特許文献 1:特開 2004— 78343号公報
発明の開示
発明が解決しょうとする課題
[0006] 前記背景技術の文書管理システムは、簡易且つ確実に検索の対象となる文書に 含まれる文字列をキーワードとしてデータベースに登録できることを目的としものでは あるが、所定のキーワード識別マークを文書に付する必要があり、依然として人手が 介在するものであると!/、う課題を有する。
[0007] 本発明は前記課題を解決するためになされたものであり、原則として人手を介する ことなく簡易且つ確実に検索の対象となる文書のキーワードを抽出し、対象となる文 書をキーワードを用いてデータベースに登録する文書管理装置を提供することを目 的とする。
[0008] ここで、複写機においては文書管理機能を有することなぐ光学的に読み出した原 稿画像情報を用いて出力紙に印刷した直後にメモリから完全に原稿画像情報を消 去し、機密性を高める機種も既に出荷されている。このような複写機においては、ど のような原稿画像情報であっても瞬時に消去され、再利用することができず、使用者 の使い勝手が悪い。そこで、本発明においては、メモリから複写後直ちに原稿画像 情報を消去するのではなく所定の手順を踏んで機密性を担保しつつ、原稿画像情 報の再利用を行うことも目的とする。
[0009] 本発明の文書管理システムが対象とするのは、光学的に読み出された原稿画像情 報の他、画像情報、所定のアプリケーションで作成された文書データも対象となり得 る。
課題を解決するための手段
[0010] (1) 本発明に係る文書管理装置は、対象ドキュメントを取り込むための入力部と、 取り込まれた対象ドキュメント中の文字力 キーワードを抽出するキーワード自動抽 出部と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納する 格納部とを備える文書管理装置であって、抽出された複数キーワードについて出現 頻度、対象ドキュメントの文書形式、キーワードの文書中での位置及びキーワードの 文字サイズの少なくとも 1つを用いてキーワードの重要度を求める重要度決定部とを 新たに備え、重要度決定部にて重要度の高いとされたキーワードを用いて格納部が 対象ドキュメントを記憶手段に格納するものである。
[0011] このように本発明においては、対象ドキュメントに内包される各種情報を用いてキー ワードの重要度を決定し、重要度の高 、キーワードを用いて対象ドキュメントを記憶 手段に格納しているので、人手を用いることなく自動的に対象ドキュメントが格納され ると共に、適切なキーワードを用いて対象ドキュメントが格納されているので検索も円 滑に行うことができる。
キーワードを索引、インデックスとして記憶手段に対象ドキュメントを格納することが でき、より好ましくはデータベースをキーワードをインデックスとして構築することが望 ましい。
[0012] 構築された記憶手段、データベースに対して使用者はキーワードをもって対象ドキ ュメントを検索することができることは当然である。その場合に、対象ドキュメントを使 用者に提供する提供手段を明示的に有する構成とすることもできるし、対象ドキュメン トに関しては他システムに委ねる構成であってもよい。
重要度の決定は、実施形態においてはプロダクションシステム、重要度解析技術を 用いて行うことを例として上げて 、る。
[0013] (2) 本発明に係る文書管理装置は必要に応じて、対象ドキュメントについて複数 のキーワードが抽出された場合には概念辞書を用いて重要度の最も高いキーワード と同一概念に属する最も下位概念のキーワードを特定する手段を新たに備え、特定 した下位概念のキーワードを用いて格納部が対象ドキュメントを記憶手段に格納する ものである。
[0014] このように本発明においては、複数のキーワードが対象ドキュメントに対して抽出さ れた場合であっても、キーワード中で最も重要度の高いキーワードの同一概念に属 する最も低 、概念のキーワードに基づき対象ドキュメントが格納されて 、るので、対 象ドキュメントに対応するキーワードを用いて検索がなされた場合には当然にヒットす る他、その上位概念のキーワードであっても適切にヒットする。
ここで、「最も」として 、るがより好ま U、形態である。
[0015] (3) 本発明に係る文書管理装置は、対象ドキュメントを取り込むための入力部と、 取り込まれた対象ドキュメント中の文字力 キーワードを抽出するキーワード自動抽 出部と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納する 格納部とを備える文書管理装置であって、登録語彙間の概念関係が定められている 概念辞書に登録されて 、る語彙に基づ 、て構築されて 、るデータベースを記憶手 段として用い、抽出されたキーワードに基づき対象ドキュメントがデータベースに格納 されるちのである。
[0016] このように本発明においては、概念辞書を用いてデータベースが構築されており、 このデータベースに対して抽出したキーワードに基づいて対象ドキュメントが格納さ れるので、検索する場合には対象ドキュメントに対応付 、て 、るキーワードと完全同 一でなくと同一概念上のキーワードであれば所望の対象ドキュメントを円滑に検索す ることがでさる。
[0017] (4) 本発明に係る文書管理装置は必要に応じて、対象画像ドキュメントに対して 主成分変換する手段と、当該主成分変換後の各主成分データの少なくとも 1つに対 して可逆であるウェーブレット変換する手段と、可逆であるウェーブレット変換後の主 成分データの高周波成分に予め用意された鍵画像を埋め込む手段と、当該鍵画像 埋め込み後の主成分データをウェーブレット逆変換する手段と、当該ウェーブレット 逆変換後の主成分データを含めて他の主成分データと共に主成分逆変換する手段 とを新たに備えるものである。
[0018] 自動的に対象ドキュメントがキーワードにより格納されることで、あらゆる対象ドキュメ ントが容易に格納されると共に、容易に検索でき参照することができるが、この反面対 象ドキュメントを盗用される危険性が高まる。し力しながら、本発明によってウェーブレ ットを用いた高 、優位性を有する電子透力しを対象ドキュメントに入れることで、盗用 の危険性を確実に防止することができる。
[0019] (5) 本発明に係る文書管理装置は、対象ドキュメントを取り込むための入力部と、 対象ドキュメントを記憶手段に格納する格納部とを備える文書管理装置であって、対 象画像ドキュメントに対して主成分変換する手段と、当該主成分変換後の各主成分 データの少なくとも 1つに対して可逆であるウェーブレット変換する手段と、可逆であ るウェーブレット変換後の主成分データの高周波成分に予め用意された鍵画像を埋 め込む手段と、当該鍵画像埋め込み後の主成分データをウェーブレット逆変換する 手段と、当該ウェーブレット逆変換後の主成分データを含めて他の主成分データと共 に主成分逆変換する手段とを新たに備えるものである。
[0020] このように本発明にお ヽては、対象画像ドキュメントを主成分変換して主成分デー タに対してウェーブレット変換し高周波成分に鍵画像を埋め込み、ウェーブレット逆 変換、主成分逆変換を経て電子透力しがなされた対象ドキュメントをアクセスが要求 力 Sあった場合に提供するので、ある対象画像ドキュメントが文書管理装置が管理対 象とする対象画像ドキュメントである力否かの原本証明を実施することができ、結果的 に機密性を保持して処理済対象画像ドキュメントを提供することができる。
[0021] 対象画像ドキュメントは対象ドキュメントのうち画像形式のものである。対象ドキュメ ントが画像形式でなければ処理を施さないか、画像形式に変換して処理を施す。変 換した場合には画像形式の対象画像ドキュメントと変換前の対象ドキュメントを格納 する。勿論、対象画像ドキュメントのみを格納してもよい。 [0022] (6) 本発明に係る文書管理装置は必要に応じて、少なくとも鍵画像が埋め込まれ る前に、対象画像ドキュメントに埋め込まれる鍵画像に対して対象画像ドキュメントを 管理するための管理情報をステガノグラフィを用いて埋め込む手段を新たに備えるも のである。
[0023] このように本発明においては、ステガノグラフィを用いて管理情報を鍵画像に埋め 込んでいるので、通常鍵画像を処理済対象画像ドキュメントから抽出することは困難 なであるが、仮に抽出した場合であっても管理情報自体も鍵画像にハイディングされ ており、管理情報を不正改ざんを実施することが困難である。
[0024] (7) 本発明に係る文書管理装置は必要に応じて、前記鍵画像に管理情報を埋め 込む場合に、鍵画像中の所定選択画素群の各画素の下位ビットに分散させて管理 情報を埋め込むものである。
このように本発明においては、(6)に加え、鍵画像中の所定の画素に対して、特に 、画素の色情報の下位ビットに管理情報を各画素に分散させて埋め込むので、下位 ビットが正規のビットから反転した場合であっても色の変化は微小であって適切な埋 め込みを実現することができる。特に、最下位ビットのみに管理情報を埋め込んだ場 合には高々階調が 1変化するだけであり鍵画像に与える影響は殆どない。
[0025] (8) 本発明に係る文書管理装置は必要に応じて、前記選択画素群の各画素の下 位ビットに管理情報を埋め込む場合に、管理情報を乱数アルゴリズムを用いて並び 替え、乱数アルゴリズムに関連する情報に対応する鍵画像に並び替えた管理情報を 埋め込むものである。
このように本発明においては、(7)に加え、鍵画像に管理情報を埋め込む前に管 理情報自体を乱数を用いて並び替え、並び替えた管理情報を鍵画像に埋め込んで いるので鍵画像から並び替えた管理情報を抽出することができたとしても、管理情報 を再構成することが困難である。一方、鍵画像自体は乱数アルゴリズムに関連する情 報に対応しており、この対応を知っている場合にのみどのような並び替えを行ったか を把握することができ、管理情報を再構成することができる。
[0026] (9) 本発明に係る文書管理装置は、複写機上に構築される。
このように複写機上に本発明の構成要件が構築され、オールインワンのサービスを 提供することができる。
[0027] (10) 本発明に係る文書管理プログラムは、対象ドキュメントを取り込むための入 力部と、取り込まれた対象ドキュメント中の文字力もキーワードを抽出するキーワード 自動抽出部と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格 納する格納部としてコンピュータを機能させるための文書管理プログラムであって、抽 出された複数キーワードを出現頻度、対象ドキュメントの文書形式、キーワードの文 書中での位置及びキーワードの文字サイズの少なくとも 1つを用いてキーワードの重 要度を求める重要度決定部と、対象ドキュメントについて複数のキーワードが抽出さ れた場合には概念辞書を用いて重要度の最も高いキーワードと同一概念に属する 最も下位概念のキーワードを特定する手段としてコンピュータを機能させ、特定した 下位のキーワードを用いて格納部が対象ドキュメントを記憶手段に格納するものであ る。このように前記文書管理装置は、プログラムとしても把握することができる。
ここで、「最も」として 、るがより好ま U、形態である。
[0028] (11) 本発明に係る文書管理システムは、対象ドキュメントを取り込むための入力 部と、取り込まれた対象ドキュメント中の文字力もキーワードを抽出するキーワード自 動抽出部と、対象ドキュメントを抽出されたキーワードに対応付けて記憶手段に格納 する格納部とを備える文書管理システムであって、抽出された複数キーワードを出現 頻度、対象ドキュメントの文書形式、キーワードの文書中での位置及びキーワードの 文字サイズの少なくとも 1つを用いてキーワードの重要度を求める重要度決定部と、 対象ドキュメントについて複数のキーワードが抽出された場合には概念辞書を用いて 重要度の最も高いキーワードと同一概念に属する最も下位概念のキーワードを特定 する手段とを備え、特定した下位概念のキーワードを用いて格納部が対象ドキュメン トを記憶手段に格納するものである。このように前記文書管理装置は、システムとして ち把握することがでさる。
ここで、「最も」として 、るがより好ま U、形態である。
これら前記の発明の概要は、本発明に必須となる特徴を列挙したものではなぐこ れら複数の特徴のサブコンビネーションも発明となり得る。
図面の簡単な説明 [0029] [図 1]本発明の第 1の実施形態に係る文書管理システムのシステム構成図である。
[図 2]本発明の第 1の実施形態に係る文書管理サーバのブロック構成図である。
[図 3]本発明の第 1の実施形態に係る文書管理システムの構成要素のハードウェア 構成図である。
[図 4]本発明の第 1の実施形態に係るプロダクションシステムのブロック構成図である
[図 5]本発明の第 1の実施形態に係るラプラシアンピラミッド、鍵画像に対するステガ ノグラフィによる属性情報等の管理情報の埋め込みの説明図である。
[図 6]本発明の第 1の実施形態に係る文書管理システムの動作フローチャートである
[図 7]本発明の第 1の実施形態に係るキーワード抽出の詳細動作フローチャートであ る。
[図 8]本発明の第 1の実施形態に係る電子透力しの詳細動作フローチャートである。
[図 9]本発明の第 1の実施形態に係る管理情報更新の詳細動作フローチャートである
[図 10]本発明の第 2の実施形態に係る文書管理システムのシステム構成図である。
[図 11]本発明の第 3の実施形態に係る文書管理システムの動作フローチャートである 符号の説明
[0030] 10 入力装置
11 複写機
12 スキャナ
13 ファクシミリ
14 複合機
15 カメラ付携帯電話
20 文書管理サーバ
21 入力部
22 キーワード自動抽出部 23 ステガノグラフィ部
24 電子透かし部
25 データベース格納部
26 認証部
27 データ提供部
30 ユーザコンピュータ
40 管理者コンピュータ
発明を実施するための最良の形態
[0031] ここで、本発明は多くの異なる形態で実施可能である。したがって、下記の実施形 態の記載内容のみで解釈すべきではな 、。
実施形態では、主にシステムについて説明するが、所謂当業者であれば明らかな 通り、本発明はコンピュータで使用可能なプログラム及び方法としても実施できる。ま た、本発明は、ハードウェア、ソフトウェア、または、ソフトウェア及びハードウェアの実 施形態で実施可能である。プログラムは、ハードディスク、 CD-ROM, DVD-RO M、光記憶装置または磁気記憶装置等の任意のコンピュータ可読媒体に記録できる 。さらに、プログラムはネットワークを介した他のコンピュータに記録することができる。
[0032] (本発明の第 1の実施形態)
本実施形態に係る文書管理装置について説明する。
[1.システム構成]
図 1は本実施形態に係る文書管理システムのシステム構成図である。
本実施形態に係る文書管理システムは、対象となる原稿を電子化する複写機 11 ( コピー機)、スキャナ 12、ファクシミリ 13、並びに、コピー機能、スキャン機能及びファ クシミリ機能を有する複合機 14 (これら複写機 11、スキャナ 12、ファクシミリ 13、複合 機 14を入力装置 10と総称する)と、この入力装置 10で電子化された対象ドキュメント をセキュアな状態でデータベースに適切に格納する文書管理サーバ 20と、使用者 が使用するユーザコンピュータ 30と、管理者が使用する管理者コンピュータ 40とを備 える構成である。ここでの対象ドキュメントは、原稿が電子化された原稿画像情報だ けでなく、ユーザコンピュータ 30にインストールした各種アプリケーションプログラムで 作成されるデータ等が含まれる。
[0033] 複写機 11は一般的な複写機の構成である。ここで、ネットワークと接続して文書管 理サーバ 20と通信可能となっており、複写機 11が複写対象の原稿を読み込んだ場 合に電子化された対象ドキュメントを文書管理サーバ 20に送信する。なお、複写機 1 1で複写せずに、用紙を読み込み電子化された対象ドキュメントを文書管理サーバ 2 0に送信する構成であってもよい。複写機 11以外の入力装置 10であるスキャナ 12、 ファクシミリ 13、複合機 14も、各一般的な構成以外に複写機 11と同様に、ネットヮー クと接続して文書管理サーバ 20と通信可能となっている。入力装置 10が原稿を読み 込んだ場合に電子化された対象ドキュメントを文書管理サーバ 20に送信する。このと き、必ずしもファクシミリ 13はファックス送信しなくてもよいし、複合機 14も必ずしもコピ 一、ファクス送信しなくてもよい。すなわち、光学的な読み取り装置としての機能を用 いて原稿を読み取り、文書管理サーバ 20に送信するだけでもよい。
[0034] 図 2は本実施形態に係る文書管理サーバのブロック構成図である。前記文書管理 サーバ 20は、対象ドキュメントを取り込む入力部 21と、取り込まれた対象ドキュメント 中のキーワードを抽出するキーワード自動抽出部 22と、鍵画像に対象ドキュメントの 管理情報をノヽイデイングするステガノグラフィ部 23と、対象ドキュメントにこの鍵画像を 挿入する電子透かし部 24と、前記キーワード自動抽出部で抽出されたキーワードを 用いて予め構築されて 、るデータベースに電子透力しが施された処理済対象ドキュ メントを格納するデータベース格納部 25と、ユーザからのアクセスを認証を実施する 認証部 26と、ユーザのアクセス要求に応じて指定される処理済対象ドキュメントを提 供するデータ提供部 27とを備える構成である。
[0035] [2.ハードウェア構成図]
図 3は本実施形態に係る文書管理システムの構成要素のハードウェア構成図であ る。ユーザコンピュータ 30はコンピュータ上に構築され、ハードウェアの構成としては
CPU(Central Processing Unit)31、 DRAM(Dynamic Random Access Memory) 32^ のメインメモリ、外部記憶装置である HD(hard disk)33、表示装置であるディスプレイ 34、入力装置であるキーボード 35及びマウス 36、ネットワークに接続するための拡 張カードである LANカード 37、 CD— ROMドライブ 38等力もなる。 [0036] 文書管理サーバ 20、管理コンピュータ 40も、ユーザコンピュータ 30と略同様のハ 一ドウエアの構成である。
文書管理サーバ 20は、例えば、 CD— ROMに格納されている文書管理サーバプ ログラムが HD上に複製 (インストール)され、必要に応じて文書管理サーバプロダラ ムがメインメモリに読み出され、 CPUが力かるプログラムを実行することで文書管理サ ーバ (装置)を構成する。
[0037] また、ユーザコンピュータ 30、管理コンピュータ 40も文書管理サーバ 20が構築され て 、るコンピュータのハードウェアの構成と略同様であるとした力 文書管理サーバ 2 0が構築されているコンピュータが例えばパーソナルコンピュータであるユーザコンビ ユータ 30、管理コンピュータ 40と比べ、ハイパフォーマンスで且つ高信頼性のハード ウェアを用いている。
[0038] [2. 1 複写機]
複写機の一例としては、複写すべき原稿を順次送り込むための自動原稿送り部と、 原稿の画像を読み取るための画像読み取り部と、この画像読み取り部から得られた 原稿画像情報に基づいて感光体の表面にトナー像を形成し用紙トレイカ 搬送され てきた用紙に転写する画像形成部と、用紙に転写されたトナー像を定着させるトナー 像定着部と、プログラムや原稿画像情報を一時的に記録するメモリと、プログラムや 原画像情報を記録する HDと、操作ボタンや操作パネル力 なるインタフェース部と、 構成要素を各種制御する CPUと、ネットワークと接続する LANインターフェース等の 通信部とを備える構成がある。
[0039] [2. 2 スキャナ]
スキャナの一例としては、装置全体の制御を行なう CPUと、プログラムや原稿画像 情報を一時的に記録するメモリと、操作ボタンや操作パネル力もなるインタフェース部 と、画像を光学的に読みとる読み取り部と、ネットワークと接続する LANインターフエ ース等の通信部とを備える構成がある。
[0040] [2. 3 ファクシミリ]
ファクシミリの一例としては、装置全体の制御を行なう CPUと、プログラムや原稿画 像情報を一時的に記録するメモリと、画像を光学的に読みとる読み取り部と、プロッタ と、操作ボタンや操作パネル力もなるインタフェース部と、符号化復号化部と、グルー プ 3 (G3)ファクシミリモデムと、網制御装置と、 ISDN (integrated services digital net work)インターフェース回路と、グループ 4 (G4)データ通信機能部と、 LANインター フェース等の通信部とを備える構成がある。
[0041] [3. 自動データベース格納]
[3. 1 キーワード抽出及び重要度決定]
キーワード抽出は、取り込まれた対象ドキュメントである画像データ力 対象文書中 の構成要素に基づき文書形式を決定する文書形式決定手段と、入力された画像デ ータをレイアウト解析し対象文書のレイアウト情報および対象文書中の文字のフォント サイズ情報を生成するレイアウト解析手段と、入力された画像データを文字認識して テキストデータを生成するテキストデータ変換手段と、このテキストデータを形態素解 祈し、形態素解析情報を出力する形態素解析手段と、前記形態素解析情報より形態 素毎の出現頻度を演算し出現頻度情報を生成する出現頻度演算手段と、対象文書 の文書形式毎にプロダクションシステムのプロダクションメモリに、条件部が対象文書 の形態素の位置、フォントサイズ及び出現頻度の評価項目要素の評価項目状態で あり、後件部がキーワードである力否かである知識が格納されたプロダクションシステ ムのワーキングメモリにレイアウト情報、フォントサイズ情報及び出現頻度情報を入力 し、推論を実行する推論手段とから実現される。図 4は本実施形態に係るプロダクショ ンシステムのブロック構成図である。対象ドキュメントがアプリケーションデータの場合 には、レイアウト解析手段とテキストデータ変換手段はそのアプリケーションプログラム のアプリケーションデータ形式に応じて解析、変換を行う。ここで、アプリケーションデ ータの場合にー且画像データに変換する構成をとることもできる。
[0042] レイアウト解析手段は、画像データを特定のアルゴリズムに従ってレイアウト解析し、 レイアウト解析結果のレイアウト情報及びフォントサイズ情報を推論手段に引き渡す。 レイアウト解析のアルゴリズムは、本発明の本質的部分でなぐかつ、様々なアルゴリ ズムが周知技術として存在し当業者は適宜実現することができるので、ここでの詳細 な説明は省略する。手書き文字や印字された文字を光学的に読み取り、パターンと の照合により文字を特定し、文字データを入力する光学式文字読取装置の分野等で 周知となっている。テキストデータ変換手段によるテキストへの画像データの変換も同 様である。
[0043] レイアウト情報は、文字、文字列が文書中のどの位置にあるかを示した情報である。
フォントサイズ情報は、文字の大きさの情報である。 形態素解析手段が、テキストデ ータを形態素解析している。形態素解析 (Morphological Analysis)は、自然言語で書 かれた文を形態素 (Morpheme:言語で意味を持つ最小単位)に分割し、品詞を見分 けることである。参照するものとして対象言語の文法の知識と辞書 (品詞等と対応付い た単語リスト)とがある。形態素解析のアルゴリズムは、本発明の本質的部分でなぐか つ、様々なアルゴリズムが周知技術として存在し当業者は適宜実現することができる ので、ここでの詳細な説明は省略する。形態素解析ソフトとして、 ChaSen (URL : http: 〃chasen.aist- nara.ac.jp/)というものがあり、広く用いられている。
[0044] 形態素解析手段により形態素毎に分割、統合された文字、文字列毎のレイアウト情 報、フォントサイズ情報から、形態素の位置、形態素の大きさも把握することができる 。より好ましくは、オブジェクト指向言語により実装した場合には、各形態素毎にクラス を用意し、メンバ変数として、形態素の文字、文字列の変数、形態素の品詞の変数、 形態素の位置の変数、形態素のフォントサイズの変数を用意し、それぞれのメンバ変 数に値を、形態素解析手段がまず形態素の文字、文字列の変数に形態素を求めた 後に値を格納し、同様に形態素の品詞の変数に格納し、レイアウト情報及びフォント サイズ情報よりそれぞれ形態素の位置の変数、形態素のフォントサイズの変数に値を 格納する構成とする方がよい。そうすることで、後記する推論手段が適宜該当する形 態素のオブジェクトのメンバ変数を参照することで、プロダクションルールとの照合を 実行することができる。
[0045] 出現頻度演算手段は、形態素解析情報から形態素毎の出現頻度を演算し、出現 頻度情報を生成する。形態素解析情報中で、形態素と品詞とが対応づいているので 、それぞれの形態素の対象文書中での個数をカウントすることで出現頻度を演算す ることができる。ここで、出現頻度演算手段は、形態素の品詞を見ることなく同じ形態 素は品詞が異なっても同じものとして扱うこともできるし、品詞が異なれば別の形態素 として取り扱うこともできる。さらに、形態素が略同じで品詞が異なる場合に、同一のも のとしてカウントすることもでき、キーワード抽出の精度を向上させることができる。
[0046] [3. 1. 1 文書の形式]
文字数を指標に図面は識別でき、また、表を多く含むフォーム形式は、鄞線等線分 数が多ぐ文字数も多ぐレター形式は、線分数が少なく文字数が多いことを利用して 文書形式決定手段が対象文書を 3種類の ヽずれかに分類することができる。すなわ ち、文書の構成要素である文字、線分等で分類することができる。
レター形式文書は、文書タイトルが検索用キーワードとなる場合が多ぐその現れる 位置、フォントサイズが重要である。それらに次いで当該キーワードの出現頻度が重 要である。
[0047] フォーム形式文書は、表中にタイトルが現れる場合が多ぐ文書タイトルの現れる位 置、次いで、その出現頻度が重要であり、フォントサイズはさほど重要ではない。 図面は、文書タイトルの位置が最も重要であり、フォントサイズもさほど重要ではなく 、文字数が少な 、ことから出現頻度は殆ど重要ではな 、。
上記のように文書形式によって検索用キーワードを抽出する際の知識の重要度は 異なる。
[0048] [3. 1. 2 文書形式に最適な知識重要度の設定]
AHPに基づき、事前に知識重要度の考慮方法を検討する。対象文書の文書形式 による知識キーワードの重要度の設定を最適化し、これに必要な評価項目を事前に 推定する。 AHPは、問題分析において主観的判断とシステムアプローチを上手く利 用した問題解決型意思決定手法である。複雑に絡み合った要素の中から一つの答 えを取り出されなければならない時に、あまり単純に割り切ってしまうと大事な要素を 見落としてしまう危険があり、あまりに複雑な手法では臨機応変に使いこなすことが難 しくなる。そこで、多くの要素をバランスよく取り込み、意思決定できる方法として AHP を採用する。
[0049] 次に、意思決定に関する評価項目の要素の抽出および知識の階層化について説 明する。 AHPは、決定に関連した要素を階層構造で表現する。ある基準に基づき、 選択肢の評価を階層的に判断し、最終的には全階層を統合化して意思決定する。こ の手順を次に示す。 [0050] 意思決定の目的の要素を 1つ、目的評価のための評価項目の要素を複数個、目的 に対する代替案を複数個用意する。本実施形態では、目的に知識の重要度 (重み係 数)、評価項目要素にフォントサイズ、文字列の位置、出現頻度、さら〖こ、代替案にそ れら評価項目要素の大きさを設定した。
最上層を目的要素とし、評価層を意思決定のための評価項目要素、さらに、最下 層を代替案とする。
[0051] 次に、評価層の要素の影響度の評価について説明する。予め、被験者 (例えば 10 名)に対して対象文書を提示し、検索用キーワードとして最適な単語を選定してもら い、かつ、当該キーワードを選定する際に用いた知識、すなわち、評価項目要素の 影響度 (重要度)を 0から 1の範囲で採点してもらう。
[0052] 次に、各階層の要素間の一対一比較について説明する。階層毎にペアを選択し、 一対一比較を行う。階層に n個の比較要素がある場合、 n(n— 1)Z2回の一対一比較 を行うことになる。同じ階層の各要素を一対一比較表によって比較し、表 1に示す一 対一比較行列を作成する。その後、評価項目階層の一対一比較を実施し、要素間 の相対重要度を算出する。
[0053] [表 1]
(評価項目階層の一対一比較)
Figure imgf000017_0001
次に、各階層の要素間の重要度の計算について説明する。各階層の要素間の重 み係数を求めるためのアルゴリズムを以下に示す。各階層の要素 A ,Α ,· · ·,Α
1 2 ηの一対 一比較行列を A= [a ]とする。また、求める重み係数 wが既知の時に w , w ," -,wで与
ij 1 2 n えられた場合、 Aは式 (1)のようになる。
[0054] [数 1]
Figure imgf000018_0001
二の時、 aは理想的には、
[0055] [数 2]
Figure imgf000018_0002
とする。この時、 i, j, kについて a X a =aが成立するならば、意思決定者の判断が完 全に整合しているといえる。
次に、式 (1)に wを右力も掛けると、式 (3)のようになる。
[数 3]
Aw =
(3)
Figure imgf000018_0003
従って、
[0057] [数 4]
A ' w = n ' w (4) となる。式 (4)は固有値問題、
[0058] [数 5]
(A-n ' i} w = 0 (5) [0059] に変形できる。この時、 w≠0となるには、 nが Aの固有値になる必要がある。 nが Aの 固有値になる時、 wは Aの固有ベクトルとなる。また、 rank(A) = 1より、固有値え(i=l, 2,· · ·,η)は 0を除ぐ最大固有値え が与えられ、他の固有値え =0となる。 Αの主対 max 1
角要素の和は nであるので、 λ はえ =ηを満たしている。よって、 wは Αのえ に max max max 対する正規化した固有ベクトルとなる。すなわち、完全に整合性がとれているといえる 。しかし、現実には意思決定者力 と同じ重み係数を与えるような行列 Aを決定する ことは極めて困難である。そのため、意思決定者カゝら得られる一対一比較行列を A' 、その一対一比較行列カゝら得られる重み係数を した時、式 (4)を式 (6)のように置き 換える。
[0060] [数 6] =λ ' (6) [0061] したがって、 ま A'の最大固有値 に対する正規化した固有ベクトルとなる。
max
一対一比較の際、要素数が増加するほど結果の不整合性が発生する。 n行 n列の一 対一比較行列において、不整合性が発生すると、最大固有値 λ ' は ηより大きくな max
る。これを Sattyの定理と呼び、式 (7)で表される。
[0062] [数 7] ="+g .|+i - )2/ . 。" · . . . ( 7 )
[0063] 式 (7)より、 は常に ≥ηを満たすことがわかる。そこで、一対一比較の整 max max
合性チェックの指標として C. I. (Consistency Index)が定義されている。 C. I.は式 (8) で表される。
[0064] [数 8]
C.i. = ^≡^. · · · · (8)
n-1
[0065] C. I. =0に近づくにつれて整合性が高まり、逆に 0から遠ざかるにつれて整合性が 低くなる, 目的の評価項目と各代替案の一対一比較を行う。そして、各階層で求めた重み係 数を用いて、代替案の中から最適な案を求める。
[0066] [3. 1. 3 検索キーワード抽出のための知識ベースの構築]
検索キーワード抽出のためのプロダクションシステムを AHPに基づき、あらかじめ 構築する。ここでは、特に、あまり試みられていない「図面形式」の対象文書を例に取 り上げ、 AHPに基づく知識の重要度、確信度の決定方法を示す。線分数は多く文字 が少ないことが図面形式の文書の特徴である。 AHPの最上層は目的であり、重要度 (重み係数)であり、中間層の評価項目の要素は、フォントサイズ、縦横位置、出現頻 度である。また、最下層の代替案は重要度の大小である。
[0067] 次に、評価項目(キーワード候補に関する知識)について説明する。抽出した複数 の文字領域力もキーワード候補を抽出するため、以下の知識が有効である。(1)キー ワードは、他の文字(Fontsize)に比べ大きい。(2)キーワードのある位置は、図面の左 中右 (X#Position)上下 (Y#Position)の場合が多い。(3)キーワードは、図面中に頻度高 く (Frequency)出現する。これら知識の評価項目値(Fontsize、 Y#Position、 X#Position 、 Frecuency)は、以下のように抽出した。
[0068] (1)フォントサイズ (Fontsize)、位置情報(Y#Position、 X#Position)に関しては対象文 書をスキャナで読み込み、上記各手段により、レイアウト情報として抽出した。
(2)頻度 (Frequency)は、文字認識し、テキストに変換した後に、前出の形態素解析ソ フト ChaSenを利用し、「分かち書き」単語の頻度を調べることにより抽出した。
例示として、図面形式の対象文書を 10名の被験者に提示し、前記した評価項目を どの程度重要視したかの影響度を 0から 1の範囲で 10段階評価にて指定してもらった ところ、フォントサイズ: 0.98、出現頻度: 0.98、縦位置: 0.694、横位置: 0.23が平均影 響度であることが分力つた。
[0069] 次に、知識ベース設計につ!、て説明する。提案方法の知識はプロダクションルー ル「IF〜ならば THEN〜である」という形式で表現されている。提案方法の知識は、 条件部に「FontSiZeの大小」等の評価項目の評価項目状態、後件部にはキーワード か否かを記述した。すなわち、「IF Fontsize is Big THEN確信度 CFにおいてキーヮ ードである」となる。また、提案方法の知識においては、等しくない条件部をもつ複数 の知識が同一の後件部を導出する論理和の形式のみを利用した。
[0070] 次に、確信度(Certainty factor)につ!/、て説明する。プロダクションシステムの特徴 として、各知識に確信度と!ヽぅ重み係数を課すことで不確実な知識の扱!ヽを可能に する点が上げられる。本実施形態では、確信度を、ある知識ルールにおいて、その 条件部により後件部がどの程度導出できるかという度合いを表現した指標と定義する 。この値の範囲は、 ± 1であり、 0の場合は後件部を導出するのに条件部は考慮され ないことを意味している。負の場合、後件部導出に否定的である度合いを意味し、正 の場合、後件部導出を支持する度合いを意味している。この時、 AHPで得られた相 対重要度に基づき、確信度を求めた。
[0071] (1)確信度決定のため、 AHPの階層構造の最上層の目的は知識の重要度算出とし て、評価項目は Fontsize、 X#Position、 Y#Position、 Frequencyとした。また、最下層の 代替案層は各評価項目において Fontsizeが大きい場合、 Y#Position、 X#Positionが 重要と思われる場所に近い場合、 Frequencyが多い場合を Bigとし、その逆を Smallとし た。
[0072] (2)X#Position、 Y#Positionにつ!/、て、文字列のレイアウトがどの位置にあるときが重 要であるかという判断には、文書を縦、横それぞれ 5分割し、その位置を A (最端)、 B (やや端)、 C (中間)、 D (やや端)、 E (最端)としたフアジィ集合で表した。対象文書 のキーワードのある位置は図面の左中右上下の場合が多 ヽと 、う知識を用いて、位 置の重要度の評価項目、 X#Position、 Y#Positionのそれぞれに対し、 A or C or E > B or Dとした。
[0073] 表 1は、前出の影響度を用いて、 AHPに基づいて一対一比較を行い、算出した評 価項目の重み係数 (相対重要度)である。また、それぞれの評価項目 (Fontsize、 Y#Po sition、 X#Position、 Frequency)に対する各代替案の一対一比較結果を、表 2力ら 5〖こ 示す。表 1の評価項目の重み係数に各代替案を乗算し、それらの値を加算し、統合 化すると表 6になる。これをみると、全評価項目が最も Bigの場合の相対重要度は 0.85 、また、全評価項目が最も Smallの場合の相対重要度は 0.15となっている。表 1から 5 に基づき、全知識の確信度を決定する。
[0074] [表 2] ( 「FontSiZe」 に関する各代替案の一対一比較表)
Figure imgf000022_0001
[0075] [表 3]
(「Y— Position] に関する各代替案の一対一比較表)
Figure imgf000022_0002
[0076] [表 4]
( 「X Position] に関する各代替案の一対一比較表)
Figure imgf000022_0003
[0077] [表 5]
(「Frequency」 に関する各代替案の一対一比較表)
Figure imgf000022_0004
[0078] [表 6]
(代替案層の重要度)
Figure imgf000022_0005
[0079] (3)確信度の合成法 確信度の合成は、 2つの知識の論理和により行った。同一の 後件部導出時の CF1、 CF2を合成した CFは、
[0080] [数 9] CF(CF1,CF2) =
CF1 + CF2- (CF1 x CF2) (9)
CF1 > 0 and CF2 > 0
[0081] [数 10]
CFl + CF2 + (CFlxCF2) · · · , (丄 0)
CFl<0or CF2<0
[0082] [数 11] (C 1+CF2)
1 - min(| C 1|,|CE2|) . . . . ( 1 1 )
other とする。
[0083] 知識ベースで適合する知識ルールが複数個存在していた場合、最も知識の条件 部が詳細なものを選択し実行することにより、知識の競合をさける。そして、推論手段 がキーワードの確信度とキーワード候補を出力する。
[0084] [3. 2 語彙概念構造辞書を有したデータベース構成]
語彙概念構造 (lexcail conceptual strcture)辞書の構成で予めデータベースは構築 されている。したがって、データベースに対しては語彙概念構造辞書に含まれる語彙 に基づきデータベースに格納されて 、る対象ドキュメントを読み出すことも、語彙に基 づきデータベースに格納することもできる。言い換えるならば、このデータベースは語 彙をインデックスとして対象データを格納可能に構成されて ヽる。語彙概念構造 (lexc ail conceptual strcture)自体は周知技術である。特に、語彙概念構造辞書について は次のサイトが詳し ヽ。 (http://cl.it.okayama-u.ac.jp/rsc/lcs/)
語彙概念構造辞書としたが、所謂概念辞書を用いることもできる。語彙間の上位概 念、下位概念、同義、反意の関係を示すものである。本発明においては、キーワード 間の概念関係を把握するために用いる。
[0085] 対象ドキュメントの抽出されたキーワードのうち最も高い確信度を有するキーワード を用いて対象ドキュメントをデータベースに格納する。ただし、最も高い確信度を有す るキーワードど同一概念のキーワードが出力されたキーワード中にあり、且つ、そのキ 一ワードが下位概念である場合には下位概念のキーワードに基づいて対象ドキュメ ントはデータベースに格納される。
[0086] この他、確信度が最も高いキーワードではなぐ同一概念のキーワード数が多いも のの中で最も下位概念のキーワードに基づいて対象ドキュメントをデータベースに格 糸内する構成をとることちでさる。
対象ドキュメント提供時には、ユーザはキーワードを用いて検索することで、合致し たキーワードに対応した対象ドキュメントを読み出す。ただし、ユーザが指定したキー ワードの上位概念のキーワード、下位概念のキーワードも用いて検索することができ る。
[0087] [3. 3 重要度決定部の代替手段]
前記 [3. 1 キーワード抽出]でプロダクションシステムが重要度を決定していたが、 この方法以外に重要度解析技術を用いることもできる。重要度解析技術により、テキ ストデータを入力することで重要度順にキーワードが出力される。
重要度解析技術は、本発明の本質的部分でなぐかつ、様々な周知技術が存在し 当業者は種々の周知技術を採ることができ、ここでは詳細な説明は省略する。
なお、参考資料として次のものを列挙する。
•中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出"、自 然言語処理、 Vol.10 No.l, pp. 27 - 45, 2003年 1月
' "専門用語 (キーワード)自動抽出システムのページへようこそ"、 http://gensen.dl.it c.u— tokyo.ac.jp/
[0088] [4.情報ハイディング]
[4. 1 電子透かし]
デジタルデータに秘密情報を挿入する技術を情報ハイデング技術と 、う。電子透か しは情報ハイディングの 1種である。
情報ハイディング (電子透かし)の一般的な流れは、第 1に多バンド原画像の!/、ず れかのバンド画像に対してウェーブレット分解を行い、第 2にウェーブレット分解後の 高周波成分に秘密画像を挿入し、第 3にウェーブレット再構成により情報ハイデイン グ画像を生成するといつたものである。ここで重要なのが、第 1の「多バンド原画像の いずれかのバンド画像に対して」という点である。本実施形態では、多バンド原画像 のエネルギー集中を実現する前処理として主成分変換が用いられるだけでなぐ斜 交座標変換も用いることで守秘性を向上させることができる。主成分変換は、直交変 換の 1種であり、逆変換可能である。斜交座標変換も逆変換可能である。また、本発 明は、 3バンド原画像でない多バンド原画像に適用することもでき、さらには、 1バンド 原画像にも適用することもできる。ただし、 1バンド原画像に適用した場合には、 1バ ンド原画像自体が第 1主成分画像となってしまう。よって、 HSI変換等の 3バンド原画 像のみに適用可能な変換と比べ、主成分変換は柔軟に多バンド原画像に対応する ことができる。また、第 1主成分画像に秘密画像をハイディングする理由は、第 1主成 分画像が多バンド原画像のエネルギーを最も集中させた画像だカゝらであり、秘匿性 が高い流通用対象データを生成することができるからである。
[0089] 前記固有値及び固有ベクトルは、主成分分析における固有値及び固有ベクトルで あって多バンド原画像力 求められるものであり、分散共分散行列若しくは相関行列 力 特性方程式を用いて求める。この他の周知な固有値及び固有ベクトルを求める 計算方法を適用することができることも明らかである。
[0090] 固有値及び固有ベクトルを安全に記録するとは、多バンド原画像から算出した固有 値及び固有ベクトルを第 3者に知られな 、ように記録することである。そのままハード ディスクに記録するのではなぐ暗号ィ匕して記録することが望ましい。固有値及び固 有ベクトルを第 3者に知られると、この固有値及び固有ベクトルを用いて流通用多バ ンド画像に対し主成分変換が容易に行なわれるからである。同様に、多バンド原画 像自体も第三者に知られてはいけない。これは、多バンド原画像から固有値及び固 有ベクトルを算出することができるからである。本発明では斜交座標変換を採用して おり、この斜交座標変換は Θにより変換後のデータの内容が異なるため、第三者に 固有値及び固有ベクトルを知られたとしても Θを知られなければ秘密画像データを 抽出することができない。したがって、固有値、固有ベクトル及び 0が秘密画像デー タを抽出するためのキーとなる。
[0091] 主成分変換は、前記固有値及び固有ベクトルから第 1主成分への変換式を求め、 この第 1主成分への変換式に多バンド対象データを代入し、第 1主成分データを求 める。主成分変換を如何様に行うかは、 "空間データの数理" (金谷著、朝倉書店)、 "画像処理アルゴリズム" (斎藤著、近代科学社)、 "データとデータ解析" (栗原著、 放送大学教育振興会)に詳述され、力かる分野では周知技術となっている。例えば、 対象データから変換式の係数を求めるには、相関行列を用いる、分散共分散行列を 用いる方法等がある。また、各主成分の寄与率は、各主成分の分散を変量の分散の 合計で割ることにより求まる。
[0092] 2次元空間における直交座標表現と斜交座標表現とは、次の関係を有する。
W=X+Ycos( Θ )
Z=Ysin( θ )
[0093] したがって、この式を用いて指定された角度の斜交座標変換を行うことができる。当 然であるが、 Θを指定して Xと Υの値を入力することで W、 Zが求まり、逆に、 Θを指定 して W、 Zの値を入力することで X、 Yが求まる。したがって、前記したように斜交座標 変換も逆変換可能な変換である。
[0094] 可逆なウェーブレット変換は信号を周波数分割するために用いられる。この周波数 分割することをサブバンド分割という。可逆なウェーブレット変換に用いられる関数と しては、 Daubechies関数、 Haar関数等がある。これら可逆なウェーブレット変換を如何 様に行うかは、 "ゥヱーヴレットビギナーズガイド" (榊原著、東京電機大学出版局)、 "ウェーブレット画像解析" (新島著、科学技術出版)、"ウェーブレット解析の基礎理 論" (新井著、森北出版)、"ウェーブレット解析による地球観測衛星データの利用方 法"(新井 ZL. Jameson著、森北出版)、"ウェーブレットによる信号処理と画像処理" (中野 Z山本 Z吉田著、共立出版)、"ウェーブレット解析とフィルタバング'(G.ストラ ング ZT.グェン、培風館)に詳述され、また、画像処理の技術分野では周知技術と なっている。なお、フーリエ変換はフーリエ変換の定義から観測信号と sin関数 /cos関 数のみを用いて演算され、ウェーブレット変換はこれら以外の関数を用いた演算が可 能であり、第三者力 見ると、どのような関数を使用していることを解析することが困難 であり、秘匿性が高い変換である。ただし、フーリエ変換もウェーブレット変換も可逆 的な変換であれば、適用することができる。また、直交ウェーブレット変換は可逆なゥ ーブレット変換の一種である。直交ウエーブレット変換は変換の係数と逆変換の係 数とが同じであるのに対し、可逆なウェーブレット変換は両者の係数が必ずしも同一 ではなぐこの点力 可逆なウェーブレット変換の方が秘密データの保護の観点から 好ましい。本発明に適用できる変換は少なくとも可逆なウェーブレット変換であれば 足り、その 1つが双直交ウェーブレット変換である。なお、前記 Daubechies関数を用い た可逆なウェーブレット変換
及び Haar関数を用いた可逆なウェーブレット変換は、可逆なウェーブレット変換であ ると共に、直交ウェーブレット変換である。
[0095] このような電子透かしによれば、多バンド原画像の固有値及び固有ベクトルを算出 し、この算出された固有値及び固有ベクトルを安全に記録し、算出された固有値及 び固有ベクトルにより多バンド原画像を主成分変換し、指定された Θで斜交座標変 換し、変換後の第 1主成分データに対して可逆なウェーブレット変換し、可逆なゥェ 一ブレット変換後の高周波成分に秘密データを埋め込み、埋め込みの後可逆なゥェ 一ブレット逆変換を行い、指定された Θで斜交座標逆変換し、固有値及び固有べ外 ルにより他の主成分データと供に主成分逆変換して流通用多バンド画像を生成する ので、固有値及び固有ベクトル又は多バンド原データのどちら力判明しても、指定さ れる Θが判明しなければ秘密データを復号することが困難であって秘匿性に優れる と共に、エネルギーが一番集中している第 1主成分データに対して秘密画像をハイ デイングする場合には特に秘匿性に優れることになる。
[0096] [ウェーブレット変換の補足] 2次元信号に対してウェーブレット分解を行なうと 4成 分 [1低周波成分 (LL1成分)と 3高周波成分 (LH1成分 'HL1成分 ·ΗΗ1成分)]が生 成される。また、 LL1成分に対してウェーブレット分解を行なうと 4成分 (LL2成分 'LH 2成分 'HL2成分 ·ΗΗ2成分)がさらに生成される。可逆なウェーブレットを採用し、か つ、ウェーブレット分解後の 4成分が存在すれば、誤差零で与えられた 2次元信号は 復元される。直交ウェーブレットは、可逆なウェーブレットの 1種である。多重解像度 解析に基づく情報ハイディング手法の概要を示す。情報ハイディングは、
1.多バンド原画像のいずれかのバンド画像に対してウェーブレット分解を行う
2.ウェーブレット分解後の高周波成分に秘密データを挿入する 3.ウェーブレット再構成により流通用画像を生成する
の手順で行われる。秘密データを HL1成分や HH1成分や HH2成分等に挿入する ことも可能である。秘密データを挿入する成分が変更可能であるということは、多重解 像度解析に基づく情報ハイディングが秘密データの情報を保護する能力があるとい うことである。ここで問題となるのが、情報ハイディングの手順 1の「多バンド原画像の いずれかのバンド画像に対して」という点である。提案手法は、多バンド原画像のェ ネルギー集中を実現する前処理として主成分変換が用いられ、さらに、斜交座標変 換を行って秘密データを第 1主成分画像にノ、イデイングする。また、提案手法は、 3 バンドの原画像ではない場合にも適用可能である。換言すると、提案手法はハイディ ングによる画質劣化を抑えることを目的として、多バンド原画像に対して主成分変換 を行い、その第 1主成分画像に秘密データをハイディングする。その際、斜交座標変 換を行う。さらに、秘密データの復号法を説明する。秘密データがハイディングされる 前の多バンド原画像に主成分変換を行った際の係数を用いて、流通用画像に対し て第 1主成分画像を構成し、その第 1主成分画像に対してウェーブレット分解を行うこ とにより実現される。提案手法による秘密データの復号は、秘密データをハイデイン グする前の多バンド原画像に主成分変換を行った際の係数を知っている場合のみ 復号可能である。すなわち、秘密データをハイディングする前の多バンド原画像によ り、主成分変換の係数は異なる。 HSI変換等の係数は、周知のものである。変換係 数が周知である場合、第 3者が秘密データの情報を入手する可能性がある。
[0097] [原データからの固有値及び固有ベクトルの再演算] 本実施形態においては、対 象データから固有値及び固有ベクトルを求め、記憶部に記録している力 対象デー タが記録されて 、れば固有値及び固有ベクトルは再演算することもでき、必ずしも記 憶部に記録しなくとも再演算により秘密データの抽出を行うことができる。
[0098] [4. 2 ステガノグラフィ]
図 5はラプラシアンピラミッド、鍵画像に対するステガノグラフィによる属性情報等の 管理情報の埋め込みの説明図である。図 5 (a)がラプラシアンピラミッドであり、図 5 (b)が鍵画像上のピクセルを明示したもので、図 5 (c)が鍵画像の一部をなす 8ビット 表示によるステガノグラフィ説明図である。 図 5 (b)の鍵画像上の例えば 1行目(選択画素群)に対してステガノグラフィによる管 理情報の埋め込みを行う。選択画素群を縦に並び替え、画素を 8ビット表示すると図 5 (c)になる。この図 5 (c)で黒色顕示させているディジタル画像の下位ビットがたとえ 反転しても画素に対する影響は少な 、ため、下位 1ビットを管理情報の埋め込み用 に用いる。したがって、選択画素数分の情報を管理情報として埋め込むことが可能と なる。例えば、ドキュメントの属性(図面、文書、表等のドキュメントの種類)、コピー日 時、コピー回数、消去の必要性のフラグ、消去予定日、ドキュメント利用可能グルー プ、アクセス履歴等を管理情報として包含することができる。
[0099] [4. 3 乱数を用いた応用]
前記選択画素に埋め込まれた管理情報は選択画素の並び順に配置されている構 成となるが、乱数に基づいて管理情報を並び替えた後に選択画素群に埋め込む構 成〖こすることちでさる。
乱数を用いたデータの入れ替えは本発明の本質的部分でなぐかつ、様々な周知 技術が存在し当業者は種々の周知技術を採ることができ、ここでは詳細な説明は省 略する。例えば、初期値を与えることで必要な数の乱数を生じるアルゴリズムが複数 存在する。この場合、初期値を知らなければ管理情報を復元することができない。し たがって、この初期値は管理情報として鍵画像に埋め込むのではなぐ鍵画像に画 像として配置する。初期値毎に初期値に合致した鍵画像を生成することもできるが、 予め初期値毎の鍵画像を用意しておくことが望ましい。すなわち、高周波成分から鍵 画像を取り出して鍵画像を識別し、乱数の初期値を特定し、鍵画像中の選択画素群 を読み込み、選択画素群の下位 1ビットに対して特定した初期値を用いて乱数アル ゴリズム力 元の管理情報を再構成可能とする。
このように、 [4. 1 電子透かし]、 [4. 2 ステガノグラフィ]及び [4. 3 乱数を用い た応用]の 3つの手段を用いて管理情報を扱うことで非常に高い秘匿性及び機密性 を維持して対象ドキュメントを取り扱うことができる。
[0100] [5.動作]
[5. 1 対象ドキュメントの登録]
図 6は本実施形態に係る文書管理システムの動作フローチャートである。 本実施形態に係る文書管理システムの動作について説明する。ここでは、複写機 1 1について説明する力 スキャナ 12、ファクシミリ 13、複合機 14であってもユーザによ る各機器の使用操作以外は同じような動作を文書管理サーバ 20が実施する。
[0101] 使用者はユーザ毎に割り当てられたカードキーを複写機 11に備え付けられている カード読み取り装置に挿入し、複写機 11の CPUは操作者がだれである力を特定す る。すなわち、カードキーにはユーザを識別にするための情報が格納されている。力 ードキーを挿入した後に、原稿を複写機 11の自動読取部にセットしスタートボタンが 押下される。ここで、カードキーを用いた認証方法を用いたが、使用者が操作パネル を操作してユーザ IDを入力する構成をとることもできる。勿論、パスワードを追加入力 する構成であってもよい。
[0102] 複写機 11は原稿を送りながら画像読み取り部で画像を読み取ってメモリに一時的 に記録させると共に、原稿画像情報に基づいて感光体の表面にトナー像を形成し用 紙トレイカ 搬送されてきた用紙に転写し、用紙に転写されたトナー像を定着させて 本体トレーに出力紙が排出される。メモリに記録された原稿画像情報は、複写機 11 から直ちに文書管理サーバ 20に送信され、文書管理サーバ 20が構築されているコ ンピュータの CPU (入力部 21)が受信して取り込む (ステップ 101)。ここで、必要に 応じて使用者を識別するための情報やアクセス権限の情報を送信する。
次に、 CPU (キーワード自動抽出部 22)が定義済み処理キーワード抽出 (ステップ 200)を実行する。詳細は後記する。
[0103] 次に、 CPU (ステガノグラフィ部 23)が定義済み処理ステガノグラフィ (ステップ 300 )を実行する。ここでの処理では、キーワード抽出で取得することができたドキュメント の属性等、コピー日時、消去の必要性のフラグ、消去予定日等の情報を、特定の乱 数アルゴリズムに初期値を与えて並び替える。初期値から特定される鍵画像の選択 画素群の下位ビットに並び替えた情報を埋め込んで更新する。
CPU (電子透力し部 24)が対象ドキュメントに対して管理情報が埋め込まれた鍵画 像情報を用いて定義済み処理電子透かし (ステップ 400)を実行する。詳細は後記 する。
[0104] CPU (データベース格納部 25)が電子透力しが完了した対象ドキュメントをキーヮ ードを用 、てデータベースに格納する(ステップ 501 )。
これら一連の処理は原稿一枚一枚に対して施すこともできるし、使用者が指定した 複数原稿に対してまとめて行うこともできる。まとめて行った場合には指定した複数原 稿に対してキーワード抽出がなされ、少なくとも 1枚の原稿に対して電子透力しが実 行される。そうすることで一連の原稿をひとまとめにデータベースに格納することがで きると共に、データ提供時もひとまとめに提供することができる。
[0105] 前記定義済み処理キーワード抽出 (ステップ 200)は、まず、図 7に示すように、文 書形式決定手段が、画像データから文書の文字、線分を認識し、文字数、線分数を 演算し、力かる文字数、線分数力 図面、フォーム、レターから対象文書の文書形式 を決定する (ステップ 201)。レイアウト解析手段が、画像データをレイアウト解析し、レ ィアウト情報及びフォントサイズ情報を生成する (ステップ 211)。テキストデータ変換 手段が、画像データをテキストデータに変換する (ステップ 221)。このステップ 221で 変換されたテキストデータを、形態素解析手段が形態素解析し形態素解析情報を生 成する (ステップ 231)。出現頻度演算手段が形態素解析情報から形態素の出現頻 度を演算し、出現頻度情報を生成する (ステップ 241)。
[0106] 次に、インタフェースがレイアウト情報、フォントサイズ情報及び出現頻度情報を取り 込み、ワーキングメモリ上に配置する(ステップ 251)。ここで、プロダクションシステム の構成は図 5に示す通りである。インタフェースは入出力を担っている。プロダクショ ンメモリ上のプロダクションルールが対象文書の文書形式に対応するもののみに限 定される (ステップ 252)。この限定によりプロダクションインタープリタの照合処理を迅 速に行うことができる。プロダクションインタープリタがワーキングメモリに配置された要 素と、限定されたプロダクションルールとを照合し、条件部を満たしているプロダクショ ンルールを探し出す (ステップ 253)。該当プロダクションルールが複数ある場合には 、前記した競合解消により最適なプロダクションルールを選択する (ステップ 254)。プ ロダクシヨンルールの後件部には確信度が対応付けられており、インタフェースは確 信度及びキーワードを出力する (ステップ 261)。確信度が複数存在する場合には、 前記合成方法により確信度を合成する構成をとることもできる。前記ステップ 201な ヽ しステップ 261は文書管理サーバ 20が構築されているコンピュータの CPU (キーヮ ード自動抽出部 22)が行う。
[0107] 前記定義済み処理電子透かし (ステップ 400)は、図 8に示すように、 CPU (電子透 かし部 24)が対象データとなる多バンド原画像の固有値及び固有ベクトルを演算し( ステップ 401)、 CPUがこの算出された固有値及び固有ベクトルを安全にハードディ スクに記録し (ステップ 402)、 CPUが演算した固有値及び固有ベクトルにより多バン ド原画像を主成分変換し (ステップ 411)、 CPUが主成分変換後の第 1主成分画像 に対して指定された角度 Θでの斜交座標変換し (ステップ 421)、 CPUがこの斜交座 標変換したデータを可逆なウェーブレット変換し (ステップ 431)、 CPUが可逆なゥェ 一ブレット変換後の高周波成分に秘密データである秘密画像を埋め込み (ステップ 4 41)、 CPUが埋め込み後可逆なウェーブレット逆変換を行い(ステップ 451)、 CPU が前記指定された Θで斜交座標逆変換し (ステップ 461)、 CPUが固有値及び固有 ベクトルにより他の主成分画像と供に主成分逆変換し (ステップ 471)て流通用対象 データである流通用多バンド画像を生成する構成である。
[0108] [5. 2 対象ドキュメント提供時]
使用者はユーザコンピュータ 30から文書管理サーバ 20にアクセスして対象ドキュメ ントを使用可能となる。
ユーザコンピュータ 30が文書管理サーバ 20にアクセスすると、認証部 26により認 証がなされる。認証を経てユーザが特定された後に、特定されたユーザの権限内で 対象ドキュメントに対して操作を行うことができる。対象ドキュメントを検索したり、対象 ドキュメントを読み出したり、対象ドキュメントを更新したりすることができる。ここで、対 象ドキュメントを検索した場合には、特定されたユーザの権限内の対象ドキュメントの みが検索対象となる。検索キーの対象としては、主にキーワードが該当する力 管理 情報内の情報、対象ドキュメントの内容がを対象とすることができる。好ましくは、検索 キーとなるものは、検索キー用として別途データベースに格納する方がよい。
ユーザが認証を経て、対象ドキュメントを特定した後に、対象ドキュメントを読み出 す操作を行った場合には次の処理がなされる。
[0109] 秘密画像である秘密データがハイディングされる前の多バンド原データに主成分変 換を行った際の係数 (パラメータとも 、 、、通常固有ベクトルを係数として用いること ができる)を CPUが読み出し (ステップ 601)、 CPUがこの係数を用いて主成分変換 して (ステップ 611) CPUが第 1主成分データを指定された Θで斜交座標変換し (ス テツプ 621)、 CPUが変換後の第 1主成分データに対して可逆なウェーブレット分解 を行い (ステップ 631)、 CPUが高周波成分力も秘密データを抽出 (ステップ 641)す ることにより実現される。本実施形態に係る情報ノ、イデイングに対する復号は、秘密 データをハイディングする前の多バンド原データに主成分変換を行った際の係数及 び斜交座標変換での Θを知っている場合のみ複合が可能となる。すなわち、秘密デ ータをハイディングする前の多バンド対象データにより、主成分変換の係数は異なる 。 Θの指定は使用者の任意で行うことができる。 HSI変換等の係数は周知であるた め、第 3者が秘密データの情報を入手する可能性がある。また、従来では、多バンド 対象データの特定成分のみに秘密データをハイディングするため、その特定成分に 対してウェーブレット分解を行うことにより秘密データを第 3者が入手する可能性があ る。すなわち、各バンドデータに対してウェーブレット分解を行うことにより秘密データ を第 3者が入手する可能性がある。
[0110] 復号方法において、情報ハイディング時に使用した可逆なウェーブレット変換の変 換係数と、多バンド原画像の固有値及び固有ベクトルは重要なものであり、秘密画像 データを復号する権限なき者が復号できな 、ように管理されて 、る必要がある。ここ で、復号時に使用する固有値及び固有ベクトルはあくまでも多バンド原画像から算出 されるものであり、流通用多バンド画像力 算出されるものではない。また、多バンド 原画像から固有値及び固有ベクトルは算出することができるため、結果的に多バンド 原画像も管理されている必要がある。したがって、周知の画像を多バンド原画像とし て採用することは、得策ではない。
[0111] 秘密画像を抽出した後に、前説したステガノグラフィを用いて秘密画像カゝら特定さ れる乱数の初期値を用いて選択画素群の下位ビットから取り出した情報を並び替え て管理情報を再構成する。管理情報を再構成した後に、アクセス履歴として現在の ユーザを識別するための情報、操作内容、操作日時を別途管理情報として更新し、 再び、ステップ 441ないしステップ 471までの処理を繰り返す。そして、 CPU (データ 提供部 27)が使用者が用いて!/、るユーザコンピュータ 30に対して対象ドキュメントを 送信する。
[0112] 前記係数、固有ベクトル、 Θ、乱数の初期値等の演算に必要となる情報は対象ドキ ュメントと同様にデータベースに記憶しておき、認証が適切になされた場合に対象ド キュメントと共に読み出し可能となる構成をとることもできるし、対象ドキュメントとは別 のデータベースに格納する構成をとることもできる。
[0113] [6.実施形態の効果]
このように本実施形態に係る文書管理システムによれば、複写機 11、スキャナ 12、 ファクシミリ 13及び複合機 14を介在させて文書管理サーバ 20に取り込んだ対象ドキ ュメントからキーワードを自動的に抽出し、管理情報をステガノグラフィを用いて鍵画 像に埋め込み、この鍵画像を用いて対象ドキュメントに対して電子透力しを実行し、 予め概念辞書に従って構築されたデータベースに対して抽出したキーワードに基づ き処理済対象ドキュメントを格納するので、使用者の手を煩わせることなく自動的に データベースに整理した状態で格納することができ、且つ、電子透かしにより鍵画像 が埋め込まれており原本証明ができる共に、管理情報を所定の手順を経て鍵画像に 埋め込んでおり改ざんが困難であり適切な対象ドキュメントの管理を実現することが できる。
[0114] なお、アクセス権限に関しては、 DBMSのアクセス権限機能を用いて、対象ドキュメ ントを格納したユーザの指定で DBMS上のアクセス権限を設定してもよ 、し、別途独 自にアクセス権限機能を文書管理サーバ 20上で実装してもよ 、。
また、ユーザコンピュータ 30からのアクセス要求に対して文書管理サーバ 20がァク セス要求に係る対象ドキュメントを送信する構成であつたが、複写機 11、ファクシミリ 1 3、複合機 14力ゝらのアクセス要求を実施する構成であってもよい。アクセス要求に係 る対象ドキュメントを複写したり、 FAX送信したりすることができる。
[0115] [7.応用例]
[7. 1 グループ]
本実施形態に係る文書管理システムにおいては、カードキーに対してグループを 識別するための情報を含ませ、カード読取装置でグループ IDを特定し、当該グルー プ IDを対象ドキュメント、ユーザ ID及び操作指定情報と共に送信し、グループに対 するアクセス権限を設定することもできる。対象ドキュメントがデータベースに格納さ れた後に、一例としてあるグループ Aに所属するユーザ aは対象ドキュメント αにァク セスし読み出すことが可能である一方で、グループ Βに所属するユーザ bは対象ドキ ュメント aにアクセスし読み出すことができないといった、グループ毎にアクセスコント ロールが可能となる。この場合にユーザのアクセス権限と、グループのアクセス権限 のどちらを優先するかを設定することができる。
[0116] [7. 2 削除予定等の指定]
本実施形態に係る文書管理システムにおいては、使用者が認証を経た後に、各種 設定を行い、対象ドキュメント、ユーザ IDの他に指定された操作指定情報を文書管 理サーバ 20に送信し、文書管理サーバ 20は通常通りにデータベースに対象ドキュメ ントを格納する処理の他、操作指定情報で指定された操作を実行する構成にするこ とちでさる。
一例として、対象ドキュメントの削除指定を行うことができ、削除日時を指定したり、 対象ドキュメント保持期間を指定する構成にすることもできる。
削除指定がなされている場合には、文書管理サーバ 20の記憶装置上に別途記憶 しておき、 CPUが定期的に削除日時に該当する力否かを判定し、該当する場合に は対象ドキュメントをデータベース上力も削除する構成が一例となる。
[0117] [7. 3 セキュアの通信路]
本実施形態に係る文書管理システムにおいては、複写機 11等の入力装置 10と文 書管理サーバ 20との間はセキュアな通信路が確保されて 、ることが望ま U、。図 1の ように同一ネットワーク上にユーザコンピュータ 30が配置されている場合には入力装 置 10から文書管理サーバ 20に送信される間に対象ドキュメントの情報をネットワーク 上力 盗用することが可能となる場合がある力 である。次実施形態のように、文書管 理サーバ 20と複写機 11とが一体的に構成されている場合には、情報は内部バス内 でのやり取りとなるために所定の機密性を保持することができる。
[0118] [7. 4 システム構成]
本実施形態に係る文書管理システムにおいては、入力装置 10が直接ネットワーク に接続するのではなく文書管理サーバ 20が構築されているコンピュータ又はユーザ コンピュータ 30と接続しコンピュータを介在してネットワークに接続した構成をとること ちでさる。
[0119] (本発明の第 2の実施形態)
図 10は本実施形態に係る文書管理システムのシステム構成図である。 本実施形態に係る文書管理システムは、前記第 1の実施形態に係る文書管理シス テムと同様に構成され、前記文書管理サーバ 20が構築されているコンピュータを構 成から外し、前記文書管理サーバ 20の機能を複写機 11が包含する構成である。
[0120] 複写機 11のハードウェア構成は、 [2. 1 複写機]で前説したように、プログラムや 原画像情報を一時的に記録するメモリと、プログラムや原画像情報を記録する HDと 、操作ボタンや操作パネルカゝらなるインタフェース部と、構成要素を各種制御する CP Uと、ネットワークと接続する LANインターフェース等の通信部とを備え、文書管理サ ーバ 20が構築されているコンピュータと略同様のハードウェアの構成を包含しており 、文書管理サーバプログラムを複写機 11にインストールすることで前記文書管理サ ーバ 20の機能を複写機 11が包含することを実現することができる。ここで、文書管理 サーバ 20が複写機 11上に構築されたと言い換えることができる。ただし、具体的に は複写機 11と一般的なコンピュータで使用される OSの相違から生じる文書管理サ ーバプログラムの修正が必要となる場合もあるが、所謂当業者であれば実現すること に困難'性はない。
[0121] このような構成とした場合には、スキャナ 12、ファクシミリ 13、複合機 14は文書管理 サーバが構築されて ヽる複写機 11に対して対象ドキュメントを送信する構成となる。 入力装置 10全てに文書管理サーバを構築する構成にすることもできる。
このように本実施形態によれば、文書管理サーバ 20が構築されて 、るコンピュータ と入力装置 10間の通信路をセキュアに確保する必要がなくなる。
[0122] [応用例]
本実施形態に係る文書管理システムにおいては、カメラ付き携帯電話 15を利用し て撮像された画像情報を複写機 11の処理対象として複写機 11に携帯通信網等を 介在して送信することもできる。
そうすることで、ユーザが手軽に集めた画像情報を基にデータベースに有用な情 報を格納することができる。
[0123] (本発明の第 3の実施形態)
本実施形態に係る文書管理システムは、前記第 1の実施形態に係る文書管理シス テムと同様に構成され、前記文書管理サーバ 20が構築されているコンピュータを構 成要素として維持し、前記文書管理サーバ 20の機能の殆どを複写機 11が包含する 構成で、文書管理サーバ 20自体は複写機 11から送信される対象ドキュメントに基づ Vヽてデータベースに格納するのみの動作に留まると 、う構成である。
[0124] 図 11は本実施形態に係る文書管理システムの動作フローチャートである。すなわ ち、複写機 11から原稿画像情報を対象ドキュメントとし、 [4. 2 ステガノグラフィ]で 記載した管理情報を埋め込んだ鍵画像を対象ドキュメントに前説した [4. 1 電子透 かし]を用いて埋め込み、文書管理サーバ 20に送信する。文書管理サーバ 20は [3 . 1 キーワード抽出]で説明したキーワード抽出を行い、抽出したキーワードを用い て [3. 2 語彙概念構造辞書を有したデータベース構成]で説明したデータベース格 納を実施する。
[0125] このように本実施形態に係る文書管理システムによれば、文書管理サーバ 20に送 信する前の時点で、複写機 11により電子透力しが実施されており、仮に第三者がネ ットワークを悪用してネットワーク上のデータを盗用した場合であっても、鍵画像が埋 め込まれて 、るために原本証明を実施することができる。
[0126] 以上の前記各実施形態により本発明を説明したが、本発明の技術的範囲は実施 形態に記載の範囲には限定されず、これら各実施形態に多様な変更又は改良を加 えることが可能である。そして、力 うな変更又は改良を加えた実施の形態も本発明 の技術的範囲に含まれる。このことは、特許請求の範囲及び課題を解決する手段か らち明らかなことである。

Claims

請求の範囲
[1] 対象ドキュメントを取り込むための入力部と、取り込まれた対象ドキュメント中の文字か らキーワードを抽出するキーワード自動抽出部と、対象ドキュメントを抽出されたキー ワードに対応付けて記憶手段に格納する格納部とを備える文書管理装置であって、 抽出された複数キーワードについて出現頻度、対象ドキュメントの文書形式、キー ワードの文書中での位置及びキーワードの文字サイズの少なくとも 1つを用いてキー ワードの重要度を求める重要度決定部とを新たに備え、
重要度決定部にて重要度の高いとされたキーワードを用いて格納部が対象ドキュメ ントを記憶手段に格納する文書管理装置。
[2] 対象ドキュメントについて複数のキーワードが抽出された場合には概念辞書を用いて 重要度の高いキーワードと同一概念に属する下位概念のキーワードを特定する手段 を新たに備え、
特定した下位概念のキーワードを用いて格納部が対象ドキュメントを記憶手段に格 納する
前記請求項 1に記載の文書管理装置。
[3] 対象ドキュメントを取り込むための入力部と、取り込まれた対象ドキュメント中の文字か らキーワードを抽出するキーワード自動抽出部と、対象ドキュメントを抽出されたキー ワードに対応付けて記憶手段に格納する格納部とを備える文書管理装置であって、 登録語彙間の概念関係が定められている概念辞書に登録されている語彙に基づ
V、て構築されて 、るデータベースを記憶手段として用い、
抽出されたキーワードに基づき対象ドキュメントがデータベースに格納される文書 管理装置。
[4] 対象画像ドキュメントに対して主成分変換する手段と、当該主成分変換後の各主成 分データの少なくとも 1つに対して可逆であるウェーブレット変換する手段と、可逆で あるウェーブレット変換後の主成分データの高周波成分に予め用意された鍵画像を 埋め込む手段と、当該鍵画像埋め込み後の主成分データをウェーブレット逆変換す る手段と、当該ウェーブレット逆変換後の主成分データを含めて他の主成分データと 共に主成分逆変換する手段とを新たに備える 前記請求項 1ないし 3に記載の文書管理装置。
[5] 対象ドキュメントを取り込むための入力部と、対象ドキュメントを記憶手段に格納する 格納部とを備える文書管理装置であって、
対象画像ドキュメントに対して主成分変換する手段と、当該主成分変換後の各主成 分データの少なくとも 1つに対して可逆であるウェーブレット変換する手段と、可逆で あるウェーブレット変換後の主成分データの高周波成分に予め用意された鍵画像を 埋め込む手段と、当該鍵画像埋め込み後の主成分データをウェーブレット逆変換す る手段と、当該ウェーブレット逆変換後の主成分データを含めて他の主成分データと 共に主成分逆変換する手段とを新たに備える文書管理装置。
[6] 少なくとも鍵画像が埋め込まれる前に、対象画像ドキュメントに埋め込まれる鍵画像 に対して対象画像ドキュメントを管理するための管理情報をステガノグラフィを用いて 埋め込む手段を新たに備える
前記請求項 5に記載の文書管理装置。
[7] 前記鍵画像に管理情報を埋め込む場合に、鍵画像中の所定選択画素群の各画素 の下位ビットに分散させて管理情報を埋め込む
前記請求項 6に記載の文書管理装置。
[8] 前記選択画素群の各画素の下位ビットに管理情報を埋め込む場合に、管理情報を 乱数アルゴリズムを用いて並び替え、乱数アルゴリズムに関連する情報に対応する 鍵画像に並び替えた管理情報を埋め込む
前記請求項 7に記載の文書管理装置。
[9] 複写機上に構築される
前記請求項 1な!、し 8の 、ずれかに記載の文書管理装置。
[10] 対象ドキュメントを取り込むための入力部と、取り込まれた対象ドキュメント中の文字か らキーワードを抽出するキーワード自動抽出部と、対象ドキュメントを抽出されたキー ワードに対応付けて記憶手段に格納する格納部としてコンピュータを機能させるため の文書管理プログラムであって、
抽出された複数キーワードを出現頻度、対象ドキュメントの文書形式、キーワードの 文書中での位置及びキーワードの文字サイズの少なくとも 1つを用いてキーワードの 重要度を求める重要度決定部と、
対象ドキュメントについて複数のキーワードが抽出された場合には概念辞書を用い て重要度の高いキーワードと同一概念に属する下位概念のキーワードを特定する手 段としてコンピュータを機能させ、
特定した下位概念のキーワードを用いて格納部が対象ドキュメントを記憶手段に格 納する文書管理プログラム。
対象ドキュメントを取り込むための入力部と、取り込まれた対象ドキュメント中の文字か らキーワードを抽出するキーワード自動抽出部と、対象ドキュメントを抽出されたキー ワードに対応付けて記憶手段に格納する格納部とを備える文書管理システムであつ て、
抽出された複数キーワードを出現頻度、対象ドキュメントの文書形式、キーワードの 文書中での位置及びキーワードの文字サイズの少なくとも 1つを用いてキーワードの 重要度を求める重要度決定部と、
対象ドキュメントについて複数のキーワードが抽出された場合には概念辞書を用い て重要度の高いキーワードと同一概念に属する下位概念のキーワードを特定する手 段とを備え、
特定した下位概念のキーワードを用いて格納部が対象ドキュメントを記憶手段に格 納する文書管理システム。
PCT/JP2005/020974 2005-11-15 2005-11-15 文書管理装置、そのプログラム及びそのシステム WO2007057945A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2005/020974 WO2007057945A1 (ja) 2005-11-15 2005-11-15 文書管理装置、そのプログラム及びそのシステム
JP2007545119A JP4734662B2 (ja) 2005-11-15 2005-11-15 文書管理装置、そのプログラム及びそのシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/020974 WO2007057945A1 (ja) 2005-11-15 2005-11-15 文書管理装置、そのプログラム及びそのシステム

Publications (1)

Publication Number Publication Date
WO2007057945A1 true WO2007057945A1 (ja) 2007-05-24

Family

ID=38048337

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/020974 WO2007057945A1 (ja) 2005-11-15 2005-11-15 文書管理装置、そのプログラム及びそのシステム

Country Status (2)

Country Link
JP (1) JP4734662B2 (ja)
WO (1) WO2007057945A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010206261A (ja) * 2009-02-27 2010-09-16 Ricoh Co Ltd 文書管理装置、文書処理システム、文書管理方法
JP2012190313A (ja) * 2011-03-11 2012-10-04 Fuji Xerox Co Ltd 画像処理装置およびプログラム
CN113449164A (zh) * 2021-05-15 2021-09-28 南方电网调峰调频发电有限公司信息通信分公司 一种移动办公用敏捷开发管理系统
US11429678B2 (en) 2019-09-18 2022-08-30 Honda Motor Co., Ltd. Document comparison system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314947A (ja) * 1995-05-22 1996-11-29 Mainichi Shinbunsha:Kk キーワード自動抽出装置
JP2003298831A (ja) * 2002-03-29 2003-10-17 Hitachi Koukiyou Syst Eng Kk 情報秘匿方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005761A (ja) * 2003-09-29 2004-01-08 Fujitsu Ltd キーワード抽出・検索装置
JP4257444B2 (ja) * 2004-02-05 2009-04-22 国立大学法人佐賀大学 電子透かし挿入/抽出装置及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314947A (ja) * 1995-05-22 1996-11-29 Mainichi Shinbunsha:Kk キーワード自動抽出装置
JP2003298831A (ja) * 2002-03-29 2003-10-17 Hitachi Koukiyou Syst Eng Kk 情報秘匿方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARAI K.: "Kaiso Bunsekiho ni yoru Chishiki Juyodo no Ketteiho ni Motozuku Kami Baitai Monjo", ZUMEN KARA NO KENSAKUYO KEYWORD CHUSHUTSU, THE JOURNAL OF THE INSTITUTE OF IMAGE ELECTRONICS ENGINEERS OF JAPAN, vol. 34, no. 5, 25 September 2005 (2005-09-25), XP008080756 *
ARAI K.: "Scan Hoshiki o Koryo shita So Chokko Wavelet Tajukaizodo Kaiseki ni Motozuku Data Hiding", THE REMOTE SENSING SOCIETY OF JAPAN DAI 35 KAI (H15 NENDO SHUKI) GAKUJUTSU KOENKAI RONBUNSHU, 21 November 2003 (2003-11-21) *
ARAI K.: "Zahyo Henkan ni Motozuku Joho Hiding Shuho", JOURNAL OF THE VISUALIZATION SOCIETY OF JAPAN, vol. 25, no. SUPPL. 1, 1 July 2005 (2005-07-01) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010206261A (ja) * 2009-02-27 2010-09-16 Ricoh Co Ltd 文書管理装置、文書処理システム、文書管理方法
JP2012190313A (ja) * 2011-03-11 2012-10-04 Fuji Xerox Co Ltd 画像処理装置およびプログラム
US11429678B2 (en) 2019-09-18 2022-08-30 Honda Motor Co., Ltd. Document comparison system
CN113449164A (zh) * 2021-05-15 2021-09-28 南方电网调峰调频发电有限公司信息通信分公司 一种移动办公用敏捷开发管理系统
CN113449164B (zh) * 2021-05-15 2022-08-05 南方电网调峰调频发电有限公司信息通信分公司 一种移动办公用敏捷开发管理系统

Also Published As

Publication number Publication date
JPWO2007057945A1 (ja) 2009-04-30
JP4734662B2 (ja) 2011-07-27

Similar Documents

Publication Publication Date Title
US7593961B2 (en) Information processing apparatus for retrieving image data similar to an entered image
Tang et al. Lexicographical framework for image hashing with implementation based on DCT and NMF
US7961950B2 (en) Image processing apparatus, method thereof, and its control method
JP4533187B2 (ja) 画像処理装置およびその制御方法
EP0635969A2 (en) Source verification method
CN100397864C (zh) 图像处理系统及图像处理方法
US20080002225A1 (en) Printing control method, printing control device, printing sytem, terminal device, program, and recording medium
Tsai et al. Digital forensics of printed source identification for Chinese characters
JP2008234203A (ja) 画像処理装置
JP4791776B2 (ja) セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体
US20220215205A1 (en) Robust content fingerprinting for image attribution
Aparna et al. A blind medical image watermarking for secure E-healthcare application using crypto-watermarking system
JP4338189B2 (ja) 画像処理システム及び画像処理方法
JP4734662B2 (ja) 文書管理装置、そのプログラム及びそのシステム
JP5153277B2 (ja) 画像処理装置、画像処理方法、及び、画像処理プログラム
Shuo-zhong et al. Recent development of perceptual image hashing
US8712155B2 (en) Device for identifying types of document files
JP4895696B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US7532368B2 (en) Automated processing of paper forms using remotely-stored form content
JP2007201639A (ja) 画像処理装置及びその制御方法、画像処理システム、プログラム、記録媒体
JP2004348467A (ja) 画像検索装置及びその制御方法、プログラム
JP5084341B2 (ja) 文書解析処理装置、画像処理装置、文書解析処理プログラム、文書解析処理方法
JP7172343B2 (ja) 文書検索用プログラム
AU2008259730B2 (en) Method of producing probabilities of being a template shape
JP2004334340A (ja) 画像処理方法及び装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007545119

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 05806843

Country of ref document: EP

Kind code of ref document: A1